Различные аспекты многомерной регрессии

25.11.2018

Одним из условий классической регрессионной модели является предположение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы регрессоров Х или (эквивалентно), что матрица (Х’Х)^-1 имеет полный ранг к. При нарушении этого условия, т.е. когда один из столбцов матрицы Х есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить МНК-оценку параметра b, что формально следует из сингулярности матрицы Х’Х и невозможности решить нормальное уравнение. Нетрудно также понять и содержательный смысл этого явления. Рассмотрим следующий простой пример регрессии (Green 1993): С=b₁+b₂S+b₃N+b₄T+e, где С — потребление, S – зарплата, N – доход, получаемый вне работы, T – полный доход. Поскольку выполнено равенство T=S+N, то для произвольного числа h исходную регрессию можно переписать в следующем виде: С=b₁+b₂‘S+b₃‘N+b₄‘T+e, где b₂’=b₂+h, b₃‘=b₃+h, b₄’=b₄—h. Таким образом, одни и те же наблюдения могут быть объяснены различными наборами коэффициентов b. Эта ситуация тесно связана с проблемой идентифицируемости системы, о чем более подробно будет говориться позднее. Кроме того, если с учетом равенства T=S+N переписать исходную систему в виде.

С=b₁+(b₂+b₄)S+(b₃+b₄)N+e, то становится ясно, что оценить можно лишь три параметра b₁, (b₂+b₄) и (b₃+b₄), а не четыре исходных. В общем случае можно показать, что если rank (Х’Х)=l<k, то оценить можно только l линейных комбинаций исходных коэффициентов. Если есть полная коллинеарность, то можно выделить в матрице Х максимальную линейно независимую систему столбцов и, удалив остальные столбцы, провести новую регрессию.

На практике полная коллинеарность встречается исключительно редко. Гораздо чаще приходится сталкиваться с ситуацией, когда матрица Х имеет полный ранг, но между регрессорами имеется высокая степень корреляции, т.е. когда матрица Х’Х, говоря нестрого, близка к вырожденной. Тогда говорят о наличии мультиколлинеарности. В этом случае МНК-оценка формально существует, но обладает «плохими» свойствами. Это нетрудно объяснить, используя геометрическую интерпретацию метода наименьших квадратов. Как уже отмечалось Rⁿвектора Y на векторы, образованные столбцами матрицы Х. Если между этими векторами существует приблизительная линейная зависимость, то операция проектирования становится неустойчивой: небольшому изменению в исходных данных может привести к существенному изменению оценок. Рисунок 1.1 наглядно это демонстрирует. Векторы Y и Y’ мало отличаются друг от друга, но в силу того, что угол между регрессорами Х₁ и Х₂ отличаются значительно. У проекции вектора Y оба коэффициента разложения по Х₁и Х₂ положительны и относительно невелики. У проекции вектора Y’ коэффициент при Х₁ принимает большое отрицательное значение. В сил этого обстоятельства интерпретация коэффициентов регрессии становится весьма проблематичной.

Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания. В частности, так может случиться, когда значения одной независимой переменной являются лагированными значениями другой.

Выделим некоторые наиболее характерные признаки мультиколлинеарности.

Небольшое изменение исходных данных приводит к существенному изменению оценок коэффициентов модели.
Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой.
Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.

Фиктивные переменные

Как правило, независимые переменные в регрессионных моделях имеют «непрерывные» области изменения. Однако теория не накладывает никаких ограничений на характер регрессоров, в частности, некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость рассматривать такие переменные возникает довольно часто в тех случаях, когда требуется принимать во внимание какой-либо качественный признак. Например, при исследовании зависимости зарплаты от различных факторов может возникнуть вопрос, влияет ли на ее размер и, если да, то в какой степени, наличие у работника высшего образования. Также можно задать вопрос, существует ли дискриминация в оплате труда между мужчинами и женщинами. В принципе можно оценивать соответствующие уравнения внутри каждой категории, а затем изучать различия между ними, но введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.

Покажем, как это можно сделать в примере с зарплатой. Пусть X=(X₁,…,X_k)’ – набор объясняющих (независимых) переменных, т.е. первоначальная модель описывается уравнениями

Y_t =X_t₁b₁+…+X_tk b_k +e_t =X_t’b+e_t, t=1,…,n.

Где Y_t – размер зарплаты t-го работника. Теперь мы хотим включить в рассмотрение такой фактор, как наличие или отсутствие высшего образования. Введем новую, бинарную, переменную d , полагая d_t=1, если в t-м наблюдении индивидуум имеет высшее образование, и d_t=0 в противном случае, и рассмотрим новую систему

Y_t =X_t₁b₁+…+X_tk b_k +d_t d+e_t =Z_t’g+e_t, t=1,…,n

Где Z= (X_1,…,X_k, d)’=(X’,d)’, g=(b₁,…,b_k,d)’. Иными словами, принимая модель (2.2), мы считаем, что средняя зарплата есть Х’b при отсутствии высшего образования и Х’b +d — при его наличии. Таким образом, величина d интерпретуется как среднее изменение зарплаты при переходе из одной категории в другую при неизменных значениях остальных параметров. К системе (2.2) можно применить метод наименьших квадратов и получить оценки соответствующих коэффициентов. Легко понять, что, тестируя гипотезу d=0, мы проверяем предположение о несущественном различии в зарплате между категориями.

Фиктивные переменные позволяют строить и оценивать так называемые кусочно-линейные модели, которые можно применять для исследования структурных изменений. Как и раньше, проще всего это продемонстрировать на примере.

Пусть Y – зависимая переменная и пусть для простоты есть только две независимый переменные: Х и постоянный член. Предположим, что Х и Y представлены в виде временных рядов {(X_t, Y_t ), t=1,…,n}. Из некоторых априорных соображений исследователь считает, что в момент t₀ произошла структурная перестройка и линия регрессии будет отличаться от той, что была до момента t₀, но общая линия остается непрерывной.

Чтобы оценить такую модель, введем бинарную переменную R, полагая R_t =0, если t £ t₀ и R_t =1, t > t₀, и запишем следующее регрессионное уравнение:

Y_t= b₁ + b₂X_t+b₃(X_t-X_t0) R_t+e_t.

Нетрудно проверить, что регрессионная линия, соответствующая, имеет коэффициент наклона b₂ для t £ t₀ и b₂+b₃ для t > t₀, и разрыва в точке X_tне происходит. Таким образом, тестируя гипотезу b₃=0, мы проверяем предположение о том, что фактически структурного изменения не произошло.

Этот подход легко обобщается на случай нескольких структурных изменений в пределах одного временного интервала. Мы предлагаем читателю сделать это самостоятельно.

В заключение этого раздела отметим, что с помощью фиктивных переменных можно исследовать влияние разных качественных признаков, а также их взаимное влияние. Следует только быть внимательным, чтобы при включении нескольких бинарных переменных не нарушить линейную независимость регрессоров.