Различные аспекты многомерной регрессии

Одним из условий классической регрессионной модели является предположение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы регрессоров Х или (эквивалентно), что матрица (Х’Х)-1 имеет полный ранг к. При нарушении этого условия, т.е. когда один из столбцов матрицы Х есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить МНК-оценку параметра b, что формально следует из сингулярности матрицы Х’Х и невозможности решить нормальное уравнение. Нетрудно также понять и содержательный смысл этого явления. Рассмотрим следующий простой пример регрессии (Green 1993): С=b1+b2S+b3N+b4T+e, где С — потребление, S – зарплата, N – доход, получаемый вне работы, T – полный доход. Поскольку выполнено равенство T=S+N, то для произвольного числа h исходную регрессию можно переписать в следующем виде: С=b1+b2 S+b3 N+b4 T+e, где b2’=b2+h, b3 ‘=b3+h, b4’=b4h. Таким образом, одни и те же наблюдения могут быть объяснены различными наборами коэффициентов b. Эта ситуация тесно связана с проблемой идентифицируемости системы, о чем более подробно будет говориться позднее. Кроме того, если с учетом равенства T=S+N переписать исходную систему в виде.

С=b1+(b2 +b4)S+(b3 +b4)N+e, то становится ясно, что оценить можно лишь три параметра b1, (b2 +b4) и (b3 +b4), а не четыре исходных. В общем случае можно показать, что если rank (Х’Х)=l<k, то оценить можно только l линейных комбинаций исходных коэффициентов. Если есть полная коллинеарность, то можно выделить в матрице Х максимальную линейно независимую систему столбцов и, удалив остальные столбцы, провести новую регрессию.

На практике полная коллинеарность встречается исключительно редко. Гораздо чаще приходится сталкиваться с ситуацией, когда матрица Х имеет полный ранг, но между регрессорами имеется высокая степень корреляции, т.е. когда матрица Х’Х, говоря нестрого, близка к вырожденной. Тогда говорят о наличии мультиколлинеарности. В этом случае МНК-оценка формально существует, но обладает «плохими» свойствами. Это нетрудно объяснить, используя геометрическую интерпретацию метода наименьших квадратов. Как уже отмечалось Rn вектора Y на векторы, образованные столбцами матрицы Х. Если между этими векторами существует приблизительная линейная зависимость, то операция проектирования становится неустойчивой: небольшому изменению в исходных данных может привести к существенному изменению оценок. Рисунок 1.1 наглядно это демонстрирует. Векторы Y и Y’ мало отличаются друг от друга, но в силу того, что угол между регрессорами Х1  и Х2  отличаются значительно. У проекции вектора Y оба коэффициента разложения по Х1 и Х2  положительны и относительно невелики. У проекции вектора Y’ коэффициент при Х1  принимает большое отрицательное значение. В сил этого обстоятельства интерпретация коэффициентов регрессии становится весьма проблематичной.

Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания. В частности, так может случиться, когда значения одной независимой переменной являются лагированными значениями другой.

Выделим некоторые наиболее характерные признаки мультиколлинеарности.

  1. Небольшое изменение исходных данных приводит к существенному изменению оценок коэффициентов модели.
  2. Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой.
  3. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.

Фиктивные переменные

Как правило, независимые переменные в регрессионных моделях имеют «непрерывные» области изменения. Однако теория не накладывает никаких ограничений на характер регрессоров, в частности, некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость рассматривать такие переменные возникает довольно часто в тех случаях, когда требуется принимать во внимание какой-либо качественный признак. Например, при исследовании зависимости зарплаты от различных факторов может возникнуть вопрос, влияет ли на ее размер и, если да, то в какой степени, наличие у работника высшего образования. Также можно задать вопрос, существует ли дискриминация в оплате труда между мужчинами и женщинами. В принципе можно оценивать соответствующие уравнения внутри каждой категории, а затем изучать различия между ними, но введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.

Покажем, как это можно сделать в примере с зарплатой. Пусть X=(X1 ,…,Xk)’ – набор объясняющих (независимых) переменных, т.е. первоначальная модель описывается уравнениями

Yt =Xt1 b1 +…+Xtk bk +et =Xt’b+et, t=1,…,n.

Где Yt – размер зарплаты t-го работника. Теперь мы хотим включить в рассмотрение такой фактор, как наличие или отсутствие высшего образования. Введем новую, бинарную, переменную d , полагая dt=1, если в  t-м наблюдении индивидуум имеет высшее образование, и dt=0 в противном случае, и рассмотрим новую систему

Yt =Xt1 b1 +…+Xtk bk +dt d+et =Zt’g+et, t=1,…,n

Где Z= (X1,…,Xk, d)’=(X’,d)’, g=(b1,…,bk,d)’. Иными словами, принимая модель (2.2), мы считаем, что средняя зарплата есть Х’b при отсутствии высшего образования и  Х’b +d — при его наличии. Таким образом, величина d интерпретуется как среднее изменение зарплаты при переходе из одной категории в другую при неизменных значениях остальных параметров. К системе (2.2) можно применить метод наименьших квадратов и получить оценки соответствующих коэффициентов. Легко понять, что, тестируя гипотезу d=0, мы проверяем предположение о несущественном различии в зарплате между категориями.

Фиктивные переменные позволяют строить и оценивать так называемые кусочно-линейные модели, которые можно применять для исследования структурных изменений. Как и раньше, проще всего это продемонстрировать на примере.

Пусть Y – зависимая переменная и пусть для простоты есть только две независимый переменные: Х и постоянный член. Предположим, что Х и Y представлены в виде временных рядов {(Xt, Yt ), t=1,…,n}. Из некоторых априорных соображений исследователь считает, что в момент t0 произошла структурная перестройка и линия регрессии будет отличаться от той, что была до момента t0 , но общая линия остается непрерывной.

Чтобы оценить такую модель, введем бинарную переменную R, полагая Rt =0, если t £ t0  и Rt =1, t > t0 , и запишем следующее регрессионное уравнение:

Yt = b1 + b2 Xt +b3 (Xt-Xt0) Rt +et.

Нетрудно проверить, что регрессионная линия, соответствующая, имеет коэффициент наклона b2  для t £ t0  и b2+b3 для t > t0, и разрыва в точке Xt не происходит. Таким образом, тестируя гипотезу b3=0, мы проверяем предположение о том, что фактически структурного изменения не произошло.

Этот подход легко обобщается на случай нескольких структурных изменений в пределах одного временного интервала. Мы предлагаем читателю сделать это самостоятельно.

В заключение этого раздела отметим, что с помощью фиктивных переменных можно исследовать влияние разных качественных признаков, а также их взаимное влияние. Следует только быть внимательным, чтобы при включении нескольких бинарных переменных не нарушить линейную независимость регрессоров.