18026

Эконометрические методы

Книга

Экономическая теория и математическое моделирование

Эконометрические методы Введение Данное пособие появилось как результат факультатива и спецкурса прочитанных автором для студентов экономического факультета Новосибирского университета в 1996 г. Пособие состоит из двух самостоятельных разделов. Раздел I основан ...

Русский

2013-07-06

1.78 MB

6 чел.

Эконометрические методы

Введение

Данное пособие появилось как результат факультатива и спецкурса, прочитанных автором для студентов экономического факультета Новосибирского университета в 1996 г. Пособие состоит из двух самостоятельных разделов.

Раздел I основан на факультативе “Некоторые эконометрические методы” (совместно с Н. Ибрагимовым). Факультатив предназначался в основном для студентов 2-го курса, которые только начинали слушать вводный курс эконометрии. Поэтому для понимания раздела не требуется серьезного знакомства с эконометрической теорией. Исключение составляют дополнительные параграфы, посвященные популярной в настоящее время теме единичных корней и коинтеграции.

Раздел II представляет собой переработанный материал спецкурса “Метод максимального правдоподобия в эконометрии”. Это цельный продвинутый курс, рассчитанный на студентов, хорошо знакомых с классическими эконометрическими методами. Метод максимального правдоподобия составляет теоретическую основу большей части эконометрии. Знание его необходимо для понимания современной экономической литературы. В этом пособии продемонстрировано применение ММП к некоторым базовым видам моделей, что позволяет познакомиться с возможностями метода и научиться основным приемам. Главное внимание уделено теории тестирования и методов оценивания. Полученные навыки должны помочь, если такая необходимость возникнет в ходе исследований, самостоятельно разрабатывать методы оценивания и тестирования для моделей других видов.

Основой для изложения метода максимального правдоподобия и его применений послужила книга R. Davidson & J.G. MacKinnon, Estimation and Inference in Econometrics. Многие подходы и обозначения совпадают. Данное пособие, однако, не является простым переложением этой книги. Книга Дэвидсона и Мак-Киннона предназначена для изучения курса эконометрии в целом, а пособие делает акцент именно на одном этом методе. Кроме того, при написании пособия использованы другие учебники и оригинальные статьи из научных журналов. Поэтому рассматривается ряд тем и методов, которые отсутствуют у Дэвидсона и Мак-Киннона. Материал изложен так, как это было удобнее с точки зрения целей данного пособия. Доказательства основных свойств оценок ММП (состоятельности, асимптотической эффективности и асимптотической нормальности) не приводятся. Их можно найти в учебниках по математической статистике.

Хотя второй раздел ни в коем случае не претендует на математическую строгость, однако является гораздо менее простым, чем первый раздел. Широко используется аппарат матричной алгебры и матричного анализа. Используемые правила матричных операций особо выделены в тексте раздела.

В целом пособие дополняет имеющуюся на русском языке литературу по эконометрическим методам.


Оглавление




I. Некоторые эконометрические методы

Функциональная форма регрессионной модели 

Необходимость изменить функциональную форму модели возникает, если неверна одна из следующих гипотез, выполнение которых требуется для того, чтобы обычный метод наименьших квадратов (ОМНК) в применении к регрессионной модели Y i  X i  +  i  (i 1,..., N ) давал хорошие результаты: 1

1. Ошибки имеют нулевое математическое ожидание, или, что то же самое, мат. ожидание зависимой переменной является линейной комбинацией регрессоров:

 E (i) 0, E (Y i) X i .

2. Ошибки гомоскедастичны, т. е. имеют одинаковую дисперсию для всех наблюдений:

 V (i2) E (i2)   2.

Тестирование правильности спецификации регрессионной модели 

Рис.

Если ошибка имеет ненулевое мат. ожидание, то оценки ОМНК окажутся смещенными. Другими словами, в ошибке осталась детерминированная (неслучайная) составляющая, которая может быть функцией входящих в модель регрессоров, что и означает, что функциональная форма  выбрана неверно. Заметить эту ошибку спецификации можно на глаз с помощью графиков остатков по “подозрительным” переменным: регрессорам и их функциям (в т. ч. произведениям разных регрессоров), расчетным значениям и их функциям. Остатки дают представления об ошибках, поэтому они должны в правильно заданной регрессии иметь везде нулевое среднее. Если остатки (e), например, для каких-то значений некоторой переменной Z в среднем больше нуля, а для каких-то – меньше, то это служит признаком неправильно специфицированной модели (см. Рис. ).

Похожим образом обнаруживается и гетероскедастичность  (отсутствие гомоскедастичности). Она проявляется в том, что разброс остатков меняется в зависимости от некоторой переменной Z (см. Рис. )

Рис.

Дисперсия ошибок может меняться в зависимости от регрессоров и их функций, расчетных значений и их функций. Формальный тест можно провести с помощью вспомогательной регрессии — регрессии квадратов остатков по “подозрительным” переменным и константе.  Соответствующая статистика — обычная F-статистика для гипотезы о равенстве нулю коэффициентов при всех переменных кроме константы, выдаваемая любым статистическим пакетом.

Ошибки в спецификации функциональной формы обнаруживаются также тестами на автокорреляцию остатков, такими как статистика Дарбина-Уотсона, если наблюдения упорядочены по каком-либо признаку, например, по порядку возрастания одного из регрессоров. Понятно, что это тест неформальный.

Линейные и нелинейные модели 

Линейная форма модели в целом является более предпочтительной. Линейные модели оцениваются более простым методом наименьших квадратов. При выполнении некоторого набора гипотез оценки ОМНК для линейной модели обладают рядом хороших свойств, не выполняющихся для оценок нелинейной модели, это же относится к распределениям оценок и различных статистик.

В линейной регрессионной модели мат. ожидание зависимой переменной — это линейная комбинация регрессоров с неизвестными коэффициентами, которые и являются оцениваемыми параметрами модели. Такая модель является линейной по виду.  В матричной форме ее можно записать как Y = X + . Не обязательно, чтобы влияющие на Y факторы входили в модель линейно. Регрессорами могут быть любые точно заданные (не содержащие неизвестных параметров) функции исходных факторов – это не меняет свойств ОМНК. Важно, чтобы модель была линейной по параметрам.  Бывает, что модель записана в виде, который нелинеен по параметрам, но преобразованием уравнения регрессии и переобозначением параметров можно привести ее к линейному виду. Такую модель называют внутренне линейной.

Поясним введенные понятия на примерах. Модель Y   + X1X2 +  нелинейна по X1 и X2, но линейна по параметрам, и можно сделать замену X = X1X2, так что модель примет линейный вид: Y   + X + . Модель Y = exp ( + x + ) нелинейна по виду, но сводится к линейной логарифмированием обеих частей: lnY = + x + . В этой новой модели зависимой переменной будет уже lnY.  Модель Y = (a – 1) (b + X ) +  нелинейна по параметрам a и b, но сводится к линейной заменой параметров = (a  – 1) b  и   = a – 1. Тогда Y = + X + .

Для применения метода наименьших квадратов важно, чтобы ошибка была аддитивной,  то есть, чтобы зависимая переменная являлась суммой своего математического ожидания и ошибки. Об этом следует помнить, производя преобразования модели. Например, модель Y = X  +  нельзя преобразовать в линейную по параметрам с аддитивной ошибкой. Аналогичную модель с мультипликативной ошибкой Y = X   можно преобразовать к виду lnY ln + lnX + ln  или  +  + где    lnY,   ln,  = lnX,   ln. Однако следует отметить, что вследствие преобразования распределение ошибки изменилось. Если оказывается нормально распределенной, это значит, что имела логнормальное распределение.

Экономическая теория оперирует моделями разных типов. Некоторые из них дают регрессионные уравнения линейного вида, некоторые – нелинейного. Рассмотрим это на примере однородных производственных функций. Самая популярная производственная функция – функция Кобба-Дугласа – легко приводится к линейному виду логарифмированием:

 Y   K L1–   

 lnY – lnL ln + (lnK – lnL),

где Y – выпуск продукции, K — капитал, L — труд.

Функция с постоянной эластичностью замены (ПЭЗ) дает внутренне нелинейное уравнение регрессии:

 Y = ( K  + (1–) L ) 1/.

Достаточно гладкую функцию вблизи некоторой точки можно разложить в ряд Тейлора, получив тем самым линейную форму модели. Так, при   0 функция с постоянной эластичностью замены совпадает с функцией Кобба-Дугласа. Если же приблизить функцию ПЭЗ в точке   0 разложением в ряд Тейлора до членов первого порядка, то получается так называемая транслоговая производственная функция:

 lnY – lnL ln + (lnK – lnL) + (lnK – lnL)2,

      где      (1  ).

Разложение в ряд Тейлора дает полиномиальную форму модели.  В полиномиальную регрессионную модель могут входить не только первые степени исходных переменных, но и их одночлены различных степеней: степени этих переменных и члены взаимодействия  (произведения степеней двух или более различных переменных).

Может случиться: что “истинная” модель бывает настолько нелинейной, что полиномиальное приближение становится неудовлетворительным — количество оцениваемых параметров было бы слишком большим. Тогда приходится пожертвовать удобствами ОМНК и использовать нелинейный МНК или другие методы. Есть также много других причин, по которым предпочтительнее использовать внутренне нелинейную функциональную форму. Например, функция ПЭЗ, рассмотренная выше, включает в себя как частные случаи при разных значениях параметра сразу несколько популярных видов производственных функций: функцию Кобба-Дугласа, линейную функцию (с полной взаимозаменяемостью факторов) и функцию леонтьевского типа (с полной взаимодополняемостью факторов). Оценив ее, можно сделать вывод о том, к какому из этих трех видов ближе “истинная” функция.

Кроме натуральных степеней исходных переменных можно использовать и другие функции от них. Это и уже встречавшиеся выше логарифмы и т. п.: lnX, ,   1/X , e X, 1/(1+e–X) (логиста) и др. Интересной функцией является преобразование Бокса-Кокса: . При   0 она стремится к lnX. При других значениях это некоторая степень X (с точностью до линейного преобразования). В этом отношении преобразование Бокса-Кокса схоже с функцией ПЭЗ. Оно также похоже на нее в том отношении, что дает внутренне нелинейную модель. Обычно исследователь обладает достаточной свободой при выборе функциональной формы модели. Но важно, чтобы при этом не нарушались те условия, которые необходимы для хорошей работы применяемых методов оценивания. Нужно не забывать проводить проверку правильности спецификации модели и исправлять модель, когда получена плохая диагностика, например, добавлять одночлены более высоких степеней в полиномиальную модель.

Рассмотрим, как может помочь изменение функциональной формы в борьбе с гетероскедастичностью. Многие экономические переменные таковы, что размер отклонений, с ними связанных, зависит от величины этих переменных (например, пропорционален), а величина эта в выборке колеблется в широких пределах (изменяется в несколько раз). Возникающая при этом гетероскедастичность снижает эффективность оценок параметров. Объяснить потерю эффективности можно следующим образом. В методе наименьших квадратов все наблюдения выступают в одинаковых "весовых категориях", и поэтому в оценках непропорционально мало используется информация от наблюдений с меньшей дисперсией. Тем самым происходит потеря информации. Поэтому, например, нехорошо в регрессию включать временные ряды для номинальных показателей, если в рассматриваемой стране высокая инфляция, или использовать непреобразованную модель в случае выборки стран, в которой есть и большие, и малые страны (США наряду с Исландией). Обычно применяют два вида преобразований. Рассмотрим их на примере функции потребительского спроса кейнсианского типа: C = I +X + , где C — потребление, I — доход, X — символизирует прочие факторы. Разумно предположить, что среднеквадратическое отклонение ошибки прямо пропорционально I.

1) Нормирование. Пронормировать рассматриваемую модель можно, разделив ее на I :

      C/I  = + X/I + /I .

Можно использовать для нормировки (взвешивания) и переменную, не входящую в модель. Обозначим ее N:

 C/N  = + X/N + /N .

Нормирование равнозначно использованию взвешенного метода наименьших квадратов. Как веса для номинальных величин можно использовать уровень цен, получив тем самым реальные величины. Как веса для стран можно использовать население, получив тем самым среднедушевые показатели (потребление на душу населения и т. п.).

2) Логарифмирование. Прологарифмировав уравнение C = I + при   C можно получить следующее линейное приближение:

 lnC = ln + lnI + /I .

Вряд ли можно привести теоретические возражения и против того, чтобы сразу использовать линейную в логарифмах модель (эта форма модели сокращенно называется логлинейной) , например,

 lnC = + lnI + .

"Кандидатами" на логарифмирование в первую очередь служат те переменные, которые заведомо могут принимать только положительные значения. Один из их признаков, это то, что, как правило, интересуются относительными приростами таких переменных, а не абсолютными приростами. В экономике это следующие величины: физические объемы благ, цены, стоимостные показатели, различные индексы.

Как итог, перечислим основные функциональные формы регрессионной модели (без учета ошибки) с примерами.

Функциональная форма

Пример

 Линейная

Y  0 +1 X2 +1 X2

 Полиномиальная

Y  0 + 1 X + 2 X 2 + 3 X 3

Y  0 + 1 X1 + 2 X2 + 11 X12 + 22 X22 +12 X1 X2

 Логлинейная

(линейная в логарифмах)

lnY  0 +1 lnX

 Мультипликативная

Y  0 X1 1 X2 2

 Нормированная

Y/N   0 +1 X/N

Возможны различные комбинации этих форм. Например, часто встречается полулогарифмическая форма:

 lnY = +  X,  или  Y   +  lnX,  

  или  lnY = + lnX + Z.

Выбор между альтернативными функциональными формами 

Самый распространенный способ выбора между альтернативными моделями — выбор на основе точности подбора. В качестве показателя точности подбора обычно используется коэффициент детерминации (R2). Не следует забывать, что этот показатель можно использовать для сравнения только моделей с одной и той же зависимой переменной. Чтобы учитывать при выборе простоту модели, делают поправку на количество регрессоров. Это дает коэффициент детерминации скорректированный на количество степеней свободы (2).

Оценки метода наименьших квадратов являются одновременно и оценками метода максимального правдоподобия. Поэтому предлагается сравнивать модели на основе максимума логарифмической функции правдоподобия (). Если учесть при этом количество наблюдений (N) и ввести “штраф” за большое количество регрессоров (k), то получится информационный критерий Акаике (Akaike information criterion):  

 AIC = – 2/N (– k).

Чем меньше AIC, тем лучшей считается модель.

Существует и другой подход к выбору между моделями. Одна из моделей предполагается истинной, т.е. принимается за нулевую гипотезу, и тестируется против некоторой альтернативной гипотезы, спецификация которой зависит от альтернативной модели. По сути дела, осуществляется тестирование функциональной формы “нулевой” модели.

Если одна из моделей является частным случаем другой модели (англ. nested), то в качестве “нулевой” берется более узкая модель, а альтернативой служит более широкая. В случае линейной регрессии применяется соответствующая F-статистика, а в случае нелинейной — одна из 2-статистик: статистика Вальда, множителя Лагранжа или отношения правдоподобия. Если же модели не входят одна в другую (nonnested), то любая из них принимается за нулевую и дополняется за счет информации, содержащейся в другой модели, так, чтобы “нулевая” модель была частным случаем этой расширенной. Здесь уже можно применить один из вышеупомянутых тестов. Если нулевая гипотеза отвергается, то это означает, что альтернативная модель содержит какую-то информацию, не содержащуюся в “нулевой” модели.

Тестов такого рода предложено очень много. Опишем только концептуально наиболее простые.

Сначала рассмотрим случай, когда обе сравниваемые модели линейны и зависимая переменная одна и та же. J-тест заключается в том, что в “нулевую” модель добавляется в качестве еще одного регрессора расчетные значения из альтернативной модели. Проверяется гипотеза о равенстве коэффициента при дополнительном регрессоре нулю с помощью соответствующей t-статистики.

Похожий тест состоит в том, что в “нулевую” модель добавляют из альтернативной модели все те регрессоры, которые не содержатся в нулевой и проверяют гипотезу о равенстве коэффициентов при дополнительных регрессорах нулю с помощью соответствующей F-статистики. В этом тесте обе сравниваемые модели содержатся в расширенной модели.

Один из тестов для сравнения моделей с разными зависимыми переменными — РE-тест.  Пусть две сравниваемые модели заданы следующими уравнениями:

 Y 1 f1 (Y) = X1 1 + 1 ,

 Y 2 f2 (Y) = X2 2 + 2 .

Например,  fi (Y) = Y,   fi (Y) = ln Y  или  fi (Y) = Y/W  ("взвешенная" зависимая переменная). В “нулевую” модель в РE-тесте добавляется регрессор, равный разности расчетных значений из альтернативной модели и приведенных к тому же виду расчетных значений из “нулевой” модели. Так, в первую модель нужно добавить

X2 2 – f2 (f1 –1(X1 1))  2 – f2 (f1 –1(1)).

Пусть, к примеру,  f(Y) = Y, а f(Y) = ln (Y). Тогда в первую модель добавляют  – ln (), а во вторую —  – exp ().

Если отвергаются обе модели, то это должно означать, что каждая из них содержит информацию, не содержащуюся в другой, и следует попытаться как-то соединить две модели в одну. Если обе модели не отвергаются, то это означает, что с точки зрения данного теста они эквивалентны.

Фиктивные переменные как регрессоры

Общие соображения

Термин “фиктивные переменные”  используется как противоположность “значащим” переменным, показывающим уровень количественного показателя, принимающего значения из непрерывного интервала. Как правило, фиктивная переменная — это индикаторная переменная, отражающая качественную характеристику. Чаще всего применяются бинарные фиктивные переменные, принимающие два значения, 0 и 1, в зависимости от определенного условия. Например, в результате опроса группы людей 0 может означать, что опрашиваемый — мужчина, а 1 — женщина. К фиктивным переменным иногда относят регрессор, состоящий из одних единиц (т.е. константу, свободный член), а также временной тренд.

Фиктивные переменные, будучи экзогенными, не создают каких-либо трудностей при применении ОМНК. Фиктивные переменные являются эффективным инструментом построения регрессионных моделей и проверки гипотез.

Пример. (Проверка гипотезы о равенстве средних в двух выборках в предположении равенства дисперсий)

Нулевая гипотеза состоит в том,  что случайные величины в двух выборках имеют одинаковое математическое ожидание. Альтернативная гипотеза состоит в том, что математические ожидания равны только в пределах выборок, но не между выборками. Предполагается, что величины нормально распределены и дисперсии одинаковы для всех наблюдений. Объединим две выборки в одну. Пусть Yi — вектор наблюдений для данной величины, Di — фиктивная переменная принимающая значение 0 для первой выборки и 1 для второй выборки. Тогда для проверки гипотезы оценим регрессионную модель:

 Yi = + Di +  i.

Нулевая гипотеза:  = 0. Альтернативная гипотеза:   0. Такую гипотезу можно проверить с помощью t-статистики для коэффициента . будет оценкой мат. ожидания для первой выборки, +  для второй.

    – – –

Предположим, что математическое ожидание  зависимой переменной в регрессии увеличивается на некоторую фиксированную величину, если выполняется определенное условие. Пусть, например для выборки предприятий одной отрасли оценивается производственная функция Кобба-Дугласа. Есть гипотеза, что для частных предприятий в этой отрасли производство при тех же труде и капитале выше, чем для государственных. Введем переменную Di, которая принимает значение 0 для государственных предприятий и 1 для частных. Регрессионное уравнение будет иметь вид:

 lnYi – ln L i = 0 + 1Di + (ln Ki – ln L i).

Если коэффициент 1 значимо положителен, то гипотезу нельзя отвергнуть.

Еще одна область применения фиктивных переменных — когда предполагается, что коэффициенты при “значащих” переменных меняются в зависимости от некоторого условия.

Пусть в приведенной модели  = 0 для гос. предприятий и  =  1 для частных. Тогда модель запишется в виде:

 lnYi – ln L i = 0 + 1Di + 0 (ln Ki – ln L i) +

 + ( 10) Di (ln Ki – ln L i).

Заменив параметры, получаем линейную относительно параметров модель.

В регрессионное уравнение может войти несколько фиктивных переменных. Рассмотрим два условия: A и B. Пусть D — индикатор условия A (D= 1, если выполнено условие A, и 0 — если нет), D — индикатор условия B. Тогда D = DD — индикатор одновременного выполнения условий A и B. Эти три переменные будут точно описывать, в каком состоянии находится “мир” для данного наблюдения. Следует отметить, что четвертая фиктивная переменная (индикатор того, что одновременно не выполнены условия A и B) будет излишней в регрессии, уже включающей константу. Если ее добавить в регрессию, то матрица регрессоров будет вырожденной.

Дисперсионный анализ с фиксированными эффектами может быть сведен к регрессионному анализу с фиктивными регрессорами. Проверке гипотез с помощью ковариационного анализа будет соответствовать проверка гипотезы о равенстве нулю коэффициентов при соответствующей группе фиктивных переменных.

Использование фиктивных переменных для проверки однородности наблюдений и прогнозирования

Приведенную выше модель для двух типов предприятий

  lnYi – ln L i = 0 + 1Di + 0 (ln Ki – ln L i) + ( 10) Di (ln Ki – ln L i).

можно использовать для проверки гипотезы о том, что коэффициенты регрессии разные для гос. предприятий и для частных. Гипотеза проверяется с помощью F-теста на добавление переменных Di и Di (ln Ki – ln L i).

В общем случае пусть наблюдения разбиты на две группы — I 1 и I 2. Матрица регрессоров X распадается на две матрицы регрессоров X 1 и X 2 соответственно, а зависимая переменная Y — на Y 1 и Y 2 соответственно. Нулевая гипотеза состоит в том, что наблюдения порождены моделью Y = X + . Альтернативная гипотеза состоит в том, что первая группа наблюдений порождена моделью Y 1 = X 1  1 +  1, а вторая группа наблюдений — моделью Y 2 = X 2  2 +  2, причем  1   2.

Введем фиктивную переменную D, такую что Di=0 при iI 1 и Di=1 при iI 2. Если все ошибки имеют одинаковую дисперсию, то гипотезу можно проверить с помощью регрессии Y по Z = [X  XD]. Здесь XD обозначает прямое произведение матрицы X на D, так что i-я строка матрицы Z равна Zi = [Xi, DiXi].

Тест на равенство коэффициентов регрессии в двух выборках, называют тестом Чоу.  Нулевая гипотеза проверяется с помощью F-статистики для гипотезы о том, что коэффициенты при всех добавленных переменных равны нулю.

Еще одно использование фиктивных переменных — проверка гипотезы о том, что некоторое наблюдение  принадлежит к той же выборке, что и все остальные наблюдения. Пусть i* — номер этого наблюдения. Введем фиктивную переменную D, такую что Di=0 при i  i* и Di* =1. Добавим эту переменную в исходную регрессию. Нужной нам статистикой будет F- или t-статистика для гипотезы о том, что коэффициент при добавленной переменной равен нулю. Если нулевая гипотеза отвергается, то соответствующее наблюдение следует считать выбросом.  Назовем этот тест тестом для выбросов.

Тот же тест можно провести для небольшой группы наблюдений I *. Требуется добавить регрессию по одной фиктивной переменной описанного вида для каждого из наблюдений iI *. Нужной нам статистикой будет F-статистика для гипотезы о том, что коэффициенты при всех добавленных переменных одновременно равны нулю.

Фиктивные переменные, которые равны нулю для всех наблюдений кроме одного, обладают тем свойством, что при добавлении их в регрессию соответствующий остаток зануляется.

Если в тесте Чоу одна из двух выборок содержит мало наблюдений (не больше количества регрессоров), то остатки в этой выборке должны занулиться при применении ОМНК. В этом случае тест Чоу совпадает с описанным только что тестом для выбросов.

Рассмотрим теперь использование фиктивных переменных для прогнозирования. Пусть мы оценили некоторую регрессию (Y = X + ) и у нас имеются дополнительные наблюдения, для которых известна матрица регрессоров (X *), но неизвестны значения зависимой переменной (Y *). Предсказания находятся по формуле X *, где — оценки ОМНК из регрессии Y по X. Эти предсказания можно найти с помощью следующей регрессионной модели:

   =   + .

Вместо неизвестной зависимой переменной здесь стоят нули, и добавлены фиктивные переменные, каждая из которых равна нулю для соответственного добавочного наблюдения. Оценки будут совпадать с , а оценки  * будут равны  = – X *, то есть будут равны предсказаниям со знаком минус. Стандартные ошибки предсказаний будут равны стандартным ошибкам оценок , полученным из той же регрессии.

Пусть теперь Y * становятся известными. Интересно было бы проверить, насколько фактические значения отличаются от предсказанных. Оказывается, можно воспользоваться аналогичной регрессией, в которой слева вместо нулей стоят Y *:

   =   + .

Оценки коэффициентов при фиктивных переменных  в этом случае будут равны ошибкам предсказаний  = Y * – X *. Тест на адекватность предсказаний проводится как тест на одновременное равенство коэффициентов при фиктивных переменных нулю:  *= 0. Очевидно, что этот тест совпадает с тестом для выбросов.

Использование фиктивных переменных в моделях с временными рядами

В регрессионных моделях с временными рядами используется три основных вида фиктивных переменных:

1) Переменные-индикаторы принадлежности наблюдения к определенному периоду — для моделирования скачкообразных структурных сдвигов. Границы периода (моменты “скачков”) должны быть установлены из априорных соображений. Например, 1, если наблюдение принадлежит периоду 1941-45 гг. и 0 в противном случае. Это пример использования для моделирования временного структурного сдвига.  Постоянный структурный сдвиг моделируется переменной равной 0 до определенного момента времени и 1 для всех наблюдений после этого момента времени.

2) Сезонные переменные — для моделирования сезонности. Сезонные переменные принимают разные значения в зависимости от того, какому месяцу или кварталу года или какому дню недели соответствует наблюдение.

3) Линейный временной тренд — для моделирования постепенных плавных структурных сдвигов. Эта фиктивная переменная показывает, какой промежуток времени прошел от некоторого “нулевого” момента времени до того момента, к которому относится данное наблюдение (координаты данного наблюдения на временной шкале). Если промежутки времени между последовательными наблюдениями одинаковы, то временной тренд можно составить из номеров наблюдений.

Фиктивные переменные помогают отразить тот факт, что коэффициенты линейной регрессии могут меняться во времени. В простейшем случае изменяется константа, а тем самым и мат. ожидание зависимой переменной.

Пусть исходная модель имеет вид Yt = +  Xt + t и предполагается, что линейно зависит от фиктивной переменной Ft: t = 0 + 1 Ft. Тогда уравнение изменится следующим образом: Yt = 0 + 1 Ft +  Xt +  t, оставаясь линейным по параметрам.

Коэффициенты при значащих переменных тоже могут быть подвержены изменениям. Проинтерпретировать это можно так, что сила их влияния на независимую переменную меняется со временем.

Например, в рассмотренном уравнении может быть t = 0 +  1 Ft. Тогда Yt = + 0 Xt +  1 Ft Xt + . Эта модель также остается линейной по параметрам. Коэффициент  1 показывает, как исходный коэффициент зависит от времени. С помощью соответствующей t-статистики можно проверить гипотезу, что 1 = 0 ( не меняется со временем).

Можно предложить следующий тест на стабильность коэффициентов модели во времени. Для его проведения нужно добавить в уравнения произведения всех исходных регрессоров и фиктивной переменной. Например, в модель Yt = +  1 Xt1 + 2 Xt2 + следует добавить регрессоры Ft, Xt1Ft и Xt2Ft. Если коэффициенты при добавочных переменных значимы в совокупности (применяем F-статистику), то нельзя отвергнуть гипотезу о том, что коэффициенты изменяются со временем.

Тест Чоу представляет собой частный случай описанного теста. Для временных рядов тест Чоу — это тест на то, что в определенный момент времени произошло скачкообразное изменение коэффициентов регрессии.

Временной тренд отличается от бинарных фиктивных переменных тем, что имеет смысл использовать его степени: t2 , t3 и т. д. Они помогают моделировать гладкий, но нелинейный тренд. (Бинарную переменную нет смысла возводить в степень, потому что в результате получится та же самая переменная.)

Можно также комбинировать три указанных вида фиктивных переменных, создавая переменные “взаимодействия” соответствующих эффектов. Пусть Y — квартальные данные по некоторому показателю. Его поведение можно смоделировать, представляя мат. ожидание как комбинацию линейного тренда и сезонности.

Yt = 0 + 1 t +  1 Qt1 +  2 Qt2 +  3 Qt3 + 1 Qt1t + 2 Qt2 t + 3 Qt3 t +  t,

где t — тренд, Q i — квартальные сезонные переменные

 Qtj =

Qt4 не нужно вводить в эту регрессию, так как есть константа, а Qt4 t не нужно вводить в регрессию, так как есть временной тренд t.

Если все j  0, то это означает, что структура сезонности линейно изменяется со временем.

Комбинация рассмотренных фиктивных переменных позволяет моделировать еще один эффект — изменение наклона тренда с определенного момента. Помимо тренда в регрессию следует тогда ввести следующую переменную: в начале выборки до некоторого момента времени она равна 0, а вторая ее часть представляет собой временной тренд (1, 2, 3 и т. д. в случае одинаковых интервалов между наблюдениями).

Регрессионные модели с фиктивными переменными являются альтернативой ARIMA-моделям и регрессионным моделям с AR- или MA-процессом в ошибке. В первом случае изменение мат. ожидания во времени можно назвать детерминированным трендом, во втором — стохастическим (строго говоря термин “стохастический тренд” употребляют только по отношению к нестационарным процессам). Решить, какой вид модели применять, сложно. Дело в том, что трудно отличить (в случае малых выборок), когда случайная величина имеет линейный детерминированный тренд со стационарными отклонениями от него, а когда она формируется нестационарным авторегрессионным процессом. То же самое верно для выбора способа моделирования сезонности.

Использование фиктивных переменных имеет следующие преимущества:

1) Интервалы между наблюдениями не обязательно должны быть одинаковыми. В выборке могут быть пропущенные наблюдения.

2) Коэффициенты при фиктивных переменных легко интерпретировать, они наглядно представляют структуру динамического процесса.

3) Для оценивания модели не приходится выходить за рамки классического метода наименьших квадратов.

Спектральный анализ и регрессия

Спектральный анализ можно осуществить с помощью гармонических фиктивных переменных (гармонического тренда). Пусть рассматриваются помесячные данные. Тогда сезонные колебания можно моделировать, используя следующий набор фиктивных переменных:

 Stk sin(2t/k),  Ctk cos(2t/k),     k=1, ... , 6.

При k=1 период колебаний равен 12 месяцам, при k=2 — 6 месяцам, при k=3 — 4 месяцам, при k=5 — 2,4 месяцам, при k=6 — 2 месяцам.

Включение в регрессию полного набора (k=1,..., 6) рассматриваемых переменных эквивалентно включению набора месячных бинарных фиктивных переменных (Mtj = 1, если j-й месяц и 0 в противном случае). Гармонические переменные следует применять в том случае, если предполагается, что сезонность может быть гладкой. В этом случае высокочастотные гармоники (с коротким периодом) не включают в регрессию, например, берут только k=1, 2.

Одна из возможных содержательных интерпретаций такого подхода состоит в том, что гармоники с более длинным периодом моделируют долгосрочные (перманентные) эффекты, а с коротким — краткосрочные.

Модели с качественной зависимой переменной 

Модели с качественной зависимой переменной как правило возникают, когда экономика рассматривается на очень дезагрегированном уровне. Обычно это ситуация, когда некоторая экономическая единица (субъект), делает выбор между двумя и более возможными альтернативами. В качестве примера можно привести выбор предприятия: внедрять какую-то новую технологию или нет.

 Модели с бинарной зависимой переменной 

В бинарную модель входит зависимая переменная Y, принимающая два значения (обычно 0 и 1), а также регрессоры X, которые содержат факторы, определяющие выбор. Обычная линейная регрессионная модель не подходит для описания этой ситуации. Она предполагает, что зависимая переменная имеет непрерывное распределение, а здесь необходимо, чтобы она имела дискретное распределение.

Пусть, например, рассматривается выбор группы людей: быть безработным или работать. Построенная линейная регрессия будет предсказывать абсурдные значения Y – дробные, отрицательные и большие единицы. Математическое ожидание остатков при этом будет даже асимптотически зависеть от X.

Вообще говоря, предсказывать результат выбора можно было бы и по результатам линейной регрессии: если  (расчетное значение Y) больше 1/2, то берем 1, если  меньше 1/2, то берем 0. Хотя это соображение и не улучшает модель, оно подсказывает, какой может быть более адекватная модель.

С формальной точки зрения требуется найти модель, которая порождала бы дискретное распределение, зависящее от X, которое бы хорошо описывало данные. Поскольку для бинарной зависимости переменной распределение будет бинарным, то оно полностью определяется вероятностью получения единицы (как функцией X), которая совпадает с математическим ожиданием, если переменная принимает значения 0 и 1:

E (Y | X) = Prob (Y = 1 | X)·1 + Prob (Y = 0 | X)·0 =

   =Prob (Y = 1 | X).

Геометрически задача состоит в том, чтобы найти гиперплоскость, которая бы в определенном смысле наилучшим образом разделяла две группы наблюдений (соответствующие 0 и 1) в пространстве регрессоров. Может случиться, что такая плоскость будет не единственной; это происходит при идеальном разделении.

Модель выбора. Пробит и логит 

Предлагается два вида моделей выбора, которые могли бы порождать интересующее нас распределение зависимой переменной: пороговая модель и модель, основанная на полезности альтернатив. Идея пороговой модели уже обрисована выше. Предполагается, что в основе выбора лежит ненаблюдаемая переменная , математическое ожидание которой является линейной комбинацией набора регрессоров X:   X + .  Наблюдается только дискретная величина Y, которая связана с  следующим образом: если  больше некоторой пороговой величины C, то Y = 1, если меньше, то Y = 0. Как обычно предполагается, что ошибки i имеют нулевое математическое ожидание, одинаково распределены и независимы. Величину C  можно принять равной нулю.

Другая модель предполагает, что выбор осуществляется на основе ненаблюдаемой полезности альтернатив u(Y, X). Если u(1, X) > u(0, X), то выбираем 1, если u(0, X) < u(1, X), то выбираем 0. В простейшем случае полезность является линейной функцией регрессоров:

        u(1, X) u1 X1 ,                  u(0, X) u0  X0.

Чтобы модель была вероятностной, предполагается, что есть отклоняющие факторы, так что u1  X1 + 1 ,  u0  X0 + 0 . Эта модель сводится к пороговой, если взять   u1 – u0  X(1 0) + 10  X + , а в качестве порога — ноль. Выведем теперь из распределения  распределение , а из распределения  — распределение Y. 2

Есть два удобных вида распределения, которые обычно используют для описания отклонения .

1. Логистическое распределение. 3 

Плотность логистического распределения равна  (см. Рис. ), а функция распределения равна  (ее называют логистой). Модель с бинарной зависимой переменной с логистически распределенным отклонением называют логит. Для логита E (Y | X) 1 –    .

Рис.

2. Нормальное распределение.

Модель с нормально распределенным отклонением называют пробит.

Для пробита

 E (Y | X)    e dt.

Логистическое распределение очень похоже на нормальное. Различить, когда следует применять логит, а когда — пробит, в малых выборках невозможно. Оценки коэффициентов отличаются множителем, который практически постоянен.

Оценка качества модели и проверка гипотез

Пробит и логит обычно оценивают методом максимального правдоподобия. Существуют также упрощенные методы, использующие сгруппированные наблюдения. Предположим, что методом максимального правдоподобия получен вектор оценок . Как в этом случае можно судить о качестве модели и проверять гипотезы?

Величину  = X  можно назвать по аналогии с линейной регрессией расчетными значениями. Она является оценкой математического ожидания ненаблюдаемой величины , сравнивая которую с нулем делают выбор между 0 и 1. Уравнение (X) = 0 задает ту гиперплоскость, которой разделяются две группы точек — те точки, для которых предсказано Yi = 0, и те точки, для которых предсказано Yi = 1 (с помощью критерия i < 0 0,  a  > 0 1). Поэтому наглядно о качестве модели можно судить по диаграмме соответствующих точек по Y: чем лучше разделены две группы точек, тем более качественна модель. О качестве модели можно судить также по графику оценки E (Y) по  ( по ). Этот график в случае “хорошей” модели должен быть "крутой" в нуле. (См. Рис. )

Рис.

На этих двух графиках слева внизу и справа вверху расположены правильно предсказанные точки, а слева вверху и справа внизу — неправильно. То же самое можно представить таблицей:

          

Предсказано

               

 

0

1

Cумма

На самом

0

 

деле

1

 

             

Cумма

 

 

 

Понятно, что "хорошая" модель должна давать высокий процент правильных предсказаний.

Для проверки набора ограничений на параметры удобно использовать статистику отношения правдоподобия LR = 2 ((  ) – (  R) ), где

 = [ Yi ln Pi + (1– Yi) ln (1 – Pi)] — логарифмическая функция правдоподобия,

— оценка методом максимума правдоподобия без ограничений,

 R — оценка при ограничениях.

Эту же статистику можно использовать для построения показателя качества модели, аналогичного F-статистике для линейной регрессии. Это статистика для проверки гипотезы о том, что коэффициенты при всех регрессорах, кроме константы, равны одновременно нулю. Соответствующая статистика отношения правдоподобия равна LR0 = 2 (() – 0) , где 0 – максимум логарифмической функции правдоподобия для константы. Она распределена асимптотически как  с  k–1 степенями свободы, где  k – количество параметров в исходной модели, включая константу. Величина l получается следующим образом. Пусть N – общее количество наблюдений, n0 – количество наблюдений, для которых Yi = 0, n1 – количество наблюдений, для которых Yi = 1. Тогда предсказанная вероятность появления Yi  1 в модели с одной константой будет равна для всех наблюдений n/N . Отсюда 0  n0 lnn0 + n1 ln n1 – N lnN. Еще один показатель качества модели, основанный на максимуме функции правдоподобия — информационный критерий Акаике:

  AIC = – (() – k).

Для моделей с бинарной зависимой переменной можно сконструировать и некий аналог коэффициента детерминации — псевдо-R2:

  R2   ,

где  — среднее i ,   2 — дисперсия ошибки , которая равна 1 для пробита и для логита.

 Множественные модели с качественными зависимыми переменными 

В этом подразделе будет говориться о логите, хотя это верно и для пробита. Множественный логит является логическим продолжением бинарного. Он возникает, когда рассматривается выбор между более чем двумя альтернативами. Существует два основных типа множественных моделей: упорядоченный логит и собственно множественный логит. Упорядоченный логит развивает пороговую модель, а собственно множественный логит — модель выбора по полезности.

Упорядоченный логит имеет дело с альтернативами, которые можно расположить в определенном порядке. Например, это могут быть оценки, полученные на экзамене, или качество товара, которое может характеризоваться сортом от "высшего" до "третьего". Будем предполагать, что альтернативы пронумерованы от 0 до S. Переменная Y принимает значение s, если выбрана альтернатива s. Предполагается, что в основе выбора лежит ненаблюдаемая величина = X + .  Y  0 выбирается, если  меньше нижнего (первого) порогового значения,  Y = 1, если  попадает в промежуток от первого до второго порогового значения и т. д.; Y = S выбирается, если  превышает верхнее пороговое значение:

 Yi   

Если имеет логистическое распределение, то логарифмическая функция распределения равна

   (Prob (Yi  0)) +  (Prob (Yi  1)) + +

  +  (Prob (Yi  S))

=  () +  ()+ +

  +  ().

Эту величину следует максимизировать по и . В результате получается оценка максимума правдоподобия.

Если альтернативы не упорядочены, то предполагается, что выбор делается на основе функции полезности u (Y, Z). Обозначим u(Z) u (s, Z). В линейной модели us   Zs + s, где Zs – матрица регрессоров, s – неизвестные параметры. Обычно делают одно из двух упрощающих допущений: либо что регрессоры для всех альтернатив одни и те же: us   Z s + s ,  либо что функция имеет один и тот же вид, а меняются только факторы, определяющие выбор, т.е. us   Z + s.  Yi выбирается равным s, если u(Zi) > u(Zi)  s  t. В множественном логите принимается, что ошибки s имеют распределение Вейбулла. Распределение Вейбулла 4 в стандартной форме имеет функцию распределения F (X) = e –e –X (см. Рис. ).  Распределение Вейбулла обладает следующими важными для рассматриваемой модели свойствами: максимум нескольких величин, распределенных по Вейбуллу, также распределен по Вейбуллу, а разность двух величин, распределенных по Вейбуллу, имеет логистическое распределение. Используя эти свойства, можно вывести, что в многомерном логите

 Prob (Yi  s) Pis   .

Вероятности не изменятся, если числитель и знаменатель нормировать, разделив на  e Z00 :

 Pis   

Если принимается, что s     s, то удобно обозначить Zs – Z0  Xs  (s 1,..., S), а если Zs  X  s, то s0 можно заменить  на s .

Динамическая спецификация регрессионной модели 

В этом разделе рассматривается, как можно построить модель, в которой переменными являются временные ряды. Основным понятием, употребляемым при разговоре о регрессионной модели для временных рядов, является понятие лага.  В буквальном смысле по-английски lag — запаздывание. Под лагом некоторой переменной понимают ее значение в предыдущие периоды времени. Например, для переменной Yt лагом в периодов будет Y . В векторном виде лаг переменной Y принято записывать как Y . В терминологии имеется некоторая неоднозначность. Часто лагом называют величину t  . Кроме того, лагом называют структуру, т.е. форму, в которой входят в модель лаги некоторой переменной.

Другой способ обозначения лага — с помощью лагового оператора.  Его обозначают буквой L (иногда B). Лаговый оператор — это линейный оператор. С ним можно обращаться как с переменной, но он должен стоять перед той переменной, к которой применяется. L X обозначает X–1 , LX = X . Если применить многочлен от лага f (L) = anL n+ ... + a1L + a 0 к переменной X, то получится

 f (L)X = () X      .

Другой постоянно используемый оператор — оператор разности или абсолютного прироста , который определяется как 1 – L, так что  X X – X–1. Вторая разность — дважды взятый оператор :  2 (1 – L)2  1 – 2 L + L2     и т. д.

Модель распределенного лага 

Часто при моделировании экономических процессов на зависимую переменную влияют не только текущие значения объясняющего фактора, но и его лаги. Типичным примером являются капиталовложения: они всегда дают результат с некоторым лагом.

Модель распределенного лага можно записать следующим образом:

 Y   +   X+    f (L) X + ,

где  q — величина наибольшего лага,  f (z)   z — многочлен. Коэффициенты  показывают структуру лага и называются весами. Оценивание этой модели может быть затруднено проблемой мультиколлинеарности. Такое случается, если величина Xt мало меняется со временем (если Xt — случайный процесс, то это означает автокорреляцию). При этом невозможно точно оценить структуру лага; хотя возможно точно оценить сумму весов  . Последнюю можно вычленить из модели следующим образом:

 Y   +  X +  (X – X)+ ,   где    .

Это пример преобразования формы регрессионной модели с временными рядами.

В случае мультиколлинеарности лаговых переменных обычно на лаговую структуру накладывают какое-нибудь ограничение, чтобы уменьшить количество оцениваемых коэффициентов. Одна из возможных структур лага — это полиномиальный лаг,  веса которого задаются полиномом от величины лага :

    0 + 1 + 2 2 +...+ p p   s  s,    0,..., q.

где p — степень многочлена. Простейший полиномиальный лаг — линейный . Для него     0 +  1. Его структуру можно представить на следующей диаграмме (Рис. ).

Рис.

Полиномиальный лаг накладывают на модель q  p линейных ограничений. Понятно при этом, что если модель была линейной, то она и останется линейной. Рассмотрим, каким образом ее можно оценить.

Подставим выражения для    в исходную модель.

     X     X    Zs .

Получим новую модель

  Y   + s Zs +  

с преобразованными регрессорами Zs   s X. Оценив s надо подставить их в формулу для весов .

При оценивании модели с ограничениями на структуру лага, нужно проверить, правильно ли наложены ограничения. С помощью соответствующей F-статистики можно сравнить ее с исходной, неограниченной, моделью, поскольку она является ее частным случаем. Модель

   Y   + Zs +  

эквивалентна исходной модели с точностью до линейных преобразований, поэтому достаточно проверить гипотезу о том, что последние q  p коэффициентов в ней (p+1, ..., q) равны нулю.

Часто принимают, что веса на концах полиномиальной лаговой структуры равны нулю. Это требование накладывает на модель дополнительные ограничения.

Еще один популярный вид структуры лага — экспоненциальный (геометрический) лаг. Его веса задаются следующими соотношениями:

    0  ,    0,...,,    где  0 <  < 1.

Рис.

Веса геометрического лага убывают экспоненциально с увеличением лага (Рис. ).

Сумма весов в этой модели равна    

             .

К модели с геометрическим лагом можно применить преобразование Койка  (Koyck transformation). Проведем его с использованием лаговых операторов.

Y    LX +    0 X +    0 X + .

Отсюда  (1– L)Y  X + (1– L)  или, по определению лагового оператора,

  Y – Y–1   X +   –1 .

Еще одна проблема, возникающая при оценивании модели распределенного лага, — найти величину наибольшего лага. Самый простой способ — взять неограниченную модель с достаточно большим лагом и проверять гипотезы по “отсечению хвоста” с помощью t и F-статистик.

Динамические регрессионные модели. Авторегрессионная модель с распределенным лагом 

Динамическая регрессия — это такая регрессия, в которой в качестве регрессоров используются лаги зависимой переменной. Рассмотрим достаточно общую модель с одной независимой переменной — авторегрессионную модель с распределенным лагом.  Ее можно записать в следующем виде:

 Y   + Y–k + + ,

где первая сумма представляет собой авторегрессионный член — распределенный лаг зависимой переменной, вторая сумма — распределенный лаг независимой переменной. Сокращенно эту модель обозначают ADL(p,q) (от английского autoregressive distributed lag).

В операторной форме:

Y   + L f (L)Y + g(L) X + , где f (.) и g(.) — многочлены,

или

 h(L)Y   + g(L) X + ,  где  h(L) 1 – L f (L).

В частности, ADL(1,1) имеет вид  

 Y   +  1Y–1 + 0 X + 1X–1 + .

Рассмотрим некоторые часто встречающиеся динамические модели, являющиеся частными случаями ADL-модели.

Модель ADL(0, q) — это модель распределенного лага, рассмотренная в предыдущем параграфе, так что в правой части нет лагов зависимой переменной.

Модель геометрического распределенного лага после преобразования Койка — это ADL(1, 0) с МА(1)-ошибкой и ограничением, что коэффициент при Y–1 равен параметру МА-процесса ( ) с обратным знаком:

 Y (1  ) +  Y–1 + 0 X + (  –1).

Авторегрессионную модель AR(p) можно считать ADL(p, 0) с ограничением  0 = 0. В этой модели переменная в левой части зависит только от своих собственных лагов:

  Y   + Y–k + .

В экономике субъекты не сразу могут приспособиться к меняющимся условиям — это происходит постепенно. Нужно время на обучение, переход на новые технологии, изменение условий долгосрочных контрактов и т.д. Эти процессы можно моделировать с помощью модели частичного приспособления

  YD b0 + b1 X + ,

  Y Y – Y–1   (YD – Y–1),

где Y D — желаемый уровень величины Y,   — скорость приспособления   (0 <   1). Если  1, то приспособление происходит мгновенно и всегда YD = Y.

Исключив ненаблюдаемую переменную Y D, модель приводят к виду, удобному для оценивания:

 Y   b0 + (1  )Y–1 +  b1 X–1 +  .

Это ADL(1, 1) с коэффициентом при текущем значении X равным нулю.

Чтобы ввести в экономические модели ожидания экономических субъектов в простейшем случае используют модель адаптивных ожиданий. Адаптивные ожидания некоторой величины формируются только на основе прошлых значений этой величины. Например, пусть Y зависит от ожиданий величины X  (X E) :

  Y   0 + 1 X E + .

Ошибка в ожиданиях в предыдущий период приводит к корректировке ожиданий:

  X E  X E – X E–1   (X – X E–1).

Здесь — скорость приспособления ожиданий (0 <   1). Если  = 1, то ожидания всегда равны действительной величине X :  X E = X.

Решить разностное уравнение для ожиданий проще всего с использованием лагового оператора. Схему корректировки ожиданий модно записать как

 (1 – (1 –  )L) X E   X,   откуда

 X E  X   1 –  ) X– .

Исключив ненаблюдаемые ожидания X E, получим модель с геометрическим распределенным лагом.

Преобразование Койка дает другую форму модели адаптивных ожиданий — ADL(1, 0)  с  МА(1)-ошибкой и ограничением на коэффициенты:

 (1  (1   )L) Y    0 + 1 X + (1  (1   )L) .

В динамических регрессионных моделях важно различие между долгосрочной и краткосрочной динамикой (англ.  Long-run и short-run). Рассмотрим в долгосрочном аспекте модель ADL(1,1):

 Y   +  1Y–1 + 0 X + 1X–1 + .

Пусть установились стационарные уровни X и Y. Обозначим их X * и Y *. Тогда

 Y *   +  1Y * + 0 X * + 1X *.

Уравнение  

  Y *   +   X *   +  X *

описывает долгосрочное стационарное состояние экономического процесса. Здесь =  —  коэффициент долгосрочного влияния X на Y . Если Y и X — логарифмы исходных переменных, то — долгосрочная эластичность.

Модель ADL(1,1) можно привести к виду, который отражает краткосрочную динамику экономической системы. В этом виде модель называется моделью исправления ошибок,  сокращенно ECM (англ.  error-correction modeL):

 Y   – (1 –  1) Y–1 + 0  X + ( 0 + 1) X–1 +  

   + 0  X – (1 –  1) (Y–1 X–1) + .

Предполагается, что если в предыдущий период переменная Y отклонилась от своего долгосрочного значения  +  X, то член Y–1 X–1 корректирует динамику в нужном направлении. Для того, чтобы это происходило, необходимо выполнение условия 1< 1.

Бывает, что из теории явления известно, что = 1, тогда 1 + 0 + 1 =1. Часто именно такую модель называют ЕСМ.

Модели частичного приспособления и адаптивных ожиданий являются частными случаями модели исправления ошибок — не только формально математически, но и по экономическому содержанию. Например, модель частичного приспособления в форме ЕСМ выглядит как

 Y   b 0 (Y–1 – b 1 X–1).

Интегрированные процессы, ложная регрессия и коинтеграция

Стационарные и нестационарные случайные процессы.

Чтобы проиллюстрировать различие между стационарными и нестационарными случайными процессами, рассмотрим авторегрессию первого порядка ( AR(1) ), т.е. авторегрессию,  содержащую один лаг зависимой переменной:

 Yt    +  Yt–1 +  t ,  t  (–,...,0,1,...+)

(предполагаем, что  t  IID(0,2) — независимые одинаково распределенные случайные величины с нулевым мат. ожиданием и дисперсией 2).

Слабое определение стационарности требует, чтобы математическое ожидание Yt  было постоянным (или нулевым), а ковариации не зависели от времени, только от лага:

       Yt  const ( 0) ,   var(Yt)  Y2  const, cov (Yt,Yt)  c.

Покажем, что если  < 1, то процесс AR(1) будет стационарным. Решая уравнение авторегрессионной модели, получим

 Y   + i i.

Мат. ожидание Y переменной постоянно: E(Y )  . Второй член  —это взвешенная сумма ошибок (геометрический распределенный лаг). Условие  < 1 гарантирует, что дисперсия этой суммы, а следовательно, и дисперсия Y конечна:

  Y2   2 .

Найдем также автоковариации процесса:

 cov(Y, Y)    2 .

Таким образом, рассматриваемый процесс слабо стационарен. На самом деле, поскольку ошибки  t одинаково распределены, то он стационарен и в сильном смысле.

Вывод изменится, если рассмотреть процесс с определенного момента времени, например, с  t  1. Предположим, что Y0 — детерминированная величина. В этом случае процесс AR(1) не будет стационарный по данному выше определению. Дисперсия Y и автоковариации будут зависеть от t:

 var(Yt)  , cov (Yt,Yt)  c t.

Однако со временем такой процесс (если только  < 1) все больше приближается к стационарному. Его можно назвать асимптотически стационарным.

При   > 1 это будет “взрывной” процесс.  Влияние прошлых ошибок в нем не угасает, и все более усиливается со временем. Мы не будем рассматривать такие процессы.

Авторегрессионный процесс первого порядка при  1 называют случайным блужданием.  Если   0, то это случайное блуждание в собственном смысле слова, а при   0  это случайное блуждание с дрейфом.

Нет смысла рассматривать случайное блуждание, начавшееся бесконечно давно, поскольку за бесконечное время процесс “уходит в бесконечность”, его дисперсия становится бесконечной.

Для процесса, начавшегося в момент  t  1 имеем:

 Yt t +  i +Y0, E(Yt)   t + Y.

Таким образом, константа (“дрейф”)  в авторегрессионной записи процесса приводит к появлению линейного тренда в Yt. Дисперсия равна

   var(Yt)  t2.

Она возрастает бесконечно со временем.

Случайное блуждание является примером авторегрессионого процесса с единичным корнем.  Он называется так по следующей причине. Запишем AR(1) с помощью лагового оператора:

  (1 –  L)Yt   +  t.

В левой части этого уравнения первый множитель — многочлен первой степени от лага. Корень этого многочлена равен 1/. При  1 корень многочлена равен 1.

В случае авторегрессионого процесса произвольного порядка имеем

   f (L)Yt    +  t.

Если все корни многочлена f (.) по модулю больше 1, то есть лежат за пределами единичного круга на комплексной плоскости, то процесс стационарен. Если один из корней лежит в пределах единичного круга, то процесс “взрывной”. Если же k > 0 корней лежат на единичной окружности, а остальные — за ее пределами, то процесс нестационарный, но не “взрывной” и о нем говорят, что он имеет k единичных корней.

Первые разности Yt авторегрессионого процесса первого порядка с  1 есть просто ошибки  t, т.е. первые разности стационарны. Нестационарный процесс, первые разности которого стационарны называют интегрированным первого порядка и обозначают (1). Стационарный процесс обозначают (0). Если k-e разности случайного процесса стационарны, то его называют интегрированным k-го порядка и обозначают I(k).

Рассмотрим, например, процесс

 zt , где Yt  Yt–1 +  t.

Он будет I(2), то есть вторые разности (zt) стационарны.

Ложная регрессия

Очень часто экономические процессы бывают нестационарными. В качестве примера можно привести объем производства, уровень цен. Уровень безработицы как процент трудоспособного населения это, с другой стороны, пример стационарной переменной. В данном случае термин “стационарность” употреблен не в строгом смысле. Скорее подразумевается, что дисперсия процесса ограничена.

Стационарность регрессоров является очень важным условием при оценивании регрессионных моделей. Если модель неверно специфицирована, и некоторые из переменных, которые в нее неправильно включены, являются I(1), то полученные оценки будут очень плохими. Они не будут обладать свойством состоятельности, то есть не будут сходиться по вероятности к истинным значениям параметров по мере увеличения размеров выборки. Привычные показатели, такие как коэффициент детерминации R2, t-статистики, F-статистики,  будут указывать на наличие связи там, где на самом деле ее нет. Такой эффект называют ложной регрессией.  

Показать эффект ложной регрессии можно с помощью метода Монте-Карло. Сгенерируем достаточно много раз два случайных блуждания с независимыми нормально распределенными ошибками ( t, t  NID(0,1)):

 Yt  Yt–1 + t,  Xt  Xt–1 +  t.

 à)      á)

  

    â)

Yt    a + bXt + ut I(0) : Xt, Yt  NID (0,1)

I(1) : Xt, Yt  NID (0,1)  I(2) : 2Xt, 2Yt  NID (0,1)

а),в) — плотности распределения R2,

б) — (кумулятивные) функции распределения

Оценив достаточно много раз регрессию Yt по константе и Xt вида Yt a +bt+ut мы получим экспериментальное распределение различных статистик. Например, эксперименты Монте-Карло показывают, что t-статистика для b при 50 наблюдениях и номинальном уровне значимости 5% в действительности отвергает верную гипотезу об отсутствии связи примерно в 75% случаев. Вместо того, чтобы использовать 5%-ю критическую границу t5%  2 нужно использовать t5% 11,2.

На рисунке показаны распределения коэффициента детерминации R (в процентах) при длине выборки в 50 наблюдений.  Хотя процессы независимы, но регрессия с большой вероятностью дает высокий коэффициент детерминации из-за нестационарности. Два независимых I(1)-процесса примерно в половине случаев дают коэффициент детерминации превышающий 20%. Для I(2)-процессов примерно в половине случаев коэффициент детерминации превышает 80% !

То же самое, хотя и в меньшей степени, можно наблюдать и в случае двух стационарных AR(1)-процессов с коэффициентом автокорреляции близким к 1. Отличие заключается в том, что здесь ложная связь асимптотически (при стремлении размеров выборки к бесконечности) исчезает, а в случае I(1)-процессов — нет. Все же проблема остается серьезной, поскольку на практике экономист имеет дело с конечными и часто довольно малыми выборками.

О процессе типа случайного блуждания без дрейфа говорят как о стохастическом тренде,  поскольку влияние каждой ошибки не исчезает со временем.

Наличие обычного детерминированного тренда также может приводить к появлению ложной регрессии. Пусть, например Yt и Xt порождаются процессами Yt  + b +t,  Xt  + d +t, где t, t — независимые, одинаково распределенные ошибки. Регрессия Yt  по константе и Xt может иметь высокий коэффициент детерминации и этот эффект только усиливается с ростом размера выборки. К счастью, с “детерминированным” вариантом ложной регрессии достаточно легко бороться. В рассматриваемом случае достаточно добавить в уравнение тренд в качестве регрессора, и эффект ложной регрессии исчезает.

Тестирование стационарности

С осознанием опасности применения ОМНК к нестационарным рядам, появилась необходимость в тестах, которые позволили бы отличить стационарный процесс от нестационарного.

К неформальным методам тестирования стационарности  можно отнести визуальный анализ графиков спектральной плотности и автокорреляционной функции.

В настоящее время самым популярным из формальных тестов является тест, разработанный Дики и Фуллером (DF).   Базовый порождающий данные процесс (ПДП), который они использовали, — авторегрессионный процесс первого порядка:

 yt = yt–1 + t.      (A1)

При  = 1 это случайное блуждание.  Конечно, вряд ли экономическая переменная может быть описана процессом (A1). Более реалистично было бы предположить наличие в этом процессе константы и тренда:

 yt = 0 +  yt–1 + t.     (A2)

 yt = 0 + 1 t +  yt–1 + t.    (A3)

 yt = 0 + 1 t + 2 t2 +  yt–1 + t.   (A4)

Нулевая гипотеза в тесте Дики-Фуллера состоит в том, что ряд нестационарен и имеет один единичный корень ( = 1) (и при этом i = 0), альтернативная — что ряд стационарен ( < 1):

 H0 :  = 1, i = 0      HA :  < 1.

Здесь i = 0, если оценивается (A2), i = 1, если оценивается (A3), и i = 2, если оценивается (A4).

Предполагается, что ошибки t некоррелированы. Это предположение очень важно, без него тест не будет работать!

Для получения статистики, с помощью которой можно было бы проверить нулевую гипотезу, Дики и Фуллер предложили оценить авторегрессию и взять из нее обычную t-статистику для гипотезы о том, что = 1. При этом тест является односторонним, поскольку альтернатива  > 1, соответствующая “взрывному” процессу, не рассматривается.

Необычность DF заключается в том, что с помощью одной t-статистики проверяется гипотеза сразу о двух коэффициентах.5 Если мы в регрессии (A3) отвергли нулевую гипотезу, то принимаем альтернативную гипотезу, что процесс описывается уравнением (A3) с  < 1, то есть это стационарный вокруг линейного тренда процесс. В противном случае имеем нестационарный процесс (   1), описываемый уравнением (A2), то есть случайное блуждание с дрейфом, но без временного тренда в уравнении авторегрессии.

Часто встречается несколько иная интерпретация этой особенности данного теста: проверяется гипотеза H0 :  = 1 против гипотезы HA :  < 1, и оцениваемая регрессия не совпадает с порождающим данные процессом, каким он предполагается согласно альтернативной гипотезе. Так, чтобы проверить нулевую гипотезу для ПДП типа (A2) нужно построить регрессию (A3) или (A4). Аналогично для тестирования ПДП типа (A3) нужно оценить регрессию (A4). Однако приведенная ранее интерпретация более точная.

Поскольку полученная статистика имеет нестандартное распределение, для ее использования требуются специальные таблицы. Эти таблицы были получены численно методом Монте-Карло. Все эти статистики получены на основе одного и того же ПДП (A1) с   = 1, но с асимптотической точки зрения годятся и для других ПДП, несмотря на наличие мешающих параметров, которые приходится оценивать.

Чтобы удобно было использовать стандартные регрессионные пакеты, уравнения регрессии преобразуются так, чтобы зависимой переменной была первая разность. В случае (A1) имеем уравнение  (  =   1):

 yt = yt–1 + t.

Будем обозначать статистику, получаемую в результате оценивания регрессии (A1) nc, в результате оценивания регрессии (A2) — c, в результате оценивания регрессии (A3) — ct и в результате оценивания регрессии (A4) — ctt. Это означает, соответственно, что в регрессии нет константы (nc), есть только константа (c) , есть константа и линейный временной тренд (ct), есть константа, линейный тренд  и квадратичный тренд (ctt). (Дики и Фуллер использовали другие обозначения, здесь используются обозначения Мак-Киннона).

Следующая таблица показывает, какую статистику можно применять в какой ситуации.

ПДП с  = 1, соответствующий нулевой гипотезе

Регрессия

A1

A2

A2

A1

nc

A2

c

t

t

A3

ct

ct

t

A4

ctt

ctt

ctt

В таблице t обозначает обычную t-статистику. Дело в том, что когда регрессия совпадает с ПДП и в регрессии есть детерминированные переменные (константа, тренд), то обычная t-статистика асимптотически имеет стандартное нормальное распределение и поэтому для проверки гипотезы годятся обычные критические границы. Правда это свойство существенно асимптотическое, и в малых выборках действительный уровень значимости, как показывают имитации Монте-Карло, может сильно отличаться от номинального. Поэтому предпочтительно добавить в регрессию дополнительную переменную и воспользоваться тестом Дики-Фуллера с нестандартными критическими границами, которые хотя и являются тоже асимптотическими, но связаны с меньшими искажениями размера теста.

Из этой таблицы видно, что если можно предположить, что рассматриваемая переменная нестационарна и имеет тренд, то начать тестирование следует с регрессии (A4) и соответствующего теста ctt.

Поскольку неизвестно, присутствуют ли в ПДП константа и тренд, то полезно иметь тесты, которые бы позволили проверить соответствующие гипотезы. Такие тесты были предложены Дики и Фуллером. В случае всех этих тестов (в отличие от DF) действительно проверяемая гипотеза совпадает с номинально проверяемой гипотезой (или, согласно альтернативной интерпретации, оцениваемая регрессия совпадает с ПДП, каким он предполагается в соответствии с альтернативной гипотезой). По сути дела используются обычные F- и t-статистики для соответствующих гипотез, только критические границы берут другие. Опять же, при получении этих таблиц методом Монте-Карло используется исключительно ПДП (A1) с = 1, поэтому тесты являются асимптотическими.

При оценивании регрессии вида (A2) получаем две статистики: t-статистику для гипотезы 0 = 0 и F-статистику для гипотезы 0 = 0 и = 1. При оценивании регрессии вида (A3) получаем четыре статистики: t-статистику для гипотезы 0 = 0, t-статистику для гипотезы 1 = 0, F-статистику для гипотезы 1 = 0 и = 1 и F-статистику для гипотезы  0 = 0, 1 = 0 и = 1.

Было бы естественно предположить, что только что описанные F-статистики было бы предпочтительнее использовать, чем ADF-тесты, поскольку действительная гипотеза для них совпадает с номинальной и является как раз той гипотезой, которая и проверяется в ADF-тестах. Однако эти статистики являются двусторонними и, тем самым, не отбрасывают возможность “взрывного” процесса, что должно приводить к потере мощности теста.

Если гипотеза о наличии единичного корня не была отвергнута, то t-статистики для = 0 и = 0 могут быть полезны для определения точного вида нестационарного процесса — имеется ли в нем “дрейф” и тренд.

Предположение о том, что переменная следует авторегрессионному процессу первого порядка и ошибки некоррелированы, является, конечно, слишком ограничительным. Тест Дики-Фуллера был модифицирован для авторегрессионных процессов более высоких порядков и получил название дополненного теста Дики-Фуллера (augmented Dickie-Fuller test, ADF).  

Базовые уравнения приобретают следующий вид:

 yt = (  1) yt–1 +yt–l + t.     (B1)

 yt = 0 + (  1) yt–1 +yt–l + t.    (B2)

 yt = 0 + 1 t + (  1) yt–1 +yt–l + t.   (B3)

 yt = 0 + 1 t + 2 t2 + (  1) yt–1 +yt–l + t.  (B4)

Распределения этих тестов асимптотически совпадают с соответствующими обычными тестами Дики-Фуллера, и используют те же таблицы. Грубо говоря, роль дополнительной авторегрессионной компоненты сводится к тому, чтобы убрать автокорреляцию из остатков. Процедура тестирования не отличается от описанной выше.

Как показали эксперименты Монте-Карло, тест Дики-Фуллера чувствителен к наличию процесса типа скользящего среднего в ошибке. Эту проблему частично можно снять, добавляя в регрессию достаточно много лагов первой разности (Said and Dickey, 1984). Чтобы тест был состоятельным, требуется увеличивать L с ростом количества наблюдений по определенному закону.

На практике решающим при использовании ADF является вопрос о том, как выбирать L — порядок AR-процесса в оцениваемой регрессии. Можно предложить следующие подходы.

1) Поскольку важно, чтобы остатки были как можно более похожи на “белый шум”, то следует выбирать такое число L, чтобы тест на автокорреляцию остатков показал отсутствие значимой автокорреляции. Поскольку дополнительные лаги не меняют асимптотические результаты, то лучше взять больше лагов, чем меньше. Однако этот последний аргумент верен только с асимптотической точки зрения.

2) Другой подход состоит в том, чтобы выбирать L на основе обычных t- и F-статистик для соответствующих дополнительных регрессоров.

ADF может давать разные результаты в зависимости от того, каким выбрано количество лагов. Даже добавление лага, который “не нужен” согласно только что приведенным критериям, может резко изменить результат тестирования.

Особую проблему создает наличие сезонной компоненты в переменной. Если сезонность имеет детерминированный характер, то достаточно добавить в регрессию фиктивные сезонные переменные — это не изменяет асимптотического распределения ADF-статистики. Для случая стохастической сезонности также есть специальные модификации теста.

Пока мы рассмотрели тесты I(1) против I(0). Временной ряд может быть интегрированным и более высокого порядка. Как несложно понять, тесты I(2) против I(1) сводятся к рассмотренным, если взять не уровень тестируемого ряда, а первую разность. Аналогично для более высоких порядков интегрирования.

Имитации показали, что следует проверять гипотезы последовательно, начиная с наиболее высокого порядка интегрирования, который можно ожидать априорно. Т. е., сначала следует проверить гипотезу о том, что ряд является I(2), и лишь после этого, если гипотеза была отвергнута, что он является I(1). (См. Dickey and Pantula, 1987.)

Коинтеграция. Регрессии с интегрированными переменными

Как уже говорилось выше, привычные методы регрессионного анализа не подходят, если переменные нестационарны. Однако не всегда при применении МНК имеет место эффект ложной регрессии.

Говорят, что I(1)-процессы Y и Y является коинтегрированными первого порядка (CI(1,0)), если существует их линейная комбинация, которая является I(0), то есть стационарна. То есть Y, Y ~ I(1), коинтегрированы, если существует коэффициент , такой что Y  Y ~ I(0). Понятие коинтеграции введено Грейнджером (Granger(1981)).

Понятие коинтеграции тесно связано с моделью исправления ошибки. Коинтегрированные процессы Y и Y связаны между собой долгосрочным стационарным соотношением, и следует предположить, что существует некий корректирующий механизм, который при отклонениях возвращает Y и Y к их долгосрочному отношению.

Если  1, то разность Y и Y будет стационарной и, грубо говоря, Y и Y будут двигаться “параллельно” во времени. Следующий рисунок (Рис. ) изображает две таких коинтегрированных переменных, динамика которых задана моделью исправления ошибки:

X X – 0.2 (Y – Y + 2) +  , 

Y Y + 0.5 (Y – Y + 2) +  ,

Рис. . Два коинтегрированных процесса при =1.

    ,   NID(0,1).

Определение коинтеграции естественным образом распространяется  на случай нескольких коинтегрированных переменных произвольного порядка интегрирования. Компоненты n-мерного векторного процесса Yt = (Y, ...,Y)  называют коинтегрированными порядка d, b, что обозначается Yt ~ CI(d,b), если (1) Y является I(d)  i = 1,..., n и (2) существует отличный от нуля вектор , такой что Yt ~ I(d  b), d  b>0. Вектор называют коинтегрирующим вектором.

В рассмотренном ранее примере коинтеграционный вектор имеет вид  = (–1,). Его можно пронормировать также как (–1/,1).

Если переменные в регрессии не стационарны, но действительно связаны друг с другом стационарной линейной комбинацией (модель специфицирована верно), то полученные оценки коэффициентов этой линейной комбинации будут на самом деле сверхсостоятельными, то есть сходятся по вероятности к истинным коэффициентам со скоростью, пропорциональной не квадратному корню количества наблюдений, как в регрессии со стационарными переменными, а со скоростью, пропорциональной просто количеству наблюдений. Другими словами в обычной регрессии  () имеет невырожденное асимптотическое распределение, а в регрессии с I(1)-переменными N () имеет невырожденное асимптотическое распределение.

Обычные асимптотические аргументы сохраняют свою силу, если речь идет об оценках параметров краткосрочной динамики в модели исправления ошибок. Таким образом, можно использовать t-статистики, получаемые обычным методом наименьших квадратов, для проверки гипотез о значимости отдельных переменных. Важно помнить, что это относится к оценкам краткосрочных параметров. Этот подход не годится для проверки гипотез о коэффициентов коинтеграционной комбинации.

Оценивание коинтеграционной регрессии: подход Энгла-Грейнджера

Если бы коэффициент был известен, то проверка на коинтегрированность была бы эквивалентна проверке Y  Y  на стационарность. Но в практических проблемах обычно стационарная линейная комбинация неизвестна. Значит, необходимо оценить коинтегрирущий вектор. Следует также проверить, действительно ли этот вектор дает стационарную линейную комбинацию.

Простейшим методом отыскания стационарной линейной комбинации является метод Энгла-Грейнджера.  Энгл и Грейнджер предложили использовать оценки, полученные из обычной регрессии с помощью метода наименьших квадратов. Одна из переменных должна стоять в левой части регрессии, другая — в правой:

   Y = Y+ u.

Для тестирования стационарности полученной линейная комбинации предлагается применить метод Дики-Фуллера к остаткам из коинтеграционной регрессии. Пусть —  остатки из этой регрессии. Тест Энгла-Грейнджера проводится с помощью регрессии

   =    + остатки.

Распределение t-статистики для гипотезы  =1 в этой регрессии будет отличаться (даже асимптотически), от распределения DF-статистики, но имеются соответствующие таблицы. Нулевой гипотезой, таким образом, является отсутствие коинтеграции. Если мы отвергаем гипотезу об отсутствии коинтеграции, то это дает уверенность в том, что полученные результаты не являются ложной регрессией.

Игнорирование детерминированных компонент ведет к неверным выводам о коинтеграции. Чтобы этого избежать, в коинтеграционную регрессию следует добавить соответствующие переменные — константу, тренд, квадрат тренда, сезонные фиктивные переменные. Добавление константы, тренда, и квадрата тренда, как и в случае DF, меняет асимптотическое распределение теста Энгла-Грейнджера. Следует помнить, что, в отличие от DF, регрессия, из которой берется t-статистика, остается неизменной, то есть в нее не нужно добавлять детерминированные регрессоры.

В МНК регрессии с коинтегрированными переменными оценки должны быть смещенными из-за того, что в правой части стоит эндогенная переменная, коррелированная с ошибкой. Кроме того, ошибка содержит пропущенные переменные. Коинтеграционная регрессия Энгла-Грейнджера является статической по форме, то есть не содержит лагов переменных. С асимптотической точки зрения не приводит к смещенности оценок, поскольку ошибка является величиной меньшего порядка, чем регрессор, дисперсия которого стремится к бесконечности. Как уже говорилось, оценки на самом деле сверхсостоятельны. Однако в малых выборках смещение может быть существенным.

После того, как найдена стационарная линейная комбинация, можно оценить модель исправления ошибок, которая делает переменные коинтегрированными. В этой регрессии нужно использовать первые разности исходных переменных и остатки из коинтеграционной регрессии, которые будут представлять корректирующий член модели исправления ошибок.

Подчеркнем роль корректирующего члена. До появления метода Энгла-Грейнджера исследователи часто оценивали регрессии в первых разностях, что, хотя и приводило к стационарности переменных, но не учитывался стационарный корректирующий член, то есть регрессионная модель была неверно специфицирована (проблема пропущенной переменной).

Несмотря на то, что в модели исправления ошибок используется оценка коинтегрирующего вектора, оценки коэффициентов, полученные из такой модели будут иметь такие же асимптотические свойства, как если бы коинтегрирующий вектор был точно известен. В частности, можно использовать t-статистики из этой регрессии, поскольку оценки стандартных ошибок являются состоятельными. Это является следствием сверхсостоятельности оценок коинтегрирующего вектора.

Коинтеграция в динамических системах: подход Йохансена

Другой популярный метод нахождения стационарных комбинаций —метод Йохансена.  Этот метод служит также для тестирования стационарности найденных линейных комбинаций, и по сути дела распространяет методику Дики-Фуллера на случай векторной авторегрессии   (то есть такой модели, в которой несколько зависимых переменных и зависят они от собственных лагов и от лагов других переменных). Если в обычной авторегрессии мы рассматривали один коэффициент , то здесь следует рассматривать уже матрицу коэффициентов. Предполагается (как и в ADF), что если добавить достаточное число лагов в авторегрессионную модель, то ошибка не будет сериально коррелированной.

Если векторный процесс состоит более чем из двух процессов (S>2), то может существовать несколько коинтегрирующих векторов. Если существует ровно r линейно независимых коинтегрирующих векторов, то говорят, что ранг коинтеграции равен r.

Обозначим матрицу, составленную из таких векторов. Набор коинтегрирующих векторов не является однозначным, на самом деле речь должна идти о коинтеграционном пространстве. Нормировку следует выбирать исходя из экономической теории рассматриваемых процессов.

Метод Йохансена позволяет не только найти матрицу коинтеграционных векторов при данном ранге коинтеграции, но и проверять гипотезы о ранге коинтеграции (количестве коинтегрирующих векторов). Метод непосредственно работает с векторной моделью исправления ошибок.  Пусть Yt  =   (Y, ...,  — векторный процесс (вектор-строка), каждая из компонент которого является I(1) (или I(0)). Порождающий данные процесс задается формулой

     Yt = 0 + 1t +Y  + Y+ ...+ YL –1 + t.

Предполагается, что ошибки, относящиеся к разным моментам времени, независимы, и  t ~ N(0,). В модели оцениваются вектор-строка констант 0 и коэффициентов при трендах 1, матрицы коэффициентов 1,..., L –1 и   (nn), а также ковариационная матрица . Поскольку по предположению Yt~I(0), то должно быть выполнено Y  ~ I(0). Ограничения на ранг коинтеграции задаются как ограничения на матрицу  . При нулевой гипотезе, что ранг коинтеграции равен r, ее можно представить в виде

   H0(r):   = T,

где матрицы и имеют размерность (nr); — матрица коинтегрирующих векторов, — матрица корректирующих коэффициентов. Если r = 0, то   = 0 и не существует стационарных линейных комбинаций переменных Y, ..., Y. В другом крайнем случае, когда n = r любая линейная комбинация этих переменных стационарна, то есть все они I(0).

Для оценивания модели используется метод максимального правдоподобия. При данной матрице можно получить оценки максимального правдоподобия для остальных неизвестных параметров обычным методом наименьших квадратов. Йохансен показал также, что максимизация функции правдоподобия по эквивалентна задаче отыскания собственных чисел  для некоторой симметричной положительно определенной матрицы. При ранге коинтеграции r выбираются r минимальных собственных чисел. Если расположить собственные числа в порядке возрастания (1  2  ...  n), то следует выбрать 1, 2 , ...,  r. (Йохансен записал ПДП в несколько ином виде, и поэтому у него собственные числа идут в порядке убывания и выбираются r максимальных собственных чисел.) Столбцами матрицы (коинтегрирующими векторами) будут соответствующие собственные вектора. Конечно, определяется только с точностью до некоторой нормировки. После того, как найдена оценка максимального правдоподобия , вычисляются оценки других параметров.

Для проверки гипотез об r используется статистика отношения правдоподобия. Статистика следа используется для проверки гипотезы (H0) о том, что ранг равен r, против гипотезы (HA) о том, что ранг равен n. Статистика имеет вид

  LR = – Tln(1 – i).

Тестирование проводится последовательно для r = n–1,...,0 и заканчивается, когда нулевая гипотеза не будет отвергнута в первый раз. Можно проводить тестирование в обратном порядке r = 0,..., n–1. В этом случае тестирование заканчивается, когда нулевая гипотеза будет отвергнута в первый раз.

Можно также использовать статистику максимального собственного числа, которая используется для проверки гипотезы (H0) о том, что ранг равен r, против гипотезы (HA) о том, что ранг равен r +1. Эта статистика равна

  LR = – ln(1 –  r+1).

Обе статистики имеют нестандартные асимптотические распределения. К счастью, их распределения не зависят от мешающих параметров. Распределение этих статистик зависит только от n  r и от того, как входят в модель константа и тренд.

Можно выделить пять основных случаев, касающихся статуса векторов 0 и 1 в модели. В порядке перехода от частного к более общему:

Случай 0.    0 = 0,   1 = 0.

Случай 1*.   0 = 0T,   1 = 0.

Случай 1.    0 произвольный,  1 = 0.

Случай 2*.   0 произвольный,  1 = 1T.

Случай 2.    0 произвольный,  1 произвольный.

Здесь 0 и 1 — вектора-строки длины r. Случай 0 легко понять — константы и тренды в модели полностью отсутствуют. В Случае 1 константа входит в коинтеграционное пространство и, тем самым, в корректирующие механизмы, но не входит в сам процесс Yt в виде дрейфа. Это легко увидеть, если переписать модель следующим образом.

     Yt = (0 +Y   )T + Y+ ...+ YL –1 + t.

В Случае 1 0 можно записать как 0 = 0T + 0*, где 0 входит в коинтеграционное пространство, а 0* соответствует дрейфу в векторной модели исправления ошибок. Дрейф в модели исправления ошибок означает, что в Yt входит линейный тренд. (См. выше рассмотрение простого авторегрессионного процесса с дрейфом.)

Аналогичные рассуждения верны по отношению ко временному тренду в Случаях 2* и 2. В Случае 2* тренд входит в коинтеграционное пространство, но не входит в Yt в виде квадратичного тренда. В Случае 2 тренд входит и в коинтеграционное пространство, и в Yt в виде квадратичного тренда.

Методом Монте-Карло получены таблицы LR и LR для всех пяти случаев и нескольких значений n  r (на данный момент имеются таблицы для n  r = 1,...,12).

Как и в случае ADF очень важным вопросом является выбор длины лага L. Способы по сути дела являются теми же самыми. Для проверки гипотез о длине лага можно использовать тест отношения правдоподобия, который в данном случае имеет обычное распределение 2. Если процесс состоит из n компонент, и проверяется гипотеза о том, что следует увеличить L на единицу то количество степеней свободы соответствующей статистики равно n. Важно также, чтобы отсутствовала автокорреляция остатков.

Метод Йохансена можно использовать также для оценивания моделей с линейными ограничениями на матрицу коинтегрирующих векторов и на матрицу корректирующих коэффициентов . Для проверки таких ограничений предлагается использовать все тот же тест отношения правдоподобия, который здесь имеет обычное асимптотическое распределение 2.


Литература по единичным корням и коинтеграции 

 Banerjee, A., J.J. Dolado, D.F. Hendry, and G.W. Smith, ”Exploring Equilibrium Relationships in Econometrics Through Static Models: Some Monte Carlo Evidence,” Oxford Bulletin of Economics and Statistics, 48 (1986), 253-277.

Banerjee, A. J.J. Dolado, J.W. Galbraith and D.F. Hendry, Co-integration, Error Correction, and the Econometric Analysis of Nonstationary Data. Oxford: Oxford University Press, 1993.

Dickey, D.A., W.R. Bell and R.B Miller, “Unit Roots in Time Series Models: Tests and Implications,” American Statistician, 40 (1986), 12-26.

Dickey, D.A. and W.A.Fuller, “Distributions of the Estimators for Autoregressive Time Series With a Unit Root,” Journal of American Statistical Association, 75 (1979), 427-431.

Dickey, D.A. and S.G. Pantula, “Determining the Order of Differencing in Autoregressive Processes,” Journal of Business and Economic Statistics, 5 (1987), 455-461.

Engle, R.F. and C.W.J. Granger, “Co-integration and Error Correction: Representation, Estimation and Testing,” Econometrica, 55 (1987), 251-276.

Engle, R.F. and B.S. Yoo, “Forecasting and Testing in Cointegrated Systems,” Journal of Econometrics, 35 (1987), 143-159.

Fuller, W.A. Introduction to Statistical Time Series. NY: Wiley, 1976.

Granger C.W.J., “Some Properties of Time Series Data and their Use in Econometric Model Specification,” Journal of Econometrics, 16 (1981) 121-130.

Hendry, D.F. “Econometric Modelling with Cointegrated Variables: An Overview,” Oxford Bulletin of Economics and Statistics, 48 (1986), 201-212.

Johansen, S., “Statistical Analysis of Cointegration vectors,” Journal of Economic Dynamics and Control, 12 (1988), 231-254.

Johansen, S., “Estimation and Hypothesis Testing of Cointegration Vectors in Gaussian Vector Autoregressive Models,” Econometrica, 59 (1991), 1551-1580.

Johansen, S., “The Role of the Constant and Linear Terms in Cointegration Analysis of Nonestationary Data,” Econometric Reviews, 13 (1994), 205-229.

Johansen, S. and K. Juselius, “Maximum Likelihood Estimation and Inference on Cointegration with Application to the Demand for Money,” Oxford Bulletin of Economics and Statistics, 52 (1990), 169-210.

Ouliaris, S., J.Y. Park and P.C.B. Phillips, “Testing for a Unit Root in the Presence of a Maintained Trend,” Ch. 1 in Advances in Econometrics, ed. B. Raj, Boston: Klumer Academic Publishers, 1989.

Perron, P. “Trends and Random Walks in Macroeconomic Time Series: Further Evidence from a New Approach,” Journal of Economic Dynamics and Control, 12 (1988), 297-332.

Phillips, P.C.B., “Time Series Regression with a Unit Root,” Econometrica, 55 (1987), 277-301.

Phillips, P.C.B. and P. Perron, “Testing for a Unit Root in Time Series Regression,” Biometrica, 75 (1988) 335-346.

Said, E.S. and D.A. Dickey, “Testing for Unit Roots in Autoregressive-Moving Average Models of Unknown Order,” Biometrica, 71 (1984), 599-607.

Sims, C.A., J.H. Stock and M. Watson, “Inferense in Linear Time Series Models with some Unit Roots,” Econometrica, 58 (1990),113-144.

Stock, J.H., “Asymptotic Properties of Least Squares Estimators of Cointegrating Vectors,” Econometrica, 55 (1987), 1035-1056.

Stock, J.H. and M. Watson, “Variable Trends in Economic Time Series,” Journal of Economic Perspectives, 2 (1988), 147-174.

Stock, J.H. and M. Watson, “Testing for Common Trends,” Journal of the American Statistical Association, 83 (1988), 1097-1107.

West, K.D., “Asymptotic Normality When Regressors Have a Unit Root,” Econometrica, 56 (1988), 1397-1417.


II. Метод максимального правдоподобия в эконометрии


Базовые понятия

Пусть Y — реализация N-мерной случайной величины, распределенной как:

а) P (x) (вероятность) — в случае дискретного распределения.

б) p (x) (плотность) — в случае непрерывного распределения.

Здесь P (x) (p (x)) характеризует семейство распределений задаваемое параметром   ,    — пространство параметров. В эконометрии принято говорить об этом семействе распределений как о порождающем данные процессе (ПДП). Будем считать, что рассматриваемый вектор наблюдений (выборка) порожден распределением из этого семейства с параметром  0  , которое будем называть истинным распределением, а  0 — истинным параметром.

Функция (Y, ) P (Y) (соответственно (Y, ) p (Y)) называется функцией правдоподобия.

Оценкой максимального правдоподобия ( )  , сокращенно оценкой МП, называется решение задачи  

    (Y, )  max   .

Будем считать в дальнейшем, что решение задачи единственно.6

Такой метод оценивания называют методом максимального правдоподобия.

Обычно удобнее пользоваться логарифмической функцией максимального правдоподобия  

  (Y, ) ln((Y, )).

Логарифм — (бесконечно) дифференцируемая возрастающая функция: поэтому можно находить оценки МП решая задачу (Y, ) max   .

В частном случае вектор наблюдений представляет собой выборку независимых одинаково распределенных случайных величин: Yi IID, i 1,..., N. При этом  

 (Y, ) i(Yi, ),  (Y, ) i(Yi, ).

Вообще говоря вектор наблюдений Y состоит из зависимых между собой и/или неодинаково распределенных случайных величин, поэтому не является выборкой в обычном смысле слова. В общем случае это равенство тоже будет верным если обозначить

 i(Yi, ) p (Yi |Yi –1,...,Y1)     и     i(Yi, ) ln(i(Yi, )).

Тем самым задается разбиение функции правдоподобия на вклады отдельных наблюдений.

Поскольку Y — случайная величина, то функция правдоподобия — случайная величина при данном значении параметров. Оценка максимального правдоподобия является функцией вектора наблюдений:  (Y), поэтому это тоже случайная величина. Соответственно, точно так же случайными величинами является значение функции правдоподобия в максимуме (Y)  (Y, ) и многие другие рассматриваемые далее величины (градиент, гессиан и т. п.).

Пусть функция правдоподобия дифференцируема по и достигает максимума во внутренней точке (  int() ), тогда оценка МП должна удовлетворять следующему условию первого порядка:

 (Y, ) 0  или   (Y, ) 0.

Таким образом, градиент логарифмической функции правдоподобия g( ) при   должен быть равен нулю.

Для того, чтобы оценки, удовлетворяющие этим уравнениям правдоподобия действительно давали максимум правдоподобия, необходимо и достаточно, чтобы были выполнены условия второго порядка (предполагаем, что функция правдоподобия дважды дифференцируема). А именно, матрица Гессе (гессиан) логарифмической функции правдоподобия должна быть всюду отрицательно определена. Далее мы встретим случаи, когда это свойство действительно выполнено (логит и пробит), и когда может быть несколько локальных максимумов (“полная” функция правдоподобия для регрессии с AR(1)-ошибкой). Матрица Гессе  по определению есть матрица вторых производных:

 jl(Y, )  (Y, )              j, l = 1,..., m.

С помощью матричного дифференцирования можно записать гессиан в виде

    T.

В некоторых моделях функция правдоподобия неограничена сверху и не существует оценок максимального правдоподобия в смысле приведенного выше определения. Согласно альтернативному определению оценками максимального правдоподобия называют корни уравнения правдоподобия, являющиеся локальными максимумами функции правдоподобия, корнями уравнения правдоподобия. Существуют модели, для которых такие оценки состоятельны.

Информационной матрицей для вектора наблюдений размерностью N будем называть матрицу

 N( ) E (g(Y,  ) gT( Y, )).

Заметим, что по этому определению информационная матрица — функция некоторого вектора параметров   . В дальнейшем для сокращения записи, если это не вносит путаницы, индекс количества наблюдений N будем опускать: ( ). Индекс  у символа математического ожидания E означает, что ожидание вычисляется в предположении, что  — точка истинных параметров. Заметьте, что оператор E без нижнего индекса везде означает ожидание для распределения с параметрами  0!

В дальнейшем будет использоваться следующее очевидное свойство функции правдоподобия. Пусть  (Y) есть некоторая функция вектора наблюдений Y. Тогда ее математическое ожидание равно

 E( (Y))   (Y) ( 0,Y)  dY,

где обозначает пространство элементарных событий (пространство переменной Y).

Таким образом, можно переписать определение информационной матрицы в виде

 ( ) g(Y,  ) gT(Y, ) ( ,Y)  dY.

Асимптотическая информационная матрица есть предел

 ( ) limN  N( ).

Множитель 1/N добавлен в определения для того, чтобы существовал конечный предел (информационная матрица является величиной порядка O(N)).

Если мы рассматриваем выборку, то применяя определение информационной матрицы к отдельным наблюдениям (i ), имеем

  N N i .

Таким образом, если наблюдения независимы и одинаково распределены, то информация растет пропорционально количеству наблюдений.

Пример. Линейная регрессия с нормально распределенными ошибками.

Пусть ошибки  i NID(0, 2). Эта аббревиатура означает, что случайные величины  i независимы и имеют нормальное распределение с параметрами (0, 2) (normally and independently distributed). Ковариационная матрица вектора ошибок — это единичная матрица с точностью до множителя: E(T) = 2 IN.

Зависимая переменная связана с ошибками следующим образом:

  Y = X + ,

где X — матрица регрессоров (Nm), — вектор-столбец неизвестных коэффициентов длины m. Таким образом, Yi имеет нормальное распределение с параметрами (Xi ,  2), где Xi — i-я строка матрицы X:

  Yi ~ N(Xi ,  2).

Плотность распределения N(, 2) равна

 p(x)  exp(– ).

Функция правдоподобия для этого набора наблюдений имеет вид

  (2 2)  exp(– ).

Логарифмическая функция правдоподобия:

  – ln(2 2) – (Yi – Xi ) =

 = – ln(2 2) – (Y – X)T(Y – X) = – ln(2 2) – eTe.

Здесь мы обозначили вектор остатков e = Y – X.

В данном случае вектор неизвестных параметров состоит из двух компонент:

   = .

Градиент логарифмической функции правдоподобия тоже состоит из двух частей:

 g    X T(Y – X) = X Te.

 g   +   ( RSS( ) – N 2),

где RSS() = eTe — сумма квадратов остатков.

Оценка максимального правдоподобия должна удовлетворять равенству g() 0, откуда получим

   (X TX)X TY     и    2     (Y – X)T(Y – X).

ММП дает ту же оценку вектора коэффициентов регрессии , что и МНК. Как известно, оценка дисперсии 2 является смещенной:

  E(2) =  2.

Покажем, каким образом связаны ММП и МНК.

Выразим, используя равенство  g  0, дисперсию через  :  

   2()  .

Если подставить ее в функцию правдоподобия, то получится концентрированная функция правдоподобия:

c  – ln(2 2()) –  RSS() – ln(2 ) – .

Максимизация ее эквивалентна минимизации суммы квадратов остатков RSS() по .

Гессиан логарифмической функции правжоподобия состоит из следующих компонент:

  T = – X TX,      = – eTX,

   = – X Te,     = .

В точке истинных параметров e = . Используя это, получим, что компоненты информационной матрицы, вычисленной в точке истинных параметров равны:

( 0) = E(g( 0)g( 0)T) = E(X T TX ) =

 = X TE( T)X =  2X I X = X TX ,

 ( 0) = E(g( 0)g( 0)T) = E((T – N 2 ) TX ) = 0T,

  ( 0) = 0 (аналогично),

( 0) = E(g( 0)) = E((T – N 2 )) =,

 = E( (T)2) – 2 N  E(T) + N =

 = (E() +E()) – 2 N E() + N =

 = 3 N 4 + (N– N) 4 – 2 N  N 2 + N = N .

В данном случае  — блочно-диагональная матрица по параметрам и  2. В дальнейшем мы рассмотрим, какие полезные свойства из этого вытекают.

Характеристика ММП.

В статистике применяются три основных метода оценивания:

Метод наименьших квадратов.

(Обобщенный) метод моментов.

Метод максимального правдоподобия.

Интересно сравнить ММП с двумя другими методами.

Условия, при которых можно использовать ММП более ограничительны. Метод требует явного задания вида распределения.

С другой стороны, ММП более универсален. Его можно использовать для любых моделей, задающих вид распределения наблюдаемых переменных. Два другие метода можно использовать лишь тогда, когда распределение переменных можно представить в определенном виде. Если есть гипотеза о точном виде распределения, то всегда понятно, как получать оценки параметров, распределений параметров и различных статистик, как проверять гипотезы, хотя сами расчеты могут быть сложными.

Еще одно свойство — инвариантность по отношению к переобозначению параметров. Пусть  (.): kk  однозначная обратимая функция. Можно подставить в функцию правдоподобия вместо величину  (), где — новый вектор параметров,    –1( ). При этом, если — оценка МП в новой задаче, то — оценка МП в старой задаче.

Из инвариантности следует, что оценка МП как правило не может быть несмещенной. Пусть, например, E( ) 0, где  0 — истинное значение параметра. Тогда оценка , полученная нелинейным преобразованием   ( ) будет смещенной: E(   0, где  0  E( –1( )).

Если правильно выбрать параметризацию, то распределение оценок в малых выборках может быть близко к асимптотическому, если неправильно, то асимптотическое распределение будет очень плохой аппроксимацией.

ММП получил широкое распространение благодаря своим хорошим асимптотическим свойствам:

состоятельность,

асимптотическая нормальность,

асимптотическая эффективность.

С точки зрения эффективности сильные предположения о виде распределения, которые приходится делать, применяя ММП, окупаются (в большей или меньшей степени). Поскольку мы делаем очень ограничительные предположения, то можем доказать более сильные утверждения.

Связь ММП с МНК. Квази-МП методы.

Хотя оценки МП являются специфическими по отношению к определенному виду распределения, значение метода может быть шире.

Идея состоит в том, чтобы процедуру получения оценок для одного распределения распространить на “близкие” распределения. Также методы получили название квази- или псевдо-ММП.

Метод максимального правдоподобия используют для нахождения способа расчетов, а затем уже доказывают, какими свойствами обладает этот метод по отношению к некоторому более широкому классу распределений.

Как мы видели, например, ММП в случае регрессии с нормально распределенными ошибками дает МНК, который на самом деле обладает “хорошими” свойствами и при ошибках, которые уже не имеют нормального распределения (хотя эффективность теряется).

Есть и обратная связь между этими двумя методами. МНК можно использовать как вычислительную процедуру, которая помогает находить оценки МП и строить тесты. Такое техническое использование МНК называют вспомогательной регрессией . Кроме того, вслед за Дэвидсоном и Мак-Кинноном будем использовать термин искусственная регрессия, если вспомогательную регрессию можно применять как для нахождения оценок, так и для проверки гипотез относительно полученных оценок и проверки правильности спецификации модели.

Связь гессиана и матрицы вкладов в градиент с информационной матрицей

Гессиан и информационная матрица

Покажем, какая связь существует между информационной матрицей и гессианом. Сделаем это только в случае непрерывного распределения. Тот же метод доказательства очевидным образом распространяется на дискретные распределения. Применяя правило дифференцирования логарифма к логарифмической функции правдоподобия, получим следующее тождество:

    .

Продифференцируем по  T:

   .

Отсюда, опять воспользовавшись правилом дифференцирования логарифма, получим

     .

Найдем теперь ожидание обеих частей в точке  0 (при истинных параметрах распределения):

E ((Y, 0)) E (( 0))

 = ( 0,Y) dY – E ().

Второй член разности есть по определению информационная матрица ( 0). Интеграл равен нулю при условии, что операции интегрирования и дифференцирования перестановочны (для этого достаточно, в частности, чтобы пространство зависимой переменной   не зависело от   или плотность распределения по краям  была стремилась к нулю):

 ( 0,Y)  dY  1 0.

Таким образом, используя для краткости обозначения (Y, 0)  0 и ( 0) 0,

   – E (0)  0

— информационная матрица равна математическому ожиданию гессиана функции правдоподобия со знаком минус. То же самое свойство верно асимптотически (опять обозначаем ( 0) ):

   – limN   E (0)  .

Матрица вкладов в градиент и информационная матрица

Прежде всего докажем, что математическое ожидание градиента в точке  0 равно нулю (E g (Y, 0) 0):7

E g (Y, 0)   g(Y, 0) (Y, 0) dY    (Y, 0) (Y, 0) dY =

    (Y, 0) (Y, 0) dY  (Y, 0) dY  

    (Y, 0) dY  1 0.

Как уже говорилось, функцию правдоподобия можно разбить по вкладам отдельных наблюдений: (Y, ) i i(Yi, ). То же самое можно проделать с градиентом. Определим матрицу вкладов в градиент отдельных наблюдений G как

  Gij( )    ( ).

При этом iGij  i   ii    g j.

Используя рассуждения, аналогичные приведенным выше, можно показать, что E Gij(Y, 0) 0.

Мы так разделили функцию правдоподобия на вклады отдельных наблюдений, что E (Gi(Y, 0) Gs(Y, 0)T) = 0, где Gi(Y, 0) и Gs(Y, 0) — строки матрицы G0 = G(Y, 0), относящиеся к разным наблюдениям i и s. (Поскольку  элементы матрицы G0 имеют нулевое математическое ожидание, то это означает что строки матрицы G0, относящиеся к разным наблюдениям, некоррелированы.) Докажем это свойство.

Функция правдоподобия i-го наблюдения по определению есть плотность распределения Yi (в случае непрерывного распределения) условная по информации, содержащейся в наблюдениях 1, ..., i  1 (условная по Y1, ..., Y). Обозначим это информационное множество i. Будем вычислять математическое ожидание по частям — сначала условное, а потом от него безусловное (правило полного мат. ожидания). Предположим, что i < s. Тогда

 E (Gi(Y, 0) Gs(Y, 0)T) E (E (Gi(Y, 0) Gs(Y, 0)T|i)) =

  = E (Gi(Y, 0) E (Gs(Y, 0)T|i)) = 0.

Равенство E (Gs(Y, 0)T|i) = 0 доказывается в точности по той же схеме, что и доказанное выше E g(Y, 0) 0.

Используя это свойство, получим

E(G0TG0) E(  G0 iTG0 i) = E((  G0 i)T(  G0 i)) = E(g0 g0T).

Последнее выражение есть по определению информационная матрица. Таким образом,   

    E(G0TG0) = 0.

Вычисление информационной матрицы

Рассмотрим теперь, как вычислить для конкретной модели информационную матрицу ( ). Здесь существуют три способа. Понятно, что все три способа должны для “хороших” моделей давать один и тот же результат. Во-первых, можно воспользоваться определением информационной матрицы:  = E(ggT). Во-вторых, можно воспользоваться равенством  0  E(0).

Самым простым часто (а именно тогда, когда функцию правдоподобия можно простым образом разбить на вклады наблюдений) оказывается третий способ, который использует только что рассмотренное свойство

 0 = E(G0TG0)   E(GTG).

Выше была получено выражение для информационной матрицы в случае линейной регрессии с нормально распределенными ошибками прямо по определению. Вычислим теперь ее двумя другими способами.

Гессиан уже был вычислен выше. Математическое ожидание от него со знаком минус равно.

 0  E(0) = – E = .

Вклад в логарифмическую функцию правдоподобия i-го наблюдения равен

 i – ln(2 2) – (Yi – Xi ).

Продифференцировав его, получим вклад в градиент i-го наблюдения в точке истинных параметров:

 G = (XiTi, ).

Вклад в информационную матрицу i-го наблюдения в точке истинных параметров равен

 = E(GTG) =   .

Таким образом,

  0 =  = .

Все три способа, как и следовало ожидать, привели к одному и тому же результату.

Заметим попутно, что — положительно определенная матрица, 0 при любом количестве наблюдений — положительно определенная матрица (в предположении, что матрица регрессоров имеет полный ранг). Из этого можно сделать вывод, что информация в некотором смысле увеличивается с ростом количества наблюдений. Это одно из объяснений названия "информационная матрица". В частности, определитель информационной матрицы увеличивается с ростом количества наблюдений:

  || > ||.

Распределение градиента и оценок максимального правдоподобия

Асимптотическое распределение градиента и оценок максимального правдоподобия

Оценки максимального правдоподобия имеют нормальное асимптотическое распределение. Для доказательства этого мы воспользуемся предположением, что градиент функции правдоподобия в точке истинных значений параметров  0 имеет асимптотическое нормальное распределение.

Градиент g (Y, 0) будет иметь нормальное распределение (асимптотически), если к нему применима центральная предельная теорема. Надо представить g0 как сумму некоторой последовательности случайных величин. Для этого подходит разложение градиента на вклады отдельных наблюдений

  gi(Y, 0)  iGij(Y, 0).

Как сказано выше, каждое из слагаемых здесь имеет нулевое математическое ожидание. Если выполнены некоторые условия регулярности (см. литературу, посвященную центральной предельной теореме), то Gij(Y, 0) стремится к нормальному распределению с ростом количества наблюдений. Ковариационная матрица градиента в точке  0 есть информационная матрица, поскольку его математическое ожидание равно нулю: V(g0) E ( g0 g0T) . Последнее равенство выполнено по определению.

Окончательно получаем

   g0  N(0, ).

Используя это свойство градиента мы докажем асимптотическую нормальность оценок ММП. Для этого используем разложение в ряд Тейлора в точке  0  до членов первого порядка:

 0 g( ) g( 0) + ( )(   0),

где  — гессиан (матрица вторых производных от логарифмической функции правдоподобия),  j — выпуклая комбинация j и  0 j. Поскольку j  — состоятельная оценка параметра  0 j, то  j тоже должна быть состоятельной оценкой  0 j. Поскольку –  0   , то имеем асимптотическое равенство: –  ( ) .

Таким образом, (   0) () g0  N(0, () ()).

Окончательно получим

  (   0)  N(0, ()).

Это соотношение позволяет оценить ковариационную матрицу оценок . С этой точки зрения оценка обратной информационной матрицы является оценкой ковариационной матрицы МП-оценок (с точностью до множителя ), и эти термины можно использовать как синонимы. Понятно, что для этого должны быть выполнены соответствующие условия, гарантирующие, что операции интегрирования и дифференцирования коммутируют и что справедлива центральная предельная теорема, что мы всегда в дальнейшем будем предполагать.

Выборочная оценка распределения градиента и оценок максимального правдоподобия

Для получения выборочной оценки распределений МП-оценок   и градиента,  можно воспользоваться формулами для их асимптотических распределений. Все эти величины асимптотически нормально распределены и их асимптотические матрицы ковариаций являются функциями асимптотической информационной матрицы в точке истинных параметров (). Таким образом, требуется получить состоятельную оценку , чтобы подставить ее в соответствующие формулы. Будем обозначать символом  такую  матрицу, что   — состоятельная оценка :

   PlimN    .

Поскольку — состоятельная оценка истинных параметров  0, то ( — состоятельная оценка . Это дает первый способ оценивания. Он состоит в том, чтобы сначала для данной модели найти функцию ( ), а затем подставить в нее оценки максимального правдоподобия (конечно, подойдут и любые другие состоятельные оценки). Методы нахождения ( ) описаны ниже.

Другой способ основывается на равенстве для информационной матрицы   – limN   E (0) и на том, что ожидаемый гессиан E (0) асимптотически равен эмпирическому гессиану   (Y, )  T (Y, ). Этот способ обычно проще предыдущего, поскольку не требует вычисления математических ожиданий. Получить матрицу вторых производных данной функции правдоподобия можно и с помощью компьютерной программы.

Особой простотой, и потому притягательностью (требуется найти только первые производные), отличается третий способ оценивания информационной матрицы, использующий матрицу вкладов в градиент G. Этот способ предложен в статье Berndt, Hall, Hall, and Hausman (1974) и поэтому называется BHHH. Другое название — метод внешнего произведения градиента (outer product of the gradient, сокращенно OPG) . Этот способ основан на том, что E(G0TG0) 0. Предлагается использовать матрицу G(Y, )TG(Y, ) в качестве .

Таким образом, имеем три варианта матрицы :

 I. ( );    II. (Y, ) ;    III. G(Y, )TG(Y, ).

Как показывают эксперименты методом Монте-Карло, тесты, использующие G(Y, )TG(Y, ) самые неточные в конечных выборках, а тесты, основанные на ( ) обычно не уступают тестам, основанным на (Y, ).

Три рассмотренных способа нахождения  подходят для любых распределений. Есть также более специфические методы, которые можно использовать только в случае моделей определенного вида. Например, метод Гаусса-Ньютона используется в нелинейных регрессиях, метод удвоенной регрессии — в квазирегрессионных моделях с неизвестными параметрами в правой части.

Особого рассмотрения требует нахождение оценки ковариационной матрицы оценок в случае квази-МП методов (их называют также псевдо-МП методами). Если предполагается, что ошибки в модели имеют нормальное распределение и гомоскедастичны, а на самом деле это не так, то часто только что рассмотренные методы дают несостоятельные оценки. Оказывается, что во многих случаях следующие оценки состоятельны (конечно, при вычислении этих величин используется не настоящая, а псевдо функция правдоподобия):

  (Y, ) ( ) (Y, )

  (Y, ) G(Y, )TG(Y, ) (Y, )

Поясним интуитивно, откуда берутся эти формулы. При выводе асимптотического распределения оценок максимального правдоподобия, мы пользовались тем, что “усредненный” гессиан –  0 равен асимптотически . В общем случае нужно воспользоваться пределом  E() — “асимптотическим” ожидаемым гессианом в точке истинных оценок(. Формула приобретет следующий вид:

 (   0)  () g0  N(0, () ()).

Численные методы нахождения оценок максимального правдоподобия

Рассмотрим семейство универсальных алгоритмов вычисления оценок максимального правдоподобия, тесно связанных с только что рассмотренными способами получения матрицы . Эти алгоритмы являются итеративными градиентными методами и t-й шаг алгоритма задается формулой

   =   + ()g( ).

Стационарная точка этого процесса   =   будет удовлетворять уравнениям правдоподобия g=0 и (с соответствующими оговорками) будет оценкой максимального правдоподобия.

Если в качестве  взять информационную матрицу в точке оценок ( , то мы получаем метод, называемый по-английски method of scoring:

   =    ( )g( ).

Если в качестве  взять минус гессиан – ( ), то мы получаем классический метод Ньютона:

   =    ( )g( ).

Метод Ньютона, как правило, быстрее сходится в ближайшей окрестности оценок МП, зато метод, использующий информационную матрицу обычно менее чувствителен к выбору начальных приближений.

Шаг метода BHHH (OPG)  можно получить с помощью вспомогательной (искусственной) регрессии, зависимой переменной в которой будет вектор, составленный из единиц (обозначим его 1), а матрицей регрессоров — матрица G( ). Если   — оценки коэффициентов в этой вспомогательной регрессии на t-м шаге, то итерация имеет вид

   =   +  , где   = (G( )TG( ))G( )1.

Хотя этот последний алгоритм является самым простым, но, как правило, сходится очень медленно. Если учесть, что обычно при использовании этого метода   берут в качестве оценки ковариационной матрицы оценок, то использовать его нежелательно.

Возможны различные модификации этой основной идеи.

Шаг алгоритма можно вычислять, домножая исходный шаг на параметр : 

   =   +   ()g( ).

Разумно выбирать параметр , максимизируя по нему функцию правдоподобия в точке  :

   argmin (  +  ()g( )).

В частном случае матрица 0 является блочно-диагональной. Тогда шаг алгоритма можно разбить на несколько “подшагов”, один для каждого блока. Изменяются при этом только параметры, соответствующие данному блоку.

Если из условий первого порядка выразить одни оцениваемые параметры через другие и подставить их в функцию правдоподобия, то получится концентрированная функция правдоподобия. Действуя таким образом, задачу поиска оценок МП можно упростить, сведя к задаче максимизации концентрированной функции правдоподобия по меньшему числу параметров. Задача может упроститься до одномерного поиска.

Существует много других алгоритмов. Есть алгоритмы специально сконструированные для конкретной модели; с примерами их мы встретимся в дальнейшем. Есть универсальные методы, которые можно применять к широкому классу моделей, такие как метод удвоенной регрессии и итеративный обобщенный МНК. Можно, конечно, использовать универсальные оптимизационные алгоритмы, которые подходят не только для максимизации функции правдоподобия.

ММП и проверка гипотез

Асимптотическое распределение и аcимптотическая эквивалентность трех классических статистик

Предположим, что мы хотим проверить гипотезу о том, что вектор истинных параметров  0 удовлетворяет набору ограничений, который в векторном виде можно записать как

  r( 0) 0.

Тогда с учетом этой информации задача получения оценки максимального правдоподобия эквивалентна задаче нахождения седловой точки лагранжиана:

 L(, ) ( ) – rT( ) .

Ограниченная оценка должна вместе с вектором множителей Лагранжа  удовлетворять следующей системе условий первого порядка:

  g( ) RT( ) ,

  r ( ) 0,

где R( ) — матрица первых производных ограничений: R  .

Для вывода распределений интересующих нас статистик используем тот же прием, с помощью которого выше получено распределение оценок. Поскольку мы предполагаем, что оценки МП состоятельны и нас интересуют асимптотические распределение, то для разложений в ряд Тейлора будем писать приближенные равенства. Более строгие рассуждения должны быть аналогичны использованным выше.

Разложим градиент и ограничения в ряд Тейлора до членов первого порядка в точке истинных параметров  0:

 g( ) g0 + 0 (  0),

 r ( ) R0 (  0).

При получении второго соотношения мы использовали, что  в точке истинных параметров ограничения выполняются:  r ( 0) 0.

Подставив эти приближения в условия первого порядка, получим следующие асимптотические равенства:

 g0 + 0 ( 0) R0T,

 R0 ( 0) 0.

Перепишем систему в блочной форме:

     .

Отсюда, домножая на  и  , чтобы получились величины порядка O(1), получим асимптотическое равенство:

     .

Используем следующее правило блочного обращения матрицы:

 =  .

В данном случае  

A ,  B R0T,  C R0,  D 0,  (CAB  D) (R0 ()R0T).

Таким образом,

 =

=  .

Получим выражения, асимптотически эквивалентные оценкам и множителям Лагранжа  :

  ()(I – R0T(R0 ()R0T)  R0 ()) (g0),   ()

   (R0 ()R0T)  R0 () (g0).    ()

Вспомним, что g0  N(0,).

Отсюда получим асимптотическое распределение вектора множителей Лагранжа:

   N(0, (R0 ()R0T) R0 ()()R0T(R0 ()R0T)),

    N(0, (R0 ()R0T)).

Статистикой множителя Лагранжа называют следующую величину:

   LM  T T.

Здесь  — матрица, полученная на основании выборочной информации в точке , такая что   — состоятельная оценка . Величина LM имеет распределение 2 с  p степенями свободы, где p — размерность вектора ограничений r :

   LM  2(p).

Это следует из формулы для распределения , состоятельности оценки  и невырожденности матрицы  R0 ()R0T.

Вспомним, что одно из условий первого порядка максимума функции правдоподобия имеет вид   T. Это позволяет выразить статистику множителя Лагранжа через градиент логарифмической функции правдоподобия:

   LM  T  2(p).

Хотя статистика множителя Лагранжа получила свое название благодаря тому, что ее можно выразить через множители Лагранжа, на практике гораздо чаще используют градиентную форму (score form of LM test).

Если вспомнить асимптотическое выражение () для , то можно выразить (асимптотически) LM-тест через g0 :

 LM 1/N g0()R0T(R0 ()R0T)R0 ()g0 .

Статистика отношения правдоподобия по определению есть

   LR 2( – ).

Найдем ее асимптотическое распределение. Используем для этого разложение в ряд Тейлора:

    + (   ) ( ) (   ),

где  j — выпуклая линейная комбинация  j и j. Поскольку   и  — состоятельные оценки  0, то –( ) N .

 LR 2( – ) N (    )(  –  ).

Асимптотический эквивалент этой статистики также можно записать в терминах  0, , R0 и g0.

Отняв от (   0) () g0 доказанное ранее равенство () получаем, что (   ) ()R0T(R0 ()R0T)R0 ()g0 .

Отсюда следует, что статистика отношения правдоподобия асимптотически равна той же самой случайной величине, что и статистика множителя Лагранжа:

 LR 1/N g0()R0T(R0 ()R0T)R0 ()g0 

Эта это означает, что статистика отношения правдоподобия также имеет асимптотическое распределение 2 с p степенями свободы.

Третья классическая статистика основана на распределении r ( ). Поскольку  — оценка, полученная без учета ограничений, то в общем случае r ( ) 0, однако, если верна нулевая гипотеза, то r () 0. Разложим   r () в ряд Тейлора в точке  0, учитывая, что r ( 0) 0:

   r ( 0) + R0 (   0) R0 (   0).

Ранее было выведено, что (   0)  N(0, 0). Отсюда получим статистику Вальда:

   W  T( T)

Здесь  —матрица, полученная на основании выборочной информации в точке , такая что   — состоятельная оценка .

Как и в случае двух других тестов W  2(p).

В пределе   R0 (   0)  R0 ()g0. Значит,

 LR 1/N g0()R0T(R0 ()R0T)R0 ()g0 .

Тем самым мы показали, что с ростом количества наблюдений все три статистики стремятся к одной и той же случайной переменной, которая имеет распределение 2(p). Другими словами, три классических теста асимптотически эквивалентны.

Все три статистики совпадают, если логарифмическая функция правдоподобия является квадратичной. Это верно, в частности, для линейной регрессии с известной дисперсией, например,

 Y X +  ,  где  i ~ NID(0,1).

Рассмотрим, к примеру, логарифмическую функцию правдоподобия с единственным (скалярным) параметром  :

   (a – b )2 + const.

Гессиан     – 2b2  является постоянной величиной, информационная матрица, таким образом, равна   2b2  при всех  .

Возьмем ограничение вида r ( ) 3 – 1

Получим    ,     . Откуда   0 + const, – (a – )2 + const.

 LR 2( – ) 2(a – )2.

Градиент равен g 2 b (a – b ).  Таким образом,   2 b (a – b).

 LM  T   2 b (a – b)  2 b (a – b) 2(a – )2.

Найдем ту же статистику через множитель Лагранжа.

 L – (a – b )2 (3 – 1) max

   2(a – b ) – 3  0       (a – b )   (a –  ).

 R    3,    3.

 LM  T T   (a –  ) 3  3  (a –  ) 2(a – )2.

Теперь найдем статистику Вальда.

   3 – 1 3  – 1.   3.

W  T( T)  (3  – 1) ( 3  3)(3  – 1)  2(a – )2.

Рис.

Соотношения между статистиками

Все три классические статистики совпадают в случае “бесконечно большой выборки”. В выборках конечных размеров их поведение может существенно отличаться от асимптотического. Поэтому не всегда на эти классические статистики можно полагаться. В этом их отличие от F-статистик, которые имеют точное распределение в конечной выборке в случае классической линейной регрессии с нормальными ошибками и линейной проверяемой гипотезой. Рассмотрим этот случай более подробно.

Предположим, что проверяется гипотеза

 Q = q,

где Q — известная матрица ( pm), q — известный вектор ( p1). В использованных выше обозначениях r( ) = r(, 2) = Q – q, матрица R( ) равна [Q  0] при всех значениях (нулевой вектор относится к параметру  2). Проверяемой гипотезе соответствует следующая статистика Вальда (вспомним, что  = 2 (X TX )):

 W  T( T) = (Q – q)T(Q  Q T)(Q – q) =

  =   (Q – q)T(Q  (X TX )Q T)(Q – q).

Нам нужно максимизировать функцию правдоподобия при ограничении Q = q. Лагранжиан рассматриваемой задачи условной максимизации имеет вид

 L – ln(2 2) – (Y – X)T(Y – X)  – (Q – q)T.

В максимуме должно выполняться

 (, ) = X T(Y – X ) – QT = 0.

Отсюда

  = (X TX )X TY –  (X TX )QT =  (X TX )QT,

где = (X TX )X TY — оценки ОМНК (без ограничений). Домножая это равенство слева на Q и учитывая, что Q = q, получим

  = (Q (X TX )QT)(Q – q).

Таким образом, оценки с учетом ограничений равны

  = – (X TX )QT(Q (X TX )QT)(Q – q).

Из условия (, ) =0 несложно получить, что = , где  — сумма квадратов остатков в регрессии с ограничениями (так же как =  в регрессии без ограничений).

Статистика множителя Лагранжа равна:

LM = T T = TQ(X TX )QT =

 =   (Q – q)T(Q (X TX )Q T)(Q – q).

Можно также показать (пропускаем эти преобразования), что

 (Q)T(Q (X TX )Q T)(Q – q) =  – .

Это позволяет выразить LM и W через суммы квадратов остатков:

 LM = N , W = N ,

Логарифмическая функция правдоподобия в максимуме равна

 = – ln(2) – .

В регрессии без ограничений = – ln(2) – .

Отсюда найдем статистику отношения правдоподобия:

 LR = 2( – ) = N (ln() – ln()).

Так как логарифм — строго вогнутая функция, то выполнено следующее точное неравенство:

  W > LR > LM.

Таким образом, тест Вальда будет чаще отвергать гипотезу, тест множителя Лагранжа — реже. Это же неравенство верно и для нелинейных регрессий.

F-статистика для проверки той же гипотезы равна

 F =  .

Она распределена как F(p, N – m).

В линейной регрессии лучше, конечно использовать t- и F-статистики. Кроме того, распределение этих статистик лучше аппроксимируется их номинальным распределением и в других моделях: нелинейных регрессиях, некоторых моделях, являющихся развитием регрессионных, некоторых искусственных регрессиях и т. п. Хотя здесь t- и F-статистики не будут иметь точного распределения, но, как показали эксперименты, они, как правило, лучше в конечных выборках, чем их асимптотические аналоги (N и 2 соответственно). Такие t- и F-статистики называют асимптотическими t- и F-статистистиками.  Три классические статистики можно преобразовать в асимптотические F-статистики по следующим формулам:

FW =  , FLM =  , FLR = (exp() –1) .

Все эти статистики распределены приближенно как F(p, N – m).

Понятно, что тесты на основе W, LR, LM и асимптотические F-тесты дают противоречивые результаты в конечных выборках. Одни из них могут отвергать гипотезу при выбранном уровне значимости, другие же говорить в пользу принятия гипотезы.

Для того, чтобы исследовать поведение асимптотических статистик в конечных выборках, используют метод Монте-Карло. С помощью этого метода можно, в частности, выяснить, какой из тестов более подходит для данного типа моделей, какую оценку ковариационной матрицы оценок лучше всего использовать.

Модели с дискретной зависимой переменной

Модели с бинарной зависимой переменной (логит и пробит)

Бинарная зависимая переменная Yi называется так, потому, что принимает два значения, обычно 0 и 1. Обозначим через Pi  вероятность появления единицы, или, что в данном случае то же самое, математическое ожидание Yi:

  Pi = Prob (Yi  1) = E(Yi).

Вероятность Pi в линейной модели с бинарной зависимой переменной зависит от Xi  , где Xi — строка матрицы регрессоров, — вектор коэффициентов регрессии:

  Pi = F (Xi ).

Здесь F (.) — (кумулятивная) функция распределения некоторого непрерывного распределения.

В логите используется (стандартное) логистическое распределение c функцией распределения

  F (z) =

и плотностью распределения

  f (z) = .

В пробите используется стандартное нормальное распределение c функцией распределения

  F (z) =   e dt.

Логарифмическая функция правдоподобия равна

= ln Pi() +ln (1 – Pi()) =

 = [ Yi ln Pi() + (1– Yi) ln (1 – Pi())].

где  I0  и  I1 – множества наблюдений, для которых Yi  0 и Yi  1 соответственно.

Градиент функции правдоподобия равен:

 gT =  =  [  ]  =     f (Xi )X.

Логит

Для логита верно, что f (z) = F (z) (1  F (z)), поэтому f (Xi ) = Pi(1  Pi). Это позволяет упростить формулу градиента:

   gT = (Yi – Pi)X,

где Pi  .

Гессиан в случае логита равен:

  = –   XT = –  f (Xi ) XTX =

  = – Pi(1  Pi) XTX.

Видно, что гессиан всюду отрицательно определенный (кроме вырожденных случаев). Таким образом, логарифмическая функция правдоподобия всюду вогнута.

Гессиан не зависит от случайного вектора Y, поэтому ожидаемый гессиан равен просто гессиану, то есть информационная матрица равна минус гессиану:

    Pi(1  Pi) XTX.

Для поиска максимума можно использовать метод Ньютона (он же в данном случае и method of scoring):

   =   – (( ))g( ) =   .

Поскольку максимизируемая функция вогнута, то метод Ньютона всегда сходится. Шаг алгоритма удобно находить как оценки коэффициентов во вспомогательной регрессии Y по X, где

 Y = ,  X = X.

Пробит

В случае пробита выражение для гессиана несколько более громоздкое:

   =   [  ] f (Xi )X =

= –  [  +  ] f (Xi )XTX

 +  [  ] f (Xi ) X =

= –  [ ()f (Xi )XT –   ]  f (Xi )X.

Для нормального распределения верно, что  = – z f (z). Это позволяет несколько упростить выражение для гессиана, так как

   = – Xi   f (Xi ) XiT.

Обозначим

  vi = f (Xi ).

Тогда

   – vi(vi +Xi ) XTX.

В тех же обозначениях градиент равен

   gT = vi X.

Как и в случае логита, можно показать, что гессиан является отрицательно определенным.

Чтобы найти информационную матрицу для пробита, воспользуемся тем, что E (Yi) Pi, E (Yi – Pi)2 = Pi(1 – Pi ).

   E () – E (vi2) XTX = –   XTX.

Для поиска максимума, как и в случае логита, можно использовать градиентный алгоритм:

   =   – ()g  =   .

В методе Ньютона с  = – ( ) используется вспомогательная регрессия с переменными

 Y =  ,  X =   X.

Если использовать информационную матрицу в точке оценок  = ( ) (method of scoring), то надо взять

 Y = ,  X = X.

Вспомогательные регрессии для пробита и логита являются искусственными регрессиями, то есть, с помощью них можно проверять все те гипотезы, которые можно проверять в случае обычной регрессии, в частности, использовать t-статистики.

Метод максимального правдоподобия для моделей с дискретной зависимой переменной по сути является нелинейным методом наименьших квадратов (НМНК). Математическое ожидание Yi равно Pi. Разность Yi и Pi  должна иметь нулевое математическое ожидание, то есть подходит в качестве ошибки в нелинейной регрессии Yi по Pi. Однако эта ошибка будет гетероскедастична. Действительно,

V(Yi) = E (Yi – Pi)2 = Pi(1 – Pi )2 + (1 – Pi )Pi2 = P i(1 – Pi).

Таким образом, следует воспользоваться взвешенным НМНК, где веса рассматриваются как фиксированные:

     min.

Поскольку веса неизвестны, то приходится использовать итерационные процедуры, которые совпадают с описанными выше. Оба метода дают одни и те же оценки, поскольку достигают экстремума одновременно.

Пуассонова регрессия

Распределение Пуассона — дискретное распределение, задаваемая формулой

 Prob(Y = r) = e,

где — параметр распределения.

Распределение Пуассона имеет случайная величина Y, равная количеству событий, произошедших за некоторый промежуток времени, если эти события независимы и происходят с постоянной скоростью (равномерно по времени). Это, например, может быть количество покупателей, посетивших магазин в течении часа.

Моменты распределения:

 E(Y) = ,  Var(Y) = .

В регрессионной модели с распределением Пуассона параметр зависит от набора факторов и неизвестных параметров.

В линейной модели:

 i = exp(X  ).

Тогда логарифмическая функция правдоподобия равна

  =  [Yi X  – exp(X  ) – lnYi! ] max.

Градиент равен:

 gT =  =  [Yi X  – exp(X  )X ].

Условие первого порядка максимума:

 [Yi – exp(X  )] X.

Гессиан не содержит случайных компонент, и поэтому информационная матрица равна минус гессиану.

   = –  exp(X  ) XXT.

Для поиска максимума можно использовать метод Ньютона:

   =   – ()g .

Метод Ньютона легко реализовать с помощью вспомогательной регрессии.

Обозначим

 vi = exp( X  ), Yi* = Yi / vi – vi,  Xi* = Xi vi.

Тогда если  — оценки коэффициентов в регрессии Y* по X *, то шаг метода Ньютона задается формулой:

   =   .

Оценка ковариационной матрицы оценок есть – () =(X *TX *), поэтому тесты для коэффициентов матрицы и т. п. можно получить из регрессии Y** по X *, где Y** = Y*/s, s = , и Y* берется в точке оценок МП (на последней итерации метода Ньютона). Проверять ограничения на коэффициенты можно как с помощью 2 статистики Вальда, так и с помощью соответствующих t- и F-статистик из вспомогательной регрессии. В качестве аналога стандартного F-теста на равенство нулю коэффициентов при всех переменных кроме константы можно использовать статистику отношения правдоподобия. Пусть  — значение логарифмической функции правдоподобия когда i =  i.

  LR = 2 ( – )  (m  1),

где m — количество регрессоров (столбцов X).

Найдем :

  =  [Yi ln – lnYi! ].

  =  Yi – N = 0     =  Yi   .

Таким образом,  = N  ln – N   – lnYi! .

Обобщенный метод наименьших квадратов

Отбросим предположение, что в регрессионной модели ошибки независимы. Пусть ошибки кореллированы и структура матрицы ковариаций ошибок V известна. Найдем оценки в этой регрессии методом МП при нормально распределенных ошибках. Заметим, что метод можно использовать и для более широкого класса распределений.

Модель имеет вид

  Y = X + , где ~N(0,V ).

Плотность распределения равна

  p(z) = (2) |V  |  exp(–  zTV z).

Отсюда получим логарифмическую функцию правдоподобия

  = –  ln(2) –  ln|V  | –  (Y – X)TV (Y – X).

Далее мы рассмотрим случай, когда V  известна с точностью до множителя:

   V =  2W.

Подставим это выражение в функцию правдоподобия:

  = –  ln(2 2) –  ln|W | – (Y – X)TW (Y – X).

Воспользовавшись условием первого порядка

    = 0,

выразим  2 через :  2() = RSS( )/N где

  RSS( ) = (Y – X)TW (Y – X)

— обобщенная сумма квадратов остатков.

Подставив  2() в логарифмическую функцию правдоподобия, получим концентрированную функцию правдоподобия:

  = –  ln(2 ) –  ln|W | – .

Поскольку W — константа, то максимизация  эквивалентна минимизации обобщенной суммы квадратов: RSS( ) min .

   = 0    Y TW X = TX TW X.

Получим оценку МП для  :

    = (X TW X)X TW Y.

На практике удобно использовать не эту формулу, а преобразовать X и Y так, чтобы можно было делать расчеты с помощью ОМНК. Поскольку W — симметричная положительно определенная матрица, то к ней можно применить разложение Холецкого (или любое другое аналогичное представление):

   W = TT T,

где T — нижняя или верхняя треугольная матрица. Отсюда

   W  = (T )TT ,

    = (X T(T )TT X)X T(T )TT Y.

Обозначим T X = X *, T Y = Y *. Тогда выражение для    примет вид:

     = (X * TX *) X * TY *.

Таким образом, оценки коэффициентов можно найти, применив обычный метод наименьших квадратов к регрессии Y *  по X *. Вообще говоря, предположения о нормальности не требуется для состоятельности оценок, и на метод максимального правдоподобия можно было не ссылаться, поскольку предложенное преобразование сразу приводит к классической регрессионной модели.

Несложно проверить, что информационная матрица равна

    = X TW X,

поэтому и ковариационная матрица оценок полученная из той же регрессии будет оценкой ковариационной матрицы оценок максимального правдоподобия:

  V() =  2 (X TW X) =  2 (X * TX *),

где  2 — оценка дисперсии в регрессии Y *  по X *, которая является оценкой параметра  2  в исходной модели. Это позволяет использовать t- и F-статистики в преобразованной модели для проверки гипотез о коэффициентах .

В более общем случае матрица ковариаций ошибок V зависит от вектора неизвестных параметров . Эту модель в дальнейшем будем называть моделью обобщенного метода наименьших квадратов, хотя ковариационная матрица ошибок в обобщенном методе наименьших квадратов в собственном смысле слова зависит от единственного неизвестного множителя. Предполагается, что два вектора параметров не связаны между собой, т.е. математическое ожидание Y не зависит от , а матрица ковариаций V не зависит от .

  = –  ln(2) –  ln |V() | –  (Y – X)TV()(Y – X).

Информационная матрица будет блочно-диагональной: ее часть, соответствующая “взаимодействию” и  будет равна нулю:

   = (Y – X)TV()X.

   = (Y – X)T X.

   = E((0, 0)) = E(T X) = E(T) X = O.

Отсюда следует, что для проведения тестов относительно можно использовать просто диагональный блок информационной матрицы, относящийся к , не учитывая, что — оценки, и наоборот, для проведения тестов относительно можно использовать просто диагональный блок информационной матрицы, относящийся к  :

   = E(T ) = X TV()X.

Если имеется способ получить состоятельную оценку параметров  ( то эффективную оценку параметров   благодаря блочно-диагональности информационной матрицы можно получить за один шаг:

     = (X TV(X)X TV(Y.

Такую оценку принято называть одношаговой эффективной оценкой, а метод называют возможный обобщенный метод наименьших квадратов (feasible generalized least squares).

Если на основании оценок можно из условий первого порядка максимума правдоподобия вычислить оценки , то можно использовать итеративный обобщенный метод наименьших квадратов (iterated generalized least squares). Этот метод сходится к оценкам максимального правдоподобия.

Регрессии с неодинаковой дисперсией и тестирование гетероскедастичности

Взвешенный метод наименьших квадратов

Обобщенный метод наименьших квадратов имеет много применений. Его частным случаем является взвешенный метод наименьших квадратов, позволяющий оценивать регрессии с гетероскедастичной ошибкой. Гетероскедастичность означает, что хотя матрица ковариаций ошибок диагональная, но дисперсии (стоящие по диагонали) разные.

Пусть ошибки независимы и i-я ошибка имеет дисперсию i2 =  2 wi. В данном случае матрица W — диагональная с типичным диагональным элементом wi. Матрица T — тоже диагональная с типичным элементом , а T  — диагональная с типичным элементом . Переменные во вспомогательной регрессии будут иметь вид:

  Y= ,   X= .

Такую регрессию называют взвешенной регрессией.

Если веса зависят от неизвестных параметров wi = wi(), то следует воспользоваться методом максимального правдоподобия. Логарифмическая функция правдоподобия равна

  = –  ln(2 2) –  ln wi() –     (Yi  Xi )2.

Концентрируем функцию правдоподобия по  2:

  = –  ln(  (Yi  Xi )) –  ln wi() + const.

Максимизация функции правдоподобия эквивалентна минимизации суммы квадратов остатков взвешенной регрессии по и , если взять нормированные веса:

  Y= ,  X= .

Здесь w() = , () — среднее геометрическое весов ( =  wi). Важно, что используются нормированные веса, в противном случае минимизация суммы квадратов привела бы к неправильному результату.

Такой метод малопригоден для вычислений. Ниже рассматривается более удобный метод, который годится в частном случае линейной мультипликативной гетероскедастичности.

Проверка гипотезы о наличии гетероскедастичности известного вида

Выдвинем явную гипотезу о виде гетероскедастичности в регрессии:

  wi() = h(Zi),

где h(.) —дифференцируемая строго монотонная функция, такая что h(0) = 1, Zi — линейная комбинация известных переменных Z с неизвестными коэффициентами .

Дисперсия ошибки i-го наблюдения равна i2 =  2 h(Zi). Функция правдоподобия i-го наблюдения будет иметь вид:

 i = –  ln(2 2 h(Zi)) –  (Yi  Xi )2.

Как мы уже видели, информационная матрица в модели обобщенного МНК имеет блочно-диагональную форму, поэтому гипотезы о можно проверять независимо от . Поэтому в дальнейшем будем рассматривать градиент функции правдоподобия и информационную матрицу только в той части, которая относится к  и  2, которые вместе составляют вектор = ( 2, )T.

Для проверки гипотезы об отсутствии гетероскедастичности удобнее всего использовать LM-тест (нулевая гипотеза H0:  = 0), поскольку для него не требуется оценивать модель при   0. Достаточно оценить регрессию обычным методом наименьших квадратов.

Найдем вклад в градиент i-го наблюдения:

   = –  +  .

   =  ( – 1) =  i.

   = –   Zi  +  i2Zi.

   ( – 1) Zi i Zi.

Здесь мы обозначили i =  – 1 и воспользовались тем, что h(0) = 1. Информационную матрицу удобно находить через матрицу вкладов в градиент. Воспользуемся тем, что E(i2) = 2, поскольку для нормального распределения

  E() = 1  и  E() = 3.

Отсюда получим при выполнении нулевой гипотезы

 E(()) = E(i2) = ,

 E( ) =  E(i2) Zi =  Zi,

   E(  ) =   E(i2) ZiZiT =  ZiZiT.

Таким образом, информационная матрица равна

 = E(GG) =  =

 = .

где 1 — вектор-столбец, составленный из N единиц. Если обозначить

  Z *= (1, Z ),

то

    = Z * TZ *.

Статистика множителя Лагранжа для проверяемой гипотезы равна

   LM = T (),

где градиент и информационная матрица берутся в точке (,  0) оценок ОМНК.

Градиент равен  = ( 1T, Z T), где i = – 1, ei — остатки из регрессии. (Оценка дисперсии  2, полученная методом максимального правдоподобия такова, что 1T = 0, т. к. производная функции правдоподобия равна нулю.) В терминах матрицы Z *  

    =  Z *T.

В таком случае можно заметить, что LM-статистика равна объясненной сумме квадратов из регрессии    по Z *  или, что то же самое, половине объясненной суммы квадратов из регрессии  по Z *:

 LM =  TZ *(Z * TZ *) Z *T =  TZ *(Z * TZ *)Z *T.

Если домножить регрессоры на отличные от нуля константы, то подпространство, которое на них натянуто, не изменится. Поэтому регрессия  по Z * дает ту же самую объясненную сумму квадратов, что и регрессия по 1 и Z. Таким образом, окончательно получаем, что LM-статистика для тестирования гетероскедастичности равна половине объясненной суммы квадратов из регрессии  по константе и Z. Статистика распределена асимптотически как 2(r), где r — размерность вектора .

Примечательно, что в этой статистике не фигурируют производные функции h(.), формула будет одна и та же независимо от выбора h(.). Когда статистика множителя Лагранжа одна и та же для широкого класса альтернативных гипотез, тогда эти альтернативные модели принято называть локально эквивалентными альтернативами.

Регрессия с мультипликативной гетероскедастичностью

В регрессии с (линейной) мультипликативной гетероскедастичностью дисперсия ошибки равна

  i2( ) = exp(Zi).

Здесь Z — матрица, состоящая из переменных, от которых зависит дисперсия (как правило, в ней должен быть столбец, состоящий из единиц), — вектор параметров.

Регрессия задана формулой:

  Yi  Xi  + i , i ~ NID(0,i2()).

Предполагается, что неизвестные параметры в “среднем” и в дисперсии не связаны между собой.

Логарифмическая функция правдоподобия i-го наблюдения для этой модели имеет вид:

i = –  ln(2i2( )) –  (Yi  Xi )2  =

   = –  ln(2) –  Zi  – .

Найдем вклад в градиент i-го наблюдения:

  =  eiXi,

  = –  Zi  + Zi =  (  – 1)Zi.

Вклад в информационную матрицу i-го наблюдения равен

 E(  ) =  XiXiT = XiXiT,

 E(  ) =   E( (  – 1)) XiZiT = 0,

  E(  ) =   E(  – 2  + 1) ZiZiT =

  = (3  2 + 1) ZiZiT=  ZiZiT.

Таким образом, информационная матрица (как и следовало ожидать) блочно-диагональная и блоки ее равны:

  = XT diag(, ..., ) X,  =  Z TZ .

При данном векторе , коэффициенты регрессии можно найти из взвешенной регрессии:

   = (X *TX *)(X *TY *),

где X *= X,  Y *= Y. Обозначим остатки из этой регрессии e*( ).

Используем итерации по  :

   =   + ( ) g =   +  .

  можно находить с помощью вспомогательной регрессии    ( ) по  Z, где i =   – 1 = (e ) – 1.

Обе используемые в этом алгоритме вспомогательные регрессии дают состоятельные оценки ковариационных матриц соответствующих оценок параметров и могут использоваться для проверки гипотез.

Нелинейная регрессия. Метод Гаусса-Ньютона

Пусть нелинейная регрессия задана уравнением

  Yi = fi( ) +  i,

Имея на t-м шаге приближение  , следующее приближение   получаем с помощью регрессии Y – f (  ) по F( ), где F(. ) — матрица производных f по  :

   Fij = .

По сути дела мы здесь линеаризируруем функцию f в окрестности точки  . Пусть    — оценки ОМНК из этой вспомогательной регрессии:

    = (F(  )TF(  ))F( )T(Y – f ( )).

Тогда следующее приближение метода Гаусса-Ньютона будет:

     =   +  .

Повторяем эти итерации пока метод не сойдется.

Последняя из регрессий Гаусса-Ньютона даст состоятельную оценку матрицы ковариаций оценок  ( 2 ( )), при условии, что верны обычные предположения: что  i независимо нормально распределены с нулевым мат. ожиданием и одинаковой дисперсией. Ясно, что можно, используя t- и  F-статистики из этой вспомогательной регрессии, проверять различные гипотезы по принципу теста Вальда. Таким образом, регрессия Гаусса-Ньютона является искусственной регрессией.

Оценивание регрессии с AR-ошибкой

AR(1) имеет вид:

   i =   i–1 + i.

“Инновации” i независимы и имеют одинаковую дисперсию  2. Из этого следует, что  i–1 и i независимы. Дисперсия i находится из соотношения

  V(i) = V(  i–1) +  2.

   2 =  2 2 +  2,

где  2 = V(i). Отсюда

    2 = .

Чтобы дисперсия не увеличивалась до бесконечности с ростом количества наблюдений, должно выполняться условие стационарности | | < 1.

Найдем матрицу ковариаций ошибок i. Рекуррентную формулу для i можно развернуть следующим образом:

  i = i +   i–1 +  2 i–2 +...+   i–.

Отсюда cov(i,  i–) = cov(  i–,  i–) =   2.

Получаем следующую ковариационную матрицу

 V( 2, )  2   2 W().

Предположим, что в линейной регрессионной модели Yi = Xi  + i ошибка порождается авторегрессионным процессом первого порядка. Рассмотрим два способа оценивания такой регрессионной модели.

Нелинейная регрессия с пропущенным первым наблюдением

Подставим i = Yi – Xi   в уравнение авторегрессионного процесса:

  Yi – Xi   =  (Yi–1 – Xi–1  ) + i.

Получим следующую нелинейную регрессионную модель:

  Yi = Xi   +  (Yi–1 – Xi–1  ) + i.

Ошибки i независимые с одинаковой дисперсией и их ковариационная матрица равна  2 I.

Для оценивания нелинейной регрессии можно использовать метод Гаусса-Ньютона. Поскольку Y0,  X0 и  0 неизвестны, то берут  0 = 0. С помощью вспомогательной регрессии метода Гаусса-Ньютона можно не только оценить модель, но и проверить гипотезу об отсутствии автокорреляции ( = 0).

Если неизвестно, есть ли автокорреляция ошибок, лучше сначала получить оценки ОМНК и проверить гипотезу в этой точке (принцип LM-теста). Такой тест можно реализовать воспользовавшись той же регрессией Гаусса-Ньютона. В точке оценок ОМНК (когда  = 0) матрица производных равна [X, e–1], т.е. к X добавляется столбец лагов остатков (где первое наблюдение равно нулю). Вспомогательная регрессия имеет вид

  e = X b + r e–1 +ошибка.

Проверяем гипотезу, что r = 0. Для этого можно использовать обычную t-статистику. Поскольку модель линейна, то это все равно, что тест на добавление переменной e–1 в исходную регрессию, так как можно заменить в левой части e на Y.

Этот тест и этот метод годятся даже тогда, когда в правой части стоят лаги зависимой переменной (DW-статистика в этом случае непригодна). Идею теста предложил Дарбин.

Описанный метод дает оценки МП при предположении, что ошибки распределены нормально, но не является точным методом МП, поскольку не учитывает распределение первого наблюдения.

Оценивание регрессии с AR(1)-ошибкой полным методом максимального правдоподобия

Ковариационная матрица ошибок  i имеет вид:

 V( 2, )   2 W()  2 .

Дисперсии  i и  i связаны между собой соотношением 2   .

Можно проверить, что

 W   (1–  2.

Применим следующее разложение Холецкого: T T T W (1–  2), где

  T  .

Определим переменные вспомогательной регрессии следующим образом:

 Y *  T TY,  X *  T TX.

При фиксированном регрессия Y * по X * дает оценки максимума правдоподобия для (это будет оценка МП только в том случае, если X не содержит лагов зависимой переменной !!!). Этот прием называется преобразованием Прэйса-Винстена  (Prais-Winsten transformation). Распишем его более подробно:

 Y1* Y1 ,  X*1j   X1j,

 Yi*  YiYi–1 ,  X*ij   XiXi–1j   i > 1.

Как и следовало ожидать, при i > 1 преобразование совпадает с рассмотренным выше преобразованием при пропущенном первом наблюдении.

В данном случае формула для первого наблюдения отличается от формулы для прочих наблюдений. Поскольку в ней отсутствуют лаги,  то ошибка будет равна  i, а не  i и дисперсия для первого наблюдения будет равна , а не 2. Поэтому первое наблюдение домножается на , чтобы избавиться от гетероскедастичности.

Пусть  () — оценки коэффициентов из вспомогательной регрессии, e*() — остатки из вспомогательной регрессии. Мы можем максимизировать по  концентрированную функцию правдоподобия:

c() –  ln|W()|  –  ln((Y  X ()) TW()(Y  X ())) +

 + const   ln(1–  2) –  ln(e*()Te*()) + const  max  .

Здесь мы воспользовались тем, что T T T W (1–  2) и

ln|W| – ln|W | – N ln(1–  2) – ln|T T T| =

  – N ln(1–  2) – 2 ln|T | – N ln(1–  2) – 2 ln() =

  – (N +1) ln(1–  2).

Можно показать, что условие первого порядка максимума концентрированной функции правдоподобия представимо в виде кубического уравнения. Максимум находится как средний корень этого уравнения.

Удобно, что при этом оценка всегда лежит в интервале стационарности ().

Информационная матрица, как и всегда в модели обобщенного метода наименьших квадратов, является блочно-диагональной. Приводим ее выборочный аналог без доказательства

 ( )  .

Иногда первое наблюдение очень важно и добавляет много новой информации.

Регрессия с MA-ошибкой

Оценивание регрессия с MA(1)-процессом в ошибке полным методом максимального правдоподобия

Будем рассматривать регрессию Y = X  +  с MA(1)-процессом в ошибке:

  i   i +   i–1   i ~ N(0,  2)

  2  var( i) (1 + 2) 2

Ковариационная матрица ошибок  i имеет вид V( 2, )   2 W().

W  (1 + 2) I +   ,     

 где     .

Симметричную положительно определенную матрицу можно представить в виде W H T H , где H — ортогональная матрица собственных векторов (H T   , а — диагональная матрица, диагональ которой состоит из соответствующих собственных чисел. В данном случае, собственные вектора матрицы W совпадают с собственными векторами матрицы , и поэтому не зависят от . Типичный элемент матрицы H равен

 Hkl  sin(  )  

Типичный диагональный элемент матрицы (собственное число) равен

 k   2 + 2  cos(  ) + 1.

Матрица W  такова, что

  W  H T H.

Несложно также найти определитель матрицы W:

  |W|  .

Обозначим Y *  DHY, X *  DHX, где D  – 1/2 — диагональная матрица.

Пусть e*() — остатки из вспомогательной регрессии,  () — оценки коэффициентов из этой регрессии. Тогда

(Y – X  ())T W () (Y – X  ()) = e*() Te*().

Концентрированная функция правдоподобия после исключения параметров 2 и приобретет вид

c() –  (ln(1–  2N + 2) – ln(1–  2)) –  ln(e*() Te*()) + const.

Остается с помощью одномерного поиска максимизировать концентрированную функцию правдоподобия по на отрезке  [, 1]. В максимуме функции правдоподобия можно с ненулевой вероятностью получить  = 1 или   = –1.

Можно предложить и другую вспомогательную регрессию, которая применима и в общем случае MA(l)-процесса. Обозначим  = 0. Тогда модель можно преобразовать к виду

 0 = – + 0,

 Y1 = X1 +   + 1,

 Y2 Y1  = (X2X1) + 2,

 и так далее для i =3,...,N.

Более компактно это можно записать как уравнение регрессии:

    + + .

Здесь ,  и  имеют по N+1 наблюдению и вычисляются по рекуррентным формулам:

 i = Yi  i–1,  0 = 0,

 i = Xi  i–1,  0 = 0,

 i = –  i–1,   0 = –1.

Пусть () — остатки из вспомогательной регрессии,  () — оценки коэффициентов из этой регрессии. Тогда можно показать, что (Y – X  ())TW ()(Y – X  ()) = ()T(). Соответственно, концентрированная функция правдоподобия равна

c() –  (ln(1–  2N + 2) – ln(1–  2)) –  ln(()T()) + const.

Оценивание регрессии с MA-ошибкой нелинейным МНК

Как и в случае регрессии с AR-процессом, можно получить оценку, которая асимптотически эквивалентна точной оценке максимального правдоподобия, если пренебречь первыми наблюдениями. В данном случае удобно считать, что довыборочные ошибки i (i < 1) равны нулю. При этом из функции правдоподобия исчезает мешающий член –1/2 (ln(1–  2N + 2) – ln(1–  2)), и модель сводится к нелинейной регрессии, которую можно оценить с помощью метода Гаусса-Ньютона. Требуется минимизировать сумму квадратов остатков

  i2(, ) min.

Остатки вычисляются рекуррентно по формуле

 i (, ) = Yi – Xi   –  i–1(, )   (0(, ) = 0).

Производные функции i (, ), необходимые для использования метода Гаусса-Ньютона также находятся рекуррентно:

     – Xi      ( = 0).

   =  –   i–1   ( = 0).

Регрессия с ARCH-процессом в ошибке

Часто в эконометрических моделях остатки становятся то большими на какой-то период, то не очень большими, и так далее и в этом нет определенной закономерности. Особенно это относится к моделям финансовых рынков. Даже если безусловная дисперсия ошибок постоянна, условная дисперсия может быть подвержена случайным колебаниям. Условные прогнозы дисперсии могут иметь практическое значение. Владельцев активов интересует, как получить прогноз риска на ряд следующих периодов, если известна информация за текущий и предшествующие периоды.

Для моделирования таких процессов используется понятие условной авторегрессионной гетероскедастичности (ARCH, aut