87527

ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ

Лекция

Экономическая теория и математическое моделирование

Проблема изучения взаимосвязей экономических показателей является одной из важнейших проблем экономического анализа. Любая экономическая политика заключается в регулировании экономических переменных (показателей), и она должна основываться на знании того, как эти переменные влияют на другие переменные...

Русский

2015-04-21

790.5 KB

10 чел.

PAGE  99

ЛЕКЦИЯ 4

Рис.5.3

EMBED Excel.Chart.8 \s

ЛЕКЦИЯ 4

Парная линейная регрессионная модель. Проблема оценивания связи экономических переменных. Модель простой линейной регресиии. Метод наименьших квадратов. Условия и теорема Гаусса-Маркова. Свойства МНК-оценок.

  1.  
    ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ
    1. МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ
      1.  Проблема оценивания связи экономических переменных

Проблема изучения взаимосвязей экономических показателей является одной из важнейших проблем экономического анализа. Любая экономическая политика заключается в регулировании экономических переменных (показателей), и она должна основываться на знании того, как эти переменные влияют на другие переменные, являющиеся ключевыми для принимающего решения предпринимателя или политика. Так, в рыночной экономике нельзя непосредственно регулировать темп инфляции, но на него можно воздействовать средствами фискальной (бюджетно-налоговой) и монетарной (кредитно-денежной) политики. Поэтому, в частности, должна быть изучена зависимость между предложением денег и уровнем цен. Вся сфера экономических исследований может быть в определенном смысле охарактеризована как изучение взаимосвязей экономических переменных.

Экономическая ситуация практически никогда не повторяется в точности, следовательно, нет возможности применить две стратегии при одних и тех же условиях с целью сравнения конечного результата. Поэтому одной из центральных задач экономического анализа является предсказание либо прогнозирование развития некоторого экономического объекта при создании тех или иных условий. Поняв глубинные движущиеся силы исследуемого процесса, можно научиться рационально управлять его развитием.

Поведение и значение любого экономического показателя зависят от огромного количества факторов, и все их учесть нереально. Но в этом и нет необходимости. Обычно лишь ограниченное количество факторов действительно существенно воздействует на исследуемый экономический показатель. Доля влияния остальных факторов столь незначительна, что их игнорирование не может привести к существенным отклонениям в поведении исследуемого объекта. Выделение и учет в модели лишь ограниченного числа реально доминирующих факторов и является серьезной предпосылкой для качественного анализа, прогнозирования и управления ситуацией. Экономическая теория выявила и исследовала значительное число устоявшихся и стабильных связей между различными показателями. Например, хорошо изученными являются зависимости спроса или потребления от уровня дохода и цен на товары; зависимость между уровнями безработицы и инфляции; зависимость объема производства от целого ряда факторов (размера основных фондов, их возраста, качества персонала и т.д.); зависимость между производительностью труда и уровнем механизации, а также многие другие зависимости.

Однако в реальных ситуациях даже устоявшиеся зависимости проявляются по-разному. Еще более сложной является задача анализа малоизученных и нестабильных зависимостей, построение моделей которых является краеугольным камнем эконометрики. Здесь следует отметить, что такие эконометрические модели невозможно строить, проверять и совершенствовать без статистического анализа входящих в них переменных с использованием реальных статистических данных. Инструментарием такого анализа являются методы статистики и эконометрики, в частности корреляционно-регрессионного анализа. Следует также иметь в виду, что статистический анализ зависимостей сам по себе не вскрывает существо причинных связей между явлениями, т.е. он не решает вопроса, в силу каких причин одна переменная влияет на другую. Решение такой задачи является результатом качественного изучения связей, которое обязательно должно либо предшествовать статистическому анализу, либо сопровождать его.

Изучение зависимостей экономических переменных начнем со случая двух переменных, поскольку этот случай наиболее прост и может быть рассмотрен графически. Предположим, что имеются ряды значений переменных, соответствующие им точки нанесены на график и соединены линией. Если это реальные статистические данные, то мы никогда не получим простую линию – линейную, квадратичную, экспоненциальную и т.д. Всегда будут присутствовать отклонения зависимой переменной, вызванные ошибками измерения, влиянием неучтенных величин или случайных факторов. Но если мы не получили, например, точную прямую линию, это еще не значит, что в основе рассматриваемой зависимости лежит нелинейная функция. Возможно, зависимость переменных линейная, и лишь случайные факторы приводят к некоторым отклонениям от нее. То же можно сказать и про любой другой вид функции. Связь переменных, на которую накладываются воздействия случайных факторов, называется стохастической связью.

В естественных науках большей частью имеют дело со строгими (функциональными) зависимостями, при которых каждому значению одной переменной соответствует единственное значение другой. Однако в подавляющем большинстве случаев между экономическими переменными таких зависимостей нет. Здесь имеют дело, как правило, со стохастическими зависимостями. Например, зависимости между доходом и потреблением, ценой и спросом, производительностью труда и стажем работы имеют стохастический характер. Нахождение, оценка и анализ таких зависимостей, построение формул зависимостей и оценка их параметров являются одним из важнейших разделов эконометрики.

Зависимость называется стохастической, если каждому конкретному значению объясняющей переменной соответствует некоторое вероятностное распределение зависимой переменной (рассматриваемой как случайная величина). В частности, стохастическая зависимость проявляется в том, что при изменении одной из величин изменяется среднее значение другой. Такие стохастические зависимости называются корреляционными. Например, рост дохода ведет к увеличению потребления; рост цены – к снижению спроса; снижение процентной ставки увеличивает инвестиции; увеличение обменного курса валюты сокращает объем чистого экспорта и т.д. Однако такая зависимость не является однозначной в том смысле, что каждому конкретному значению объясняющей переменной может соответствовать не одно, а множество значений из некоторой области.

  1.  Основные задачи регрессионного анализа

В силу неоднозначности корреляционной зависимости между Y и X, для изучения влияния независимой переменной на объясняемую переменную используют «усредненные» зависимости, т.е. изучают условное математическое ожидание M[Y|X=x] (математическое ожидание случайной величины, вычисленную в предположении, что переменная X приняла значение x) в зависимости от x. Поскольку при различных значениях будут получаться различные значения условного математического ожидания, то мы будем иметь дело с некой функцией

,                                          (5.1)

которая называется функцией регрессии Y на X.

Отметим, что реальные значения зависимой переменной Y не всегда совпадают с ее условными математическими ожиданиями и могут быть различными при одном и том же значении объясняющей переменной. Поэтому связь между зависимой и объясняющей переменной обычно записывают в виде

,                                                (5.2)

называемое теоретическим уравнением регрессии. Величину e обычно называют случайным отклонением (ошибкой, возмущением). Это слагаемое, которое, по существу, является случайной величиной и указывает на стохастическую суть зависимости.

Возникает вопрос о причинах присутствия в регрессионных моделях случайного отклонения. Среди таких можно отметить следующие.

1. Невключение в модель всех объясняющих переменных. Отсутствие в модели «важных» факторов, оказывающих существенное влияние на результат. Парная регрессия почти всегда является большим упрощением. В действительности существуют и другие факторы, которые не учтены в уравнении (5.2). Проблема состоит ещё и в том, что никогда заранее не известно, какие факторы при создавшихся условиях действительно являются определяющими, а какими можно пренебречь. Здесь уместно отметить, что в ряде случаев учесть непосредственно какой-то фактор нельзя в силу невозможности получения по нему статистических данных. Например, величина сбережений домохозяйств может определяться не только доходами их членов, но и, например, здоровьем последних, информация о котором в цивилизованных странах составляет врачебную тайну и не раскрывается. Кроме того, ряд факторов носит принципиально случайный характер (например, погода), что добавляет неоднозначности при рассмотрении некоторых моделей (например, модель, прогнозирующая объем урожая).

2. Неправильный выбор функциональной формы модели. Из-за слабой изученности исследуемого процесса либо из-за его переменчивости может быть неверно подобрана функция, его моделирующая. Это, безусловно, скажется на отклонении модели от реальности, что отразится па величине случайного отклонения e. Например, производственная функция (Y) одного фактора (X) может моделироваться функцией , хотя должна была использоваться другая модель: , учитывающая закон убывающей эффективности.

3. Агрегирование переменных. Во многих моделях рассматриваются зависимости между факторами, которые сами представляют сложную комбинацию других, более простых переменных. Например, зависимость между урожайностью и количеством внесенных удобрений индивидуальна для различных полей и любая попытка определить зависимость между совокупным урожаем и совокупным внесением удобрений является лишь приближением (аппроксимацией).

4. Ошибки измерений. Какой бы качественной ни была модель, ошибки измерений переменных отразятся на несоответствии модельных значений эмпирическим данным, что также отразится на величине случайного отклонения. В практическом использовании регрессионных методов ошибки измерений представляют наибольшую опасность. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выборки – увеличивая объем исходных данных, то ошибки измерения практически сводят на нет все усилия по количественной оценке связи между признаками. Особенно велика роль ошибок измерения при исследовании на макроуровне. Так, в исследованиях спроса и потребления в качестве объясняющей переменной широко используется «доход на душу населения». Вместе с тем статистическое измерение величины дохода сопряжено с рядом трудностей и не лишено возможных ошибок, например, в результате наличия сокрытых доходов.

Для определения параметров функции регрессии необходимо знать и использовать все значения переменных X и Y генеральной совокупности, что практически невозможно. Основные задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных X и Y:

а) установить форму зависимости между переменными;

б) оценить функцию регрессии (т.е. получить наилучшие оценки неизвестных параметров, проверить статистические гипотезы о параметрах модели);

в) проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений);

г) оценить неизвестные значения зависимой переменной (сделать прогноз значений).

Используя выборочные данные можно построить так называемое эмпирическое уравнение регрессии:

,                                                   (5.3)

где  – оценка условного математического ожидания ,  – оценка функции регрессии. Следовательно, в конкретном случае

,                                            (5.4)

где отклонение ei – оценка теоретического случайного отклонения ei. Эту величину также называют остатками (residuals).

Решений задачи построения качественного уравнения регрессии, соответствующего эмпирическим данным и целям исследования, является достаточно сложным и многоступенчатым процессом. Его можно разбить на три этапа:

1) выбор формулы уравнения регрессии (спецификация);

2) определение параметров выбранного уравнения (параметризации);

3) анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения (верификации).

В случае парной регрессия выбор формулы обычно осуществляется по графическому изображению реальных статистических данных в виде точек в декартовой системе координат, которое называется корреляционным полем (диаграммой рассеивания) (см., например, рис. 5.1).

Рис. 5.1

На рис. 5.1 представлены три ситуации.

На графике 5.1, а взаимосвязь между Х и Y близка к линейной, и прямая 1 достаточно хорошо соответствует эмпирическим точкам. Поэтому в данном случае в качестве зависимости между Х и Y целесообразно выбрать линейную функцию .

На графике 5.1, б реальная взаимосвязь между Х и Y, скорее всего, описывается квадратичной функцией  (линия 2). И какую бы мы ни провели прямую (например, линия I), отклонения точек наблюдений от нее будут существенными и неслучайными.

На графике 5.1, в явная взаимосвязь между Х и Y отсутствует. Какую бы мы ни выбрали форму связи, результаты ее спецификации и параметризации (определение коэффициентов уравнения) будут неудачными. В частности, прямые 1 и 2, проведенные через центр «облака» наблюдений и имеющие противоположный наклон, одинаково плохи для того, чтобы делать выводы об ожидаемых значениях переменной Y по значениям переменной X.

Более подробно вопросы спецификации, а также вопросы параметризации и верификации уравнения регрессии, будут обсуждены в следующих лекциях.

  1.  Модель простой линейной регрессии

Если функция регрессии линейная, то говорят о линейной регрессии. Линейная регрессия находит весьма широкое применение в эконометрике в связи с четкой экономической интерпретации ее параметров. Кроме того, построенное линейное уравнение может служить начальной точкой эконометрического анализа.

Простая линейная регрессия представляет собой линейную функцию между условным математическим ожиданием зависимой переменной  и одной зависимой переменной X (xi – значения зависимой переменной в i-ом наблюдении):

.                                        (5.5)

Для отражения того факта, что каждое индивидуальное значение yi отклоняется от соответствующего условного математического ожидания, необходимо ввести в соотношение (5.5) случайное слагаемое ei:

.                                            (5.6)

Это соотношение называется теоретической линейной регрессионной моделью; b0 и b1теоретическими коэффициентами регрессии. Таким образом, индивидуальные значения yi представляют в виде двух компонент – систематической () и случайной (ei). В общем виде теоретическую линейную регрессионную модель будем представлять в виде

.                                            (5.7)

Основная задача линейного регрессионного анализа состоит в том, чтобы по имеющимся статистическим данным для переменных X и Y получить наилучшие оценки неизвестных параметров b0 и b1. По выборке ограниченного объема можно построить эмпирическое линейное уравнение регрессии:

,                                            (5.8)

где  – оценка условного математического ожидания , b0 и b1 – оценки неизвестных параметров b0 и b1, называемые эмпирическими коэффициентами регрессии. Следовательно, в конкретном случае

,                                           (5.9)

где отклонение ei – оценка теоретического случайного отклонения ei.

Задача линейного регрессионного анализа состоит в том, чтобы по конкретной выборке (xi,yi) найти оценки b0 и b1 неизвестных параметров b0 и b1 так, чтобы построенная линия регрессии была бы наилучшей в определенном смысле среди всех других прямых. Другими словами, построенная прямая  должна быть «ближайшей» к точкам наблюдений по их совокупности. Мерами качества найденных оценок могут служить определенные композиции отклонений ei. Например, коэффициенты b0 и b1 эмпирического уравнения регрессии могут быть оценены исходя из условия минимизации функции потерь (loss function): . Например, функции потерь могут быть выбраны в следующем виде:

1) ;

2) ;

3) .

Самым распространенным и теоретически обоснованным является метод нахождения коэффициентов, при котором минимизируется первая сумма. Он получил название метод наименьших квадратов (МНК)1. Этот метод оценки является наиболее простым с вычислительной точки зрения. Кроме того, оценки коэффициентов регрессии, найденные МНК при определенных предпосылках, обладают рядом оптимальных свойств. Хорошие статистические свойства метода, простота математических выводов делают возможным построить развитую теорию, позволяющую провести тщательную проверку различных статистических гипотез. Минусы метода – чувствительность в «выбросам».

Метод определения оценок коэффициентов из условия минимизации второй суммы называется методом наименьших модулей. Этот метод обладает определенными достоинствами, например, по сравнению с методом наименьших квадратов он нечувствителен к выбросам (обладает робастностью). Однако у него имеются существенные недостатки. В первую очередь это связано со сложностью вычислительных процедур. Во-вторых, с неоднозначностью метода, т.е. разным значениям коэффициентов регрессии могут соответствовать одинаковые суммы модулей отклонений.

Метод минимизации максимума модуля отклонения наблюдаемого значения результативного показателя yi от модельного значения  называется методом минимакса, а получаемая при этом регрессия минимаксной.

Среди других методов оценивания коэффициентов регрессии отметим метод максимального правдоподобия (ММП).

  1.  Метод наименьших квадратов

Пусть по выборке (xi, yi) требуется определить оценки коэффициентов b0 и b1 эмпирического уравнения регрессии (5.8). В случае использования МНК минимизируется следующая функция потерь:

.                (5.10)

Нетрудно заметить, что функция Q является квадратичной функцией двух параметров b0 и b1, поскольку xi и yi – известные данные наблюдений. Поскольку функция Q непрерывна, выпукла и ограничена снизу (Q0), то она имеет минимум.

Необходимым условием существования минимума функции двух переменных (5.10) является равенство нулю ее частных производных по неизвестным параметрам b0 и b1:

                           (5.11)

После преобразований получим систему нормальных уравнений (систему линейных алгебраических уравнений) для определения параметров простой линейной регрессии:

                                    (5.12)

Разделив оба уравнения на n, получим:

                         (5.13)

Здесь , , , . Таким образом, оценки параметров простой линейной регрессии по МНК определяются по формулам (5.13).

Нетрудно заметить, что b1 можно вычислить по формуле

,                            (5.14)

где rxy – выборочный коэффициент корреляции,  и  – средние квадратичные отклонения. Таким образом, коэффициент регрессии b1 пропорционален коэффициенту корреляции. Следовательно, если коэффициент корреляции rxy уже рассчитан, то легко может быть найден коэффициент регрессии b1 по формуле (5.14).

Отметим, что кроме уравнения регрессии Y на X: , для тех же эмпирических данных может быть найдено уравнение регрессии X на Y: . Коэффициенты регрессии bx и by в этом случае будут связаны равенством:

.                                       (5.15)

Подставляя значения b0 и b1, вычисленные по формулам (5.13), в (5.8), получим уравнение линейной регрессии Y на X:

.                                       (5.16)

Аналогично можно получить уравнение линейной регрессии X на Y:

.                                       (5.17)

Можно заметить, что обе прямые регрессии пересекаются в точке . Причем, чем больше коэффициент корреляции, тем меньше угол j между прямыми (рис. 5.2). В частности, если r=1, то обе прямые регрессии совпадут. Если коэффициент корреляции равен нулю, то линии регрессии будут параллельны координатным осям.

Рис. 5.2

Полученные формулы для коэффициентов регрессии позволяют сделать ряд выводов:

1. Эмпирическая прямая регрессии обязательно проходит через точку .

2. Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений , а также среднее значение отклонений  равны нулю.

Действительно, из формулы  в соотношении (5.11) следует, что .

3. Случайные отклонения ei не коррелированы с наблюдаемыми значениями yi зависимой переменной Y.

Для обоснования данного утверждения покажем, что ковариация между Y и e равна нулю. Действительно,

.

Покажем, что . Просуммировав по i все соотношения (5.9), получим:

,

т.к. . Разделив последнее соотношение на n, получим . Вычитая из (5.9) полученное соотношение, приходим к следующей формуле:

.                                                    (5.18)

Тогда

.

Следовательно, .

4. Случайные отклонения ei не коррелированы с наблюдаемыми значениями xi независимой переменной X.

Действительно,  в силу второй формулы системы (5.11).

Для иллюстрации МНК рассмотрим следующий пример,

Пример 5.1. Для анализа зависимости объема потребления домохозяйства Y (у.е) от располагаемого дохода X (у.е) отобрана выборка объема n=12 (помесячно в течение месяца, результаты которой приведены в таблице 5.1. Необходимо определить вид зависимости; по МНК оценить параметры уравнения регрессии Y на X; оценить силу линейной зависимости между Y на X; спрогнозировать потребление при доходе X=160.

Табл. 5.1

i

1

2

3

4

5

6

7

8

9

10

11

12

xi

107

109

110

113

120

122

123

128

136

140

145

150

yi

102

105

108

110

115

117

119

125

132

130

141

144

Решение. Для определения вида регрессионной зависимости построим корреляционное поле (рис.5.3). По расположению точек на корреляционном поле полагаем, что зависимость между X и Y линейная: . Для расчетов по МНК составим расчетную таблицу (табл. 5.2):

Табл. 5.2

i

xi

yi

1

107

102

11449

10914

10404

103,5832

-1,5832

2,5065

2

109

105

11881

11445

11025

105,4554

-0,4554

0,2074

3

110

108

12100

11880

11664

106,3914

1,6086

2,5875

4

113

110

12769

12430

12100

109,1997

0,8003

0,6405

5

120

115

14400

13800

13225

115,7522

-0,7522

0,5659

6

122

117

14884

14274

13689

117,6244

-0,6244

0,3899

7

123

119

15129

14637

14161

118,5605

0,4395

0,1932

8

128

125

16384

16000

15625

123,2409

1,7591

3,0945

9

136

132

18496

17952

17424

130,7295

1,2705

1,6141

10

140

130

19600

18200

16900

134,4739

-4,4739

20,0153

11

145

141

21025

20445

19881

139,1543

1,8457

3,4068

12

150

144

22500

21600

20736

143,8347

0,1653

0,0273

Сумма

1503

1448

190617

183577

176834

-

0,0000

35,2488

Среднее

125,25

120,6667

15884,75

15298,08

14736,17

-

-

-

Согласно МНК, по формулам (5.13) вычисляем

;

.

Таким образом, уравнение парной линейной регрессии имеет вид:

.

Изобразим данную прямую регрессии на корреляционном поле (рис.5.3). По этому уравнению рассчитаем , а также .

Для анализа силы линейной зависимости вычислим коэффициент корреляции. Для этого предварительно найдем средние квадратичные отклонения:

Тогда

.

Данное значение коэффициента корреляции позволяет сделать вывод об очень сильной (близкой к функциональной) линейной зависимости между рассматриваемыми переменными X и Y. Это также подтверждается расположением точек на корреляционном поле.

Прогнозируемое потребление при располагаемом доходе x=160 для данной модели составит .

Построенное уравнение регрессии в любом случае требует определенной интерпретации и анализа. Интерпретация требует словесного описания полученных результатов с трактовкой найденных коэффициентов, с тем чтобы построенная зависимость стала понятной человеку, не являющимся специалистом в эконометрическом анализе. Коэффициент b1 показывает, на какую величину изменится Y, если X возрастет на одну единицу. В случае примера 5.1 он может трактоваться как предельная склонность к потреблению, т.е. он показывает, что объем потребления изменится на 0,9361, если располагаемый доход возрастает на одну единицу.

Свободный член b0 уравнения регрессии определяет прогнозируемое значение Y при величине X, равной нулю. Однако здесь необходима определенная осторожность. Очень важно, насколько далеко данные наблюдений за объясняющей переменной отстоят на оси ординат (зависимой переменной), т.к. даже при удачном подборе уравнения регрессии для интервала наблюдений нет гарантии, что оно останется таковым и вдали от выборки. В случае примера 5.1 значение b0=3,4226 говорит о том, что при нулевом располагаемом доходе расходы на потребление составят в среднем 3,4226 у.е. Этот факт можно объяснить для отдельного домохозяйства (оно может тратить накопленные или одолженные средства), но для совокупности домохозяйств он теряет смысл. В любом случае значение коэффициента b0 определяет точку пересечения прямой регрессии с осью ординат и характеризует сдвиг линии регрессии вдоль оси Y.

Следует помнить, что эмпирические коэффициенты регрессии b0 и b1 являются лишь оценками теоретических коэффициентов b0 и b1, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных. Индивидуальные значения переменных могут отклоняться от модельных значений. В нашем примере эти отклонения выражены через значения ei, которые являются оценками отклонений ei для генеральной совокупности. Однако при определенных условиях уравнение регрессии служит незаменимым и очень качественным инструментом. Обсуждение этих условий будет проведено в дальнейшем.

  1.  Условия Гаусса-Маркова. Классическая линейная
    регрессионная модель

Регрессионный анализ позволяет определить оценки коэффициентов регрессии. Однако они являются лишь оценками. Поэтому возникает вопрос о том, насколько они надежны, насколько точно эмпирическое уравнение регрессии соответствует уравнению для всей генеральной совокупности, насколько близки оценки b0 и b1 коэффициентов регрессии к своим теоретическим прототипам b0 и b1, как близко оцененное значение  к условному математическому ожиданию . Для ответа на эти вопросы необходимы определенные дополнительные исследования.

Как следует из равенства (5.6), значения yi зависят от значений xi и случайных отклонений ei. Следовательно, переменная Y является случайной величиной, напрямую связанной с ei. Можно показать, что оценки коэффициентов регрессии – случайные величины, также зависящие от случайного отклонения.

Рассмотрим модель простой линейной регрессии

.                                                         (5.19)

Пусть на основе выборки из n наблюдений оценивается регрессия:

.                                                            (5.20)

Будем также полагать, что X – это не случайная экзогенная переменная. Иными словами, ее значения во всех наблюдениях можно считать заранее заданными и никак не связанными с исследуемой зависимостью.

В соответствии с формулой (5.14)

.                                                         (5.21)

Это означает, что коэффициент b1 также является случайной величиной. Теоретически коэффициент b1 можно разложить на неслучайную и случайную составляющие.

.

Здесь использованы следующие правила вычисления ковариации:

, так как ;             .

Следовательно,

.                                          (5.22)

Аналогичный результат можно получить и для коэффициента b0. Учитывая, что

.

В результате получим

.                                          (5.23)

Таким образом, коэффициенты регрессии b1 и b0, полученные по любой выборке, представляется в виде суммы двух слагаемых: 1) постоянной величины, равной истинному значению коэффициента; 2) случайной составляющей, зависящей от случайного фактора e.

Отметим, что на практике такое разложение осуществить невозможно, поскольку неизвестны истинные значения b0 и b1, а также значения отклонений для всей генеральной совокупности. Они интересуют нас потому, что при определенных предположениях позволяют получить некоторую информацию о теоретических свойствах b0 и b1.

Итак, мы видим, что свойства коэффициентов регрессии существенным образом зависят от свойств случайной составляющей e. Это означает, что до тех пор, пока не будет определенности о вероятностном поведении e, мы не можем ничего сказать о статистических свойствах этих оценок.

Для того чтобы регрессионный анализ, основанный на обычном МНК, давал наилучшие из всех возможных результаты, случайное отклонение e должно удовлетворять определенным условиям, которые известны как условия Гаусса-Маркова.

10. Математическое ожидание случайного отклонения ei равно нулю:  для всех наблюдений.

Данное условие означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную. В каждом конкретном наблюдении случайное отклонение может быть либо положительным, либо отрицательным, но оно не должно иметь систематического смещения. Фактически если уравнение регрессии включает постоянное слагаемое b0, то это условие практически выполняется автоматически; если постоянное слагаемое b0 отсутствует, то это условие может и не выполняться.

20. Дисперсия случайных отклонений ei постоянна:  для всех наблюдений.

Данное условие подразумевает, что несмотря на то, при каждом конкретном наблюдении случайное отклонение может больше или меньше, не должно быть некой априорной причины, которая вызывает большую ошибку в одних наблюдениях, чем в других. Постоянная дисперсия обычно обозначается  или, более кратко, . Величина , конечно, неизвестна. Одна из задач регрессионного анализа состоит в оценке этой величины.

Если рассматриваемое условие не выполняется, то коэффициенты регрессии, найденные по обычному МНК, будут не эффективными, и можно получить более надежные результаты путем применения модифицированного МНК.

30. Случайные отклонения ei и ej являются коррелированными:  для ij.

Это условие предполагает отсутствие систематической связи между значениями случайного отклонения в любых двух наблюдениях. Например, если случайное отклонение велико и положительно в одном наблюдении, то это не должно обуславливать систематическую тенденцию к тому, что он будет большим и положительным в следующем наблюдении. Отметим, что с учетом выполнимости условия 10, данное условие можно переписать в виде:  (ij).

Если это условие не выполняется, то регрессия, оцененная по обычному МНК, вновь даст не эффективные результаты. Более надежные результаты можно получить также при помощи применения модифицированного МНК.

При выполнении условий 10-30 модель (5.19) называется классической линейной регрессионной моделью.

Наряду с выполнимостью указанных условий при построении регрессионных моделей делаются еще некоторые предположения.

40. Объясняющая переменная xi есть величина неслучайная

Если это условие не выполняется, то оценки коэффициентов регрессии могут оказаться смещенными и несостоятельными. Нарушение этого условия может быть связано с ошибками измерения объясняющих переменных или с использованием лаговых переменных.

В регрессионном анализе часто вместо условия о неслучайности объясняющей переменной используется более слабое условие о независимости (некоррелированности) распределений случайного отклонения и объясняющей переменной. Данное условие предполагает выполнение следующего условия

.

Следовательно, данное условие можно записать в виде . Обычно это условие выполняется автоматически, если объясняющие переменные не являются случайными в данной модели. Получаемые при этом оценки коэффициентов регрессии обладают теми же свойствами, что и оценки, полученные при использовании условия о неслучайности объясняющей переменной.

Отметим, что выполнимость данного условия не столь критичны для эконометрических моделей. В дальнейшем мы рассмотрим некоторые случаи, в которых данное условие нарушается и последствия этого.

50. Случайное отклонение имеет нормальное распределение: .

Дело в том, что если случайное отклонение имеет нормальное распределение, то такое же распределение будут иметь и коэффициенты регрессии. Это условие удобно для проведения проверки гипотез и построения доверительных интервалов. Предположение о нормальности основывается на центральной предельной теореме, в соответствие с которой, если случайная величина является общим результатом взаимодействия большого числа других случайных величин, ни одна из которых не является доминирующей, т она будет иметь приблизительно нормальное распределение, даже если отдельные составляющие не имеют нормального распределения. Случайное отклонение e определяется многими факторами, которые не входят в явной форме в уравнение регрессии. Поэтому даже если мы не знаем о распределении этих факторов, у нас есть все основания предположить, что оно нормально распределено. В большинстве случаев это не приводит к большим проблемам.

При выполнении условий 10-50 модель (5.19) называется нормальной классической линейной регрессионной моделью (НКЛРМ).

  1.  Свойства МНК-оценок. Теорема Гаусса-Маркова

Естественно возникает вопрос: как соотносятся полученные значения b0 и b1 с истинными значениями b0 и b1 или, другими словами, каково качество МНК-оценок b0 и b1. Для ответа на этот вопрос рассмотрим некоторые свойства этих оценок в рамках классической модели.

1. Полученные по МНК оценки b0 и b1 являются несмещенными, т.е. 

и .

Для доказательства этого утверждения потребуются первое и четвертое условия Гаусса-Маркова. Действительно,

,

поскольку величины x1, …, xn и  не случайны и содержащие только их выражения можно вынести из-под знака математического ожидания. Далее, поскольку  и , то

.

Подставляя это выражение в предыдущую формулу, найдем, что .

Аналогично находим

.

2. Полученные по МНК оценки b0 и b1 состоятельные. 

Докажем, что МНК-оценки состоятельные, т.е. сходятся по вероятности к истинным значениям:

.

Для несмещённых оценок достаточным условием состоятельности является сходимость их дисперсий к нулю при неограниченном возрастании объёма выборки. Это следует из неравенства Чебышёва:

,

поэтому при

,

т.е. оценки состоятельны. Осталось только показать, что .

Вычислим дисперсию b1. Учитывая (5.22), получим

.

Примем во внимание, что , тогда (учитывая второе условие Гаусса-Маркова: ), получим

.

В результате, получаем

.                                                        (5.24)

Найдём теперь дисперсию b0. Принимая во внимание, что , а также (5.23), получим

.

.

В результате, получаем

.                                               (5.25)

Как можно видеть из (5.24) и (5.25),

и  при ,

а это будет иметь место в том случае, если xi не совпадают со своим средним значением (кроме, быть может, конечного числа значений). Итак,  МНК-оценки параметров регрессии b0 и b1 состоятельны.  

Из соотношений (5.24) и (5.25) можно сделать следующие выводы.

  •  Дисперсии b0 и b1 прямо пропорциональны дисперсии случайного отклонения s2. Следовательно, чем больше фактор случайности, тем менее точными будут оценки.
  •  Чем больше число n наблюдений, тем меньше дисперсии оценок. Это вполне логично, т.к. чем большим числом данных мы располагаем, тем вероятнее получения более точных оценок.
  •  Чем больше дисперсия (разброс значений ) объясняющей переменной, тем меньше дисперсия оценок коэффициентов. Другими словами, чем шире область изменений объясняющей переменной, тем точнее будут оценки (тем меньше доля случайности в их определении).

3. Полученные по МНК оценки b0 и b1 коррелированы и

.                                 (5.26)

Теперь возникает вопрос, являются ли оценки b0 и b1 параметров b0 и b1 «наилучшими»? Ответ на этот вопрос дает следующая теорема.

4. Теорема Гаусса-Маркова. Если в регрессионной модели

,                                            (5.27)

X – детерминированная величина, а случайное отклонение e удовлетворяет условиям 10-30, то оценки b0 и b1, полученные по МНК, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Напомним, что в англоязычной литературе такие оценки называются BLUE-оценками (Best Linear Unbiased Estimator наилучшие линейные несмещенные оценки).

Доказательство*. Покажем, что МНК-оценки являются «наилучшими» (в смысле наименьшей дисперсии) в классе всех линейных несмещенных оценок.

Представим формулы определения коэффициентов b0 и b1 в виде линейных функций относительно значений Y:

,

где . Аналогично получаем:

.

Обозначив , имеем

.

Пусть  – любая другая несмещенная оценка. Представим ui в виде , тогда, учитывая (5.20), получим

для любых b0 и b1. Отсюда следует, что

и .

Тогда

.

Здесь учтено, что  в силу определения ci и того, что . Таким образом, получаем , что и требовалось доказать.

Аналогичные вычисления показывают, что .

Отметим, что в случае нормальной классической модели МНК дает эффективные оценки, совпадающие с оценками, полученными методом максимального правдоподобия. Таким образом, МНК идеально приспособлен для получения эффективных оценок в случае нормальной классической линейной модели. Другие методы в этих условия в лучшем случае только повторят тот же результат.

Таким образом, в классической линейной регрессионной модели, где случайное отклонение удовлетворяет условиям Гаусса-Маркова и отсутствуют другие сложности, базовым критерием для получения оценок коэффициентов является МНК. Это связано с тем, что оценки, полученные МНК, в соответствии с теоремой Гаусса-Маркова, будут состоятельными, несмещенными и оптимальными как на больших выборках, так и на малых. Однако в реальных ситуациях условия Гаусса-Маркова часто нарушаются. В таких случаях приходится модифицировать МНК, или вообще использовать другие методы.

Дополнение 1.
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ В МАТРИЧНОМ ВИДЕ

Парное линейное уравнение регрессии может быть записано в матричном виде:

,

где Y – случайный вектор-столбец размерности (n1) наблюдаемых значений результативного признака; B – вектор-столбец размерности (21) подлежащих оценке параметров модели (коэффициентов регрессии); X=(x0, x1) – матрица размерности (n2) наблюдаемых значений факторных признаков. При этом x0=1 и связано с наличием в уравнении регрессии свободного члена, а x1 – собственно реальные значения включенного в уравнение регрессии фактора; E – случайный вектор-столбец размерности (n1) ошибок наблюдений.

.

В матричной форме применение МНК записывается следующим образом:

.

Дифференцируя Q по вектору B и приравнивая частные производные по B к нулю, получим:

.

Учитывая обратимость матрицы , находим МНК-оценку вектора B:

,                                                    (5.28)

где .

Пример 5.2. Получить оценки коэффициентов регрессии матричным способом, используя данные примера 5.1.

Решение. В случае примера 5.1 исходные матрицы имеют вид

,     .

Тогда

.

Находим обратную матрицу

и

.

В результате вектор оценок коэффициентов регрессии будет равен

.  

Дополнение 2.
ОЦЕНКА ПАРАМЕТРОВ РЕГРЕССИИ
МЕТОДОМ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ

Наряду с методом наименьших квадратов (МНК) возможен и другой подход к оцениванию параметров линейного регрессионного уравнения по данным наблюдений – метод максимального правдоподобия (ММП) (см. дополнение 2 к лекции 2). ММП обычно не предъявляет требований к свойствам малых выборок, а в случае корректной спецификации модели и при выполнении некоторых условий обеспечивает асимптотическую несмещенность, состоятельность и асимптотическую эффективность. Более того, они предоставляют возможность для проведения тестов, которые не могли использоваться в случае МНК.

Отметим, что для нормальной классической линейной регрессионной модели ММП, по сравнению с МНК, не даёт никаких преимуществ. Если случайные отклонения модели распределены по другому закону, то, вообще говоря, выражения для оценки коэффициентов регрессии, полученные на основе ММП, будут отличаться от их аналогов, полученных с использованием МНК. Конечно МНК обладает большими достоинствами по сравнению с ММП, если выполняются условия Гаусса-Маркова, однако все они быстро теряются, если эти условия нарушаются.

Для применения ММП должен быть известен вид закона распределения вероятностей имеющихся выборочных данных.

В рамках нормальной классической регрессионной модели значения yi можно рассматривать как независимые нормально распределённые случайные величины с математическим ожиданием , являющимся функцией от xi, и постоянной дисперсией s2. Следовательно, плотность нормально распределенной случайной величины yi имеет вид

.                                (5.29)

Функция правдоподобия, выражающая плотность вероятности совместного появления результатов выборки, имеет вид

.    (5.30)

Согласно ММП в качестве оценок параметров b0, b1 и s2 принимаются такие значения ,  и , которые максимизируют функцию правдоподобия L. Так как функции L и lnL одновременно достигают своего максимума, достигают искать максимум логарифма функции правдоподобия:

.                         (5.31)

Необходимые условия экстремума функции lnL имеют вид:

                             (5.32)

Решением системы уравнений (5.32) являются оценки

,   ,   .                        (5.33)

Отметим, что ММП-оценки параметров b1 и b0 совпадают с соответствующими МНК-оценками. Это легко видеть из того, что первое и второе уравнения (5.32) совпадают с соответствующими уравнениями МНК. Заметим, что ММП-оценка для s2 является смещенной и не совпадает с соответствующей МНК-оценкой.


ЛЕКЦИЯ 4                                                                                                                                      81

Глава 5. ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ                                       81

§5.1. Модель парной линейной регрессии                                                                                      81

5.1.1. Проблема оценивания связи экономических переменных                           81

5.1.2. Основные задачи регрессионного анализа                                                               82

5.1.3. Модель простой линейной регрессии                                                               85

5.1.4. Метод наименьших квадратов                                                                          86

5.1.5. Условия Гаусса-Маркова. Классическая линейная  регрессионная модель    91

5.1.6. Свойства МНК-оценок. Теорема Гаусса-Маркова                                                   94

Дополнение 1. Метод наименьших квадратов в матричном виде                                       96

Дополнение 2. Оценка параметров регрессии методом максимального правдоподобия    97

1 В англоязычной литературе он называется ordinary least square (OLS) method.

PAGE  98

Глава 5. ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ


 

А также другие работы, которые могут Вас заинтересовать

39387. Определение реакции опор твердого тела 61 KB
  К системе приложены сила тяжести G, силы натяжения нитей T , t и P. Реакция подпятника А определяется тремя составляющими: XА, YA,ZA, а реакция подшипника В – двумя: Хв и Yв.
39388. Интегрирование дифференциальных уравнений движения материальной точки, находящейся под действием постоянных сил 130 KB
  €œИнтегрирование дифференциальных уравнений движения материальной точки находящейся под действием постоянных сил€. Лыжник от точки A до точки B движется τ с. По заданным параметрам движения точки определить угол α и дальность полёта d. Пусть масса точки равна m тогда составим уравнение движения точки на участке AB.
39389. Исследование колебательного движения материальной точки 61 KB
  Дано: Найти: уравнение движения груза D. Решение 1 Находим приведенную жесткость пружин: Для определения fсm составим уравнение соответствующее состоянию покоя груза D на наклонной плоскости Дифференциальное уравнение движения груза примет вид Постоянные С1 и С2 определяем из начального условия: при t=0; x0=fcm; Уравнение движения груза имеет следующий вид: Найдем числовые значения входящих в уравнение величин Следовательно уравнение движения груза D: Ответ:.
39390. Курсовая работа по информатике 498 KB
  Mathcad система компьютерной алгебры из класса систем автоматизированного проектирования ориентированная на подготовку интерактивных документов с вычислениями и визуальным сопровождением отличается легкостью использования и применения для коллективной работы. Выполнить исследование нелинейного уравнения вида fx=0 отыскать корни и экстремумы с помощью программ Excel и Mathcad. Решить это же нелинейное уравнение с помощью...
39391. Головний судновий двигун 6S70 MC-C-TII (Ne=18623 кВт, n=91 хв-1) 2.93 MB
  Опис конструкції двигуна його вузлів деталей та систем що його обслуговують. Вимоги які висувають до двигуна даного типу його елементів і систем. Загальна компоновка двигуна. Загальна конструктивна схема побудови остова двигуна.
39392. Изучение системы станционной и поездной радиосвязи 1.04 MB
  Назначение и виды станционной радиосвязи СРС. Организация связи списчиков вагонов. Расчет станционной радиосвязи.
39393. Частотомер c аналоговой индикацией 537.24 KB
  Аналитический расчет печатной платы. Расчет топологических характеристик печатной платы. Чертеж печатной платы. Анализ электрической принципиальной схемы проводиться для выявления электрорадиоэлементов расположенных на печатной плате и вне ее.
39394. Стабилизатор напряжения и тока 481.5 KB
  Расчет коэффициентов вырубки и раскроя. Технические требования к изделию Номинальное входное напряжение В 220 Входное напряжение питания В 18 Номинальная выходная мощность Вт 59 Коэффициент сглаживания пульсации дБ 30 Коэффициент готовности по ГОСТ 27....
39395. Расчет автооператорной линии для нанесения двухслойного покрытия медь-никель стальных деталей на подвеске 44.62 KB
  Рассчитать и скомпоновать автооператорную линию для нанесения двухслойного покрытия медь-никель стальных деталей на подвеске.