42153

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Лабораторная работа

Математика и математический анализ

Линейная модель множественной регрессии выглядит следующим образом: Y = β0 β1x1 β2x2 βkxk ε где Y – зависимая переменная результативный признак; x1xk – независимые или объясняющие переменные; 0 1 k – коэффициенты регрессии;  – ошибка регрессии. Общая последовательность построения множественной линейной регрессионной модели следующая: Оценка параметров уравнения; Оценка качества регрессии; Проверка на мультиколлинеарность ее исключение; Проверка на гетероскедастичность коррекция на...

Русский

2013-10-27

360.5 KB

121 чел.

Лабораторная работа №4

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Часто при построении модели приходится учитывать влияние на объект исследования сразу нескольких факторов. Линейная модель множественной регрессии выглядит следующим образом:

Y = β0 + β1x1 + β2x2 + …+ βkxk + ε,

где  Y – зависимая переменная (результативный признак);

 x1,…,xk – независимые, или объясняющие переменные;

 0, 1,…, k – коэффициенты регрессии;

  – ошибка регрессии.

Общая последовательность построения множественной линейной регрессионной модели следующая:

  1.  Оценка параметров уравнения;
  2.  Оценка качества регрессии;
  3.  Проверка на мультиколлинеарность, ее исключение;
  4.  Проверка на гетероскедастичность, коррекция на гетероскедастичность;
  5.  Корректировка вида модели: тест на функциональную форму, тест Вальда (лаб. раб. №6);
  6.  Экономическая интерпретация.

1. ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ

Параметры уравнения множественной регрессии оцениваются методом наименьших квадратов (МНК), целью которого является нахождение оценок , минимизирующих сумму квадратов остатков

где xi=(1,x1,…,xk), =(0, 1,…, k)

или

где  .

При этом должны выполняться условия Гаусса – Маркова:

  1.  E(i)=0.
  2.  D(i)=2=constне зависит от i, i=1…n .
  3.  cov(ij)=0 при i  j, статистическая независимость (некоррелированность) ошибок для разных наблюдений.
  4.  Ошибки i, i=1…n, имеют совместное нормальное распределение: ~.

2. ОЦЕНКА КАЧЕСТВА МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ проводится определением следующих величин:

1. Стандартные ошибки оценок (см. для парной регрессии)

2. Доверительные интервалы коэффициентов

,

где γ – уровень значимости, n – число наблюдений, - табличное (критическое) значение t-критерия Стьюдента. 

3. Значимость коэффициентов регрессии

Проверяется по t-критерию Стьюдента: . Если , то коэффициент статистически значим, иначе – незначим.

4. Коэффициент детерминации R2 (см. для парной регрессии)

5. Скорректированный коэффициент детерминации

Низкое значение R2 не свидетельствует о плохом качестве модели, и может объясняться наличием существенных факторов, не включенных в модель

R2 всегда увеличивается с включением новой переменной. Поэтому рассчитывают скорректированный коэффициент детерминации

6. Стандартная ошибка регрессии

Значения Se в однотипных моделях с разным числом наблюдений и (или) переменных сравнимы.

7. Значимость уравнения регрессии

Проверяется по F-критерию Фишера

.

Если F>Fтабл, то уравнение статистически значимо, иначе – незначимо.

F-критерии в разных моделях с разным числом наблюдений и (или) переменных несравнимы.

8. Средняя абсолютная процентная ошибка (см. для парной регрессии)

3. ПРОВЕРКА НА МУЛЬТИКОЛЛИНЕАРНОСТЬ

Мультиколлинеарность – наличие линейной статистической зависимости между факторными признаками, что вызывает неустойчивость оценок коэффициентов регрессии.

Если рассмотреть уравнение регрессии в матричном виде:

Y = + ε,

то МНК-оценки определяются как   .

При наличии эффекта мультиколлинеарности матрица XTX будет близка к вырожденной.

Последствия мультиколлинеарности:

  1.  Стандартные ошибки коэффициентов увеличиваются, следовательно, вычисленные t-статистики занижены.
  2.  Неустойчивость оценок. Добавление или исключение малого количества наблюдений может привести к очень сильному изменению оценок коэффициентов. При этом резко уменьшается и точность предсказания по модели.
  3.  Высокая коррелированность коэффициентов лишает смысла их интерпретации.

Признаки мультиколлинеарности:

  •  неправильные с экономической точки зрения знаки оценок регрессии;
  •  неоправданно большие значения оценок;
  •  высокие R2 и F-статистика, но некоторые (или все) коэффициенты незначимы (имеют низкие t-статистики);
  •  высокие парные коэффициенты корреляции;
  •  высокие частные коэффициенты корреляции;
  •  добавление или удаление наблюдений из выборки сильно изменяют значения оценок.

Одним из способов устранения эффекта мультиколлинеарности является метод включения-исключения переменных. При этом выполняются следующие действия:

  1.  Строится регрессионная модель методом наименьших квадратов.
  2.  Оценивается значимость коэффициентов регрессии.
  3.  Выявляется наличие зависимости между факторными признаками путем анализа матрицы парных коэффициентов корреляции и матрицы частных коэффициентов корреляции.
  4.  Строится новое уравнение регрессии с исключением незначимых и части взаимно коррелирующих переменных. При этом из числа коррелирующих переменных в модели оставляют те, которые более соответствуют ее экономическому содержанию, либо те, которые имеют наибольшее значение частной корреляции с зависимой переменной. При необходимости включаются уже исключенные переменные, если этого требует экономический смысл.
  5.  Повторяются 3-й и 4-й шаги до тех пор, пока мультиколлинеарность не будет исключена.
  6.  ПРОВЕРКА НА ГЕТЕРОСКЕДАСТИЧНОСТЬ

На практике часто встречаются модели, в которых не выполняется 2-е условие Гаусса – Маркова, т.е. D(i)≠const. Это явление называется гетероскедастичностью.

Гетероскедастичность приводит к заниженным значениям стандартных ошибок, получаемых обычным МНК. Вследствие чего  завышаются t-статистики, и дается неправильное (завышенное) представление о точности оценок.

Поэтому для более детального изучения данного явления рассмотрим обобщенную регрессионную модель y = X + , причем:

  1.  Yt = bXt + t, t=1…n;
  2.  E(t) = 0;
  3.  V(t) = Ω, и матрица Ω – ковариационная матрица вектора ошибок –  положительно определена.

В случае гетероскедастичности матрица Ω является диагональной, но имеет разные элементы на главной диагонали.

Для проверки модели на гетероскедастичность чаще всего используется тест Уайта.

Тест Уайта

Если в модели присутствует гетероскедастичность, то это может быть связано с тем, что дисперсии ошибок зависят от регрессоров, а гетероскедастичность должна отражаться в остатках обычной регрессии исходной модели.

В данном методе тестирования гипотезы H0 не делается предположений, относительно структуры гетероскедастичности.

Для проведения теста необходимо:

  •  провести обычную регрессию и получить вектор остатков e=(e1...en);
  •  провести регрессию et2 на все регрессоры X, их квадраты, попарные произведения и свободный член;
  •  построить статистику nR2.

Если верна гипотеза Н0: отсутствие гетероскедастичности, то величина имеет распределение 2(N-1), где N – количество регрессоров.

Сделать поправку на гетероскедастичность и «улучшить» оценку матрицы ковариаций позволяют следующие два способа оценивания.

  1.  Стандартные ошибки в форме Уайта.

Предполагается, что Ω, матрица ковариаций вектора ошибок , диагональна,  t = 1,…,n. Тогда состоятельной оценкой матрицы ковариаций оценок коэффициентов регрессии является

Стандартные ошибки, рассчитанные по данной формуле, называются стандартными ошибками в форме Уайта или состоятельными стандартными ошибками при наличии гетеро-скедастичности.

  1.  Стандартные ошибки в форме Невье – Веста.

Рассматривается случай, когда в матрице Ω = (ωij) ненулевые элементы стоят не только на главной диагонали, но и на соседних диагоналях, отстоящих от главной не более чем на L (т.е. ωij = 0, | ij | > L). Тогда состоятельной оценкой матрицы ковариаций оценок коэффициентов регрессии является

Существует несколько способов выбора весовых коэффициентов wj:

  1.  ωj = 1. Однако при таком выборе матрица  может оказаться неотрицательно определенной;
  2.   (Бартлетт);
  3.   (Парзен)

В большинстве случаев использование весов Парзена предпочти-тельнее.

Стандартные ошибки, рассчитанные по данной формуле, называются стандартными ошибками в форме Невье – Веста или стандартными ошибками с учетом гетероскедастичности и автокорреляции.

  1.  ЭКОНОМИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ

Коэффициент регрессии βi при переменной xi выражает предельный прирост зависимой переменной Y при изменении переменной xi, при условии постоянства других переменных. То есть βi показывает на сколько увеличится в среднем Y при увеличении xi на единицу.

Построение множественной линейной регрессии в EViews 5.1

1. Оценка параметров модели методом наименьших квадратов

В EViews оценка линейной модели множественной регрессии осуществляется аналогичной парной регрессии (лаб. раб. 3).

1) Меню Objects / New Object…, в появившемся окне выбирается тип объекта Equation, затем OK. В появившемся окне “Equation Estimation” вкладке Specification вводится через пробелы зависимая переменная, константа (с), факторные переменные. Например, y c x1 x2 x3 x4 x5.

2) ввод команды ls в строке ввода формул следующим образом:

ls зависимая переменная, константа (с), факторные переменные;

например, ls y c x1 x2 x3 x4 x5.

2. Оценка качества множественной линейной регрессии

Осуществляется аналогичной парной регрессии (лаб. раб. 3).

Также используется поле Adjusted R-squared – значение скорректированного коэффициента детерминации.

3. Проверка на мультиколлинеарность

В EViews отображение корреляционной матрицы осуществляется следующим способом:

  •  создается группа рядов, в которую включаются все случайные величины, для которых строится корреляционная матрица (например, группа из рядов Y, X1, X2, X3, X4);
  •  в окне созданной группы выбирается меню View \ Correlation \ Common Sample. В окне отобразится корреляционная матрица.

Рис. 4.1. Корреляционная матрица

Для возврата к отображению рядов в окне группы выбирается меню View \ Spreadsheet.

Пример.

По представленным на рис. 4.1 рядам была построена и оценена регрессия Y = β0 + β1X1 + β2X2 + β3X3+ β4X4 + ε (см. рис. 4.2).

Рис. 4.2. Результаты оценки множественной регрессии

Из рис. 4.1 видно, что X1 коррелирует с X4 (r=0.909128), а X2 коррелирует с X3 (r=0.874157), следовательно, есть мультиколлинеарность.

Из рис. 4.2 следует, что коэффициенты β2 и β4 незначимы.

Удалим из модели фактор X2 как менее существенный и коррелирующий со значимым (X3) фактором.

Рис. 4.3. Результаты оценки после удаления X2

В модели еще остался несущественный фактор X4 коррелирующий со значимым (X1) фактором. Удалим X4.

Рис. 4.4. Результаты оценки после удаления X4

В итоговой модели (рис. 4.4) все коэффициенты при факторах значимы, между факторами X1 и X3 нет высокой корреляции (r= -0.024173). Таким образом, в полученной модели нет мультиколлинеарности.

4. Проверка на гетероскедастичность

В EViews тестирование линейной модели множественной регрессии на гетероскедастичность осуществляется следующим способом.

  1.  Осуществляется оценка регрессии обычным МНК.
  2.  Для проверки ошибок на гетероскедастичность тестом Уайта в окне “Equation” выбирается View / Residual Tests / White Heteroskedasticity (no cross terms). При значении Probability<0.05 гипотеза о гомоскедастичности отвергается (принимается гетероскедастичность) (рис. 4.5).

Рис. 4.5. Тест Уайта на гетероскедастичность

  1.  Если гетероскедастичность подтверждается, то делается коррекция на гетероскедастичность: в окне “Equation” выбираете Estimate, в появившемся окне “Equation Estimation” выбираете вкладку Options, ставите галочку в поле Heteroscedasticity consistent coefficient сovariance, выбираете в какой форме хотите получить ошибки (White или Newey-West) (рис. 4.6).

Рис. 4.6. Коррекция на гетероскедастичность

Задания:

Необходимо по исходным данным определить оказывает ли потребление алкоголя и табака, а также ряда других факторов, существенное влияние на величину расходов домохозяйств.

Данные предоставлены Национальным институтом статистики Бельгии и содержат информацию о бельгийских домохозяйствах, взятую из результатов обследования бюджетов домохозяйств в 1995-96 годах. Исходная выборка содержит 2724 наблюдения.

Исходные данные находятся в файле lab 4.xls.

  1.  Проведите анализ данных и подготовьте выборку к проведению эконометрического моделирования.
  2.  Выберите форму влияющих факторов, оцените параметры начального уравнения множественной линейной регрессии методом наименьших квадратов.
  3.  Оцените качество построенной модели (стандартные ошибки, значимость коэффициентов и уравнения и т.д.).
  4.  Проверьте модель на мультиколлинеарность и при необходимости исключите ее.
  5.  Проведите тест на гетероскедастичность и при необходимости скорректируйте стандартные ошибки.
  6.  * Предложите свои варианты влияющих величин, являющихся некоторой комбинацией исходных величин, которые бы позволили сделать более качественные выводы по модели.
  7.  Дайте экономическую интерпретацию полученной модели.
  8.  Сохраните рабочий файл под именем «фамилия студента»_4.WF1.

Обозначение переменных

Переменная

Содержание переменной

bluecol

фиктивная переменная, равная 1, если глава семьи относится к "синим воротничкам" (квалифицированные рабочие; работники физического труда)

whitecol

фиктивная переменная, равная 1, если глава семьи относится к "белым воротничкам" (служащие, чиновники, работники аппарата управления, менеджеры, инженерно-технические работники, работники умственного труда, входящие в состав непроизводственного персонала предприятий)

nkids

количество детей в семье в возрасте старше 2 лет

nkids2

количество детей в семье в возрасте младше 2 лет

nadults

число взрослых в домохозяйстве

lnx

логарифм общих расходов (рассчитанных изначально в бельгийских франках)

xeuro

общие расходы домохозяйства, пересчитанные в евро по курсу обмена 40,3399 бельгийских франков за 1 евро

share2

доля затрат на табак в бюджете домохозяйства

share1

доля затрат на алкоголь в бюджете домохозяйства

age

число лет, которое человек носил брекеты (от 0 до 4)

d1

фиктивная переменная, равная 1, если share1>0

d2

фиктивная переменная, равная 1, если share2>0

expir

общий опыт работы

expir_wh

опыт работы в должности "белого воротничка"

expir_bl

опыт работы в должности "синего воротничка"

full_age

возраст главы домохозяйства


 

А также другие работы, которые могут Вас заинтересовать

70064. Учебно-методический комплекс: Основы социологии и политологии 172 KB
  Общество и его развитие функционирование основных институтов и в первую очередь государства социальные и политические отношения взаимодействие личности гражданского общества и государства составляют основу деятельности юристов их гражданской активности реализации социального...
70065. СУДЕБНОЕ ДЕЛОПРОИЗВОДСТВО 247.5 KB
  Понятие судебного делопроизводства; распределение обязанностей между работниками аппарата суда; руководство делопроизводством суда; организация приема граждан работниками суда; судебное разбирательство; протокол судебного заседания; порядок вынесения судебного решения...
70066. Введение в право: Учебно – методический комплекс 163.5 KB
  Дается общая характеристика права общая характеристика отраслей права раскрываются основные принципы осуществления правосудия в Российской Федерации. Содействие подготовке компетентных специалистов которые смогут самостоятельно найти нужную норму права разобраться в ней.
70067. МУНИЦИПАЛЬНОЕ ПРАВО 599 KB
  Муниципальное право понятие и предмет муниципального права; правовое регулирование муниципальных отношений; понятие местного самоуправления; общие принципы и функции местного самоуправления; структура и организация работы органов местного самоуправления; финансово-экономические основы...
70068. ОТЕЧЕСТВЕННАЯ ИСТОРИЯ: УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС 513.5 KB
  Основная цель курса состоит в формировании у обучаемых научных представлений об основных закономерностях исторического процесса о специфике исторического пути России в ряду мировых цивилизаций и становлении на этой базе гражданского самосознания высоких моральных...
70069. ПРАВО СОЦИАЛЬНОГО ОБЕСПЕЧЕНИЯ 684.5 KB
  Учебный курс имеет своей целью изучение всех важнейших институтов права социального обеспечения, формирование у студентов знаний правовых норм законодательства в сфере социального обеспечения граждан, развитие и закрепление навыков правового мышления...
70070. Учебно-методический комплекс: Основы экономики 666.72 KB
  Цель данного учебного курса – дать обучающимся представления об основах экономической теории, раскрыть механизм функционирования рыночной модели хозяйствования, показать роль и место государственного регулирования в условиях рыночной экономики и в общих чертах изложить...
70071. Правовые основы организации деятельности судебных приставов: Учебно-методический комплекс 291.5 KB
  Учебная дисциплина «Правовые основы организации деятельности судебных приставов» включена в учебный план ПФ РАП по специальности «Правоведение» для студентов факультета непрерывного образования по подготовке специалистов для судебной системы.
70072. Учебно-методический комплекс: Теория государства и права 325.5 KB
  Изучение теории государства и права формирует и развивает юридическое мышление, правовую культуру, а глубокое усвоение системы основных категорий и понятий, в том числе в их отраслевом преломлении способствует приобретению навыков работы с законодательством, практикой его толкования и применения.