42153

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Лабораторная работа

Математика и математический анализ

Линейная модель множественной регрессии выглядит следующим образом: Y = β0 β1x1 β2x2 βkxk ε где Y – зависимая переменная результативный признак; x1xk – независимые или объясняющие переменные; 0 1 k – коэффициенты регрессии;  – ошибка регрессии. Общая последовательность построения множественной линейной регрессионной модели следующая: Оценка параметров уравнения; Оценка качества регрессии; Проверка на мультиколлинеарность ее исключение; Проверка на гетероскедастичность коррекция на...

Русский

2013-10-27

360.5 KB

125 чел.

Лабораторная работа №4

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Часто при построении модели приходится учитывать влияние на объект исследования сразу нескольких факторов. Линейная модель множественной регрессии выглядит следующим образом:

Y = β0 + β1x1 + β2x2 + …+ βkxk + ε,

где  Y – зависимая переменная (результативный признак);

 x1,…,xk – независимые, или объясняющие переменные;

 0, 1,…, k – коэффициенты регрессии;

  – ошибка регрессии.

Общая последовательность построения множественной линейной регрессионной модели следующая:

  1.  Оценка параметров уравнения;
  2.  Оценка качества регрессии;
  3.  Проверка на мультиколлинеарность, ее исключение;
  4.  Проверка на гетероскедастичность, коррекция на гетероскедастичность;
  5.  Корректировка вида модели: тест на функциональную форму, тест Вальда (лаб. раб. №6);
  6.  Экономическая интерпретация.

1. ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ

Параметры уравнения множественной регрессии оцениваются методом наименьших квадратов (МНК), целью которого является нахождение оценок , минимизирующих сумму квадратов остатков

где xi=(1,x1,…,xk), =(0, 1,…, k)

или

где  .

При этом должны выполняться условия Гаусса – Маркова:

  1.  E(i)=0.
  2.  D(i)=2=constне зависит от i, i=1…n .
  3.  cov(ij)=0 при i  j, статистическая независимость (некоррелированность) ошибок для разных наблюдений.
  4.  Ошибки i, i=1…n, имеют совместное нормальное распределение: ~.

2. ОЦЕНКА КАЧЕСТВА МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ проводится определением следующих величин:

1. Стандартные ошибки оценок (см. для парной регрессии)

2. Доверительные интервалы коэффициентов

,

где γ – уровень значимости, n – число наблюдений, - табличное (критическое) значение t-критерия Стьюдента. 

3. Значимость коэффициентов регрессии

Проверяется по t-критерию Стьюдента: . Если , то коэффициент статистически значим, иначе – незначим.

4. Коэффициент детерминации R2 (см. для парной регрессии)

5. Скорректированный коэффициент детерминации

Низкое значение R2 не свидетельствует о плохом качестве модели, и может объясняться наличием существенных факторов, не включенных в модель

R2 всегда увеличивается с включением новой переменной. Поэтому рассчитывают скорректированный коэффициент детерминации

6. Стандартная ошибка регрессии

Значения Se в однотипных моделях с разным числом наблюдений и (или) переменных сравнимы.

7. Значимость уравнения регрессии

Проверяется по F-критерию Фишера

.

Если F>Fтабл, то уравнение статистически значимо, иначе – незначимо.

F-критерии в разных моделях с разным числом наблюдений и (или) переменных несравнимы.

8. Средняя абсолютная процентная ошибка (см. для парной регрессии)

3. ПРОВЕРКА НА МУЛЬТИКОЛЛИНЕАРНОСТЬ

Мультиколлинеарность – наличие линейной статистической зависимости между факторными признаками, что вызывает неустойчивость оценок коэффициентов регрессии.

Если рассмотреть уравнение регрессии в матричном виде:

Y = + ε,

то МНК-оценки определяются как   .

При наличии эффекта мультиколлинеарности матрица XTX будет близка к вырожденной.

Последствия мультиколлинеарности:

  1.  Стандартные ошибки коэффициентов увеличиваются, следовательно, вычисленные t-статистики занижены.
  2.  Неустойчивость оценок. Добавление или исключение малого количества наблюдений может привести к очень сильному изменению оценок коэффициентов. При этом резко уменьшается и точность предсказания по модели.
  3.  Высокая коррелированность коэффициентов лишает смысла их интерпретации.

Признаки мультиколлинеарности:

  •  неправильные с экономической точки зрения знаки оценок регрессии;
  •  неоправданно большие значения оценок;
  •  высокие R2 и F-статистика, но некоторые (или все) коэффициенты незначимы (имеют низкие t-статистики);
  •  высокие парные коэффициенты корреляции;
  •  высокие частные коэффициенты корреляции;
  •  добавление или удаление наблюдений из выборки сильно изменяют значения оценок.

Одним из способов устранения эффекта мультиколлинеарности является метод включения-исключения переменных. При этом выполняются следующие действия:

  1.  Строится регрессионная модель методом наименьших квадратов.
  2.  Оценивается значимость коэффициентов регрессии.
  3.  Выявляется наличие зависимости между факторными признаками путем анализа матрицы парных коэффициентов корреляции и матрицы частных коэффициентов корреляции.
  4.  Строится новое уравнение регрессии с исключением незначимых и части взаимно коррелирующих переменных. При этом из числа коррелирующих переменных в модели оставляют те, которые более соответствуют ее экономическому содержанию, либо те, которые имеют наибольшее значение частной корреляции с зависимой переменной. При необходимости включаются уже исключенные переменные, если этого требует экономический смысл.
  5.  Повторяются 3-й и 4-й шаги до тех пор, пока мультиколлинеарность не будет исключена.
  6.  ПРОВЕРКА НА ГЕТЕРОСКЕДАСТИЧНОСТЬ

На практике часто встречаются модели, в которых не выполняется 2-е условие Гаусса – Маркова, т.е. D(i)≠const. Это явление называется гетероскедастичностью.

Гетероскедастичность приводит к заниженным значениям стандартных ошибок, получаемых обычным МНК. Вследствие чего  завышаются t-статистики, и дается неправильное (завышенное) представление о точности оценок.

Поэтому для более детального изучения данного явления рассмотрим обобщенную регрессионную модель y = X + , причем:

  1.  Yt = bXt + t, t=1…n;
  2.  E(t) = 0;
  3.  V(t) = Ω, и матрица Ω – ковариационная матрица вектора ошибок –  положительно определена.

В случае гетероскедастичности матрица Ω является диагональной, но имеет разные элементы на главной диагонали.

Для проверки модели на гетероскедастичность чаще всего используется тест Уайта.

Тест Уайта

Если в модели присутствует гетероскедастичность, то это может быть связано с тем, что дисперсии ошибок зависят от регрессоров, а гетероскедастичность должна отражаться в остатках обычной регрессии исходной модели.

В данном методе тестирования гипотезы H0 не делается предположений, относительно структуры гетероскедастичности.

Для проведения теста необходимо:

  •  провести обычную регрессию и получить вектор остатков e=(e1...en);
  •  провести регрессию et2 на все регрессоры X, их квадраты, попарные произведения и свободный член;
  •  построить статистику nR2.

Если верна гипотеза Н0: отсутствие гетероскедастичности, то величина имеет распределение 2(N-1), где N – количество регрессоров.

Сделать поправку на гетероскедастичность и «улучшить» оценку матрицы ковариаций позволяют следующие два способа оценивания.

  1.  Стандартные ошибки в форме Уайта.

Предполагается, что Ω, матрица ковариаций вектора ошибок , диагональна,  t = 1,…,n. Тогда состоятельной оценкой матрицы ковариаций оценок коэффициентов регрессии является

Стандартные ошибки, рассчитанные по данной формуле, называются стандартными ошибками в форме Уайта или состоятельными стандартными ошибками при наличии гетеро-скедастичности.

  1.  Стандартные ошибки в форме Невье – Веста.

Рассматривается случай, когда в матрице Ω = (ωij) ненулевые элементы стоят не только на главной диагонали, но и на соседних диагоналях, отстоящих от главной не более чем на L (т.е. ωij = 0, | ij | > L). Тогда состоятельной оценкой матрицы ковариаций оценок коэффициентов регрессии является

Существует несколько способов выбора весовых коэффициентов wj:

  1.  ωj = 1. Однако при таком выборе матрица  может оказаться неотрицательно определенной;
  2.   (Бартлетт);
  3.   (Парзен)

В большинстве случаев использование весов Парзена предпочти-тельнее.

Стандартные ошибки, рассчитанные по данной формуле, называются стандартными ошибками в форме Невье – Веста или стандартными ошибками с учетом гетероскедастичности и автокорреляции.

  1.  ЭКОНОМИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ

Коэффициент регрессии βi при переменной xi выражает предельный прирост зависимой переменной Y при изменении переменной xi, при условии постоянства других переменных. То есть βi показывает на сколько увеличится в среднем Y при увеличении xi на единицу.

Построение множественной линейной регрессии в EViews 5.1

1. Оценка параметров модели методом наименьших квадратов

В EViews оценка линейной модели множественной регрессии осуществляется аналогичной парной регрессии (лаб. раб. 3).

1) Меню Objects / New Object…, в появившемся окне выбирается тип объекта Equation, затем OK. В появившемся окне “Equation Estimation” вкладке Specification вводится через пробелы зависимая переменная, константа (с), факторные переменные. Например, y c x1 x2 x3 x4 x5.

2) ввод команды ls в строке ввода формул следующим образом:

ls зависимая переменная, константа (с), факторные переменные;

например, ls y c x1 x2 x3 x4 x5.

2. Оценка качества множественной линейной регрессии

Осуществляется аналогичной парной регрессии (лаб. раб. 3).

Также используется поле Adjusted R-squared – значение скорректированного коэффициента детерминации.

3. Проверка на мультиколлинеарность

В EViews отображение корреляционной матрицы осуществляется следующим способом:

  •  создается группа рядов, в которую включаются все случайные величины, для которых строится корреляционная матрица (например, группа из рядов Y, X1, X2, X3, X4);
  •  в окне созданной группы выбирается меню View \ Correlation \ Common Sample. В окне отобразится корреляционная матрица.

Рис. 4.1. Корреляционная матрица

Для возврата к отображению рядов в окне группы выбирается меню View \ Spreadsheet.

Пример.

По представленным на рис. 4.1 рядам была построена и оценена регрессия Y = β0 + β1X1 + β2X2 + β3X3+ β4X4 + ε (см. рис. 4.2).

Рис. 4.2. Результаты оценки множественной регрессии

Из рис. 4.1 видно, что X1 коррелирует с X4 (r=0.909128), а X2 коррелирует с X3 (r=0.874157), следовательно, есть мультиколлинеарность.

Из рис. 4.2 следует, что коэффициенты β2 и β4 незначимы.

Удалим из модели фактор X2 как менее существенный и коррелирующий со значимым (X3) фактором.

Рис. 4.3. Результаты оценки после удаления X2

В модели еще остался несущественный фактор X4 коррелирующий со значимым (X1) фактором. Удалим X4.

Рис. 4.4. Результаты оценки после удаления X4

В итоговой модели (рис. 4.4) все коэффициенты при факторах значимы, между факторами X1 и X3 нет высокой корреляции (r= -0.024173). Таким образом, в полученной модели нет мультиколлинеарности.

4. Проверка на гетероскедастичность

В EViews тестирование линейной модели множественной регрессии на гетероскедастичность осуществляется следующим способом.

  1.  Осуществляется оценка регрессии обычным МНК.
  2.  Для проверки ошибок на гетероскедастичность тестом Уайта в окне “Equation” выбирается View / Residual Tests / White Heteroskedasticity (no cross terms). При значении Probability<0.05 гипотеза о гомоскедастичности отвергается (принимается гетероскедастичность) (рис. 4.5).

Рис. 4.5. Тест Уайта на гетероскедастичность

  1.  Если гетероскедастичность подтверждается, то делается коррекция на гетероскедастичность: в окне “Equation” выбираете Estimate, в появившемся окне “Equation Estimation” выбираете вкладку Options, ставите галочку в поле Heteroscedasticity consistent coefficient сovariance, выбираете в какой форме хотите получить ошибки (White или Newey-West) (рис. 4.6).

Рис. 4.6. Коррекция на гетероскедастичность

Задания:

Необходимо по исходным данным определить оказывает ли потребление алкоголя и табака, а также ряда других факторов, существенное влияние на величину расходов домохозяйств.

Данные предоставлены Национальным институтом статистики Бельгии и содержат информацию о бельгийских домохозяйствах, взятую из результатов обследования бюджетов домохозяйств в 1995-96 годах. Исходная выборка содержит 2724 наблюдения.

Исходные данные находятся в файле lab 4.xls.

  1.  Проведите анализ данных и подготовьте выборку к проведению эконометрического моделирования.
  2.  Выберите форму влияющих факторов, оцените параметры начального уравнения множественной линейной регрессии методом наименьших квадратов.
  3.  Оцените качество построенной модели (стандартные ошибки, значимость коэффициентов и уравнения и т.д.).
  4.  Проверьте модель на мультиколлинеарность и при необходимости исключите ее.
  5.  Проведите тест на гетероскедастичность и при необходимости скорректируйте стандартные ошибки.
  6.  * Предложите свои варианты влияющих величин, являющихся некоторой комбинацией исходных величин, которые бы позволили сделать более качественные выводы по модели.
  7.  Дайте экономическую интерпретацию полученной модели.
  8.  Сохраните рабочий файл под именем «фамилия студента»_4.WF1.

Обозначение переменных

Переменная

Содержание переменной

bluecol

фиктивная переменная, равная 1, если глава семьи относится к "синим воротничкам" (квалифицированные рабочие; работники физического труда)

whitecol

фиктивная переменная, равная 1, если глава семьи относится к "белым воротничкам" (служащие, чиновники, работники аппарата управления, менеджеры, инженерно-технические работники, работники умственного труда, входящие в состав непроизводственного персонала предприятий)

nkids

количество детей в семье в возрасте старше 2 лет

nkids2

количество детей в семье в возрасте младше 2 лет

nadults

число взрослых в домохозяйстве

lnx

логарифм общих расходов (рассчитанных изначально в бельгийских франках)

xeuro

общие расходы домохозяйства, пересчитанные в евро по курсу обмена 40,3399 бельгийских франков за 1 евро

share2

доля затрат на табак в бюджете домохозяйства

share1

доля затрат на алкоголь в бюджете домохозяйства

age

число лет, которое человек носил брекеты (от 0 до 4)

d1

фиктивная переменная, равная 1, если share1>0

d2

фиктивная переменная, равная 1, если share2>0

expir

общий опыт работы

expir_wh

опыт работы в должности "белого воротничка"

expir_bl

опыт работы в должности "синего воротничка"

full_age

возраст главы домохозяйства


 

А также другие работы, которые могут Вас заинтересовать

52796. Наша дума, наша пісня – не вмре, не загине 57.5 KB
  Київ В сценарії висвітлено роль значення і невичерпну силу пісні в житті людини від прапрадівських часів до наших днів. Армійські маршові пісні. Стрілецькі пісні. Пісні про Велику Вітчизняну війну.
52797. Любов’ю збережемо здоров’я нації 37.5 KB
  Але набагато страшнішим є те що люди не лише ламають свою вагу а й втручаються в роботу дитячих ваг ламаючи їх в присутності дітей зважують своєю зламаною вагою вчинки інших нав’язуючи свої помилкові твердження словом грають на струнах дитячих душ. Ми вчителі дуже раділи коли за такий короткий час підготували дітей до виступу. Та як ми були здивовані спостерігаючи за реакцією батьків на виступ дітей. А ця неприязнь до чужих дітей передається власним діткам.
52798. Древнейшие государства Двуречья 95 KB
  Ожидаемые результаты: После этого урока учащиеся смогут: характеризовать природно-климатические условия и географическое положение государств Двуречья; называть племена которые населяли Двуречье в древности первые цивилизации в долинах Тигра и Евфрата; определять закономерности развития цивилизаций в долинах рек на примерах изучаемой страны; продолжать работу с атласом и контурной картой – показывать на настенной демонстрируемой карте и в атласе территорию Двуречья отмечать ее на контурной карте; применять и объяснять понятия и...
52799. СЦЕНАРІЙ ЛІТЕРАТУРНО-МИСТЕЦЬКОГО ЗАХОДУ «ДЖЕРЕЛО ТВОРЧОСТІ» 176.5 KB
  Якою джерельною чистою мовою говориш ти сьогодні. 1ша ведуча Звичайно джерельною А ти взагалі бачив джерельце Ти бачив те маленьке диво чудо природи Як воно ніжне але таке сильне виплескує на землю воду потім утворює струмок напуває річку несе воду до моря А море живить океан – океан життя океан творчості 2й ведучий Твоя розповідь нагадала мені як у нашому житті з’являється творча особистість як проходить її становлення як вона самореалізується. 2й ведучий Ласкаво просимо з нами побувати у мандрівці Разом з...
52800. Сценарій свята Останнього дзвоника 96 KB
  Ведучий 1: Увага Увага Увага Учень: День сьогодні такий незвичний Сонце встало умите в росі Скликав в школу нас дзвоник останній І зібрались на свято усі. Ведучий 2: Але стривайте Яке ж свято без випускників початкової школи Тож давайте запросимо їх на урочисту лінійку Ведучий 1: Злинь же музико в небо гучніше В добру пору лунай в добрий час Вище голови Йдіть веселіше Бо усі вже чекають на вас Звучить музика. Ведучий 2: Свято...
52802. Свято Першого дзвоника 51 KB
  Ведучий Знову свята радісні хвилини Безліч вересневих привітань. Ведучий Заходьте дружно та сміливо Маленькі школярі до нас. Ведучий Увага Зустрічайте 1 клас. Ведуча Нехай на нас чекають добрі зміни У наших свят традиція одна: Хай майорить над нами прапор України Стояти струнко Гімн держави пролуна Ведучий Школо До слухання Державного Гімну України стояти струнко.