42153

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Лабораторная работа

Математика и математический анализ

Линейная модель множественной регрессии выглядит следующим образом: Y = β0 β1x1 β2x2 βkxk ε где Y зависимая переменная результативный признак; x1xk независимые или объясняющие переменные; 0 1 k коэффициенты регрессии;  ошибка регрессии. Общая последовательность построения множественной линейной регрессионной модели следующая: Оценка параметров уравнения; Оценка качества регрессии; Проверка на мультиколлинеарность ее исключение; Проверка на гетероскедастичность коррекция на...

Русский

2013-10-27

360.5 KB

131 чел.

Лабораторная работа №4

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Часто при построении модели приходится учитывать влияние на объект исследования сразу нескольких факторов. Линейная модель множественной регрессии выглядит следующим образом:

Y = β0 + β1x1 + β2x2 + …+ βkxk + ε,

где  Y – зависимая переменная (результативный признак);

 x1,…,xk – независимые, или объясняющие переменные;

 0, 1,…, k – коэффициенты регрессии;

  – ошибка регрессии.

Общая последовательность построения множественной линейной регрессионной модели следующая:

  1.  Оценка параметров уравнения;
  2.  Оценка качества регрессии;
  3.  Проверка на мультиколлинеарность, ее исключение;
  4.  Проверка на гетероскедастичность, коррекция на гетероскедастичность;
  5.  Корректировка вида модели: тест на функциональную форму, тест Вальда (лаб. раб. №6);
  6.  Экономическая интерпретация.

1. ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ

Параметры уравнения множественной регрессии оцениваются методом наименьших квадратов (МНК), целью которого является нахождение оценок , минимизирующих сумму квадратов остатков

где xi=(1,x1,…,xk), =(0, 1,…, k)

или

где  .

При этом должны выполняться условия Гаусса – Маркова:

  1.  E(i)=0.
  2.  D(i)=2=constне зависит от i, i=1…n .
  3.  cov(ij)=0 при i  j, статистическая независимость (некоррелированность) ошибок для разных наблюдений.
  4.  Ошибки i, i=1…n, имеют совместное нормальное распределение: ~.

2. ОЦЕНКА КАЧЕСТВА МНОЖЕСТВЕННОЙ ЛИНЕЙНОЙ РЕГРЕССИИ проводится определением следующих величин:

1. Стандартные ошибки оценок (см. для парной регрессии)

2. Доверительные интервалы коэффициентов

,

где γ – уровень значимости, n – число наблюдений, - табличное (критическое) значение t-критерия Стьюдента. 

3. Значимость коэффициентов регрессии

Проверяется по t-критерию Стьюдента: . Если , то коэффициент статистически значим, иначе – незначим.

4. Коэффициент детерминации R2 (см. для парной регрессии)

5. Скорректированный коэффициент детерминации

Низкое значение R2 не свидетельствует о плохом качестве модели, и может объясняться наличием существенных факторов, не включенных в модель

R2 всегда увеличивается с включением новой переменной. Поэтому рассчитывают скорректированный коэффициент детерминации

6. Стандартная ошибка регрессии

Значения Se в однотипных моделях с разным числом наблюдений и (или) переменных сравнимы.

7. Значимость уравнения регрессии

Проверяется по F-критерию Фишера

.

Если F>Fтабл, то уравнение статистически значимо, иначе – незначимо.

F-критерии в разных моделях с разным числом наблюдений и (или) переменных несравнимы.

8. Средняя абсолютная процентная ошибка (см. для парной регрессии)

3. ПРОВЕРКА НА МУЛЬТИКОЛЛИНЕАРНОСТЬ

Мультиколлинеарность – наличие линейной статистической зависимости между факторными признаками, что вызывает неустойчивость оценок коэффициентов регрессии.

Если рассмотреть уравнение регрессии в матричном виде:

Y = + ε,

то МНК-оценки определяются как   .

При наличии эффекта мультиколлинеарности матрица XTX будет близка к вырожденной.

Последствия мультиколлинеарности:

  1.  Стандартные ошибки коэффициентов увеличиваются, следовательно, вычисленные t-статистики занижены.
  2.  Неустойчивость оценок. Добавление или исключение малого количества наблюдений может привести к очень сильному изменению оценок коэффициентов. При этом резко уменьшается и точность предсказания по модели.
  3.  Высокая коррелированность коэффициентов лишает смысла их интерпретации.

Признаки мультиколлинеарности:

  •  неправильные с экономической точки зрения знаки оценок регрессии;
  •  неоправданно большие значения оценок;
  •  высокие R2 и F-статистика, но некоторые (или все) коэффициенты незначимы (имеют низкие t-статистики);
  •  высокие парные коэффициенты корреляции;
  •  высокие частные коэффициенты корреляции;
  •  добавление или удаление наблюдений из выборки сильно изменяют значения оценок.

Одним из способов устранения эффекта мультиколлинеарности является метод включения-исключения переменных. При этом выполняются следующие действия:

  1.  Строится регрессионная модель методом наименьших квадратов.
  2.  Оценивается значимость коэффициентов регрессии.
  3.  Выявляется наличие зависимости между факторными признаками путем анализа матрицы парных коэффициентов корреляции и матрицы частных коэффициентов корреляции.
  4.  Строится новое уравнение регрессии с исключением незначимых и части взаимно коррелирующих переменных. При этом из числа коррелирующих переменных в модели оставляют те, которые более соответствуют ее экономическому содержанию, либо те, которые имеют наибольшее значение частной корреляции с зависимой переменной. При необходимости включаются уже исключенные переменные, если этого требует экономический смысл.
  5.  Повторяются 3-й и 4-й шаги до тех пор, пока мультиколлинеарность не будет исключена.
  6.  ПРОВЕРКА НА ГЕТЕРОСКЕДАСТИЧНОСТЬ

На практике часто встречаются модели, в которых не выполняется 2-е условие Гаусса – Маркова, т.е. D(i)≠const. Это явление называется гетероскедастичностью.

Гетероскедастичность приводит к заниженным значениям стандартных ошибок, получаемых обычным МНК. Вследствие чего  завышаются t-статистики, и дается неправильное (завышенное) представление о точности оценок.

Поэтому для более детального изучения данного явления рассмотрим обобщенную регрессионную модель y = X + , причем:

  1.  Yt = bXt + t, t=1…n;
  2.  E(t) = 0;
  3.  V(t) = Ω, и матрица Ω – ковариационная матрица вектора ошибок –  положительно определена.

В случае гетероскедастичности матрица Ω является диагональной, но имеет разные элементы на главной диагонали.

Для проверки модели на гетероскедастичность чаще всего используется тест Уайта.

Тест Уайта

Если в модели присутствует гетероскедастичность, то это может быть связано с тем, что дисперсии ошибок зависят от регрессоров, а гетероскедастичность должна отражаться в остатках обычной регрессии исходной модели.

В данном методе тестирования гипотезы H0 не делается предположений, относительно структуры гетероскедастичности.

Для проведения теста необходимо:

  •  провести обычную регрессию и получить вектор остатков e=(e1...en);
  •  провести регрессию et2 на все регрессоры X, их квадраты, попарные произведения и свободный член;
  •  построить статистику nR2.

Если верна гипотеза Н0: отсутствие гетероскедастичности, то величина имеет распределение 2(N-1), где N – количество регрессоров.

Сделать поправку на гетероскедастичность и «улучшить» оценку матрицы ковариаций позволяют следующие два способа оценивания.

  1.  Стандартные ошибки в форме Уайта.

Предполагается, что Ω, матрица ковариаций вектора ошибок , диагональна,  t = 1,…,n. Тогда состоятельной оценкой матрицы ковариаций оценок коэффициентов регрессии является

Стандартные ошибки, рассчитанные по данной формуле, называются стандартными ошибками в форме Уайта или состоятельными стандартными ошибками при наличии гетеро-скедастичности.

  1.  Стандартные ошибки в форме Невье – Веста.

Рассматривается случай, когда в матрице Ω = (ωij) ненулевые элементы стоят не только на главной диагонали, но и на соседних диагоналях, отстоящих от главной не более чем на L (т.е. ωij = 0, | ij | > L). Тогда состоятельной оценкой матрицы ковариаций оценок коэффициентов регрессии является

Существует несколько способов выбора весовых коэффициентов wj:

  1.  ωj = 1. Однако при таком выборе матрица  может оказаться неотрицательно определенной;
  2.   (Бартлетт);
  3.   (Парзен)

В большинстве случаев использование весов Парзена предпочти-тельнее.

Стандартные ошибки, рассчитанные по данной формуле, называются стандартными ошибками в форме Невье – Веста или стандартными ошибками с учетом гетероскедастичности и автокорреляции.

  1.  ЭКОНОМИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ

Коэффициент регрессии βi при переменной xi выражает предельный прирост зависимой переменной Y при изменении переменной xi, при условии постоянства других переменных. То есть βi показывает на сколько увеличится в среднем Y при увеличении xi на единицу.

Построение множественной линейной регрессии в EViews 5.1

1. Оценка параметров модели методом наименьших квадратов

В EViews оценка линейной модели множественной регрессии осуществляется аналогичной парной регрессии (лаб. раб. 3).

1) Меню Objects / New Object…, в появившемся окне выбирается тип объекта Equation, затем OK. В появившемся окне “Equation Estimation” вкладке Specification вводится через пробелы зависимая переменная, константа (с), факторные переменные. Например, y c x1 x2 x3 x4 x5.

2) ввод команды ls в строке ввода формул следующим образом:

ls зависимая переменная, константа (с), факторные переменные;

например, ls y c x1 x2 x3 x4 x5.

2. Оценка качества множественной линейной регрессии

Осуществляется аналогичной парной регрессии (лаб. раб. 3).

Также используется поле Adjusted R-squared – значение скорректированного коэффициента детерминации.

3. Проверка на мультиколлинеарность

В EViews отображение корреляционной матрицы осуществляется следующим способом:

  •  создается группа рядов, в которую включаются все случайные величины, для которых строится корреляционная матрица (например, группа из рядов Y, X1, X2, X3, X4);
  •  в окне созданной группы выбирается меню View \ Correlation \ Common Sample. В окне отобразится корреляционная матрица.

Рис. 4.1. Корреляционная матрица

Для возврата к отображению рядов в окне группы выбирается меню View \ Spreadsheet.

Пример.

По представленным на рис. 4.1 рядам была построена и оценена регрессия Y = β0 + β1X1 + β2X2 + β3X3+ β4X4 + ε (см. рис. 4.2).

Рис. 4.2. Результаты оценки множественной регрессии

Из рис. 4.1 видно, что X1 коррелирует с X4 (r=0.909128), а X2 коррелирует с X3 (r=0.874157), следовательно, есть мультиколлинеарность.

Из рис. 4.2 следует, что коэффициенты β2 и β4 незначимы.

Удалим из модели фактор X2 как менее существенный и коррелирующий со значимым (X3) фактором.

Рис. 4.3. Результаты оценки после удаления X2

В модели еще остался несущественный фактор X4 коррелирующий со значимым (X1) фактором. Удалим X4.

Рис. 4.4. Результаты оценки после удаления X4

В итоговой модели (рис. 4.4) все коэффициенты при факторах значимы, между факторами X1 и X3 нет высокой корреляции (r= -0.024173). Таким образом, в полученной модели нет мультиколлинеарности.

4. Проверка на гетероскедастичность

В EViews тестирование линейной модели множественной регрессии на гетероскедастичность осуществляется следующим способом.

  1.  Осуществляется оценка регрессии обычным МНК.
  2.  Для проверки ошибок на гетероскедастичность тестом Уайта в окне “Equation” выбирается View / Residual Tests / White Heteroskedasticity (no cross terms). При значении Probability<0.05 гипотеза о гомоскедастичности отвергается (принимается гетероскедастичность) (рис. 4.5).

Рис. 4.5. Тест Уайта на гетероскедастичность

  1.  Если гетероскедастичность подтверждается, то делается коррекция на гетероскедастичность: в окне “Equation” выбираете Estimate, в появившемся окне “Equation Estimation” выбираете вкладку Options, ставите галочку в поле Heteroscedasticity consistent coefficient сovariance, выбираете в какой форме хотите получить ошибки (White или Newey-West) (рис. 4.6).

Рис. 4.6. Коррекция на гетероскедастичность

Задания:

Необходимо по исходным данным определить оказывает ли потребление алкоголя и табака, а также ряда других факторов, существенное влияние на величину расходов домохозяйств.

Данные предоставлены Национальным институтом статистики Бельгии и содержат информацию о бельгийских домохозяйствах, взятую из результатов обследования бюджетов домохозяйств в 1995-96 годах. Исходная выборка содержит 2724 наблюдения.

Исходные данные находятся в файле lab 4.xls.

  1.  Проведите анализ данных и подготовьте выборку к проведению эконометрического моделирования.
  2.  Выберите форму влияющих факторов, оцените параметры начального уравнения множественной линейной регрессии методом наименьших квадратов.
  3.  Оцените качество построенной модели (стандартные ошибки, значимость коэффициентов и уравнения и т.д.).
  4.  Проверьте модель на мультиколлинеарность и при необходимости исключите ее.
  5.  Проведите тест на гетероскедастичность и при необходимости скорректируйте стандартные ошибки.
  6.  * Предложите свои варианты влияющих величин, являющихся некоторой комбинацией исходных величин, которые бы позволили сделать более качественные выводы по модели.
  7.  Дайте экономическую интерпретацию полученной модели.
  8.  Сохраните рабочий файл под именем «фамилия студента»_4.WF1.

Обозначение переменных

Переменная

Содержание переменной

bluecol

фиктивная переменная, равная 1, если глава семьи относится к "синим воротничкам" (квалифицированные рабочие; работники физического труда)

whitecol

фиктивная переменная, равная 1, если глава семьи относится к "белым воротничкам" (служащие, чиновники, работники аппарата управления, менеджеры, инженерно-технические работники, работники умственного труда, входящие в состав непроизводственного персонала предприятий)

nkids

количество детей в семье в возрасте старше 2 лет

nkids2

количество детей в семье в возрасте младше 2 лет

nadults

число взрослых в домохозяйстве

lnx

логарифм общих расходов (рассчитанных изначально в бельгийских франках)

xeuro

общие расходы домохозяйства, пересчитанные в евро по курсу обмена 40,3399 бельгийских франков за 1 евро

share2

доля затрат на табак в бюджете домохозяйства

share1

доля затрат на алкоголь в бюджете домохозяйства

age

число лет, которое человек носил брекеты (от 0 до 4)

d1

фиктивная переменная, равная 1, если share1>0

d2

фиктивная переменная, равная 1, если share2>0

expir

общий опыт работы

expir_wh

опыт работы в должности "белого воротничка"

expir_bl

опыт работы в должности "синего воротничка"

full_age

возраст главы домохозяйства


 

А также другие работы, которые могут Вас заинтересовать

33363. Состав и назначение элементов процессорного ядра, характеристика ОМК АТ90S8515 31 KB
  Организация памяти микроконтроллера Память микроконтроллеров VR семейства Clssic выполнена по Гарвардской архитектуре в которой разделены не только адресные пространства памяти программ и памяти данных но также и шины доступа к ним. В связи с тем что регистровая память находится в адресном пространстве ОЗУ об этих двух областях памяти обычно говорят как об одной. 6 регистров общего назначения R26 R31 X Y Z используется в качестве указателей при косвенной адресации памяти данных. Каждый регистр файла имеет свой собственный адрес в...
33364. Структура памяти ОМК АТ90S8515 30.5 KB
  Причем память данных состоит из трех областей: регистровая память статическое ОЗУ и память на основе EEPROM. В связи с тем что регистровая память находится в адресном пространстве ОЗУ об этих двух областях памяти обычно говорят как об одной. Память программ Память программ ёмкостью 4 К 16разрядных слов предназначена для хранения команд управляющих функционированием микроконтроллера.
33365. Порты ввода-вывода ОМК АТ90S8515 31.5 KB
  Конфигурирование каждой линии порта задание направления передачи данных может быть произведено программно в любой момент времени. Обращение к портам ввода вывода Обращение к портам производится через регистры ввода вывода причем под каждый порт в адресном пространстве ввода вывода зарезервировано по 3 адреса. По этим адресам размещаются три регистра: регистр данных порта PORTx регистр направления данных DDRx и регистр выводов порта PINx. Действительные названия регистров и их разрядов получаются подстановкой названия порта вместо...
33366. Таймер/счётчики ОМК АТ90S8515 38 KB
  Как правило эти выводы линии портов ввода вывода общего назначения а функции реализуемые этими выводами при работе совместно с таймерами счетчиками являются их альтернативными функциями. Выводы используемые таймерами счетчиками общего назначения Название T90S8515 Описание T0 PB0 Вход внешнего сигнала таймера T0 T1 PB1 Вход внешнего сигнала таймера T1 ICP ICP Вход захвата таймера T1 OC1 Выход схемы сравнения таймера T1 OC1 PD5 То же OC1B OC1B То же TOSC1 Вход для подключения резонатора TOSC2 Выход для подключения резонатора ...
33367. Универсальный асинхронный приемопередатчик ОМК АТ90S8515 38.5 KB
  Управление работой приемопередатчика осуществляется с помощью регистра управления UCR. Текущее состояние приемопередатчика определяется с помощью регистра состояния USR. При чтении регистра UDR выполняется обращение к регистру приемника при записи к регистру передатчика. Работа передатчика разрешается установкой в 1 разряда TXEN регистра UCR UCSRB.
33368. Система прерываний ОМК AT90S8515 63 KB
  При возникновении прерывания микроконтроллер сохраняет в стеке содержимое счетчика команд PC и загружает в него адрес соответствующего вектора прерывания. По этому адресу должна находиться команда относительного перехода к подпрограмме обработки прерывания. Кроме того последней командой подпрограммы обработки прерывания должна быть команда RETI которая обеспечивает возврат в основную программу и восстановление предварительно сохранённого счетчика команд. Младшие адреса памяти программ начиная с адреса 001 отведены под таблицу векторов...
33369. Канал SPI (синхронный последовательный порт) 38.5 KB
  Выводы используемые модулем SPI Название сигнала T90S8515 Описание SCK РВ7 Выход mster вход slve тактового сигнала MISO РВ6 Вход mster выход slve данных MOSI РВ5 Выход mster вход slve данных РВ4 Выбор ведомого устройства Спецификация интерфейса SPI предусматривает 4 режима передачи данных. Эти режимы различаются соответствием между фазой момент считывания сигнала тактового сигнала SCK его полярностью и передаваемыми данными. Задание режима передачи данных Разряд Описание CPOL Полярность тактового сигнала 0 генерируются...
33370. Система команд и способы адресации памяти данных 76.5 KB
  При прямой адресации адреса операндов содержатся непосредственно в слове команды.4 5 бит слова команды рис. Прямая адресация одного регистра общего назначения Примером команд использующих этот способ адресации являются команды работы со стеком PUSH Rr POP Rd команды инкремента INC Rd декремента DEC Rd а также некоторые команды арифметических операций.d4 5 бит слова команды рис.
33371. Схема СУ на базе ОМК АТ90S8515. 28.5 KB
  Порт РА микроконтроллером используется как мультиплексированная шина адреса данных. Поэтому для сохранения младшего байта адреса необходимо использовать регистр адреса РА. Запись в регистр осуществляется по спаду сигнала LE формируемого автоматически микроконтроллером при обращении по адресам внешнего ОЗУ.