42143

ПАРНАЯ РЕГРЕССИЯ

Лабораторная работа

Информатика, кибернетика и программирование

модель вида yi = 0 1 xi i где yi – значение зависимой переменной для наблюдения i xi – значение независимой переменной для наблюдения i 0 и 1 – коэффициенты регрессии εi – значение случайной ошибки для наблюдения i n – число наблюдений. Оценки коэффициентов парной линейной регрессии и определяются методом наименьших квадратов МНК. Оценки коэффициентов уравнения регрессии полученные МНК могут обладать следующими свойствами: несмещенность состоятельность эффективность. Содержание МНК свойств оценок полученных...

Русский

2013-10-27

338.5 KB

33 чел.

Лабораторная работа №3

ПАРНАЯ РЕГРЕССИЯ

Эконометрическое исследование проводится на основе выборочных данных, которые отбираются из части всей совокупности по определенным правилам выборки и обеспечивают получение данных, характеризующих всю совокупность в целом.

Наиболее простым и распространенным предположением о взаимосвязи некоторого экономического показателя от фактора влияющего на него является линейная зависимость.

Парная линейная регрессия представляет собой линейную зависимость между двумя переменными – y и x, т.е. модель вида

yi = 0 + 1 xi + i, ,

где  yi – значение зависимой переменной для наблюдения i,

xi – значение независимой переменной для наблюдения i,

0 и 1  – коэффициенты регрессии,

εi – значение случайной ошибки для наблюдения i,

n – число наблюдений.

Оценки коэффициентов парной линейной регрессии  и  определяются методом наименьших квадратов (МНК).

Оценки коэффициентов уравнения регрессии, полученные МНК, могут обладать следующими свойствами: несмещенность, состоятельность эффективность.

МНК требует выполнения условий Гаусса–Маркова, которые гарантируют состоятельность, несмещенность и эффективность найденных оценок.

Содержание МНК, свойств оценок полученных МНК и условий Гаусса-Маркова рассмотрено в лекциях!!!

Оценка качества парной линейной регрессии проводится определением следующих критериев.

1. Стандартные ошибки оценок – средние квадратические отклонения коэффициентов регрессии от их истинных значений.

,

Чем меньше стандартная ошибка, тем точнее оценка коэффициента.

2. Доверительные интервалы коэффициентов - показывают, что истинное значение параметра с вероятностью 1- находится в данных пределах

,

где tкр – табличное (критическое) значение t-критерия Стьюдента для уровня значимости γ и числа степеней свободы n-2 (n – число наблюдений). 

При числе степеней свободы более 200

tкр = 1,645 для γ = 10%;

tкр = 1,96 для γ = 5%;

tкр = 2,576 для γ = 1%.

Чем меньше доверительный интервал относительно коэффициента, тем точнее полученная оценка.

3. Значимость коэффициентов регрессии 

Коэффициент значим, если есть достаточно высокая вероятность того, что его истинное значение отлично от нуля.

Проверяется по t-критерию Стьюдента: . Если , то коэффициент статистически значим с 1- γ уровнем доверия, иначе – незначим.

4. Коэффициент детерминации R2 показывает степень соответствия найденного уравнения фактическим данным (качество подгонки уравнения)

,

где  – теоретические значения зависимой переменой yi,  – выборочная средняя зависимой переменой yi.

R2 изменяется в пределах [0;1] и чем ближе его значение к единице, тем лучше модель согласуется с выборочными данными.

Например, если R2 =0,75, то говорят, что на 75% изменение y описывается полученным уравнением и влиянием переменной x, а 25% изменения y – следствие влияния неучтенных в уравнении регрессии факторов.

Коэффициент детерминации не используется, если в уравнении отсутствует константа 0 или его значения выходят за пределы [0;1].

5. Стандартная ошибка регрессии Se является оценкой величины квадрата ошибки, приходящейся на одну степень свободы модели

Чем меньше стандартная ошибка, тем лучше качество модели.

6. Значимость уравнения регрессии 

Уравнение значимо, если есть достаточно высокая вероятность того, что существует хотя бы один коэффициент, отличный от нуля.

Проверяется по F-критерию Фишера

.

Если F>Fкр, то уравнение статистически значимо, иначе – незначимо.

7. Средняя абсолютная процентная ошибка (ошибка аппроксимации) – показывает в процентах среднее отклонение расчетных значений зависимой переменной  от фактических значений yi 

Если A ≤ 10%, то качество подгонки уравнения считается хорошим. Чем меньше значение A, тем лучше.

Экономическая интерпретация парной линейной регрессии

Параметр  показывает, насколько изменится среднее значение Y при увеличении X на единицу.

Параметр  формально является значением Y при  X = 0. Он может не иметь экономического содержания.

Использование при моделировании логарифмов переменных

Часто при эконометрическом моделировании логарифмируют как зависимую, так и независимую переменные. Это делается для того, чтобы перейти при интерпретации коэффициентов к процентам, что с экономической точки зрения является более верным.

Основные виды логарифмических моделей:

  1.  .

Экономический смысл параметра β1: при увеличении x на единицу переменная y в среднем увеличится примерно на 100·β1%.

  1.  .

Экономический смысл параметра β1: для увеличения y на единицу необходимо увеличить x примерно на .

  1.  .

Экономический смысл параметра β1: если значение переменной x увеличить на 1%, то y увеличится на β1%.

Построение уравнения парной регрессии в EViews 5.1

Для построения уравнения парной регрессии необходимо иметь два ряда выборочных данных характеризующих значения зависимой и независимой переменных.

1. Оценка параметров модели методом наименьших квадратов

В EViews оценка линейной модели парной регрессии осуществляется двумя способами.

1) Создание объекта Equation. Для этого выбирается меню Objects / New Object…, в появившемся окне выбирается тип объекта Equation, затем OK. В появившемся окне “Equation Estimation” вкладке Specification вводится через пробелы зависимая переменная, константа (с), независимая переменная (рис. 2.1). Например, price c totsq. Здесь price – зависимая переменная, c – константа, totsq – независимая переменная.

Рис. 2.1. Окно “Equation Estimation” для оценки парной линейной регрессии

2) ввод команды ls в строке ввода формул следующим образом:

ls зависимая переменная, константа (с), независимая переменная;

например, ls price c totsq.

В результате оценки появится окно Equation (рис. 2.2).

В данном окне (рис. 2.2) поле Coefficient – полученные оценки коэффициентов. То есть для данного примера уравнение регрессии будет выглядеть следующим образом: PRICE=42.535+34.29·TOTSQ.

Рис. 2.2. Результаты оценки модели парной линейной регрессии

Для просмотра оцененного уравнения регрессии в окне “Equation” необходимо выбрать меню View / Representations. В результате появится следующее окно (рис. 2.3).

Рис. 2.3. Просмотр уравнения парной линейной регрессии

На рис. 2.3 в самой нижней строке представлено оцененное уравнение регрессии.

Для возврата к результатам оценки уравнения регрессии в окне “Equation” необходимо выбрать меню View / Estimation Output.

Для сохранения результатов оценки нажмите в окне “Equation” кнопку «Name» и введите имя сохраняемого уравнения.

2. Оценка качества парной регрессии по окну Equation (рис. 2.2):

1. Стандартные ошибки оценок – поле Std. Error;

2. Доверительные интервалы коэффициентов – определяются с использованием полей Coefficient и Std. Error, а также табличных значений t-критерия Стьюдента tкр (см. выше п. 2 теоретической части);

3. Значимость коэффициентов регрессии – поле

t-Statistic (значения t-статистик для коэффициентов) сравнивается с tкр либо поле

Prob. (вероятность того, что гипотеза о незначимости коэффициента верна) сравнивается с уровнем значимости γ: если Prob.<0.01 – коэффициент значим с надежностью 99%, если Prob.<0.05 – коэффициент значим с надежностью 95%;

4. Коэффициент детерминации R2 – поле R-squared;

5. Стандартная ошибка регрессии Se – поле S.E. of regression;

6. Значимость уравнения регрессии – поле

F-statistic (значение F-критерия Фишера для уравнения регрессии) сравнивается с табличным (критическим) значением F-критерия Фишера, либо поле

Prob(F-statistic) (вероятность того, что гипотеза о незначимости уравнения верна) сравнивается с уровнем значимости γ: если Prob.<0.01 – уравнение значимо с надежностью 99%, если Prob.<0.05 – уравнение значимо с надежностью 95%.

7. Средняя абсолютная процентная ошибка

Для определения средней абсолютной процентной ошибки в окне “Equation ” нажмите кнопку , в появившемся окне в поле Forecast name: введите имя ряда теоретических значений зависимой переменной или оставьте по умолчанию (рис. 2.4). Нажмите ОК.

Рис. 2.4. Построение ряда теоретических значений зависимой переменной

В результате в окне рабочего файла появится ряд теоретических значений зависимой переменной (pricef), а в окне “Equation ” отобразятся графики фактических и теоретических значений зависимой переменной (рис. 2.5). В таблице справа значение поля Mean Abs. Percent Error и есть значение средней абсолютной процентной ошибки (рис. 2.5).

Рис. 2.5. Определение средней абсолютной процентной ошибки

На рис. 2.5 значение средней абсолютной процентной ошибки равно А=1,62%, что является достаточно малым значением и указывает о хорошем качестве подгонки уравнения.

Чтобы проверить качество построенного уравнения регрессии можно также провести анализ фактических, теоретических значений зависимой переменной и остатков регрессии. Для этого в окне Equation (рис. 2.2) необходимо выбрать меню View / Actual,Fitted,Residual и выбрать один из пунктов:

  •  Actual, Fitted, Residual Table – таблица: факт, прогноз, остатки  плюс график остатков;
  •  Actual, Fitted, Residual Graphграфик: факт, прогноз, остатки (рис. 2.6)

Рис. 2.6. График фактических (Actual), прогнозных данных (Fitted) и остатков регрессии (Residual)

  •  Residual Graph – график остатков (рис. 2.7);

Рис. 2.7. График остатков регрессии

  •  Standardized Residual Graph – график стандартизированных остатков.

Качество уравнения считается хорошим, если графики фактических и прогнозных данных (рис. 2.6) близки, а график остатков показывает маленькие значения относительно значений зависимой переменной.

Оценка логарифмических моделей

  1.  Оценка модели :

ls log(y) c x

  1.  Оценка модели :

ls y c log(x)

  1.  Оценка модели :

ls log(y) c log(x)

Задания:

Исследуется зависимость между заработной платой, опытом человека и уровнем его образования. Предполагается линейная зависимость результирующего и влияющих признаков. Необходимо определить, какой из двух влияющих признаков является более существенным для объяснения уровня заработной платы, если можно использовать только уравнение парной регрессии.

Исходные данные по вариантам находятся в файле lab 3.xls

  1.  Проведите анализ данных и подготовьте выборку к проведению эконометрического моделирования.
  2.  Выберите один из объясняющих факторов и выполните следующие задания для одного уравнения регрессии.
  3.  По исходным данным найдите оценки коэффициентов регрессии β0 и β1, используя МНК.
  4.  Постройте в тетради доверительные интервалы для β0 и β1 с уровнем значимости 1%; 5% и 10%.
  5.  Оцените качество построенной модели.
  6.  Дайте экономическую интерпретацию коэффициентов.
  7.  Постройте линейное уравнение регрессии для второй влияющей величины. Оцените качество уравнения.
  8.  Сравните полученные модели и выберите лучшую по качеству объяснения зависимого признака.
  9.  Сохраните рабочий файл в вашем разделе под именем «фамилия студента»_3.WF1.

Дополнительное задание

  1.  Для выбранных величин постройте логарифмические модели зависимости. Оцените качество этих моделей. Сравните качество, по отношению к обычной линейной модели. Дайте экономическую интерпретацию.

  1.  

 

А также другие работы, которые могут Вас заинтересовать

21310. Технологии межсетевых экранов 202.9 KB
  Основные задачи МЭ: Ограничить доступ пользователей из внешней сети к ресурсам внутренней сети. Обычно внешней сетью является более глобальная относительно внутренней сети например Интернет относительно корпоративной сети или локальная сеть относительно ресурсов локального компьютера. В случае с Интернетом пользователями внешней сети могут быть как удаленные пользователи и партнеры так и хакеры.
21311. Туннелирование 63 KB
  Сложность современных систем такова что без правильно организованного управления они постепенно деградируют как в плане эффективности так и в плане защищенности. Системы управления должны: позволять администраторам планировать организовывать контролировать и учитывать использование информационных сервисов; давать возможность отвечать на изменение требований; обеспечивать предсказуемое поведение информационных сервисов; обеспечивать защиту информации.700 выделяется пять функциональных областей управления: управление конфигурацией...
21312. Основные определения и критерии классификации угроз 87.5 KB
  Попытка реализации угрозы называется атакой а тот кто предпринимает такую попытку злоумышленником. Потенциальные злоумышленники называются источниками угрозы. Отметим что некоторые угрозы нельзя считать следствием какихто ошибок или просчетов; они существуют в силу самой природы современных ИС. Рассмотрим наиболее распространенные угрозы которым подвержены современные информационные системы.
21313. Хакерские атаки 928 KB
  Термин хакер здесь используется в его современном значении человек взламывающий компьютеры. Надо заметить что раньше быть хакером не считалось чемто противозаконным скорее это была характеристика человека умеющего профессионально обращаться с компьютерами. В наши дни хакерами мы называем тех кто ищет пути вторжения в компьютерную систему или выводит ее из строя.
21314. USING CONTEXT DATA IN INFORMATION RETRIEVAL 21 KB
  Proposed approach can be easily included in current search engines. This approach is not a complete alternative to classic methods applied in popular search engines, but it can be treated as an additional improvement that provides more efficient way in positioning on relevant document.
21315. Понятие электронно-цифровой подписи 38 KB
  Эта проблема решается при помощи ЭЦП. ЭЦП связывает содержимое документа и идентификатор подписывающего лица делает невозможным изменение документа без нарушения подлинности подписи и подтверждает принадлежность ЭЦП автору электронного документа. Алгоритмы формирования и проверки ЭЦП реализованы в соответствии с требованиями ГОСТ Р 34. ЭЦП Sign представляет собой вычисляемую по стандартизованному алгоритму математическую функцию хэшфункцию от содержимого подписываемых данных data информации документа и закрытого секретного ключа...
21316. Юридические вопросы информационной безопасности 202.5 KB
  Независимо от способа совершения компьютерного преступления его исполнители должны быть наказаны и профессионалы работающие в сфере информационной безопасности должны уметь собирать информацию необходимую правоохранительным органам при задержании и вынесении приговора лицам несущим ответственность за это преступление. В новом законодательстве нашли отражение вопросы безопасности финансовой информации о клиентах и конфиденциальности сведений медицинского характера. Все эти проблемы требуют понимания и изучения профессионалами работающими...
21317. Состав текущих затрат, сформированный в зависимости от производственно-хозяйственных целей предприятия РГБ 195.5 KB
  Все затраты на производство и реализацию продукции (работ, услуг) должны быть документально обоснованы и иметь исключительно целевое назначение. Поскольку издержки производства и обращения являются главной составляющей при расчете прибыли организации, они участвуют в расчете налогооблагаемой прибыли...
21318. Категории атак на информацию 317.5 KB
  Существуют четыре основных категории атак: атаки доступа; атаки модификации; атаки на отказ в обслуживании; атаки на отказ от обязательств. Атаки такого рода наиболее разрушительны. Атаки нацеленные на захват информации хранящейся в электронном виде имеют одну интересную особенность: информация не похищается а копируется. Определение атаки доступа Атака доступа это попытка получения злоумышленником информации для просмотра которой у него нет разрешений.