87525

АНАЛИЗ ТОЧНОСТИ ОЦЕНОК КОЭФФИЦИЕНТОВ РЕГРЕССИИ

Лекция

Экономическая теория и математическое моделирование

Анализ точности оценки коэффициентов регрессии. Стандартные ошибки регрессии и коэффициентов регрессии. Проверка гипотез относительно коэффициентов регрессии. Интервальные оценки коэффициентов регрессии. Показатели качества уравнения регрессии. Коэффициент детерминации. Критерий Фишера.

Русский

2015-04-21

1.25 MB

8 чел.

PAGE  117

ЛЕКЦИЯ 5

EMBED PBrush  

Рис. 5.4

ЛЕКЦИЯ 5

Анализ точности оценки коэффициентов регрессии. Стандартные ошибки регрессии и коэффициентов регрессии. Проверка гипотез относительно коэффициентов регрессии. Интервальные оценки коэффициентов регрессии. Показатели качества уравнения регрессии. Коэффициент детерминации. Критерий Фишера. Интервалы прогноза по уравнению регрессии.

  1.  АНАЛИЗ ТОЧНОСТИ ОЦЕНОК КОЭФФИЦИЕНТОВ
    РЕГРЕССИИ
    1.  Оценка дисперсии случайного отклонения s2

Проведем статистический анализ построенного уравнения регрессии, т.е. выясним насколько надёжны полученные оценки коэффициентов регрессии; как хорошо полученное уравнение регрессии описываем имеющиеся статистические данные, может быть следует изменить спецификацию модели; оценить точность прогноза, т.е. построить доверительный интервал для зависимой переменной. Для того чтобы провести такой статистический анализ модели, нужно, как мы видели в предыдущей лекции, знать закон распределения случайной величины e. При построении уравнения регрессии МНК такой информации не требовалось (в этом одно из преимуществ МНК), однако для проведения статистического анализа такая информация востребована. В дальнейшем мы будем работать в рамках нормальной классической регрессионной модели, т.е. выполняются все условия Гаусса-Маркова и, в частности, e подчиняется нормальному закону распределения. Вообще говоря, выполнимость этих условий ещё надо проверить, в данной лекции мы будем предполагать, что эти условия априори выполняются.

Сформулированные выше статистические свойства МНК-оценок коэффициентов регрессии справедливы и без предположения о нормальности случайного отклонения e. Однако, даже располагая информацией о состоятельности, несмещённости и оптимальности оценок, мы не можем решить задачи о построении доверительных интервалов для истинных значений рассматриваемых параметров, так же как и для неизвестных значений функции регрессии. Необходимой базой для решения этих задач является знание законов распределения вероятностей используемых оценок. Именно в рамках нормальной классической линейной регрессионной модели можно решить вопросы о значимости коэффициентов регрессии и построении для них доверительных интервалов, о качестве построенного уравнения регрессии в целом, о точности прогноза по этому уравнению.

В силу того, что случайные отклонения ei по выборке определены быть не могут, при анализе надежности оценок коэффициентов регрессии они заменяются отклонениями  значений yi переменной Y от оцененной линии регрессии. Не следует путать эмпирические отклонения ei с теоретическими отклонениями ei. И те и другие являются случайными величинами, однако разница состоит в том, что эмпирические отклонения, в отличие от теоретических, наблюдаемы.

Кажется вполне естественной гипотеза, что оценка s2 связана с суммой квадратов остатков регрессии . В самом деле,

,

где , . Тогда

Вычислим математическое ожидание .

.

Используя соотношение , получаем

,

.

Таким образом,

.

Отсюда следует, что

.                                           (5.34)

является несмещенной оценкой дисперсии случайного отклонения s2. Отметим, что S называется стандартной ошибкой регрессии,

Отметим, что в математической статистике для получения несмещенной оценки дисперсии случайной величины соответствующую сумму квадратов отклонений от средней делят не на число наблюдений n, на число степеней свободы nm, равное разности между числом независимых наблюдений случайной величины n и числом связей, ограничивающих свободу их измерения, т.е. число m уравнений, связывающих эти наблюдения. Поэтому в знаменателе выражения (5.34) стоит число степеней свободы n–2, т.к. две степени свободы теряются при определении двух параметров прямой из системы нормальных уравнений.

  1. Проверка гипотез относительно коэффициентов
    регрессии

Эмпирическое уравнение регрессии определяется на основе конечного числа статистических данных. Поэтому коэффициенты эмпирического уравнения регрессии являются случайными величинами, изменяющимися от выборки к выборке. Наиболее важной на начальном этапе статистического анализа построенной модели является задача установления значимости коэффициентов регрессии. Данный анализ осуществляется по схеме статистической проверки гипотез.

Можно показать, что в случае классической нормальной линейной регрессионной модели оценка дисперсии S2 случайных отклонений является независимой от b0 и b1 случайной величиной. Это позволяет построить статистики для проверки статистических гипотез.

В предыдущей лекции мы получили дисперсии оценок b0 и b1 коэффициентов регрессии в том случае, если s2 известно. На практике, как правило, дисперсия отклонений s2 неизвестна и оценивается по наблюдениям одновременно с коэффициентами регрессии b0 и b1. В этом случае вместо дисперсий оценок b0 и b1 мы можем получить лишь оценки дисперсий b0 и b1, заменив s2 на S2. Тогда

,                                              (5.35)

,                             (5.36)

.                               (5.37)

Величины  и  называются стандартными ошибками коэффициентов регрессии коэффициентов b0 и b1, соответственно.

Для проверки гипотезы H0:b1=b1 при альтернативной гипотезе H1:b1b1 используется статистика

,                                                    (5.38)

которая при справедливости H0 имеет распределение Стьюдента с числом степеней свободы k=n–2. Следовательно, H0 отклоняется на основании данного критерия, если

,                                  (5.39)

где a – требуемый уровень значимости. При невыполнении (5.39) считается, что нет оснований для отклонения H0.

Наиболее важной на начальном этапе статистического анализа построенной модели является проверка гипотезы H0:b1=0 при альтернативной гипотезе H1:b10. Гипотеза в такой постановке называется гипотезой о статистической значимости коэффициента регрессии. При этом, если гипотеза H0 принимается, то есть все основания считать, что величина Y не зависит от X. В этом случае говорят, что коэффициент b1 статистически незначим. При отклонении гипотезы H0 коэффициент b1 считается статистически значимым, что указывает на наличие линейной зависимости между Y и X. В данном случае рассматривается двусторонняя критическая область, т.к. важным является именно отличие от нуля коэффициента регрессии, а он может быть как положительным, так и отрицательным.

Поскольку полагается, b1=0, то формальная значимость оцененного коэффициента регрессии b1 проверяется при помощи критерия

,                                                    (5.40)

который называется t-статистикой (t-тестом).

По аналогичной схеме на основе t-статистики проверяется гипотеза о статистической значимости коэффициента b0:

.                                                    (5.41)

Отметим, что для парной регрессии более важным является анализ статистической значимости коэффициента b1, т.к. именно в нем скрыто влияние объясняющей переменной X на зависимую переменную Y.

Отметим также, что значения критериев (5.40) и (5.41) приводят всеми компьютерными пакетами в результатах регрессии. В учебниках и монографиях по эконометрике наблюдаемые значения t-критерия Стьюдента (или стандартные ошибки) указываются вместе с уравнением регрессии под соответствующим коэффициентом:

     или       .

Пример 5.3. Проверить значимость коэффициентов регрессии, полученных в
примере 5.1 (см. лекцию 4).

Решение. По данным таблицы 5.2 найдем оценку дисперсии случайного отклонения, т.е. квадрат стандартной ошибки регрессии:

.

Тогда

и .

Следовательно, наблюдаемое значение t-критерия Стьюдента коэффициента b1 равно

.

Критическое значение t-критерия Стьюдента на уровне значимости a=0,05 равно

.

Поскольку , то нулевая гипотеза отвергается в пользу альтернативной при выбранном уровне значимости. Это подтверждает статистическую значимость коэффициента регрессии b1.

Аналогично проверяется статистическая значимость коэффициента b0:

    и     .

Тогда наблюдаемое значение t-критерия Стьюдента коэффициента b0 будет равно

.

Поскольку , то нет оснований отклонять гипотезу о статистической незначимости коэффициента b0.

Таким образом, результаты анализа можно представить в виде

    или     .

  1.  Интервальные оценка коэффициентов регрессии

Предположение о нормальном распределении случайных отклонений ei с нулевым математическим ожиданием и постоянной дисперсией, т.е. , позволяет получать не только наилучшие линейные несмещенные точечные оценки (BLUE-оценки) b0 и b1 коэффициентов b0 и b1 коэффициентов линейного уравнения регрессии, но и находить их интервальные оценки.

Здесь исходят из того, что случайные величины b0 и b1 при указанных выше предположениях имеют нормальные распределения:

,     .

Тогда выражения

    и     

будут иметь стандартное нормальное распределение. Однако в выражениях для b0 и b1 дисперсия  заменяется ее оценкой S2. Поэтому выражения

    и                                        (5.42)

будут иметь t-распределение Стьюдента с k=n–2 степенями свободы.

Для построения доверительных интервалов с помощью таблиц критических точек распределения Стьюдента по доверительной вероятности g=1–a и числу степеней свободы k=n–2 определяют критическое значение , удовлетворяющее условию

.                                       (5.43)

Подставив сюда каждую из формул (5.36), получим

;     .

После преобразований выражений, стоящих в скобках, имеем:

,

.

Таким образом, доверительные интервалы для коэффициентов регрессии будут иметь следующий вид

,        ,       (5.44)

которые с вероятностью g=1–a накрывают определяемые параметры b0 и b1.

Пример 5.4. Найти интервальные оценки для примера 5.1, 5.3 с уровнем надёжности a=0,05.

Решение. В примерах 5.1-5.2 было найдено:

,     ,     ,     ,      .

Тогда по формулам (5.46) находим для коэффициента b0:

;     .

Таким образом, с вероятностью 0,95 коэффициент регрессии b0 принимает значения из интервала . Поскольку ноль также попадает в этот интервал, то, как и следовало ожидать, коэффициент b0 не является значимым.

Для коэффициента b1 получаем следующие результаты:

;     .

Таким образом, с вероятностью 0,95 коэффициент регрессии b1 принимает значения из интервала . Поскольку D1 значительно меньше b1, то точность прогноза, связанного с этим коэффициентом будет достаточно высокой.

  1. ПОКАЗАТЕЛИ КАЧЕСТВА УРАВНЕНИЯ РЕГРЕССИИ
    1.  Коэффициент детерминации

После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии, которое оценивается по тому, как хорошо эмпирическое уравнение регрессии согласуется со статистическими данными. Другими словами, насколько широко рассеяны точки наблюдений относительно линии регрессии. Очевидно, если все точки лежат на построенной прямой, то регрессия Y на X «идеально» объясняет поведение зависимой переменной. В реальной жизни такая ситуация практически не встречается обычно поведение Y лишь частично объясняется влиянием переменной X.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. В математической статистике дисперсионный анализ рассматривается как самостоятельный метод статистического анализа. Здесь же он применяется как вспомогательное средство для изучения качества регрессионной модели.

Рассмотрим вариацию (разброс) значений yi вокруг среднего значения . Разобьём эту вариацию на две части: объяснённую регрессионным уравнением и не объяснённую (т.е. связанную с ошибками ei). Тогда получим

      (5.45)

Покажем, что третье слагаемое будет равно нулю:

.

Здесь учтено свойства ошибки ei:      и     .

Таким образом, справедливо следующее равенство

,                                                (5.46)

где  – общая сумма квадратов отклонений зависимой переменной от средней, а  и  – соответственно, сумма квадратов, обусловленная регрессией, и сумма квадратов, характеризующая влияние неучтенных факторов.

Замечание 1. В англоязычной литературе Q, QR, Qe часто обозначаются соответственно TSS (total sum of squares), RSS (regression sum of squares) и ESS (error sum of squares), хотя эти обозначения не являются общепринятыми.

Замечание 2. Равенство (5.46) верно только в том случае, когда константа b0 включена в число объясняющих параметров регрессии.

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле

.                                         (5.47)

Заметим, что второе равенство в (5.47) верно лишь в том случае, если верно (5.46), т.е. когда константа включена в уравнение регрессии. Только в этом случае имеет смысл рассматривать статистику R2.

В силу определения R2 принимает значения между 0 и 1, . Чем ближе R2 к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R2=1, то эмпирические точки (xi,yi) лежат на линии регрессии и между переменными Y и X существует линейная функциональная зависимость. Если R2=0, то вариация зависимой переменной полностью обусловлена воздействием неучтённых в модели переменных, и линии регрессии параллельна оси абсцисс. Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

Не следует однако абсолютизировать высокие значения R2, т.к. коэффициент детерминации может быть близким к единице в силу того, что обе исследуемые величины X и Y имеют выраженный временной тренд, не связанный с их причинно-следственной зависимостью. В экономике обычно такой тренд имеют объёмные показатели (ВНП, ВВП, доход, потребление). А темповые и относительные показатели (темпы роста, производительность, ставка процента) не всегда имеют тренд. Поэтому при оценивании регрессий по временным рядам объёмных показателей (например, зависимость потребления от дохода или спроса от цены) величина R2 может быть весьма близкой к единице. Но это не обязательно свидетельствует о наличии значимой линейной связи между исследуемыми показателями, а может лишь означать лишь то, что поведение зависимой переменной нельзя описать уравнением .

Если уравнение регрессии строится по перекрестным данным, а не по временным рядам, то коэффициент детерминации R2 для него обычно не превышает 0,6-0,7. Аналогичные значения R2 обычно получаются и для регрессий по временным рядам, если они не имеют выраженного тренда (темп инфляции от уровня безработицы, темпы прироста выпуска от темпов прироста затрат ресурсов и т.п.).

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, т.е. R2=r2.

Действительно,

.

Пример 5.5. По данным примеров 5.1-5.4 рассчитать коэффициент детерминации R2.

Решение. По формуле (5.71) находим

.

Столь высокое значение коэффициента детерминации свидетельствует о высоком общем качестве построенного уравнения регрессии. Отметим, что коэффициент детерминации можно было вычислить и иначе: .

  1.  Проверка общего качества уравнения регрессии:
    F-тест

Любая сумма квадратов отклонений связана с числом степеней свободы (dfdegrees of freedom), т.е. с числом независимого варьирования переменной. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных  требуется для образования данной суммы квадратов. Так, для общей суммы квадратов  требуется (n–1) независимых отклонений, ибо по совокупности из n единиц после расчета среднего значения свободно варьируются лишь (n–1) число отклонений. Это связано с тем, что , поэтому если известны (n–1) отклонений, то n-ое отклонение может быть уже вычислено.

При расчёте объяснённой или факторной суммы квадратов используются теоретические (расчётные) значения результативного признака , найденные по линии регрессии. В линейной регрессии , следовательно, при заданном объёме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только одной константы коэффициента регрессии b1, то данная сумма квадратов имеет одну степень свободы. К этому же выводу можно прийти и по другому. Величина  определяется по уравнению линейной регрессии: . Отсюда видно, что при заданном наборе переменных x и y расчётное значение  является в линейной регрессии функцией только одного параметра – коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равно 1.

Число степеней свободы остаточной суммы квадратов  для линейной регрессии, как мы видели, равна (n–2). Между числом степеней свободы общей, факторной и остаточной суммами квадратов существует взаимосвязь. Число степеней свободы для общей суммы квадратов равно сумме степеней свободы для факторной и остаточной сумм квадратов: .

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

,     ,      .

Определение дисперсии на одну степень свободы приводит дисперсии к сравниваемому виду.

При отсутствии линейной зависимости между зависимой и объясняющей переменными случайные величины  и  имеют c2-распределение соответственно с 1 и n–2 степенями свободы. Сопоставляя факторную и остаточную дисперсии в расчёте на одну степень свободы, получим случайную величину, описывающуюся распределением Фишера с теми же степенями свободы:

.                                    (5.48)

Полученную F-статистику можно использовать для проверки нулевой гипотезы . Для линейной регрессии критерий (5.48) можно записать в виде

,                                     (5.49)

поэтому нулевой гипотезе можно придать вид . Таким образом, значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с её средней.

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга, т.е. . Эмпирическое уравнение регрессии значимо на уровне a, если фактически наблюдаемое значение статистики

,

где  – табличное значение F-критерия Фишера, определённое на уровне значимости a при k1=1 и k2=n–2 степенях свободы.

Величина F-критерия связана с коэффициентом детерминации R2. Факторную сумму квадратов отклонений можно представить как

,

а остаточную сумму квадратов – как

.

Тогда значение F-критерия можно выразить как

.                                            (5.50)

Таким образом, F-критерий является также критерием для проверки значимости коэффициента детерминации R2.

  1.  Проверка общего качества уравнения регрессии:
    t-тест

Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значимость коэффициента регрессии b1, который, как уже отметалось, имеет распределение Стьюдента с n–2 степенями свободы.

Уравнение парной линейной регрессии или коэффициент регрессии b1 значимы на уровне a (иначе – гипотеза H0 о равенстве коэффициента b1нулю, т.е. , отвергается), если фактически наблюдаемое значение статистики

                                    (5.51)

больше критического (по абсолютной величине), т.е. .

Если сравнить (5.50) и (5.52), то можно заметить, что

.                                                      (5.52)

Следовательно, для парной линейной модели оба способа проверки значимости с использованием F- и t-критериев равносильны.

Пример 5.6. По данным примеров 5.1-5.5 проверить значимость построенного уравнения регрессии.

Решение. По формуле (5.50) находим

.

На уровне значимости a=0,05 и числе степеней свободы k1=1 и k2=10 получим

.

Поскольку Fнабл>Fкрит, то можно сделать вывод о значимости уравнения регрессии на уровне значимости 0,05. Отметим также, что для коэффициента b1 t-критерий равен

.

Как легко заметить, что для данного случая .

  1. ИНТЕРВАЛЫ ПРОГНОЗА ПО УРАВНЕНИЮ РЕГРЕССИИ

Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной (предсказание среднего значения), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения).

Замечание. Некоторые авторы различают такие понятия, как прогнозирование и предсказание. Если значение объясняющей переменной X известно точно, то оценивание зависимой переменной Y называется предсказанием. Если же значение объясняющей переменной X неизвестно точно, то говорят, что делается прогноз значения Y. Такая ситуация характерна для временных рядов. В данном случае мы не будем различать предсказание и прогноз.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости.

а) Предсказание среднего значения. Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание . В данном случае значение  является точечной оценкой . Тогда естественно возникает вопрос, как сильно может отклониться модельное значение , рассчитанное по эмпирическому уравнению, от соответствующего условного математического ожидания. Ответ на этот вопрос даётся на основе интервальных оценок, построенных с заданным уровнем значимости a при любом конкретном значении xp объясняющей переменной.

Запишем эмпирическое уравнение регрессии в виде

.

Здесь выделены две независимые составляющие: средняя  и приращение . Отсюда вытекает, что дисперсия  будет равна

.                                 (5.53)

Из теории выборки известно, что

.

Используя в качестве оценки s2 остаточную дисперсию S2, получим

.                                                 (5.54)

Дисперсия коэффициента регрессии, как уже было показано

.                                              (5.55)

Подставляя найденные дисперсии в (5.41), получим

.                          (5.56)

Таким образом, формула расчета стандартной ошибки предсказываемого по линии регрессии среднего значения Y имеет вид

.                                       (5.57)

Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере удаления от  в любом направлении. Иными словами, больше разность между  и , тем больше ошибка  с которой предсказывается среднее значение y для заданного значения xp. Можно ожидать наилучшие результаты прогноза, если значения xp находятся в центре области наблюдений X и нельзя ожидать хороших результатов прогноза по мере удаления  от .

Случайная величина

                                      (5.58)

имеет распределение Стьюдента с числом степеней свободы n=n–2 (в рамках нормальной классической модели). Следовательно, по таблице критических точек распределения Стьюдента по требуемому уровню значимости a и числу степеней свободы n=n–2 можно определить критическую точку , удовлетворяющую условию

.

С учетом (5.46) имеем:

.

Отсюда, после некоторых алгебраических преобразований, получим, что доверительный интервал для  имеет вид:

,                                           (5.59)

где предельная ошибка Dp имеет вид

.                                (5.60)

Из формул (5.57) и (5.60) видно, что величина (длина) доверительного интервала зависит от значения объясняющей переменной xp: при  она минимальна, а по мере удаления xp от  величина доверительного интервала увеличивается (рис. 5.4). Таким образом, прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение xp объясняющей переменной X не выходит за диапазон ее значений по выборке (причем более точный,  чем ближе xp к ). Другими словами, экстраполяция кривой регрессии, т.е. её использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям.

б) Предсказание индивидуальных значений зависимой переменной. На практике иногда более важно знать дисперсию Y, чем ее средние значения или доверительные интервалы для условных математических ожиданий. Это связано с тем, что фактические значения Y варьируют около среднего значения . Индивидуальные значения Y могут отклоняться от  на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S2. Поэтому ошибка предсказываемого индивидуального значения Y должны включать не только стандартную ошибку , но и случайную ошибку S. Это позволяет определять допустимые границы для конкретного значения Y.

Пусть нас интересует некоторое возможное значение y0 переменной Y при определенном значении xp объясняющей переменной X. Предсказанное по уравнению регрессии значение Y при X=xp составляет yp. Если рассматривать значение y0 как случайную величину Y0, а yp – как случайную величину Yp, то можно отметить, что

,

.

Случайные величины Y0 и Yp являются независимыми, а следовательно, случайная величина U= Y0Yp имеет нормальное распределение с

    и     .                 (5.61)

Используя в качестве s2 остаточную дисперсию S2, получим формулу расчета стандартной ошибки предсказываемого по линии регрессии индивидуального значения Y:

.                                 (5.63)

Случайная величина

                                  (5.64)

имеет распределение Стьюдента с числом степеней свободы k=n–2. На основании этого можно построить доверительный интервал для индивидуальных значений Yp:

,                                           (5.65)

где предельная ошибка Du имеет вид

.                                (5.66)

Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (см. рис. 5.4).

Пример 5.5. По данным примеров 5.1-5.3 рассчитать 95%-ый доверительный интервал для условного математического ожидания и индивидуального значения при xp=160.

Решение. В примере 5.1 было найдено . Воспользовавшись формулой (5.48), найдем предельную ошибку для условного математического ожидания

.

Тогда доверительный интервал для среднего значения  на уровне значимости a=0,05 будет иметь вид

(149,8; 156,6).

Другими словами, среднее потребление при доходе 160 с вероятностью 0,95 будет находиться в интервале (149,8; 156,6).

Рассчитаем границы интервала, в котором будет сосредоточено не менее 95% возможных объёмов потребления при уровне дохода xp=160, т.е. доверительный интервал для индивидуального значения . Найдем предельную ошибку для индивидуального значения

.

Тогда интервал, в котором будут находиться , по крайней мере, 95% индивидуальных объёмов потребления при доходе xp=160, имеет вид

(147,8; 158,6).

Нетрудно заметить, что он включает в себя доверительный интервал для условного среднего потребления.

  1. ПРИМЕРЫ

Пример 5.65. По территориям региона приводятся данные за 199X г. (таб. 1.1).

Табл. 5.3

Номер
региона

Среднедушевой прожиточный минимум в день одного трудоспособного, руб., x

Среднедневная заработная плата, руб., y

1

78

133

2

82

148

3

87

134

4

79

154

5

89

162

6

106

195

7

67

139

8

88

158

9

73

152

10

87

162

11

76

159

12

115

173

Задания:

1. Рассчитать линейный коэффициент парной корреляции, оценить его статистическую значимость и построить для него доверительный интервал с уровнем значимости a=0,05.

2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.

3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F-критерия Фишера.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Сделать выводы.

Решение

1. Для определения степени тесноты связи обычно используют коэффициент корреляции:

,

где ,  – выборочные дисперсии переменных x и y. Для расчета коэффициента корреляции строим расчетную таблицу (табл. 5.4):

Таблица 5.4

x

y

xy

x2

y2

e2

1

78

133

10374

6084

17689

148,77

-15,77

248,70

2

82

148

12136

6724

21904

152,45

-4,45

19,82

3

87

134

11658

7569

17956

157,05

-23,05

531,48

4

79

154

12166

6241

23716

149,69

4,31

18,57

5

89

162

14418

7921

26244

158,89

3,11

9,64

6

106

195

20670

11236

38025

174,54

20,46

418,52

7

67

139

9313

4489

19321

138,65

0,35

0,13

8

88

158

13904

7744

24964

157,97

0,03

0,00

9

73

152

11096

5329

23104

144,17

7,83

61,34

10

87

162

14094

7569

26244

157,05

4,95

24,46

11

76

159

12084

5776

25281

146,93

12,07

145,70

12

115

173

19895

13225

29929

182,83

-9,83

96,55

Итого

1027

1869

161808

89907

294377

0

1574,92

Среднее значение

85,58

155,75

13484,00

7492,25

24531,42

По данным таблицы находим:

, ,       , ,

,    ,       ,    ,

,        .

Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость.

Для оценки статистической значимости коэффициента корреляции рассчитаем двухсторонний t-критерий Стьюдента:

,

который имеет распределение Стьюдента с k=n–2 и уровнем значимости a. В нашем случае

      и        .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

Для значимого коэффициента можно построить доверительный интервал, который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n<30), используют z-преобразование Фишера:

Распределение z уже при небольших n является приближенным нормальным распределением с математическим ожиданием  и дисперсией . Поэтому вначале строят доверительный интервал для M[z], а затем делают обратное z-преобразование. Применяя z-преобразование для найденного коэффициента корреляции, получим

.

Доверительный интервал для M(z) будет иметь вид

,

где tg находится с помощью функции Лапласа F(tg)=g/2. Для g=0,95 имеем tg=1,96. Тогда

,

или . Обратное z-преобразование осуществляется по формуле

В результате находим

.

В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции r.

2. Таким образом, между переменными x и y имеет существенная корреляционная зависимость. Будем считать, что эта зависимость является линейной. Модель парной линейной регрессии имеет вид

,

где y – зависимая переменная (результативный признак), x – независимая (объясняющая) переменная, e – случайные отклонения, b0 и b1 – параметры регрессии. По выборке ограниченного объема можно построить эмпирическое уравнение регрессии:

,

где b0 и b1 – эмпирические коэффициенты регрессии. Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических  была минимальной:

,

где  – отклонения yi от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных  является равенство нулю ее частных производных по неизвестным параметрам b0 и b1. В результате получаем систему нормальных уравнений:

Решая эту систему, найдем

,                .

По данным таблицы находим

;

.

Получено уравнение регрессии:

.                                                 (5.78)

Параметр b1 называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением среднедушевого минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Рис. 5.5

Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с проверки статистической значимости каждого коэффициента регрессии. Найдем стандартную ошибку регрессии:

  и   .

Значимость коэффициентов регрессии осуществляется с помощью t-критерия Стьюдента:

,

где  – стандартная ошибка коэффициента регрессии bi.

Для коэффициента b1 оценку дисперсии можно получить по формуле:

.

В нашем случае

Следовательно,

.

Отметим, что для парной линейной регрессии t-критерий для коэффициента корреляции rxy и коэффициента регрессии b1 совпадают.

Для коэффициента b0 оценку дисперсии можно получить по формуле . Тогда

Критическое значение критерия было уже найдено . Поскольку  и , то коэффициенты регрессии значимо отличаются от нуля. Следовательно, для них можно построить доверительные интервалы.

Определим предельные ошибки для каждого показателя: ,       , где . В нашем случае

,       .

В результате, получаем следующие доверительные интервалы для коэффициентов регрессии:

    и     ,

или

    и     .

3. Оценку качества построенной модели дает коэффициент детерминации.

Коэффициент детерминации для линейной модели равен квадрата коэффициента корреляции

Это означает, что 52% вариации заработной платы (y) объясняется вариацией фактора x – среднедушевого прожиточного минимума.

Значимость уравнения регрессии проверяется при помощи F-критерия Фишера, для линейной парной регрессии он будет иметь вид

,

где F подчиняется распределению Фишера с уровнем значимости a и степенями свободы k1=1 и k2=n–2. В нашем случае

.

Поскольку критическое значение критерия равно

и , то признается статистическая значимость построенного уравнения регрессии. Отметим, что для линейной модели F- и t-критерии связаны равенством , что можно использовать для проверки расчётов.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Прогнозное значение yp определяется путем подстановки в уравнение регрессии (1.16) соответствующего (прогнозного) значения xp. В нашем случае прогнозное значение прожиточного минимума составит: , тогда прогнозное значение прожиточного минимума составит:

Средняя стандартная ошибка прогноза вычисляется по формуле:

.

Поскольку , то

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

.

Доверительный интервал прогноза

,   или   .

Выполненный прогноз среднемесячной заработной платы оказался надежным (g=0,95) и относительно точным, т.к. относительная точность прогноза составила 29,4/161,2100%=18,2%.


ЛЕКЦИЯ 5                                                                                                                                                         99

§5.2. Анализ точности оценок коэффициентов регрессии                                                                         99

5.2.1. Оценка дисперсии случайного отклонения                                                                           99

5.2.2. Проверка гипотез относительно коэффициентов  регрессии                                         100

5.2.3. Интервальные оценка коэффициентов регрессии                                                            103

§5.3. Показатели качества уравнения регрессии                                                                                       104

5.3.1. Коэффициент детерминации                                                                                              104

5.3.2. Проверка общего качества уравнения регрессии:  F-тест                                                106

5.3.3. Проверка общего качества уравнения регрессии:  t-тест                                                  108

§5.4. Интервалы прогноза по уравнению регрессии                                                                                108

§5.5. Примеры                                                                                                                                                 112

PAGE  116

Глава 5. ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ


 

А также другие работы, которые могут Вас заинтересовать

68273. СУБСТАНТИВНІ КОМПОЗИТИ ЗІ ЗНАЧЕННЯМ ПРОЦЕСУАЛЬНОСТІ В РОСІЙСЬКІЙ МОВІ 190.5 KB
  Мета дослідження полягає в системному описі формальної та ономасіологічної структури іменниківкомпозитів зі значенням процесуальності в російській мові. Для досягнення зазначеної мети необхідним є вирішення наступних завдань: визначити можливі структурні типи композитопобудови іменників...
68274. ФІНАНСОВО-ПРАВОВЕ РЕГУЛЮВАННЯ РИНКУ ЦІННИХ ПАПЕРІВ В УКРАЇНІ 186 KB
  Ринок цінних паперів будучи важливим і специфічним елементом фінансового ринку здійснює вагомий вплив на економічний розвиток країни. На цьому ринку держава органи місцевого самоврядування суб’єкти господарювання мають можливість акумулювати фінансові ресурси за допомогою цінних...
68275. ТВОРЧІСТЬ Я. П. ДЕ БАЛЬМЕНА ТА РОСІЙСЬКА РОМАНТИЧНА ПРОЗА ПЕРШОЇ ПОЛОВИНИ XIX СТОЛІТТЯ 143 KB
  Мета роботи – проаналізувати із сучасних наукових засад літературну спадщину Я. П. де Бальмена та визначити її ідейно-художню значущість. Досягнення цієї мети зумовило необхідність розв’язання таких завдань: узагальнити окремі біографічні відомості про Я. П. де Бальмена й систематизувати інформацію...
68276. ЕВОЛЮЦІЯ СВІТОГЛЯДУ ЛЮДИНИ: СОЦІАЛЬНО–ФІЛОСОФСЬКИЙ АНАЛІЗ 156 KB
  Аналіз еволюції світоглядних орієнтацій засвідчує мінливість рухливість змінюваність світогляду людини виявляє його сумарний вектор у різні соціокультурні епохи допомагає з’ясувати тенденції розвитку сучасного світоглядного комплексу і запропонувати механізм його формування.
68277. ГРА ЯК ЗАСІБ РОЗВИТКУ ПІЗНАВАЛЬНОЇ ДІЯЛЬНОСТІ У СЛАБОЗОРИХ ДІТЕЙ 144.5 KB
  У Національній доктрині розвитку освіти в Україні у XXI столітті наголошується на необхідності посилення уваги на освіті дітей з відхиленнями психофізичного розвитку забезпечення їхнього повноцінного життя соціального захисту створення умов для належної реабілітації.
68278. УПРАВЛІННЯ ЕКОНОМІЧНИМ ПОТЕНЦІАЛОМ ПІДПРИЄМСТВ ЗАЛІЗНИЧНОГО ТРАНСПОРТНОГО МАШИНОБУДУВАННЯ 719 KB
  Стабілізація вітчизняної економіки та поступове збільшення економічного потенціалу держави безпосередньо пов’язані зі стабільним розвитком промисловості. Недосконала законодавча база, непропорційна система оподаткування, нерозвинена виробнича інфраструктура ззовні, а також неефективне...
68279. Методи та ярусно-паралельні моделі прискореної обробки напівтонових зображень 517 KB
  Метою дисертаційної роботи є розробка моделей і методів інтелектуальної прискореної обробки напівтонових зображень які здатні аналізувати інформацію про розмір зображення та завантаженість потоків для рівномірного адаптивного розподілення завдань по потоках.
68280. Формування та механізми функціонування партійної системи Європейського Союзу 185 KB
  Прямим наслідком цього є поява та функціонування наднаціональної політичної системи Європейського Союзу ЄС яка тісно пов’язана з національними політичними системи основним джерелом її легітимності. Політичні партії є одними з важливих елементів політичної системи демократичного суспільства...
68281. ЕВОЛЮЦІЯ ПОЛІТИКИ ТАЙВАНЮ ЩОДО КНР 151.5 KB
  Зростання економічної й політичної могутності Китайської Народної Республіки КНР безперечно є однією з найважливіших ознак сучасних міжнародних відносин. Феномен зростання Китаю зокрема спричинює зміни в політиці Тайваню щодо КНР адже для Китайської Республіки КР на Тайвані політика щодо зростаючого...