10975

Анализ точности определения оценок коэффициентов регрессии

Лекция

Математика и математический анализ

Анализ точности определения оценок коэффициентов регрессии В силу случайного отбора элементов данных в выборку случайными являются также оценки и коэффициентов и теоретического уравнения регрессии. Их математические ожидания при выполнении предпосылок об отклон

Русский

2013-04-03

69.28 KB

35 чел.

Анализ точности определения оценок коэффициентов регрессии

В силу случайного отбора элементов данных в выборку, случайными являются также оценки  и коэффициентов и теоретического уравнения регрессии. Их математические ожидания при выполнении предпосылок об отклонении  равны соответственно . При этом оценки тем надежнее, чем меньше их разброс вокруг  и , т.е. чем меньше дисперсии  и  оценок. Очевидно, надежность полученных оценок тесно связана с дисперсией случайных отклонений . Фактически ] является дисперсией  переменной  относительно линии регрессии (дисперсией , очищенной от влияния X). Полагая все измерения равноточными, считаем, что все эти дисперсии равны между собой .

Покажем связь дисперсий коэффициентов  и  с дисперсией случайных отклонений . С этой целью представим зависимости коэффициентов  и  (формулы (11.7) и (11.8)) в виде линейных функций относительно значений зависимой переменной :

Так как   , и введя обозначение 

окончательно получим:

Аналогично:

Обозначим    , тогда окончательно получим:

Полагая, что дисперсия  постоянная и не зависит от значений , можно рассматривать  и  как некоторые постоянные. Следовательно,

Из (12.3) и (12.4) можно сделать ряд выводов.

  1.  Дисперсии  и  прямо пропорциональны дисперсии случайного отклонения .
  2.  Чем больше дисперсия независимой (объясняющей) переменной (разброс значений ), тем меньше дисперсия оценок коэффициентов.

Ввиду того, что случайные отклонения  по выборке определены быть не могут, при анализе надежности оценок коэффициентов регрессии они заменяются отклонениями  значений  переменной  от оцененной линии регрессии. Дисперсия случайных отклонений  заменяется ее несмещенной оценкой.

Тогда

В этих выражениях  – необъясненная дисперсия (мера разброса зависимой переменной относительно линии регрессии). Корень квадратный из необъясненной дисперсии, т.е. , называется стандартной ошибкой оценки (стандартной ошибкой регрессии). Стандартные отклонения случайных величин  и  называются стандартными ошибками коэффициентов регрессии.

Проверка гипотез относительно коэффициентов линейной регрессии

Эмпирическое уравнение регрессии определяется на основе конечного числа статистических данных. Поэтому коэффициенты эмпирического уравнения регрессии являются СВ, изменяющимися от выборки к выборке. При проведении статистического анализа перед исследователем зачастую возникает необходимость сравнения эмпирических коэффициентов регрессии  и  с некоторыми теоретически ожидаемыми значениями и этих коэффициентов.

Данный анализ производится в рамках статистической проверки параметрических гипотез.

Показано, что в предположении нормальности распределения  при данном значении , оценки  и являются несмещенными оценками и соответственно. Их выборочные распределения связаны с
распределением (Стьюдента), которое имеет  степени свободы.

На первом этапе анализа наиболее важной является задача установления линейной зависимости между переменными  и . С этой целью сформулируем гипотезы:

линейная зависимость отсутствует, коэффициент угла наклона прямой незначимо отличается от нуля;

линейная зависимость значительная и коэффициент угла наклона не равен нулю.

При проверке гипотезы воспользуемся  статистикой:

Аналогичным образом проверяется гипотеза о статистической значимости нулю коэффициента регрессии  (свободный член линейного уравнения равен нулю):

Интервальные оценки коэффициентов линейной регрессии

Как указывалось выше, коэффициенты регрессии  и являются нормально распределенными СВ, с соответствующими дисперсиями, т.е. . Тогда следующие статистики

имеют распределение Стьюдента с числом степеней свободы . Тогда, для построения доверительного интервала с заданной доверительной вероятностью  найдем по статистическим таблицам критические значения:

С учетом (12.10) получим:

Если разрешить неравенства в формулах (12.12) относительно неизвестных коэффициентов регрессии  и  то получим соответствующие доверительные интервалы

Которые с доверительной вероятностью  накрывают определяемые параметры (теоретические коэффициенты регрессии).

Особый интерес представляет выборочное распределение  при конкретном значении . Так как  ведет себя как СВ, распределенная по нормальному закону, для нее тоже можно построить доверительный интервал. Соответствующая статистика имеет вид:

В выражении (12.14) величина это выборочное стандартное отклонение наблюденного значения от предсказанного , равное

.  (12.15)

Т.о. формулы (12.13 – 12.15) дают возможность построить доверительные интервалы для неизвестных параметров ,  и , по оценкам  и .

Пример 1.  ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Имеется, выборка пар чисел рост студента (сантиметры), вес (масса) (килограммы).

Задание:

  1.  Определим прямую регрессию, задающую линейный прогноз средней массы студента по его росту.
  2.  Найдем также 95% доверительный интервал для средней массы студентов, имеющих рост 178 см.

Решение

По формуле (11.8) вычислим

.

По формуле (11.7) находим  .

Т.о. прямая регрессии, оценивающая среднюю массу студента по его росту, имеет вид:

Отсюда, для роста получим . Теперь для построения доверительного интервала для средней массы по оценке  вычислим

.

Теперь по формуле (12.14) Вычислим 95% доверительный интервал: