10976

Проверка качества уравнения регрессии

Лекция

Математика и математический анализ

Проверка качества уравнения регрессии Оценим насколько хорошо модель линейной регрессии описывает данную систему наблюдений. В качестве этой оценки воспользуемся коэффициентом детерминации. Составим следующие суммы квадратов отклонений: фактических значений от...

Русский

2013-04-03

80.42 KB

44 чел.

Проверка качества уравнения регрессии

Оценим, насколько хорошо модель линейной регрессии описывает данную систему наблюдений. В качестве этой оценки воспользуемся коэффициентом детерминации.

Составим следующие суммы квадратов отклонений:

фактических значений от их среднего арифметического;

выравненных значений от их среднего арифметического фактических значений;

фактических от выравненных значений.

Можно показать, что справедливо равенство:

.      (13.1)

Действительно,

А последнее слагаемое представим:

(.

Учитывая (11.8) получим, что первая сумма равна нулю, а вторую сумму представим:

.

Коэффициент детерминации – это отношение объясненной  части вариации ко всей вариации в целом:

   (13.2)

Т.о. чем "ближе" этот коэффициент к 1, тем лучше модель описывает эмпирические данные, разумеется, если при этом модель методически правильна.

Проверка значимости (качества) уравнения регрессии производится на основе дисперсионного анализа.

Дисперсионный анализ – самостоятельный инструмент (метод) математической статистики будет подробно рассмотрен в дальнейшем. Пока же кратко рассмотрим схему дисперсионного анализа, представленную в виде таблицы.

Компоненты дисперсии

Сумма квадратов

Число степеней свободы

Дисперсия

Регрессия

Остаточная

Общая

Уравнение регрессии значимо на уровне , если фактически наблюдаемое значение статистики удовлетворяет соотношению

Здесь  критическое значение критерия Фишера – Снедекора при  и  степенях свободы; число оцениваемых параметров уравнения регрессии; число наблюдений.

В случае линейной парной регрессии  и уравнение регрессии значимо на уровне , если

Оценка остатков

Остатками называются разности наблюдаемых величин и подогнанных или прогнозируемых с помощью модели.

При анализе остатков следует учитывать ряд существенных факторов:

  1.  Если модель подобрана правильно, то остатки будут вести себя достаточно хаотично, в известном смысле они будут напоминать белый шум.
  2.  В остатках не будет систематической составляющей, резких выбросов, в чередовании их знаков не будет никаких закономерностей, остатки будут независимы друг от друга.

Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые одинаково распределенные случайные величины. Независимость остатков проверяется с помощью критерия Дарбина – Уотсона. Исследование остатков полезно начинать с изучения их графика. Он может показать наличие какой-либо зависимости, не учтенной в модели.

Поведение остатков  должно имитировать поведение ошибок . Иначе говоря, поскольку предполагается, что ошибки  — независимые в совокупности случайные величины, имеющие стандартное нормальное распределение , то ожидаем, что поведение последовательности остатков должно имитировать поведение последовательности независимых в совокупности случайных величин c распределением .

Исходя из этих предположений, проанализируем представленный реальный график (рис.1).

Рис. 1. Сравнение стандартизованных остатков с N (0,1)

Гистограмма остатков "почти" симметрична относительно нуля, т.е. количество отрицательных значений равно количеству положительных. Как и в нормальном распределении, количество малых остатков (разностей между наблюденными результатами и данными модели) велико, а большие остатки малы.

Рассмотрим еще одно графическое представление остатков (см. рис.2). Из графика остатков на нормальной вероятностной бумаге видно, что они достаточно хорошо ложатся на прямую, которая соответствует стандартному нормальному распределению.

Исходя из построенных графических результатов, можно сделать вывод о том, что предположение о нормальности распределения ошибок – достаточно корректно.

Рис. 2. График остатков на нормальной вероятностной бумаге

Критерий Дарбина – Уотсона (Durbin - Watson)

Оценивая качество уравнения регрессии, мы предполагаем, что реальная взаимосвязь переменных линейна. Отклонения от регрессионной прямой являются случайными, независимыми друг от друга величинами с нулевым математическим ожиданием и постоянной дисперсией. Если эти предположения не выполняются, то оценки коэффициентов регрессии не обладают свойствами несмещенности, эффективности и состоятельности. В этом случае анализ значимости полученных оценок будет неточным.

Статистика Дарбина—Уотсона используется для проверки гипотезы о том, что остатки построенной регрессионной модели некоррелированны (корреляции равны нулю), против альтернативы: остатки связаны авторегрессионной зависимостью (первого порядка) вида:

На практике для анализа коррелированности отклонений вместо коэффициента корреляции используют тесно с ним связанную статистику Дарбина—Уотсона, рассчитываемую по формуле

Действительно,

Здесь сделано допущение, что при больших значениях  выполняется соотношение

Тогда

Нетрудно заметить, что если , то  и . Если  то  и . Во всех других случаях .

Критические точки статистики Дарбина—Уотсона табулированы для различных . При проверке гипотезы об отсутствии автокорреляции остатков используется числовой отрезок, на котором отложены  нижняя граница статистики и верхняя граница:

Рис. 3. Статистика Дарбина—Уотсона

Проверка гипотезы проводится по схеме:

  1.  Если , то гипотеза  отклоняется, принимается  значительная положительная автокорреляция остатков;
  2.  Если , , то гипотеза  отклоняется, принимается  значительная отрицательная автокорреляция остатков;
  3.  Если , то гипотеза  об отсутствии автокорреляции остатков принимается;
  4.  Если , или , то гипотеза об отсутствии автокорреляции не может быть ни принята, ни отклонена.

Не обращаясь к таблице критических точек Дарбина—Уотсона можно воспользоваться "грубым" правилом и считать, что автокорреляция остатков отсутствует, если . Для более надежных выводов необходимо воспользоваться статистическими таблицами.


 

А также другие работы, которые могут Вас заинтересовать

1206. Структура та метрологічні характеристики інформаційно-вимірювальних каналів 45.5 KB
  Схема каналу вимірювання температури. Сумарна похибка ІВС. Максимальне допустиме відхилення температури від градуіровочних таблиць термометра опору ТСП. Середня квадратична абсолютна похибка ІВС. Середні квадратичні похибки елементів системи.
1207. Информационную систему для объекта управления Торговый дом 48.5 KB
  Цель существования объекта управления Торговый дом. Основные критерии качества реализуемых функций. Входные информационные потоки. Основные функции объекта управления Торговый дом. Описание ситуаций при помощи ядерных конструкций.
1208. Графики сменности и их применение на предприятиях нефтегазовой отрасли 145.5 KB
  Методика расчета рабочего времени. Структура нормы времени и ее взаимосвязь с нормой выработки. Организация учета и контроля выполнения действующих норм времени. Определение норматива численности операторов по обслуживанию технологических установок и проверка его на надежность обслуживания.
1209. Создание движущегося изображения 52.5 KB
  Фрагменты программы для MS-DOS. Реализация программы в среде Windows. Анализ задания и выбор алгоритма решения. Реализация программы в среде MS-DOS. Фрагменты исходных текстов программ.
1210. Программа реализующая цветное движущееся изображение: фейерверк 42 KB
  Разработать программу, реализующую цветное движущееся изображение: фейерверк. В двух вариантах: для DOS и Win9x. Графический вывод в программе для Win9x был реализован через DirectDraw.
1211. Допоможемо Лісовичку 35 KB
  Закріпити знання цифр від 1 до 5, вміння порівнювати множини. Вчити дітей думати, розв’язувати проблемні ситуації, знаходити правильну відповідь, розвивати логічне мислення, виховувати дбайливе ставлення до природи.
1212. Информационные технологии в пищевой и перерабатывающей промышленности 7.34 MB
  Основные приемы работы с проводником операционной системы Windows. Основные приемы работы с текстовым редактором MS WORD. Форматирование списков. Проверка орфографии, грамматики. Создание презентаций в среде Microsoft PowerPoint. Редактор векторной графики CorelDraw. Работа в глобальной вычислительной сети Internet.
1213. Проектирование судна грузоподъемностью 3600 тонн 4.2 MB
  Анализ условий плавания проектируемого судна. Практика мирового судостроения. Водный путь Балтика - Чёрное море. Минимальные гарантированные габариты судового хода на Волго-Балтийском водном пути (в метрах). Таблица проектных уровней по опорным водомерным постам. Характеристики гидроузлов.
1214. Математическое моделирование в экономике 5.65 MB
  Микроэкономический и макроэкономический подход в моделировании. Модели закрытой и открытой экономики. Интенсивность естественного процесса воспроизводства трудовых ресурсов. Процедура вывода основного уравнения модели. Материализованный технический прогресс в модели Солоу. Стохастическое моделирование финансовых потоков. Мониторинг динамики финансового ресурса коммерческого банка.