10976

Проверка качества уравнения регрессии

Лекция

Математика и математический анализ

Проверка качества уравнения регрессии Оценим насколько хорошо модель линейной регрессии описывает данную систему наблюдений. В качестве этой оценки воспользуемся коэффициентом детерминации. Составим следующие суммы квадратов отклонений: фактических значений от...

Русский

2013-04-03

80.42 KB

45 чел.

Проверка качества уравнения регрессии

Оценим, насколько хорошо модель линейной регрессии описывает данную систему наблюдений. В качестве этой оценки воспользуемся коэффициентом детерминации.

Составим следующие суммы квадратов отклонений:

фактических значений от их среднего арифметического;

выравненных значений от их среднего арифметического фактических значений;

фактических от выравненных значений.

Можно показать, что справедливо равенство:

.      (13.1)

Действительно,

А последнее слагаемое представим:

(.

Учитывая (11.8) получим, что первая сумма равна нулю, а вторую сумму представим:

.

Коэффициент детерминации – это отношение объясненной  части вариации ко всей вариации в целом:

   (13.2)

Т.о. чем "ближе" этот коэффициент к 1, тем лучше модель описывает эмпирические данные, разумеется, если при этом модель методически правильна.

Проверка значимости (качества) уравнения регрессии производится на основе дисперсионного анализа.

Дисперсионный анализ – самостоятельный инструмент (метод) математической статистики будет подробно рассмотрен в дальнейшем. Пока же кратко рассмотрим схему дисперсионного анализа, представленную в виде таблицы.

Компоненты дисперсии

Сумма квадратов

Число степеней свободы

Дисперсия

Регрессия

Остаточная

Общая

Уравнение регрессии значимо на уровне , если фактически наблюдаемое значение статистики удовлетворяет соотношению

Здесь  критическое значение критерия Фишера – Снедекора при  и  степенях свободы; число оцениваемых параметров уравнения регрессии; число наблюдений.

В случае линейной парной регрессии  и уравнение регрессии значимо на уровне , если

Оценка остатков

Остатками называются разности наблюдаемых величин и подогнанных или прогнозируемых с помощью модели.

При анализе остатков следует учитывать ряд существенных факторов:

  1.  Если модель подобрана правильно, то остатки будут вести себя достаточно хаотично, в известном смысле они будут напоминать белый шум.
  2.  В остатках не будет систематической составляющей, резких выбросов, в чередовании их знаков не будет никаких закономерностей, остатки будут независимы друг от друга.

Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые одинаково распределенные случайные величины. Независимость остатков проверяется с помощью критерия Дарбина – Уотсона. Исследование остатков полезно начинать с изучения их графика. Он может показать наличие какой-либо зависимости, не учтенной в модели.

Поведение остатков  должно имитировать поведение ошибок . Иначе говоря, поскольку предполагается, что ошибки  — независимые в совокупности случайные величины, имеющие стандартное нормальное распределение , то ожидаем, что поведение последовательности остатков должно имитировать поведение последовательности независимых в совокупности случайных величин c распределением .

Исходя из этих предположений, проанализируем представленный реальный график (рис.1).

Рис. 1. Сравнение стандартизованных остатков с N (0,1)

Гистограмма остатков "почти" симметрична относительно нуля, т.е. количество отрицательных значений равно количеству положительных. Как и в нормальном распределении, количество малых остатков (разностей между наблюденными результатами и данными модели) велико, а большие остатки малы.

Рассмотрим еще одно графическое представление остатков (см. рис.2). Из графика остатков на нормальной вероятностной бумаге видно, что они достаточно хорошо ложатся на прямую, которая соответствует стандартному нормальному распределению.

Исходя из построенных графических результатов, можно сделать вывод о том, что предположение о нормальности распределения ошибок – достаточно корректно.

Рис. 2. График остатков на нормальной вероятностной бумаге

Критерий Дарбина – Уотсона (Durbin - Watson)

Оценивая качество уравнения регрессии, мы предполагаем, что реальная взаимосвязь переменных линейна. Отклонения от регрессионной прямой являются случайными, независимыми друг от друга величинами с нулевым математическим ожиданием и постоянной дисперсией. Если эти предположения не выполняются, то оценки коэффициентов регрессии не обладают свойствами несмещенности, эффективности и состоятельности. В этом случае анализ значимости полученных оценок будет неточным.

Статистика Дарбина—Уотсона используется для проверки гипотезы о том, что остатки построенной регрессионной модели некоррелированны (корреляции равны нулю), против альтернативы: остатки связаны авторегрессионной зависимостью (первого порядка) вида:

На практике для анализа коррелированности отклонений вместо коэффициента корреляции используют тесно с ним связанную статистику Дарбина—Уотсона, рассчитываемую по формуле

Действительно,

Здесь сделано допущение, что при больших значениях  выполняется соотношение

Тогда

Нетрудно заметить, что если , то  и . Если  то  и . Во всех других случаях .

Критические точки статистики Дарбина—Уотсона табулированы для различных . При проверке гипотезы об отсутствии автокорреляции остатков используется числовой отрезок, на котором отложены  нижняя граница статистики и верхняя граница:

Рис. 3. Статистика Дарбина—Уотсона

Проверка гипотезы проводится по схеме:

  1.  Если , то гипотеза  отклоняется, принимается  значительная положительная автокорреляция остатков;
  2.  Если , , то гипотеза  отклоняется, принимается  значительная отрицательная автокорреляция остатков;
  3.  Если , то гипотеза  об отсутствии автокорреляции остатков принимается;
  4.  Если , или , то гипотеза об отсутствии автокорреляции не может быть ни принята, ни отклонена.

Не обращаясь к таблице критических точек Дарбина—Уотсона можно воспользоваться "грубым" правилом и считать, что автокорреляция остатков отсутствует, если . Для более надежных выводов необходимо воспользоваться статистическими таблицами.


 

А также другие работы, которые могут Вас заинтересовать

53451. Інтерактивна гра. «Права людини» 37 KB
  Проблеми Як їх вирішити Членам команд пропонується проблема яку потрібно вирішити. Проблема перша Одна жінка зпоміж членів групи любить співати але на жаль вона співає безперестанку. Чи ви: а нічого не робите і дозволяєте їй співати коли б вона цього незабажала б вимагаєте щоб вона переставала співати коли хтось іде поруч із нею Проблема друга Кілька людей яких поранило при посадці затримують ваш рух і ви побоюєтесь що в такому темпі ви не встигнете добратися до буйка поки не...
53452. Процедура Bubble_sort и ее особенности 18.77 KB
  Сортировка простыми обменами, сортиро́вка пузырько́м (англ. bubble sort) — простой алгоритм сортировки. Для понимания и реализации этот алгоритм — простейший, но эффективен он лишь для небольших массивов.
53453. Оптимизация процедуры Quick_sort, особенности 22.82 KB
  Быстрая сортировка (англ. quicksort), часто называемая qsort по имени реализации в стандартной библиотеке языка Си — широко известный алгоритм сортировки, разработанный английским информатиком Чарльзом Хоаром во время его работы в МГУ в 1960 году.
53454. Кристаллическое строение вещества 711 KB
  Кристаллическая решётка — вспомогательный геометрический образ, вводимый для анализа строения кристалла. Решётка имеет сходство с канвой или сеткой, что даёт основание называть точки решётки узлами. Решёткой является совокупность точек, которые возникают из отдельной произвольно выбранной точки кристалла под действием группы трансляции
53455. Інтернет технологія Веб-квест 38.5 KB
  Webквестом називається спеціальним чином організований вид дослідницької діяльності для виконання якої учні здійснюють пошук інформації в мережі Інтернет за вказаними адресами. Щоб дана робота була максимально ефективною webквест спеціальним чином організована webсторінка повинен містити наступні частини: введення в якому описуються терміни проведення і задається початкова ситуація; цікаве завдання яке можна реально виконати; набір посилань на ресурси мережі необхідні для виконання завдання. Деякі але...
53456. Классный час «Безопасный интернет» 160.5 KB
  Ведущий1 С одной стороны Интернет прочно вошел в наш обиход и очень облегчает поиск любой информации. С другой стороны есть люди которые считают что Интернет бич нового тысячелетия. Давайте разберемся что же такое Интернет на самом деле.
53457. Суд над Інтернетом. Internet: глобальне добро або зло? 142 KB
  Вчитель виконує роль судді в диспуті сторін, який незалежно і аргументовано буде приймати, або відкидати доводи, що приводяться, і стежити за тим, щоб одні і ті ж аргументи не повторювалися в різному формулюванні, і за тим, щоб дискусія була в цивілізованих рамках.
53458. Інтернет: за і проти! 119.5 KB
  Обладнання: плакат Основні правила спілкування плакат №1 із зображенням компютера плакат №2 із зображенням компютера підключеного до мережі Інтернет; запис на дошці; малюнки учнів; памятки картки зображення Золотої рибки ілюстрація мікрофон тощо. За часів сьогодення коли особливого значення набуває інформація вже ніхто не заперечує що компютер увійшов до різних сфер сучасного життя і...
53459. The Internet and Social Networking Sites 115.5 KB
  A social network is a social structure made up of individuals (organizations) called “nodes”, which are tied (connected) by one or more specific types of interdependency, such as friendship, kinship, common interest, financial exchange, dislike, sexual relationships, or relationships of beliefs, knowledge or prestige.