10977

Множественная линейная регрессия

Лекция

Математика и математический анализ

Множественная линейная регрессия Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель или модель множественной регрессии. Уравнение множественной регрессии может быть представлено в виде где вектор независим

Русский

2013-04-03

39.67 KB

114 чел.

Множественная линейная регрессия

Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Уравнение множественной регрессии может быть представлено в виде

где  вектор независимых (объясняющих) переменных;  вектор параметров (подлежащих определению);  случайная ошибка (отклонение);  зависимая (объясняемая) переменная.

Рассмотрим самую употребляемую и наиболее простую модель множественной регрессии – модель множественной линейной регрессии.

Теоретическое линейное уравнение регрессии имеет вид:

или для индивидуальных наблюдений

Здесь вектор размерности  неизвестных параметров.  называется j-м теоретическим коэффициентом регрессии (частичным коэффициентом регрессии). Он отражает влияние на условное математическое ожидание  зависимой переменной  объясняющей переменной  при условии, что все другие объясняющие переменные модели остаются постоянными.
свободный член, определяющий значение  в случае, когда все объясняющие переменные  равны нулю.

Если число наблюдений , то существует бесконечно много различных векторов параметров, при которых линейная формула (14.3) связи между X и Y будет выполняться абсолютно точно. Если число наблюдений , то вектор β рассчитывается единственным образом. При  возникает необходимость оптимизации, т.е. оценивания параметров  при которых формула (14.3) дает наилучшее приближение для имеющихся наблюдений.

В данном случае число  называется числом степеней свободы.

Наиболее распространенным методом оценки параметров уравнения множественной регрессии является метод наименьших квадратов (МНК).

Требования МНК

  1.  Математическое ожидание случайного отклонения  равно нулю для всех наблюдений:

  1.  Гомоскедастичность (постоянство дисперсии отклонений):

для любых наблюдений i и j.

  1.  Отсутствие автокорреляции.

Случайные отклонения  и  являются независимыми друг от друга для всех  и .

  1.  Случайное отклонение должно быть независимо от объясняющих переменных.

  1.  Модель является линейной относительно параметров.

Для случая множественной линейной регрессии существенными являются еще два требования.

  1.  Отсутствие мультиколлинеарности.

Между объясняющими переменными отсутствует строгая (сильная) линейная зависимость.

  1.  Ошибки  б имеют нормальное распределение .

Выполнение данного требования важно для проверки статистических гипотез и построения интервальных оценок.

Представим выражение (14.3) в матричной форме:

Здесь  вектор-столбец значений зависимой переменной, Т – символ транспонирования, вектор-столбец (размерности m+1) неизвестных коэффициентов регрессии, вектор-столбец случайных отклонений, матрица размерности :

В этой матрице -я строка  представляет наблюдение вектора значений независимых переменных ; единица соответствует переменной при свободном члене .

Оценка коэффициентов регрессии

По аналогии с парной регрессией построим оценку  для вектора  так, чтобы вектор оценок зависимой переменной  минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:

Решением условия (14.5), если ранг матрицы  равен , является оценка

Нетрудно проверить, что эта оценка несмещенная. Ковариационная (дисперсионная) матрица оценки равна

𝐷[

Доказана справедливость теоремы Гаусса - Маркова.

В условиях справедливости требований МНК (п.3) оценка (14.6) является наилучшей (в смысле минимума дисперсии) оценкой в классе линейных несмещенных оценок.

Оценка дисперсии   ошибок

Обозначим

вектор остатков (или невязок);  матрица. Можно проверить, что  Для остаточной суммы квадратов  справедливо соотношение

откуда следует, что несмещенной оценкой для  является

Если справедливо требование МНК (п.7), т.е. , то справедливы следующие свойства оценок:

  1.  имеет распределение хи-квадрат  с
     степенями свободы;
  2.  оценки  и  независимы.

Как и в случае парной регрессии, справедливо соотношение:

По аналогии с (13.1) запишем

.      (14.10)

В векторном виде:

Для проверки качества уравнения множественной регрессии, как и в случае парной регрессии, воспользуемся коэффициентом детерминации:

Коэффициент  показывает качество подгонки регрессионной модели к наблюдённым значениям . Если  то регрессия  на  не улучшает качество предсказания  по сравнению с тривиальным предсказанием  Другой крайний случай  означает точную подгонку: все , т.е. все точки наблюдений лежат на регрессионной плоскости.

Однако значение  возрастает с ростом числа переменных (регрессоров) в многомерной регрессии, что не означает улучшения качества предсказания, и поэтому вводится скорректированный (adjusted) коэффициент детерминации:

Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).

Доверительные интервалы для коэффициентов регрессии

Стандартной ошибкой оценки  является величина  оценка для которой

Здесь диагональный элемент матрицы . Если ошибки распределены нормально , то, статистика

распределена по закону Стьюдента с  степенями свободы. Тогда при доверительной вероятности  соответствующий доверительный интервал вычисляется по формуле:

Проверка гипотезы о нулевых значениях коэффициентов регрессии

Для проверки гипотезы  об отсутствии какой бы то ни было линейной связи между  и совокупностью факторов,  т.е. об одновременном равенстве нулю всех коэффициентов при независимых переменных, кроме коэффициента , используется статистика

Статистика статистика Фишера – Снедекора при  и
степенях свободы; число оцениваемых параметров уравнения регрессии; число наблюдений. Если
, то верна гипотеза  линейная связь между зависимой и независимыми переменными отсутствует. Если , то гипотеза  отвергается и принимается альтернативная гипотеза линейная связь значима на уровне . Здесь  критическое значение критерия Фишера – Снедекора.

Замечание

Для выбора наиболее существенных объясняющих переменных можно предложить следующий практический подход. Строятся различные модели многомерной линейной регрессии (с различным набором переменных). Затем можно сравнить скорректированные коэффициенты детерминации (14.13) и принять тот вариант регрессии, для которого максимален.


 

А также другие работы, которые могут Вас заинтересовать

40950. Создание анимации. Движение по заданной траектории 566 KB
  Создание анимации Движение по заданной траектории Это занятие посвящено движению по траектории созданию мувиклипов. Движение по заданной траектории Flsh позволяет задать движение объекта вдоль заданной траектории. Добавьте слой траектории.
40951. Работа со звуком в Flash 939 KB
  Работа со звуком во Flsh Введение Где взять звуки Добавление звука во Flsh Импорт звуков Различные виды синхронизации Применение компрессии к выбранным звукам Применение компрессии ко всем звукам Общие рекомендации по экспорту звука
40952. Создание Flash презентации 807.5 KB
  Создание Flshпрезентации Основные принципы создания презентации Способы создания презентации во Flsh Создание презентации Основные принципы создания презентации Способы создания презентации во Flsh Создание презентации Введение Презентация грамотно разработанная с помощью Flsh будет выгодно выделяться среди шаблонных продуктов рожденных в инкубаторе Microsoft Power Point. Основные принципы создания презентации Очень важно чтобы ваша презентация имела цельный законченный вид. После создания структуры...
40953. Программирование в Flash 785.5 KB
  Программирование во Flsh План Введение Знакомство с панелью Действия ctions Работа с действиями объектов Использование действий Возможности управления сценами с помощью сценариев ctionScript События мыши
40954. Объявление и инициализация переменной типа bool. Вывод данных на консоль 97 KB
  Консолью называется окно операционной системы, в котором пользователи взаимодействуют с операционной системой. Приложение может считывать пользовательский ввод из стандартного входного потока, записывать обычные данные в стандартный выходной поток и записывать данные об ошибках в стандартный поток сообщений об ошибках.
40955. Оператор выбора switch 358 KB
  Пример using System; nmespce Consoleppliction5 { clss Progrm { sttic void Minstring[] rgs { int cseSwitch = 5; switch cseSwitch { cse 1: Console. Если за меткой cse нет списка операторов то операторы brek goto cse или goto defult необязательны В примере управление передается списку операторов следующему за меткой cse 2 using System; nmespce Consoleppliction5 {...
40956. Политические идеи современности 75 KB
  В наши дни наблюдается усиление прикладного характера современных политических идей их использования для решения конкретных социальных и экономических проблем. Для него характерно пристальное внимание к вопросам социальных гарантий политической демократии. С одной стороны социальная драма модели государственного социализма догматического марксизма и в то же время успех социалдемократии в решении социальных программ превращение в авторитетную политическую силу современности. Политическая дифференциация России выдвигает проблему...
40957. Пример использования делегата 112 KB
  Сортируемый класс Employee описывает данные о сотрудниках: код фамилия имя дата приема на работу заработная плата. Это реализуется определением в коде программы делегата: delegte bool CompreOpobject lhs object rhs; Сигнатуру метода сортировки Sort определим следующим образом: sttic public void Sortobject[] sortrry CompreOp gtMethod Параметр sortrry задает массив сортируемых объектов в рассматриваемом примере массив экземпляров класса Employee а параметр gtMethod метод принимающий два параметра и возвращающий true если...
40958. Концепция типов данных 121.5 KB
  C поддерживают концепцию соглашение типов данных которая включает следующие договорённости: каждая переменная константа выражение функция относятся к некоторому типу; тип объекта либо определяется по внешнему виду либо задаётся специальным описанием; тип Т определяет множество значений допустимых для данных этого типа множество допустимых операций множество функций определённых для данных этого типа Т. Тип Т = {DomT OPT FunT} { некоторая область памяти её размер способ представления...