89207

ПАРНОЕ ЛИНЕЙНОЕ УРАВНЕНИЕ РЕГРЕССИИ

Лабораторная работа

Информатика, кибернетика и программирование

В 1805 году в статье Новые методы определения кометных орбит он писал что для определения коэффициентов в уравнениях орбит был использован простой метод который состоит в отыскании минимума суммы квадратов ошибок.

Русский

2015-05-10

434 KB

4 чел.

ЛАБОРАТОРНАЯ РАБОТА №1

ПАРНОЕ ЛИНЕЙНОЕ УРАВНЕНИЕ РЕГРЕССИИ

Цель работы: рассчитать параметры парного линейного уравнения регрессии с помощью Excel, а также проанализировать качество построенной модели, используя коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.

ТЕОРИЯ

Метод наименьших квадратов

В различных исследованиях приходится использовать формулы, составленные на основании наблюдений или эксперимента. Одним из лучших способов получения таких формул является метод наименьших квадратов (МНК).

Первая работа, в которой использовался МНК, принадлежит французскому математику Лежандру. В 1805 году в статье «Новые методы определения кометных орбит» он писал, что для определения коэффициентов в уравнениях орбит был использован простой метод, который состоит в отыскании минимума суммы квадратов ошибок. Гаусс в 1821 году показал, что оценки, получаемые МНК, обладают наименьшими погрешностями. Приближение функций МНК было изучено П.Л. Чебышевым. Наиболее строгое и изящное обоснование метода дано А.А. Марковым.

Пусть в результате наблюдений получена таблица значений переменной  для ряда значений (независимой) переменной :

Таблица 1

Предположим, что точки  примерно располагаются на одной прямой (см. рис. 1). Это означает, что зависимость между  и  близка к линейной . Подберем неизвестные коэффициенты  и  так, чтобы прямая  лежала по возможности ближе к каждой из нанесенных точек. Назовем остатком в точке  разность , где , а  – значение функции в точке , полученное из опыта. Сущность МНК заключается в том, что искомую прямую  выбирают таким образом, чтобы сумма квадратов остатков  была наименьшей. Таким образом, неизвестные параметры  и  находят из условия, что сумма  т.е. имела бы наименьшее значение. Поскольку  и  – постоянные числа (данные опыта), то указанная сумма есть функция параметров  и :

   (1)

Чтобы найти эти значения параметров  и , воспользуемся необходимым условием экстремума функции нескольких переменных: найдем частные производные функции  по  и , и приравняем их к нулю:

  (2)

Следовательно, параметры  и , для которых осуществляется наилучшее приближение (в указанном смысле), определяется из системы уравнений, которую можно переписать в следующем виде:

    (3)

Можно доказать, что эта система всегда имеет единственное решение и что для найденных чисел  и  функция  достигает максимума:

   (4)

Коэффициент  называется выборочным коэффициентом регрессии  по . Коэффициент регрессии  по  показывает, на сколько единиц в среднем изменяется переменная  при увеличении переменной  на одну единицу. выборочный корреляционный момент или выборочная ковариация.

Подставляя найденные значения  и  в уравнение , получим линейную функцию, наилучшим образом отражающую (аппроксимирующую) зависимость между величинами  и , полученную из опыта. Полученное уравнение называется уравнением регрессии  по .

Уравнения регрессии позволяют прогнозировать возможные значения зависимых переменных, иначе, позволяют предсказывать поведение одного из параметров при целенаправленном изменении другого. Регрессионные модели применимы для определения оптимальной области приложения усилий, например, границы, за рамки которой дальнейшее вложение капитала уже не приносит пропорционального увеличения прибыли.

Коэффициент корреляции измеряет степень и определяет направление только прямолинейных связей. Коэффициент парной корреляции  есть безразмерная величина, значения которой принадлежат отрезку: . Выборочный коэффициент парной корреляции  вычисляется по формуле:

,      (5)

Соответствие между значениями  и характером связи может быть представлено следующей таблицей (таблица Чеддока):

Значение коэффициента парной корреляции,

Связь

1

Функциональная

>0,9

Очень сильная

0,7 – 0,9

Тесная (сильная)

0,5 – 0,7

Заметная

0,3 – 0,5

Умеренная

<0,3

Слабая

0

Отсутствует

Чем ближе  к единице, тем теснее связь между Y и X (тем ближе связь к линейной). Геометрически это означает, что чем больше по модулю коэффициент корреляции, тем ближе экспериментальные точки прилежат к линии регрессии (рис. 2.).

Проанализируем виды корреляционных полей, представленных на графиках. Очевидно, что в первом случае связь между переменными сильная, а во втором случае – слабая.

Рис. 2.

Если коэффициент корреляции положителен , то связь между переменными является прямой, а если , то связь обратная (в том смысле, что с увеличением фактора – переменной – результативный признак – переменная – будет уменьшаться) (рис. 3.). Графически это будет выглядеть следующим образом:

Рис. 3.

Если , то между величинами Y и X наблюдается функциональная зависимость, и все экспериментальные точки лежат на линии регрессии (рис. 4.).

Рис. 4.

Если , то линейная корреляционная связь между переменными отсутствует, т.е.  (см. рис. 5).

Рис. 5.

Равенство коэффициента нулю говорит лишь об отсутствии линейной связи между переменными, но при этом между ними может существовать какая-либо другая связь.

Оценку качества построенной модели (в первом приближении) дает коэффициент (индекс) детерминации и средняя ошибка аппроксимации.

Общая сумма квадратов отклонений переменной  от среднего значения  раскладывается на два слагаемых: «объясненную» (факторную) и «остаточную» («необъясненную») сумму квадратов:

 (6)

Общая сумма квадратов отклонений индивидуальных значений результативного признака  от среднего значения  вызвана влиянием множества причин, которые можно условно разбить на две группы: изучаемые факторы и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси абсцисс и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то  связан с  функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Таким образом, отношение факторной суммы квадратов к общей сумме может характеризовать качество построенной модели. Такое отношение называется коэффициентом детерминации R2:

,    (7)

Коэффициент детерминации показывает, какая доля изменения (дисперсии) зависимой переменной обусловлена изменением объясняющей переменной. Например, R2=0,75 – это значит, что на 75% изменение зависимой величины Y обусловлено изменением фактора X и на 25% – действием других неучтенных факторов.

Коэффициент детерминации равен квадрату коэффициента корреляции , поэтому значения   лежат в промежутке [0;1]. Чем ближе значение R2 к единице, тем лучше модель описывает экспериментальные данные, тем ближе точки прилежат к линии регрессии. Отметим, что коэффициент детерминации имеет смысл только при наличии свободного члена в уравнении регрессии.

Помимо коэффициента детерминации о качестве модели говорит средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

,    (8)

где – наблюдаемое в i-том опыте значение величины Y,  – значение, рассчитанное по уравнению регрессии для данного , n – число опытов. Допустимый предел значений , при котором качество модели считается приемлемым, – не более 8-10%.

Под остатком для каждого наблюдения понимается разность между действительной величиной  в соответствующем наблюдении и расчетным значением по уравнению регрессии , т. е. .

Не следует ожидать получения точного соотношения между какими–либо двумя экономическими показателями, за исключением тех случаев, когда оно существует по определению.

Для отражения того факта, что реальные значения зависимой переменной не всегда совпадают с ее условным математическим ожиданием и могут быть различными при одном и том же значении объясняющей переменной, фактическая зависимость должна быть дополнена некоторым слагаемым ε, которое должно отражать влияние случайных, неучтенных факторов. При этом регрессионная модель (регрессионное уравнение) имеет вид , где  – случайная величина, называемая возмущением или случайным (остаточным) членом.

Почему существует случайный член? Имеется несколько причин:

  1.  невключение объясняющих переменных. Соотношение между переменными  и  почти наверняка является большим упрощением. В действительности существуют и другие факторы, влияющие на , которые не учтены в уравнении регрессии;
  2.  агрегирование переменных. Во многих случаях рассматриваемая зависимость – это попытка объединить вместе некоторое число микроэкономических соотношений.  Примером является функция суммарного потребления;
  3.  неправильное описание структуры модели. Структура модели может быть описана неправильно или не вполне правильно. Если зависимость относится к данным о временном ряде, то значение может зависеть не от фактического значения , а от значения, которое ожидалось в предыдущем периоде;
  4.  неправильная функциональная спецификация. Например, истинная зависимость может не являться линейной, а быть более сложной (но и она является лишь приближением);
  5.  ошибки измерения.

ПОСТАНОВКА ЗАДАЧИ

Для анализа зависимости объема потребления  (руб) домохозяйства в зависимости от располагаемого дохода  (руб) отобрана выборка объема , результаты которой приведены в таблице:

1

2

3

4

5

6

7

8

9

10

11

12

107

109

110

113

120

121

124

127

129

140

141

143

102

105

108

110

115

118

119

124

131

131

140

144

Необходимо:

  1.  найти параметры  и  линейного уравнения парной регрессии ;
    1.  найти коэффициент детерминации;
    2.  рассчитать линейный коэффициент парной корреляции и оценить тесноту связи, используя таблицу Чеддока;
    3.  Найти среднюю ошибку аппроксимации.
    4.  Полученные результаты изобразить графически.

ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ

Решение задачи в ППП Excel с использованием инструмента анализа данных Сервис/Анализ данных/Регрессия. При помощи данного пакета некоторые величины считаются автоматически, а некоторые необходимо рассчитать самим.

1. Откройте Excel.

2. Введите данные в виде столбцов.

3. С помощью мастера диаграмм постройте корреляционное поле и сделайте предположение о характере распределения.

3.1. Активизируйте Мастер диаграмм. В главном меню выберите Вставка/Диаграмма (или на панели инструментов Стандартная щелкните по кнопке Мастер диаграмм).

3.2. В появившимся окне выберите Точечная. Щелкните по кнопке Далее.

3.3 В новом диалоговом окне установите флажок размещения в столбцах (строках). Добавьте ряд. Заполните диапазон данных. Далее.

3.4. Заполните параметры диаграммы на разных закладках. Щелкните Далее.

3.5. Укажите место размещения диаграммы. Нажмите Готово.

4. В главном меню выберете последовательно пункты: Сервис – Анализ данных – Регрессия. (Если в Сервисе нет Анализа данных необходимо зайти в Надстройки и установить флажок на Пакет анализа)

5. Заполнить диалоговое окно инструмента Пакета анализа Регрессия.

Входные данные

Входной интервал – диапазон (столбец), содержащий данные результативного признака.

Входной интервал  – диапазон (столбец), содержащий данные факторов независимого признака.

Метки (да или нет) – флажок, который указывает, содержит ли первая строка названия столбцов или нет. Ставим флажок на Остатках.

В результате выбора ОК получим Итоги регрессионного анализа, содержащие 4 таблицы: Регрессионная статистика, Дисперсионный анализ, Таблица без названия, Вывод остатков.

В этой задаче вам понадобятся данные трех таблиц:

Таблица 1.

Регрессионная статистика

 

Множественный R

0,977535269

R-квадрат

0,955575202

Нормированный R-квадрат

0,951132722

Стандартная ошибка

3,019940539

Наблюдения

12

Таблица 2.

Таблица 3.

Наблюдение

Предсказанное Y

Остатки

1

103,1582467

-1,158246657

2

105,2492571

-0,249257058

3

106,2947623

1,705237741

4

109,4312779

0,56872214

5

116,7498143

-1,749814264

6

117,7953195

0,204680535

7

120,9318351

-1,931835067

8

124,0683507

-0,068350669

9

126,1593611

4,84063893

10

137,6599183

-6,659918276

11

138,7054235

1,294576523

12

140,7964339

3,203566122

I. Найти параметры  и  линейного уравнения парной регрессии .

6. Из таблицы 2 из второго столбца находим параметры линейной регрессии , .

7. Запишите в бланк отчета уравнение регрессии.

8. Сделайте вывод.

II. Найти коэффициент детерминации;

9. Найдите коэффициент детерминации  из таблицы 1. Значение занесите в бланк отчета.

10. Сделайте вывод.

III. Рассчитать линейный коэффициент парной корреляции и оценить тесноту связи, используя таблицу Чеддока.

11. Возвратитесь обратно в тот лист, где размещены исходные данные.

12. В главном меню выбрать последовательно пункты: Сервис – Анализ данных – корреляция. Появится диалоговое окно:

13. Заполните диалоговое окно в соответствии с рисунком. В поле Входной интервал введите данные столбцов  и .

14. Нажмите ОК. Появится новый лист, содержащий таблицу:

Таблица 4.

Столбец 1

Столбец 2

Столбец 1

1

Столбец 2

0,977535

1

15. Из таблицы находите коэффициент корреляции между величинами  и .

16. Сделайте вывод о характере связи.

IV. Найти среднюю ошибку аппроксимации.

Средняя ошибка аппроксимации рассчитывается по формуле (7). Для нахождения средней ошибки аппроксимации воспользуемся таблицей 3 Вывод остатков, расположенной в листе «Регрессия».

17. Скопируйте из таблицы 3 столбец «остатки» . Вставьте их рядом с исходными данными.

18. Дополните таблицу данных столбцом .

19. Затем рассчитайте столбец . Для этого в главном меню выберите Вставка/функция. В окне Категория выберите Математические, затем в окне Функция АBS. Щелкните по кнопке ОК.

20. Используя процедуру Автосумма, вычислите среднее значение . Умножив данное значение на 100%, получим среднюю ошибку аппроксимации:

.

Должна получиться такая таблица:

X, руб

Y, руб

ei

ei/yi

107

102

-1,15825

-0,01136

0,01136

109

105

-0,24926

-0,00237

0,00237

110

108

1,70524

0,01579

0,01579

113

110

0,56872

0,00517

0,00517

120

115

-1,74981

-0,01522

0,01522

121

118

0,20468

0,00173

0,00173

124

119

-1,93184

-0,01623

0,01623

127

124

-0,06835

-0,00055

0,00055

129

131

4,84064

0,03695

0,03695

140

131

-6,65992

-0,05084

0,05084

141

140

1,29458

0,00925

0,00925

143

144

3,20357

0,02225

0,02225

Среднее значение

0,01564

V. Построить уравнение регрессии.

21. Выделите экспериментальные точки на графике. Щелкните правой кнопкой мышки. В появившимся окне выберите Добавить линию тренда.

22. В диалоговом окне выберите тип линии тренда Линейная. В качестве дополнительной информации на диаграмме можно отобразить уравнение регрессии и индекс детерминации . Нажмите ОК.

23. Сделайте вывод.

Контрольные вопросы

1. Объясните, в чем заключается метод наименьших квадратов.

2. Выведите формулы для расчета параметров парного линейного уравнения регрессии.

3. Коэффициент парной корреляции. Расчетная формула. В каком диапазоне меняется коэффициент парной корреляции.

4. Таблица Чеддока для оценки степени тесноты связи. Обратная и прямая связь между переменными.

5. Коэффициент детерминации. Расчетная формула.

6. Средняя ошибка аппроксимации. Расчетная формула.


 

А также другие работы, которые могут Вас заинтересовать

44284. Самоходный портал 179 KB
  Ремонтные работы выполняются ремонтными службами производственных подразделений и персоналом службы главного энергетика. Основной задачей службы обслуживания является обеспечение бесперебойной безопасной и экономичной работы электроустановок. Для решения этой задачи обслуживающий персонал выполняет следующие работы: организует и проводит ППР и ППТО проводит профилактические испытания электрооборудования внедряет новую технику в электрохозяйство организует обучение и периодические проверки знаний обслуживающего персонала своевременно...
44285. Планирование маркетингового исследования с использованием сети интернет на этапе внедрения нового товара на рынок 7.97 MB
  Маркетинговые исследования на этапе продвижения нового товара на рынок в рамках проекта компании ООО Спорт-мастер PRO Программа маркетингового исследования Анализ результатов маркетингового исследования
44286. Проблемы института условно-досрочного освобождения от отбывания наказания 323.5 KB
  Условно-досрочное освобождение от наказания в уголовном праве России Исторический аспект развития института условно-досрочного освобождения от отбывания наказания в России Основания условия и порядок применения условно-досрочного освобождения от отбывания наказания категории лиц подлежащих условно-досрочному освобождению от отбывания наказания. Неисполнение условий условно-досрочного освобождения от наказания и его правовые последствия
44287. Корпоративный портал как платформа для разработки учебно-методической документации вуза 1.94 MB
  Портальные технологии обеспечивают возможность быстрого создания новой функциональности и предоставления ее клиентам портала, позволяют настраивать разделы портала в соответствии с потребностями отдельных групп сотрудников, а также персонализировать внешний вид портала – настраивать его под каждого пользователя
44288. Система работы по развитию слухового восприятия у слабослышащих старшеклассников на индивидуальных занятиях 1009.5 KB
  Анализ современной системы развития слухового восприятия слабослышащих детей.Задачи и значение работы по развитию восприятия речи на слух слабослышащими детьми Содержание работы по развитию восприятия речи на слух .
44290. Rомп'ютеризованf видавничу систему 882.5 KB
  Порівняльні характеристики деяких мікропроцесорів Процесори Характеристики Celeron D Pentium 4 Pentium 4 D Частота МГц 2533 3000 3200 Розєм LG775 LG775 LG775 Кешпамять 2 рівня Кб 256 2048 22048 Частота системної шини МГц 533 800 800 Ціна грн 383 1037 2408 Для робочих станцій оброблення текстової інформації РС1 РС2 не потрібний дуже потужний процесор тому згідно таблиці 2 ми обираємо найкращій варіант по співвідношенню: ціна швидкодія. Найважливіші параметри окремих моделей дисплеїв деяких фірм з діагоналлю екрана 17 Дисплей...
44292. Анализ правоприменительной практики, теоретических, правовых и организационных аспектов возбуждения уголовных дел 392.5 KB
  Понятие модели и значение стадии возбуждения уголовного дела. Понятие и сущность стадии возбуждения дела. Задачи и значение стадии возбуждения дела. Поводы основания и процессуальный порядок возбуждения уголовного дела.