89207

ПАРНОЕ ЛИНЕЙНОЕ УРАВНЕНИЕ РЕГРЕССИИ

Лабораторная работа

Информатика, кибернетика и программирование

В 1805 году в статье Новые методы определения кометных орбит он писал что для определения коэффициентов в уравнениях орбит был использован простой метод который состоит в отыскании минимума суммы квадратов ошибок.

Русский

2015-05-10

434 KB

4 чел.

ЛАБОРАТОРНАЯ РАБОТА №1

ПАРНОЕ ЛИНЕЙНОЕ УРАВНЕНИЕ РЕГРЕССИИ

Цель работы: рассчитать параметры парного линейного уравнения регрессии с помощью Excel, а также проанализировать качество построенной модели, используя коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.

ТЕОРИЯ

Метод наименьших квадратов

В различных исследованиях приходится использовать формулы, составленные на основании наблюдений или эксперимента. Одним из лучших способов получения таких формул является метод наименьших квадратов (МНК).

Первая работа, в которой использовался МНК, принадлежит французскому математику Лежандру. В 1805 году в статье «Новые методы определения кометных орбит» он писал, что для определения коэффициентов в уравнениях орбит был использован простой метод, который состоит в отыскании минимума суммы квадратов ошибок. Гаусс в 1821 году показал, что оценки, получаемые МНК, обладают наименьшими погрешностями. Приближение функций МНК было изучено П.Л. Чебышевым. Наиболее строгое и изящное обоснование метода дано А.А. Марковым.

Пусть в результате наблюдений получена таблица значений переменной  для ряда значений (независимой) переменной :

Таблица 1

Предположим, что точки  примерно располагаются на одной прямой (см. рис. 1). Это означает, что зависимость между  и  близка к линейной . Подберем неизвестные коэффициенты  и  так, чтобы прямая  лежала по возможности ближе к каждой из нанесенных точек. Назовем остатком в точке  разность , где , а  – значение функции в точке , полученное из опыта. Сущность МНК заключается в том, что искомую прямую  выбирают таким образом, чтобы сумма квадратов остатков  была наименьшей. Таким образом, неизвестные параметры  и  находят из условия, что сумма  т.е. имела бы наименьшее значение. Поскольку  и  – постоянные числа (данные опыта), то указанная сумма есть функция параметров  и :

   (1)

Чтобы найти эти значения параметров  и , воспользуемся необходимым условием экстремума функции нескольких переменных: найдем частные производные функции  по  и , и приравняем их к нулю:

  (2)

Следовательно, параметры  и , для которых осуществляется наилучшее приближение (в указанном смысле), определяется из системы уравнений, которую можно переписать в следующем виде:

    (3)

Можно доказать, что эта система всегда имеет единственное решение и что для найденных чисел  и  функция  достигает максимума:

   (4)

Коэффициент  называется выборочным коэффициентом регрессии  по . Коэффициент регрессии  по  показывает, на сколько единиц в среднем изменяется переменная  при увеличении переменной  на одну единицу. выборочный корреляционный момент или выборочная ковариация.

Подставляя найденные значения  и  в уравнение , получим линейную функцию, наилучшим образом отражающую (аппроксимирующую) зависимость между величинами  и , полученную из опыта. Полученное уравнение называется уравнением регрессии  по .

Уравнения регрессии позволяют прогнозировать возможные значения зависимых переменных, иначе, позволяют предсказывать поведение одного из параметров при целенаправленном изменении другого. Регрессионные модели применимы для определения оптимальной области приложения усилий, например, границы, за рамки которой дальнейшее вложение капитала уже не приносит пропорционального увеличения прибыли.

Коэффициент корреляции измеряет степень и определяет направление только прямолинейных связей. Коэффициент парной корреляции  есть безразмерная величина, значения которой принадлежат отрезку: . Выборочный коэффициент парной корреляции  вычисляется по формуле:

,      (5)

Соответствие между значениями  и характером связи может быть представлено следующей таблицей (таблица Чеддока):

Значение коэффициента парной корреляции,

Связь

1

Функциональная

>0,9

Очень сильная

0,7 – 0,9

Тесная (сильная)

0,5 – 0,7

Заметная

0,3 – 0,5

Умеренная

<0,3

Слабая

0

Отсутствует

Чем ближе  к единице, тем теснее связь между Y и X (тем ближе связь к линейной). Геометрически это означает, что чем больше по модулю коэффициент корреляции, тем ближе экспериментальные точки прилежат к линии регрессии (рис. 2.).

Проанализируем виды корреляционных полей, представленных на графиках. Очевидно, что в первом случае связь между переменными сильная, а во втором случае – слабая.

Рис. 2.

Если коэффициент корреляции положителен , то связь между переменными является прямой, а если , то связь обратная (в том смысле, что с увеличением фактора – переменной – результативный признак – переменная – будет уменьшаться) (рис. 3.). Графически это будет выглядеть следующим образом:

Рис. 3.

Если , то между величинами Y и X наблюдается функциональная зависимость, и все экспериментальные точки лежат на линии регрессии (рис. 4.).

Рис. 4.

Если , то линейная корреляционная связь между переменными отсутствует, т.е.  (см. рис. 5).

Рис. 5.

Равенство коэффициента нулю говорит лишь об отсутствии линейной связи между переменными, но при этом между ними может существовать какая-либо другая связь.

Оценку качества построенной модели (в первом приближении) дает коэффициент (индекс) детерминации и средняя ошибка аппроксимации.

Общая сумма квадратов отклонений переменной  от среднего значения  раскладывается на два слагаемых: «объясненную» (факторную) и «остаточную» («необъясненную») сумму квадратов:

 (6)

Общая сумма квадратов отклонений индивидуальных значений результативного признака  от среднего значения  вызвана влиянием множества причин, которые можно условно разбить на две группы: изучаемые факторы и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси абсцисс и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то  связан с  функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Таким образом, отношение факторной суммы квадратов к общей сумме может характеризовать качество построенной модели. Такое отношение называется коэффициентом детерминации R2:

,    (7)

Коэффициент детерминации показывает, какая доля изменения (дисперсии) зависимой переменной обусловлена изменением объясняющей переменной. Например, R2=0,75 – это значит, что на 75% изменение зависимой величины Y обусловлено изменением фактора X и на 25% – действием других неучтенных факторов.

Коэффициент детерминации равен квадрату коэффициента корреляции , поэтому значения   лежат в промежутке [0;1]. Чем ближе значение R2 к единице, тем лучше модель описывает экспериментальные данные, тем ближе точки прилежат к линии регрессии. Отметим, что коэффициент детерминации имеет смысл только при наличии свободного члена в уравнении регрессии.

Помимо коэффициента детерминации о качестве модели говорит средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

,    (8)

где – наблюдаемое в i-том опыте значение величины Y,  – значение, рассчитанное по уравнению регрессии для данного , n – число опытов. Допустимый предел значений , при котором качество модели считается приемлемым, – не более 8-10%.

Под остатком для каждого наблюдения понимается разность между действительной величиной  в соответствующем наблюдении и расчетным значением по уравнению регрессии , т. е. .

Не следует ожидать получения точного соотношения между какими–либо двумя экономическими показателями, за исключением тех случаев, когда оно существует по определению.

Для отражения того факта, что реальные значения зависимой переменной не всегда совпадают с ее условным математическим ожиданием и могут быть различными при одном и том же значении объясняющей переменной, фактическая зависимость должна быть дополнена некоторым слагаемым ε, которое должно отражать влияние случайных, неучтенных факторов. При этом регрессионная модель (регрессионное уравнение) имеет вид , где  – случайная величина, называемая возмущением или случайным (остаточным) членом.

Почему существует случайный член? Имеется несколько причин:

  1.  невключение объясняющих переменных. Соотношение между переменными  и  почти наверняка является большим упрощением. В действительности существуют и другие факторы, влияющие на , которые не учтены в уравнении регрессии;
  2.  агрегирование переменных. Во многих случаях рассматриваемая зависимость – это попытка объединить вместе некоторое число микроэкономических соотношений.  Примером является функция суммарного потребления;
  3.  неправильное описание структуры модели. Структура модели может быть описана неправильно или не вполне правильно. Если зависимость относится к данным о временном ряде, то значение может зависеть не от фактического значения , а от значения, которое ожидалось в предыдущем периоде;
  4.  неправильная функциональная спецификация. Например, истинная зависимость может не являться линейной, а быть более сложной (но и она является лишь приближением);
  5.  ошибки измерения.

ПОСТАНОВКА ЗАДАЧИ

Для анализа зависимости объема потребления  (руб) домохозяйства в зависимости от располагаемого дохода  (руб) отобрана выборка объема , результаты которой приведены в таблице:

1

2

3

4

5

6

7

8

9

10

11

12

107

109

110

113

120

121

124

127

129

140

141

143

102

105

108

110

115

118

119

124

131

131

140

144

Необходимо:

  1.  найти параметры  и  линейного уравнения парной регрессии ;
    1.  найти коэффициент детерминации;
    2.  рассчитать линейный коэффициент парной корреляции и оценить тесноту связи, используя таблицу Чеддока;
    3.  Найти среднюю ошибку аппроксимации.
    4.  Полученные результаты изобразить графически.

ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ

Решение задачи в ППП Excel с использованием инструмента анализа данных Сервис/Анализ данных/Регрессия. При помощи данного пакета некоторые величины считаются автоматически, а некоторые необходимо рассчитать самим.

1. Откройте Excel.

2. Введите данные в виде столбцов.

3. С помощью мастера диаграмм постройте корреляционное поле и сделайте предположение о характере распределения.

3.1. Активизируйте Мастер диаграмм. В главном меню выберите Вставка/Диаграмма (или на панели инструментов Стандартная щелкните по кнопке Мастер диаграмм).

3.2. В появившимся окне выберите Точечная. Щелкните по кнопке Далее.

3.3 В новом диалоговом окне установите флажок размещения в столбцах (строках). Добавьте ряд. Заполните диапазон данных. Далее.

3.4. Заполните параметры диаграммы на разных закладках. Щелкните Далее.

3.5. Укажите место размещения диаграммы. Нажмите Готово.

4. В главном меню выберете последовательно пункты: Сервис – Анализ данных – Регрессия. (Если в Сервисе нет Анализа данных необходимо зайти в Надстройки и установить флажок на Пакет анализа)

5. Заполнить диалоговое окно инструмента Пакета анализа Регрессия.

Входные данные

Входной интервал – диапазон (столбец), содержащий данные результативного признака.

Входной интервал  – диапазон (столбец), содержащий данные факторов независимого признака.

Метки (да или нет) – флажок, который указывает, содержит ли первая строка названия столбцов или нет. Ставим флажок на Остатках.

В результате выбора ОК получим Итоги регрессионного анализа, содержащие 4 таблицы: Регрессионная статистика, Дисперсионный анализ, Таблица без названия, Вывод остатков.

В этой задаче вам понадобятся данные трех таблиц:

Таблица 1.

Регрессионная статистика

 

Множественный R

0,977535269

R-квадрат

0,955575202

Нормированный R-квадрат

0,951132722

Стандартная ошибка

3,019940539

Наблюдения

12

Таблица 2.

Таблица 3.

Наблюдение

Предсказанное Y

Остатки

1

103,1582467

-1,158246657

2

105,2492571

-0,249257058

3

106,2947623

1,705237741

4

109,4312779

0,56872214

5

116,7498143

-1,749814264

6

117,7953195

0,204680535

7

120,9318351

-1,931835067

8

124,0683507

-0,068350669

9

126,1593611

4,84063893

10

137,6599183

-6,659918276

11

138,7054235

1,294576523

12

140,7964339

3,203566122

I. Найти параметры  и  линейного уравнения парной регрессии .

6. Из таблицы 2 из второго столбца находим параметры линейной регрессии , .

7. Запишите в бланк отчета уравнение регрессии.

8. Сделайте вывод.

II. Найти коэффициент детерминации;

9. Найдите коэффициент детерминации  из таблицы 1. Значение занесите в бланк отчета.

10. Сделайте вывод.

III. Рассчитать линейный коэффициент парной корреляции и оценить тесноту связи, используя таблицу Чеддока.

11. Возвратитесь обратно в тот лист, где размещены исходные данные.

12. В главном меню выбрать последовательно пункты: Сервис – Анализ данных – корреляция. Появится диалоговое окно:

13. Заполните диалоговое окно в соответствии с рисунком. В поле Входной интервал введите данные столбцов  и .

14. Нажмите ОК. Появится новый лист, содержащий таблицу:

Таблица 4.

Столбец 1

Столбец 2

Столбец 1

1

Столбец 2

0,977535

1

15. Из таблицы находите коэффициент корреляции между величинами  и .

16. Сделайте вывод о характере связи.

IV. Найти среднюю ошибку аппроксимации.

Средняя ошибка аппроксимации рассчитывается по формуле (7). Для нахождения средней ошибки аппроксимации воспользуемся таблицей 3 Вывод остатков, расположенной в листе «Регрессия».

17. Скопируйте из таблицы 3 столбец «остатки» . Вставьте их рядом с исходными данными.

18. Дополните таблицу данных столбцом .

19. Затем рассчитайте столбец . Для этого в главном меню выберите Вставка/функция. В окне Категория выберите Математические, затем в окне Функция АBS. Щелкните по кнопке ОК.

20. Используя процедуру Автосумма, вычислите среднее значение . Умножив данное значение на 100%, получим среднюю ошибку аппроксимации:

.

Должна получиться такая таблица:

X, руб

Y, руб

ei

ei/yi

107

102

-1,15825

-0,01136

0,01136

109

105

-0,24926

-0,00237

0,00237

110

108

1,70524

0,01579

0,01579

113

110

0,56872

0,00517

0,00517

120

115

-1,74981

-0,01522

0,01522

121

118

0,20468

0,00173

0,00173

124

119

-1,93184

-0,01623

0,01623

127

124

-0,06835

-0,00055

0,00055

129

131

4,84064

0,03695

0,03695

140

131

-6,65992

-0,05084

0,05084

141

140

1,29458

0,00925

0,00925

143

144

3,20357

0,02225

0,02225

Среднее значение

0,01564

V. Построить уравнение регрессии.

21. Выделите экспериментальные точки на графике. Щелкните правой кнопкой мышки. В появившимся окне выберите Добавить линию тренда.

22. В диалоговом окне выберите тип линии тренда Линейная. В качестве дополнительной информации на диаграмме можно отобразить уравнение регрессии и индекс детерминации . Нажмите ОК.

23. Сделайте вывод.

Контрольные вопросы

1. Объясните, в чем заключается метод наименьших квадратов.

2. Выведите формулы для расчета параметров парного линейного уравнения регрессии.

3. Коэффициент парной корреляции. Расчетная формула. В каком диапазоне меняется коэффициент парной корреляции.

4. Таблица Чеддока для оценки степени тесноты связи. Обратная и прямая связь между переменными.

5. Коэффициент детерминации. Расчетная формула.

6. Средняя ошибка аппроксимации. Расчетная формула.


 

А также другие работы, которые могут Вас заинтересовать

27744. Иоганн Фридрих Гербарт 19.36 KB
  Гербарт получил образование сначала в латинской классической школе а затем в Иенском университете.Окончив университет Гербарт стал воспитателем детей в семье швейцарского аристократа.С 1802 года Гербарт работал в Гёттингенском и Кенигсбергском университетах в должности профессора.
27745. Станислав Теофилович Шацкий 22.81 KB
  Шацкий писал по этому вопросу в 1918 г. Шацкий родоначальник русской и советской дошкольной педагогики. Еще в дореволюционные годы им и его ближайшими сотрудниками была разработана оригинальная как Шацкий называл русская система воспитания в детском саду существенно отличавшаяся от той что была создана Фрёбелем и современницей Шацкого М.
27746. Цель деятельности социального педагога 19.77 KB
  Предлагаемые ниже таблицы отражают примерный перечень как основных направлений деятельности социального педагога так и их содержание. Предлагаемые ниже таблицы отражают примерный перечень как основных направлений деятельности социального педагога так и их содержание. Направления деятельности Содержание Социальнопедагогическое исследование с целью выявления социальных и личностных проблем детей всех возрастов проведение социальной паспортизации классов учебного учреждения микрорайона; изучение и анализ культурнобытовых отношений в семьях...
27747. Педагогическая деятельность Песталоцци 20.29 KB
  Иоганн Генрих Песталоцци 1746 1827 родился в Швейцарии в Цюрихе в семье врача. Песталоцци близко ознакомился с тяжелым положением крестьян и с малых лет проникся глубоким сочувствием к народу. Образование Песталоцци получил сначала в начальной а затем в латинской средней школе и в высшем учебном заведении гуманитарного направления коллегиуме на филологическом и философском отделениях где под влиянием французских просветителей развивались передовые демократические идеи.
27748. Факторы социализации и формирования личности 20.14 KB
  Факторы социализации и формирования личности Социализация как уже отмечалось осуществляется в различных ситуациях возникающих в результате взаимодействия множества обстоятельств. В подростковом и юношеском возрасте увеличивается и оказывается наиболее действенным влияние групп сверстников в зрелом же возрасте на первое место по значимости выходят сословие трудовой или профессиональный коллектив отдельные личности.В последние годы все большее значение ученые придают макпофакторам социализации в том числе и природногеографическим...
27749. Основными направлениями социально-педагогической деятельности являются 17.47 KB
  Поскольку проблема ребенка требующая разрешения как правило имеет и внутренние личностные и внешние аспекты социальнопедагогическая деятельность обычно включает две составляющие: непосредственную работу с ребенком; посредническую деятельность во взаимоотношениях ребенка со средой способствующую их социальнокультурному становлению и развитию. По содержанию социальнопедагогическая деятельность чрезвычайно многообразна. Однако в настоящее время эта задача непростая поскольку сфера практической социально педагогической деятельности...
27750. Становление идей воспитывающего и развивающего обучения в педагогической мысли Западной Европы до 80-х гг. XIX в 27.72 KB
  Становление идей воспитывающего и развивающего обучения в педагогической мысли Западной Европы до 80х гг. в педагогической мысли возникают теории обучения и воспитания которые становятся классическими педагогическими теориями и базой для дальнейшего развития науки и практики образования во всех странах. Так один из основоположников дидактики начального обучения швейцарский педагог Иоганн Генрих Песталоцци 1746–1827 окончивший два курса коллегиума Каролинум вел активную просветительскую деятельность организовал ряд приютов для детей из...
27751. Сущность коррекционно-педагогической деятельности с детьми и подростками 28.78 KB
  Возникает задача поиска более действенных и результативных путей профилактики и педагогической коррекции отклоняющегося поведения детей и подростков как следствия их школьной дезадаптации опирающихся на принципы гуманизации и индивидуализации педагогического процесса в общеобразовательной школе. В педагогической науке в настоящий момент отсутствуют системные исследования коррекционнопедагогической деятельности не ведется пока целостного изучения взаимосвязи между коррекционной деятельностью и единым педагогическим процессом. Поэтому...
27752. Психолого - педагогические подходы в воспитании детей с ограниченными возможностями 39.13 KB
  В процессе развития ребенка функциональные системы взаимовлияют друг на друга. Поэтому эмоциональноположительное взаимодействие ребенка с матерью составляет основу формирования всех психических функций: речи внимания памяти целенаправленной деятельности эмоциональной сферы мышления и сознания. Специальные исследования показали что отрицательные последствия воспитания детей грудного и раннего возраста в учреждениях закрытого типа возникают не изза отсутствия материального ухода а являются следствием недостаточности эмоциональных...