89207

ПАРНОЕ ЛИНЕЙНОЕ УРАВНЕНИЕ РЕГРЕССИИ

Лабораторная работа

Информатика, кибернетика и программирование

В 1805 году в статье Новые методы определения кометных орбит он писал что для определения коэффициентов в уравнениях орбит был использован простой метод который состоит в отыскании минимума суммы квадратов ошибок.

Русский

2015-05-10

434 KB

4 чел.

ЛАБОРАТОРНАЯ РАБОТА №1

ПАРНОЕ ЛИНЕЙНОЕ УРАВНЕНИЕ РЕГРЕССИИ

Цель работы: рассчитать параметры парного линейного уравнения регрессии с помощью Excel, а также проанализировать качество построенной модели, используя коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.

ТЕОРИЯ

Метод наименьших квадратов

В различных исследованиях приходится использовать формулы, составленные на основании наблюдений или эксперимента. Одним из лучших способов получения таких формул является метод наименьших квадратов (МНК).

Первая работа, в которой использовался МНК, принадлежит французскому математику Лежандру. В 1805 году в статье «Новые методы определения кометных орбит» он писал, что для определения коэффициентов в уравнениях орбит был использован простой метод, который состоит в отыскании минимума суммы квадратов ошибок. Гаусс в 1821 году показал, что оценки, получаемые МНК, обладают наименьшими погрешностями. Приближение функций МНК было изучено П.Л. Чебышевым. Наиболее строгое и изящное обоснование метода дано А.А. Марковым.

Пусть в результате наблюдений получена таблица значений переменной  для ряда значений (независимой) переменной :

Таблица 1

Предположим, что точки  примерно располагаются на одной прямой (см. рис. 1). Это означает, что зависимость между  и  близка к линейной . Подберем неизвестные коэффициенты  и  так, чтобы прямая  лежала по возможности ближе к каждой из нанесенных точек. Назовем остатком в точке  разность , где , а  – значение функции в точке , полученное из опыта. Сущность МНК заключается в том, что искомую прямую  выбирают таким образом, чтобы сумма квадратов остатков  была наименьшей. Таким образом, неизвестные параметры  и  находят из условия, что сумма  т.е. имела бы наименьшее значение. Поскольку  и  – постоянные числа (данные опыта), то указанная сумма есть функция параметров  и :

   (1)

Чтобы найти эти значения параметров  и , воспользуемся необходимым условием экстремума функции нескольких переменных: найдем частные производные функции  по  и , и приравняем их к нулю:

  (2)

Следовательно, параметры  и , для которых осуществляется наилучшее приближение (в указанном смысле), определяется из системы уравнений, которую можно переписать в следующем виде:

    (3)

Можно доказать, что эта система всегда имеет единственное решение и что для найденных чисел  и  функция  достигает максимума:

   (4)

Коэффициент  называется выборочным коэффициентом регрессии  по . Коэффициент регрессии  по  показывает, на сколько единиц в среднем изменяется переменная  при увеличении переменной  на одну единицу. выборочный корреляционный момент или выборочная ковариация.

Подставляя найденные значения  и  в уравнение , получим линейную функцию, наилучшим образом отражающую (аппроксимирующую) зависимость между величинами  и , полученную из опыта. Полученное уравнение называется уравнением регрессии  по .

Уравнения регрессии позволяют прогнозировать возможные значения зависимых переменных, иначе, позволяют предсказывать поведение одного из параметров при целенаправленном изменении другого. Регрессионные модели применимы для определения оптимальной области приложения усилий, например, границы, за рамки которой дальнейшее вложение капитала уже не приносит пропорционального увеличения прибыли.

Коэффициент корреляции измеряет степень и определяет направление только прямолинейных связей. Коэффициент парной корреляции  есть безразмерная величина, значения которой принадлежат отрезку: . Выборочный коэффициент парной корреляции  вычисляется по формуле:

,      (5)

Соответствие между значениями  и характером связи может быть представлено следующей таблицей (таблица Чеддока):

Значение коэффициента парной корреляции,

Связь

1

Функциональная

>0,9

Очень сильная

0,7 – 0,9

Тесная (сильная)

0,5 – 0,7

Заметная

0,3 – 0,5

Умеренная

<0,3

Слабая

0

Отсутствует

Чем ближе  к единице, тем теснее связь между Y и X (тем ближе связь к линейной). Геометрически это означает, что чем больше по модулю коэффициент корреляции, тем ближе экспериментальные точки прилежат к линии регрессии (рис. 2.).

Проанализируем виды корреляционных полей, представленных на графиках. Очевидно, что в первом случае связь между переменными сильная, а во втором случае – слабая.

Рис. 2.

Если коэффициент корреляции положителен , то связь между переменными является прямой, а если , то связь обратная (в том смысле, что с увеличением фактора – переменной – результативный признак – переменная – будет уменьшаться) (рис. 3.). Графически это будет выглядеть следующим образом:

Рис. 3.

Если , то между величинами Y и X наблюдается функциональная зависимость, и все экспериментальные точки лежат на линии регрессии (рис. 4.).

Рис. 4.

Если , то линейная корреляционная связь между переменными отсутствует, т.е.  (см. рис. 5).

Рис. 5.

Равенство коэффициента нулю говорит лишь об отсутствии линейной связи между переменными, но при этом между ними может существовать какая-либо другая связь.

Оценку качества построенной модели (в первом приближении) дает коэффициент (индекс) детерминации и средняя ошибка аппроксимации.

Общая сумма квадратов отклонений переменной  от среднего значения  раскладывается на два слагаемых: «объясненную» (факторную) и «остаточную» («необъясненную») сумму квадратов:

 (6)

Общая сумма квадратов отклонений индивидуальных значений результативного признака  от среднего значения  вызвана влиянием множества причин, которые можно условно разбить на две группы: изучаемые факторы и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси абсцисс и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то  связан с  функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Таким образом, отношение факторной суммы квадратов к общей сумме может характеризовать качество построенной модели. Такое отношение называется коэффициентом детерминации R2:

,    (7)

Коэффициент детерминации показывает, какая доля изменения (дисперсии) зависимой переменной обусловлена изменением объясняющей переменной. Например, R2=0,75 – это значит, что на 75% изменение зависимой величины Y обусловлено изменением фактора X и на 25% – действием других неучтенных факторов.

Коэффициент детерминации равен квадрату коэффициента корреляции , поэтому значения   лежат в промежутке [0;1]. Чем ближе значение R2 к единице, тем лучше модель описывает экспериментальные данные, тем ближе точки прилежат к линии регрессии. Отметим, что коэффициент детерминации имеет смысл только при наличии свободного члена в уравнении регрессии.

Помимо коэффициента детерминации о качестве модели говорит средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

,    (8)

где – наблюдаемое в i-том опыте значение величины Y,  – значение, рассчитанное по уравнению регрессии для данного , n – число опытов. Допустимый предел значений , при котором качество модели считается приемлемым, – не более 8-10%.

Под остатком для каждого наблюдения понимается разность между действительной величиной  в соответствующем наблюдении и расчетным значением по уравнению регрессии , т. е. .

Не следует ожидать получения точного соотношения между какими–либо двумя экономическими показателями, за исключением тех случаев, когда оно существует по определению.

Для отражения того факта, что реальные значения зависимой переменной не всегда совпадают с ее условным математическим ожиданием и могут быть различными при одном и том же значении объясняющей переменной, фактическая зависимость должна быть дополнена некоторым слагаемым ε, которое должно отражать влияние случайных, неучтенных факторов. При этом регрессионная модель (регрессионное уравнение) имеет вид , где  – случайная величина, называемая возмущением или случайным (остаточным) членом.

Почему существует случайный член? Имеется несколько причин:

  1.  невключение объясняющих переменных. Соотношение между переменными  и  почти наверняка является большим упрощением. В действительности существуют и другие факторы, влияющие на , которые не учтены в уравнении регрессии;
  2.  агрегирование переменных. Во многих случаях рассматриваемая зависимость – это попытка объединить вместе некоторое число микроэкономических соотношений.  Примером является функция суммарного потребления;
  3.  неправильное описание структуры модели. Структура модели может быть описана неправильно или не вполне правильно. Если зависимость относится к данным о временном ряде, то значение может зависеть не от фактического значения , а от значения, которое ожидалось в предыдущем периоде;
  4.  неправильная функциональная спецификация. Например, истинная зависимость может не являться линейной, а быть более сложной (но и она является лишь приближением);
  5.  ошибки измерения.

ПОСТАНОВКА ЗАДАЧИ

Для анализа зависимости объема потребления  (руб) домохозяйства в зависимости от располагаемого дохода  (руб) отобрана выборка объема , результаты которой приведены в таблице:

1

2

3

4

5

6

7

8

9

10

11

12

107

109

110

113

120

121

124

127

129

140

141

143

102

105

108

110

115

118

119

124

131

131

140

144

Необходимо:

  1.  найти параметры  и  линейного уравнения парной регрессии ;
    1.  найти коэффициент детерминации;
    2.  рассчитать линейный коэффициент парной корреляции и оценить тесноту связи, используя таблицу Чеддока;
    3.  Найти среднюю ошибку аппроксимации.
    4.  Полученные результаты изобразить графически.

ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ

Решение задачи в ППП Excel с использованием инструмента анализа данных Сервис/Анализ данных/Регрессия. При помощи данного пакета некоторые величины считаются автоматически, а некоторые необходимо рассчитать самим.

1. Откройте Excel.

2. Введите данные в виде столбцов.

3. С помощью мастера диаграмм постройте корреляционное поле и сделайте предположение о характере распределения.

3.1. Активизируйте Мастер диаграмм. В главном меню выберите Вставка/Диаграмма (или на панели инструментов Стандартная щелкните по кнопке Мастер диаграмм).

3.2. В появившимся окне выберите Точечная. Щелкните по кнопке Далее.

3.3 В новом диалоговом окне установите флажок размещения в столбцах (строках). Добавьте ряд. Заполните диапазон данных. Далее.

3.4. Заполните параметры диаграммы на разных закладках. Щелкните Далее.

3.5. Укажите место размещения диаграммы. Нажмите Готово.

4. В главном меню выберете последовательно пункты: Сервис – Анализ данных – Регрессия. (Если в Сервисе нет Анализа данных необходимо зайти в Надстройки и установить флажок на Пакет анализа)

5. Заполнить диалоговое окно инструмента Пакета анализа Регрессия.

Входные данные

Входной интервал – диапазон (столбец), содержащий данные результативного признака.

Входной интервал  – диапазон (столбец), содержащий данные факторов независимого признака.

Метки (да или нет) – флажок, который указывает, содержит ли первая строка названия столбцов или нет. Ставим флажок на Остатках.

В результате выбора ОК получим Итоги регрессионного анализа, содержащие 4 таблицы: Регрессионная статистика, Дисперсионный анализ, Таблица без названия, Вывод остатков.

В этой задаче вам понадобятся данные трех таблиц:

Таблица 1.

Регрессионная статистика

 

Множественный R

0,977535269

R-квадрат

0,955575202

Нормированный R-квадрат

0,951132722

Стандартная ошибка

3,019940539

Наблюдения

12

Таблица 2.

Таблица 3.

Наблюдение

Предсказанное Y

Остатки

1

103,1582467

-1,158246657

2

105,2492571

-0,249257058

3

106,2947623

1,705237741

4

109,4312779

0,56872214

5

116,7498143

-1,749814264

6

117,7953195

0,204680535

7

120,9318351

-1,931835067

8

124,0683507

-0,068350669

9

126,1593611

4,84063893

10

137,6599183

-6,659918276

11

138,7054235

1,294576523

12

140,7964339

3,203566122

I. Найти параметры  и  линейного уравнения парной регрессии .

6. Из таблицы 2 из второго столбца находим параметры линейной регрессии , .

7. Запишите в бланк отчета уравнение регрессии.

8. Сделайте вывод.

II. Найти коэффициент детерминации;

9. Найдите коэффициент детерминации  из таблицы 1. Значение занесите в бланк отчета.

10. Сделайте вывод.

III. Рассчитать линейный коэффициент парной корреляции и оценить тесноту связи, используя таблицу Чеддока.

11. Возвратитесь обратно в тот лист, где размещены исходные данные.

12. В главном меню выбрать последовательно пункты: Сервис – Анализ данных – корреляция. Появится диалоговое окно:

13. Заполните диалоговое окно в соответствии с рисунком. В поле Входной интервал введите данные столбцов  и .

14. Нажмите ОК. Появится новый лист, содержащий таблицу:

Таблица 4.

Столбец 1

Столбец 2

Столбец 1

1

Столбец 2

0,977535

1

15. Из таблицы находите коэффициент корреляции между величинами  и .

16. Сделайте вывод о характере связи.

IV. Найти среднюю ошибку аппроксимации.

Средняя ошибка аппроксимации рассчитывается по формуле (7). Для нахождения средней ошибки аппроксимации воспользуемся таблицей 3 Вывод остатков, расположенной в листе «Регрессия».

17. Скопируйте из таблицы 3 столбец «остатки» . Вставьте их рядом с исходными данными.

18. Дополните таблицу данных столбцом .

19. Затем рассчитайте столбец . Для этого в главном меню выберите Вставка/функция. В окне Категория выберите Математические, затем в окне Функция АBS. Щелкните по кнопке ОК.

20. Используя процедуру Автосумма, вычислите среднее значение . Умножив данное значение на 100%, получим среднюю ошибку аппроксимации:

.

Должна получиться такая таблица:

X, руб

Y, руб

ei

ei/yi

107

102

-1,15825

-0,01136

0,01136

109

105

-0,24926

-0,00237

0,00237

110

108

1,70524

0,01579

0,01579

113

110

0,56872

0,00517

0,00517

120

115

-1,74981

-0,01522

0,01522

121

118

0,20468

0,00173

0,00173

124

119

-1,93184

-0,01623

0,01623

127

124

-0,06835

-0,00055

0,00055

129

131

4,84064

0,03695

0,03695

140

131

-6,65992

-0,05084

0,05084

141

140

1,29458

0,00925

0,00925

143

144

3,20357

0,02225

0,02225

Среднее значение

0,01564

V. Построить уравнение регрессии.

21. Выделите экспериментальные точки на графике. Щелкните правой кнопкой мышки. В появившимся окне выберите Добавить линию тренда.

22. В диалоговом окне выберите тип линии тренда Линейная. В качестве дополнительной информации на диаграмме можно отобразить уравнение регрессии и индекс детерминации . Нажмите ОК.

23. Сделайте вывод.

Контрольные вопросы

1. Объясните, в чем заключается метод наименьших квадратов.

2. Выведите формулы для расчета параметров парного линейного уравнения регрессии.

3. Коэффициент парной корреляции. Расчетная формула. В каком диапазоне меняется коэффициент парной корреляции.

4. Таблица Чеддока для оценки степени тесноты связи. Обратная и прямая связь между переменными.

5. Коэффициент детерминации. Расчетная формула.

6. Средняя ошибка аппроксимации. Расчетная формула.


 

А также другие работы, которые могут Вас заинтересовать

67335. СОЦИАЛЬНАЯ СИСТЕМА 48.5 KB
  Социальная система это упорядоченное целое nредставляющее собой совокупность отдельных социальных элементов индивидов гpyпп оpганизаций институтов. Общество может само рассматриваться как система состоящая из множества подсистем а каждая подсистема в свою очередь сама являет собой систему на своем уровне и имеет свои подсистемы.
67336. СОЦИАЛЬНАЯ СТРУКТУРА 63.5 KB
  Термин структура от лат. Поэтому определение социальной структуры отражающее это понимание общества может быть таким: социальная структура это пpинявшее повторяющиеся и устойчивые фоpмы переплетение взаимоотношений и взаимосвязей между элементами общества.
67337. СОЦИАЛЬНАЯ ВЛАСТЬ 55 KB
  Мы уже говорили выше, что социальный феномен власти He исчерпывается государственной или политической властью. Отношения власти, считал М. Вебер, составляют одно из измерений социальной стратификации и потому пронизывают все общество сверху донизу. Они предусмотрены институциональной структурой общества, которая иерархична...
67338. СОЦИАЛЬНЫЙ КОНФЛИКТ 71 KB
  Существование конфликта предполагает что его участники обладают автономией и в то же время взаимозависимы поскольку находятся в едином социальном поле. На экспериментальном уровне этот вид социального конфликта успешно исследовали М. В конфликтах такого рода доминирует чувство групповой...
67339. СОЦИАЛЬНЫЕ ИЗМЕНЕНИЯ 118.5 KB
  Но все же они происходят и история любого общества это история именно таких изменений. В более узком смысле под социальным изменением понимается изменение социальной структуры общества. Спенсеру считавшему что биологические организмы и человеческие общества подчиняются одному и тому же...
67340. СОЦИАЛЬНЫЕ ДВИЖЕНИЯ 66.5 KB
  Жизнь людей в обществе всегда порождала социальные движения но в XIX ХХ вв. Все социальные движения хотя и обусловлены совершенно разными социальными процессами имеют единый механизм перегруппируя и мобилизуя индивидов с целью сориентировать их на изменение существующих социальных...
67341. ГЛОБАЛИЗАЦИЯ 77.5 KB
  Существует достаточно много теоретических интерпретаций процесса глобализации. Чешков понятие глобализации относится к совокупности глобальных процессов взаимопроникновения самых разных элементов мирового сообщества. Тем He менее считает Шимаи многие результаты глобализации...
67342. МОДЕРНИТИ И ПОСТМОДЕРНИТИ 57.5 KB
  Завершается эпоха модернити эпоха истории охватывающая хронологически XVIIХХ BB. и начинается эпоха постмодернити. Под постмодернити в свою очередь понимается состояние общества и сознания являющееся историческим преемником модернити.
67343. ПРЕДОПЕРАЦИОННЫЙ И ПОСЛЕОПЕРАЦИОННЫЙ ПЕРИОДЫ 111.5 KB
  Однако для того чтобы эффект операции был максимальным необходимы соответствующая предоперационная подготовка и квалифицированное лечение в послеоперационном периоде. Основной задачей предоперационного периода является максимальное уменьшение опасностей операции предупреждение...