89207

ПАРНОЕ ЛИНЕЙНОЕ УРАВНЕНИЕ РЕГРЕССИИ

Лабораторная работа

Информатика, кибернетика и программирование

В 1805 году в статье Новые методы определения кометных орбит он писал что для определения коэффициентов в уравнениях орбит был использован простой метод который состоит в отыскании минимума суммы квадратов ошибок.

Русский

2015-05-10

434 KB

4 чел.

ЛАБОРАТОРНАЯ РАБОТА №1

ПАРНОЕ ЛИНЕЙНОЕ УРАВНЕНИЕ РЕГРЕССИИ

Цель работы: рассчитать параметры парного линейного уравнения регрессии с помощью Excel, а также проанализировать качество построенной модели, используя коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.

ТЕОРИЯ

Метод наименьших квадратов

В различных исследованиях приходится использовать формулы, составленные на основании наблюдений или эксперимента. Одним из лучших способов получения таких формул является метод наименьших квадратов (МНК).

Первая работа, в которой использовался МНК, принадлежит французскому математику Лежандру. В 1805 году в статье «Новые методы определения кометных орбит» он писал, что для определения коэффициентов в уравнениях орбит был использован простой метод, который состоит в отыскании минимума суммы квадратов ошибок. Гаусс в 1821 году показал, что оценки, получаемые МНК, обладают наименьшими погрешностями. Приближение функций МНК было изучено П.Л. Чебышевым. Наиболее строгое и изящное обоснование метода дано А.А. Марковым.

Пусть в результате наблюдений получена таблица значений переменной  для ряда значений (независимой) переменной :

Таблица 1

Предположим, что точки  примерно располагаются на одной прямой (см. рис. 1). Это означает, что зависимость между  и  близка к линейной . Подберем неизвестные коэффициенты  и  так, чтобы прямая  лежала по возможности ближе к каждой из нанесенных точек. Назовем остатком в точке  разность , где , а  – значение функции в точке , полученное из опыта. Сущность МНК заключается в том, что искомую прямую  выбирают таким образом, чтобы сумма квадратов остатков  была наименьшей. Таким образом, неизвестные параметры  и  находят из условия, что сумма  т.е. имела бы наименьшее значение. Поскольку  и  – постоянные числа (данные опыта), то указанная сумма есть функция параметров  и :

   (1)

Чтобы найти эти значения параметров  и , воспользуемся необходимым условием экстремума функции нескольких переменных: найдем частные производные функции  по  и , и приравняем их к нулю:

  (2)

Следовательно, параметры  и , для которых осуществляется наилучшее приближение (в указанном смысле), определяется из системы уравнений, которую можно переписать в следующем виде:

    (3)

Можно доказать, что эта система всегда имеет единственное решение и что для найденных чисел  и  функция  достигает максимума:

   (4)

Коэффициент  называется выборочным коэффициентом регрессии  по . Коэффициент регрессии  по  показывает, на сколько единиц в среднем изменяется переменная  при увеличении переменной  на одну единицу. выборочный корреляционный момент или выборочная ковариация.

Подставляя найденные значения  и  в уравнение , получим линейную функцию, наилучшим образом отражающую (аппроксимирующую) зависимость между величинами  и , полученную из опыта. Полученное уравнение называется уравнением регрессии  по .

Уравнения регрессии позволяют прогнозировать возможные значения зависимых переменных, иначе, позволяют предсказывать поведение одного из параметров при целенаправленном изменении другого. Регрессионные модели применимы для определения оптимальной области приложения усилий, например, границы, за рамки которой дальнейшее вложение капитала уже не приносит пропорционального увеличения прибыли.

Коэффициент корреляции измеряет степень и определяет направление только прямолинейных связей. Коэффициент парной корреляции  есть безразмерная величина, значения которой принадлежат отрезку: . Выборочный коэффициент парной корреляции  вычисляется по формуле:

,      (5)

Соответствие между значениями  и характером связи может быть представлено следующей таблицей (таблица Чеддока):

Значение коэффициента парной корреляции,

Связь

1

Функциональная

>0,9

Очень сильная

0,7 – 0,9

Тесная (сильная)

0,5 – 0,7

Заметная

0,3 – 0,5

Умеренная

<0,3

Слабая

0

Отсутствует

Чем ближе  к единице, тем теснее связь между Y и X (тем ближе связь к линейной). Геометрически это означает, что чем больше по модулю коэффициент корреляции, тем ближе экспериментальные точки прилежат к линии регрессии (рис. 2.).

Проанализируем виды корреляционных полей, представленных на графиках. Очевидно, что в первом случае связь между переменными сильная, а во втором случае – слабая.

Рис. 2.

Если коэффициент корреляции положителен , то связь между переменными является прямой, а если , то связь обратная (в том смысле, что с увеличением фактора – переменной – результативный признак – переменная – будет уменьшаться) (рис. 3.). Графически это будет выглядеть следующим образом:

Рис. 3.

Если , то между величинами Y и X наблюдается функциональная зависимость, и все экспериментальные точки лежат на линии регрессии (рис. 4.).

Рис. 4.

Если , то линейная корреляционная связь между переменными отсутствует, т.е.  (см. рис. 5).

Рис. 5.

Равенство коэффициента нулю говорит лишь об отсутствии линейной связи между переменными, но при этом между ними может существовать какая-либо другая связь.

Оценку качества построенной модели (в первом приближении) дает коэффициент (индекс) детерминации и средняя ошибка аппроксимации.

Общая сумма квадратов отклонений переменной  от среднего значения  раскладывается на два слагаемых: «объясненную» (факторную) и «остаточную» («необъясненную») сумму квадратов:

 (6)

Общая сумма квадратов отклонений индивидуальных значений результативного признака  от среднего значения  вызвана влиянием множества причин, которые можно условно разбить на две группы: изучаемые факторы и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси абсцисс и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то  связан с  функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Таким образом, отношение факторной суммы квадратов к общей сумме может характеризовать качество построенной модели. Такое отношение называется коэффициентом детерминации R2:

,    (7)

Коэффициент детерминации показывает, какая доля изменения (дисперсии) зависимой переменной обусловлена изменением объясняющей переменной. Например, R2=0,75 – это значит, что на 75% изменение зависимой величины Y обусловлено изменением фактора X и на 25% – действием других неучтенных факторов.

Коэффициент детерминации равен квадрату коэффициента корреляции , поэтому значения   лежат в промежутке [0;1]. Чем ближе значение R2 к единице, тем лучше модель описывает экспериментальные данные, тем ближе точки прилежат к линии регрессии. Отметим, что коэффициент детерминации имеет смысл только при наличии свободного члена в уравнении регрессии.

Помимо коэффициента детерминации о качестве модели говорит средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

,    (8)

где – наблюдаемое в i-том опыте значение величины Y,  – значение, рассчитанное по уравнению регрессии для данного , n – число опытов. Допустимый предел значений , при котором качество модели считается приемлемым, – не более 8-10%.

Под остатком для каждого наблюдения понимается разность между действительной величиной  в соответствующем наблюдении и расчетным значением по уравнению регрессии , т. е. .

Не следует ожидать получения точного соотношения между какими–либо двумя экономическими показателями, за исключением тех случаев, когда оно существует по определению.

Для отражения того факта, что реальные значения зависимой переменной не всегда совпадают с ее условным математическим ожиданием и могут быть различными при одном и том же значении объясняющей переменной, фактическая зависимость должна быть дополнена некоторым слагаемым ε, которое должно отражать влияние случайных, неучтенных факторов. При этом регрессионная модель (регрессионное уравнение) имеет вид , где  – случайная величина, называемая возмущением или случайным (остаточным) членом.

Почему существует случайный член? Имеется несколько причин:

  1.  невключение объясняющих переменных. Соотношение между переменными  и  почти наверняка является большим упрощением. В действительности существуют и другие факторы, влияющие на , которые не учтены в уравнении регрессии;
  2.  агрегирование переменных. Во многих случаях рассматриваемая зависимость – это попытка объединить вместе некоторое число микроэкономических соотношений.  Примером является функция суммарного потребления;
  3.  неправильное описание структуры модели. Структура модели может быть описана неправильно или не вполне правильно. Если зависимость относится к данным о временном ряде, то значение может зависеть не от фактического значения , а от значения, которое ожидалось в предыдущем периоде;
  4.  неправильная функциональная спецификация. Например, истинная зависимость может не являться линейной, а быть более сложной (но и она является лишь приближением);
  5.  ошибки измерения.

ПОСТАНОВКА ЗАДАЧИ

Для анализа зависимости объема потребления  (руб) домохозяйства в зависимости от располагаемого дохода  (руб) отобрана выборка объема , результаты которой приведены в таблице:

1

2

3

4

5

6

7

8

9

10

11

12

107

109

110

113

120

121

124

127

129

140

141

143

102

105

108

110

115

118

119

124

131

131

140

144

Необходимо:

  1.  найти параметры  и  линейного уравнения парной регрессии ;
    1.  найти коэффициент детерминации;
    2.  рассчитать линейный коэффициент парной корреляции и оценить тесноту связи, используя таблицу Чеддока;
    3.  Найти среднюю ошибку аппроксимации.
    4.  Полученные результаты изобразить графически.

ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ

Решение задачи в ППП Excel с использованием инструмента анализа данных Сервис/Анализ данных/Регрессия. При помощи данного пакета некоторые величины считаются автоматически, а некоторые необходимо рассчитать самим.

1. Откройте Excel.

2. Введите данные в виде столбцов.

3. С помощью мастера диаграмм постройте корреляционное поле и сделайте предположение о характере распределения.

3.1. Активизируйте Мастер диаграмм. В главном меню выберите Вставка/Диаграмма (или на панели инструментов Стандартная щелкните по кнопке Мастер диаграмм).

3.2. В появившимся окне выберите Точечная. Щелкните по кнопке Далее.

3.3 В новом диалоговом окне установите флажок размещения в столбцах (строках). Добавьте ряд. Заполните диапазон данных. Далее.

3.4. Заполните параметры диаграммы на разных закладках. Щелкните Далее.

3.5. Укажите место размещения диаграммы. Нажмите Готово.

4. В главном меню выберете последовательно пункты: Сервис – Анализ данных – Регрессия. (Если в Сервисе нет Анализа данных необходимо зайти в Надстройки и установить флажок на Пакет анализа)

5. Заполнить диалоговое окно инструмента Пакета анализа Регрессия.

Входные данные

Входной интервал – диапазон (столбец), содержащий данные результативного признака.

Входной интервал  – диапазон (столбец), содержащий данные факторов независимого признака.

Метки (да или нет) – флажок, который указывает, содержит ли первая строка названия столбцов или нет. Ставим флажок на Остатках.

В результате выбора ОК получим Итоги регрессионного анализа, содержащие 4 таблицы: Регрессионная статистика, Дисперсионный анализ, Таблица без названия, Вывод остатков.

В этой задаче вам понадобятся данные трех таблиц:

Таблица 1.

Регрессионная статистика

 

Множественный R

0,977535269

R-квадрат

0,955575202

Нормированный R-квадрат

0,951132722

Стандартная ошибка

3,019940539

Наблюдения

12

Таблица 2.

Таблица 3.

Наблюдение

Предсказанное Y

Остатки

1

103,1582467

-1,158246657

2

105,2492571

-0,249257058

3

106,2947623

1,705237741

4

109,4312779

0,56872214

5

116,7498143

-1,749814264

6

117,7953195

0,204680535

7

120,9318351

-1,931835067

8

124,0683507

-0,068350669

9

126,1593611

4,84063893

10

137,6599183

-6,659918276

11

138,7054235

1,294576523

12

140,7964339

3,203566122

I. Найти параметры  и  линейного уравнения парной регрессии .

6. Из таблицы 2 из второго столбца находим параметры линейной регрессии , .

7. Запишите в бланк отчета уравнение регрессии.

8. Сделайте вывод.

II. Найти коэффициент детерминации;

9. Найдите коэффициент детерминации  из таблицы 1. Значение занесите в бланк отчета.

10. Сделайте вывод.

III. Рассчитать линейный коэффициент парной корреляции и оценить тесноту связи, используя таблицу Чеддока.

11. Возвратитесь обратно в тот лист, где размещены исходные данные.

12. В главном меню выбрать последовательно пункты: Сервис – Анализ данных – корреляция. Появится диалоговое окно:

13. Заполните диалоговое окно в соответствии с рисунком. В поле Входной интервал введите данные столбцов  и .

14. Нажмите ОК. Появится новый лист, содержащий таблицу:

Таблица 4.

Столбец 1

Столбец 2

Столбец 1

1

Столбец 2

0,977535

1

15. Из таблицы находите коэффициент корреляции между величинами  и .

16. Сделайте вывод о характере связи.

IV. Найти среднюю ошибку аппроксимации.

Средняя ошибка аппроксимации рассчитывается по формуле (7). Для нахождения средней ошибки аппроксимации воспользуемся таблицей 3 Вывод остатков, расположенной в листе «Регрессия».

17. Скопируйте из таблицы 3 столбец «остатки» . Вставьте их рядом с исходными данными.

18. Дополните таблицу данных столбцом .

19. Затем рассчитайте столбец . Для этого в главном меню выберите Вставка/функция. В окне Категория выберите Математические, затем в окне Функция АBS. Щелкните по кнопке ОК.

20. Используя процедуру Автосумма, вычислите среднее значение . Умножив данное значение на 100%, получим среднюю ошибку аппроксимации:

.

Должна получиться такая таблица:

X, руб

Y, руб

ei

ei/yi

107

102

-1,15825

-0,01136

0,01136

109

105

-0,24926

-0,00237

0,00237

110

108

1,70524

0,01579

0,01579

113

110

0,56872

0,00517

0,00517

120

115

-1,74981

-0,01522

0,01522

121

118

0,20468

0,00173

0,00173

124

119

-1,93184

-0,01623

0,01623

127

124

-0,06835

-0,00055

0,00055

129

131

4,84064

0,03695

0,03695

140

131

-6,65992

-0,05084

0,05084

141

140

1,29458

0,00925

0,00925

143

144

3,20357

0,02225

0,02225

Среднее значение

0,01564

V. Построить уравнение регрессии.

21. Выделите экспериментальные точки на графике. Щелкните правой кнопкой мышки. В появившимся окне выберите Добавить линию тренда.

22. В диалоговом окне выберите тип линии тренда Линейная. В качестве дополнительной информации на диаграмме можно отобразить уравнение регрессии и индекс детерминации . Нажмите ОК.

23. Сделайте вывод.

Контрольные вопросы

1. Объясните, в чем заключается метод наименьших квадратов.

2. Выведите формулы для расчета параметров парного линейного уравнения регрессии.

3. Коэффициент парной корреляции. Расчетная формула. В каком диапазоне меняется коэффициент парной корреляции.

4. Таблица Чеддока для оценки степени тесноты связи. Обратная и прямая связь между переменными.

5. Коэффициент детерминации. Расчетная формула.

6. Средняя ошибка аппроксимации. Расчетная формула.


 

А также другие работы, которые могут Вас заинтересовать

11923. Изучение тока в вакуумном диоде 363 KB
  1. ТЕОРИЯ РАБОТЫ Цель работы получение вольтамперной характеристики вакуумного диода и определение удельного заряда электрона. При достаточно малых анодных напряжениях при которых не достигается ток насыщения зависимость силы тока от анодного напряжения в вакуум
11924. Экспериментальное изучение характеристик вакуумного диода и определение работы выхода электронов из вольфрама 30 KB
  Лабораторная работа № 6 Цель работы: экспериментальное изучение характеристик вакуумного диода и определение работы выхода электронов из вольфрама. Приборы и оборудование: источник питания ИП 2 цифровых вольтметра соединительные провода. Содержание работы: В д...
11925. ЦИФРОВОЙ АДАПТИВНЫЙ ИЗМЕРИТЕЛЬ ВРЕМЕННЫХ ИНТЕРВАЛОВ ЦАИВИ-1 455.5 KB
  Лабораторная работа № 44 ЦИФРОВОЙ АДАПТИВНЫЙ ИЗМЕРИТЕЛЬ ВРЕМЕННЫХ ИНТЕРВАЛОВ ЦАИВИ1. Цель работы Изучение цифровых методов измерения временных интервалов. Изучение способов автоматического переключения пределов измерения в цифровых приборах. ...
11926. Исследование интегральных цифро-аналоговых и аналого-цифровых преобразователей 1.1 MB
  Исследование интегральных цифроаналоговых и аналогоцифровых преобразователей. I. Цель работы Целью работы является изучение принципа действия особенностей использования точности и быстродействия интегральных ЦАП и аналогоцифровых АЦП преобразователей. ...
11927. Автоматический выбор диапазонов измерения в цифровых вольтметрах 85 KB
  ЦИФРОВЫЕ МЕТОДЫ И СРЕДСТВА ИЗМЕРЕНИЯ Адаптивные измерительные устройства Лабораторная работа № 45 Автоматический выбор диапазонов измерения в цифровых вольтметрах. 1. Цель работы: Изучение цифровых интегрирующих методов измерения напряжения. ...
11928. Цифровой частотомер с автоматическим выбором диапазонов измерения 64 KB
  Цифровой частотомер с автоматическим выбором диапазонов измерения Цифровой частотомер с автоматическим выбором диапазонов измерения: Методические указания к лабораторной работе / Рязан. гос. радиотехн. университет; Сост.: Е.М. Прошин Рязань 2006. 9 с. Содержат описан...
11929. Измерение диэлектрической проницаемости и угла диэлектрических потерь твердых диэлектриков 475 KB
  ЛАБОРАТОРНАЯ РАБОТА № 2 Измерение диэлектрической проницаемости и угла диэлектрических потерь твердых диэлектриков Цель работы: изучить основные электрические свойства диэлектрических материалов и их характеристики. ПРОГРАММА РАБОТЫ 1. Ознакомиться с образ...
11930. Исследование зависимости тангенса угла диэлектрических потерь и диэлектрической проницаемости от температуры 420 KB
  ЛАБОРАТОРНАЯ РАБОТА № 3 Исследование зависимости тангенса угла диэлектрических потерь и диэлектрической проницаемости от температуры Цель работы: исследовать зависимость тангенса угла диэлектрических потерь и диэлектрической проницаемости от температуры. ...
11931. Определение удельного сопротивления проводников 120 KB
  ЛАБОРАТОРНАЯ РАБОТА № 4 Определение удельного сопротивления проводников Цель работы: изучить основные электрические свойства проводниковых материалов и их характеристики. ПРОГРАММА РАБОТЫ 1. Ознакомиться с образцами проводниковых материалов. 2. Изучить осн...