17625

Многофакторная регрессия: основные понятия

Лекция

Экономическая теория и математическое моделирование

Тема: Многофакторная регрессия: основные понятия План: Что такое множественная регрессия Как будут выглядеть результаты множественной регрессии. Как выглядит компьютерная распечатка результатов множественной регрессии. Окружающий нас мир мн...

Русский

2013-07-05

180 KB

30 чел.

Тема: «Многофакторная регрессия: основные понятия»

План:

  1.  Что такое множественная регрессия?
  2.  Как будут выглядеть результаты множественной регрессии.
  3.  Как выглядит компьютерная распечатка результатов множественной  регрессии.

Окружающий нас мир многомерен. В подавляющем большинстве реальных экономических задач приходится рассматривать данные более чем об одном или двух факторах. Однако это не является неразрешимой проблемой: следующий шаг, множественная регрессия, представляет собой относительно несложную процедуру, которая позволяет вам расширить свои возможности за пределы простейших случаев одно- и двумерных данных. Более того, с соответствующими базовыми идеями вы уже знакомы: понятия среднего значения, изменчивости, корреляции, прогнозирования, доверительных интервалов и проверки гипотез.

Прогнозирование единственной переменной У на основании двух или нескольких переменных X называется множественной регрессией. Прогнозирование единственной переменной У на основании единственной переменной X называется простой регрессией; о простой регрессии речь шла ранее. Пользуясь множественной регрессией, мы преследуем, по сути, те же цели, что и в случае простой регрессии. Ниже приведен краткий обзор этих целей, сопровождаемый простыми примерами.

Первое. Описание и понимание взаимосвязи.

а) Рассмотрим взаимосвязь между заработной платой (У) и рядом базовых характеристик служащих, таких как пол (X1 представлен двумя значениями, 0 и 1 обозначают соответственно мужчин и женщин), стаж работы (Х2) и образование (Х3). Описание и понимание того, как эти Х-факторы влияют на Y, позволяет, например, выстраивать систему доказательств в судебных процессах, касающихся дискриминации по признаку пола. Коэффициент регрессии по признаку пола является оценкой величины разницы заработной платы между мужчинами и женщинами с учетом поправки на возраст и стаж работы. Даже если вашу фирму пока еще не обвиняют в дискриминации работников по признаку пола, все равно полезно было бы выполнить множественный регрессионный анализ, чтобы незначительные (пока еще!) проблемы не переросли в крупные, решать которые будет значительно сложнее.

б) Если ваша фирма участвует в конкурсе на реализацию тех или иных проектов, тогда – для тех проектов, конкурс на которые вам удалось выиграть –  вы располагаете данными, касающимися фактических затрат (Y), оценки прямых трудозатрат (X1), оценки затрат на материалы (X2) и затрат на управленческие функции (X3). Допустим, что предложение цены, с которым вы выходите на конкурс, кажется вам неоправданно низким. Определив взаимосвязь между фактическими затратами и оценками, сделанными ранее, на этапе переговоров о заключении контрактов, вы сможете выяснить, какие из оценок вы систематически занижаете или, наоборот, завышаете (с точки зрения их вклада в фактические затраты).

Второе. Прогнозирование (предсказание) нового наблюдения.

а) Глубокое понимание структуры затрат в вашей фирме может быть полезно во многих отношениях. Например, у вас может сложиться более правильное представление о том, какие дополнительные расходы следует запланировать на сезон повышенного спроса на продукцию вашей фирмы (в частности, можно учесть дополнительные затраты, связанные с выполнением сверхурочных работ). Если ваш бизнес претерпевает определенные изменения, вы должны уметь прогнозировать влияние этих изменений на структуру затрат. Лучше разбираться в структуре затрат своей фирмы вам поможет множественная регрессия затрат (Y) на каждый из потенциально значимых (на ваш взгляд) факторов, таких как количество выпускаемых изделий (X1), количество работников (X2) и объем сверхурочных работ (X3). Результаты анализа, подобного этому, помогут вам принимать гораздо более продуманные решения, чем простое решение "посадить людей на сверхурочные работы на недельку-другую". Такой анализ поможет вам выявить скрытые расходы, которые обнаруживают тенденцию к возрастанию с ростом объемов сверхурочных работ, и делать более точные прогнозы фактических затрат, основанные на имеющейся у вас информации.

б) Ежемесячные объемы продаж в вашей фирме (временной ряд) могут объясняться сезонными колебаниями спроса. Один из способов анализа и прогнозирования объемов продаж заключается в использовании множественной регрессии, позволяющей объяснять объемы продаж (Y) на основании некоторого тренда (например, X1 = 1, 2, 3, ... , указывающего месяцы от начала регистрации объемов продаж) и переменной для каждого месяца (например, X2 равняется 1 для января и 0 в противном случае, X3 представляет февраль, и т.д.). Множественную регрессию можно использовать для прогнозирования объемов продаж на несколько месяцев вперед, а также для уяснения долгосрочных тенденций и понимания, в какие месяцы объемы продаж, как правило, оказываются больше, чем в другие.

Третье. Регулирование и управление процессом.

На вход технологической цепочки, используемой на целлюлозно-бумажном комбинате, поступает целлюлозная масса, а на выходе получается готовая к употреблению бумага. Как управлять столь сложным комплексом оборудования? Одного лишь внимательного изучения технической документации явно недостаточно – чтобы научиться правильно регулировать технологический процесс (с точки зрения минимизации расхода электроэнергии), нужны многие годы практического опыта. Если этот опыт выражается в числах, то анализ множественной регрессии позволяет вам выяснить, какая именно комбинация параметров технологического процесса (Х-переменные) позволяет добиться нужного результата (переменная Y).

Таким образом, прогнозирование одной переменной Y на основании двух или нескольких X-переменных называется множественной регрессией. Целями множественной регрессии являются: (1) описание и понимание соответствующей взаимосвязи, (2) прогнозирование (предсказание) нового наблюдения, (3) регулирование и управление процессом.

Как будут выглядеть результаты множественной регрессии? Прежде всего, мы приведем краткий обзор входных данных и основных результатов. Более подробное их объяснение будет дано позже.

Пусть k означает количество поясняющих переменных (Х- переменных); k может быть любым разумным числом. Ваши элементарные единицы нередко называются наблюдениями; это могут быть клиенты, фирмы, выпускаемые изделия и т.п. По "техническим" причинам у вас должно быть, по крайней мере, на одно наблюдение больше, чем имеется Х- переменных, т.е. n > k+1. Практические соображения диктуют необходимость намного большего числа наблюдений.

Входные данные для обычного множественного регрессионного анализа представлены в табл. 1.

Таблица 1. Входные данные для множественной регрессии

Y 

(зависимая, или объясняемая, переменная)

X1

(первая независимая, или объясняющая, переменная)

X2

(вторая независимая, или объясняющая, переменная)

X

Xk 

(последняя независимая, или объясняющая, переменная)

Наблюдение 1

10,9

2,0

4,7

12,5

Наблюдение 2

23,6

4,0

3,4

12,3

Наблюдение n

6,0

0,5

3,1

7

Сдвиг, или постоянный член, a, определяет прогнозируемое значение Y, когда все переменные X равны 0. Коэффициент регрессии для каждой X-переменной определяет влияние этой Х- переменной на Y при условии, что все остальные Х- переменные не меняются: коэффициент регрессии bj для j-ой X- переменной указывает, какое увеличение Y ожидается, когда все Х- переменные остаются неизменными, за исключением переменной Хj, которая увеличивается на одну единицу. Взятые вместе эти коэффициенты регрессии составляют уравнение прогнозирования, или уравнение регрессии, вида

прогнозируемое значение Y = а + b1X1 + b2X2 + ... + bkXk ,

которое можно использовать в целях прогнозирования или управления. Эти коэффициенты (а, b1, b2, ... bk) обычно вычисляются методом наименьших квадратов, который минимизирует сумму квадратов ошибок прогнозирования. Как известно, в основе процедуры МНК лежит решение системы нормальных уравнений. Например, для трех факторной регрессии система нормальных уравнений будет выглядеть следующим образом:

Решение данной системы не представляет большой сложности, но при наличии персонального компьютера нахождение коэффициентов а, b1, b2, ... bk не предусматривает наличия даже элементарных навыков в области МНК, – все процессы выполняются в автоматическом режиме.

Как и в случае простой регрессии (с единственной Х- переменной), стандартная ошибка оценки, Se указывает приблизительную величину ошибок прогнозирования. И как в случае простой регрессии, R2 является коэффициентом детерминации, который указывает, какой процент вариации Y «объясняется» всеми Х- переменными. В данном случае речь идет не просто о квадрате коэффициента корреляции Y с одной Х- переменной, а о квадрате коэффициента корреляции r переменной Y (фактических значений) с прогнозами (которые вычисляются с помощью уравнения регрессии, найденного методом наименьших квадратов). Такой показатель учитывает все Х- переменные.

Статистический вывод начинается с общей проверки, которую называют F-тестом (F-test). Цель F-теста заключается в том, чтобы выяснить, объясняют ли Х- переменные значимую долю вариации Y. Если ваша регрессия не является значимой, говорить больше не о чем. Если же регрессия оказывается значимой, можно продолжить анализ статистических выводов, используя t-тесты для отдельных коэффициентов регрессии, которые показывают, насколько значимой является влияние той или иной Х- переменной на Y при условии, что все другие Х- переменные остаются неизменными. Построение доверительных интервалов и проверки гипотез для отдельного коэффициента регрессии будут, конечно же, основываться на его стандартной ошибке. Каждый коэффициент регрессии имеет свою стандартную ошибку; они обозначаются Sb1, Sb2, ... , Sbk.

В табл. 2 приведены результаты множественного регрессионного анализа.

Таблица 2. Результаты множественного регрессионного анализа

Название

Результат

Описание

Сдвиг или постоянный член

а

Прогнозируемое значение для У, когда все значения X- переменных равны 0

Коэффициенты регрессии

b1, b2, ... bk

Влияние каждой X- переменной на У при условии, что все другие X- переменные остаются неизменными

Уравнение прогнозирования, или уравнение регрессии

прогнозируемое значение Y = а + b1X1 + b2X2 + ... + bkXk

Прогнозируемое значение У при заданных значениях X- переменных

Ошибки прогнозирования, или остатки

Y –  прогнозируемое значение Y

Ошибка, возникающая для каждого наблюдения в результате использования уравнения прогнозирования вместо фактического значения Y для этого наблюдения

Стандартная ошибка оценки     

Se или S

Приблизительная величина ошибок прогнозирования (типичная разница между фактическим значением Y и его прогнозом исходя из уравнения регрессии)

Коэффициент детерминации     

R2

Процент изменчивости Y, объясняемый всей группой X- переменных

F-тест

Значимый или незначимый

Проверяет, может ли прогноз на основе Х-переменных как группы быть лучше прогноза на основе простой случайности; по сути, проверяет, является ли R2 большим, чем в случае отсутствия взаимосвязи между Х- переменными и Y

t-тесты для отдельных коэффициентов регрессии

Значимый или незначимый, для каждой Х- переменной

Проверяет, влияет ли на Y конкретная Х переменная при условии, что все другие Х переменные остаются неизменными; эту проверку выполняют только тогда, когда F-тест значим

Стандартные ошибки коэффициентов регрессии

Sb1 , Sb2 ,… Sbk 

Указывает выборочную оценку стандартного отклонения каждого коэффициента регрессии; используется обычным способом для нахождения доверительных интервалов и проверки гипотез для отдельных коэффициентов регрессии

Число степеней свободы для стандартных ошибок коэффициентов регрессии

m = k – 1

Используется, чтобы найти в t-таблице соответствующее значение для построения доверительных интервалов и проверки гипотез для отдельных коэффициентов регрессии

Пример. Реклама в журналах

Тарифы на размещение рекламных объявлений в журналах определяются каждым журналом самостоятельно. Чем объясняются различия в тарифах? Возможно, здесь каким-то образом учитывается ценность рекламного объявления для рекламодателя. Журналы, располагающие большей читательской аудиторией (при равных прочих условиях), наверное, вправе устанавливать большие тарифы. Кроме того, журналы, рассчитанные на более состоятельные круги читателей, также вправе устанавливать более высокие тарифы. Несмотря то что наверняка имеются и другие, не менее важные факторы, мы ограничимся лишь указанными двумя, добавив к ним еще один — предпочтения людей разного пола, и выясним, изменяют ли журналы свои тарифы в зависимости от соотношения мужчин и женщин в их читательской аудитории. Ответы на некоторые из этих вопросов можно получить с помощью множественного регрессионного анализа. Такой анализ поможет нам объяснить влияние на тарифы таких факторов, как величина читательской аудитории, структура читательской аудитории по полу и доходы читателей.

В табл. 3 представлена соответствующая многомерная совокупность данных, которую нам предстоит проанализировать. В качестве переменной Y (объясняемой) мы будем рассматривать стоимость одной страницы одноразовой полноцветной рекламы. Объясняющими переменными будут Х1, читательская аудитория (планируемая в тысячах человек), Х2, процент мужчин среди планируемой аудитории, и Х3, медиана дохода семьи. Размер выборки n = 55.

Таблица 3. Тарифы на размещение рекламы и характеристики журналов

Название журнала

Y, тариф (одна страница цветной рекламы), дол.

X1, планируемая аудитория, тыс. человек

Х2, процент мужчин

Х3, медиана дохода семьи, дол

Audubon

25 315

1645

51,1

38 787

Better Homes & Gardens

198 000

34 797

22,1

41933

Business Week

103300

4760

68,1

63 667

Cosmopolitan

94100

15 452

17,3

44 237

Elle

55 540

3735

12,5

47 211

Entrepreneur

40 355

2 476

60,4

47 579

Esquire

51559

3037

71,3

44 715

Family Circle

147 500

24 539

13,0

38 759

first For Women

28 059

3 856

3,6

43 850

Forbes

59 340

4191

68,8

66 606

Fortune

60800

3 891

68,8

58 402

Glamour

85 080

10891

7,8

46331

Goff Digest

98760

6 250

78,9

61323

Good Housekeeping

166 080

25 306

12,6

38 335

Gourmet

49 640

4484

29,6

57 060

Harper's Bazaar

52 805

2 621

11,5

44 992

Inc.

70 825

2166

66,9

72493

Kiplinger's Personal Finance

46580

3332

65,1

63 876

Ladies' Home Journal

127 000

17040

6,8

38442

Life

63 750

14 220

46,9

41770

Mademoiselle

55 910

4804

8,0

46694

Martha Stewart's Living

93 328

4 849

16,6

61890

McCalls

113120

16301

7,6

33 823

Money

98 250

9805

60,6

60549

Motor Trend

79 800

5 281

88,5

48 739

National Geographic

159345

32158

53,0

44 326

Natural History

20180

1775

45,0

41499

Newsweek

148 800

20 720

53,5

53 025

Parents Magazine

72 820

12064

18,2

39369

PC Computing

40 675

4606

67,0

57 916

People

125 000

33 668

34,0

46171

Popular Mechanics

78685

9036

86,9

40802

Reader's Digest

193000

51925

42,4

38 060

Redbook

95 785

13 212

8,9

41 156

Rolling Stone

78 920

8 638

59,8

43 212

Runner's World

36 850

2 078

62,9

60 222

Scientific American

37 500

2 704

70,0

62372

Seventeen

71 115

5 738

17,0

37 034

Ski

32 480

2 249

64,5

58 629

Smart Money

42 900

2 224

63,4

57170

Smithsonian

73 075

8 253

47,9

50872

Soap Opera Digest

35 070

7 227

10,3

31835

Sports Illustrated

162 000

21602

78,8

45 897

Sunset

56 000

5 276

38,7

52 524

Teen

53 250

3 057

15,4

42640

The New Yorker

62 435

3 223

48,9

49672

Time

162 000

22 798

52,4

49166

True Story

17100

3582

12,2

15734

TV Guide

146400

40917

42,8

37 396

U.S. News & World Report

98 644

9 825

57,5

52 018

Vanity Fair

67 890

4 307

27,7

52189

Vogue

63 900

8434

12,9

44 242

Woman's Day

137 000

22 747

6,7

38463

Working Woman

87 500

3312

6,3

44 674

YM

73 270

3109

14,4

43 696

Среднее значение

83 534

10913

39,7

47 710

Среднеквадратическое отклонение

45446

11212

25,9

10 225

В табл. 4 представлена компьютерная распечатка результатов анализа множественной регрессии. Например, с помощью Excel можно выполнить анализ множественной регрессии. Найдите пункт Data Analysis (Анализ данных) в меню Tools (Сервис) и выберите команду Regression (Регрессия). Если в меню Tools (Сервис) отсутствует пункт Data Analysis (Анализ данных), то сначала убедитесь, что вы выбрали ячейку электронной таблицы (а не график, например). Если вы все же не можете найти Data Analysis (Анализ данных), поищите пункт меню Add-Ins (Надстройки) и поставьте отметку возле Analysis ToolPak (Пакет анализа). Если это не поможет, то, видимо, необходимо переустановить Excel.

Таблица 4. Результат множественной регрессионного анализа тарифов на размещение рекламы в журналах (вычисления сделаны в Excel)

ВЫВОД ИТОГОВ

Регрессионная статистика

Множествен. R

0,887

R-квадрат

0,787

Нормированный

R-квадрат

0,775

Стандартная ошибка

21577,870

Наблюдения

55

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

3

87780733202

29260044401

62,843

0,000000

Остаток

51

23745829151

465604493

Итого

54

111525962353

Коэффициенты

Стандартная ошибка

t-

статистика

P-

значение

Нижние

95%

Верхние

95%

Y-пересечение

4042,799

16884,039

0,239

0,812

-29853,298

37938,895

Переменная X 1

3,788

0,281

13,484

0,000

3,224

4,352

Переменная X 2

-123,634

137,849

-0,897

0,374

-400,377

153,108

Переменная X 3

0,903

0,370

2,442

0,018

0,161

1,645


 

А также другие работы, которые могут Вас заинтересовать

11787. Анализ рынков с помощью ресурсов Интернета 216.5 KB
  Методические указания к выполнению лабораторных работ по курсу Мировые информационные ресурсы Анализ рынков с помощью ресурсов Интернета Методические указания к выполнению лабораторных работ предназначены для студентов специальности 080801.65 Прикладна...
11788. Работа с сервисами в Интернете 304 KB
  Методические указания к выполнению лабораторных работ по курсу Мировые информационные ресурсы Работа с сервисами в Интернете Методические указания к выполнению лабораторных работ предназначены для студентов специальности 080801.65 Прикладная информатика
11789. Работа со специализированными базами данных в Интернете 732.5 KB
  Методические указания к выполнению лабораторных работ по курсу Мировые информационные ресурсы Работа со специализированными базами данных в Интернете Методические указания к выполнению лабораторных работ предназначены для студентов специальности 080801.6...
11790. Средства поиска информации в Интернете 907 KB
  Методические указания к выполнению лабораторных работ по курсу Мировые информационные ресурсы Средства поиска информации в Интернете Методические указания к выполнению лабораторных работ предназначены для студентов специальности 080801.65 Прикладная инфо
11791. Работа в виртуальной машине Microsoft Virtual PC 259.48 KB
  Отчёт по лабораторной работе №1: Работа в виртуальной машине Microsoft Virtual PC Список причин выключения компьютера раздела Shutdown Event Tracker: Other Planned – Выключение или перезагрузка по неизвестной причине. Выберите эту опцию если другие причины выключения/перезагру
11793. Современное состояние и перспективы развития токсикологии отравляющих и аварийно-опасных химических веществ (АОХВ) 106 KB
  В настоящее время в РФ функционирует более 3.5 тыс. объектов, на которых имеются СДЯВ. Суммарная площадь загрязнения при потенциальных авариях может захватить территорию, на которой проживает более трети населения страны. Статистика последних лет свидетельствует, что ежегодно происходит около 50 крупных аварий с выбросов СДЯВ
11794. ОСНОВЫ ГРАЖДАНСКОЙ ОБОРОНЫ 122.5 KB
  Уровень готовности общества к решению этих задач в значительной степени определяется подготовленностью широких слоев населения к действиям в чрезвычайных ситуациях мирного и военного времени.
11795. Маршрутизация в IP-сетях 85.4 KB
  Лабораторная работа №3 Маршрутизация в IPсетях Цели работы: научиться объединять две сети при помощи компьютера исполняющего роль маршрутизатора; научиться настраивать Windows Server 2003 в качестве маршрутизатора; изучить возможности утилиты route. За...