17624

Двухфакторная линейная модель: предсказание одного фактора на основании другого

Лекция

Экономическая теория и математическое моделирование

Тема: Двухфакторная линейная модель: предсказание одного фактора на основании другого План: Коэффициент корреляции. Диаграмма рассеяния. Регрессионный анализ. Проверка надежности регрессионной модели. Прогнозирование. Тремя основными целя...

Русский

2013-07-05

115 KB

3 чел.

Тема: «Двухфакторная линейная модель: предсказание одного фактора на основании другого»

План:

  1.  Коэффициент корреляции.
  2.  Диаграмма рассеяния.
  3.  Регрессионный анализ.
  4.  Проверка надежности регрессионной модели.
  5.  Прогнозирование.

Тремя основными целями анализа двумерных данных, представленных парами (Х, У), являются: (1) описание и понимание взаимосвязи, (2) прогнозирование и предсказание нового наблюдения и (3) корректировка и управление процессом.

Корреляционный анализ позволяет сделать вывод о силе взаимосвязи, а регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, У на основании X).

Двумерные данные анализируют с использованием диаграммы рассеяния в координатах У и X, которая дает визуальное представление о взаимосвязи в данных. Корреляция, или точнее линейный коэффициент корреляции (г), представляет собой безразмерное (не имеющее единиц измерения) число в диапазоне от -1 до 1, которое характеризует силу взаимосвязи. Равенство коэффициента корреляции 1 свидетельствует об идеальной взаимосвязи в виде прямой линии с наклоном вверх. Равенство коэффициента корреляции -1 свидетельствует об идеальной взаимосвязи в виде наклоненной вниз (отрицательно) прямой линии. Коэффициент корреляции говорит о том, насколько близко к этой наклоненной прямой линии расположены точки диаграммы, однако он не характеризует крутизну наклона этой линии. Формула вычисления коэффициента корреляции для тех, кто умеет пользоваться Excel имеет следующий вид:

.

Ковариация X и У представляет собой числитель в формуле для коэффициента корреляции. Поскольку единицы измерения ковариации трудно интерпретировать, удобнее работать с коэффициентом корреляции.

Корреляцию нельзя рассматривать как причинную обусловленность. Коэффициент корреляции характеризует связь между числами, но не объясняет ее. Корреляция может быть вызвана тем, что переменная X влияет на У, или тем, что переменная У влияет на X. Кроме того, корреляция может быть вызвана также тем, что на X и У влияет некий скрытый "третий фактор", что создает впечатление связи между X и У. Термином ложная корреляция обозначают высокую корреляцию, которая возникает благодаря действию некоторого третьего фактора.

При анализе двумерной диаграммы рассеяния можно обнаружить различные взаимосвязи. Простейшей, с точки зрения анализа, является линейная взаимосвязь, которая выражается в том, что точки на диаграмме рассеяния с постоянным разбросом группируются случайным образом вдоль прямой линии. Диаграмма свидетельствует об отсутствии взаимосвязи, если точки размещены случайно и при перемещении слева направо невозможно обнаружить какой-либо уклон (ни вверх, ни вниз). Двумерная диаграмма рассеяния характеризуется нелинейной взаимосвязью, если точки на ней группируются вдоль кривой, а не прямой линии. Поскольку количество видов кривых практически безгранично, анализ нелинейной взаимосвязи оказывается намного сложнее, однако взаимосвязь можно приблизить к линейной, применив к данным соответствующее преобразование. Проблема неравной вариации возникает тогда, когда при перемещении по горизонтали на диаграмме рассеяния вариация точек по вертикали сильно меняется. Неравная вариация приводит к снижению надежности коэффициента корреляции и регрессионного анализа. Проблему неравной вариации можно решить с помощью соответствующих преобразований данных или с помощью, так называемой взвешенной регрессии. Проблема кластеринга (разделение совокупности на группы более однородных объектов) возникает в случае образования на диаграмме рассеяния отдельных, ярко выраженных групп точек; в таких случаях каждую группу следует анализировать отдельно. Некоторая точка данных является выбросом (резко отклоняющимся значением), если она не соответствует взаимосвязи между остальными данными; резко отклоняющиеся значения могут исказить статистические характеристики двумерной совокупности данных.

Регрессионный анализ заключается в прогнозировании одной переменной на основании другой. Линейный регрессионный анализ прогнозирует значение одной переменной на основании другой с помощью прямой линии. Наклон этой линии, выражается в единицах измерения У на одну единицу X и характеризует крутизну подъема или спуска (если b отрицательное) линии. Сдвиг, a, равен значению, которое принимает У при X, равном 0. Уравнение прямой линии имеет следующий вид:

Y = Сдвиг + (Наклон)(Х) = а + bХ .

Линия наименьших квадратов характеризуется наименьшей из всех возможных линий суммой возведенных в квадрат ошибок прогнозирования по вертикали и используется как лучшая линия прогнозирования, основанная на данных. Наклон этой линии, b, называют также коэффициентом регрессии У по X, а сдвиг а (отрезок отсекаемый на оси У) называют также постоянным членом регрессии. Ниже приведены уравнения для наклона и сдвига, соответствующие линии наименьших квадратов.

Наклон равен:                                    .

Сдвиг равен:                      .

Формула для линии наименьших квадратов имеет следующий вид:

Прогнозируемое значение У равно:

.

Прогнозируемое значение для У при заданном значении X определяется путем подстановки этого значения X в уравнение для линии наименьших квадратов. Каждая из точек данных характеризуется остатком – ошибкой прогнозирования, указывающей, насколько выше или ниже линии находится точка.

Существуют две меры соответствия линии наименьших квадратов имеющимся данным. Стандартная ошибка оценки (или предсказания), которую обозначают , приблизительно указывает величину ошибок прогнозирования (остатков) для имеющихся данных в тех же единицах, в которых измерена и переменная У. Соответствующие формулы приведены ниже.

(для вычисления)

(для интерпретации).

Значение , часто называемое коэффициентом детерминации, говорит о том, какой процент вариации У объясняется поведением X.

Доверительные интервалы и проверка гипотез для коэффициента регрессии связаны с определенными предположениями относительно анализируемой совокупности данных, которые должны гарантировать, что она состоит из независимых наблюдений, характеризующихся линейной взаимосвязью с равной вариацией и приблизительно нормально распределенной случайностью. Во-первых, эти данные должны представлять собой произвольную выборку из интересующей нас генеральной совокупности. Во-вторых, линейная модель указывает, что наблюдаемое значение У определяется взаимосвязью в генеральной совокупности плюс случайная ошибка, имеющая нормальное распределение. Существуют параметры генеральной совокупности, соответствующие наклону и сдвигу линии наименьших квадратов, построенной на данных выборки:

Y = (α+βХ)+ε =

= (Взаимосвязь в генеральной совокупности) + случайность.

где ε имеет нормальное распределение со средним значением, равным 0, и постоянным стандартным отклонением σ.

Статистические выводы (использование доверительных интервалов и проверки статистических гипотез) относительно коэффициентов линии наименьших квадратов основываются, как обычно, на их стандартных ошибках и значениях из t-таблицы для п - 2 степеней свободы. Стандартная ошибка коэффициента наклона, , указывает приблизительную величину отклонения оценки наклона, b (коэффициент регрессии, вычисленный на основе данных выборки), от наклона в генеральной совокупности, β, вызванного случайным характером выборки. Стандартная ошибка сдвига, , указывает приблизительно, насколько далеко оценка сдвига а отстоит от истинного сдвига α в генеральной совокупности. Соответствующие формулы выглядят следующим образом:

стандартная ошибка коэффициента регрессии b:

стандартная ошибка сдвига:

.

Доверительный интервал для наклона в генеральной совокупности, β:

от  до .

Доверительный интервал для сдвига в генеральной совокупности, α:

от  до .

Один из способов проверки, является ли обнаруженная взаимосвязь между X и У реальной или это просто случайное совпадение, заключается в сравнении β с заданным значением β0 = 0. О значимой связи можно говорить в том случае, если 0 не попадает в доверительный интервал, базирующийся на b и Sb, или если абсолютное значение t = b/Sb превосходит соответствующее t-значение в t-таблице.

t – таблица  (t - критерий Стьюдента)

Доверительный интервал

Двухсторонний

80%

90%

95%

98%

99%

99,8%

99,9%

Односторонний

90%

95%

97,5%

99%

99,5%

99,9%

99,95%

Уровень значимости проверки гипотезы

Двухсторонний тест

0,20

0,10

0,05

0,02

0,01

0,002

0,001

Односторонний тест

0,10

0,05

0,025

0,01

0,005

0,001

0,0005

В целом: степени свободы

Критические значения t

1

3,078

6,314

12,706

31,821

63,657

318,309

636,619

2

1,886

2,920

4,303

6,965

9,925

22,327

31,599

3

1,638

2,353

3,182

4,541

5,841

10,215

12,924

4

1,533

2,132

2,776

3,747

4,604

7,173

8,610

5

1,476

2,015

2,571

3,365

4,032

5,893

6,869

6

1,440

1,943

2,447

3,143

3,707

5,208

5,959

7

1,415

1,895

2,365

2,998

3,499

4,785

5,408

8

1,397

1,860

2,306

2,896

3,355

4,505

5,041

9

1,383

1,833

2,262

2,821

3,250

4,297

4,781

10

1,372

1,812

2,228

2,764

3,169

4,144

4,587

11

1,363

1,796

2,201

2,718

3,106

4,025

4,437

12

1,356

1,782

2,179

2,681

3,055

3,930

4,318

13

1,350

1,771

2,160

2,650

3,012

3,852

4,221

14

1,345

1,761

2,145

2,624

2,977

3,787

4,140

15

1,341

1,753

2,131

2,602

2,947

3,733

4,073

38

1,304

1,686

2,024

2,429

2,712

3,319

3,566

39

1,304

1,685

1,023

2,426

2,708

3,313

3,558

Бесконечность

1,282

1,645

1,960

2,326

2,576

3,090

3,291

Эта проверка эквивалентна проверке значимости коэффициента корреляции и означает, по сути, то же самое, что и F-тест для случая, когда уравнение содержит только одну переменную X. Разумеется, любой из коэффициентов (a или b) можно сравнить с любым подходящим заданным значением, воспользовавшись одно- или двусторонней проверкой (в зависимости от конкретных обстоятельств) и с использованием тех же методов проверки, что были рассмотрены для среднего генеральной совокупности.

Для прогнозирования среднего значения нового наблюдения У при условии, что X = Х0 (где Х0 – интересующий исследователя параметр X, который еще ни разу не встречался в обыденной практике), неопределенность прогноза оценивают с помощью стандартной ошибки прогноза S(прогнозируемое Y/X0),  которая также имеет п – 2 степеней свободы. Это позволяет построить доверительные интервалы и проверить гипотезы для нового наблюдения:

Доверительный интервал для прогнозируемого среднего значения У при заданном значении Х0 имеет следующий вид:

от

до


 

А также другие работы, которые могут Вас заинтересовать

33892. Внешняя политика СССР в послевоенный период: отношения с Западными странами. Холодная война 54 KB
  Внешняя политика СССР в послевоенный период: отношения с Западными странами. Внешнеполитическая доктрина СССР – против поддержки социалистических стран – принцип мирного сосуществования. тезис о враждебности капиталистического окружения СССР. Сначала у СССР была мирная внешнеполитическая доктрина затем ужесточилось так же и у США.
33893. СССР и страны Центральной и Восточной Европы в послевоенный период. Роль СССР в формировании мировой системы социализма 35 KB
  СССР и страны Центральной и Восточной Европы в послевоенный период. Роль СССР в формировании мировой системы социализма. В 19451946 существовали коалиционные правительства в Западной Европе потом постепенно произошел переход к коммунистическим режимам: Румыния – отречение Михая Болгария – конституция 1947 и усиление позиций коммунистов Польша – отставка коалиционного правительства Венгрия – победа коммунистов на выборах Чехословакия – сопротивление события 1948 надежда сохранить отношения и с СССР и с Западом. В сентябре...
33894. Поиск путей обновления общественно-политической жизни в СССР в 1953-1955 гг 37 KB
  Маленков председатель Совмина глава министерства Берия – МВД МГБ зам председателя совмина Каганович – первый заместитель председателя Совета Министров СССР с 1952 года член Президиума ЦК КПСС Молотов – МИД Булганин – министр обороны Ворошилов – председатель президиума верховного совета. После этого большую власть получил Маленков заявление о группе В нужно поднимать деревню. На ней учредили пост 1 секретаря на который избрали Хрущева доклад Хрущева о с х Январь 1955 – пленум ЦК КПСС слушалось дело Маленкова которого обвинили в...
33895. ХХ съезд КПСС и его историческое значение. Борьба с оппозицией в послевоенный период 27.5 KB
  Первоначально преодоление культа личности сводилось к перестройке пропаганды 1953 но Маленков заявил что дело не только в этом ведь этот вопрос связан с вопросом коллективного руководства.1956 – доклад Хрущева О культе личности и его последствиях. Идея попытки преодолеть культ личности принадлежит Маленкову а не Хрущеву. Все идеи доклада были повторены в постановлении ЦК: в стране сложился культ личности Сталина вопрос о причинах свелся к личным качествам Сталина опубликованы последние работы Ленина культ личности не...
33896. Индустриальное развитие страны в 50-х гг 53.5 KB
  Индустриальное развитие страны в 50х гг. широкое развитие получает НТП. Индустриальное развитие шло по пятилеткам – 19511955 пятая 19561960 шестая. Достижения в транспорте – воздушный реактивные самолеты в пассажирских перевозках водный суда на подводных крыльях морской атомный ледокол сухопутный переход на электровозы и электрички автомобильный примитивное развитие трубопроводный трубопровод Дружба.
33897. Сельское хозяйство СССР в 50-х гг 27.5 KB
  Еще на XIX съезде заявили что продовольственная проблема решена но это было ложью. Вопрос о насыщении с х техникой и снабжении кадрами для этой техники проблема кадров инженернотехнического профиля. В январе 1955 на пленуме Хрущев поставил задачу подъема животноводства проблема кормов. Проблема раскрестьянивания – одна из главных в нашей историографии.
33898. Попытки перестройки системы управления народным хозяйством в 50-х – первой половине 60-х гг 38 KB
  Попытки перестройки системы управления народным хозяйством в 50х – первой половине 60х гг. Попытка усовершенствования структуры управления – рычага АКС: признано что главный порок экономики – чрезмерная централизация управления многоступенчатость управления до 6 звеньев огромное количество чиновников отрыв аппарата от управления производством. Вопросы реформирования управления промышленность ставились на XX съезде. С 1957 началась реформа управления промышленностью.
33899. Развитие искусства в период «оттепели». Международные культурные связи 30 KB
  Развитие искусства в период оттепели. проявилась ограниченность развитие связей с заграницей международный конкурс Чайковского в 1958 с 1956 проводиться в Москве кинофестиваль в 1956 выставка Дрезденской галереи в Москве 1957 –фестиваль молодежи в Москве новые произведения антисталинсткой направленности Солженицын. качественные изменения в материальной базе культуры радиофикация электрификация развитие телевидения. развитие альтернативного искусства в литературе.
33900. Внешнеполитическая деятельность СССР в 50-х – начале 60-х гг.: отношения с социалистическими странами 34 KB
  Внешнеполитическая деятельность СССР в 50х – начале 60х гг. СССр послал в Югославию комиссии для изучения того что сделано за годы разрыва. Официальный разрыв в 1960 когда КПК обвинила СССР в ревизионизме. Отказавшись от курса на мировую революцию СССР продолжал занимать руководящие позиции в лагере социалистических стран.