17627

Статистические выводы по многофакторной модели

Лекция

Экономическая теория и математическое моделирование

Тема: Статистические выводы по многофакторной модели Насколько хороши наши прогнозы Этот раздел следует рассматривать в основном как обзор поскольку стандартное отклонение оценки Se и коэффициент детерминации R2 имеют для множественной регрессии вообще гово

Русский

2013-07-05

247 KB

3 чел.

Тема: «Статистические выводы по многофакторной модели»

Насколько хороши наши прогнозы? Этот раздел следует рассматривать в основном как обзор, поскольку стандартное отклонение оценки, Se , и коэффициент детерминации, R2, имеют для множественной регрессии, вообще говоря, ту же интерпретацию, что и для простой регрессии. Единственное отличие заключается в том, что ваши прогнозы теперь базируются на нескольких X- переменных. Но все остается очень похоже, поскольку вы по-прежнему прогнозируете только одну переменную Y.

Типичная ошибка прогнозирования: стандартная ошибка предсказания.

Как и в случае простой регрессии, когда мы имеем дело лишь с одной X-переменной, стандартная ошибка оценки (предсказания) указывает приблизительную величину ошибок прогнозирования.

Возвращаясь к нашему примеру с тарифами на размещение рекламы в журналах, Se = $21578. Это говорит о том, что фактические тарифы на размещение рекламы в этих журналах, как правило, отклоняются от прогнозируемых тарифов не более чем на $21578 (речь идет о стандартном отклонении). Иными словами, если распределение ошибок является нормальным, то можно ожидать, что примерно 2/3 фактических тарифов будут находиться в пределах Se от прогнозируемых тарифов; примерно 95% — в пределах 2Se и т.д.

Эта стандартная ошибка оценки, Se = $21578, указывает остаток вариации тарифов после того, как вы использовали Х- переменные (величина читательской аудитории, процент мужчин и медиана дохода) в уравнении регрессии для прогнозирования тарифов каждого журнала. Сравните этот показатель с обычным стандартным отклонением одной переменной для тарифов, SY = $45446, вычисленным без использования других переменных. Это стандартное отклонение, SY, указывает остаток вариации тарифов после того, как вы использовали для прогнозирования тарифов каждого журнала только значение У. Заметьте, что Se = $21578 меньше, чем SY = $45446; ошибки, как правило, оказываются меньше, если для прогнозирования тарифов использовать уравнение регрессии, а не просто . Как видите, Х- переменные полезны для объяснения размеров тарифов.

Это можно представить себе следующим образом. Если вам ничего неизвестно об Х- переменных, вы будете использовать в качестве оптимальной приблизительной оценки среднее значение тарифа ( = $83534) и будете ошибаться приблизительно на SY = $45446. Но если вам известны такие характеристики, как величина читательской аудитории, процент мужчин и средний доход, то для прогнозирования тарифов можно воспользоваться уравнением регрессии; в этом случае вы ошибетесь примерно на Se = $21578. Такое сокращение ошибки прогнозирования (с $45446 до $21578) и является одним из преимуществ использования регрессионного анализа.

Объясненный процент вариации: R2

Коэффициент детерминации (часто также используют термин «квадрат множественной корреляции»), R2,указывает, какой процент вариации Y объясняется влиянием всех Х- переменных.

Если вернуться к нашему примеру с тарифами на размещение рекламы в журналах, то коэффициент детерминации, R2 = 0,787, или 78,7%, указывает на то, что независимые переменные (Х- переменные величины читательской аудитории, процент мужчин и средний доход) объясняют 78,7% вариации тарифов. При этом 21,3% остаются необъясненными и связываются с влиянием других факторов. 78,7% — довольно большое значение R2; во многих исследованиях приходится работать со значительно меньшими величинами, которые, тем не менее, обеспечивают достаточно качественные прогнозы. Желательно, чтобы значение R2 было как можно большим (большие значения R2 свидетельствуют о том, что исследуемая взаимосвязь является достаточно сильной). В идеальном случае R2 = 100%; это возможно лишь в том случае, когда все ошибки прогнозирования равны 0 (что, как правило, свидетельствует о наличии ошибок в другом месте!).

Статистический вывод в случае множественной регрессии: F-тест

Полученные нами к настоящему времени результаты регрессии представляют собой достаточно полное описание исследуемых (п = 55) журналов, однако статистический вывод помог бы нам обобщить этот случай на идеализированную популяцию подобных им журналов. Вместо того чтобы просто констатировать тот факт, что увеличение на один процент числа читателей-мужчин приводит к уменьшению тарифа на размещение рекламы в среднем на $124, можно сделать статистический вывод относительно большой генеральной совокупности журналов такого типа, из которой вполне могли бы быть извлечены имеющиеся данные, и попытаться выяснить, существует ли в действительности какая-либо взаимосвязь между полом читателей журнала и тарифами на рекламу, или коэффициент регрессии, равный -$124, можно объяснить просто случайностью. Может ли быть так, что обнаруженное нами влияние процента читателей-мужчин на стоимость рекламы – это просто случайное число, а не свидетельство наличия систематической взаимосвязи? Ответ на этот вопрос можно получить с помощью статистического вывода.

Чтобы не усложнять пример, предположим, что мы располагаем случайной выборкой из намного большей генеральной совокупности. Допустим также, что эта генеральная совокупность характеризуется линейной взаимосвязью со случайностью, представленной моделью множественной линейной регрессии, в соответствии с которой наблюдаемое значение Y определяется взаимосвязью в генеральной совокупности плюс нормально распределенная случайная ошибка. Предполагается также, что эти случайные ошибки для разных наблюдений (элементарных единиц наших данных) не зависят друг от друга.

Модель множественной регрессий для генеральной совокупности:

Y = (α + β1X1 + β2Х2 + ... + βkXk ) + ε

= (взаимосвязь в генеральной совокупности) + случайность,

где ε характеризуется нормальным распределением со средним значением 0 и постоянным стандартным отклонением σ, причем эта случайность является независимой для каждого из наблюдений (элементарных единиц данных).   

Взаимосвязь в генеральной совокупности определяется k + 1 параметрами: α представляет сдвиг (или постоянный член) для генеральной совокупности, a β1, β2,…, βk являются коэффициентами регрессии для генеральной совокупности, которые показывают среднее влияние каждой из Х- переменных на У (в данной генеральной совокупности), при условии, что все остальные Х- переменные остаются неизменными. Если бы вы имели данные обо всей генеральной совокупности, то полученные вами с помощью метода наименьших квадратов коэффициенты регрессии ничем не отличались бы от соответствующих коэффициентов, описывающих связь в генеральной совокупности. Как правило, однако, полученный методом наименьших квадратов сдвиг а является лишь статистической оценкой α, а полученные методом наименьших квадратов коэффициенты регрессии b1, b2, ..., bk представляют лишь статистические оценки β1, β2,…, βk соответственно. Существуют, конечно же, ошибки, обусловленные процессом оценивания, поскольку выборка намного меньше всей генеральной совокупности.

Значима ли модель? Статистический вывод начинается с F-теста, целью которого является выяснение, объясняют ли Х- переменные значимую часть вариации Y. F-тест используется как «входные ворота» в статистический вывод: если этот тест значим, следовательно, связь существует и можно приступать к ее исследованию и объяснению. Если этот тест незначим, то мы имеем дело с набором не связанных между собой случайных чисел – объяснять, в сущности, нечего. Помните, что, когда вы принимаете нулевую гипотезу, это считается слабым заключением. Вы не доказали, что взаимосвязи нет: вам просто не хватает убедительных доводов в пользу наличия такой взаимосвязи. Взаимосвязь вполне может существовать, но из-за случайности или малого размера выборки вы не в состоянии обнаружить ее с помощью тех данных, которые имеются в вашем распоряжении.

Нулевая гипотеза для F-теста утверждает, что в генеральной совокупности между Х- переменными и Y прогнозирующая взаимосвязь отсутствует. Иначе говоря, Y является чисто случайной величиной и значения Х- переменных не оказывают на Y никакого влияния. Если посмотреть на модель множественной линейной регрессии, то это утверждение означает, что Y = α + ε, что может иметь место в том случае, если все коэффициенты регрессии в генеральной совокупности равны 0.

Альтернативная гипотеза F-теста утверждает, что в генеральной совокупности между Х- переменными и Y существует определенная прогнозирующая взаимосвязь. Таким образом, переменная Y уже не является чисто случайной величиной и должна зависеть по крайней мере от одной из Х- переменных. Иными словами, альтернативная гипотеза утверждает, что по крайней мере один из коэффициентов регрессии не равен 0. Обратите внимание: вовсе не обязательно, чтобы каждая из Х- переменных влияла на Y – достаточно, чтобы влияла хотя бы одна из них.

В F-тесте используются следующие статистические гипотезы:

H0 : β1 = β2 = ... = βk = 0;

H1 : по крайней мере один из коэффициентов регрессии β1, β2, ... , βk   0.

Выполнить F-тест проще всего, отыскав в результатах работы компьютерной программы подходящее р-значение и интерпретировав результирующий уровень значимости. Если р-значение больше, чем 0,05, то полученный результат не является значимым. Если же это р-значение меньше, чем 0,05, то полученный результат является значимым. Если р < 0,01, тогда полученный результат является высоко значимым, и т.д.

Еще один способ выполнения F-теста заключается в сравнении значения R2 (процент вариации Y, который объясняется Х- переменными) со значениями из таблицы критических значений R2 для подходящего уровня тестирования (например, 5%). Если значение R2 оказывается достаточно большим, тогда регрессия считается значимой, т.е. удалось объяснить больше, чем просто случайную величину вариации Y. Эта таблица индексирована по п (количество наблюдений) и k (количество Х- переменных).

Традиционный способ выполнения F-теста интерпретировать несколько сложнее, но он всегда дает тот же результат, что и таблица критических значений R2. Классический F-тест, как правило, выполняется путем вычисления Fстатистики и сравнения ее с критическим значением из F-таблицы для соответствующего уровня тестирования. При этом используются два разных числа степеней свободы: число степеней свободы k1 (количество Х- переменных, предназначенных для объяснения Y или количество параметров в уравнении регрессии минус единица, т.е. k1 = m – 1) и число степеней свободы k2 = nm (где. nколичество наблюдений в выборке, а m – количество параметров в уравнении регрессии).

В то же время Fстатистика является излишним усложнением, поскольку значение R2 можно проверить непосредственно. Более того, R2 имеет более непосредственную интерпретацию, чем Fстатистика, поскольку R2 говорит о той части вариации Y, которая учитывается (или объясняется) Х- переменными, тогда как F не имеет столь простой и непосредственной интерпретации в терминах исходных данных. Какой бы подход – F или R2вы ни использовали, ответ (о значимости или не значимости) всегда будет одним и тем же на любом уровне тестирования.

Почему же по традиции используется более сложная Fстатистика, в то время как вместо нее можно было бы обратиться к тесту R2, допускающему более удобную и непосредственную интерпретацию? Возможно, все объясняется именно сложившейся традицией, а возможно, и тем, что уже давно и с успехом на практике применяются именно F-таблицы. Использование осмысленного числа (такого как R2) позволяет глубже понять исследуемую ситуацию и выглядит предпочтительнее, особенно когда речь идет о сфере бизнеса.

Результат F-теста (решение принимается на основе р-значения)

Если р-значение больше, чем 0,05, значит, соответствующая модель не является значимой (вы принимаете нулевую гипотезу о том, что Х- переменные не помогают прогнозировать Y). Если р-значение оказывается меньше, чем 0,05, значит, соответствующая модель является значимой (вы отвергаете нулевую гипотезу и принимаете альтернативную гипотезу о том, что Х- переменные помогают прогнозировать Y).

Результат F-теста (решение принимается на основе R2)

Если значение R2 меньше, чем критическое значение в таблице R2, значит, соответствующая модель не является значимой.. Если значение R2 больше, чем критическое значение в таблице R2, значит, соответствующая модель является значимой. Этот ответ в любом случае будет таким же, как результат, полученный с помощью р-значения.

Результат F-теста (решение принимается на основе критерия F)

Если значение F оказывается меньше, чем критическое значение в F-таблице, значит, соответствующая модель не является значимой. Если значение F оказывается больше, чем критическое значение в F-таблице,- соответствующая модель является значимой. Этот ответ в любом случае будет таким же, как результат, полученный с помощью р-значения или R2.

Помните, что статистический смысл термина «значимый» несколько отличается от его обыденного смысла. Когда вы находите значимую модель регрессии, то знаете, что взаимосвязь между Х- переменными и Y оказывается сильнее, чем обычно можно было бы ожидать от чистой случайности. Другими словами, в этой ситуации можно говорить о наличии определенной взаимосвязи. Эта взаимосвязь может быть сильной или полезной в том или ином практическом смысле (а может, и не быть таковой) – эти вопросы требуют специального рассмотрения, – но она достаточно сильна, чтобы не выглядеть как чистая случайность.

Если вернуться к нашему примеру с тарифами на размещение рекламы в журналах, то соответствующее уравнение прогнозирования действительно объясняет значимую долю отклонения в тарифах, на что указывает в результатах работы компьютерной программы р-значение 0,000000 справа от значения F, равного 62,843. В табл. 1 содержится часть результатов работы компьютерной программы, приведенных в предыдущей лекции. 

Таблица 1. Результат множественной регрессионного анализа тарифов на размещение рекламы в журналах  

ВЫВОД ИТОГОВ

Регрессионная статистика

Множествен. R

0,887

R-квадрат

0,787

Нормированный

R-квадрат

0,775

Стандартная ошибка

21577,870

р-значение

Наблюдения

55

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

3

87780733202

29260044401

62,843

0,000000

Остаток

51

23745829151

465604493

Итого

54

111525962353

Это говорит о том, что действительно обнаруживается устойчивая зависимость тарифов от этих факторов (или по крайней мере от одного из этих факторов), т.е. тарифы не являются чисто случайными величинами. Вам по-прежнему неизвестно, какие именно из этих Х- переменных реально участвуют в прогнозировании Y, но вам доподлинно известно, что есть по крайней мере одна такая переменная.

Чтобы выяснить с помощью R2, действительно ли уравнение регрессии является значимым, отметим, что коэффициент детерминации R2 = 0,787, или 78,7%. Таблица R2 для тестирования на уровне 5% в случае п=55 журналов и k=3 переменных (табл. 2) дает критическое значение 0,141, или 14,1%. Для того чтобы уравнение было значимым на привычном уровне 5%, X- переменные должны объяснять лишь 14,1% вариации тарифов (Y). Поскольку они объясняют больше, регрессию следует признать значимой.

Таблица 2. Таблица R2: критические значения для уровня 5% (значимо)

Количество наблюдений

(n)

Количество Х-переменных (k)

1

2

3

4

5

6

7

8

9

10

3

0,994

4

0,902

0,997

5

0,771

0,950

0,998

6

0,658

0,864

0,966

0,999

7

0,569

0,776

0,903

0,975

0,999

8

0,499

0,698

0,832

0,924

0,980

0,999

9

0,444

0,632

0,764

0,865

0,938

0,983

0,999

10

0,399

0,575

0,704

0,806

0,887

0,947

0,985

0,999

11

0,362

0,527

0,651

0,751

0,835

0,902

0,954

0,987

1,000

12

0,332

0,486

0,604

0,702

0,785

0,856

0,914

0,959

0,989

1,000

13

0,306

0,451

0,563

0,657

0,739

0,811

0,872

0,924

0,964

0,990

14

0,283

0,420

0,527

0,618

0,697

0,768

0,831

0,885

0,931

0,967

15

0,264

0,393

0,495

0,582

0,659

0,729

0,791

0,847

0,896

0,937

16

0,247

0,369

0,466

0,550

0,624

0,692

0,754

0,810

0,860

0,904

17

0,232

0,348

0,440

0,521

0,593

0,659

0,719

0,775

0,825

0,871

18

0,219

0,329

0,417

0,494

0,564

0,628

0,687

0,742

0,792

0,839

19

0,208

0,312

0,397

0,471

0,538

0,600

0,657

0,711

0,761

0,807

20

0,197

0,297

0,378

0,449

0,514

0,574

0,630

0,682

0,731

0,777

21

0,187

0,283

0,361

0,429

0,492

0,550

0,604

0,655

0,703

0,749

22

0,179

0,270

0,345

0,411

0,471

0,527

0,580

0,630

0,677

0,722

23

0,171

0,259

0,331

0,394

0,452

0,507

0,558

0,607

0,653

0,696

24

0,164

0,248

0,317

0,379

0,435

0,488

0,538

0,585

0,630

0,673

25

0,157

0,238

0,305

0,364

0,419

0,470

0,518

0,564

0,608

0,650

26

0,151

0,229

0,294

0,351

0,404

0,454

0,501

0,545

0,588

0,629

27

0,145

0,221

0,283

0,339

0,390

0,438

0,484

0,527

0,569

0,609

28

0,140

0,213

0,273

0,327

0,377

0,424

0,468

0,510

0,551

0,590

29

0,135

0,206

0,264

0,316

0,365

0,410

0,453

0,495

0,534

0,573

30

0,130

0,199

0,256

0,306

0,353

0,397

0,439

0,480

0,518

0,556

31

0,126

0,193

0,248

0,297

0,342

0,385

0,426

0,466

0,503

0,540

32

0,122

0,187

0,240

0,288

0,332

0,374

0,414

0,452

0,489

0,525

33

0,118

0,181

0,233

0,279

0,323

0,363

0,402

0,440

0,476

0,511

34

0,115

0,176

0,226

0,271

0,314

0,353

0,391

0,428

0,463

0,497

35

0,111

0,171

0,220

0,264

0,305

0,344

0,381

0,417

0,451

0,484

40

0,097

0,150

0,193

0,232

0,268

0,303

0,336

0,368

0,399

0,429

50

0,078

0,120

0,155

0,186

0,216

0,244

0,272

0,298

0,323

0,348

51

0,076

0,117

0,152

0,183

0,212

0,240

0,267

0,293

0,318

0,342

52

0,075

0,115

0,149

0,180

0,208

0,235

0,262

0,287

0,312

0,336

53

0,073

0,113

0,146

0,176

0,204

0,231

0,257

0,282

0,306

0,330

54

0,072

0,111

0,143

0,173

0,201

0,227

0,252

0,277

0,301

0,324

55

0,071

0,109

0,141

0,170

0,197

0,223

0,248

0,272

0,295

0,318

56

0,069

0,107

0,138

0,167

0,194

0,219

0,244

0,267

0,290

0,313

57

0,068

0,105

0,136

0,164

0,190

0,215

0,240

0,263

0,285

0,308

58

0,067

0,103

0,134

0,161

0,187

0,212

0,236

0,258

0,281

0,303

59

0,066

0,101

0,131

0,159

0,184

0,208

0,232

0,254

0,276

0,298

60

0,065

0,100

0,129

0,156

0,181

0,205

0,228

0,250

0,272

0,293

Множитель 1

3,84

5,99

7,82

9,49

11,07

12,59

14,07

15,51

16,92

18,31

Множитель 2

2,15

-0,27

-3,84

-7,94

-12,84

-18,24

-23,78

-30,10

-36,87

-43,87

Если у вас более 60 наблюдений, критические значения можно найти с помощью двух множителей, указанных внизу таблицы R2. Для этого необходимо воспользоваться следующей формулой:

Критическое значение = (Множитель 1 / n ) + (Множитель 2 / n )

Когда в качестве р-значения (Значимость F) указывается 0,000000 (см. таблицу 5), его можно интерпретировать как р < 0,0005, поскольку р-значение, которое больше или равно 0,0005, будет округлено до 0,001. Используя терминологию р-значений, можно сказать, что регрессия в данном случае является очень высоко значимой (р < 0,001).

Чтобы убедиться в этом очень высоком уровне значимости, используя непосредственно F-тест, можно сравнить Fстатистику 62,843 (из компьютерной распечатки) со значением из F-таблицы для уровня 5% (табл. 3), которое находится между 2,922 и 2,758 для k1 = m – 1 = 3 степеней свободы и k2 = n – m = 55 – 4 = 51 степеней свободы.

Таблица 3. F-таблица: критические значения для уровня значимости 5%

степени свободы ()

степени свободы ()

1

2

3

4

5

6

1

161,45

199,50

215,71

224,58

230,16

233,99

2

18,513

19,000

19,164

19,247

19,296

19,330

3

10,128

9,552

9,277

9,117

9,013

8,941

4

7,709

6,944

6,591

6,388

6,256

6,163

5

6,608

5,786

5,409

5,192

5,050

4,950

6

5,987

5,143

4,757

4,534

4,387

4,284

7

5,591

4,737

4,347

4,120

3,972

3,866

8

5,318

4,459

4,066

3,838

3,687

3,581

9

5,117

4,256

3,863

3,633

3,482

3,374

10

4,965

4,103

3,708

3,478

3,326

3,217

11

4,840

3,980

3,590

3,360

3,200

3,090

12

4,747

3,885

3,490

3,259

3,106

2,996

15

4,543

3,682

3,287

3,056

2,901

2,780

18

4,410

3,550

3,160

2,930

2,770

2,660

19

4,380

3,520

3,130

2,900

2,740

2,630

20

4,351

3,493

3,098

2,866

2,711

2,599

21

4,32

3,47

3,07

2,84

2,68

2,57

22

4,30

3,44

3,05

2,82

2,66

2,55

23

4,28

3,42

3,03

2,80

2,64

2,53

24

4,26

3,40

3,01

2,78

2,62

2,51

25

4,24

3,38

2,99

2,76

2,60

2,49

26

4,22

3,37

2,98

2,74

2,59

2,47

27

4,21

3,35

2,96

2,73

2,57

2,46

28

4,20

3,34

2,95

2,71

2,56

2,44

29

4,18

3,33

2,93

2,70

2,54

2,43

30

4,171

3,316

2,922

2,690

2,534

2,421

60

4,001

3,150

2,758

2,525

2,368

2,254

120

3,920

3,072

2,680

2,447

2,290

2,175'

3,841

2,996

2,605

2,372

2,214

2,099

 

Поскольку значение 51 в таблице отсутствует, нам известно, что необходимое нам значение из F-таблицы находится в диапазоне от 2,922 для 30 степеней свободы знаменателя и для 60 степеней свободы знаменателя. Поскольку данная Fстатистика (62,843) намного больше, чем значение из F-таблицы (значение из диапазона от 2,758 до 2,922), мы опять приходим к выводу, что полученный результат имеет очень высокую значимость.

Какие переменные являются значимыми: t-тест для каждого коэффициента

Если F-тест является значимым, то вам известно, что одна или несколько X- переменных могут быть полезны в прогнозировании Y и, следовательно, можно продолжать анализ с помощью t-тестов для отдельных коэффициентов регрессии с целью выяснять, какие именно из Х- переменных действительно полезны. Эти t-тесты определяют, оказывает ли значимое влияние на Y та или иная X- переменная, если все другие Х- переменные остаются при этом неизменными. Следует помнить, что, приняв нулевую гипотезу, вы сделали слабое заключение и, по сути, тем самым не доказали бесполезность Х- переменной, а просто у вас не хватило убедительных доказательств наличия взаимосвязи. Таким образом, взаимосвязь может существовать, но вследствие действия фактора случайности или из-за небольшого размера выборки вы не в состоянии обнаружить ее с помощью тех данных, которые имеются в вашем распоряжении.

Если же F-тест не является значимым, то использовать t-тесты для отдельных коэффициентов регрессии нельзя. В редких случаях эти t-тесты могут быть значимыми даже тогда, когда F-тест не является значимым. При этом F-тест считается более важным и необходимо делать вывод о том, что все коэффициенты являются незначимыми.

t-тест для каждого коэффициента основан на оценке коэффициента регрессии и его стандартной ошибке и использует критическое значение из t-таблицы для «п – k – степеней свободы (где k – количество исследуемых факторов-аргументов). Доверительный интервал для какого-либо конкретного коэффициента регрессии в генеральной совокупности (например, j-го – βj) определяется обычным способом:

от bjtSbj до bj + tSbj ,

где t берется из t-таблицы для «п – k – степеней свободы.

t-тест является значимым, если заданное значение «0» (указывающее на отсутствие влияния) не попадает в этот доверительный интервал. Здесь нет ничего нового: это обычная процедура для двустороннего тестирования.

Как альтернативный вариант можно сравнить t-статистику bj/Sb со значением из t-таблицы и сделать вывод о значимости, если абсолютное значение этой t-статистики оказывается больше. Если посмотреть на последние значения в каждом из столбцов t-таблицы, можно увидеть достаточно простой, приблизительный способ определения значимости коэффициентов: значимыми будут те коэффициенты регрессии, для которых t-статистика по абсолютному значению равна или больше 2, поскольку для достаточно больших п и уровня значимости 5% значение из t-таблицы приблизительно равно 2. Как всегда, оба метода, и на использовании t-статистики, и на использовании доверительного интервала, должны в любом случае обеспечивать одинаковый результат (значимость или не значимость) для каждого теста.

Что же именно в данном случае тестируется? В результате t-теста для βj; мы должны принять решение, оказывает ли Xj значимое влияние на Y в исследуемой генеральной совокупности, когда все другие Х- переменные остаются неизменными. В этом случае речь не идет о корреляции между Xj и У, которая игнорирует все остальные Х- переменные. Скорее, это проверка влияния Xj на Y  после внесения поправки на все остальные факторы. Например, в исследованиях уровня заработной платы, цель которых заключается в выявлении возможных фактов дискриминации по признаку пола, обычно делают поправку на уровень образования и стаж работы. Несмотря на то что мужчины в компании могут (в среднем) получать более высокую заработную плату, чем женщины, очень важно понять, не объясняются ли эти различия какими-либо другими факторами, помимо пола. В результате включения всех этих факторов в множественную регрессию (регрессия Y = заработная плата на X1 = пол, X2 = образование и X3 = стаж работы) коэффициент регрессии для пола будет отражать влияние пола на уровень заработной платы с учетом поправок на уровень образования и стаж работы.

Ниже приведены формулы для гипотез, касающихся проверки значимости j-го коэффициента регрессии.

Гипотезы для t-теста j -го коэффициента регрессии

H0 : βj = 0;

H0 : βj  0;

Если вернуться к нашему примеру с тарифами на размещение рекламных объявлений в журналах («Пример. Реклама в журналах»), то соответствующий t-тест будет иметь п – k – 1 = 55 3 1 = 51 степеней свободы. Двустороннее критическое значение из t-таблицы равно 1,960 (или, точнее, 2,008). В табл. 4 приведена соответствующая информация из компьютерной распечатки.

Таблица 8. Результат множественной регрессионного анализа тарифов на размещение рекламы в журналах

ВЫВОД ИТОГОВ

Регрессионная статистика

Множествен. R

0,887

R-квадрат

0,787

Нормированный

R-квадрат

0,775

Стандартная ошибка

21577,870

Наблюдения

55

Коэффициенты

Стандартная ошибка

t-статистика

P-значение

Нижние 95%

Верхние 95%

Y-пересечение

4042,799

16884,039

0,239

0,812

-29853,298

37938,895

Переменная X 1

3,788

0,281

13,484

0,000

3,224

4,352

Переменная X 2

-123,634

137,849

-0,897

0,374

-400,377

153,108

Переменная X 3

0,903

0,370

2,442

0,018

0,161

1,645

Две из трех Х- переменных являются значимыми, поскольку для них р-значения оказываются меньше 0,05. Еще один (эквивалентный) способ проверки значимости заключается в том, чтобы выяснить, какие t-статистики (в компьютерной распечатке соответствующий столбец обозначен просто t) оказываются большими, чем 2,008. И еще один (тоже эквивалентный) способ проверки значимости состоит в том, чтобы выяснить, какие из 95% доверительных интервалов для коэффициентов регрессии не включают «0». Как мы и предполагали ранее, величина читательской аудитории оказывает огромное влияние на рекламные тарифы в журналах. Столь высокое значение t (13,48) означает, что влияние величины читательской аудитории на рекламные тарифы является очень высоко значимым (при условии, что процент читателей-мужчин и средний доход остаются постоянными). Влияние среднего дохода на рекламные тарифы в журналах также является значимым (при условии, что процент читателей-мужчин и величина читательской аудитории остаются постоянными).

Очевидно, что процент читателей-мужчин не оказывает на тарифы значительного влияния (при условии, что величина читательской аудитории и средний доход остаются постоянными), поскольку соответствующий t-тест не является значимым. Не исключено, что этот процент оказывает на тарифы определенное влияние только через доход (средний доход у мужчин может быть выше, чем у женщин). Таким образом, после внесения поправки на средний доход можно ожидать, что переменная, соответствующая проценту мужчин, уже не будет нести дополнительной информации для прогнозирования тарифов. Несмотря на то что оцениваемое влияние процента читателей-мужчин составляет $123,6, его отклонение от 0 носит лишь случайный характер. Строго говоря, этот коэффициент, $123,6, не подлежит интерпретации; поскольку он не является значимым, вы "не имеете права" объяснять его. Иными словами, его значение ($123,6) — лишь видимость, и, по сути, ничем не отличается от $0,00; более того, в действительности вы не можете даже сказать, положительное это число или отрицательное!

Константа, а = $4 043, не является значимой. Она не отличается существенно от нуля. Нельзя сказать ничего определенного и о знаке соответствующего параметра генеральной совокупности, а, поскольку его вполне можно считать равным нулю.

Какие переменные оказывают большее влияние?

Какая из Х- переменных оказывает наибольшее влияние на Y? Хороший вопрос! К сожалению, исчерпывающего ответа на этот вопрос нет, ввиду того, что наличие взаимосвязей между Х- переменными может сделать принципиально невозможным выяснение того, какая именно из Х- переменных в действительности "отвечает" за поведение переменной Y. Ответ на поставленный вопрос зависит от конкретной ситуации (в частности, можно ли изменять Х- переменные по отдельности). Ответ определяется также наличием взаимосвязи (или корреляции) между Х- переменными. Ниже мы рассмотрим полезный (хотя и неполный) ответа на этот непростой вопрос.

Сравнение частных коэффициентов эластичности.

Какая из Х- переменных оказывает наибольшее влияние на Y? Поскольку все коэффициенты регрессии b1, b2, …, bk могут быть выражены в разных единицах измерения, непосредственное их сравнение весьма затруднительно: небольшой коэффициент может на самом деле оказаться более важным, чем большой. Короче говоря, здесь мы имеем дело с классической проблемой "попытки сравнения яблок и апельсинов".

Коэффициент регрессии bi указывает влияние изменения Xi на переменную Y, когда все другие Х- переменные остаются неизменными. Коэффициент регрессии bi измеряется в единицах измерения Y на одну единицу измерения Xi. Если, например, Y представляет собой объем продаж в долларовом выражении, a X1 — количество торгового персонала, то b1 выражается в количестве долларов (объем продаж) на одного человека. Допустим, что следующий коэффициент регрессии, b2, выражается в количестве долларов (объем продаж) на суммарный километраж рабочих поездок торговых представителей компании. Непосредственное сравнение b1 и b2 не позволит нам ответить на вопрос, какой из этих двух факторов (уровень торгового персонала или командировочные расходы компании) оказывает большее влияние на объем продаж, потому что разные единицы измерения (доллары на человека и доллары на километр) непосредственно сравнивать нельзя.

!!! Коэффициент эластичности (E), вернее частный коэффициент эластичности для каждого фактора-аргумента (объясняющей переменной) - Ei , который вычисляется для линейных регрессионных моделей как

Ei = bi  Xi / Y,

показывает на сколько процентов изменится Y при изменении Xi на один процент. На наш взгляд, именно этот показатель, избегая разноименности коэффициентов регрессии, позволяет наиболее точно определить степень влияния различных факторов-аргументов на результативный признак, т.е. на Y. 

В нашем примере с тарифами на размещение рекламы

E1 = b1  X1 / Y = 3,788  10913 / 83534 = 0,495;

E2 = b2  X2 / Y =(123,634)  39,7 / 83534 = 0,059;

E3 = b3  X3 / Y =0,903  47710 / 83534 = 0,516;

Поскольку наибольшее абсолютное значение частного коэффициента эластичности наблюдается у третьего фактора (X3), характеризующего медиану дохода потенциальных читателей, то можно с определенной вероятностью утверждать, что именно он оказывает наибольшее влияние на цену одной рекламной страницы в исследуемой группе журналов. Не следует, однако, пренебрегать и влиянием первого фактора (X1) – размеру читательской аудитории. Абсолютное значение коэффициента «аудиторной эластичности» (0,495) не намного уступает коэффициенту «подоходной эластичности» (0,516).


 

А также другие работы, которые могут Вас заинтересовать

68454. Основные положения права СМИ в РФ 19.83 KB
  Осуществление этих свобод, налагающее обязанности и ответственность, может быть сопряжено с определенными формальностями, условиями, ограничениями или санкциями, которые предусмотрены законом и необходимы в демократическом обществе в интересах национальной безопасности...
68455. Теория и практика сестринского дела. Общение с пациентом и его окружением в процессе профессиональной деятельности 1.26 MB
  О сестринском деле говорят, что это самая юная наука и самое древнее искусство. Сестринское дело считалось женской профессией, и самой из всех сестринских специальностей, и самой древней являлась акушерская (в Древней Греции, по определению Гиппократа, акушерки могли быть только рожавшие женщины...
68456. Информационные технологии в производстве текстильных изделий 52.5 KB
  В настоящее время любому специалисту, связанному с проектированием и производством текстильных изделий, приходится иметь дело с огромным объемом данных. С появлением компьютеров задача обработки и хранения данных существенно упростилась. Любые данные, хранимые на компьютере, подразделяются на текстовые и числовые.
68457. Организация оперативного ввода изображений в авиационные геоинформационные комплексы реального времени 1.17 MB
  Одной из основных проблем создания ИГК РВ является проблема оперативного ввода больших массивов видеоинформации в реальном масштабе времени, налагаемых на картографический фон. Эта видеоинформация может быть «набросана» от руки и представляет собой изображение...
68458. История политических учений 95 KB
  Отвергая демократию как форму государства Платон настаивает на необходимости использования ее основных принципов в его модели совершенного государства. Подчинения государства закону регулирования общественной жизни людей писанными нормами права и т.
68459. Становление и развитие политической мысли в России 76.5 KB
  История возникновения политической мысли в России совпадает с этапами становления и развития русской государственности. Она развивалась следуя собственным идеалам обычаям и традициям во взаимосвязи с русской философией закономерностями и тенденциями отечественной политической истории.
68460. ФОРМАТИРОВАНИЕ ДАННЫХ В ЯЧЕЙКАХ 1.36 MB
  Ячейка – это минимальный адресуемый элемент рабочего листа. Ячейка определяется адресом. Кроме этого можно задавать диапазон ячеек. Диапазоном называется группа ячеек. Чтобы задать адрес диапазона нужно указать адреса верхней левой и нижней правой ячейки, разделив их двоеточием.
68461. РАБОТА С ФОРМУЛАМИ И ФУНКЦИЯМИ 72 KB
  Формулы в таблице и технология их использования Формула в электронной таблице это выражение по которому вычисляется значение в ячейке. Формула всегда начинается с символа равно =. Формула состоит из операндов и символов операций В качестве операндов используются: Числа.
68462. Разработка рекомендаций по обеспечению защиты информации в отделе записей актов гражданского состояния (ЗАГС) по Центральному району 435 KB
  Информационная безопасность организации - целенаправленная деятельность её органов и должностных лиц с использованием разрешённых сил и средств по достижению состояния защищённости информационной среды организации, обеспечивающее её нормальное функционирование и динамичное развитие.