6519

Корреляционно-регрессионный анализ

Контрольная

Социология, социальная работа и статистика

В информационной системе STATISTICA выполнение корреляционного и регрессионного анализа проводится в модулях: Multipleregression - Множественная регрессия и NonlinearEstimation - Нелинейное оценивание. Общее назначение модулей ...

Русский

2013-01-04

228.5 KB

76 чел.

В информационной системе STATISTICA выполнение корреляционного и регрессионного анализа проводится в модулях: Multiple regression – Множественная регрессия и Nonlinear Estimation – Нелинейное оценивание. Общее назначение модулей – построить модель, описывающую связи между переменными, оценить существенность полученной модели и определить на основе полученной модели требуемые значения зависимой переменной. Модуль Multiple regression – Множественная регрессия используется для построения линейных моделей зависимости, модуль Nonlinear Estimation – Нелинейное оценивание)– для построения нелинейных моделей.

Рис. 1 Диалоговое окно переключателя модулей

Рассмотрим на примере файла ex5.sta проведение корреляционно-регрессионного анализа. В файле ex5.sta представлены данные о величине валового дохода (переменная VALDOHOD), основных фондов (переменная OSN_F) и оборотных средств (переменная OBOR_S) по двадцати однотипным торговым предприятиям.

1. Однофакторный корреляционно-регрессионный анализ

Построим однофакторную регрессионную модель для анализа влияния вариации факторного признака OBOR_S на результативный признак VALDOHOD.

Для выявления наличия связи и определения вида функциональной зависимости, которая наиболее подходит для предложенных данных, рассчитаем коэффициент корреляции и построим график «поле корреляции». В модуле  Multiple regressionМножественная регрессия откроем файл  ex5.sta  и, выбрав Startup Panel – Стартовую панель в меню Analysis-Анализ, откроем диалоговое окно (рис. 2).

Рис. 2 Диалоговое окно модуля Multiple regression
Множественная регрессия

Здесь щелчком по кнопке  Variables – Переменные в открывшемся окне Select the variables for analysis – Выбрать переменные для анализа выберем для анализа переменные: OBOR_S выберем в окне Independent variable – Независимая переменная , VALDOHOD выберем в окне Dependent variable – Зависимая переменная , и щелкнем по кнопке ОК. Далее отметим галочкой окошко Review descr. stats, corr. matrix – Просмотреть описательные статистические характеристики, корреляционные матрицы. и нажмем ОК

В открывшемся окне просмотра описательных статистических характеристик (рис.3)

Рис. 3 Диалоговое окно Review Descriptive statistics
Просмотр описательных статистических характеристик

выберем Correlations – Корреляции. Откроется корреляционная матрица (рис.4), показывающая, что значение коэффициента парной корреляции между переменными OBOR_S и VALDOHOD равно 0,071630, т.е. связь практически отсутствует.

Рис. 4 Корреляционная матрица

Нажатие по кнопке Graph – График в диалоговом окне Review Descriptive statistics – Просмотр описательных статистических характеристик (см. рис.3) откроет график «поле корреляции» исследуемых переменных, а также соответствующие гистограммы (рис.4).

Рис. 5 Поле корреляции и гистограммы переменных
VALDOHOD и OBOR_S

Построенные графики позволяют визуально проверить распределения на наличие «выбросов», которые могут существенно повлиять на расположение кривой регрессии. Мы видим, что одна точка лежит далеко в стороне от основной массы точек. Следовательно, она, скорее всего, представляет собой ошибку наблюдения (например, была допущена описка при регистрации данных, опечатка при внесении данных для анализа в системе или в выборку попал нетипичный объект, в то время как анализ должен проводиться по однотипным объектам). Остальные же точки приблизительно ложатся на прямую линию, что позволяет предположить существование линейной зависимости между переменными, однако присутствие выброса искажает результат анализа –коэффициент парной корреляции близок к нулю.

Для удаления выбросов используют средство Brushing – Кисть, меню которого активизируется кнопкой на панели инструментов (рис.6).

Рис. 6. Меню инструмента  Brushing – Кисть

В группе опций Action – Действия установим маркер на действие Label и, подведя курсор-лупу к предполагаемому «выбросу» на графике поля корреляции, щелкнем левой кнопкой мыши. Соответствующая точка-«выброс» будет выделена. Далее нажмем кнопку Update-Обновить для определения порядкового номера случая-«выброса». Над точкой появился номер: Case 20- Наблюдение 20. Для удаления «выброса» с графика поля корреляции установим маркер на действие Turn OFF-Отключить и нажмем Update-Обновить. Направление аппроксимирующей функции изменилось, теперь все точки лежат в непосредственной ее близости. Можно сделать вывод о сильном влиянии выброса на результат анализа, удалить выброс (Наблюдение № 20) из исходных данных и заново рассчитать коэффициент парной корреляции.

Нажатием кнопки Quit – Выход  закончим использование инструмента Brushing – Кисть. Удалим выброс и из исходных данных, предварительно закрыв диалоговое окно Review Descriptive statistics – Просмотр описательных статистических характеристик. Далее снова вызовем Startup Panel – Стартовую панель в меню Analysis-Анализ и проведем расчет коэффициента парной корреляции.

В нашем случае, заново рассчитанный коэффициент парной корреляции равен 0,896897, что свидетельствует о возможном наличии сильной прямой связи между рассматриваемыми переменными. Принимая гипотезу о прямолинейной форме зависимости между признаками, определим значения параметров b0 и b1 уравнения однофакторной линейной корреляционной связи вида ŷ=b0+b1x,

Из диалогового окна Review Descriptive statistics – Просмотр описательных статистических характеристик, щелчком на кнопке ОК переходим в диалоговое окно Model Definition – Определение  модели (рис.7), а из него щелчком на кнопке ОК – в окно результатов корреляционно-регрессионного анализа (рис.8).

По данным нашего примера коэффициент детерминации получился равным 0,80442489, таким образом, 80,4% вариации показателя VALDOHOD объясняется вариацией показателя OBOR_S.

Значимость множественного коэффициента корреляции проверяется по таблице F-критерия Фишера. В нашем случае табличное значение F-критерия Фишера для степеней свободы ν1=1, ν2=17 (19 наблюдений минус 2 равно 17) при уровне значимости α=0,05 равно 4,45, а рассчитанное значение равно 69,92313. Расчетное значение значительно больше табличного, поэтому признается статистическая значимость найденного коэффициента парной корреляции между переменными VALDOHOD и OBOR_S. Как правило, считается, что уравнение пригодно для практического использования, если Fрасч > Fтабл  минимум в 4 раза. В нашем случае это условие соблюдается.

Рис. 7 Диалоговое окно Model Definition – Определение модели

Рис. 8 Окно результатов корреляционно-регрессионного анализа

Щелчок по кнопке Regression Summary –Итоговая таблица регрессии в окне результатов регрессионного анализа (см. рис.8) открывает Regression Summary for dependent variable – Итоговую таблицу регрессии зависимой переменной (рис.9).

Рис. 9 Окно Regression Summary for dependent variable
Итоговая таблица регрессии зависимой переменной

Здесь в столбце B отражены искомые значения параметров b0 и b1 регрессионного уравнения. Итак, наше уравнение имеет вид:

VALDOHOD=20,06378+1,21692* OBOR_S

Значимость найденных параметров b0 и b1 проверяется по таблице t-критерия Стьюдента. Расчетные значения t-критерия Стьюдента для каждого параметра, отраженные в столбце t(17), сравниваем с табличным значением t-критерия для числа степеней свобода, равного 17. tтабл = 2,120 при уровне значимости α=0,05. рассчитанные значения t-критерия для обоих параметров больше табличного, что свидетельствует о значимости найденных значений.

Анализ остатков доступен по нажатию кнопки Residual Analysis – Анализ остатков в окне результатов корреляционно-регрессионного анализа (см. рис.8).

Рис. 10 Окно Residual Analysis – Анализ остатков

В открывшемся диалоговом окне (рис.10) можно проверить остатки на нормальность распределения, нажав на кнопку Graph of Residuals (L) – График остатков в группе опций Histograms – Гистограммы или нажав на кнопку Normal plot of resides (M) – Нормальный график остатков в группе опций Probability plots – Вероятностные графики.

В нашем примере распределение остатков достаточно близко к нормальному, остатки располагаются близко к аппроксимирующей линии (рис.11), что также говорит об адекватности модели.

Рис. 11 Графики распределения остатков

Определить прогнозный уровень результативного признака на основе принятой модели можно, открыв диалоговое окно кнопкой Predict dependent variable – Прогноз зависимой переменной в диалоговом окне результатов корреляционно-регрессионного анализа (см. рис.8).

В открывшемся диалоговом окне (рис.12) можно, задав значение независимой переменной

Рис. 12 Задание значения независимой переменной

OBOR_S, получить точечный и интервальный прогноз соответствующего ему значения зависимой переменной VALDOHOD (рис.13).

Рис. 13 Прогнозное значение зависимой переменной

В нашем случае для значения переменной OBOR_S, равного 38.5, получим значение переменной VALDOHOD, равное 66,9. с вероятностью 95% значение переменной VALDOHOD, соответствующее значению переменной OBOR_S в 38.5, будет лежать в пределах от 59,11640 до 74,71425.

2. Многофакторный корреляционно-регрессионный анализ

Включим в модель еще одну переменную – OSN_F. Построим двухфакторную линейную регрессионную модель для анализа влияния вариации факторных признаков OSN_F и OBOR_S на результативный признак VALDOHOD.

Выберем для анализа переменные: OBOR_S и OSN_F выберем в окне Independent variable – Независимая переменная , VALDOHOD выберем в окне Dependent variable – Зависимая переменная. Выявление и удаление выбросов проводятся аналогично описанному процессу для случая однофакторной регрессии.

Корреляционная матрица содержит коэффициенты корреляции как между факторными и результирующей переменной, так и между самими факторными переменными (рис.14).

Рис. 14 Корреляционная матрица

В случае построения многофакторной модели требуется проверить факторы на мультиколлинеарность. В нашем примере коэффициент корреляции между факторами (равный 0,460474) меньше коэффициентов корреляции факторов с результирующей переменной (соответственно 0,638507 и 0,896897), т.е. мультиколлинеарность отсутствует. В противном случае, следовало бы исключить из анализа один из факторов – тот, который менее тесно связан с результативным признаком. Как правило, в модель множественной регрессии включают только значимые факторы, т.е. имеющие коэффициент корреляции с результирующей больше 0,4. В нашем примере это условие соблюдается.

Определим значения параметров b0 , b1 и b2  уравнения двухфакторной линейной корреляционной связи вида ŷ=b0+b1x+ b2x.

Рис. 15 Окно Regression Summary for dependent variable – Итоговая таблица регрессии зависимой переменной

В нашем примере (рис.15) b0= 17,33457  b1= 1,03812  b2= 0,17443, уравнение регрессии имеет вид:

VALDOHOD=17,33457+1,03812 OBOR_S+0,17443*OSN_F

Совокупный коэффициент множественной детерминации, равный 0,86896356, показывает, что 86,9% вариации показателя VALDOHOD объясняется влиянием факторов, включенных в уравнение множественной регрессии (OBOR_S и OSN_F). Введение в модель дополнительного фактора (OSN_F) улучшило этот показатель.

Проверка адекватности уравнения, значимости найденных коэффициентов регрессии, построение прогноза осуществляются так же, как при проведении однофакторного корреляционно-регрессионного анализа.


Задание №1.

В базе данных (файл – Lab2.sta) даны значения показателей производственно-хозяйственной деятельности промышленных предприятий.

Рассматриваются следующие показатели:

Y1 – производительность труда

Y2 – индекс снижения себестоимости продукции

Y3 – рентабельность

Х4 – трудоемкость единицы продукции

Х5 – удельный вес рабочих в составе ППП

Х6 – удельный вес покупных изделий

Х7 – коэффициент сменности оборудования

Х8 – премии и вознаграждения на одного работника

Х9 – удельный вес потерь от брака

Х10 – фондоотдача

Х11 – среднегодовая численность ППП

Х12 – среднегодовая стоимость ОПФ

Х13 – среднегодовой фонд заработной платы ППП

Х14 – фондовооруженность труда

Х15 – оборачиваемость нормируемых оборотных средств

Х16 – оборачиваемость ненормируемых оборотных средств

Х17 – непроизводственные расходы.

НЕОБХОДИМО:

1) Построить однофакторную модель зависимости результативного признака Y от факторного признака Х в соответствии с вариантами заданий.

Установить вид аппроксимирующей функции. Определить силу и направление связи между переменными. Определить какая часть вариации результативного признака объясняется влиянием факторного признака. Построить уравнение регрессии. Оценить адекватность модели. Проанализировать остатки. Спрогнозировать значение результативной переменной при указанном значении факторной переменной.    

2) Построить многофакторную модель зависимости результативного признака Y от факторных признаков Х в соответствии с вариантами заданий.

Установить вид аппроксимирующей функции. Определить силу и направление связи между результативной переменной и каждой факторной переменной и, в общем, между результативной переменной и всеми значимыми факторными переменными. Определить тесноту связи между результативным признаком и каждым из факторных признаков при исключении влияния других признаков. Определить какая часть вариации результативного признака объясняется влиянием факторных признаков. Построить уравнение регрессии. Оценить адекватность модели. Проанализировать остатки. Спрогнозировать значение результативной переменной при указанном значении факторных переменных.    

Варианты заданий

№ варианта

Однофакторная модель

Многофакторная модель

Результативный признак, Y

Номер факторного признака, Х

Результативный признак, Y

Номера факторных признаков, Х

1

3

10

1

6, 8, 11, 12, 17

2

2

4

1

7, 11, 12, 13, 17

3

2

11

1

8, 11, 12, 13, 17

4

2

12

1

5, 6, 12, 13, 17

5

3

8

1

5, 6, 7, 9, 17

6

2

13

1

8, 9, 13, 14, 17

7

2

8

1

6, 8, 13, 14, 17

Значения факторных переменных, для прогноза результативного признака:

Х4

Х5

Х6

Х7

Х8

Х9

Х10

Х11

Х12

Х13

Х14

Х15

Х16

Х17

0,31

0,74

0,22

1,22

2,2

0,79

1,39

11795

78,11

22225

6,62

120,52

14,76

19,41

PAGE  9


 

А также другие работы, которые могут Вас заинтересовать

20286. ГОДЫ ПЕРЕСТРОЙКИ В СССР 25.09 KB
  ГОДЫ ПЕРЕСТРОЙКИ В СССР Вспомните. Андропов Юрий Владимирович 1914 1984 человек незаурядного ума председатель Комитета государственной безопасности СССР а ранее посол СССР в Венгрии во время Будапештской осени с 1982 г.РАСПАД СССР. Горбачева стала авария на Чернобыльской АЭС 26 апреля 1986 К Руководство КПСС некоторое время скрывало масштабы катастрофы и ее последствия что имело роковое значение для судьбы многих сотен тысяч людей и экологии большой территории СССР.
20287. Сценические эффекты в современном театре 97.5 KB
  ИЗВЕКОВ СВЕТ НА СЦЕНЕ ОЧЕРКИ ПО ИСТОРИИ ОСВЕЩЕНИЯ СЦЕНЫ 1. ИСТОКИ ТЕХНИКИ ОСВЕЩЕНИЯ СОВРЕМЕННОЙ СЦЕНЫ Взаимоотношения между техникой сцены и художественным построением спектакля были подробно рассмотрены в первой части нашей работы Сцена где уже говорилось о том что сценическое освещение являясь одним из технических средств при постановке спектакля одновременно выполняет функцию раскрытия идейного замысла спектакля. Исходным этапом в данном случае должно служить зарождение кулисной сценыкоробки которая во многом продолжает еще...
20288. Художественные искания в западной культуре второй половины XX века 75.5 KB
  Отвергнув возможность преобразования жизни с помощью искусства представители постмодернизма приняли бытие таким какое оно есть сделав искусство предельно открытым наполнили его фрагментами реального жизненного процесса.Хеппенинг Перерастая в искусство постмодернизма €œискусство действия€ приобретает более выраженные формы. ПопАрт В 50ые в США возникло новое крупнейшее направление в современном искусстве – ПОПАРТ – популярное искусство. Бодиарт Бодиарт это искусство тела авангардное направление возникшее в 60х годах.
20289. Жанры средневекового театра 676.5 KB
  Франция Мистерия основной театральный образ Средневековья. Мистерия самая поздняя но и самая полная форма выражения средневековой театральности. Если готический собор застывший образ мироздания то мистерия модель мироздания в действии. Мистерия вбирает в себя все жанры: литургическую драму бытовую драму фарс и соти миракль и моралите.
20290. Новаторство создателей МХТ в области декорационного искусства и технологии 82 KB
  Станиславский Константин Сергеевич Алексеев 17. Опираясь на богатейшую творческую практику и высказывания своих выдающихся предшественников и современников Станиславский заложил прочный фундамент современной науки о театре создал школу направление в сценическом искусстве которое нашло теоретическое выражение в так называемой системе Станиславского. 1877 Станиславский впервые выступил на домашней любительской сцене. Станиславский сыграл десятки комедийных ролей с пением и танцами.
20291. Русская художественная культура 20-х - середины 30-х годов XX века 315 KB
  А русский авангард – своеобразный феномен искусства 20 в. но и с новым искусством стиля модерн – господствующим в это время повсеместно и во всех видах искусства от архитектуры и живописи до театра и дизайна. Русский художник теоретик искусства и писатель. Был членом объединений Мир искусства и Четыре искусства.
20292. Европейский театр классицизма 78 KB
  В основе классицизма лежат идеи рационализма которые формировались одновременно с таковыми же идеями в философии Декарта. Художественное произведение с точки зрения классицизма должно строиться на основании строгих канонов тем самым обнаруживая стройность и логичность самого мироздания. Интерес для классицизма представляет только вечное неизменное в каждом явлении он стремится распознать только существенные типологические черты отбрасывая случайные индивидуальные признаки.
20293. Свет в театре и на эстраде 56.5 KB
  Его история во многом определялась теми источниками света которые имелись в распоряжении театра в те или иные периоды его развития. особенно в его вторую половину стремительно модернизировались новыми техническими возможностями и расширяли сферу применения света как средства сценической выразительности. С точки зрения эстетической искусство сценического света в 17–18 вв.Станиславского партитуры сценического света особенно в чеховских спектаклях на сцене передавались меняющиеся состояния природы утро день вечер ночь; солнечно...
20294. Русская художественная культура середины 50-х - 60-х годов XX века 266.5 KB
  В связи с разоблачением культа личности Сталина происходило преодоление откровенно лакировочного искусства особенно характерного для 30 40х годов. Коммерциализация литературы и искусства привела к распространению произведений не отличающихся высокими художественными достоинствами. В советской культуре наблюдались две противоположные тенденции: искусства политизированного лакирующего действительность и искусства формально социалистического но по существу критически отражающего действительность в силу сознательной позиции художника...