10978

Выполнение многомерного регрессионного анализа в пакете STATISTICA

Лекция

Математика и математический анализ

Выполнение многомерного регрессионного анализа в пакете STATISTICA Рассмотрим пример построения регрессионной модели в пакете Statistica 6.0. Для этих целей обычно используется модуль Multiple Regressions Множественная регрессия который позволяет предсказать зависимую переменную по н...

Русский

2013-04-03

198.06 KB

94 чел.

Выполнение многомерного регрессионного анализа в пакете STATISTICA

Рассмотрим пример построения регрессионной модели в пакете Statistica 6.0. Для этих целей обычно используется модуль Multiple Regressions (Множественная регрессия), который позволяет предсказать зависимую переменную по нескольким независимым переменным.

В стартовом диалоговом окне этого модуля (рис.1) при помощи кнопки Variables указываются зависимая (dependent) и независимые(ая) (independent) переменные. В поле Input file указывается тип файла с данными:

  1.  Raw Data - данные в виде строчной таблицы;
  2.  Correlation Matrix - данные в виде корреляционной матрицы.

 

Рис.1. Модуль Multiple Regression

В поле MD deletion указывается способ исключения из обработки недостающих данных:

  1.  Casewise - игнорируется вся строка, в которой есть хотя бы одно пропущенное значение;
  2.  Mean Substitution - взамен пропущенных данных подставляются средние значения переменной;
  3.  Pairwise - попарное исключение данных с пропусками из тех переменных, корреляция которых вычисляется.

Рассмотрим проведение регрессионного анализа на конкретном примере. Имеются результаты измерения физических данных 25 людей (мужчин и женщин). В файле данных (рис.2) 4 переменные:

1

pol

Пол обследуемого(ж – женщина; м – мужчина)

2

vozrast

Возраст обследуемого, лет

rost

Рост обследуемого, см

ves

Вес обследуемого, кг

Рис. 2. Окно файла данных

Так как в файле данных содержится информация о мужчинах и женщинах, а мы хотим провести исследования только для мужчин, то воспользовавшись кнопкой Select cases (рис. 1) можно в анализ включить только те случаи, для которых первая переменная (pol) равна "м".

Рис. 3. Окно включения (исключения) данных в анализ

На первом этапе исследований учтем, что при наличии одной зависимой переменной (rost) и двух независимых переменных (vozrast и rost) можно предложить различные модели линейной регрессии:

№ Модели

Вид зависимости

Комментарии

1

rost=

одномерная

2

rost=

одномерная

3

rost=

многомерная

О качестве предложенной модели регрессии будем судить по величине коэффициента детерминации.

Модель №1 описывает 69% данных, модель №2 только 41% данных, а третья модель 73% данных.

Если в качестве критерия оптимизации выбрать простоту модели (одномерная) – выберем модель №1 или №2, но если добавить ещё один критерий – максимальный % описания данных, то из этих двух моделей выбираем модель №1. Теперь в качестве главного критерия оптимизации выбираем максимальный процент описания данных и сравниваем модели №1 и №3. Нужно сказать, что модель №3 – многомерная, а модель №1 – одномерная. Таким образом, на первом этапе можно сказать, что многомерная модель №3 более адекватна и лучше описывает исходные данные. Естественно предположить, что и предсказания по модели №3 будут более надежными (точными).

Теперь более подробно рассмотрим последовательность действий создания модели и анализ полученных результатов.

После выбора всех опций стартового диалогового окна регрессионного анализа и нажатия кнопки ОК появляется окно результатов регрессионного анализа Multiple Regressions Results (см. рис. 4). Детально проанализируем полученные результаты регрессионной модели.

В верхней части окна приведены наиболее важные параметры полученной регрессионной модели:

  1.  Multiple R - коэффициент множественной корреляции, который характеризует тесноту линейной связи между зависимой и всеми независимыми переменными. Может принимать значения от 0 до 1.
  2.   - коэффициент детерминации. Численно выражает долю вариации зависимой переменной, объясненную с помощью регрессионного уравнения. Чем больше , тем большую долю вариации объясняют переменные, включенные в модель.
  3.  adjusted R - скорректированный коэффициент множественной корреляции. Включение новой переменной в регрессионное уравнение увеличивает  не всегда, а только в том случае, когда частный F-критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение  и adjusted R.

Рис. 4. Результаты регрессионного анализа

  1.  F - F-критерий используется для проверки значимости регрессии. В данном случае в качестве нулевой гипотезы проверяется гипотеза: между зависимой и независимыми переменными нет линейной зависимости;
  2.  df - числа степеней свободы для F-критерия;
  3.  p - вероятность нулевой гипотезы для F-критерия;
  4.  Standard error of estimate - стандартная ошибка оценки (уравнения); Эта оценка является мерой рассеяния наблюденных значений относительно регрессионной прямой;
  5.  Intercept – оценка свободного члена уравнения;
  6.  Std.Error - стандартная ошибка оценки свободного члена уравнения;
  7.  t - t-критерий для оценки свободного члена уравнения;
  8.  p - вероятность нулевой гипотезы для свободного члена уравнения.
  9.  Beta - β-коэффициенты уравнения. Это стандартизированные регрессионные коэффициенты, рассчитанные по стандартизированным значениям переменных. По их величине можно оценить значимость зависимых переменных. Коэффициент показывает, на сколько единиц стандартного отклонения изменится зависимая переменная при изменении на одно стандартное отклонение независимой переменной, при условии постоянства остальных независимых переменных. Свободный член в таком уравнении равен 0.

Нажатие кнопки - в окне результатов (см рис. 4) позволяет получить основные результаты регрессионной модели (рис. 5), часть из которых уже была описана: В - коэффициенты уравнения регрессии; St. Err. of B - стандартные ошибки коэффициентов уравнения регрессии;
t (11) - t-критерий для коэффициентов уравнения регрессии; р-level - вероятность нулевой гипотезы для коэффициентов уравнения регрессии.

Рис. 5. Параметры уравнения регрессии

В результате проведенного анализа было получено следующее уравнение:

rost = 150,4397 + 0,605*vozrast + 0,2081*ves.

Это уравнение объясняет 73,3% () вариации зависимой переменной. Полученные результаты свидетельствуют о том что коэффициент  при переменной ves незначимо отличается от нуля, однако включение этой переменной в регрессионную модель увеличивает на 4 % процент исходных данных, корректно описанных регрессионным уравнением.

Проверка качества уравнения регрессии осуществлялась с помощью статистики . По статистическим таблицам Фишера – Снедекора с данными степенями свободы  гипотезу  (линейная зависимость отсутствует) можно принять с вероятностью ; при уровне значимости α = 0.05 принимаем альтернативную гипотезу – линейная зависимость значима.

Одновременно проверялась статистическая значимость коэффициентов множественной регрессии (критерий Стьюдента). Видно (см. рис. 5), что коэффициенты  и  значимо отличаются от нуля, коэффициент  незначимо отличается от нуля.

Для расчета по полученному регрессионному уравнению значений зависимой переменной по значениям независимых переменных воспользуемся кнопкой (раздел Residuals/assumptions/prediction) (рис.6).

Зададим значения возраста (vozrast = 23) и веса (ves = 65). Учтем, что в пакете Statistica приводится как точечная, так и интервальная оценка (рис. 7).

Рис. 6. Окно задание значений независимых переменных

Рис. 7. Предсказанные точечные и интервальные значения

О полученных результатах можно сказать следующее: rost = 177,8851 – это точечная оценка. 95% доверительный интервал равен (171.4; 184,4).

При нажатии на кнопку можно оценить величины остатков и специальных критериев (см. рис. 8).

В таблицу включены все случаи (м), приведены исходные данные (Observed), данные модели (Predicted)  и остатки (Residual). Остатки – это разность исходных и предсказанных данных.

Рис. 8. Таблица остатков

Для выделения имеющихся в регрессионных остатках выбросов предложен ряд дополнительных показателей:

  1.  Расстояние Кука (Cook's Distance) - принимает только положительное значение и показывает расстояние между коэффициентами уравнения регрессии после исключения из обработки i-ой точки данных. Большое значение показателя Кука указывает на сильно влияющий случай (выброс).

В нашем случае Case № 5, 16 и 20 смещают оценки коэффициентов регрессии.

  1.  Расстояние Махаланобиса (Mahalns. Distance) - показывает насколько каждый случай или точка в р-мерном пространстве независимых переменных отклоняется от центра статистической совокупности.

Кнопка (раздел Advanced) предназначена для поиска выбросов. Выбросы – это остатки, которые значительно превосходят по абсолютной величине остальные. Выбросы показывают опытные данные, которые являются не типичными по отношению к остальным данным, и требует выяснения причин их возникновения. Выбросы должны исключаться из обработки, если они вызваны ошибками регистрации, измерения и т.п.


 

А также другие работы, которые могут Вас заинтересовать

54360. SQL Server 2000. Система управления реляционными базами данных и анализа данных 908.5 KB
  Microsoft SQL Server 2000 является законченным решением в области управления базами данных и анализа данных, предназначенным для быстрого создания масштабируемых веб-приложений следующего поколения. Являясь базовым компонентом семейства. NET Enterprise Servers, он значительно ускоряет выпуск приложений электронной коммерции, бизнес-приложений и хранилищ данных, в то же время обеспечивая уровень масштабируемости...
54361. Робота з базою даних в програмі Microsoft Access. Створення форм 955.5 KB
  Мета уроку: навчитись проектуванню баз даних; оформлювати форми додавання в форму елементів керування; введення в форму даних; створення підпорядкованої таблиці в формі; використання проектних технологій у побудові форм; придбання практичних навичок створення форм; формувати навички свідомого планування своєї навчальної діяльності; розвивати: логічне та образного мислення; самостійність у засвоєнні навчального матеріалу; виховувати: впевненість у своїх силах колективізм; естетичність у оформленні форми;...
54362. Мифы Древней Греции. Верования древних греков 40 KB
  Цель: расширить кругозор учащихся; познакомить их с Грецией; рассказать о возникновении древнегреческих мифов, отражении в них представлений греков об окружающем их мире; стимулировать познавательный процесс, развивать коммуникативные способности учащихся; раскрыть потенциальные возможности детей; развивать творческие способности и интерес к литературе; воспитывать у учащихся инициативность в построении совместной учебной деятельности; формировать умение работать в группе.
54363. Мифы Древней Греции. Верования древних греков. Интегрированный урок 4.81 MB
  Мы предлагаем конспект интегрированного урока с использованием информационных и мультимедийных технологий на уроках литературы в 6 классе по теме Мифы Древней Греции. Овладеть знаниями о мифах Древней Греции не посетив страну пусть даже виртуально весьма трудно. Как же можно построить уроки по изучению мифов Древней Греции с использованием информационных и компьютерных технологий По программе на изучение этого...
54364. Свято – урок «Ой хто, хто Миколая любить» 42.5 KB
  Всі річки тепер в обнові біле скло над бережком Ходить зима по діброві застеляє все сніжком. Сніг сідав на усмішки і сміявся з усіма Бо прийшла до нас зима Пісня Зимонька Сорока. Йшла зимонька поміж полями Усміхнулася до зір...
54365. День Святого Миколая - душа весело співає 158 KB
  Хлопчик Краснії подарунки дітям приносить В кожен дім діти знають: з радістю приходить. Звучить чарівна мелодія зявляються дівчаткаянголи які виконують дивовижний танок сповіщаючи прихід Миколая стук у двері до господи входить Святий Миколай Вчитель Діти а хто до нас прийшов Діти Святий Миколай Св. Добрий день вам любі діти Діти Добрий день Св. Бачу ви усі привітні...
54366. Сценарій ранку «Ми чекаємо Святого Миколая» 60 KB
  Ми всі з нетерпінням чекаємо дня Святого Миколая. З лопатами і з піснею Працюємо разом 2куплет: Ми цю пісню будемо співати І всі дружно станем працювати Щоб Миколай прийшов до всіх Приніс дарунків повен міх 1 чортик Ну що ж мене вам не здолати я вам нашлю нову біду Чари мариТепер вас треба всіх розчарувати а для цього треба все про святого Миколая розповісти а ви про нього нічого і не знаєте.
54367. Народні свята. День Святого Миколая 81 KB
  Співом його привітаєм Разом пісню заспіваєм Співають пісню Ой хто хто Миколая любить Ой хто хто Миколая любить Ой хто хто Миколаю служить Тому святий Миколай На всякий час помагай Миколаю Ой хто хто спішить в твої двори Того ти на землі й на морі. Все хорониш від напасти Не даєш му в гріхи впасти Миколаю Ой хто хто к ньому прибігає На поміч його призиває Той все з горя вийде ціло Охоронить душу й тіло Миколаю Миколай молися за нами Благаєм тебе зі сльозами Ми тя будем вихваляти Ім'я твоє величати Миколаю 2...
54368. Свято Миколая 62.5 KB
  Коли святий Миколай З небес на землю йде То кожен дім і школа Мов вулик бджіл гуде. Це Святий Миколай. Як затанцюють за вікном сніжинки І білим килимом укриють край То знай що до Івася і Галинки Святий прибуде з неба Миколай. Я не хочу щоб Святий Миколай приходив до вас хвалив за якісь гарні вчинки дарував вам гостинці.