28520

Основи кореляційно-регресійного аналізу

Лекция

Информатика, кибернетика и программирование

Оцінка параметрів рівняння регресії що виражає залежність середніх значень результативної ознаки від значень факторної ознаки ознак. Задача вирішується шляхом обчислення коефіцієнтів регресії. Парна регресія дозволяє описати форму зв’язку у вигляді рівняння парної регресії. Основні види рівнянь парної регресії показано в таб.

Украинкский

2013-08-20

434.5 KB

42 чел.

Лекція 5

Основи кореляційно-регресійного аналізу

  1.  Кореляційно-регресійний аналіз

Кореляційно-регресійний аналіз дозволяє кількісно виміряти щільність та напрямок зв’язку (кореляційний аналіз), а також встановити аналітичний вираз залежності вихідної змінної (результата) від вхідних змінних, що на нього впливають (регресійний аналіз).

Кореляційний зв’язок (від англ. Corelation відповідність) є частковим випадком статистичного зв’язку, при якій зміна середнього значення результативної ознаки обумовлена зміною значень факторної ознаки (парна кореляція) або безлічі факторних ознак (множинна кореляція). Для оцінки тісноти зв’язку (зв’язок відсутній, слабкий, помірний, сильний), визначення її спрямованості (зв’язок прямий або зворотній), а також форми (зв’язок лінійний, параболічний, гіперболічний, степеневий і т.д.) використовується кореляційно-регресійний метод.

Існує два основних типи зв’язків між соціально-економічними явищами та їх ознаками: функціональна (жорстко детермінована) і статистична (стохастично детермінована). При функціональному зв’язку кожному значенню факторної ознаки відповідають строго певні значення результативної ознаки. При статистичному зв’язку зі зміною значення факторної ознаки значення результативної ознаки можуть варіюватися в певних межах, тобто приймати будь-які значення в цих межах з деякими ймовірностями. При цьому статистичні характеристики результативної ознаки змінюються за певним законом. Статистичний зв’язок проявляється не в кожному окремому випадку, а в середньому при великій кількості спостережень.

Для оцінки щільності зв’язку (зв'язок відсутній, слабкий, помірний або сильний), визначення напрямку (зв'язок прямий або зворотній), а також форми (зв'язок лінійний, параболічний, гіперболічний, степеневий та ін.) використовують кореляційно-регресійний аналіз.

Основні умови застосування кореляційно-регресійного методу:

  1.  Наявність достатньо великої за обсягом вибіркової сукупності. Вважається, що число спостережень має перевищувати більш ніж у 10 разів число факторів, що впливають на результат.
  2.  Наявність якісно однорідної досліджуваної сукупності.
  3.  Підпорядкування розподілу сукупності за результативними та факторними ознаками нормальному закону. Виконання цієї умови зумовлено використанням методу найменших квадратів (МНК) при розрахунку параметрів кореляції і деяких ін.

Основні завдання кореляційно-регресійного аналізу:

  1.  Вимірювання тісноти зв’язку між результативною і факторною ознакою (ознаками). У залежності від кількості факторів, що впливають на результат, задача вирішується шляхом обчислення кореляційного відношення, коефіцієнтів парної, часткової, множинної кореляції або детермінації.
  2.  Оцінка параметрів рівняння регресії, що виражає залежність середніх значень результативної ознаки від значень факторної ознаки (ознак). Задача вирішується шляхом обчислення коефіцієнтів регресії.
  3.  Визначення найважливіших факторів, що впливають на результативну ознаку. Задача вирішується шляхом оцінки тісноти зв’язку факторів з результатом.
  4.  Прогнозування можливих значень результативної ознаки при значеннях факторних ознак, що задаються. Задача вирішується шляхом підстановки очікуваних значень факторів у регресійне рівняння і обчислення прогнозованих значень результату.

  1.  Парна і регресія

Часто при аналізі взаємозв’язків соціально-економічних явищ серед різних факторів, що впливають на результат, буває важливо виокремити найбільш значиму факторну ознаку, що більшою мірою обумовлює варіацію результативної ознаки (наприклад, залежність проданих туристичними фірмами путівок від витрат на рекламу або залежність продуктивності праці операторів ЕОМ від стажу роботи). Цим обумовлена ​​необхідність виміру парних кореляцій і побудови рівнянь парних регресій.

Парна регресія дозволяє описати форму зв’язку у вигляді рівняння парної регресії. Основні види рівнянь парної регресії показано в таб. 1.

Таблиця 1. Основні види рівнянь парної регресії

Найменування форми парної регресії

Вид рівняння парної регресії

Лінійна

Гіперболічна

Параболічна

Степенева

У даній таблиці   теоретичне значення результативної ознаки (y) при певному значенні факторної ознаки (x), підставленої в регресійне рівняння;

                              вільний член рівняння;

                                коефіцієнти регресії.

Параметри рівнянь парної регресії    називають коефіцієнтами регресії.

Для оцінки параметрів рівняння парної регресії використовується метод найменших квадратів (МНК). Він полягає у визначенні розподілу параметрів    при яких сума квадратів відхилень фактичних значень результату  від теоретичних () мінімізується. Так, (1) описує вихідну умову МНК для парного лінійного кореляційного зв’язку:

або                                                               (1)

На основі (1) визначаються часткові похідні функції , які потім прирівнюються до 0. Далі отримані рівняння перетворюються у систему нормальних рівнянь, з яких визначаються параметри  . При цьому число нормальних рівнянь у загальному випадку буде дорівнює числу параметрів.

Зокрема, коефіцієнт парної лінійної регресії  визначається
відповідно до (2) і характеризує міру зв’язку між варіаціями факторної і результативної ознак. Коефіцієнт регресії показує, на скільки в середньому змінюється значення результативної ознаки при зміні факторної на одиницю:

,                                                 (2)

де n обсяг сукупності.

Тісноту і напрямок парної лінійного кореляційного зв’язку вимірюють за допомогою лінійного коефіцієнта кореляції (3), що приймає значення в межах від  -1 до +1 (табл.2):

.                                            (3)

Квадрат коефіцієнта кореляції називають коефіцієнтом детермінації . Коефіцієнт детермінації можна інтерпретувати як частку загальної дисперсії результативної ознаки (y), яка пояснюється варіацією факторної ознаки (x).

Таблиця 2

Оцінка характеру зв'язку за лінійним коефіцієнтом кореляції

Значення лінійного коефіцієнта кореляції

Характер зв’язку

функціональний

зворотній сильний

зворотній помірний

зворотній слабкий

відсутній

прямий слабкий

прямий помірний

прямий сильний

функціональний

Значимість лінійного коефіцієнта кореляції перевіряється на підставі
t-критерію Ст’юдента: перевіряється нульова гіпотеза про відсутність зв’язку між факторною та результативною ознаками ( ). Для перевірки  за формулою (2.4) слід розрахувати t-статистику () і порівняти її з табличним значенням () із
заданим рівнем значущості () і числом степенів свободи . Якщо , то гіпотеза  відхиляється з імовірністю помилки менше ніж . Це свідчить про значущість лінійного коефіцієнта кореляції та статистичної суттєвості залежності між факторною та результативною ознаками.


,                                                        (4)

де k = n-2 для малої вибірки;

    k = n при великій кількості спостережень (n >100).

Аналогічно оцінюється значимість коефіцієнта регресії;  розраховують як відношення взятого по модулю коефіцієнта регресії до його середньої помилки з заданими рівнем значущості () і числом степенів свободи .

  1.  Множинна регресія

При аналізі взаємозв’язків соціально-економічних явищ, як правило, з’ясовується, що на результат впливає ряд факторних ознак, основні з яких слід  включити у регресійну модель. При цьому слід пам’ятати, що всі фактори врахувати в моделі неможливо з ряду причин: частина факторів просто невідома сучасній науці, по частині відомих факторів немає достовірної інформації або кількість факторів, що включені в модель, може бути обмежена обсягом вибірки (кількість факторних ознак має бути на порядок менше чисельності досліджуваної сукупності).

Множинна регресія описує форму зв’язку у вигляді рівняння
множинної регресії, або регресійної моделі (табл.3).

Таблиця 3. Основні види множинної регресії

Форма регресії

Вид рівняння парної регресії

Лінійна

Гіперболічна

Параболічна

Степенева

  теоретичне значення результативної ознаки (y) при певних значеннях факторних ознак (), підставлених в регресійне рівняння;

  вільний член рівняння;

  коефіцієнти множинної регресії.

Параметри рівняння множинної регресії  називають коефіцієнтами множинної регресії і визначають за допомогою МНК шляхом розв’язання системи нормальних рівнянь МНК. При цьому число нормальних рівнянь у загальному випадку буде дорівнює числу параметрів. Якщо зв’язок окремого фактора з результатом не є лінійним, то проводять лінеаризацію рівняння. Для спрощення розв’язання системи нормальних рівнянь значення всіх ознак замінюють на відхилення індивідуальних значень ознак від їх середніх величин. Отримані коефіцієнти множинної регресії є іменованими числами і показують, на скільки зміниться результативна ознака (по відношенню до своєї середньої величини) при відхиленні факторної ознаки від своєї середньої на одиницю і при сталості (фіксованому рівні) інших факторів.

Значимість коефіцієнтів множинної регресії оцінюється на основі t-критерію Ст’юдента;  розраховують як відношення взятого по модулю коефіцієнта регресії до його середньої помилки з заданими рівнем значущості  і числом степенів свободи ().

Коефіцієнти регресії можна перетворити в порівняльні відносні показники  стандартизовані коефіцієнти регресії, або β-коефіцієнти (5). β-коефіцієнт дозволяє оцінити міру впливу варіації факторної ознаки на варіацію результату при фіксованому рівні інших факторів:

,                                                        (5)

де   середнє квадратичне відхилення факторної ознаки,

      середнє квадратичне відхилення результативної ознаки;

      коефіцієнт регресії при відповідному факторному ознаці .

При інтерпретації результатів кореляційно-регресійного аналізу часто використовують частковим коефіцієнти еластичності (). Коефіцієнт еластичності (2.6) показує, на скільки відсотків у середньому
зміниться значення результативної ознаки при зміні факторної
на 1% і при сталості (фіксованому рівні) інших факторів:

,                                                        (6)

де   середнє значення факторної ознаки;

      середнє значення результативної ознаки.

  1.  Множинна кореляція

Множинна кореляція характеризує тісноту і направленість зв’язку між результативною і кількома факторними ознаками. Основою вимірювання зв’язків є матриця парних коефіцієнтів кореляції. За нею можна в першому наближенні судити про тісноту зв’язку факторних ознак між собою і з результативною ознакою, а також здійснювати попередній відбір факторів для включення їх до рівняння регресії. При цьому не слід включати в модель фактори, що слабо корелюють з результативною ознакою і тісно пов’язані між собою. Не допускається включати в модель функціонально пов’язані між собою факторні ознаки, так як це призводить до невизначеності рішення.

Більш точну характеристику тісноти залежності дають часткові коефіцієнти кореляції. Їх зручно аналізувати, якщо вони представлені в табличному вигляді. Частковий коефіцієнт кореляції служить показником лінійного зв’язку між двома ознаками, виключаючи вплив всіх інших представлених у моделі факторів. Наприклад, для двофакторної моделі частковий коефіцієнт кореляції між y і  при фіксованому  () визначається відповідно до (7).

.                                            (7)

де     парні коефіцієнти кореляції.

Перевірка значущості часткових коефіцієнтів кореляції аналогічна, як і для парних коефіцієнтів кореляції.

Множинний коефіцієнт кореляції (R) розраховується при наявності лінійного зв’язку між всіма ознаками регресійної моделі. R змінюється в межах від 0 до 1. Значимість множинного коефіцієнта кореляції перевіряється на основі F-критерію Фішера. Наприклад, в двофакторній моделі при оцінці зв’язку між результативною і факторною ознаками для визначення множинного коефіцієнта кореляції можна використовувати формулу (2.8):

або                                                               (8)

де   дисперсія результативної ознаки, розрахована за регресійним рівнянням;

      загальна дисперсія результативної ознаки;

        парні коефіцієнти кореляції.

Квадрат множинного коефіцієнта кореляції називають множинним коефіцієнтом детермінації (R2). R2 оцінює частку варіації результативного фактора за рахунок представлених у моделі факторів у загальної варіації результату. Множинний коефіцієнт детермінації зазвичай коригують на втрату степенів свободи варіації за формулою (9):

,                                                 (9)

де   коригуючий множинний коефіцієнт детермінації;

     R2 множинний коефіцієнт детермінації;

     n  обсяг сукупності;

     m  кількість факторних ознак.

Статистична надійність регресійного рівняння в цілому оцінюється на основі F-критерію Фішера: перевіряється нульова гіпотеза про невідповідність представлених регресійним рівняння зв’язків реально існуючим (  ). Для перевірки  слід розрахувати значення F - критерію () і порівняти його з табличним значенням () із заданим рівнем значущості () і числом степенів свободи ( і ).  визначається зі співвідношення факторної і залишкової дисперсії, розрахованих на одну степінь свободи за формулою (10):

,                                                 (10)

де    суми квадратів відхилень, що характеризують факторну і залишкову варіації результативної ознаки. У разі однофакторного дисперсійного комплексу  і  виражаються у відповідності до (11);

        число степенів свободи факторної дисперсії;

        число ступенів свободи залишкової дисперсії.

                                           (11)

де   значення результативної ознаки у i-ї одиниці в j-й групі;

    i  номер одиниці сукупності;

    j  номер групи;

    чисельність j-ї групи;

    середня величина результативної ознаки в j-й групі;

    загальна середня результативної ознаки.

Якщо , то гіпотеза  відхиляється. При цьому з ймовірністю , або 95%, приймається альтернативна гіпотеза про невипадкову природу оцінюваних характеристик, тобто визнається статистична значимість регресійного рівняння і його параметрів.

Коефіцієнти інтеркореляції (тобто сила зв’язку між пояснюючими змінними) дозволяють виключити з моделі регресії дублюючі фактори. Дві змінних явно колінеарні, коли вони перебувають між собою в лінійній залежності, якщо коефіцієнт кореляції > 0,7.

Оскільки однією з умов побудови рівняння регресії є незалежність дії факторів, колінеарність факторів порушує цю умову. Якщо фактори моделі явно колінеарні, то вони дублюють один одного і один з них рекомендується виключити з регресії. Перевага при цьому віддається не фактору, більш сильно пов’язаному з результатом, а фактору, який при сильному зв’язку з результатом має найменшу тісноту зв’язку з іншими факторами. Тобто коефіцієнт кореляції між факторами менше 0,3 або, в ідеалі, близький до нуля. У цьому умови проявляється специфіка множинної регресії як методу дослідження комплексного впливу факторів на результат за умов їх незалежності один від одного.

Нехай, наприклад, при вивченні залежності  матриця парних коефіцієнтів кореляції виявилася такою (таб. 4):

Таблиця 4

y

x

z

ν

y

1

x

0,8

1

z

0,7

0,8

1

ν

0,6

0,5

0,2

1

Фактори х і z дублюють один одного, тому що зв’язок між ними сильний (більше 0,7). В аналіз потрібно включити фактор z, а не х, так як кореляція z з результатом у слабша, ніж кореляція фактора х з у (), але значно слабше між факторна кореляція . Тому в цьому випадку в рівнянні множинної регресії включаємо фактори z, ν.

За величиною парних коефіцієнтів кореляції виявляють тільки явну колінеарність факторів. Найбільші труднощі у використанні апарату множинної регресії виникають при наявності мультиколінеарності факторів, коли більш ніж два фактори пов'язані між собою лінійною (сильною) залежністю, тобто має місце інтегральний (спільний) вплив факторів один на одного.

Наявність мультиколінеарності факторів означає, що деякі фактори будуть завжди діяти синхронно. У результаті варіація у вихідних даних перестає бути повністю незалежною, і неможливо оцінити вплив кожного фактора окремо. Чим сильніше мультиколінеарність факторів, тим менш надійна оцінка розподілу суми варіації за окремими факторами за допомогою методу найменших квадратів (МНК).

Включення в модель мультиколінеарності факторів небажано в силу наступних наслідків:

  •  ускладнюється інтерпретація параметрів множинної регресії як характеристик дії факторів в «чистому» виді, тому що фактори корельовані; параметри лінійної регресії втрачають економічний сенс;
  •   оцінки параметрів ненадійні, знаходять великі стандартні помилки і міняються зі зміною обсягу спостережень (не тільки по величині, але й за знаком), що робить модель непридатною для аналізу й прогнозування.

Резюме

Кореляційно-регресійний аналіз дозволяє кількісно виміряти щільність та напрямок зв’язку (кореляційний аналіз), а також встановити аналітичний вираз залежності вихідної змінної (результата) від вхідних змінних, що на нього впливають (регресійний аналіз).

Для оцінки щільності зв’язку (зв'язок відсутній, слабкий, помірний або сильний), визначення напрямку (зв'язок прямий або зворотній), а також форми (зв'язок лінійний, параболічний, гіперболічний, степеневий та ін.) використовують кореляційно-регресійний аналіз.

Ключові слова

Кореляційно-регресійний аналіз, парна регресія, множинна регресія, коефіцієнт кореляції, мульніколінеальність.

Запитання і завдання для обговорення та самоперевірки:

► Які завдання вирішує коряційно-регресійний аналіз?

► Що таке коефіцієнт кореляції і як він розраховується?

► Що таке парна регресія, чим вона відрізняється від множинної

► Як знаходять множинну регресію

► Якими функція можуть описуватись регресія?

► Поняття мультіколінеарності, що це?