48118

Корреляционно–регрессионный анализ связей социально–экономических явлений

Лекция

Социология, социальная работа и статистика

В среднем по совокупности 20 9525 ПОЛЕ КОРРЕЛЯЦИИ Рисунок 3 – Зависимость производственной себестоимости 1 ц зерна от объема ЭМПИРИЧЕСКАЯ ЛИНИЯ РЕГРЕССИИ Рисунок 4 – Зависимость уровня заработной платы рабочих сельскохозяйственных предприятий региона от производительного стажа их работы ПОКАЗАТЕЛИ ТЕСНОТЫ СВЯЗИ 1 Коэффициент корреляции знаков Фехнера: где nа число совпадений знаков отклонений индивидуальных значений признаков от их среднего значения; nв число несовпадений...

Русский

2013-12-15

405 KB

1 чел.

МИЧУРИНСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ

КАФЕДРА БУХГАЛТЕРСКОГО УЧЁТА, АНАЛИЗА И АУДИТА

ОПОРНЫЙ КОНСПЕКТ ЛЕКЦИИ

по дисциплине «Статистика»

для студентов 2 курса экономического факультета

по теме: «Корреляционно–регрессионный анализ связей социально–экономических явлений»

СОДЕРЖАНИЕ:

  1.  Понятие о корреляционной связи и предпосылки её использования          
  2.  Определение наличия и выбор формы связи                                               
  3.  Измерение тесноты связи и оценка существенности корреляции  
  4.  Непараметрические показатели связи            
  5.  Построение и оценка однофакторных моделей (уравнений) регрессии    
  6.  Регрессия и корреляция при многофакторной зависимости                       

МИЧУРИНСК  2012

Рисунок 1–Классификация корреляционных связей между признаками

Рисунок 2– Этапы корреляционно-регрессионного анализа

 Таблица 1– Шкала Чеддока

Величина показателя для измерения тесноты связи

Характер связи

до |0,3|

слабая

|0,3|-|0,5|

умеренная

|0,5|-|0,7|

заметная

|0,7|-|0,9|

высокая

|0,9|-|1|

весьма высокая

|1|

функциональная

0

отсутствие связи

Таблица 2– Сопоставление параллельных рядов значений факторного и результативного признаков

Номера

предприятий

Средний

производственный

стаж работы рабочих,

лет

Среднемесячная

заработная плата

рабочих,

руб.

1

8

8000

2

8

8500

3

8

7200

4

9

8500

5

9

8000

6

9

8800

7

9

9500

8

9

8200

9

10

9000

10

10

10000

11

10

9200

12

10

10600

13

10

9500

14

11

9000

15

11

12000

16

11

11500

17

11

10000

18

12

12000

19

12

11000

20

12

10000

Таблица 3 – Корреляционная таблица зависимости уровня заработной платы рабочих сельскохозяйственных предприятий от производственного стажа их работы

Центральное значение интервала, у

7680

8640

9600

10561

11521

      группы

         по у

группы

по х

7200-8160

8161-9120

9121-10080

10081-11040

11041-12000

8

2

1

3

8000

9

1

3

1

5

8640

10

1

3

1

5

9600

11

1

1

2

1

10320

12

1

1

1

3

10560

3

6

6

2

3

20

- среднее значение результативного признака  для  i-той группы значений факторного признака;

 - частота повторения данного варианта значения факторного признака во всей совокупности;

 - частота повторения данного варианта значения результативного признака во всей совокупности.

Таблица 4 – Групповая таблица зависимости уровня заработной платы рабочих предприятий от производственного стажа их работы

Группы предприятий

по стажу работы рабочих, лет

Число предприятий

Средний уровень среднемесячной заработной платы, руб.

8

3

7900

9

5

8600

10

5

9660

11

4

10625

12

3

11000

В среднем по совокупности

20

9525

ПОЛЕ КОРРЕЛЯЦИИ

 

Рисунок 3 – Зависимость производственной себестоимости 1 ц зерна от объема

ЭМПИРИЧЕСКАЯ ЛИНИЯ РЕГРЕССИИ

Рисунок 4 – Зависимость уровня заработной платы рабочих сельскохозяйственных предприятий региона от производительного стажа их работы

ПОКАЗАТЕЛИ ТЕСНОТЫ СВЯЗИ

1)   Коэффициент корреляции знаков (Фехнера):

, где

nа- число совпадений знаков отклонений индивидуальных значений признаков от их среднего   значения;  

nв- число несовпадений знаков отклонений.

Таблица 5 – Расчёт данных для вычисления коэффициента корреляции знаков

Номер

предприятия

Производственный

стаж работы рабочих, лет

хi

Среднемесячная

заработная плата рабочих, руб.                   уi

Знаки отношений индивидуальных значений от средней

Совпадение (а) или несовпадение

(в)

знаков

для хi

для уi

1

8

8000

-

-

а

2

8

8500

-

-

а

3

8

7200

-

-

а

4

9

8500

-

-

а

5

9

8000

-

-

а

6

9

8800

-

-

а

7

9

9500

-

-

а

8

9

8200

-

-

а

9

10

9000

+

-

в

10

10

10000

+

+

а

11

10

9200

+

-

в

12

10

10600

+

+

а

13

10

9500

+

-

в

14

11

9000

+

-

в

15

11

12000

+

+

а

16

11

11500

+

+

а

17

11

10000

+

+

а

18

12

12000

+

+

а

19

12

11000

+

+

а

20

12

10000

+

+

а

(2) Формулы для расчёта линейного коэффициента корреляции:

;

;

;

;

(3) Эмпирическое корреляционное отношение: 

Теоретическое корреляционное отношение

( индекс корреляции):

  ,

Значимость  определяется по  F – критерию Фишера:

, где

n -  число наблюдений;

m – число параметров в уравнении регрессии.

Расчётное значение  F – критерия сравнивается с критическим (табличным) для принятого  уровня значимости  и чисел степеней свободы k1=m-1 и   k2=m-n.

      Если  Fрасчёт>Fтабл., то величина корреляционного отношения или индекса корреляции признаётся значимой, а связь между признаками существенной.              

Формулы для расчёта факторной дисперсии:

Для линейной регрессии (уравнения прямой линии уx=a + bх):  

;

 для двучленной гиперболической регрессии (уравнения гиперболы ух=):

для параболической регрессии (уравнение параболы 2-го порядка у=а+вх+сх2):

НЕПАРАМЕТРИЧЕСКИЕ ПОКАЗАТЕЛИ  КОРРЕЛЯЦИИ

Коэффициент корреляции рангов (Спирмена):

r =, где                   (4)

d – разность между рангами соответствующих величин двух признаков;

 n – число единиц в ряду (число пар рангов).

Коэффициент корреляции рангов принимает любые значения от -1 до +1. Если все ранги строго изменяются в одном и том же порядке, то d=0, а r=1. Если же ранги изменяются строго в противоположных направлениях, то r= -1. Значение r=0 характеризует отсутствие связи.

Значимость коэффициента корреляции рангов для совокупностей небольшого объёма (n£30) проверяется по таблице предельных значений коэффициента корреляции рангов Спирмена при заданном уровне значимости a и определённом объёме совокупности.

Значимость r может быть проверена также на основе t – критерия Стьюдента. Расчётное значение критерия определяется по формуле:

tрасч=

Значение коэффициента корреляции считается статистически существенным, если tрасч>tтабл при заданном уровне значимости a и числе степеней свободы k=n-2.

Ранговый коэффициент корреляции Кендалла рассчитывается по формуле:

t=,   S=P+Q              (5)

n – число наблюдений;

S – сумма разностей между числом последовательностей и числом инверсий по результативному признаку.

Расчёт данного коэффициента выполняется в следующей последовательности:

ранги факторного признака располагаются в порядке возрастания;

ранги результативного признака располагаются в порядке, соответствующем рангам признака   х;

для каждого ранга результативного признака определяется сколько чисел, находящихся справа от него (следующих за ним) имеют величину ранга, превышающую его величину. Суммируя полученные таким образом числа, получаем слагаемое  P, которое можно рассматривать как меру соответствия последовательностей рангов по x и y, и которое учитывается со знаком «+»;

для каждого ранга y определяется число, следующих за ним рангов, меньших его величины. Суммарная величина обозначается через Q и  фиксируется со знаком «-»;

определяется сумма баллов S=P+Q 

Коэффициент Кендалла также изменяется в пределах от -1 до +1.

Существенность коэффициента корреляции рангов Кендалла проверяется при выбранном уровне значимости a при больших  n по формуле:

t>ta×, где

ta – коэффициент, определяемый по таблице нормального распределения.

При достаточно большом числе наблюдений между коэффициентами корреляции рангов Спирмена и Кендалла существует следующее соотношение: .

Связь между признаками можно считать существенной, если коэффициенты Спирмена и Кендалла больше 0,5.

Пример: определим степень тесноты связи между суммой затрат на рекламу сельскохозяйственной продукции и размером прибыли от ее продаж по данным десяти сельскохозяйственных предприятий района.

Таблица 6 – Исходные данные для корреляционного анализа

Номер предприятия

Затраты на рекламу сельскохозяйственной продукции, млн. руб.

Прибыль от продажи сельскохозяйственной продукции, млн. руб.

1

2

3

4

5

6

7

8

9

10

3,6

4,6

17,2

2,6

7,0

7,6

9,0

11,6

7,4

13,0

35

82

54

91

123

148

165

180

200

230

Для проверки количественной однородности  совокупности данных предприятий рассчитаем коэффициент вариации по факторному признаку.

Из расчетов видно, что Vx>33%, что свидетельствует о неоднородности совокупности, а, следовательно, о невозможности применения собственно-корреляционных методов изучения связи между признаками и, соответственно, о необходимости использования непараметрических методов.

Рассчитаем коэффициент корреляции рангов (коэффициент Спирмена) по формуле:

r =,

где d2 – квадрат разности рангов, n – число наблюдений.

Для определения рангов каждого предприятия по факторному и результативному признаку проведем ранжирование, т.е. расположим предприятия в порядке возрастания значений признаков.

Таблица 7 – Ранжированные ряды распределения предприятий по затратам на рекламу и прибыли от ее продажи

Номер предприятия

Сумма затрат на рекламу продукции, млн. руб.

x

Ранг предприятия

Rx

Номер предприятия

Прибыль от реализации продукции, млн. руб.

y

Ранг предприятия

Ry

4

1

2

5

9

6

7

8

10

3

2,6

3,6

4,6

7,0

7,4

7,6

9,0

11,6

13,0

17,2

1

2

3

4

5

6

7

8

9

10

1

3

2

4

5

6

7

8

9

10

35

54

82

91

123

148

165

180

200

230

1

2

3

4

5

6

7

8

9

10

Наиболее высокие ранги присваиваются предприятиям с наибольшими затратами на рекламу и наибольшим размером прибыли.

В таблице 8 произведем сравнение рангов каждого предприятия по факторному и результативному признаку.

Таблица 8 – Расчет данных для вычисления коэффициента Спирмена

Номер предприятия

Сравнение рангов

Разность рангов

d=Rx-Ry

Квадрат разности рангов          d2

Rx

Ry

1

2

3

4

5

6

7

8

9

10

2

3

10

1

4

6

7

8

5

9

1

3

2

4

5

6

7

8

9

10

1

0

8

-3

-1

0

0

0

-4

-1

1

0

64

9

1

0

0

0

16

1

Сумма

-

-

-

92

Подставим полученные данные в формулу коэффициента Спирмена:

r=

Таким образом, значение коэффициента корреляции рангов показывает умеренную по тесноте связь между затратами на рекламу сельскохозяйственной продукции и прибылью от ее продажи.

Определим степень тесноты связи между затратами на рекламу и размером прибыли от ее продажи с помощью коэффициента корреляции рангов Кендалла.

Для этого ряд рангов факторного признака упорядочим, приводя его к ряду натуральных чисел. Затем ранги результативного признака расположим в порядке, соответствующему рангам факторного признака. Для этого воспользуемся данными таблицы 7.

Так, первый ранг в ряду факторного признака имеет предприятие №4, для которого ранг по результативному признаку равен 4; второй ранг в ряду факторного признака имеет предприятие №1, для которого ранг по результативному признаку равен 1 и т.д.

Оформим данное упорядочение в виде таблицы.

Таблица 9 – Упорядоченные ряды рангов по факторному и результативному признаку

Ранг по факторному признаку

1

2

3

4

5

6

7

8

9

10

Ранг по результативному признаку

4

1

3

5

9

6

7

8

10

2

Для каждого ранга результативного признака определим, сколько следующих за ним значений рангов превышают его величину. Так, например, первому значению в последовательности рангов результативного признака, т.е. числу 4, соответствует 6 чисел (5,9,6,7,8,10), которые превышают ранг 4; второму значению 1 соответствует 8 чисел (3,5,9,6,7,8,10,2), третьему значению 3 соответствует 6 чисел (5,9,6,7,8,10) и т.д.

Суммируя полученные таким образом числа, получаем слагаемое P, которое рассматривают как меру соответствия последовательности рангов результативного признака последовательности рангов факторного признака. Для нашего примера

P=6+8+6+5+1+3+2+1+0=32.

Далее для каждого ранга результативного признака определим число следующих за ним рангов, меньших его величины. Эти величины берем со знаком минус. Так, первому значению в последовательности рангов результативного признака 4 соответствует 3 числа (1,3,2), которые меньше его; второе значение 1 не имеет рангов, меньших его и т.д.

Суммируя эти числа, получаем слагаемое Q, которое характеризует меру несоответствия последовательности рангов результативного признака последовательности рангов факторного признака.

Q=-3-0-1-1-4-1-1-1-1=-13

Суммируя величину P и Q, получаем величину S (S=P+Q=32-13=19), которая используется в формуле коэффициента Кендалла:

.

Измерение степени тесноты связи между качественными (альтернативными) признаками

Коэффициент ассоциации (Д.Юла):

KA =              (6)

Коэффициент  контингенции (К.Пирсона):

KK =                 (7)

Для их вычисления строится таблица сопряженности или «таблица четырех полей», частоты которой обозначаются a,b,c,d.

а

b

a+b

с

d

c+d

a+c

b+d

a+b+c+d

Информационной базой для такого анализа служат данные различных социологических обследований на базе анкетирования. Например,

Группы студентов

Средний балл успеваемости по сравнению с предыдущей сессией

Всего

не изменился и возрос

снизился

Занимавшиеся самостоятельной работой

78

22

100

Не занимавшиеся самостоятельной работой

32

68

100

Итого

110

90

200

KA =

KK =

Таким образом, между занятием студентами самостоятельной работой и успеваемостью наблюдается достаточно заметная положительная связь.

Выбор аналитической формы связи (линии регрессии) осуществляется на основе:

логического экономического анализа;

графического изображения зависимости в виде эмпирической линии регрессии;

опыта предыдущих исследований, где выбранные формы связи давали удовлетворительные результаты;

различных статистико-математических критериев адекватности конкурирующих уравнений регрессии (остаточных дисперсий, ошибок аппроксимации и др.).

Типы математических функций, используемые для описания  прямолинейной и криволинейной зависимостей:

– в случае линейной связи применяется прямолинейная функция:

yx=a+bx;

– в случае  нелинейной  связи используются следующие функции:

параболическая       yx=a+bx+cx2

гиперболическая     yx=a+

показательная     yx=abx

степенная     yx=axb

логарифмическая     yx=a+blgx

логистическая     yx=    и др.

(8) Нахождение параметров:

уравнения прямой линии :

уравнения двучленной гиперболы :

уравнения параболы 2 порядка  :

 логарифмической функции :

показательной функции  :

степенной функции :

МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ И РЕГРЕССИЯ

Мультиколлинеарность наличие тесной взаимосвязи между факторными признаками, оказывающими влияние на результативный признак.

Её отсутствие определяется на основе корреляционной матрицы с использованием следующих критериев:

ryi>rij ;  ryj>rij ;  rij<0,8.

Таблица 10– Матрица парных коэффициентов корреляции множественной модели регрессии

y

x1

x2

xj

...

xm

Y

1

ry1

ry2

ryj

rym

x1

r1y

1

r12

r1j

r1m

x2

r2y

r21

1

r2j

r2m

xi

riy

ri1

ri2

1

rim

xm

rmy

rm1

rm2

rmj

1

(9)  УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

линейной функции:

степенной функции:

параболической функции:

показательной функции:

гиперболической функции:

Совокупный индекс корреляции (индекс множественной корреляции):

, где             (10)

- факторная дисперсия, характеризует вариацию результативного признака, которая при данной форме связи объясняется влиянием факторов x1,x2,x3,…,xm, включенными в уравнение множественной регрессии;

- остаточная (случайная) дисперсия, характеризует вариацию результативного признака, обусловленную влиянием прочих, не включенных в уравнение регрессии факторов.

Совокупный (множественный)  индекс детерминации:

.                          (11)

Для оценки связи между результативным и двумя факторными признаками множественный коэффициент корреляции  определяется по формуле:

,                   (12)

где  - парные коэффициенты корреляции между признаками:

                                                              (13)                  

(14)  Частные коэффициенты корреляции при влиянии двух факторов:

- между результатом y и фактором х1 при                       элиминировании влияния фактора х2;

- между результатом y и фактором х2 при исключенном влиянии фактора х1;

- между факторами х1  и х2  при исключённом влиянии y.

Контрольные вопросы

В чем состоит отличие между функциональной и стохастической связью?

Какие основные задачи решаются с помощью:

корреляционного анализа;

корреляционно-регрессионного анализа;

регрессионного анализа?

Какие методы используются для выявления возможного наличия связи между факторным и результативным признаками?

Назовите основные этапы корреляционно-регрессионного анализа.

Какие виды корреляционных зависимостей выделяются в статистике

по аналитическому выражению;

по направлению действия;

по степени тесноты?

  1.  Какие требования предъявляются к информационной базе при проведении корреляционно-регрессионного анализа?
    1.  Какие показатели являются мерой тесноты связи между двумя признаками?
    2.  Как оценить существенность линейного коэффициента корреляции?
    3.  В чем состоит значение уравнения регрессии?
    4.  Что характеризуют коэффициенты регрессии и эластичности?
    5.  С помощью каких способов осуществляется оценка адекватности уравнения регрессии?
    6.  Для чего рассчитываются индексы корреляции и детерминации? Как осуществляется оценка их существенности?
    7.  Какие непараметрические методы применяются для изучения взаимосвязи между признаками?
    8.  Назовите показатели связи социальных явлений. Дайте их экономическую интерпретацию.
    9.  Как подходить к отбору факторов для включения их в уравнение множественной регрессии?
    10.  Каким образом можно выделить факторы, в изменении которых заложены наибольшие возможности в управлении изменением результативного признака?
    11.  Причины возникновения и способы устранения мультиколлинеарности.
    12.  В каких пределах заключена величина множественного коэффициента корреляции и как она соотносится с величиной парных коэффициентов корреляции?
    13.  Что характеризует множественный коэффициент детерминации?
    14.  Для чего рассчитываются частные коэффициенты корреляции?


Предварительный (априорный) анализ

Сбор информации и её первична обработка

Установление наличия связи, определение её направления и формы

Измерение степени тесноты связи и её значимости

остроение регрессионной модели

Оценка адекватности модели регрессии, её экономическая интерпретация и практическое использование

КОРРЕЛЯЦИОННАЯ СВЯЗЬ

По форме

По направлению

По степени тесноты

линейная

нелинейная

прямая

обратная

слабая

умеренная

сильная

0

20

40

60

80

100

120

140

160

0

2

4

6

8

10

12

14

                                                             Объём

                                                             производства                     

                                                               зерна,тыс.ц.

Проиизв.

ссбест

1ц руб.


 

А также другие работы, которые могут Вас заинтересовать

63419. ИСПОЛЬЗОВАНИЕ CASE–ТЕХНОЛОГИЙ ДЛЯ ПРОЕКТИРОВАНИЯ БД 630 KB
  Помимо этого представляется весьма важным для любой компании иметь возможность повторного использования уже существующих элементов архитектуры и дизайна а также ранее созданных и скомпонованных программных и системных наработок включая элементы модели и ранее полученный код.
63420. Механизм саморегулирования рынка. Рыночный механизм и его элементы. Спрос. Факторы изменения спроса 151.5 KB
  Система цен в рыночной экономике играет роль основной организующей силы. Цена - это ориентир для продавца (производителя) и покупателя (потребителя). Растет цена - это сигнал к расширению производства, падает - сигнал к сокращению. В цене находят отражение все три подхода к установлению...
63421. Беларусь у пачатку найноўшага часу. Аднаўленне беларускай дзяржаўнасці. Культурнае жыццё беларускага народа у 20-30 гг. 20 стагоддзя 103.5 KB
  Сацыяльна-эканамічнае развіццё Беларусі ў міжваенны перыяд 1919-1939гг. Неузабаве звесткі аб перамозе рэвалюцыі дайшлі да Беларусі тут таксама пачалі стварацца саветы рабочых салдацкіх дэпутатаў а паралельна з імі дзейнічалі органы улады што падпарадкоўваліся Часоваму.
63422. Природные ресурсы и рациональное природопользование. Характеристика природных ресурсов земли. Классификация природных ресурсов. Проблема обеспечения человеческого общества природными ресурсами 55.5 KB
  Характеристика природных ресурсов земли. Классификация природных ресурсов. Характеристика природных ресурсов Земли: Атмосфера наиболее легкая оболочка Земли которая граничит с космическим пространством...
63423. Макроэкономика как раздел экономической науки. Национальная экономика. Предмет и метод макроэкономики. Микро- и макроэкономика 116.5 KB
  Содержание и структура макроэкономики. Макроэкономика является разделом экономической теории в котором исследуется функционирование национальной экономики как единого целого. В данном разделе экономической теории рассматриваются главным образом глобальные проблемы функционирования и развития национальной экономики...
63424. Водные ресурсы и их охрана. Значение воды в хозяйственной деятельности человека. Водоснабжение и водопотребление, классификация воды. Источники загрязнения воды и нерациональное использование водных ресурсов 48.5 KB
  Значение воды в хозяйственной деятельности человека. Водоснабжение и водопотребление классификация воды. Источники загрязнения воды и нерациональное использование водных ресурсов.
63425. РАСПРЕДЕЛЕННЫЕ БД 325.5 KB
  Достигнутый уровень технического развития отдельных ведомственных центров данных принципиально позволяет уже сейчас обеспечить достаточно высокую оперативность доступа пользователей. В связи с растущей сложностью и разнообразием данных представляющих интерес для различных отраслей экономики...
63426. Теории экономического равновесия. Система рынков. Общее экономическое равновесие. Некоторые модели общего экономического равновесия 61 KB
  Достижению равновесия способствует ценовый механизм. В результате колебания цен происходит выравнивание спроса и предложения товаров. В точке их пересечения устанавливается равновесная цена. Равновесие через посредство ценового механизма может устанавливаться...
63427. Предельно-допустимые концентрации вредных веществ в водоемах. Характеристика промышленных и бытовых сточных вод. Влияние загрязняющих компонентов сточных вод на живые организмы 85.5 KB
  Подземные воды их значение и охрана. Роль живых организмов в очистке воды. Организмы как индикаторы качества воды. Основное нормативное требование к качеству воды в водных объектах соблюдение установленных предельно допустимых концентраций...