48118

Корреляционно–регрессионный анализ связей социально–экономических явлений

Лекция

Социология, социальная работа и статистика

В среднем по совокупности 20 9525 ПОЛЕ КОРРЕЛЯЦИИ Рисунок 3 – Зависимость производственной себестоимости 1 ц зерна от объема ЭМПИРИЧЕСКАЯ ЛИНИЯ РЕГРЕССИИ Рисунок 4 – Зависимость уровня заработной платы рабочих сельскохозяйственных предприятий региона от производительного стажа их работы ПОКАЗАТЕЛИ ТЕСНОТЫ СВЯЗИ 1 Коэффициент корреляции знаков Фехнера: где nа число совпадений знаков отклонений индивидуальных значений признаков от их среднего значения; nв число несовпадений...

Русский

2013-12-15

405 KB

0 чел.

МИЧУРИНСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ

КАФЕДРА БУХГАЛТЕРСКОГО УЧЁТА, АНАЛИЗА И АУДИТА

ОПОРНЫЙ КОНСПЕКТ ЛЕКЦИИ

по дисциплине «Статистика»

для студентов 2 курса экономического факультета

по теме: «Корреляционно–регрессионный анализ связей социально–экономических явлений»

СОДЕРЖАНИЕ:

  1.  Понятие о корреляционной связи и предпосылки её использования          
  2.  Определение наличия и выбор формы связи                                               
  3.  Измерение тесноты связи и оценка существенности корреляции  
  4.  Непараметрические показатели связи            
  5.  Построение и оценка однофакторных моделей (уравнений) регрессии    
  6.  Регрессия и корреляция при многофакторной зависимости                       

МИЧУРИНСК  2012

Рисунок 1–Классификация корреляционных связей между признаками

Рисунок 2– Этапы корреляционно-регрессионного анализа

 Таблица 1– Шкала Чеддока

Величина показателя для измерения тесноты связи

Характер связи

до |0,3|

слабая

|0,3|-|0,5|

умеренная

|0,5|-|0,7|

заметная

|0,7|-|0,9|

высокая

|0,9|-|1|

весьма высокая

|1|

функциональная

0

отсутствие связи

Таблица 2– Сопоставление параллельных рядов значений факторного и результативного признаков

Номера

предприятий

Средний

производственный

стаж работы рабочих,

лет

Среднемесячная

заработная плата

рабочих,

руб.

1

8

8000

2

8

8500

3

8

7200

4

9

8500

5

9

8000

6

9

8800

7

9

9500

8

9

8200

9

10

9000

10

10

10000

11

10

9200

12

10

10600

13

10

9500

14

11

9000

15

11

12000

16

11

11500

17

11

10000

18

12

12000

19

12

11000

20

12

10000

Таблица 3 – Корреляционная таблица зависимости уровня заработной платы рабочих сельскохозяйственных предприятий от производственного стажа их работы

Центральное значение интервала, у

7680

8640

9600

10561

11521

      группы

         по у

группы

по х

7200-8160

8161-9120

9121-10080

10081-11040

11041-12000

8

2

1

3

8000

9

1

3

1

5

8640

10

1

3

1

5

9600

11

1

1

2

1

10320

12

1

1

1

3

10560

3

6

6

2

3

20

- среднее значение результативного признака  для  i-той группы значений факторного признака;

 - частота повторения данного варианта значения факторного признака во всей совокупности;

 - частота повторения данного варианта значения результативного признака во всей совокупности.

Таблица 4 – Групповая таблица зависимости уровня заработной платы рабочих предприятий от производственного стажа их работы

Группы предприятий

по стажу работы рабочих, лет

Число предприятий

Средний уровень среднемесячной заработной платы, руб.

8

3

7900

9

5

8600

10

5

9660

11

4

10625

12

3

11000

В среднем по совокупности

20

9525

ПОЛЕ КОРРЕЛЯЦИИ

 

Рисунок 3 – Зависимость производственной себестоимости 1 ц зерна от объема

ЭМПИРИЧЕСКАЯ ЛИНИЯ РЕГРЕССИИ

Рисунок 4 – Зависимость уровня заработной платы рабочих сельскохозяйственных предприятий региона от производительного стажа их работы

ПОКАЗАТЕЛИ ТЕСНОТЫ СВЯЗИ

1)   Коэффициент корреляции знаков (Фехнера):

, где

nа- число совпадений знаков отклонений индивидуальных значений признаков от их среднего   значения;  

nв- число несовпадений знаков отклонений.

Таблица 5 – Расчёт данных для вычисления коэффициента корреляции знаков

Номер

предприятия

Производственный

стаж работы рабочих, лет

хi

Среднемесячная

заработная плата рабочих, руб.                   уi

Знаки отношений индивидуальных значений от средней

Совпадение (а) или несовпадение

(в)

знаков

для хi

для уi

1

8

8000

-

-

а

2

8

8500

-

-

а

3

8

7200

-

-

а

4

9

8500

-

-

а

5

9

8000

-

-

а

6

9

8800

-

-

а

7

9

9500

-

-

а

8

9

8200

-

-

а

9

10

9000

+

-

в

10

10

10000

+

+

а

11

10

9200

+

-

в

12

10

10600

+

+

а

13

10

9500

+

-

в

14

11

9000

+

-

в

15

11

12000

+

+

а

16

11

11500

+

+

а

17

11

10000

+

+

а

18

12

12000

+

+

а

19

12

11000

+

+

а

20

12

10000

+

+

а

(2) Формулы для расчёта линейного коэффициента корреляции:

;

;

;

;

(3) Эмпирическое корреляционное отношение: 

Теоретическое корреляционное отношение

( индекс корреляции):

  ,

Значимость  определяется по  F – критерию Фишера:

, где

n -  число наблюдений;

m – число параметров в уравнении регрессии.

Расчётное значение  F – критерия сравнивается с критическим (табличным) для принятого  уровня значимости  и чисел степеней свободы k1=m-1 и   k2=m-n.

      Если  Fрасчёт>Fтабл., то величина корреляционного отношения или индекса корреляции признаётся значимой, а связь между признаками существенной.              

Формулы для расчёта факторной дисперсии:

Для линейной регрессии (уравнения прямой линии уx=a + bх):  

;

 для двучленной гиперболической регрессии (уравнения гиперболы ух=):

для параболической регрессии (уравнение параболы 2-го порядка у=а+вх+сх2):

НЕПАРАМЕТРИЧЕСКИЕ ПОКАЗАТЕЛИ  КОРРЕЛЯЦИИ

Коэффициент корреляции рангов (Спирмена):

r =, где                   (4)

d – разность между рангами соответствующих величин двух признаков;

 n – число единиц в ряду (число пар рангов).

Коэффициент корреляции рангов принимает любые значения от -1 до +1. Если все ранги строго изменяются в одном и том же порядке, то d=0, а r=1. Если же ранги изменяются строго в противоположных направлениях, то r= -1. Значение r=0 характеризует отсутствие связи.

Значимость коэффициента корреляции рангов для совокупностей небольшого объёма (n£30) проверяется по таблице предельных значений коэффициента корреляции рангов Спирмена при заданном уровне значимости a и определённом объёме совокупности.

Значимость r может быть проверена также на основе t – критерия Стьюдента. Расчётное значение критерия определяется по формуле:

tрасч=

Значение коэффициента корреляции считается статистически существенным, если tрасч>tтабл при заданном уровне значимости a и числе степеней свободы k=n-2.

Ранговый коэффициент корреляции Кендалла рассчитывается по формуле:

t=,   S=P+Q              (5)

n – число наблюдений;

S – сумма разностей между числом последовательностей и числом инверсий по результативному признаку.

Расчёт данного коэффициента выполняется в следующей последовательности:

ранги факторного признака располагаются в порядке возрастания;

ранги результативного признака располагаются в порядке, соответствующем рангам признака   х;

для каждого ранга результативного признака определяется сколько чисел, находящихся справа от него (следующих за ним) имеют величину ранга, превышающую его величину. Суммируя полученные таким образом числа, получаем слагаемое  P, которое можно рассматривать как меру соответствия последовательностей рангов по x и y, и которое учитывается со знаком «+»;

для каждого ранга y определяется число, следующих за ним рангов, меньших его величины. Суммарная величина обозначается через Q и  фиксируется со знаком «-»;

определяется сумма баллов S=P+Q 

Коэффициент Кендалла также изменяется в пределах от -1 до +1.

Существенность коэффициента корреляции рангов Кендалла проверяется при выбранном уровне значимости a при больших  n по формуле:

t>ta×, где

ta – коэффициент, определяемый по таблице нормального распределения.

При достаточно большом числе наблюдений между коэффициентами корреляции рангов Спирмена и Кендалла существует следующее соотношение: .

Связь между признаками можно считать существенной, если коэффициенты Спирмена и Кендалла больше 0,5.

Пример: определим степень тесноты связи между суммой затрат на рекламу сельскохозяйственной продукции и размером прибыли от ее продаж по данным десяти сельскохозяйственных предприятий района.

Таблица 6 – Исходные данные для корреляционного анализа

Номер предприятия

Затраты на рекламу сельскохозяйственной продукции, млн. руб.

Прибыль от продажи сельскохозяйственной продукции, млн. руб.

1

2

3

4

5

6

7

8

9

10

3,6

4,6

17,2

2,6

7,0

7,6

9,0

11,6

7,4

13,0

35

82

54

91

123

148

165

180

200

230

Для проверки количественной однородности  совокупности данных предприятий рассчитаем коэффициент вариации по факторному признаку.

Из расчетов видно, что Vx>33%, что свидетельствует о неоднородности совокупности, а, следовательно, о невозможности применения собственно-корреляционных методов изучения связи между признаками и, соответственно, о необходимости использования непараметрических методов.

Рассчитаем коэффициент корреляции рангов (коэффициент Спирмена) по формуле:

r =,

где d2 – квадрат разности рангов, n – число наблюдений.

Для определения рангов каждого предприятия по факторному и результативному признаку проведем ранжирование, т.е. расположим предприятия в порядке возрастания значений признаков.

Таблица 7 – Ранжированные ряды распределения предприятий по затратам на рекламу и прибыли от ее продажи

Номер предприятия

Сумма затрат на рекламу продукции, млн. руб.

x

Ранг предприятия

Rx

Номер предприятия

Прибыль от реализации продукции, млн. руб.

y

Ранг предприятия

Ry

4

1

2

5

9

6

7

8

10

3

2,6

3,6

4,6

7,0

7,4

7,6

9,0

11,6

13,0

17,2

1

2

3

4

5

6

7

8

9

10

1

3

2

4

5

6

7

8

9

10

35

54

82

91

123

148

165

180

200

230

1

2

3

4

5

6

7

8

9

10

Наиболее высокие ранги присваиваются предприятиям с наибольшими затратами на рекламу и наибольшим размером прибыли.

В таблице 8 произведем сравнение рангов каждого предприятия по факторному и результативному признаку.

Таблица 8 – Расчет данных для вычисления коэффициента Спирмена

Номер предприятия

Сравнение рангов

Разность рангов

d=Rx-Ry

Квадрат разности рангов          d2

Rx

Ry

1

2

3

4

5

6

7

8

9

10

2

3

10

1

4

6

7

8

5

9

1

3

2

4

5

6

7

8

9

10

1

0

8

-3

-1

0

0

0

-4

-1

1

0

64

9

1

0

0

0

16

1

Сумма

-

-

-

92

Подставим полученные данные в формулу коэффициента Спирмена:

r=

Таким образом, значение коэффициента корреляции рангов показывает умеренную по тесноте связь между затратами на рекламу сельскохозяйственной продукции и прибылью от ее продажи.

Определим степень тесноты связи между затратами на рекламу и размером прибыли от ее продажи с помощью коэффициента корреляции рангов Кендалла.

Для этого ряд рангов факторного признака упорядочим, приводя его к ряду натуральных чисел. Затем ранги результативного признака расположим в порядке, соответствующему рангам факторного признака. Для этого воспользуемся данными таблицы 7.

Так, первый ранг в ряду факторного признака имеет предприятие №4, для которого ранг по результативному признаку равен 4; второй ранг в ряду факторного признака имеет предприятие №1, для которого ранг по результативному признаку равен 1 и т.д.

Оформим данное упорядочение в виде таблицы.

Таблица 9 – Упорядоченные ряды рангов по факторному и результативному признаку

Ранг по факторному признаку

1

2

3

4

5

6

7

8

9

10

Ранг по результативному признаку

4

1

3

5

9

6

7

8

10

2

Для каждого ранга результативного признака определим, сколько следующих за ним значений рангов превышают его величину. Так, например, первому значению в последовательности рангов результативного признака, т.е. числу 4, соответствует 6 чисел (5,9,6,7,8,10), которые превышают ранг 4; второму значению 1 соответствует 8 чисел (3,5,9,6,7,8,10,2), третьему значению 3 соответствует 6 чисел (5,9,6,7,8,10) и т.д.

Суммируя полученные таким образом числа, получаем слагаемое P, которое рассматривают как меру соответствия последовательности рангов результативного признака последовательности рангов факторного признака. Для нашего примера

P=6+8+6+5+1+3+2+1+0=32.

Далее для каждого ранга результативного признака определим число следующих за ним рангов, меньших его величины. Эти величины берем со знаком минус. Так, первому значению в последовательности рангов результативного признака 4 соответствует 3 числа (1,3,2), которые меньше его; второе значение 1 не имеет рангов, меньших его и т.д.

Суммируя эти числа, получаем слагаемое Q, которое характеризует меру несоответствия последовательности рангов результативного признака последовательности рангов факторного признака.

Q=-3-0-1-1-4-1-1-1-1=-13

Суммируя величину P и Q, получаем величину S (S=P+Q=32-13=19), которая используется в формуле коэффициента Кендалла:

.

Измерение степени тесноты связи между качественными (альтернативными) признаками

Коэффициент ассоциации (Д.Юла):

KA =              (6)

Коэффициент  контингенции (К.Пирсона):

KK =                 (7)

Для их вычисления строится таблица сопряженности или «таблица четырех полей», частоты которой обозначаются a,b,c,d.

а

b

a+b

с

d

c+d

a+c

b+d

a+b+c+d

Информационной базой для такого анализа служат данные различных социологических обследований на базе анкетирования. Например,

Группы студентов

Средний балл успеваемости по сравнению с предыдущей сессией

Всего

не изменился и возрос

снизился

Занимавшиеся самостоятельной работой

78

22

100

Не занимавшиеся самостоятельной работой

32

68

100

Итого

110

90

200

KA =

KK =

Таким образом, между занятием студентами самостоятельной работой и успеваемостью наблюдается достаточно заметная положительная связь.

Выбор аналитической формы связи (линии регрессии) осуществляется на основе:

логического экономического анализа;

графического изображения зависимости в виде эмпирической линии регрессии;

опыта предыдущих исследований, где выбранные формы связи давали удовлетворительные результаты;

различных статистико-математических критериев адекватности конкурирующих уравнений регрессии (остаточных дисперсий, ошибок аппроксимации и др.).

Типы математических функций, используемые для описания  прямолинейной и криволинейной зависимостей:

– в случае линейной связи применяется прямолинейная функция:

yx=a+bx;

– в случае  нелинейной  связи используются следующие функции:

параболическая       yx=a+bx+cx2

гиперболическая     yx=a+

показательная     yx=abx

степенная     yx=axb

логарифмическая     yx=a+blgx

логистическая     yx=    и др.

(8) Нахождение параметров:

уравнения прямой линии :

уравнения двучленной гиперболы :

уравнения параболы 2 порядка  :

 логарифмической функции :

показательной функции  :

степенной функции :

МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ И РЕГРЕССИЯ

Мультиколлинеарность наличие тесной взаимосвязи между факторными признаками, оказывающими влияние на результативный признак.

Её отсутствие определяется на основе корреляционной матрицы с использованием следующих критериев:

ryi>rij ;  ryj>rij ;  rij<0,8.

Таблица 10– Матрица парных коэффициентов корреляции множественной модели регрессии

y

x1

x2

xj

...

xm

Y

1

ry1

ry2

ryj

rym

x1

r1y

1

r12

r1j

r1m

x2

r2y

r21

1

r2j

r2m

xi

riy

ri1

ri2

1

rim

xm

rmy

rm1

rm2

rmj

1

(9)  УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

линейной функции:

степенной функции:

параболической функции:

показательной функции:

гиперболической функции:

Совокупный индекс корреляции (индекс множественной корреляции):

, где             (10)

- факторная дисперсия, характеризует вариацию результативного признака, которая при данной форме связи объясняется влиянием факторов x1,x2,x3,…,xm, включенными в уравнение множественной регрессии;

- остаточная (случайная) дисперсия, характеризует вариацию результативного признака, обусловленную влиянием прочих, не включенных в уравнение регрессии факторов.

Совокупный (множественный)  индекс детерминации:

.                          (11)

Для оценки связи между результативным и двумя факторными признаками множественный коэффициент корреляции  определяется по формуле:

,                   (12)

где  - парные коэффициенты корреляции между признаками:

                                                              (13)                  

(14)  Частные коэффициенты корреляции при влиянии двух факторов:

- между результатом y и фактором х1 при                       элиминировании влияния фактора х2;

- между результатом y и фактором х2 при исключенном влиянии фактора х1;

- между факторами х1  и х2  при исключённом влиянии y.

Контрольные вопросы

В чем состоит отличие между функциональной и стохастической связью?

Какие основные задачи решаются с помощью:

корреляционного анализа;

корреляционно-регрессионного анализа;

регрессионного анализа?

Какие методы используются для выявления возможного наличия связи между факторным и результативным признаками?

Назовите основные этапы корреляционно-регрессионного анализа.

Какие виды корреляционных зависимостей выделяются в статистике

по аналитическому выражению;

по направлению действия;

по степени тесноты?

  1.  Какие требования предъявляются к информационной базе при проведении корреляционно-регрессионного анализа?
    1.  Какие показатели являются мерой тесноты связи между двумя признаками?
    2.  Как оценить существенность линейного коэффициента корреляции?
    3.  В чем состоит значение уравнения регрессии?
    4.  Что характеризуют коэффициенты регрессии и эластичности?
    5.  С помощью каких способов осуществляется оценка адекватности уравнения регрессии?
    6.  Для чего рассчитываются индексы корреляции и детерминации? Как осуществляется оценка их существенности?
    7.  Какие непараметрические методы применяются для изучения взаимосвязи между признаками?
    8.  Назовите показатели связи социальных явлений. Дайте их экономическую интерпретацию.
    9.  Как подходить к отбору факторов для включения их в уравнение множественной регрессии?
    10.  Каким образом можно выделить факторы, в изменении которых заложены наибольшие возможности в управлении изменением результативного признака?
    11.  Причины возникновения и способы устранения мультиколлинеарности.
    12.  В каких пределах заключена величина множественного коэффициента корреляции и как она соотносится с величиной парных коэффициентов корреляции?
    13.  Что характеризует множественный коэффициент детерминации?
    14.  Для чего рассчитываются частные коэффициенты корреляции?


Предварительный (априорный) анализ

Сбор информации и её первична обработка

Установление наличия связи, определение её направления и формы

Измерение степени тесноты связи и её значимости

остроение регрессионной модели

Оценка адекватности модели регрессии, её экономическая интерпретация и практическое использование

КОРРЕЛЯЦИОННАЯ СВЯЗЬ

По форме

По направлению

По степени тесноты

линейная

нелинейная

прямая

обратная

слабая

умеренная

сильная

0

20

40

60

80

100

120

140

160

0

2

4

6

8

10

12

14

                                                             Объём

                                                             производства                     

                                                               зерна,тыс.ц.

Проиизв.

ссбест

1ц руб.


 

А также другие работы, которые могут Вас заинтересовать

15711. ВИЗНАЧЕННЯ ЙМОВІРНОСТІ ВИПАДКОВОЇ ПОДІЇ 106 KB
  Дисципліна: МАТЕМАТИЧНА СТАТИСТИКА ТА ОПРАЦЮВАННЯ СПОСТЕРЕЖЕНЬ Модуль 2. ОСНОВНІ ВИЗНАЧЕННЯ МАТЕМАТИЧНОЇ СТАТИСТИКИ Лекція 5. ВИЗНАЧЕННЯ ЙМОВІРНОСТІ ВИПАДКОВОЇ ПОДІЇ. План лекції 5: 5.1. Визначення випадкового експерименту та події. 5.2. Статистична сталість і клас...
15712. ЙМОВІРНІСНІ МОДЕЛІ ПРОСТОРІВ ВИПАДКОВИХ ПОДІЙ 133 KB
  Дисципліна: МАТЕМАТИЧНА СТАТИСТИКА ТА ОПРАЦЮВАННЯ СПОСТЕРЕЖЕНЬ Модуль 2. ОСНОВНІ ПОЛОЖЕННЯ МАТЕМАТИЧНОЇ СТАТИСТИКИ Лекція 6: ЙМОВІРНІСНІ МОДЕЛІ ПРОСТОРІВ ВИПАДКОВИХ ПОДІЙ План лекції 4: 6.1. Моделі дискретних просторів випадкових елементарних подій. 6.2. Моделі ди...
15713. ОСНОВНІ ТЕОРЕМИ І ФОРМУЛИ ТЕОРІЇ ЙМОВІРНОСТЕЙ 97.5 KB
  Дисципліна: МАТЕМАТИЧНА СТАТИСТИКА ТА ОПРАЦЮВАННЯ СПОСТЕРЕЖЕНЬ Модуль 2. ОСНОВНІ ВИЗНАЧЕННЯ ПРИКЛАДНОЇ СТАТИСТИКИ Лекція 7: ОСНОВНІ ТЕОРЕМИ І ФОРМУЛИ ТЕОРІЇ ЙМОВІРНОСТЕЙ План лекції 5: 7.1. Теорема додавання ймовірностей подій. 7.2. Теорема множення ймовірностей по...
15714. ВИПАДКОВІ ВЕЛИЧИНИ І ЗАКОНИ РОЗПОДІЛЕННЯ 56.5 KB
  Дисципліна: МАТЕМАТИЧНА СТАТИСТИКА ТА ОПРАЦЮВАННЯ СПОСТЕРЕЖЕНЬ Модуль 2. ОСНОВНІ ВИЗНАЧЕННЯ ПРИКЛАДНОЇ СТАТИСТИКИ Лекція 8. ВИПАДКОВІ ВЕЛИЧИНИ І ЗАКОНИ РОЗПОДІЛЕННЯ План лекції 8: 8.1. Дискретні і неперервні випадкові величини. 8.2. Числові характеристики випадков
15715. Проектування чоловічих напівчеревиків з боковими резинками, клейового методу кріплення підошов 1.4 MB
  Стратегія державної промислової політики в галузі легкої промисловості передбачає випередження темпів випуску, конкурентної спроможності та ефективності виробника яка спрямована на задоволення потреб внутрішнього ринку та нарощування експертного потенціалу.
15716. ГІСТОГРАМИ РОЗПОДІЛУ ВИПАДКОВИХ ВЕЛИЧИН 1.22 MB
  Дисципліна: МАТЕМАТИЧНА СТАТИСТИКА ТА ОПРАЦЮВАННЯ СПОСТЕРЕЖЕНЬ Модуль 2: ОСНОВНІ ХАРАКТЕРИСТИКИ ОБРОБЛЕННЯ ДАНИХ Лекція 10. ГІСТОГРАМИ РОЗПОДІЛУ ВИПАДКОВИХ ВЕЛИЧИН План лекції 7: 10.1. Щільність ймовірності випадкових величин 10.2. Числові характеристики випадкови
15717. Эдвардс Деминг и философия управления качеством 81 KB
  Эдвардс Деминг и философия управления качеством Долгие годы отечественные промышленные предприятия находились в условиях когда заказы на продукцию и ее продажу распределялись в плановом порядке исключая при этом конкуренцию. Отсутствие конкуренции позволяло предпр...
15718. Анализ затрат на качество 247.5 KB
  Анализ затрат на качество В данном разделе мы поставили цель объяснить экономические аспекты Обеспечения Качества. Вы найдете в нем ответы на вопрос как идентифицировать Затраты на Качество и увидите способы с помощью которых можно использовать Затраты на Качество ка...
15719. История возникновения, развития и использования метода развертывания функции качества 95.5 KB
  История возникновения развития и использования метода развертывания функции качества А.М. Кузьмин Современное состояние РФК Первый двухдневный семинар по РФК в Японии был организован в 1983 г. Японским центром производительности Japan Productivity Center...