87528

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Лекция

Математика и математический анализ

Многие экономические показатели определяются несколькими числами, являясь по сути многомерными. Например, уровень жизни населения подразумевает использование большого числа показателей: ВНП на душу населения, распределение доходов, наличие товаров и услуг, продолжительность жизни и т.д.

Русский

2015-04-21

686.5 KB

6 чел.

PAGE  81

ЛЕКЦИЯ 3

ЛЕКЦИЯ 3

Корреляционный анализ. Многомерные случайные величины. Коэффициент корреляции. Функция регрессии. Двумерный нормальный закон распределения. Статистическая оценка коэффициента корреляции.

  1.  
    КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
    1. Многомерные случайные величины
      1.  Функция распределения двумерной случайной величины

Многие экономические показатели определяются несколькими числами, являясь по сути многомерными. Например, уровень жизни населения подразумевает использование большого числа показателей: ВНП на душу населения, распределение доходов, наличие товаров и услуг, продолжительность жизни и т.д. Поэтому одна из основных задач экономического анализа – выявление наличия и силы взаимосвязи между различными экономическими показателями (фактически между случайными величинами). Например, между доходом и потреблением; между спросом на товар и его ценой; между уровнем инфляции и уровнем безработицы; между ВНП и уровнем жизни. Вследствие этого при проведении эконометрического анализа одно из главных мест занимает исследование взаимосвязей случайных величин, при которых реализация одной из случайных величин влияет на вероятность определенной реализации других случайных величин.

При рассмотрении вопросов, связанных с системами случайных величин, удобно пользоваться геометрической интерпретацией системы. Например, систему двух случайных величин {X1, X2} можно изобразить случайной точкой на плоскости с координатами X1 и X2. Часто вместо образа случайной точки для геометрической интерпретации пользуются образом случайного вектора

.

В дальнейшем мы будем в зависимости от удобства пользоваться как одной, так и другой интерпретацией. Изложение мы проводить в основном для случая двумерных величин. Общий n-мерный случай рассматривается совершенно аналогично.

Функцией распределения F(x, y) двумерной случайной величины {X, Y} называется вероятность совместного выполнения двух неравенств: X<x, Y<y:

.                                      (4.1)

Свойства многомерной функции распределения, в целом, аналогичны свойствам функции распределения одномерной случайной величины.

Двумерная случайная величина {X,Y} называется дискретной, если каждая из случайных величин X и Y является дискретной. Ясно, что если дискретная величина X может принимать только значения x1,…,xn, а случайная величина Y – значения y1,…,yn, то двумерный случайный вектор {X,Y} может принимать только пары значений (xi,yj). Обычно системы двух ДСВ описывается матрицей распределения, т.е. прямоугольной таблицей, в которой записаны все вероятности pij того, что двумерная ДСВ примет значение (xi,yj).

Y

X

y1

ym

PX

x1

p11

p1m

p1

xn

pn1

pnm

pn

PY

q1

qm

Сумма всех вероятностей pij , стоящих в матрице, равна единице как сумма вероятностей полной группы несовместных событий:

.

Зная матрицу распределения системы двух ДСВ легко найти законы распределения отдельных случайных величин, входящих в систему:

.

Двумерная случайная величина {X,Y} называется непрерывной, если каждая из случайных величин X и Y является непрерывной. Система двух НСВ обычно описывается плотностью распределения:

                                           (4.2)

Здесь и далее будем предполагать, что функция распределения F(x,y) всюду непрерывна и имеет всюду непрерывную частную смешанную производную второго порядка. Отметим два свойства плотности распределения f(x,y):

1)        2) 

Зная плотность распределения f(x,y), можно найти функцию распределения:

.                                 (4.3)

  1.  Числовые характеристики двумерной случайной величины

В качестве числовых характеристик двумерных случайных величин обычно рассматриваются начальные и центральные моменты различных порядков.

Начальным моментом порядка k+s двумерной случайной величины {X,Y} число:

              (4.6)

В частности, начальные моменты 1-го порядка:

,           ,

представляют собой математические ожидания случайных величин X и Y.

Центральным моментом порядка k+s двумерной случайной величины {X,Y} число:

.                               (4.7)

В частности, центральные моменты 2-го порядка:

,
,

представляют собой дисперсии случайных величин X и Y.

Особого внимания заслуживает третий центральный момент 2-го порядка:

,                           (4.8)

который называется ковариацией (или корреляционным моментом). Выражение для ковариации может быть преобразовано на основании свойств математического ожидания следующим образом:

.                                     (4.9)

  1.  Коэффициент корреляции и его свойства

Из определения ковариации следует, что она имеет размерность, равную произведению размерностей величин X и Y. Другими словами, величина ковариации зависит от единиц измерения случайных величин. По этой причине для одних и тех же двух величин ковариация имеет различные значения в зависимости от того, в каких единицах были измерены величины. Такая особенность ковариации является недостатком этой числовой характеристики, поскольку сравнение ковариаций различных систем случайных величин становится затруднительным. В связи с этим, чтобы устранить указанный недостаток, вводят новую числовую характеристику – коэффициент корреляции:

.                                                 (4.10)

Рассмотрим теперь свойства коэффициента корреляции.

10. Коэффициент корреляции двух независимых случайных величин равен нулю.

Отметим, что обратное утверждение неверно. Например, пусть Y=X2 и распределение X симметрично относительно начала координат, т.е. M[X]=0, то M[XY]=M[X3]=0 и M[X]M[Y]=0. Следовательно, Kxy=0 и rxy=0, несмотря на то, что между X и Y имеется функциональная зависимость.

Таким образом, если коэффициент корреляции между двумя случайными величинами равен нулю, то утверждение, что эти случайные величины независимы – не всегда справедливо. Это значит, что может существовать система зависимых случайных величин, коэффициент корреляции которых равен нулю. Поэтому вводится понятие коррелированности.

Две случайные величины называются коррелированными, если их коэффициент корреляции отличен от нуля; если он равен нулю, то эти величины называются некоррелированными.

Итак, из коррелированности двух случайных величин следует их зависимость, но из зависимости еще не вытекает коррелированность. Из независимости двух случайных величин следует их некоррелированность, но из некоррелированности еще нельзя заключить о независимости этих величин. Заранее отметим, что некоррелированность и независимость совпадают только в одном случае, когда случайные величины подчинены нормальному закону распределения.

20. Коэффициент корреляции rxy двух случайных величин X и Y не превосходит по абсолютной величине единицы, т.е. 

.

30. Коэффициент корреляции двух случайных величин X и Y равен rxy=1 тогда и только тогда, когда между величинами X и Y существует линейная функциональная зависимость. 

Итак, при возрастании |rxy| от 0 до 1 корреляционная связь увеличивается, а при |rxy|=1 она становится линейной функциональной зависимостью. Другими словами, коэффициент корреляции можно рассматривать как меру линейной зависимости между двумя случайными величинами X и Y.

  1.  Функция регрессии

Если случайные величины X и Y независимы, то функция распределения двумерной случайной величины {X,Y} равна произведению функций распределения случайных величин, входящих в систему:

F(x,y) = F1(x)F2(y).                                         (4.11)

Выполнение данного равенства является необходимым и достаточным условием независимости двух случайных величин.

В случае ДСВ каждый элемент матрицы распределения равен произведению вероятностей соответствующих величин

pij = P(X=xi)P(Y=yj).                                     (4.12)

В случае НСВ плотность распределения равна произведению двух плотностей соответствующих величин

f(x,y) = f1(x)f2(y).                                       (4.13)

Для описания зависимых случайных величин используют т.н. условные распределения, под которыми понимают распределение одно из случайных величин при условии, что другая приняла вполне определенное значение.

Для ДСВ {X,Y}:

,           .                 (4.14)

Условным математическим ожиданием одной из случайных величин, входящих в систему {X,Y}, называется ее математическое ожидание, вычисленное на основе условного распределения: 

,     .         (4.16)

,                      (4.17)

Условное математическое ожидание M[X | y] есть функция от y:

M[X | y] = f(y)                                        (4.18)

и называют регрессией X на Y.

Условное математическое ожидание M[Y | x] есть функция от x:

M[X | y] = f(y)                                        (4.19)

и называют регрессией Y на X.

График функций регрессии называют линиями (кривыми) регрессии. Если случайные величины X и Y независимы, то линии регрессии X на y и Y на x параллельны координатным осям, т.к. математическое ожидание каждой из них не зависят от того, какое значение приняла другая.

  1.  Двумерное нормальное распределение

В инженерных приложениях теории вероятностей из систем случайных величин чаще всего встречаются непрерывные системы, имеющие нормальное распределение. В общем виде двумерное нормальное распределение имеет следующий вид

                             (4.20)

где

.

Если случайные величины X и Y некоррелированы, т.е. rxy=0, то получим

.

Это означает, что если составляющие нормально распределенной случайной величины некоррелированы, то плотность такой двумерной случайной величины равна произведению плотностей составляющих:

Отсюда следует независимость случайных величин X и Y. Справедливо и обратное.

Итак, для нормально распределенных случайных величин понятия независимости и некоррелированности равносильны.

Рассмотрим условные распределения случайных величин X и Y:

,

.

Нетрудно убедится, что каждое из условных распределений тоже являются нормальными с условными математическими ожиданиями

,   .   (4.20)

Таким образом, для системы нормально распределенных случайных величин X и Y линии регрессии M[X | y] и M[Y | x] представляют собой прямые линии, т.е. регрессия для нормально распределенной системы {X,Y} всегда линейна.

  1. Статистическая оценка коэффициента корреляции
    1.  Корреляционные зависимости. Основные задачи
      корреляционного анализа

В природе связи между различными явлениями сложны и многообразны. В естественных науках часто идет речь о функциональной зависимости, когда каждому значению одной переменной соответствует вполне определенное значение другой переменной. Например, функциональная зависимость между радиусом круга R и его площадью S выражается формулой ; функциональная зависимость между температурой T, давлением P и объемом V одного моля идеального газа выражается формулой Клайперона: , где R – газовая постоянная.

В экономической науке также часто имеют дело с функциональными зависимостями. Различные экономические показатели как на микро-, так и на макроуровне не являются независимыми, а связаны между собой функциональной зависимостью. Например, цена какого-либо товара и величина спроса на этот товар; объем производства и прибыль фирмы; инфляция и безработица и т.д.

Однако не всякая зависимость между двумя переменными является функциональной. В реальном мире многие явления природы происходят в обстановке действия многочисленных факторов, влияние каждого из которых ничтожно, а число их велико. В этих случаях связь теряет свою строгую функциональность. Физическая система, например, переходит из одного состояния в другое, но не строго определенное, а в одно из возможных для нее состояний. Здесь речь может идти лишь о так называемой стохастической (вероятностной, статистической) зависимости.

Например, рост человека и его вес не связаны функциональной зависимостью. По данному росту человека нельзя найти его вес, и наоборот. Тем не менее, зависимость между ростом человека и его весом существует, но является стохастической. Или другой пример, между высотой и толщиной ствола одной и той же породы деревьев существует связь, но эта связь также не является функциональной. Таких примеров можно привести очень много: количество внесенных в почву удобрений и урожайность; возраст коров и величина удоя и т.д.

В экономике также в основном имеют дело со стохастическими зависимостями, поскольку на интересующий нас тот или иной показатель кроме явно учитываемых переменных влияют еще и много других, не учтенных явно в модели. Это обуславливает стохастическую природу многих экономических переменных. Например, рост дохода ведет к увеличению потребления; снижение процентной ставки увеличивает инвестиции; увеличение валютного курса сокращает чистый экспорт. Все эти зависимости – стохастические, поскольку по значениям одной переменной нельзя определить точное значение другой переменной.

Стохастическая связь состоит в том, что каждому значению независимой переменной X соответствует множество значений другой случайной величины Y. Поскольку совокупность значений случайной величины характеризуется функцией распределения, то определение стохастической зависимости можно дать следующим образом:

Зависимость между переменными X и Y называется стохастической, если различным значениям одной из них соответствуют различные распределения другой.

Стохастическая зависимость проявляется в том, что при изменении одной из величин изменяется математическое ожидание (среднее значение) другой, в таких случаях говорят о корреляционной зависимости. Например, очевидно, что при увеличении высоты деревьев в среднем растут и диаметры стволов. Очевидно, что корреляционная зависимость является частным случаем стохастической связи. Если с изменением значений переменной X среднее значение переменной Y не изменяется закономерным образом, но закономерно изменяются другие статистические характеристики (показатели вариации, асимметрии, эксцесса и т.п.), то такая зависимость не является корреляционной, хотя и является стохастической.

Знание корреляционной зависимости между случайными величинами имеет большое практическое значение: с ее помощью можно прогнозировать значение зависимой случайной переменной в предположении, что независимая переменная примет определенное значение. Однако, поскольку понятие корреляционной зависимости относится к случайным величинам, прогнозы не могут быть безошибочными. Применяя некоторые вероятностные методы, можно вычислить вероятность того, что ошибка прогноза не выйдет за определенные границы.

В основе математической теории корреляционных зависимостей лежит предположение о том, что изучаемые явления подчиняются определенным вероятностным закономерностям, которые описываются многомерными распределениями.

Возникновение статистической зависимости обусловлено тем, что зависимая переменная подвержена влиянию различных неконтролируемых или неучтенных факторов, а также тем, что измерения значений переменных неизбежно сопровождаются случайными ошибками. В экономической науке также редко имеют дело с функциональными зависимостями, поскольку на интересующей нас тот или иной показатель кроме явно учитываемых переменных влияют еще и много других, не учтенных явно в модели. Это обуславливает стохастическую природу многих экономических переменных.

В экономической теории и практике ограничиваются тем или иным кругом величин (объясняющие переменные), которые определяют главные текущие изменения рассматриваемой величины. Однако всегда существует воздействие большого числа других, менее важных или трудно идентифицируемых факторов, приводящих к отклонениям значений объясняющей (зависимой) переменной от конкретной формулы ее связи с объясняющими переменными, сколько бы точной эта формула не была.

Основная задача корреляционного анализа – выявление связи между случайными величинами, разработка числовых показателей для характеристики этой связи и их оценка. При проведении корреляционного анализа нужно ответить на следующие вопросы:

  •  как выбрать (с учетом специфики и природы анализируемых переменных) подходящий измеритель корреляционной связи (коэффициент корреляции, корреляционное отношение, ранговый коэффициент корреляции и т.п.)?
  •  как оценить (с помощью точечной и интервальной оценок) его числовое значение по имеющимся выборочным данным?
  •  как проверить гипотезу о том, что полученное значение анализируемого измерителя связи действительно свидетельствует о наличии корреляционной связи (или, как говорят, проверить исследуемую корреляционную характеристику на статистическое значимое её отличие от нуля)?

При исследовании зависимостей между переменными мы должны в первую очередь дать ответ на вопрос: а существует ли такая зависимость или анализируемые переменные статистически независимы? И только после утвердительного ответа на этот вопрос заняться выявлением вида математической формы этой зависимости, но это уже задача регрессионного анализа.

  1.  Точечная оценка коэффициента корреляции

Мы начнем проведение корреляционного анализа со статистического анализа коэффициента корреляции. Этот показатель имеет четкий смысл как характеристика степени связи между исследуемыми случайными величинами X и Y только в случае их совместного нормального распределения. Во всех остальных случаях коэффициент корреляции можно использовать лишь в качестве одной из возможных характеристик степени тесноты связи. В этом случае нужно подходить с известной долей осторожности к интерпретации корреляционной связи на основе только коэффициента корреляции. Однако в силу закона больших чисел (в широком смысле) нормальное распределение встречается довольно часто, а следовательно и использование коэффициента корреляции в качестве характеристики тесноты связи во многих случаях вполне оправдано.

На практике коэффициент корреляции rxy обычно неизвестен. По результатам выборочных данных может быть найдена лишь его точечная оценка – выборочный коэффициент корреляции rxy. Для его нахождения необходимо знать оценки математических ожиданий, дисперсий и ковариации случайных величин X и Y. Наилучшей оценкой математического ожидания является среднее арифметическое выборочных данных

.                                          (4.21)

Оценкой дисперсии служит исправленная выборочная дисперсия:

,                                  (4.22)

а ковариации – исправленная выборочная ковариация:

.                             (4.23)

Тогда выборочный коэффициент корреляции будет иметь вид

.                          (4.24)

На практике чаще используется следующая модифицированная формула для вычисления выборочного коэффициента корреляции:

,                                               (4.25)

где  – обычные (неисправленные) выборочные средние квадратичные отклонения.

Если коэффициент корреляции положителен rxy>0, то связь между X и Y будет прямая, если rxy<0, то связь будет обратной. Чем ближе значение rxy к единице, тем теснее связь, чем ближе значение rxy к нулю, тем слабее связь. При |r|<0,3 корреляционная связь считается слабой, при 0,3<|r|<0,7 – средней, при |r|>0,7 – сильной. Отметим еще раз, что использование коэффициента корреляции как меры связи между случайными величинами имеет четко определенный смысл только для нормальных или близких к ним распределений. Поэтому, если коэффициент корреляции близок к нулю, то это означает, что либо случайные величины независимы (для нормального распределения), либо между ними имеется существенно нелинейная корреляционная зависимость. Однако, если коэффициент корреляции по модулю близок к единице, то между случайными величинами имеется сильная корреляционная, близкая к линейной функциональной, зависимость, независимо от вида функции распределения.

Пример 4.1. Изучается зависимость цены товара от дальности его перевозок по 7 фирмам. Данные представлены в табл. 4.1.

Таблица 4.1

Номер
фирмы

Дальность перевозки,
км, x

Цена товара,
руб., y

Номер
фирмы

Дальность перевозки,
км, x

Цена товара,
руб., y

1

10

45

5

19

62

2

17

50

6

20

65

3

15

55

7

8

45

4

25

70

Рассчитать линейный коэффициент парной корреляции. Сделать выводы.

Решение. Строим расчетную таблицу

Таблица 4.2

x

y

xy

x2

y2

1

10

45

450

100

2025

2

17

50

850

289

2500

3

15

55

825

225

3025

4

25

70

1750

625

4900

5

19

62

1178

361

3844

6

20

65

1300

400

4225

7

8

45

360

64

2025

Итого

114

392

6713

2064

22544

По данным таблицы находим:

;

;

;

;

.

Тогда

;

;

;

;

.

В результате получаем,

.

Полученное значение коэффициента корреляции показывает, что связь между ценой данного товара и дальностью его перевозки является очень сильной.

  1.  Значимость коэффициента корреляции

Для проведения полноценного статистического анализа свойств генеральной совокупности, основанных на коэффициенте корреляции, необходимо знать ее статистические свойства. Это позволит судить о точности приближения (4.24) к неизвестному истинному значению коэффициента корреляции r, строить статистические критерии для проверки различных гипотез о численных значениях анализируемого коэффициента корреляции.

В частности, какую величину выборочного коэффициента корреляции следует считать достаточной для статистически обоснованного вывода о наличии корреляционной связи между исследуемыми переменными? Ведь надежность статистических характеристик, в том числе и r, ослабевает с уменьшением объема соответствующей выборки, а потому принципиально возможны случаи, когда отклонения от нуля полученной величины выборочного коэффициента корреляции r оказывается статистически незначимым, т.е. целиком обусловленным случайными колебаниями выборки, на основании которой он вычислен. Ответить на этот вопрос позволяет знание закона распределения вероятностей r.

В случае совместной нормальной распределенности исследуемых переменных и при достаточно большом объеме выборки n (а именно при n>200) распределение r можно считать приближенно нормальным со средним, равным своему теоретическому значению r, и дисперсией

.                                                  (4.26)

Однако следует учитывать, что при малых значениях n и r, близких к 1, это приближение оказывается очень грубым. Кроме того, при малых n следует принимать во внимание, что величина r является смещенной оценкой своего теоретического значения r, в частности

.                                            (4.27)

В качестве критерия проверки нулевой гипотезы  против альтернативной  используется величина

.                                                 (4.28)

Эта величина при относительно хорошей степени приближения к нормальному распределению и при малых значениях |r| приблизительно распределена по закону распределения Стьюдента с n=n–2 степенями свободы. Поэтому, если окажется, что , то нулевая гипотеза об отсутствии корреляционной связи между X и Y отвергается с вероятностью ошибиться, равной a.

Пример 4.2. Проверить значимость коэффициентов корреляции в примере 4.1 на уровне значимости a=0,05.

Решение. Для примера 4.1 n=7 и r=0,9389. Вычислим наблюдаемое и критическое значения критерия Стьюдента

    и     .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

Пример 4.3. Взяты 10 наблюдений показателей инфляции и безработицы в США за 1931-1940 годы, для них рассчитана выборочный коэффициент корреляции r=–0,227. Связь отрицательная, что соответствует теории (кривая Филлипса), но значима ли она? Проверить гипотезу H0:r=0 о равенстве нулю истинного значения коэффициента корреляции на уровне значимости a=0,05.

Решение. Вычисляем наблюдаемое и критическое значения критерия Стьюдента

    и     .

Поскольку , то коэффициент корреляции не значимо отличается от нуля. Следовательно, в нашем случае не исключается, что истинное значение коэффициента корреляции равно нулю, т.е. на основе имеющейся выборки нельзя делать вывод о наличии корреляционной значимой линейной связи показателей инфляции и безработицы в США. Нельзя, впрочем, здесь делать вывод об отсутствии такой связи.

  1.  Интервальная оценка коэффициента корреляции

Для двумерного нормального распределения генеральной совокупности коэффициент корреляции не только решает вопрос о том, зависимы признаки или нет, но и измеряет степень их связи. Поэтому в «нормальном» случае нужно уметь не только проверять гипотезу H0:r=0, но и указывать доверительные интервалы для истинного r. Особенно данная задача имеет смысл в случае значимого выборочного коэффициента корреляции. Для этого нужно знать закон распределения выборочного коэффициента корреляции r не только при r=0, но и при произвольном r.

В общем случае закон распределения r имеет довольно сложный вид (это т.н. r-распределение). Однако при больших n и малых по абсолютному значению r выборочный коэффициент корреляции можно считать распределенным нормально с математическим ожиданием r и дисперсией

.                                                   (4.29)

Но для указанной выше цели этот факт использовать довольно трудно в связи с тем, что неизвестное значение r входит в выражение не только среднего, но и дисперсии.

При достаточно больших выборках (n50) выборочный коэффициент корреляции имеет приближенно нормальное распределение , где

.                                             (4.30)

В этом случае доверительный интервал для r, будет иметь вид

,                                             (4.31)

где tg находится из уравнения , F(x) – функция Лапласа.

В случае небольшого объема выборки r-распределение существенно отличается от нормального. В этом случае можно использовать преобразование, предложенное Р. Фишером:

,                                       (4.32)

где  – обратная функция гиперболического тангенса. Он показал, что величина z, определенная соотношением (4.32), уже при небольших n (n10) с хорошим приближением следует нормальному распределению. При этом

,                                    (4.33)

.                                            (4.34)

Это позволяет построить доверительный интервал  для  по формуле

.                                 (4.35)

Откуда следует, что истинное значение коэффициента корреляции r c той же доверительной вероятностью g=1–a заключено в пределах

.                                               (4.36)

Здесь thz – это тангенс гиперболический от аргумента z, определяемый с помощью соотношения

.

Пример 4.4. По данным n=38 предприятий получен коэффициент корреляции r=–0,654, характеризующий тесноту связи между себестоимостью продукции (y) и производительностью труда (x). Построить интервальную оценку для r, задавшись 95%-й доверительной вероятностью.

Решение. Применяя z-преобразование Фишера для найденного коэффициента корреляции, получим

.

Поскольку t0,95=1,96, то

,           .

Доверительный интервал для M(z) будет иметь вид

.

Осуществляем обратное z-преобразование по формуле (4.45):

.

Таким образом, можно утверждать, что с доверительной вероятностью g=0,95 истинное значение коэффициента корреляции r между себестоимостью продукции (y) и производительностью труда (x) будет лежать в интервале от –0,8 до –0,418.

Замечание. Величина  в формуле (4.35) мала по сравнению с . Поэтому ею обычно пренебрегают, когда речь идет об оценивании r по одной выборке. Но при соединении результатов, полученных по нескольким выборкам, это слагаемое все же может оказывать влияние.

Дополнение 1.
КОРРЕЛЯЦИОННОЕ ОТНОШЕНИЕ И ЕГО СВОЙСТВА

Если линии регрессии не являются прямыми, то коэффициент корреляции лишь с некоторым приближением может рассматриваться как показатель связи между случайными величинами X и Y. В случае нелинейной связи представляют интерес показатели, характеризующие концентрацию распределения (и, следовательно, тесноту связи) около линий регрессии. Таким показателем является корреляционное отношение, введенное К. Пирсоном.

Разброс значений случайной величины Y около математического ожидания my=M[Y] измеряется дисперсией

.

Этот разброс может быть вызван двумя факторами: 1) влиянием корреляционной зависимости Y от X; 2) влиянием прочих (остаточных) факторов, не влияющих на X.

Влияние первого фактора измеряется величиной

,                     (4.37)

т.е. дисперсией линии регрессии относительно математического ожидания my.

Влияние второго фактора измеряется величиной

,                        (4.38)

т.е. дисперсией Y относительно линии регрессии.

В соответствие со свойствами дисперсии можно записать, что

.                                                      (4.39)

Корреляционным отношением Y на X называется отношение 

.                                                (4.40)

Аналогично определяется корреляционное отношение X на Y

.                                               (4.41)

Рассмотрим теперь свойства корреляционного отношения.

10. Корреляционное отношение всегда заключено между 0 и 1, т.е.

.

20. Корреляционное отношение равно 0, тогда и только тогда, когда отсутствует корреляционная зависимость.

Действительно, пусть . Тогда  Отсюда следует, что M[Y|x]=const, т.е. условное математическое ожидание "не реагирует" на изменения значений величины X (линия регрессии параллельна оси Oy). Это и означает, что корреляционная зависимость Y от X отсутствует. Справедливо и обратное утверждение, поскольку при отсутствии корреляционной зависимости M[Y|x]=const, поэтому D[M(Y|x)]=0 и hy/x=0.

30. Корреляционное отношение равно 1, тогда и только тогда, когда существует функциональная зависимость (y=f(x) и x=g(y)).

Действительно, пусть . Тогда  Но так как дисперсия неотрицательна, то D[Y|x]=0 при любом значении x, а 'это означает, что величина Y принимает единственное значение при котором x, т.е. зависимость Y от X функциональная. Справедливо и обратное утверждение. Из данного свойства следует, что чем ближе корреляционное отношение к единице, тем «концентрация» значений Y к линии регрессии.

40. Коэффициент корреляции не превосходит по абсолютной величине корреляционное отношение:

|r|  h

Отметим, что между hy/x и hx/y нет какой-либо простой зависимости. Например, Y может быть не коррелированно с X и hx/y=0, тогда как другой показатель может быть равен 1, т.е. hy/x=1.

Таким образом, поскольку коэффициент корреляции можно рассматривать как меру линейности регрессии, то величину

h2r2

можно рассматривать как меру нелинейности регрессии, т.е. отклонения линии регрессии от прямой.

50. Выполнение равенства hy/x=|rxy| является необходимым и достаточным условием того, чтобы регрессия Y на X была точно линейной. Аналогично и для hx/y.

Для того чтобы оценить корреляционное отношение исходные нужно сгруппировать в виде корреляционной таблицы. В каждой клетке этой таблицы приводятся численности nij тех пар (x,y), компоненты которых попадают в соответствующие интервалы группировки по каждой переменной. Предполагая длины интервалов группировки (по каждой из переменных) равными между собой, выбирают центры xi (соответственно yi) этих интервалов и числа nij в качестве основы для расчетов. Точечной оценкой корреляционных отношений являются выражения:

    и                                         (4.42)

где  и  – средние квадратичные отклонения условных средних от общей средней:

,     .                 (4.43)

Отметим, что корреляционное отношение не меняется при переходе к новым переменным (4.26), т.е.

    и     .

Выше мы уже отмечали, что величину h2r2 можно рассматривать как меру нелинейности регрессии, т.е. отклонения линии регрессии от прямой. Поэтому величины

и                                             (4.44)

можно рассматривать как меру нелинейности корреляционной зависимости. Если величины (4.44) значимо отличаются от нуля, то имеется нелинейная корреляционная зависимость, если не значимо, то имеющиеся данные не противоречат гипотезе о наличии линейной корреляционной зависимости.

Дополнение 2.
РАНГОВАЯ КОРРЕЛЯЦИЯ

В анализе социально-экономических явлений часто встречаются с признаками, не поддающимися количественной оценке. Например, требуется оценить соотношение между математическими и музыкальными способностями группы учащихся. «Уровень способностей» является переменной величиной в том смысле, что он варьирует от одного индивидуума к другому. Его можно измерить, если выставлять каждому индивидууму отметки. Однако, этот способ лишен объективности, т.к. разные экзаменаторы могут выставить одному и тому же учащемуся разные отметки. Элемент субъективизма можно исключить, если учащиеся будут ранжированы. Ранжирование – это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения. Расположим учащихся по порядку, в соответствии со степенью способностей и присвоим каждому из них порядковый номер, который назовем рангом. Ранг – это порядковый номер значений признака, расположенных в порядке возрастания или убывания. Переменные, значениями которым являются ранги значений соответствующих признаком, называются порядковыми (или ординарными). Корреляция между рангами, точнее между порядковыми переменными, более точно отражает соотношение между способностями учащихся, чем корреляция между отметками. Система понятий и методов, позволяющих измерять и анализировать статистическую связь между порядковыми переменными, называется анализом ранговых корреляций. Методы ранговой корреляции широко используются, в частности, при организации и статистической обработке различного рода систем экспертных оценок.

Исследователь обращается к порядковым переменным в ситуациях, когда шкала непосредственного количественного измерения степени проявления этого свойства в объекте неизвестна (в том числе по причине объективного отсутствия такой). Например, в ситуации, когда исследуется качество жилищных условий можно рассмотреть четыре категории качества: «плохое», «удовлетворительное», «хорошее», «очень хорошее». Приписав каждой из обследованных семей одну из категорий, мы тем самым получаем возможность упорядочить (ранжировать) обследуемые семьи по этому свойству и ввести порядковую переменную.

Порядковые переменные вводят также и в том случае, шкала непосредственного количественного измерения признака имеет условный смысл и интересует нас только как вспомогательное свойство для последующего ранжирования рассматриваемых объектов.

При упорядочении объектов по какому-либо свойству могут встретиться ситуации, когда два объекта или целая группа их оказываются неразличимыми с точки зрения проявления в них этого свойства. Тогда каждому из объектов однородной группы приписывается ранг, равный среднему арифметическому значению тех мест, которые они занимают, а полученные таким образом ранги называются «связными» (или «объединенными»).

Пример 4.5. Проранжировать предприятия автомобильной промышленности одного из регионов по величине балансовой прибыли

Таблица 4.7

№ предприятия

Балансовая прибыль, млн руб

Ранжирование (ранги)

1

10

6,5

2

12

4

3

10

6,5

4

12

4

5

12

4

6

15

2

7

17

1

Решение. Наиболее предпочтительную предприятию, величина балансовой прибыли которого наибольшая, присваивается ранг «1»; затем в порядке уменьшения величины балансовой прибыли были проранжированы все рассматриваемые предприятия автомобильной промышленности. Для данного примера характерно наличие связных рангов.

Принцип нумерации значений исследуемых признаков является основой непараметрических методов  изучения взаимосвязи между социально-экономическими явлениями и процессами. Среди непараметрических методов оценки наибольшее значение имеют ранговые коэффициенты Спирмена и Кендалла. Эти коэффициенты могут быть использованы для определения тесны связей как между количественными, так и между качественными признаками при условии, если их значения упорядочить или проранжировать по степени убывания или возрастания признака.

Ранговый коэффициент корреляции Спирмена

Формула для коэффициента корреляции Спирмена основана на формуле парной корреляции

,                                   (4.45)

где  и  – ранги i-й единицы совокупности по переменным x и y, соответственно;  и  – средний ранг по переменным x и y. Очевидно, что коэффициент Спирмена изменяется также как парный коэффициент корреляции, в интервале от –1 до 1.

Путем преобразований формулы (4.1) К. Спирмен еще в 1904 г. получил выражение, которое обычно используется для вычисления коэффициента корреляции Спирмена

,                                           (4.46)

где di – разность рангов по переменным x и y для i-й единицы совокупности, n – число наблюдений.

Прямыми подсчетами нетрудно убедится, что для совпадающих ранжировок r=1 (в этом случае все значения d равны нулю); для противоположных ранжировок r=–1.

Пример 4.6. Два эксперта проранжировали 10 предложенных им проектов реорганизации НПО с точки зрения их эффективности (при заданных ресурсных ограничениях):

Проекты

I

II

III

IV

V

VI

VII

VIII

IX

X

1-й эксперт

1

2

3

4

5

6

7

8

9

10

2-й эксперт

2

3

1

4

6

5

9

7

8

10

Установить, насколько объективны оценки экспертов, т.е. насколько тесна связь между оценками.

Решение. Находим разность рангов

Проекты

Ранги

Разность рангов
d=R1R2

R1

R2

I

1

2

–1

1

II

2

3

–1

1

III

3

1

2

4

IV

4

4

0

0

V

5

6

–1

1

VI

6

5

1

1

VII

7

9

–2

4

VIII

8

7

1

1

IX

9

8

1

1

X

10

10

0

0

Итого

0

Вычисления по формуле (4.45) дают:

,

что свидетельствует о существенной положительной ранговой связи между исследуемыми переменными. Следовательно, можно сделать вывод, что оценки, данные экспертами, объективны.

Пример 4.7. По группе акционерных коммерческих банков региона имеются следующие данные:

№ банка

Активы банка,
млн руб.

Прибыль банка,
млн руб.

1

866

39,6

2

328

17,8

3

207

12,7

4

185

14,9

5

109

4,0

6

104

15,5

7

327

6,4

8

113

10,1

9

91

3,4

10

849

13,4

Вычислить ранговый коэффициент корреляции Спирмена.

Решение. Для расчета коэффициента корреляции рангов предварительно выполняется ранжирование банков по уровню каждого признака:

№ банка

Активы банка,
млн руб.,
x

Ранг по x

№ банка

Прибыль банка,
млн руб.,
y

Ранг по y

9

91

1

9

3.4

1

6

104

2

5

4.0

2

5

109

3

7

6.4

3

8

113

4

8

10.1

4

4

185

5

3

12.7

5

3

207

6

10

13.4

6

7

327

7

4

14.9

7

2

328

8

6

15.5

8

10

849

9

2

17.8

9

1

866

10

1

39.6

10

Дальнейшие расчеты даны в таблице

№ банка

Ранги

Разность рангов
d=RxRy

Rx

Ry

1

10

10

0

0

2

8

9

–1

1

3

6

5

1

1

4

5

7

–2

4

5

3

2

1

1

6

2

8

–6

36

7

7

3

4

16

8

4

4

0

0

9

1

1

0

0

10

9

6

3

9

Итого

0

В результате получаем

,

что свидетельствует о умеренной положительной ранговой связи между исследуемыми переменными.

Если совокупность значений по исследуемому признаку содержит связанные ранги, то коэффициент корреляции вычисляется по формуле

,                               (4.47)

где

,                                           (4.48)

tj – число одинаковых рангов в j-м ряду.

Если Tx и Ty являются небольшими относительно  величинами, то можно воспользоваться приближенной формулой (а при Tx=Ty оно точное):

.                                  (4.49)

Правда, при этом же условии, и приближенная формула (4.2) дает хорошую точность.

Пример 4.8. На соревнованиях по фигурному катанию судьи следующим образом расположили участников соревнований:

Участники

А

Б

В

Г

Д

Е

Ж

З

И

К

1-й судья

1,5

1,5

3

4

6

6

6

8

9,5

9,5

2-й судья

1

2

4

4

4

6

7

8

9

10

Установить, насколько объективны оценки судей, т.е. насколько тесна связь между оценками.

Решение. Первый судья поделил первое место между участниками А и Б. Их объединенный ранг (1+2)/2=1,5. Участники Д, Е, Ж поделили 5, 6 и 7 места. Их объединенный ранг равен 6 и т.д.

Найдем разность рангов

.

Вычислим величины Tx и Ty. При вычислении Tx имеем: А и Б – два объединенных ранга, Д, Е, Ж – три объединенных ранга и И, К – два объединенных ранга. Таким образом,

.

Аналогично вычисляем Ty:

.

В результате получаем

.

По формуле (4.45) получаем следующий результат

,

а по формуле (4.58)

.

Все эти результаты совпадают с точностью до второго знака.

Ранговый коэффициент корреляции Кендалла

Другим широко используемым ранговым коэффициентом является ранговый коэффициент корреляции Кендалла, определяемый соотношением

,                                                (4.50)

где n(X,Y) – минимальное число обменов соседних элементов последовательности X, необходимое для приведения ее к упорядочению Y.

Из (4.6) сразу следует, что при совпадающих ранжировках X и Y t=1 (т.к. n(X,Y)=0), а при противоположных – t=–1 (т.к. при X=nY+1 ). Можно показать, что во всех остальных случаях .

Вычисление t связано с необходимостью подсчета величины n и, следовательно, является более трудоемким, чем вычисление коэффициента Спирмена r. Однако, во-первых, коэффициент Кендалла обладает некоторыми преимуществами по сравнению с коэффициентом Спирмена, главные из них: а) относительно большая продвинутость в исследовании его статистических свойств и, в частности, его выборочного распределения; б) возможность его использования и в частной («очищенной») корреляции рангов; в) большие удобства его пересчета при добавлении к n статистически обследованным объектам новых, т.е. при удлинении анализируемых ранжировок.

Во-вторых, можно воспользоваться рекомендациями, упрощающими подсчет числа n как при ручном, так и при машинном счете. Так, при ручном счете оказывается полезным известный факт тождественного совпадения величины n(X,Y) и I(X,Y) – числа инверсий, т.е. числа расположенных в неодинаковом порядке пар элементов последовательностей X и Y.

Для удобства подсчета инверсий ранжируем значения первой последовательности в порядке возрастания. Значения второй последовательности – в порядке, соответствующим значениям первой последовательности. Для каждого ранга второй последовательности определяем число следующих за ним рангов Ri, меньших его величин. Суммарную величину обозначим через

.

Выборочный коэффициент ранговой корреляции Кендалла определится формулой

.                                                         (4.51)

Убедимся, что в случае «полной прямой зависимости» признаков:

правее yi нет рангов, меньших yi; поэтому все Ri=0. Тогда R=0 и, следовательно, t=1. В случае «обратной зависимости» признаков:

 

правее yi имеется (n–1) рангов, меньших yi; поэтому R1=n–1. Очевидно, что R2=n–2, R3=n–3, ..., . Следовательно

.

Подставив это значение в (4.7), получим t=–1.

Найдем ранговые коэффициенты Кендалла в примерах 4.7 и 4.8.

Для примера 4.7:

Проекты

Ранги

Ri

R1

R2

I

1

2

1

II

2

3

1

III

3

1

0

IV

4

4

0

V

5

6

1

VI

6

5

0

VII

7

9

2

VIII

8

7

0

IX

9

8

0

X

10

10

0

Итого

5

Вычисления по формуле (4.7) дают:

(напомним, что коэффициент Спирмена в этом примере был равным 0,915).

Для примера 4.8:

№ банка

Ранги

Ri

Rx

Ry

9

1

1

0

6

2

8

6

5

3

2

0

8

4

4

1

4

5

7

3

3

6

5

1

7

7

3

0

2

8

9

1

10

9

6

0

1

10

10

0

Итого

12

Вычисления по формуле (4.51) дают:

(напомним, что коэффициент Спирмена в этом примере был равным 0,588).

Если совокупность значений по исследуемому признаку содержит связанные ранги, то коэффициент корреляции вычисляется по формуле

,                               (4.52)

где

,                                           (4.53)

tj – число одинаковых рангов в j-м ряду.

Для примера 4.7:

Участники

А

Б

В

Г

Д

Е

Ж

З

И

К

1-й судья

1,5

1,5

3

4

6

6

6

8

9,5

9,5

2-й судья

1

2

4

4

4

6

7

8

9

10

Установить, насколько объективны оценки судей, т.е. насколько тесна связь между оценками.

Участники

Ранги

Ri

Rx

Ry

А

1,5

1

0

Б

1,5

2

0

В

3

4

0

Г

4

4

0

Д

6

4

0

Е

6

6

0

Ж

6

7

0

З

8

8

0

И

9,5

9

0

К

9,5

10

0

Итого

0

Вычисления по формуле (4.51) дают:

.

Найдем поправочные коэффициенты Ux и Uy. При вычислении Ux имеем: А и Б – два объединенных ранга, Д, Е, Ж – три объединенных ранга и И, К – два объединенных ранга. Таким образом,

.

Аналогично вычисляем Uy:

.

В результате получаем

.

(напомним, что коэффициент Спирмена в этом примере был равным 0,956).


ЛЕКЦИЯ 3                                                                                                                                      59

Глава 4. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ                                                                         59

§4.1. Многомерные случайные величины                                                                                      59

4.1.1. Функция распределения двумерной случайной величины                                       59

4.1.2. Числовые характеристики двумерной случайной величины                           60

4.1.3. Коэффициент корреляции и его свойства                                                               61

4.1.4. Функция регрессии                                                                                                  62

4.1.5. Двумерное нормальное распределение                                                               63

§4.2. Статистическая оценка коэффициента корреляции                                                   64

4.2.1. Корреляционные зависимости. Основные задачи  корреляционного анализа    64

4.2.2. Точечная оценка коэффициента корреляции                                                               66

4.2.3. Значимость коэффициента корреляции                                                               69

4.2.4. Интервальная оценка коэффициента корреляции                                                   70

Дополнение 1. Корреляционное отношение и его свойства                                                   72

Дополнение 2. Ранговая корреляция                                                                                      74

PAGE  80

Глава 4. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ


 

А также другие работы, которые могут Вас заинтересовать

62014. Методика преподавания сольфеджио. Урок Ритмическая группа 164.41 KB
  Цели урока: обучающая: повторить и закрепить на практике ритмическую фигуру. развивающая: развивать ритмическое чувство и слуховые представления в связи с включением в ритмические и интонационные упражнения ритмической группы...
62015. Международное гуманитарное право в условиях вооруженных конфликтов 35.31 KB
  Цели: привлечь внимание к последствиям чрезмерного насилия в период вооруженных конфликтов; способствовать пониманию школьниками необходимости регулирования поведения участников вооруженного конфликта с помощью норм международного гуманитарного права...
62017. Великая Отечественная Война. Жертвенный подвиг солдата. Военно-историческая реконструкция 15.86 KB
  Цели и задачи мероприятия: Рассказать учащимся о смысле военного подвига и жертвы жизни за Родину. Военно-историческая реконструкция одного из боев отряда разведчиков Красной Армии с отрядом немецкой пехоты в лесной местности осенью 1943 года с комментариями происходящего.