17179

Понятие корреляции

Лекция

Социология, социальная работа и статистика

Понятие корреляции Все явления в мире взаимосвязаны. Это значит что каждое событие оказывает влияние на все события следующие за ним а само происходит вследствие всех событий случившихся до него. До сих пор рассматривались основные статистические характеристики ...

Русский

2013-06-30

492 KB

0 чел.

Понятие корреляции

Все явления в мире взаимосвязаны. Это значит, что каждое событие оказывает влияние на все события, следующие за ним, а само происходит вследствие всех событий, случившихся до него.

До сих пор рассматривались основные статистические характеристики изолированно друг от друга, теперь будем изучать, как и в к5акой форме одно явление оказывает влияние на другое. Это является предметом корреляционно-регрессионного анализа.

Три основные задачи корреляционно-регрессионного анализа:

1. Определение факторов, которые оказывают определяющее воздействие на результативный признак.

2. Определение форм воздействия факторов и результата.

3. Определение степени влияния на результат учтенных и неучтенных факторов.

В статистике изучаются следующие виды связей:

1. Балансовая связь – характеризует зависимость между источниками формирования результатов и их использованием.

2. Компонентные связи – характеризуются тем, что изменение статистического показателя определяется изменением компонентов, входящих в этот показатель, как множители.

Ipq=Ip*Iq

3. Факторные связи – характеризуются тем, что они появляются в согласованной вариации изучаемых показателей.

Одни выступают как факторные, другие как результативные.

При функциональной связи изменение результативного признака обусловлено всецело действием одного факторного признака х, т.е. одному факторному соответствует одно и только одно значение результативного признака y=f(x). Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы изучаемой величины.

Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, в среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная, при которой изменение среднего значения результатов признака обусловлено изменением факторных признаков. По степени тесноты связи различают количественные критерии оценки тесноты связи.

Величина коэффициента корреляции

Характер связи

до |±0,3|

практически отсутствует

|±0,3|-|±0,5|

слабая

|±0,5|-|±0,7|

умеренная

|±0,7|-|±1,0|

сильная

По направлению выделяют связь прямую, т.е. с увеличением или уменьшением значения факторного признака происходит увеличение или уменьшение результата.

Например, увеличение производительности труда способствует увеличению уровня рентабельности.

И обратную, когда значения результативного признака изменяются под воздействием факторного, но в противоположном направлении.

Например, с увеличением фондоотдачи снижается себестоимость единицы продукции.

По аналитическому выражению выделяют связи прямолинейные и нелинейные.

В статистике не всегда требуются количественные оценки, важно просто определить форму воздействия одних факторов на другие.

Для выявления наличия связи, и характера, и направления используются следующие методы:

- приведение параллельных данных

- аналитических группировок

- графический

- корреляции

1.Метод приведения параллельных данных - основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере.

x

1

2

3

4

5

6

7

8

9

y

5

6

9

10

14

17

15

20

23

 Т.е. с увеличением x ↑ y, т.е. это может быть либо кривая, либо парабола 2 порядка.

2.Графически - взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а у – результативного.

При отсутствии тесных связей имеет место беспорядочное расположение точки на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи.

   

Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака на него оказывают воздействие многие случайные факторы. Поэтому корреляционная связь отражается функцией у=ψ(х)+ε, где ε – влияние случайных факторов.

3.Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при котором изменение одной из случайных величин приводит к уменьшению математического ожидания другой. В статистике принято различать следующие варианты зависимостей:

1. Парная корреляция – связь между двумя признаками.

2. Частная корреляция – зависимость между результатом и одним факторным признаком при фиксированном значении других факторных признаков.

3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный анализ имеет своей задачей кол-но определить тесноту связи между двумя признаками (при парной связи) и между результативными и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции. Величина коэффициентов корреляции служит также оценкой соответствия уравнения регрессии  выявленным причинно-следственным связям. Одновременно с корреляцией начала использоваться регрессия. Корреляция и регрессия тесно связаны между собой:

Первая оценивает силу статистической связи, вторая исследует ее форму. Та и другая служат для установления соотношения между явлениями.

Корреляционно-регрессионный анализ как общее понятие, включает в себя измерение тесноты направления связей и установления аналитического выражения (формы) связей (регрессионный анализ).

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (результативный признак) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной).

- линейная функция и многофакторной (множественной)

2х2  - парабола

            - гипербола нелинейная регрессия

По направлению связи распределяют:

а) прямую регрессию (положительную)

б) обратную (отрицательную), т.е. с увеличением или уменьшением независимой величины зависимая соответственно уменьшается или увеличивается.

Прямая (положительная) регрессия

Обратная (отрицательная) регрессия

Методы корреляционно-регрессионного анализа связи показателей

Наиболее разработанная – метод парной корреляции, рассматривающая влияние вариации факторного признака (х) на результативный (у).

Для выявления связи применяются различные виды уравнения прямолинейной и криволинейной связей. Аналитическая связь между ними может быть описана следующими уравнениями:

Прямая

Гипербола

Парабола 2х2

Определить тип уравнения можно, исследуя зависимость графически. Однако есть более общее указание.

- если результативный и факторный признаки ↑ одинаково, примерно в арифметической прогрессии – прямая.

- при обратной – гиперболическая.

- если факторный признак увеличивается в арифметической, а результативный быстрее, то парабола или степенная.

Оценка параметров уравнений регрессии а0; а1; а2 осуществляется методом наименьших квадратов

при линейной зависимости

n – объем исследуемой совокупности.

; где а0 – усредненное влияние на результативный признак случайных факторов. а1 – коэффициент регрессии показывает насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.

Пример:

Имеются данные, характеризующие деловую активность ЗАО:

прибыль (тыс.р.) и затраты на 1 р. произведенной продукции (коп.)

затраты на 1 р. произв. продукции (коп.)

прибыль (тыс.р.)

х2

ху

1

77

1070

5929

82390

1016

2

77

1001

5929

77077

1016

3

81

789

5561

63909

853

4

82

779

6724

63878

812

5

89

606

7921

53934

527

6

96

221

9216

21216

242

Итого:

502

4466

42280

362404

4466

На практике часто исследования проводятся по большому числу наблюдений. В этом случае исходные данные представляют в сводной корреляционной таблице. При этом анализу подвергаются сгруппированные данные и по факторному х и по результативному у, т.е. уравнение парной регрессии целесообразно строить на основе сгруппированных данных.

Если значения х и у заданы в определенных интервалах (а-в), то для каждого интервала сначала определяют середину интервала (а+в)/2, а затем уже коррелируют значения х/ и у/ и строят уравнения регрессии между ними.

Корреляционная таблица дает общее представление о направлении связи. Если оба признака (х и у) располагаются в возрастающем порядке, а частоты (fxy) сосредоточены по диагонали сверху вниз направо.

           прямая                                                            обратная

О тесноте связи между признаками х и у по корреляционной таблице можно судить по кучности расположения частот вокруг диагонали (поскольку заполненные клетки таблицы в стороне от нее).

Если клетки заполнены большими цифрами, то связь слабая. Чем ближе частоты (fxy) располагаются к одной из диагоналей, тем теснее связь. Если в расположении частот (fxy) нет системности, то можно судить об отсутствии связи.

Пример:

величина капитала,

тыс.р.

у

величина работающих активов, тыс.р.

х

Число банков

fy

уfy

xyfy

14-70

70-126

126-182

182-238

у/ср

х/ср

42

98

154

210

145-2684

1714,5

4

6

2

3

15

25717,5

2904363

2684-4624

3654,0

1

3

4

14616

1227744

4624-6564

5594

1

1

2

11181

1409688

6564-8503

7533,5

1

1

2

4

30134

3375008

8503-125842

67172,5

2

1

2

5

335862,5

44199505

Число предпр.

fx

8

11

6

5

30

417518

53116308

xfx

336

1078

924

1050

3388

x2fx

14112

105644

142296

220500

482552

 

Если у нас наличие линейной связи:

где n=30 коммерческих банков.

fx и fy – число банков согласно распределению соответственно по факторному и результативному признакам.

yfy; xfx – значение результативного и факторного признаков по конкретной группе коммерческих банков.

Для 1 группы yfy= 1714,5*15=25717,5

xfx=42*8=336

хyfy=1714,5*4*42+1714,5*6*98+1714,5*2*154+1714,5*3*210=2904363

х2fx=42*42*8=14112

Статистические данные обладают ошибками упрощения, которые возникают как следствие:

1. Неполноты охвата единиц совокупности

2. Неполноты факторов, определяющих явление

3. Характера выбранного уравнения связи

Использование метода наименьших квадратов позволяет получить достоверные оценки при небольшом количестве наблюдений.

При изучении корреляционной связи показателей коммерческой деятельности в условиях наблюдения так называемого малого и среднего бизнеса, анализу подвергается сравнительно небольшие по составу единиц совокупности.  

Коэффициент эластичности

Для оценки влияния факторного признака на результативный применяется коэффициент эластичности.

Он рассчитывается для каждой точки и в среднем по всей совокупности.

Коэффициент эластичности (Э)

Э=      Коэффициент эластичности показывает, на сколько % изменяется результативный признак при изменении факторного признака на 1%.

Если х=42, то при увеличении его на 1%, т.е. 42*(1+0,01)=42,42; С 42 до 42,42. Капитал. увеличится. Э=(59,7*42)/(7177,6+59,7*42)=2507,4/(7177,6+2507,4)=2507,4/9685=0,259

Это означает, что при увеличении фактического признака с 42 до 42,42 – результативный признак увеличится на 0,259%.

Измерение тесноты связи

Кроме состав. уравн. регрессии для коррелируемых переменных второй задачей является измерение тесноты связи между ними. Измерить ее означает определить насколько вариация результативного признака зависит от вариации факторного. Измерить тесноту зависимости между х и у можно при помощи:

1. Корреляционного отношения (η) (коэффициент корреляции по Персону)

2. Линейного коэффициента корреляции (r)

Первый применим ко всем зависимостям, второй только при линейной зависимости.

а) корреляционное отношение различается:

1. теоретическое

2. эмпирическое

Теоретическое представляет собой относительную величину, получающуюся в результате сравнения среднего квадратического отклонения в ряду выравненных значений результативного признака (), рассчитанных по уравнению регресии, со средним квадратическим  отклонением в ряду эмпирических значений результатов признака.

первое – δ, второе – σ.

Учитывая, что выравненные эмпирические совпадают, т.е.

и средние значения признака у рядов одинаково (), среднее квадратическое отклонение ряда выравненных значений результативного признака можно записать

Если дисперсию выравненного σ 2 обозначить через среднее квадратическое для эмпирического ряда результатов признака σ= σ 2=Dy, то корреляционное отношение можно записать

Возведя обе части в квадрат получим ; это корреляционное отношение называется коэффициентом детерминации. σ2=Dy, характеризует вариацию в ряду (у) за счет всех факторов, включая и фактор (х), а δ2=характеризует вариацию результативного признака под влиянием фактора х. Если найдем отношение , то получим малую долю, занимаемую дисперсией, определяемую влиянием факторного признака х. Т.е. в основе корреляционного отношения лежит правило сложения дисперсий .

При изучении корреляционных связей дисперсия в ряду  и является межгрупповой дисперсией δ2=ибо она отражает колеблемость групповых значений результативного признака (т.е. характерных для этой группы х) вокруг общей средней ряда, т.е. колеблемость за счет факторного признака.

Т.е. средняя из внутригрупповых дисперсий это и будет остаточная дисперсия, т.е. вариация в ряду у за счет всех остальных факторов, кроме х

Из правила сложения дисперсий

Корреляционное отношение, находится в пределах от 0 до 1.

1. Если результ. полностью зависит от фактора х

2. Фактор х не анализ. влияние на у

 

Т.е. чем ближе значение корреляционного отношения к 1, тем больше связь у и х. Чем ближе к  0, тем связь слабее. Обычно η меньше 0,3, зависимость маленькая; 0,3-0,6 – зависимость средняя, больше 0,6 – большая.

Пример.

внесено удобр.,ц/га.

х

урож.,ц/га

у

1

6

6,2

2

9

8,5

3

10

10,4

4

12

11,9

5

13

13,0

Итого:15

50

50

Зависимость параболическая.

5a0+15a1+55a2=50

15a0+55a1+225a2=167

55a0+225a1+979a2=649

a0=3,14

a1=2,98

a2=-0,241

Дисперсия ряда теоретическая. Значение результативного признака.

Дисперсия ряда эмпирическая. Значение результативного признака.

Корреляционное отношение характеризует высокую степень тесноты зависимости изменения урожайности от количества внесенных удобрений.

От теоретического следует отличать эмпирическое корреляционное отношение, которое рассчитывается по данным групповых таблиц.

где - дисперсия групповых средних результативного признака

- общая дисперсия результативного признака.

Эмпирическое корреляционное отношение не требует знания и расчета уравнений регрессии, а основывается на сопоставлении межгрупповой и общей дисперсий результативного признака, рассчитанных по групповым таблицам.

Рассмотрим пример с корреляционной таблицей:

На основе этого показателя можно сделать вывод о том, что вариация групповых средних несущественно зависит от вариации группировочного признака.

Линейный коэффициент корреляции

В случае линейной зависимости между двумя коррелируемыми величинами тесноту связи измеряют линейным коэффициентом корреляции (r), который может быть рассчитан по нескольким формулам:

1.

где а1- коэффициент регрессии в управлении связи;

σх- среднее квадратическое отклонение факторного признака;

σу- среднее квадратическое отклонение результативного признака.

2.

3.

Рассчитаем линейный коэффициент корреляции по разным формулам:

основные произв. фонды, млн.р.  х

валовая продукция, млн.р.  у

х2

ху

1,2

2,8

1,44

3,36

1,5

1,6

4,0

2,56

6,4

2,4

2,5

3,8

6,25

9,5

4,3

3,8

6,5

14,44

24,7

7,0

4,3

8,0

18,49

34,4

8,1

5,5

10,1

30,25

55,55

10,6

6,0

9,5

36,0

57,0

11,7

8,0

12,5

64,0

100

15,6

9,1

18,3

82,81

166,53

18,3

10,0

24,5

100

245

20,2

∑х=52

∑у=100

∑х2=356,24

∑ху=702,44

100

n=10

10а0+52а1=100

52а0+356,24а1=702,44

а0=-1,024; а1=2,12

Линейный коэффициент корреляции может принимать значения от -1 до +1

Если r отрицательна – это обратная зависимость между х и у, т.е. с увеличением х уменьшается у и наоборот.

Если r =0 – связь отсутствует между х и у

Если 0 < r < 1 – связь функциональная.

Оценка надежности коэффициента корреляции и коэффициента регрессии

Коэффициент корреляции можно рассчитать и по выборочным данным. В этом случае должна быть рассчитана ошибка коэффициента корреляции μr.

Если n > 50, то этот показатель определяется по формуле , а сам коэффициент корреляции – в пределах r±3μr.

Если n<50 или значение коэффициента корреляции невелико, то приходится решать вопрос о том, насколько реальна связь между у и х. Это можно определить сопоставляя между собой численные значения r и  μr.

1. Если , то r считается значимым, а связь реальной.

2. Если , то связь между у и х недоказана, то можно высказать предположение, что значение коэффициента корреляции, отличное от 0, получено случайно.

Аналогично определяется и ошибка корреляционного отношения и его значимость. Необходимо отметить, что при различных значениях отобранных единиц в выборочную совокупность, параметры уравнения регрессии также различны.

Следовательно, в каждом конкретном случае, найдя по эмпирическим данным параметры уравнения регрессии, необходимо определить их возможные ошибки и пределы, в которых эти параметры могут находиться, а также определить значимость (существенность) этих параметров.

Рассмотрим .

Средняя ошибка (μ) параметра а0 рассчитывается по формуле:

где

(n-2) – число степеней свободы.

можно найти из правила сложения дисперсий

Разделим обе части уравнения на общую дисперсию

Средняя ошибка параметра а1

Зная среднюю ошибку параметра и задавшись определенной вероятностью, а следовательно, и коэффициентом доверия (t), можно построить, для каждого параметра доверительные интервалы.

Для коэффициента регрессии:

Значимость (существенность) коэффициента регрессии проверяется путем сопоставления самого параметра (а1), с его средней ошибкой

По значению t в зависимости от объема наблюдений следят о значимости параметра.

Для n>20, если t>3, параметры считаются значимыми.

Для n<20, то обращаются к таблице значений критерия t Стьюдента.

Если tфакт.<tтабл., то параметры считаются значимыми.

Для а1=2,12 средняя ошибка будет равна

При уровне значимости d=0,05, k=10-2=8, tтабл.=2,306

Т.к. фактически t>табличного, то можно сделать вывод о значимости коэффициента регрессии а1.

Коэффициенты корреляции рангов

Наряду с r и η для измерения тесноты зависимости между коррелируемыми показателями часто используются так называемые эмпирические показатели, которые называются коэффициентом корреляции рангов:

1. Коэффициент Спирмэна (p)

2. Коэффициент Кендэла (τ)

Оба эти показателя основаны на корреляции не самих значений (х и у), а их рангов.

Коэффициент корреляции рангов Спирмэна

Для расчета коэффициентов корреляции рангов Спирмэна значения случайных величин х и у нумеруются (каждое отдельно) в порядке возрастания (или убывания) от 1 до n, т.е. им присваивается определенный ранг (Nх и Nу) – порядковый номер в ряду. Если встречается несколько одинаковых значений х (или у), то каждому значению присваивается ранг, равный частному от деления суммы рангов, приходящихся на эти значения, на число этих равных значений.

Затем ранги отдельных значений факторного признака сопоставляются с рангами результативного признака.

Разность рангов (Nx-Ny) обозначают d. Степень тесноты связи между изучаемыми признаками в этом случае можно определить по формуле Спирмэна

где d – разность рангов х и у

n – число пар наблюдений.

Коэффициент корреляции рангов Спирмэна р находится в пределах от 0 до ±1. Когда ранги результативного признака полностью совпадают с рангами факторного признака, то каждое значение Nx=Ny и ∑d2=0, тогда р = 1, то можно говорить о почти полной прямой связи. Если ранги идут строго в противоположном направлении, т.е. первому рангу фактора х соответствует n-й ранг (последний) результативного признака у, второму рангу х соответствует n-1 ранг у и т.д., то в этом случае максимальная величина будет равна

может иметь максимальное значение 2.

И тогда по формуле Спирмэна р=-1, что свидетельствует почти о полной обратной связи между х и у.

Если же связь между изменениями х и у отсутствует (р=0), то очевидно, в этом случае должно наблюдаться равенство.

Этот показатель менее точен по сравнению с r и η. Расчет показателя прост, поэтому ему отдают предпочтение.

Пример.

производственные основные фонды, млн.р.   х

валовая продукция, млн.р  у

Nx

Ny

d=Nx-Ny

d2

60,5

836,4

11

10,5

0,5

0,25

40,7

836,4

10

10,5

-0,5

0,25

33,8

303,0

7

9

-2

4

22,1

134,9

4

1,5

2,5

6,25

33,8

139,3

7

3

4

16

33,8

265,0

7

7

0

0

20,9

181

1,5

4

-2,5

6,25

35,9

287,2

9

8

1

1

21,6

189,9

3

5,5

-2,5

6,25

22,4

189,9

5

5,5

-0,5

0,25

20,9

134,9

1,5

1,5

0

0

40,5

Находим коэффициент Спирмэна

Зависимость между стоимостью основных фондов и выпускаемой продукции сильная.

Коэффициент Кендэла (τ)

Для расчета значения ранжируются. Затем определяют меру соотношения последовательности рангов у последовательности рангов х.

При этом для каждого ранга у определяют число следующих за ним значений рангов, превышающих его величину. Сумму чисел таких превышений обозначаем Р и будем считать со знаком (+). Аналогично для каждого ранга (у) определяют число следующих за ним рангов, имеющих значение меньше его величины. Сумма чисел таких случаев обозначаем через Q и будем считать со знаком (-).

Очевидно, что Р достигает максимума в том случае, если ранги у точно совпадают с рангами х. Если число пар рангов равно n, то максимальное значение слагаемого Р будет равно:

Рmax=(n-1)+(n-2)+…+3+2+1=n(n-1)/2

Соответственно слагаемое Qmax тоже имеет максимум абсолютного значения,

если последовательность вариантов у имеет обратную тенденцию по отношению к последовательности рангов вариантов х.

Коэффициент Кендэла (τ) предполагает измерение меры соот-ия последовательности рангов двух переменных путем сравнения общего итога ∑ положительных и отрицательных баллов (S=P+Q) с максимальным значением одного из слагаемых, т. е.  

Пример:

Производ. фонды, млн.р.  х

валовая продукция, млн.р.  у

Nx

Ny

d=Nx-Ny

d2

1,2

2,8

1

1

0

0

1,6

4,0

2

3

-1

1

2,5

3,8

3

2

1

1

3,8

6,5

4

4

0

0

4,3

8,0

5

5

0

0

5,5

10,1

6

7

-1

1

6,0

9,5

7

6

1

1

8,0

12,5

8

8

0

0

9,1

18,3

9

9

0

0

10,0

24,5

10

10

0

0

n=10

4

Рассчитаем коэффициент Кендэла

у: Р= 9+7+7+6+5+3+3+2+1=43

х: Q=0+(-1)+0+0+0+(-1)+0+0+0=-2

S=43-2=41

Тогда

Получаемый коэффициент свидетельствует о значительной тесноте зависимости между изменениями значений х и у.

Данная формула применима для тех случаев, когда отдельные значения признака (х и у) не повторяются и следовательно, их ранги не объединены.

Коэффициент Фехнера

Он строится на сравнении поведения отклонений отдельных вариантов от своей средней величины по каждому признаку. При этом принимается во внимание не величина самих отклонений, а их знаки. Найдя отклонение от средней в каждом ряду, сравнивают знаки и досчитывают число совпадений и несовпадений знаков.

Если совпадения знаков обозначить символом С, а несовпадения – Н, то коэффициент Фехнера можно записать как

х

у

1,2

2,8

-

-

1,6

4,0

-

-

2,5

3,8

-

-

3,8

6,5

-

-

4,3

8,0

-

-

5,5

10,1

+

+

6,0

9,5

+

-

8,0

12,5

+

+

9,1

18,3

+

+

10,0

24,5

+

+

Число совпадений 9, число несовпадений 1.

Применение корреляционно-регрессивного анализа связи

Рассмотрим влияние вариации факторного показателя х на результативный у.

Пример.

Имеется следующая информация по однотипным предприятиям о возрасте (продолжительности эксплуатации) силового оборудования и затратах на его ремонт.

№ предприятия

возраст оборудования, лет.

затраты на ремонт, т.р.

1

4

1,5

2

5

2,0

3

5

1,4

4

6

2,3

5

8

2,7

6

10

4,0

7

8

2,3

8

7

2,5

9

11

6,6

10

6

1,7

В условиях использования ЭВМ выбор адекватной математической функции осуществляется перебором решений наиболее часто применяемых.

Наиболее часто встречается прямолинейная зависимость.

ух01х

Для определения параметров уравнения

Расчетная таблица.

у

х

х2

ху

1

1,5

4

16

6

2

2,0

5

25

10

3

1,4

5

25

7

4

2,3

6

36

13,8

5

2,7

8

64

21,6

6

4,0

10

100

40

7

2,3

8

64

18,4

8

2,5

7

49

17,5

9

6,6

11

121

72,6

10

1,7

6

36

10,2

27

70

536

217,1

а0=(27*536-217,1*70)/(10*536-70*70)=-1,576

а1=(10*217,1-70*27)/460=0,611

Зависимость расходов на ремонт от возраста оборудования.

ух=-1,576+0,611х

Проверим эту формулу на типичность:

Для определения  на основе формулы определяем выравненные значения ухi 

ух1=-1,576+0,611*4=0,868

ух2,3=-1,576+0,611*5=1,479

ух4,10=-1,576+0,611*6=2,09

ух5,7=-1,576+0,611*8=3,312

ух6=-1,576+0,611*10=4,534

ух8=-1,576+0,611*7=2,701

ух9=-1,576+0,611*11=5,145

Расчетная таблица

у

х

ух

у-ух

(у-ух)2

()2

у2

1

2

3

4

5

6

7

8

9

1

1,5

4

0,868

0,632

0,399

-3

9

2,25

2

2,0

5

1,479

0,521

0,271

-2

4

4,0

3

1,4

5

1,479

-0,079

0,006

-2

4

1,96

4

2,3

6

2,09

0,21

0,044

-1

1

5,29

5

2,7

8

3,312

-0,612

0,374

1

1

7,29

6

4,0

10

4,534

-0,534

0,285

3

9

16,0

7

2,3

8

3,312

-1,012

1,024

1

1

5,29

8

2,5

7

2,701

-0,201

0,040

0

0

6,25

9

6,6

11

5,145

1,455

2,117

4

16

43,56

10

1,7

6

2,09

-0,39

0,152

1

1

2,89

27

70

27,01

х

4,712

х

46

94,78

В экономико-статистических исследованиях принято, что уровень значимости а=0,05 и число степеней свободы k=10-2, то табличное критическое значение tk= 5,32.

Сравнение фактических и табличных значений t-критерия

ta0>tk<ta1

Это позволяет признать вычисленные по уравнению параметры типичными.

Полученная величина R=0,756 означает, что в соответствии со шкалой Чеддока установленная по уравнению регрессии связь между затратами на ремонт и возрастом оборудования высокая.

Оценка значимости коэффициента корреляции осуществляется по t-критерию. Фактическое значение этого критерия

  

При критическом значении tk=2,3 получается, что tr>tk. Вычисленный коэффициент корреляции признается существенным.

Множественная (многофакторная) регрессия

Изучение связи между тремя и более связанными между собой признаками носит название множественной регрессии. Задача состоит в определении аналитического выражения связи между результативным признаком (у) и факторным признаками (х123…хn) .

 

Построение моделей множественной регрессии включает несколько этапов:

- выбор формы связи (уравнение регрессии)

- отбор факторных признаков

- обеспечение достаточного объема совокупности для получения несмещенных оценок.

Рассмотрим каждый из них:

1. Выбор формы связи.

Наиболее применимый способ – это метод перебора различных уравнений. Сущность метода заключается в том, что большое число уравнений, отобранных для описания связи какого-либо социально-экономического явления или процесса, реализованного на ЭВМ с помощью специально разработанных программ перебора с последующей статистической проверкой на основе t-критерия Стьюдента и F-критерия Фехнера – Снедекора. Этот способ очень трудоемкий. Практика построения многофакторных моделей показывает, что все реально существующие зависимости между социально-экономическими явлениями можно описать 5 типами моделей.

1. Линейная

1,2…n=a0+a1x1+a2x2+…+anxn

2. Степенная 

3. Показательная

4. Параболическая

5. Гиперболическая

Основное значение имеют линейные модели в силу своей простоты и логичности их экономической интерпретации. Нелинейные формы зависимости приводятся к линейным путем линеаризации.

2. Отбор факторных признаков.

Сложность формирования уравнения множественной регрессии заключается в том, что почти все факторные признаки находятся в зависимости один от другого.

Вторая проблема определения оптимального числа факторных признаков. С одной стороны, чем больше факторных признаков включено в уравнение, тем оно лучше описывает явление. Однако модель размерностью меньше 100 факторов сложно реализуема и требует больших затрат машинного времени.

Т.е. необходимо исключить второстепенные, экономически и статистически несущественные факторы. И слишком малая модель будет недостаточно адекватно исследуемым явлениям.

Модель может осуществляться следующими методами:

а) Экспертных оценок основан на интуитивно – логических предпосылках, содержательно-качественном анализе. Анализ экспертной информации проводится на базе расчета и анализа непараметрических показателей связи: ранговых коэффициентов корреляции Спирмэна, Кендела и Конкордации.

Ранг – это порядковый номер значения признака, располож. в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным среднему арифметическому от соответствующего номера лист., который определяют. Такие ранги называют связными.

Пример.

Проранжировать предприятия автомобильной промышленности одного из регионов по величине балансовой прибыли.

№ предприятия

балансовая прибыль, млн.р.

ранги

1

10

2

12

4

3

10

20(4+4)

4

12

4

5

12

36/(3+3+3)=4

6

15

2

7

17

1

б) Наиболее применимы – шаговая регрессия. Сущность метода заключается в последовательном включении факторов в уравнение регрессии и последующей проверке их значимости. Факторы поочередно вводятся в уравнение так называемым «прямым методом». При проверке значимости введенного фактора определяется насколько уменьшается сумма квадратов оcтатков и увеличивается величина множественного коэффициента корреляции (R).

где δ2 – дисперсия теоретического значения результативного признака, рассчитанного по уравнению множественной регрессии.

- остаточная дисперсия

σ2 – общая дисперсия результативного признака.

0≤R≤1

Приближаясь к 1 он свидетельствует о силе зависимости между признаками. При небольшом числе наблюдений величина коэффициента R, как правило завышается. Однако используется и обратный метод, т.е. исключение факторов, ставших незначительными на основе t-критерия Стьюдента. Фактор является незначительным, если он вкл. в уравнение регрессии только изменяет значение коэффициента регрессии, не уменьшая сумму квадратов остатков и не увеличивая их значения. Если при вкл. в модель соответствующего факторного признака величина множественного коэффициента регрессии не изменяется (или меняется несущественно), то данный признак существенен и его вкл. в уравнение регрессии необходимо.

Если же при вкл. в модель факторного признака коэффициент регрессии меняют не только величину, но и знаки, а множественный коэффициент корреляции не возрастает, то данный факторный признак признается нецелесообразным для включения в модель связи.

Качество уравнения регрессии зависит от степени.    

Параметры уравнения множественной регрессии показывают степень влияния каждого фактора на анализируемый показатель при фиксированном (среднем) значении всех других факторов.

Построение многофакторных моделей

Он осуществляется трехстадийно:

1. На факторы, вкл. в предварительный состав модели, не накладывается особых ограничений.

2. Производится сравнительная оценка и отсев части факторов. Это достигается анализом парных коэффициентов и индексов корреляции и оценкой их значимости. Для этого составляется матрица парных коэффициентов корреляции, измеряющих тесноту связи каждого из факторов-признаков с результативным фактором и между собой.

у

х1

х2

х3

хj

xm

y

1

ry1

ry2

ry3

ryj

rym

x1

r1y

1

x2

r2y

1

xi

riy

1

xm

rmy

1

Анализ таблицы ведется с использованием следующих критериев: ryi>rij;

ryj>rij; rij<0,8.

3. Производится окончательный отбор факторов путем анализа значимости оценок параметров различных вариантов уравнений множественной регрессии с использованием критерия Стьюдента.

Непараметрические методы оценки корреляционной связи показателей

При исследовании степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативных признаков, возможно использование следующих расчетных таблиц.

a

b

a+b

c

d

c+d

a+c

b+d

a+b+c+d

Строятся следующие показатели:

а) коэффициент ассоциации Д.Юла

б) коэффициент контингенции К.Пирсона

 

Пример.

«Исследование социальных аспектов трудовой деятельности работников»

Распределение по полу и оценка содержания работы.

Работа

Мужчины

Женщины

Всего

Интересная

300(a)

201(b)

501(a+b)

Неинтересная

130(c)

252(d)

382(c+d)

Итого:

430(a+c)

453(b+d)

883(a+b+c+d)

Коэффициент ассоциации

Величина коэффициента соответствует среднему размеру связи, несмотря на различие мнений о своей работе мужчин и женщин. Когда один из показателей 4-клеточной таблицы отсутствует, величина Ка=1, что дает преувеличенную оценку степени тесноты связи между признаками.

Коэффициент контингенции

Кk<Ka 

Связь между заинтересованностью работой мужчин и женщин считается подтвержденной, если Ка≥0,5 или Kk≥0,3.

Пример.

Исследуется связь между успеваемостью студентов-заочников одного из ВУЗов и работой их по специальности. Результаты обследования характеризуются следующими данными.

Зависимость успеваемости студентов-заочников от работы их по специальности.

Студенты-заочники

Число студентов

из них

получ. полож. оценки

получ. неуд. оценки

раб. по специальности

200

180

20

не раб. по спец.

200

140

60

Всего:

400

320

80

Таким образом связь между успеваемостью студентов-заочников и работой их по специальности существенна.

Коэффициент взаимной сопряженности Пирсона и Чупрова.

Если по каждому из двух взаимосвязанных признаков выделяется число групп больше 2-х, то для подобного рода таблиц теснота связи между качественными признаками может быть измерена с помощью показателей взаимной сопряженности Пирсона и Чупрова.

  

где в обеих формулах φ2 – показатель взаимной сопряженности, его рассчитывают как сумму отношений квадратов частот каждой клетки к произведению итоговых частот столбца и строки минус 1, т.е. если в таблице частоты внутри клеток обозначить nij, где i – номер строки, а j – номер графы, итоговые частоты по строкам - Ni ,  а по графам Nj. К1 и К2 – число групп в строках и графах.

      

Пример.

С помощью коэффициентов взаимной сопряженности исследовать связь между себестоимостью продукции и производительностью труда.

с/с

i

произв.тр.

j

производительность труда

Итого:

Nj

высокая

средняя

низкая

высокая

19              n11

12              n12

9 n13

40

средняя

7                n21

18              n22

15               n23

40

низкая

4 n31

10 n32

26               n33

40

итого:

30 Ni

40

50

120

 

              

Связь средняя.

Литература:

Спирин А.А., Башина О.Э. Общая теория статистики. – М.: Финансы и статистика. 1995г. с. 237 – 277.


 

А также другие работы, которые могут Вас заинтересовать

73117. Основные, дополнительные и вспомогательные защитные средства, их характеристика 29 KB
  Электрозащитные средства представляют собой переносимые и перевозимые изделия служащие для защиты людей работающих с электроустановками от поражения электрическим током от воздействия электрической дуги и электромагнитного поля.
73118. Оказание первой доврачебной помощи при поражении электрическим током 29 KB
  Необходимо как можно быстрее освободить пострадавшего от действия тока так как от продолжительности этого действия зависит тяжесть электротравмы. Если отключить установку достаточно быстро нельзя необходимо отделить пострадавшего от токоведущих частей или провода с помощью каната...
73119. Возникновение зарядов статического электричества на производстве и меры защиты 29.5 KB
  Это совокупность явлений связанных с возникновением сохранением релаксацией свободного электрического заряда на поверхности и в объеме диэлектрических и полупроводниковых материалов или на изолированных проводниках.
73120. Устройство и требования безопасности при эксплуатации сосудов и аппаратов, работающих под избыточным давлением 29 KB
  Правила устанавливают специальные требования безопасности к конструкции и материалам сосудов; изготовлению реконструкции монтажу наладке и ремонту; арматуре КИП предохранительным устройствам; установке регистрации техническому освидетельствованию...
73121. Безопасность стационарных сосудов под давлением 29.5 KB
  Не разрешается установка регистрируемых в органе технадзора сосудов в жилых общественных бытовых зданиях в примыкающих к ним помещениях. При любой установке сосудов должна обеспечиваться возможность осмотра ремонта и очистки их с внутренней и наружной сторон.
73122. Безопасность нестационарных сосудов под давлением 30 KB
  Безопасность эксплуатации передвижных сосудов обеспечивается: Необходимой механической прочностью и надлежащим контролем за их состоянием Исключением возможности наполнения горючими газами сосудов предназначенных для негорючих газов и наполнение кислородом...
73123. Техническое освидетельствование сосудов и аппаратов, работающих под избыточным давлением 30 KB
  Объем методы и периодичность технического освидетельствования сосудов за исключением баллонов определяется изготовителем и указывается в инструкциях по монтажу и эксплуатации.
73124. Паспорт пожарной безопасности пожаро- и взрывоопасного объекта 26.5 KB
  Паспорт пожарной безопасности это документ характеризующий существующий уровень пожарной безопасности промышленного пред приятия участка цеха на котором производятся используются или хранятся взрывопожароопасные вещества и материалы и отражающий необходимые мероприятия...
73125. Организация пожарной охраны на предприятии 26.5 KB
  Каждый работник обязан: знать и выполнять на производстве требования пожарной безопасности а также соблюдать и поддерживать противопожарный режим; принимать меры предосторожности при проведении работ с ЛВЖ и ГЖ другими пожароопасными материалами и оборудованием...