10974

Линейный корреляционный анализ. Коэффициент ранговой корреляции спирмена

Лекция

Математика и математический анализ

Линейный корреляционный анализ ПРОДОЛЖЕНИЕ Пример 1.Коэффициент ранговой корреляции спирмена По двум дисциплинам А и В тестировались 10 студентов. На основе набранных баллов вычислены соответствующие ранги. Необходимо вычислить ранговый коэффициент Спирмена и пров...

Русский

2013-04-03

79.27 KB

72 чел.

Линейный корреляционный анализ (ПРОДОЛЖЕНИЕ)

Пример 1. Коэффициент ранговой корреляции спирмена

По двум дисциплинам А и В тестировались 10 студентов. На основе набранных баллов вычислены соответствующие ранги. Необходимо вычислить ранговый коэффициент Спирмена и проверить его значимость на уровне .

Решение.  Вычисленные ранги, разности рангов и их квадраты представим в виде таблицы:

Ранги по дисциплинам

Студент, i

Всего

1

2

3

4

5

6

7

8

9

10

А

2

4

5

1

7.5

7.5

7.5

7.5

3

10

55

В

2.5

6

4

1

2.5

7

8

9.5

5

9.5

55

-0.5

-2

1

0

5

0.5

-0.5

-2

-2

0.5

-

0.25

4

1

0

25

0.25

0.25

4

4

0.25

39

По формуле (10.11) . Однако эта формула не учитывает наличие связанных рангов.

По дисциплине А имеем одну группу неразличимых рангов с ; по дисциплине В две группы неразличимых рангов по  ранга. Поэтому по формуле (10.13)
. Теперь вычислим модифицированный коэффициент корреляции Спирмена (10.12):

Для проверки значимости  по формуле (10.14) вычислим
. По таблицам распределения Стьюдента найдем
, т.к. , то ранговый коэффициент корреляции значим на 5% -ном уровне. Значит связь между оценками двух дисциплин достаточно тесная.

Коэффициент ранговой корреляции Кендалла вычисляется по формуле:

где  статистика Кендалла.

Для определения  необходимо ранжировать объекты по одной переменной в порядке возрастания рангов  и определить соответствующие им ранги  по другой переменной. Статистика  равна общему числу инверсий (нарушений порядка, когда большее число стоит слева от меньшего) в ранговой последовательности (ранжировке) . При полном совпадении двух ранжировок получим  и ; при полной противоположности можно показать, что
 и . Во всех остальных случаях .

При проверке значимости  исходят из того, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи между переменными (при )  имеет приближенно нормальный закон распределения с математическим ожиданием, равным нулю, и средним квадратическим отклонением . Поэтому  значим на уровне  если значение статистики

больше критического , где .

Пример 2. КОЭФФИЦИЕНТ  РАНГОВОЙ  КОРРЕЛЯЦИИ КЕНДАЛЛА

Проведено исследование 10 важнейших видов оборудования, используемого судоводителями во время вахты. Вычислены ранги по важности оборудования X и по частоте его использования Y. Полученные результаты приведены в таблице. Необходимо вычислить ранговый коэффициент Кендалла и оценить его значение на уровне

Решение. Дополним таблицу рангов числом инверсий в ранжировках по переменной Y для различных рангов по переменной X.

Ранг

Тип оборудования

Всего

А

Б

В

Г

Д

Е

Ж

З

И

К

1

2

3

4

5

6

7

8

9

10

-

1

4

2

6

3

9

10

8

7

5

-

Число инверсий

0

2

0

2

0

3

3

2

1

0

Покажем, как считается число инверсий рангов  при ранге  по переменной X. Тогда соответствующий ранг по переменной Y равен . Последующие ранги переменной Y равны: 3, 9, 10, 8, 7, 5, а из них только два ранга меньше . Таким образом, при ранге , число инверсий рангов  равно двум. Аналогичным образом подсчитаны все инверсии, сумма которых равна 13. Теперь по формуле (11.1) . Оценим значимость . Вычислим по формуле (11.2) значение статистики . Так как , то ранговый коэффициент корреляции Кендалла не значим на 5%-ном уровне.

Замечания

  1.  Ранговые коэффициенты корреляции  и  могут быть использованы и для оценки тесноты связи между обычными количественными переменными, измеряемыми в интервальных шкалах.
  2.  Преимущества  и  здесь заключается в том, что нахождение этих коэффициентов не требует нормального распределения переменных, линейной связи между ними (хотя и предполагает монотонность функции регрессии, отражающей эту связь).
  3.  Однако необходимо учитывать, что при переходе от первоначальных значений переменных к их рангам происходит определенная потеря информации.

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Корреляционный анализ позволяет установить степень взаимосвязи двух и более случайных величин. Однако наряду с этим желательно иметь модель этой связи, которая дала бы возможность предсказать значения одной случайной величины по конкретным значениям другой. Например, корреляционный анализ данных (смотри пример в предыдущей лекции) установил значимую линейную связь между ростом и массой студентов.

Логичен следующий шаг: конкретизировать эту связь так, чтобы по данному росту можно было бы предсказать массу студента. Методы решения подобных задач носят название "регрессионный анализ".

Рассмотрим простой случай двух случайных величин (коррелированных). В этой задаче случайная величина рост студента, а масса студента. Линейная связь между двумя случайными величинами означает, что прогноз значения величины по данному значению имеет вид:

.    (11.3)

Здесь и отрезок оси ординат, отсекаемый прямой и её наклон соответственно.

Если исследуемые данные связаны идеальной линейной зависимостью , то предсказанное значение будет в точности соответствовать наблюденному значению при любом . Однако на практике идеальная линейная зависимость между данными, обычно, отсутствует. Случайные внешние воздействия приводят к разбросу данных, и, кроме того, возможны искажения за счет присутствия нелинейных эффектов.

Т. о. не обязательно совпадает с наблюденным значением , соответствующим данному значению , однако оно будет равно среднему значению всех таких наблюденных значений.

Общепринята такая процедура определения коэффициентов и , при которой минимизируется сумма квадратов отклонений наблюденных значений от предсказанных значений . Эта процедура называется методом наименьших квадратов (МНК).

Оценим отклонение наблюденных значений от предсказанных:

.     (11.4)

Тогда сумма квадратов отклонений равна:

.    (11.5)

Следовательно, лучшее согласие в смысле наименьших квадратов обеспечивают следующие условия:

.     (11.6)

На практике мы имеем ограниченную выборку из пар наблюденных значений и . Это значит, что уравнение (11.6) даст лишь оценки и , которые обозначим и соответственно. Подставляя (11.5) в уравнение (11.6) и решив его относительно оценок величин и , получим:

;  

.     (11.7)

 

 (11.8)

Теперь эти оценки можно использовать для построения модели, позволяющей предсказывать значения по данному значению :

.  (11.9)

Уравнение (11.9) называется прямой линейной регрессии  на . Поменяем местами зависимую и независимую переменные в уравнениях (11.7) и (11.8). Тогда получим прямую регрессии на :

;      

  (11.10)

Сравнивая (11.7, 11.8) и (11.10) видим, что наклоны прямых регрессии на  и  на связаны с выборочным коэффициентом корреляции соотношением:

.     (11.11)

Таким образом, по выборке ограниченного объема мы построили эмпирическое уравнение регрессии (11.9, 11.10) и получили оценки неизвестных параметров. Называемые эмпирическими коэффициентами регрессии. Следовательно, в конкретном случае

,      (11.12)

где отклонение (остаток) оценка теоретического случайного отклонения .

Проведенные рассуждения и формулы (11.4 – 11.10) позволяют сделать ряд выводов:

  1.  Оценки МНК являются функциями от выборки, что позволяет их легко рассчитывать.
  2.  Оценки МНК являются точечными оценками теоретических коэффициентов регрессии.
  3.  Согласно (11.9) и (11.10) эмпирическая прямая регрессии обязательно проходит через точку .
  4.  Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений , а также среднее значение отклонения  равны нулю.

Действительно, из (11.7)

.

  1.  Случайные отклонения  не коррелированны с наблюдаемыми значениями  зависимой переменной .

Показано, что ковариация между  и  равна нулю:

.


 

А также другие работы, которые могут Вас заинтересовать

1220. Технологический процесс термической обработки деталей машин 1.5 MB
  Основные задачи и исходные данные для курсового проектирования. Общие методические указания к выполнению курсовой работы. Разработка технологического маршрута изготовления детали. Разработка технологического процесса термической обработки. Основные требования к оформлению расчетно-пояснительной записки и чертежей.
1221. Экономика и организация производства 1.01 MB
  Бизнес-план - основной документ для оценки и обоснования реализации проекта в условиях конкуренции. Требования к оформлению и защите курсовой работы. Цели и задачи курсовой работы.
1222. Бухгалтерский финансовый учет 476 KB
  Учет кассовых операций. Учет операций на счетах в банках. Учет материально - производственных запасов. Учет внеоборотных активов. Учет финансовых вложений. Учет кредитов и займов. Ведения кассовых операций с банкнотами и монетой банка России.
1223. Технологический процесс подготовки и производства издания художественной литературы 710.5 KB
  История офсетной печати. Роль офсетной печати в полиграфическом производстве. Тенденции развития современных полиграфических технологий. Анализ действующего предприятия по выпуску аналогичной продукции. Выбор и обоснование выбора способа печати.
1224. Економіка та економічні системи України 901.5 KB
  Агропромисловий комплекс України і його адаптація до ринкових умов. Особливості банківської системи її Україні. Валовий внутрішній продукт та його структура. Валютні операції та їх види. Досконала і недосконала конкуренція. Економічна конкуренція, її форми та методи.
1225. Информационная основа управления финансами 862.5 KB
  Информационное обеспечение финансового менеджмента предприятия. Внешние и внутренние пользователи финансовой отчетности. Финансовая отчетность в системе финансового менеджмента. Использование информационной системы в финансовом менеджменте. Информационное обеспечение контроллинга.
1226. Компьютерное моделирование 1.06 MB
  Язык моделирования GPSS. Неформальное введение в имитационное компьютерное моделирование на языке GPSS. Аналитическое и имитационное моделирование. Проверка адекватности и корректировка модели. Экономико-математические модели и методы.
1227. Земельное законодательство в практике деятельности предприятия 767.5 KB
  Изучение применения земельного законодательства в практике данной организации. Основные принципы земельного законодательства. Нормативно-правовые документы в области земельного права муниципального уровня. Изучение методов вычислительной оценки имущественного комплекса. Перечень документов, необходимых для постановки на государственный учёт.
1228. Организация производства общественного питания 802 KB
  Технология продукции общественного питания. Характеристика и особенности приёмов и режимов технологической обработки сырья, продуктов для приготовления блюд. Разработка структуры предприятия и взаимосвязи групп помещений. Анализ потенциальных опасностей и производственных вредностей на предприятии. Экономическое обоснование эффективности дипломной работы. Смета затрат на производство и реализацию продукции общественного питания.