10974

Линейный корреляционный анализ. Коэффициент ранговой корреляции спирмена

Лекция

Математика и математический анализ

Линейный корреляционный анализ ПРОДОЛЖЕНИЕ Пример 1.Коэффициент ранговой корреляции спирмена По двум дисциплинам А и В тестировались 10 студентов. На основе набранных баллов вычислены соответствующие ранги. Необходимо вычислить ранговый коэффициент Спирмена и пров...

Русский

2013-04-03

79.27 KB

74 чел.

Линейный корреляционный анализ (ПРОДОЛЖЕНИЕ)

Пример 1. Коэффициент ранговой корреляции спирмена

По двум дисциплинам А и В тестировались 10 студентов. На основе набранных баллов вычислены соответствующие ранги. Необходимо вычислить ранговый коэффициент Спирмена и проверить его значимость на уровне .

Решение.  Вычисленные ранги, разности рангов и их квадраты представим в виде таблицы:

Ранги по дисциплинам

Студент, i

Всего

1

2

3

4

5

6

7

8

9

10

А

2

4

5

1

7.5

7.5

7.5

7.5

3

10

55

В

2.5

6

4

1

2.5

7

8

9.5

5

9.5

55

-0.5

-2

1

0

5

0.5

-0.5

-2

-2

0.5

-

0.25

4

1

0

25

0.25

0.25

4

4

0.25

39

По формуле (10.11) . Однако эта формула не учитывает наличие связанных рангов.

По дисциплине А имеем одну группу неразличимых рангов с ; по дисциплине В две группы неразличимых рангов по  ранга. Поэтому по формуле (10.13)
. Теперь вычислим модифицированный коэффициент корреляции Спирмена (10.12):

Для проверки значимости  по формуле (10.14) вычислим
. По таблицам распределения Стьюдента найдем
, т.к. , то ранговый коэффициент корреляции значим на 5% -ном уровне. Значит связь между оценками двух дисциплин достаточно тесная.

Коэффициент ранговой корреляции Кендалла вычисляется по формуле:

где  статистика Кендалла.

Для определения  необходимо ранжировать объекты по одной переменной в порядке возрастания рангов  и определить соответствующие им ранги  по другой переменной. Статистика  равна общему числу инверсий (нарушений порядка, когда большее число стоит слева от меньшего) в ранговой последовательности (ранжировке) . При полном совпадении двух ранжировок получим  и ; при полной противоположности можно показать, что
 и . Во всех остальных случаях .

При проверке значимости  исходят из того, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи между переменными (при )  имеет приближенно нормальный закон распределения с математическим ожиданием, равным нулю, и средним квадратическим отклонением . Поэтому  значим на уровне  если значение статистики

больше критического , где .

Пример 2. КОЭФФИЦИЕНТ  РАНГОВОЙ  КОРРЕЛЯЦИИ КЕНДАЛЛА

Проведено исследование 10 важнейших видов оборудования, используемого судоводителями во время вахты. Вычислены ранги по важности оборудования X и по частоте его использования Y. Полученные результаты приведены в таблице. Необходимо вычислить ранговый коэффициент Кендалла и оценить его значение на уровне

Решение. Дополним таблицу рангов числом инверсий в ранжировках по переменной Y для различных рангов по переменной X.

Ранг

Тип оборудования

Всего

А

Б

В

Г

Д

Е

Ж

З

И

К

1

2

3

4

5

6

7

8

9

10

-

1

4

2

6

3

9

10

8

7

5

-

Число инверсий

0

2

0

2

0

3

3

2

1

0

Покажем, как считается число инверсий рангов  при ранге  по переменной X. Тогда соответствующий ранг по переменной Y равен . Последующие ранги переменной Y равны: 3, 9, 10, 8, 7, 5, а из них только два ранга меньше . Таким образом, при ранге , число инверсий рангов  равно двум. Аналогичным образом подсчитаны все инверсии, сумма которых равна 13. Теперь по формуле (11.1) . Оценим значимость . Вычислим по формуле (11.2) значение статистики . Так как , то ранговый коэффициент корреляции Кендалла не значим на 5%-ном уровне.

Замечания

  1.  Ранговые коэффициенты корреляции  и  могут быть использованы и для оценки тесноты связи между обычными количественными переменными, измеряемыми в интервальных шкалах.
  2.  Преимущества  и  здесь заключается в том, что нахождение этих коэффициентов не требует нормального распределения переменных, линейной связи между ними (хотя и предполагает монотонность функции регрессии, отражающей эту связь).
  3.  Однако необходимо учитывать, что при переходе от первоначальных значений переменных к их рангам происходит определенная потеря информации.

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Корреляционный анализ позволяет установить степень взаимосвязи двух и более случайных величин. Однако наряду с этим желательно иметь модель этой связи, которая дала бы возможность предсказать значения одной случайной величины по конкретным значениям другой. Например, корреляционный анализ данных (смотри пример в предыдущей лекции) установил значимую линейную связь между ростом и массой студентов.

Логичен следующий шаг: конкретизировать эту связь так, чтобы по данному росту можно было бы предсказать массу студента. Методы решения подобных задач носят название "регрессионный анализ".

Рассмотрим простой случай двух случайных величин (коррелированных). В этой задаче случайная величина рост студента, а масса студента. Линейная связь между двумя случайными величинами означает, что прогноз значения величины по данному значению имеет вид:

.    (11.3)

Здесь и отрезок оси ординат, отсекаемый прямой и её наклон соответственно.

Если исследуемые данные связаны идеальной линейной зависимостью , то предсказанное значение будет в точности соответствовать наблюденному значению при любом . Однако на практике идеальная линейная зависимость между данными, обычно, отсутствует. Случайные внешние воздействия приводят к разбросу данных, и, кроме того, возможны искажения за счет присутствия нелинейных эффектов.

Т. о. не обязательно совпадает с наблюденным значением , соответствующим данному значению , однако оно будет равно среднему значению всех таких наблюденных значений.

Общепринята такая процедура определения коэффициентов и , при которой минимизируется сумма квадратов отклонений наблюденных значений от предсказанных значений . Эта процедура называется методом наименьших квадратов (МНК).

Оценим отклонение наблюденных значений от предсказанных:

.     (11.4)

Тогда сумма квадратов отклонений равна:

.    (11.5)

Следовательно, лучшее согласие в смысле наименьших квадратов обеспечивают следующие условия:

.     (11.6)

На практике мы имеем ограниченную выборку из пар наблюденных значений и . Это значит, что уравнение (11.6) даст лишь оценки и , которые обозначим и соответственно. Подставляя (11.5) в уравнение (11.6) и решив его относительно оценок величин и , получим:

;  

.     (11.7)

 

 (11.8)

Теперь эти оценки можно использовать для построения модели, позволяющей предсказывать значения по данному значению :

.  (11.9)

Уравнение (11.9) называется прямой линейной регрессии  на . Поменяем местами зависимую и независимую переменные в уравнениях (11.7) и (11.8). Тогда получим прямую регрессии на :

;      

  (11.10)

Сравнивая (11.7, 11.8) и (11.10) видим, что наклоны прямых регрессии на  и  на связаны с выборочным коэффициентом корреляции соотношением:

.     (11.11)

Таким образом, по выборке ограниченного объема мы построили эмпирическое уравнение регрессии (11.9, 11.10) и получили оценки неизвестных параметров. Называемые эмпирическими коэффициентами регрессии. Следовательно, в конкретном случае

,      (11.12)

где отклонение (остаток) оценка теоретического случайного отклонения .

Проведенные рассуждения и формулы (11.4 – 11.10) позволяют сделать ряд выводов:

  1.  Оценки МНК являются функциями от выборки, что позволяет их легко рассчитывать.
  2.  Оценки МНК являются точечными оценками теоретических коэффициентов регрессии.
  3.  Согласно (11.9) и (11.10) эмпирическая прямая регрессии обязательно проходит через точку .
  4.  Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений , а также среднее значение отклонения  равны нулю.

Действительно, из (11.7)

.

  1.  Случайные отклонения  не коррелированны с наблюдаемыми значениями  зависимой переменной .

Показано, что ковариация между  и  равна нулю:

.


 

А также другие работы, которые могут Вас заинтересовать

46718. Понятие экологического права как самостоятельной отрасли российского права 27.08 KB
  Кодекс Российской Федерации об административных правонарушениях содержит главу 8 административные правонарушения в области охраны окружающей природной среды и природопользования. Экологическое право это отрасль права представляющая собой совокупность норм регулирующих общественные отношения в области рационального использования природных ресурсов и охраны окружающей среды. Предмет и метод ЭП Предмет ЭП составляют общественные отношения возникающие при осуществлении хозяйственной и иной деятельности связанной с воздействием на...
46719. Международная миграция. Виды и роль международной трудовой миграции. Миграционная политика 28.71 KB
  Миграционная политика Миграция населения это добровольное перемещение переселение жителей в пределах страны из одного региона в другой регион внутренняя миграция или же переселение из одного государства в другую страну международная миграция. Международная миграция рабочей силы представляет собой процесс перемещения трудовых ресурсов из одной страны в другую с целью трудоустройства на более выгодных условиях чем в стране происхождения. Под эмиграцией понимается выезд из страны на постоянное место жительства под иммиграцией ...
46723. История развития рекламы в России 27.54 KB
  Формы рекламы такие как этикетка. Золотой век фото рекламы в Р. относят новый вид фоторекламы это брошюры буклеты каталоги с использованием фотоснимков.
46724. Организационные структуры предприятий 27.73 KB
  Большую часть организационных структур механического бюрократического типа можно разделить на две категории: функциональные и дивизиональные структуры см. Этот вид структуры результат департаментации разделения управления на элементы отделы каждый из которых имеет свою определенную задачу в управлении то есть выполняет определенную функцию. Выделяют 4 принципа деления структуры предприятия: 1 функциональный исходя из функций образуют финансовое подразделение производственные подразделения отдел маркетинга и т.
46726. Литература 18 века 28 KB
  С последовательностью и разносторонностью ученого Радищев рассмотрел и подверг уничтожающей критике в Путешествии всю самодержавнокрепостническую общественную систему несущую народу горе. С присуще ему аналитической глубиной Радищев осветил связь таких явлений как падение нравственности народа и разврат верхов нижние заражаются от верхних а от них язва разврата достает и до деревень как взаимная зависимость самодержавия и церкви. Наблюдая вакханалию угнетения крестьянства видя моральную деградацию верхов Радищев находил...