10974

Линейный корреляционный анализ. Коэффициент ранговой корреляции спирмена

Лекция

Математика и математический анализ

Линейный корреляционный анализ ПРОДОЛЖЕНИЕ Пример 1.Коэффициент ранговой корреляции спирмена По двум дисциплинам А и В тестировались 10 студентов. На основе набранных баллов вычислены соответствующие ранги. Необходимо вычислить ранговый коэффициент Спирмена и пров...

Русский

2013-04-03

79.27 KB

73 чел.

Линейный корреляционный анализ (ПРОДОЛЖЕНИЕ)

Пример 1. Коэффициент ранговой корреляции спирмена

По двум дисциплинам А и В тестировались 10 студентов. На основе набранных баллов вычислены соответствующие ранги. Необходимо вычислить ранговый коэффициент Спирмена и проверить его значимость на уровне .

Решение.  Вычисленные ранги, разности рангов и их квадраты представим в виде таблицы:

Ранги по дисциплинам

Студент, i

Всего

1

2

3

4

5

6

7

8

9

10

А

2

4

5

1

7.5

7.5

7.5

7.5

3

10

55

В

2.5

6

4

1

2.5

7

8

9.5

5

9.5

55

-0.5

-2

1

0

5

0.5

-0.5

-2

-2

0.5

-

0.25

4

1

0

25

0.25

0.25

4

4

0.25

39

По формуле (10.11) . Однако эта формула не учитывает наличие связанных рангов.

По дисциплине А имеем одну группу неразличимых рангов с ; по дисциплине В две группы неразличимых рангов по  ранга. Поэтому по формуле (10.13)
. Теперь вычислим модифицированный коэффициент корреляции Спирмена (10.12):

Для проверки значимости  по формуле (10.14) вычислим
. По таблицам распределения Стьюдента найдем
, т.к. , то ранговый коэффициент корреляции значим на 5% -ном уровне. Значит связь между оценками двух дисциплин достаточно тесная.

Коэффициент ранговой корреляции Кендалла вычисляется по формуле:

где  статистика Кендалла.

Для определения  необходимо ранжировать объекты по одной переменной в порядке возрастания рангов  и определить соответствующие им ранги  по другой переменной. Статистика  равна общему числу инверсий (нарушений порядка, когда большее число стоит слева от меньшего) в ранговой последовательности (ранжировке) . При полном совпадении двух ранжировок получим  и ; при полной противоположности можно показать, что
 и . Во всех остальных случаях .

При проверке значимости  исходят из того, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи между переменными (при )  имеет приближенно нормальный закон распределения с математическим ожиданием, равным нулю, и средним квадратическим отклонением . Поэтому  значим на уровне  если значение статистики

больше критического , где .

Пример 2. КОЭФФИЦИЕНТ  РАНГОВОЙ  КОРРЕЛЯЦИИ КЕНДАЛЛА

Проведено исследование 10 важнейших видов оборудования, используемого судоводителями во время вахты. Вычислены ранги по важности оборудования X и по частоте его использования Y. Полученные результаты приведены в таблице. Необходимо вычислить ранговый коэффициент Кендалла и оценить его значение на уровне

Решение. Дополним таблицу рангов числом инверсий в ранжировках по переменной Y для различных рангов по переменной X.

Ранг

Тип оборудования

Всего

А

Б

В

Г

Д

Е

Ж

З

И

К

1

2

3

4

5

6

7

8

9

10

-

1

4

2

6

3

9

10

8

7

5

-

Число инверсий

0

2

0

2

0

3

3

2

1

0

Покажем, как считается число инверсий рангов  при ранге  по переменной X. Тогда соответствующий ранг по переменной Y равен . Последующие ранги переменной Y равны: 3, 9, 10, 8, 7, 5, а из них только два ранга меньше . Таким образом, при ранге , число инверсий рангов  равно двум. Аналогичным образом подсчитаны все инверсии, сумма которых равна 13. Теперь по формуле (11.1) . Оценим значимость . Вычислим по формуле (11.2) значение статистики . Так как , то ранговый коэффициент корреляции Кендалла не значим на 5%-ном уровне.

Замечания

  1.  Ранговые коэффициенты корреляции  и  могут быть использованы и для оценки тесноты связи между обычными количественными переменными, измеряемыми в интервальных шкалах.
  2.  Преимущества  и  здесь заключается в том, что нахождение этих коэффициентов не требует нормального распределения переменных, линейной связи между ними (хотя и предполагает монотонность функции регрессии, отражающей эту связь).
  3.  Однако необходимо учитывать, что при переходе от первоначальных значений переменных к их рангам происходит определенная потеря информации.

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Корреляционный анализ позволяет установить степень взаимосвязи двух и более случайных величин. Однако наряду с этим желательно иметь модель этой связи, которая дала бы возможность предсказать значения одной случайной величины по конкретным значениям другой. Например, корреляционный анализ данных (смотри пример в предыдущей лекции) установил значимую линейную связь между ростом и массой студентов.

Логичен следующий шаг: конкретизировать эту связь так, чтобы по данному росту можно было бы предсказать массу студента. Методы решения подобных задач носят название "регрессионный анализ".

Рассмотрим простой случай двух случайных величин (коррелированных). В этой задаче случайная величина рост студента, а масса студента. Линейная связь между двумя случайными величинами означает, что прогноз значения величины по данному значению имеет вид:

.    (11.3)

Здесь и отрезок оси ординат, отсекаемый прямой и её наклон соответственно.

Если исследуемые данные связаны идеальной линейной зависимостью , то предсказанное значение будет в точности соответствовать наблюденному значению при любом . Однако на практике идеальная линейная зависимость между данными, обычно, отсутствует. Случайные внешние воздействия приводят к разбросу данных, и, кроме того, возможны искажения за счет присутствия нелинейных эффектов.

Т. о. не обязательно совпадает с наблюденным значением , соответствующим данному значению , однако оно будет равно среднему значению всех таких наблюденных значений.

Общепринята такая процедура определения коэффициентов и , при которой минимизируется сумма квадратов отклонений наблюденных значений от предсказанных значений . Эта процедура называется методом наименьших квадратов (МНК).

Оценим отклонение наблюденных значений от предсказанных:

.     (11.4)

Тогда сумма квадратов отклонений равна:

.    (11.5)

Следовательно, лучшее согласие в смысле наименьших квадратов обеспечивают следующие условия:

.     (11.6)

На практике мы имеем ограниченную выборку из пар наблюденных значений и . Это значит, что уравнение (11.6) даст лишь оценки и , которые обозначим и соответственно. Подставляя (11.5) в уравнение (11.6) и решив его относительно оценок величин и , получим:

;  

.     (11.7)

 

 (11.8)

Теперь эти оценки можно использовать для построения модели, позволяющей предсказывать значения по данному значению :

.  (11.9)

Уравнение (11.9) называется прямой линейной регрессии  на . Поменяем местами зависимую и независимую переменные в уравнениях (11.7) и (11.8). Тогда получим прямую регрессии на :

;      

  (11.10)

Сравнивая (11.7, 11.8) и (11.10) видим, что наклоны прямых регрессии на  и  на связаны с выборочным коэффициентом корреляции соотношением:

.     (11.11)

Таким образом, по выборке ограниченного объема мы построили эмпирическое уравнение регрессии (11.9, 11.10) и получили оценки неизвестных параметров. Называемые эмпирическими коэффициентами регрессии. Следовательно, в конкретном случае

,      (11.12)

где отклонение (остаток) оценка теоретического случайного отклонения .

Проведенные рассуждения и формулы (11.4 – 11.10) позволяют сделать ряд выводов:

  1.  Оценки МНК являются функциями от выборки, что позволяет их легко рассчитывать.
  2.  Оценки МНК являются точечными оценками теоретических коэффициентов регрессии.
  3.  Согласно (11.9) и (11.10) эмпирическая прямая регрессии обязательно проходит через точку .
  4.  Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений , а также среднее значение отклонения  равны нулю.

Действительно, из (11.7)

.

  1.  Случайные отклонения  не коррелированны с наблюдаемыми значениями  зависимой переменной .

Показано, что ковариация между  и  равна нулю:

.


 

А также другие работы, которые могут Вас заинтересовать

22125. Видообразование. Понятие о видообразовании. Пути видообразования. Принцип основателя 105 KB
  Пути видообразования. Принцип основателя Теория аллопатрического видообразования Теория симпатрического видообразования Темпы видообразования Дополнительная литература: Понятие о видообразовании. Пути видообразования. Существуют три основных пути видообразования: филетическое гибридогенное и дивергентное.
22126. Соотношение онто- и филогенеза 99.5 KB
  Особенности и продолжительность онтогенеза в разных группах организмов Соотношение между онто и филогенезом Основные направления эволюции онтогенеза Общие представления о филогенезе и онтогенезе. Особенности и продолжительность онтогенеза в разных группах организмов Филогенез phyle племя это историческое развитие как отдельных видов и систематических групп организмов так и органического мира в целом. Преобразование одноклеточного зародыша в многоклеточный организм развитие этих составных частей функционирование рост...
22127. Эволюция органов и функций 82 KB
  Количество часов: 2 Эволюция органов и функций Принципы филогенетического преобразования органов и функций. Взаимосвязь морфофизиологических преобразований органов и систем в филогенезе. Принцип компенсации функций Принципы филогенетического преобразования органов и функций. Филогенетические изменения органов весьма разнообразны.
22128. Происхождение и развитие жизни на Земле 191 KB
  Количество часов: 6 Происхождение и развитие жизни на Земле Жизнь как особая форма движения материи. Гипотезы происхождения жизни Краткие сведения о геохронологии Возникновение жизни. Но не преувеличивают ли загадочности жизни. Второе перенос жизни через мировые пространства довольно трудно допустить.
22129. ВВЕДЕНИЕ В ТЕОРИЮ ЭВОЛЮЦИИ 92 KB
  Количество часов: 2 В биологии все наполняется смыслом лишь тогда когда истолковывается с эволюционной точки зрения. Значение эволюционной теории Основные доказательства эволюции. Значение эволюционной теории Происхождение жизни на Земле одна из центральных проблем современного естествознания и исходная точка любой религии. Целью эволюционной теории является выявление закономерностей развития органического мира объектом служат организмы в процессе их исторического развития к методам изучения относятся палеонтологический...
22130. Экологические основы эволюции 104.5 KB
  Понятие биогеоценоза очень важно в теории эволюции поскольку в них существуют и эволюционируют популяции. Некоторые виды состоят из огромного числа популяций другие из немногих или даже из одной популяции. Характеристики популяции оказывают влияние на действие эволюционных факторов. По пространственному распределению выделяют три основных типа популяций: 1 большие непрерывные популяции популяции злаков растущих на равнинах и покрывающих площади шириной в десятки или сотни километров; 2 мелкие изолированные колониальные популяции...
22131. Осадка. Распределение накопленной деформации (εi) по объему осаженной заготовки 182 KB
  Расчет силы деформирования при осадке и построение графика технологических нагрузок. Мощность и работа пластической деформации при продольной осадке цилиндра. Работа деформирования при продольной осадке.Схема осадки:1 нижняя плита; 2 верхняя подвижная плита; 3 цилиндрическая заготовка при продольной осадке; 4 цилиндрическая заготовка при поперечной осадке.
22132. Метод баланса работ 36 KB
  В основу метода положено следующее положение: при пластической деформации работа внешних сил на соответствующих им перемещениях равна работе внутренних сил работе пластической деформации. Работа пластической деформации 2 Если упрочнение отсутствует то Чаще принимают равным выбранному по АВ работа внешних сил: активной силы силы деформирования; сил трения. Работа сил трения берется со знаком минус. 3 где X Y Z проекции силы действующей по участку поверхности dF на оси координат а UX UY UZ ...
22133. Феноменологическая теория разрушения металлов при холодной пластической деформации 98 KB
  Феноменологическая теория базируется на сложившихся в настоящее время физических представлениях о закономерностях разрушения металла при пластической деформации. Различными экспериментальными методами было показано что величина пластического разрыхления возрастает пропорционально степени деформации сдвига. Авторами данной теории была выдвинута следующая гипотеза: 1 где степень разрыхления частицы накопленная частицей деформация сдвига ab коэффициенты...