10974

Линейный корреляционный анализ. Коэффициент ранговой корреляции спирмена

Лекция

Математика и математический анализ

Линейный корреляционный анализ ПРОДОЛЖЕНИЕ Пример 1.Коэффициент ранговой корреляции спирмена По двум дисциплинам А и В тестировались 10 студентов. На основе набранных баллов вычислены соответствующие ранги. Необходимо вычислить ранговый коэффициент Спирмена и пров...

Русский

2013-04-03

79.27 KB

74 чел.

Линейный корреляционный анализ (ПРОДОЛЖЕНИЕ)

Пример 1. Коэффициент ранговой корреляции спирмена

По двум дисциплинам А и В тестировались 10 студентов. На основе набранных баллов вычислены соответствующие ранги. Необходимо вычислить ранговый коэффициент Спирмена и проверить его значимость на уровне .

Решение.  Вычисленные ранги, разности рангов и их квадраты представим в виде таблицы:

Ранги по дисциплинам

Студент, i

Всего

1

2

3

4

5

6

7

8

9

10

А

2

4

5

1

7.5

7.5

7.5

7.5

3

10

55

В

2.5

6

4

1

2.5

7

8

9.5

5

9.5

55

-0.5

-2

1

0

5

0.5

-0.5

-2

-2

0.5

-

0.25

4

1

0

25

0.25

0.25

4

4

0.25

39

По формуле (10.11) . Однако эта формула не учитывает наличие связанных рангов.

По дисциплине А имеем одну группу неразличимых рангов с ; по дисциплине В две группы неразличимых рангов по  ранга. Поэтому по формуле (10.13)
. Теперь вычислим модифицированный коэффициент корреляции Спирмена (10.12):

Для проверки значимости  по формуле (10.14) вычислим
. По таблицам распределения Стьюдента найдем
, т.к. , то ранговый коэффициент корреляции значим на 5% -ном уровне. Значит связь между оценками двух дисциплин достаточно тесная.

Коэффициент ранговой корреляции Кендалла вычисляется по формуле:

где  статистика Кендалла.

Для определения  необходимо ранжировать объекты по одной переменной в порядке возрастания рангов  и определить соответствующие им ранги  по другой переменной. Статистика  равна общему числу инверсий (нарушений порядка, когда большее число стоит слева от меньшего) в ранговой последовательности (ранжировке) . При полном совпадении двух ранжировок получим  и ; при полной противоположности можно показать, что
 и . Во всех остальных случаях .

При проверке значимости  исходят из того, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи между переменными (при )  имеет приближенно нормальный закон распределения с математическим ожиданием, равным нулю, и средним квадратическим отклонением . Поэтому  значим на уровне  если значение статистики

больше критического , где .

Пример 2. КОЭФФИЦИЕНТ  РАНГОВОЙ  КОРРЕЛЯЦИИ КЕНДАЛЛА

Проведено исследование 10 важнейших видов оборудования, используемого судоводителями во время вахты. Вычислены ранги по важности оборудования X и по частоте его использования Y. Полученные результаты приведены в таблице. Необходимо вычислить ранговый коэффициент Кендалла и оценить его значение на уровне

Решение. Дополним таблицу рангов числом инверсий в ранжировках по переменной Y для различных рангов по переменной X.

Ранг

Тип оборудования

Всего

А

Б

В

Г

Д

Е

Ж

З

И

К

1

2

3

4

5

6

7

8

9

10

-

1

4

2

6

3

9

10

8

7

5

-

Число инверсий

0

2

0

2

0

3

3

2

1

0

Покажем, как считается число инверсий рангов  при ранге  по переменной X. Тогда соответствующий ранг по переменной Y равен . Последующие ранги переменной Y равны: 3, 9, 10, 8, 7, 5, а из них только два ранга меньше . Таким образом, при ранге , число инверсий рангов  равно двум. Аналогичным образом подсчитаны все инверсии, сумма которых равна 13. Теперь по формуле (11.1) . Оценим значимость . Вычислим по формуле (11.2) значение статистики . Так как , то ранговый коэффициент корреляции Кендалла не значим на 5%-ном уровне.

Замечания

  1.  Ранговые коэффициенты корреляции  и  могут быть использованы и для оценки тесноты связи между обычными количественными переменными, измеряемыми в интервальных шкалах.
  2.  Преимущества  и  здесь заключается в том, что нахождение этих коэффициентов не требует нормального распределения переменных, линейной связи между ними (хотя и предполагает монотонность функции регрессии, отражающей эту связь).
  3.  Однако необходимо учитывать, что при переходе от первоначальных значений переменных к их рангам происходит определенная потеря информации.

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Корреляционный анализ позволяет установить степень взаимосвязи двух и более случайных величин. Однако наряду с этим желательно иметь модель этой связи, которая дала бы возможность предсказать значения одной случайной величины по конкретным значениям другой. Например, корреляционный анализ данных (смотри пример в предыдущей лекции) установил значимую линейную связь между ростом и массой студентов.

Логичен следующий шаг: конкретизировать эту связь так, чтобы по данному росту можно было бы предсказать массу студента. Методы решения подобных задач носят название "регрессионный анализ".

Рассмотрим простой случай двух случайных величин (коррелированных). В этой задаче случайная величина рост студента, а масса студента. Линейная связь между двумя случайными величинами означает, что прогноз значения величины по данному значению имеет вид:

.    (11.3)

Здесь и отрезок оси ординат, отсекаемый прямой и её наклон соответственно.

Если исследуемые данные связаны идеальной линейной зависимостью , то предсказанное значение будет в точности соответствовать наблюденному значению при любом . Однако на практике идеальная линейная зависимость между данными, обычно, отсутствует. Случайные внешние воздействия приводят к разбросу данных, и, кроме того, возможны искажения за счет присутствия нелинейных эффектов.

Т. о. не обязательно совпадает с наблюденным значением , соответствующим данному значению , однако оно будет равно среднему значению всех таких наблюденных значений.

Общепринята такая процедура определения коэффициентов и , при которой минимизируется сумма квадратов отклонений наблюденных значений от предсказанных значений . Эта процедура называется методом наименьших квадратов (МНК).

Оценим отклонение наблюденных значений от предсказанных:

.     (11.4)

Тогда сумма квадратов отклонений равна:

.    (11.5)

Следовательно, лучшее согласие в смысле наименьших квадратов обеспечивают следующие условия:

.     (11.6)

На практике мы имеем ограниченную выборку из пар наблюденных значений и . Это значит, что уравнение (11.6) даст лишь оценки и , которые обозначим и соответственно. Подставляя (11.5) в уравнение (11.6) и решив его относительно оценок величин и , получим:

;  

.     (11.7)

 

 (11.8)

Теперь эти оценки можно использовать для построения модели, позволяющей предсказывать значения по данному значению :

.  (11.9)

Уравнение (11.9) называется прямой линейной регрессии  на . Поменяем местами зависимую и независимую переменные в уравнениях (11.7) и (11.8). Тогда получим прямую регрессии на :

;      

  (11.10)

Сравнивая (11.7, 11.8) и (11.10) видим, что наклоны прямых регрессии на  и  на связаны с выборочным коэффициентом корреляции соотношением:

.     (11.11)

Таким образом, по выборке ограниченного объема мы построили эмпирическое уравнение регрессии (11.9, 11.10) и получили оценки неизвестных параметров. Называемые эмпирическими коэффициентами регрессии. Следовательно, в конкретном случае

,      (11.12)

где отклонение (остаток) оценка теоретического случайного отклонения .

Проведенные рассуждения и формулы (11.4 – 11.10) позволяют сделать ряд выводов:

  1.  Оценки МНК являются функциями от выборки, что позволяет их легко рассчитывать.
  2.  Оценки МНК являются точечными оценками теоретических коэффициентов регрессии.
  3.  Согласно (11.9) и (11.10) эмпирическая прямая регрессии обязательно проходит через точку .
  4.  Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений , а также среднее значение отклонения  равны нулю.

Действительно, из (11.7)

.

  1.  Случайные отклонения  не коррелированны с наблюдаемыми значениями  зависимой переменной .

Показано, что ковариация между  и  равна нулю:

.


 

А также другие работы, которые могут Вас заинтересовать

27898. Основные виды нормативов системы ТО и Р. Корректирование нормативов 37.5 KB
  Регулирование естественных монополий на транспорте Любая естественная монополия на транспорте заинтересована в увеличении цен на предлагаемые услуги формируя тарифы по затратному принципу. Новым качественным подходом к системе управления в области транспорта является создание новой системы государственного регулирования в сфере естественных монополий на транспорте. Для реализации этого нового подхода к управлению и регулированию была создана Федеральная служба России по регулированию естественных монополий на транспорте. К деятельности...
27899. Организация поста по ТО газобаллонной аппаратуры 83.5 KB
  втулки из цветных Ме отверстия в проушинах рулевых сошек рычагов поворотных цапф и тд. Для обжатия втулок из цветх Ме используют приспособление с конусной матрицей в холодном состоянии Проушину сошки нагревют до г=900Т. 3 Причины преждевременного износа и разрушения а м шин.
27900. Диагностирование тормозных качеств а/м. Параметры. Оборудование 47 KB
  К первой группе относятся: тормозной путь и замедление автомобиля тормозные силы и их разность на колесах каждой оси ко второй сила нажатия на педаль скорость нарастания и спада тормозных сил время срабатывания тормозных механизмов хода штоков тормозных камер свободный ход педали производительность компрессора и некоторые другие. Перечисленные диагностические параметры измеряют: путем ходовых испытаний на дороге; в процессе эксплуатации встроенными средствами диагностирования; в стационарных условиях при помощи тормозных...
27901. Диагностирование а/м по мощностным и экономическим показателям. Устройство стендов 50 KB
  Исследования показывают что до 30 автомобилей АТП эксплуатируют со значительным недоиспользованием мощности и перерасходом топлива. После диагностирования и устранения обнаруженных неисправйостей средняя максимальная сила тяги увеличилась а средний контрольный расход топлива уменьшился в среднем на 13 кроме того значительно снизилось рассеивание этих показателей. Восстановление колесной мощности автомобиля повышает его среднюю скорость движения а следовательно и производительность работы а м а также снижает расход топлива. На этих...
27902. Пластины АКБ 34 KB
  Сильно сульфатированные пластины бракуют слабо сульфотированные восстанавливают без разборки без разборки батарей продолжительным зарядом током малой силы не более 005 от емкости при низкой плотности электролита не более 111 2 Варианты ремонта ЦПГ двигателя поминальный размер ремонтный размер сухая и мокрая гильза Различают мокрые и сухие гильзы. Внешняя поверхность мокрых гильз омывается охлаждающей жидкостью а сухие гильзы непосредственно с охлаждающей жидкостью не соприкасаются и избыточное тепло отводится через...
27903. ОПРЕДЕЛЕНИЕ ЧИСЛО ПОСТОВ 47.5 KB
  Xео и то: такт ритм Хто2 Д = такт ритм ню ню коэф исп времени рабочего поста 2 Основные конструкционные стали применяемые в автомобилестроении и авторемонтном производстве и их характеристики. Конструкционные стали предназначены для изготовления деталей машин машиностроительные стали. К этой группе относятся углеродистые и легированные стали с содержанием не более 0708 углерода. Низкоуглеродистые стали до 03 углерода пластичны хорошо свариваются и деформируются.
27904. Организация заправки а/м сжиженным газом (стационарные, полустационарные, передвижные АГНС) 70.5 KB
  Оборудование для восстановления протектора Для горячей накатки протектора Для холодной накатки протектора 4 Характеристика основных разделов текущего плана АТП План перевозок грузов пассажиров Разработка плана установление объемов и структуры транспортных услуг которые намечается предоставить потребителю. Основой составления плана является анализ показателей использования подвижного состава за предшествующий период. Разработка плана ведется по двум направлениям: Расчет показателей на основе известных объемов и структуры перевозок...
27905. Особенности пуска двигателя на газе и переключения с одного топлива на другое 59.5 KB
  Уровень механизации. Одним из основных показателей использования средств механизации является уровень механизации. Уровень механизации определяется долей трудовых затрат на ТО и Р а м выполняемых с использованием средств механизации в общих трудозатрат выраженных в . При определении уровня механизации все работы делятся на: механизированные; механизированоручные; работы выполняемые в ручную.
27906. Особенности хранения газобаллонных а/м на стоянках закрытого типа 40.5 KB
  В места хранения автомобилей в помещении и на посты линии ТО и ТР автомобили должны поступать после проверки герметичности газовой системы питания с выработанным газом при закрытых расходных вентилях. Допускается проектировать помещения для хранения газобаллонных автомобилей без естественного освещения. В одноэтажном здании помещения для газобаллонных автомобилей должны быть отделены от помещений для карбюраторных и дизельных автомобилей несгораемыми стенками и перекрытиями с пределом огнестойкости не менее 15 ч. В помещениях для...