10974

Линейный корреляционный анализ. Коэффициент ранговой корреляции спирмена

Лекция

Математика и математический анализ

Линейный корреляционный анализ ПРОДОЛЖЕНИЕ Пример 1.Коэффициент ранговой корреляции спирмена По двум дисциплинам А и В тестировались 10 студентов. На основе набранных баллов вычислены соответствующие ранги. Необходимо вычислить ранговый коэффициент Спирмена и пров...

Русский

2013-04-03

79.27 KB

72 чел.

Линейный корреляционный анализ (ПРОДОЛЖЕНИЕ)

Пример 1. Коэффициент ранговой корреляции спирмена

По двум дисциплинам А и В тестировались 10 студентов. На основе набранных баллов вычислены соответствующие ранги. Необходимо вычислить ранговый коэффициент Спирмена и проверить его значимость на уровне .

Решение.  Вычисленные ранги, разности рангов и их квадраты представим в виде таблицы:

Ранги по дисциплинам

Студент, i

Всего

1

2

3

4

5

6

7

8

9

10

А

2

4

5

1

7.5

7.5

7.5

7.5

3

10

55

В

2.5

6

4

1

2.5

7

8

9.5

5

9.5

55

-0.5

-2

1

0

5

0.5

-0.5

-2

-2

0.5

-

0.25

4

1

0

25

0.25

0.25

4

4

0.25

39

По формуле (10.11) . Однако эта формула не учитывает наличие связанных рангов.

По дисциплине А имеем одну группу неразличимых рангов с ; по дисциплине В две группы неразличимых рангов по  ранга. Поэтому по формуле (10.13)
. Теперь вычислим модифицированный коэффициент корреляции Спирмена (10.12):

Для проверки значимости  по формуле (10.14) вычислим
. По таблицам распределения Стьюдента найдем
, т.к. , то ранговый коэффициент корреляции значим на 5% -ном уровне. Значит связь между оценками двух дисциплин достаточно тесная.

Коэффициент ранговой корреляции Кендалла вычисляется по формуле:

где  статистика Кендалла.

Для определения  необходимо ранжировать объекты по одной переменной в порядке возрастания рангов  и определить соответствующие им ранги  по другой переменной. Статистика  равна общему числу инверсий (нарушений порядка, когда большее число стоит слева от меньшего) в ранговой последовательности (ранжировке) . При полном совпадении двух ранжировок получим  и ; при полной противоположности можно показать, что
 и . Во всех остальных случаях .

При проверке значимости  исходят из того, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи между переменными (при )  имеет приближенно нормальный закон распределения с математическим ожиданием, равным нулю, и средним квадратическим отклонением . Поэтому  значим на уровне  если значение статистики

больше критического , где .

Пример 2. КОЭФФИЦИЕНТ  РАНГОВОЙ  КОРРЕЛЯЦИИ КЕНДАЛЛА

Проведено исследование 10 важнейших видов оборудования, используемого судоводителями во время вахты. Вычислены ранги по важности оборудования X и по частоте его использования Y. Полученные результаты приведены в таблице. Необходимо вычислить ранговый коэффициент Кендалла и оценить его значение на уровне

Решение. Дополним таблицу рангов числом инверсий в ранжировках по переменной Y для различных рангов по переменной X.

Ранг

Тип оборудования

Всего

А

Б

В

Г

Д

Е

Ж

З

И

К

1

2

3

4

5

6

7

8

9

10

-

1

4

2

6

3

9

10

8

7

5

-

Число инверсий

0

2

0

2

0

3

3

2

1

0

Покажем, как считается число инверсий рангов  при ранге  по переменной X. Тогда соответствующий ранг по переменной Y равен . Последующие ранги переменной Y равны: 3, 9, 10, 8, 7, 5, а из них только два ранга меньше . Таким образом, при ранге , число инверсий рангов  равно двум. Аналогичным образом подсчитаны все инверсии, сумма которых равна 13. Теперь по формуле (11.1) . Оценим значимость . Вычислим по формуле (11.2) значение статистики . Так как , то ранговый коэффициент корреляции Кендалла не значим на 5%-ном уровне.

Замечания

  1.  Ранговые коэффициенты корреляции  и  могут быть использованы и для оценки тесноты связи между обычными количественными переменными, измеряемыми в интервальных шкалах.
  2.  Преимущества  и  здесь заключается в том, что нахождение этих коэффициентов не требует нормального распределения переменных, линейной связи между ними (хотя и предполагает монотонность функции регрессии, отражающей эту связь).
  3.  Однако необходимо учитывать, что при переходе от первоначальных значений переменных к их рангам происходит определенная потеря информации.

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Корреляционный анализ позволяет установить степень взаимосвязи двух и более случайных величин. Однако наряду с этим желательно иметь модель этой связи, которая дала бы возможность предсказать значения одной случайной величины по конкретным значениям другой. Например, корреляционный анализ данных (смотри пример в предыдущей лекции) установил значимую линейную связь между ростом и массой студентов.

Логичен следующий шаг: конкретизировать эту связь так, чтобы по данному росту можно было бы предсказать массу студента. Методы решения подобных задач носят название "регрессионный анализ".

Рассмотрим простой случай двух случайных величин (коррелированных). В этой задаче случайная величина рост студента, а масса студента. Линейная связь между двумя случайными величинами означает, что прогноз значения величины по данному значению имеет вид:

.    (11.3)

Здесь и отрезок оси ординат, отсекаемый прямой и её наклон соответственно.

Если исследуемые данные связаны идеальной линейной зависимостью , то предсказанное значение будет в точности соответствовать наблюденному значению при любом . Однако на практике идеальная линейная зависимость между данными, обычно, отсутствует. Случайные внешние воздействия приводят к разбросу данных, и, кроме того, возможны искажения за счет присутствия нелинейных эффектов.

Т. о. не обязательно совпадает с наблюденным значением , соответствующим данному значению , однако оно будет равно среднему значению всех таких наблюденных значений.

Общепринята такая процедура определения коэффициентов и , при которой минимизируется сумма квадратов отклонений наблюденных значений от предсказанных значений . Эта процедура называется методом наименьших квадратов (МНК).

Оценим отклонение наблюденных значений от предсказанных:

.     (11.4)

Тогда сумма квадратов отклонений равна:

.    (11.5)

Следовательно, лучшее согласие в смысле наименьших квадратов обеспечивают следующие условия:

.     (11.6)

На практике мы имеем ограниченную выборку из пар наблюденных значений и . Это значит, что уравнение (11.6) даст лишь оценки и , которые обозначим и соответственно. Подставляя (11.5) в уравнение (11.6) и решив его относительно оценок величин и , получим:

;  

.     (11.7)

 

 (11.8)

Теперь эти оценки можно использовать для построения модели, позволяющей предсказывать значения по данному значению :

.  (11.9)

Уравнение (11.9) называется прямой линейной регрессии  на . Поменяем местами зависимую и независимую переменные в уравнениях (11.7) и (11.8). Тогда получим прямую регрессии на :

;      

  (11.10)

Сравнивая (11.7, 11.8) и (11.10) видим, что наклоны прямых регрессии на  и  на связаны с выборочным коэффициентом корреляции соотношением:

.     (11.11)

Таким образом, по выборке ограниченного объема мы построили эмпирическое уравнение регрессии (11.9, 11.10) и получили оценки неизвестных параметров. Называемые эмпирическими коэффициентами регрессии. Следовательно, в конкретном случае

,      (11.12)

где отклонение (остаток) оценка теоретического случайного отклонения .

Проведенные рассуждения и формулы (11.4 – 11.10) позволяют сделать ряд выводов:

  1.  Оценки МНК являются функциями от выборки, что позволяет их легко рассчитывать.
  2.  Оценки МНК являются точечными оценками теоретических коэффициентов регрессии.
  3.  Согласно (11.9) и (11.10) эмпирическая прямая регрессии обязательно проходит через точку .
  4.  Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений , а также среднее значение отклонения  равны нулю.

Действительно, из (11.7)

.

  1.  Случайные отклонения  не коррелированны с наблюдаемыми значениями  зависимой переменной .

Показано, что ковариация между  и  равна нулю:

.


 

А также другие работы, которые могут Вас заинтересовать

32264. Метод опускного колодца при строительстве сооружений водопровода и канализации 60 KB
  Сущность метода состоит в том что первоначально на поверхности земли возводят стены колодца оборудованные ножевой частью а затем внутри его разрабатывают грунт в направлении от центра к периметру стен.Первым этапом сооружения колодца является устройство основания под нож которое гарантирует надежное опирание последнего при возведении стен.По окончании устройства стен приступают к погружению колодца под действием его собственной силы тяжести.
32265. Устройство анкерного крепления котлованов 42 KB
  Грунтовые анкера относятся тоже к ограждению котлованов и применяются взамен распорной системы. Грунтовые анкера компенсируют опрокидывающий момент действующий со стороны грунта на конструкцию. Анкера располагаются за пределами котлована и как правило выходят за пределы участка застройки. Вовторых сами анкера не должны препятствовать дальнейшему городскому строительству в том числе подземному.
32267. Состав и порядок ведения исполнительной документации 143 KB
  Состав и порядок ведения исполнительной документации при осуществлении строительства реконструкции капитальном ремонте объектов капитального строительства разработан в соответствии с Градостроительным кодексом Российской Федерации иными нормативными правовыми актами Российской Федерации и обязательными требованиями технических регламентов норм и правил. В случае отсутствия технических регламентов проводится проверка соответствия выполняемых работ требованиям строительных норм и правил правил безопасности государственных стандартов...
32268. Виды вантовых покрытий 215.5 KB
  Системы с замкнутым контуром поэтому являются более экономичными. ПРЯМОУГОЛЬНЫЕ В ПЛАНЕ СИСТЕМЫ В таких зданиях применяют системы из параллельных вант или вантовых ферм; поверхность оболочки имеет цилиндрическую форму. Перед замоноличиванием швов ванты вновь натягивают гидравлическими домкратами чем создают требуемое предварительное натяжение вантовой системы. Системы могут быть однопролетными или многопролетными.
32269. ОПУСКНЫЕ КОЛОДЦЫ 79.5 KB
  Способ закрепления основных осей опускных колодцев кессонов на местности должен обеспечивать возможность проверки их положения в плане в любой момент времени опускания. Створные знаки и реперы для контроля закрепления основных осей и вертикальных отметок колодцев кессонов надлежит устанавливать за пределами участков с возможными деформациями грунта вызванными опусканием сооружения в местах безопасных в отношении размыва и оползней. Размещение в пределах призмы обрушения временных сооружений и оборудования для строительства опускных...
32270. Строительство одноэтажных промышленных зданий 57 KB
  Так при монтаже одноэтажного здания раздельным методом за первую проходку крана устанавливают все колонны; за вторую проходку подкрановые балки и подстропильные фермы с продольными связями а затем фермы и плиты покрытия; комплексный совмещенный метод. В этом случае кран двигаясь вдоль пролета монтирует все колонны а затем перемещаясь поперек пролета ведет секционный монтаж. Железобетонные колонны как правило монтируют непосредственно с транспортных средств. Предварительно доставленные на строительную площадку легкие колонны...
32271. Монтажные потоки, схемы монтажа и порядок складирования конструкций одноэтажных промышленных зданий легкого типа 104.5 KB
  Монтажные потоки схемы монтажа и порядок складированияконструкций одноэтажных промышленных зданий легкого типа Практикой выработан ряд методов монтажа строительных конструкций промышленных зданий применяемых в зависимости от требуемой последовательности производства работ конструктивной схемы возводимого здания вида монтажного и технологического оборудования сроков и порядка ввода зданий в эксплуатацию очередности поставки сборных конструкций и деталей. Одноэтажные промышленные здания легкого типа монтируют преимущественно ...
32272. Монтажные потоки, схемы монтажа и порядок складирования конструкций одноэтажных промышленных зданий среднего и тяжелого типов 263 KB
  Различают следующие методы монтажа элементов каркаса зданий: раздельный дифференцированный при котором за первую проходку крана устанавливают все колонны; за вторую подкрановые балки и подстропильные фермы с продольными связями а затем фермы и плиты покрытия рис. В последнем случае кран движется вдоль пролета монтируются все колонны а затем перемещается поперек пролета ведется секционный монтаж. Так например при пролете 12 и шаге колонн 6 м движении крана по середине пролета можно с одной стоянки монтировать до 6 колонн или...