10973

Линейный корреляционный анализ

Лекция

Математика и математический анализ

Линейный корреляционный анализ Исключительный интерес для широкого класса задач представляет обнаружение взаимных связей между двумя и более случайными величинами. Например существует ли связь между курением и ожидаемой продолжительностью жизни между умственными

Русский

2013-04-03

175.39 KB

8 чел.

Линейный корреляционный анализ

Исключительный интерес для широкого класса задач представляет обнаружение взаимных связей между двумя и более случайными величинами. Например, существует ли связь между курением и ожидаемой продолжительностью жизни, между умственными способностями и успеваемостью и т.п. В инженерных исследованиях такие задачи, обычно, сводятся к установлению связи между некоторым предполагаемым возбуждением и наблюдаемым откликом изучаемой физической системы.

Существование таких взаимосвязей и их относительную силу можно измерить коэффициентом корреляции.

Основная задача корреляционного анализа состоит в выявлении связи между случайными переменными путем точечной и интервальной оценки различных (парных, множественных, частных) коэффициентов корреляции.

Коэффициент корреляции определяется через корреляционный момент (ковариацию) по формуле:

.   (10.1)

Величина характеризует тесноту связи между случайными переменными и в генеральной совокупности. Из свойств коэффициента корреляции известно, что является показателем тесноты связи лишь в случае линейной зависимости между двумя переменными. Для линейно независимых случайных величин . Но даже и для зависимых СВ может быть равен 0. В этом случае СВ и называют некоррелированными.

Пусть получена выборка пар СВ и . Тогда коэффициент корреляции можно оценить по выборочным данным следующим образом:

.     (10.2)

Вспомним несмещённые, состоятельные и эффективные оценки:

   (10.3)

;  (10.4)

;  (10.5)

. (10.6)

Тогда эмпирический коэффициент корреляции определяется по формуле:

.  (10.7)

Как и выборочный коэффициент корреляции принимает значения в интервале , причем одно из граничных значений принимается только при наличии идеальной линейной связи между наблюдениями. Нелинейная связь и (или) разброс данных, вызванных ошибками измерений или же неполной коррелированностью СВ, приводит к уменьшению абсолютного значения (рис. 10.1).

Рис. 10.1. Различные степени корреляции: a) – точная линейная корреляция;
b) – умеренная линейная корреляция; c) – нелинейная корреляция;
d) – отсутствие корреляции.

Эмпирический коэффициент корреляции дает состоятельную, но смещённую оценку. Смещение равно . Однако при величина смещения составляет менее 1%. Для оценки точности выборочного значения удобно использовать некоторую функцию от :

.     (10.8)

Показано, что распределение случайной величины можно аппроксимировать нормальным распределением со средним значением и дисперсией:

.   (10.9)

Даже для независимых случайных величин эмпирический коэффициент корреляции может быть отличен от "0" вследствие случайного рассеивания результатов измерения. Т.е. из-за выборочной изменчивости необходимо проверять, свидетельствует ли не нулевые значения выборочного коэффициента корреляции о существовании статистически значимой корреляции между исследуемыми случайными величинами и . Сделать это можно, проверив гипотезу , причем отклонение гипотезы будет свидетельствовать о принятии альтернативной гипотезы значимости корреляции.

Из формулы (10.9) следует, что при выборочное распределение будет нормальным со средним и дисперсией . Поэтому область принятия гипотезы о нулевой корреляции будет иметь вид:

.   (10.10)

Здесь уровень значимости, стандартное нормальное распределение .

Пример  ЛИНЕЙНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Имеются данные о росте и массе , выбранных наугад студентов. Есть ли основание считать, что рост и масса студентов коррелированны при уровне значимости ? Пусть рост, а
масса студента. Все данные приведены в таблице:

1

2

3

4

5

6

7

8

9

10

11

12

13

178

188

178

165

175

185

183

175

183

193

188

183

173

63

95

67

66

83

75

70

77

79

70

84

84

75

14

15

16

17

18

19

20

21

22

23

24

25

178

180

173

185

165

185

188

163

183

183

170

185

100

84

82

77

61

79

82

68

77

75

66

77

По данным таблицы получим: , по формуле (10.8) получим , а . По таблицам стандартного нормального распределения получим . Таким образом, гипотеза должна быть отвергнута, следовательно, имеются основания считать, что между ростом и массой студентов существует значимая корреляция.

Ранговая корреляция

До сих пор нами рассматривались и анализировались зависимости между количественными переменными, измеренными в так называемых количественных шкалах. Эти шкалы с непрерывным множеством значений позволяют выявить на сколько (или во сколько раз) проявление признака у одного объекта больше (меньше), чем у другого (например, производительность труда, заработная плата, накладные расходы и т.п.).

Наряду с этим на практике часто возникает необходимость изучения связи между ординальными (порядковыми) переменными, измеренными в так называемой порядковой шкале. В этой шкале можно установить лишь порядок, в котором объекты выстраиваются по степени проявления признака (например, уровень благоустроенности жилья, класс гостиницы, тестовые баллы, экзаменационные оценки и т.п.). Если, скажем, по некоторой дисциплине два студента имеют оценки "отлично" и "удовлетворительно", то можно утверждать, уровень подготовки по этой дисциплине первого студенты выше (больше), чем второго, но нельзя сказать , на сколько или во сколько раз больше.

Оказывается, что в таких случаях проблема оценки тесноты связи разрешима, если упорядочить, или ранжировать, объекты анализа по степени выраженности измеряемых признаков. При этом каждому объекту присваивается определенный номер, называемый рангом. Например, объекту с наименьшим проявлением (значением) присваивается ранг 1, следующему за ним – ранг 2 и т.д. Объекты можно располагать и в порядке убывания значений (проявлений) признака. Если объекты ранжированы по двум признакам, то появляется возможность оценить тесноту связи между признаками, основываясь на рангах, т.е. ранговые корреляции.

Коэффициент ранговой корреляции Спирмена находится по формуле:

где  и  - ранги i-го объекта по переменным  и   – число пар наблюдений.

Если ранги всех объектов равны () то , т.е. при полной прямой связи коэффициент ранговой корреляции Спирмена равен единице.

При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке, можно показать, что
и по формуле (10.11)
. Во всех остальных случаях .

При ранжировании данных иногда сталкиваются со случаями, когда невозможно найти существенные различия между объектами по величине проявления рассматриваемого признака. Такие объекты, как говорят, оказываются связанными. Связанным объектам приписывают одинаковые средние ранги, такие, чтобы сумма всех рангов осталась такой же, как и при отсутствии связанных рангов. Например, если у четырех объектов рассматриваемые признаки оказались одинаковыми и невозможно определить, какие из четырех рангов (4, 5, 6, 7)приписать этим объектам, то каждому объекту приписывается средний ранг, равный (4+5+6+7)/4=5.5. При наличии связанных рангов вычисляется модифицированный коэффициент корреляции Спирмена:

Здесь

число групп неразличимых рангов у переменных  и ;

 число рангов, входящих в группу неразличимых рангов переменных  и .

При проверке значимости p воспользуемся тем, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи между переменными при  статистика


имеет  распределение Стьюдента с  степенями свободы. Поэтому  значим на уровне , если фактически наблюдаемое значение  будет больше критического (по абсолютной величине), т.е. , где  табличное значение  критерия Стьюдента, определенное на уровне значимости  при числе степеней свободы .


 

А также другие работы, которые могут Вас заинтересовать

38924. Измерение параметров оптического изображения 202.44 KB
  Таким образом в процессе вывода зарядов из ФЭП осуществляется второй этап преобразования: где – емкость выходной структуры ТВД.9 можно записать в виде Здесь в явной форме представлено соотношение между амплитудой сигнала от объекта и освещенностью создаваемой объектом на входе ФЭП. Амплитуда видеосигнала ; ток сигнала на выходе ФЭП; нагрузочное сопротивление коэффициент усиления видеоусилителя. Для описания свойств ФЭП как преобразователя световой энергии в энергию электрического...
38925. Основные алгоритмы телевизионных измерений 167 KB
  Алгоритмы предназначены для измерения геометрических энергетических и цветовых параметров протяженного объекта находящегося в поле зрения ТВД. Употребляемый по отношению к алгоритмам термин внутрикадровые означает чтo измерение параметра объекта выполняется на основе информации сосредоточенной в одном телевизионном кадре. Результат однократного измерения характеризует состояние объекта в момент съемки текущего кадра. Пересчет цифрового параметра объекта в его значение выраженное в соответствующих единицах измерения производится по...
38926. Межкадровая фильтрация и измерение динамических параметров 56 KB
  Кроме того изменения параметров динамического объекта за время Тк невелики опять же не всегда а в подавляющем большинстве случаев. применение к последним межкадрового усредения приведёт скорее всего к нежелательным последствиям например размазыванию изображения движущегося объекта. Но обычно перед ТВсистемами стоит задача измерения динамических параметров в частности непрерывный контроль за текущим состоянием объекта которые не могут быть определены однократным измерением. Так например скорость объекта где – положения...
38927. Представление и преобразование цифровых сигналов в телевизионных измерительных системах 31.5 KB
  Оцифровка представление объекта изображения или сигнала в дискретном наборе цифровых замеров. Для решения задач машинной графики обработки и распознавания изображений используются следующие этапы преобразования изображения: Предварительная обработка – операции восстановления фильтрации улучшения визуального восприятия изображения. Формирование графического препарата – обработка с целью вычленения характерных особенностей изображениясегментация выделение контуров скелетизация Анализ – выявление характерных особенностей...
38928. Простой пороговый метод нелинейной фильтрации импульсных помех 51.5 KB
  Сигнал от каждого из элементов массива анализируемого изображения сравнивается со средним значением сигнала для небольшой группы mxn в окрестностях данного элемента Здесь m и n – нечётные числа. Анизотропная фильтрация Анизотропная фильтрация относится к категории линейных процедур цифровой обработки массива [Eij ]. Он заключается выполнении операции свёртки исходного массива изображения формата M×N со скользящим сглаживающим массивом [W] меньшего формата m×n ядро свёртки. А поскольку в АТСН работающих в реальном масштабе времени...
38929. Цифровое представление изображения в виде матрицы отсчетов. Преимущество цифрового кодирования видеосигнала 66 KB
  Цифровое представление изображения в виде матрицы отсчетов. Это позволяет пронумеровать отсчеты цифрового видеосигнала в соответствии с позиционным положением элемента изображения в телевизионном растре и nti = ni j где i номер элемента в строке; j номер строки. Фактически номера i j являются цифровыми координатами элемента изображения которые в случае линейных разверток связаны с временными и геометрическими координатами соотношениями где j порядковый номер строки в которой находится элемент изображения; tx интервал...
38930. Линейные цифровые фильтры и их характеристики 47 KB
  Под термином цифровая фильтрация обычно понимают локальную цифровую обработку сигнала скользящим окном или аппертурой. Для каждого положения окна за исключением возможно небольшого числа крайних точек выборки выполняются однотипные действия которые определяют так называемый отклик или выход фильтра. Если действия определяющие отклик фильтра не изменяются в процессе перемещения по выборке сигнала то соответствующий фильтр называется стационарным. Различают линейную и нелинейную цифровую фильтрацию.
38931. Развитие видеозаписи на дисках. Видеопроигрыватели Laser Vision. Структурная схема и принцип работы 265 KB
  Диаметр 30 см; Длительность 30 мин. Диаметр 30 см; Длительность 5 мин; 156 об мин. Диаметр 21 см; Длительность 10 мин цвет; 1500 об мин; 280 канавок мм; четкость 250 линий. Диаметр 30 см; длительность 30 мин; четкость 250 линий.
38932. Цифровая запись видеосигнала. Достоинства по сравнению с аналоговой. Основные принципы цифровой видеозаписи 60 KB
  Цифровая запись видеосигнала пришла на смену аналоговым носителям как более гибкое и удобное средство формирования транспортировки и хранения видеоданных. аналоговый сигнал сглаживается менее подверженным искажениям менее зависимым от аппаратной реализации воспроизведения расширяются возможности обработки сигнала Требования к АЦП: Частота квантования – не менее 135 МГц Число разрядов – не менее 8 Число каналов: Для чернобелого – 1 Для цветного – 3 или 2 Дискретизация: Дискретизация дает некоторые искажения: Стоит...