10972

Критерий Колмогорова-Смирнова. Проверка гипотезы об однородности выборок

Лекция

Математика и математический анализ

Критерий КолмогороваСмирнова. Проверка гипотезы об однородности выборок Гипотезы об однородности выборок это гипотезы о том что рассматриваемые выборки извлечены из одной и той же генеральной совокупности. Пусть имеются две независимые выборки произведенные из ...

Русский

2013-04-03

122.84 KB

153 чел.

Критерий Колмогорова-Смирнова. Проверка гипотезы об однородности выборок

Гипотезы об однородности выборок – это гипотезы о том, что рассматриваемые выборки извлечены из одной и той же генеральной совокупности.

Пусть имеются две независимые выборки, произведенные из генеральных совокупностей с неизвестными теоретическими функциями распределения и .

Проверяемая нулевая гипотеза имеет вид против конкурирующей . Будем предполагать, что функции и непрерывны и для оценки используем статистику Колмогорова – Смирнова.

Критерий Колмогорова-Смирнова использует ту же самую идею, что и критерий Колмогорова. Однако различие заключается в том, что в критерии Колмогорова сравнивается эмпирическая функция распределения с теоретической, а в критерии Колмогорова-Смирнова сравниваются две эмпирические функции распределения.

Статистика критерия Колмогорова-Смирнова имеет вид:

,    (9.1)

где и – эмпирические функции распределения, построенные по двум выборкам c объемами и .

Гипотеза отвергается, если фактически наблюдаемое значение статистики больше критического , т.е. , и принимается в противном случае.

При малых объемах выборок критические значения для заданных уровней значимости критерия можно найти в специальных таблицах. При (а практически при ) распределение статистики сводится к распределению Колмогорова для статистики . В этом случае гипотеза отвергается на уровне значимости , если фактически наблюдаемое значение больше критического , т.е. , и принимается в противном случае.

Пример 1. ПРОВЕРКА ОДНОРОДНОСТИ ДВУХ ВЫБОРОК

Были осуществлены две проверки торговых точек с целью выявления недовесов. Полученные результаты сведены в таблицу:

Номер интервала

Интервалы недовесов, г

Частоты

Выборка 1

Выборка 2

1

0 – 10

3

5

2

10 – 20

10

12

3

20 – 30

15

8

4

30 – 40

20

25

5

40 – 50

12

10

6

50 – 60

5

8

7

60 – 70

25

20

8

70 – 80

15

7

9

80 – 90

5

5

Объем первой выборки был равен , а второй – .

Можно ли считать, что на уровне значимости  по результатам двух проверок (случайных выборок) недовесы овощей описываются одной и той же функцией распределения?

Решение:

Обозначим  и  – накопленные частоты выборок 1 и 2;
,  – значения их эмпирических функций распределения соответственно. Обработанные результаты сведем в таблицу:

10

3

5

0.027

0.050

0.023

20

13

17

0.118

0.170

0.052

30

28

25

0.254

0.250

0.004

40

48

50

0.436

0.500

0.064

50

60

60

0.545

0.600

0.055

60

65

68

0.591

0.680

0.089

70

90

88

0.818

0.880

0.072

80

105

95

0.955

0.950

0.005

90

110

100

1.000

1.000

0.000

Из последнего столбца таблицы видно, что . По формуле (9.1) получим . Из статистических таблиц известно, что . Так как , то принимается нулевая гипотеза , т.е. недовесы покупателям описываются одной и той же функцией распределения.

СТАТИСТИЧЕСКАЯ НЕЗАВИСИМОСТЬ И ВЫЯВЛЕНИЕ ТРЕНДА

При анализе случайных данных часто возникает ситуации, когда требуется выяснить, являются ли наблюдения или оценки параметров статистически независимыми или же они подвержены тренду. Это особенно важно при анализе нестационарных данных.

Такие исследования, обычно, проводят на основе свободных от распределений или непараметрических методов, в которых относительно функции распределения исследуемых данных не делается никаких предположений.

Критерий серий

Рассмотрим последовательность наблюдённых значений случайной величины , причём каждое наблюдение отнесено к одному из двух взаимно исключаемых классов, которые можно обозначить просто (+) или
(–). Рассмотрим ряд примеров:

  1.  Бросание монеты: герб (+), цифра (–);
  2.  Пусть имеется выборка , со средним значением . Тогда, если , то (+), если же , то (–);
  3.  Имеется последовательность одновременных измерений двух случайных величин и . Здесь каждое наблюдение обозначим (+), если и (–), если .

В каждом из этих примерах образуется последовательность вида:

Серией называется последовательность однотипных наблюдений, перед и после которой следуют наблюдения противоположного типа или же вообще нет никаких наблюдений.

В приведенной последовательности число наблюдений равно ; а количество серий равно .

Если последовательность наблюдений состоит из независимых исходов одной и той же случайной величины, т.е. если вероятность отдельных исходов [(+) или (−)] не меняется от наблюдения к наблюдению, то выборочное распределение числа серий в последовательности является случайной величиной со средним значением и дисперсией:

    (9.2)

   (9.3)

Здесь  число исходов (+), а  число исходов (−), естественно . В частном случае если , то:

.    (9.4)

Предположим, что есть основание подозревать наличие тренда в последовательности наблюдений, т.е. есть основание считать, что вероятность появления (+) или (−) меняются от наблюдения к наблюдению. Существование тренда можно проверить следующим образом. Примем в качестве нулевой гипотезы тренда нет, т.е. предположим, что наблюдений являются независимыми исходами одной и той же случайной величины. Тогда для проверки гипотезы с любым требуемым уровнем значимости необходимо сравнить наблюденное число серий с границами области принятия гипотезы равными  и , где .

Если наблюденное число серий окажется вне области принятия гипотезы, то нулевая гипотеза должна быть отвергнута с уровнем значимости . В противном случае нулевую гипотезу можно принять.

Пример 2. ПРИМЕНЕНИЕ КРИТЕРИЯ СЕРИЙ

Имеется последовательность независимых наблюдений :

5.5

5.1

5.7

5.2

4.8

5.7

5.0

6.5

5.4

5.8

6.8

6.6

4.9

5.4

5.9

5.4

6.8

5.8

6.9

5.5

Проверим независимость наблюдений, подсчитав число серий в последовательности, полученной путем сравнения наблюдений с медианой. Применим критерий с уровнем значимости .

Из анализа данных получим, что значение является медианой. Тогда введем обозначения (+) при , (–) при . Итак, получим:

В нашем примере , а область принятия гипотезы имеет вид:

.

По статистическим таблицам находим . Т.к. , то нет оснований сомневаться в независимости наблюдений, т.е. верна гипотеза  тренд отсутствует.

Критерий инверсий

Пусть имеется последовательность из наблюдений случайной величины , обозначенных . Подсчитаем теперь, сколько раз в последовательности имеют место неравенства при . Каждое такое неравенство называется инверсией. Пусть общее число инверсий. Формально вычисляется следующим образом. Определим для множества наблюдений величины

    (9.5)

Тогда:

.   (9.6)

Рассмотрим данный метод на примере последовательности из 8 наблюдений:

5

3

8

9

4

1

7

5

шаг 1: Т.к. , то ;

шаг 2: ;

шаг 3: ;

шаг 4: ;

шаг 5: ;

шаг 6: ;

шаг 7: .

Если последовательность из наблюдений состоит из независимых исходов одной и той же случайной величины, то число инверсий является случайной величиной со средним значением и дисперсией:

     (9.7)

.    (9.8)

Критерий  инверсий применяется примерно так же, как и критерий серий.

ПРИМЕЧАНИЕ:

Критерий инверсий – более мощный по сравнению с критерием серий при обнаружении монотонного тренда в последовательности наблюдений. Однако этот критерий не столь эффективен при выявлении тренда типа флуктуации.

Пример 3. ПРИМЕНЕНИЕ КРИТЕРИЯ ИНВЕРСИЙ

Рассмотрим тот же пример, что и в критерии серий (пример 2). Общее число инверсий в 20 наблюдениях равно . Из соответствующей таблицы при уровне значимости определим область принятия гипотезы: .

Следовательно, гипотеза об отсутствии тренда должна быть отвергнута, т.к. не попадает в область принятия гипотезы .

Этот пример иллюстрирует различную чувствительность двух методов.


 

А также другие работы, которые могут Вас заинтересовать

83858. Хирургическая анатомия лёгких. Корень лёгкого 45.58 KB
  Сегмент участок легкого вентилируемый бронхом третьего порядка. На медиальной поверхности каждого легкого располагаются его ворота. Здесь находятся составляющие корень легкого анатомические образования: бронх легочные артерии и вены бронхиальные сосуды и нервы лимфатические узлы. Скелетотопически корень легкого располагается на уровне VVII грудных позвонков.
83859. Хирургическая анатомия полости груди. Техника пункции и дренирование плевральной полости 50.76 KB
  Техника пункции и дренирование плевральной полости. В грудной полости располагаются три серозных мешка: два плевральных и один перикардиальный. Между плевральными мешками в грудной полости расположено средостение в котором помещается комплекс органов куда входят сердце с перикардом грудная часть трахеи главные бронхи пищевод сосуды и нервы окруженные большим количеством клетчатки.
83860. Хирургическая тактика при проникающем ранении груди. Торакотомия. Обработка лёгочных артерий, лёгочных вен и бронхов 54.15 KB
  Гемоторакс скопление крови в полости плевры в результате повреждения кровеносных сосудов или стенки сердца. Диагностику проводят рентгенологически и с помощью пункции плевральной полости. Гемопневмоторакс скопление крови и воздуха в плевральной полости. Пневмоторакс скопление воздуха в плевральной полости в результате повреждения плевры.
83861. Лечение пневмоторакса 50.16 KB
  при повреждении париетальной плевры: внутренний при ране лёгкого или повреждении бронха т. при повреждении висцеральной плевры. закрытый однократное попадание воздуха и разобщение полости плевры с атмосферой; открытый постоянное сообщение плевральной полости с атмосферным воздухом во время вдоха воздух через рану проникает в плевральную полость а при выдохе выходит наружу: клапанный поступление воздуха только в плевральную полость изза наличия клапана нарастающее накопление воздуха в плевральной полости. Этапы помощи при...
83862. Долевое и сегментарное строение лёгких. Трахея и главные бронхи. Особенности лёгочных артерий и лёгочных вен 282.9 KB
  Длина трахеи 915 см ширина 1527 см. Место разветвления трахеи на два бронха получило название бифуркации трахеи. С внутренней стороны место разделения представляет собой вдающийся в полость трахеи полулунный выступ киль трахеи. Главные бронхи асимметрично расходятся в стороны: правый более короткий 3 см но более широкий отходит от трахеи под тупым углом над ним залегает непарная вена; левый бронх длиннее 45 см более узкий и отходит от трахеи почти поп прямым углом над ним проходит дуга аорты.
83863. Резекция лёгкого. Хирургическая тактика при раке и доброкачественных опухолях лёгкого 50.4 KB
  Техника резекции лёгкого заднебоковой доступ; пневмолиз выделение из сращений; вскрытие медиастиналыюй плевры; обработка корня: последовательно вначале артерию затем вену и в конце бронх при раке вену артерию бронх; удаление легкого; проверка герметичности культи бронха физраствор в плевральную полость смотрят наличие пузырьков воздуха при раздувании; дренаж в плевральную полость; ушивание раны. Радикальные операции на легких выполняют при раке легкого туберкулезе легких бронхоэктатической болезни хронической пневмонии...
83864. Пункция перикарда и ушивание раны сердца. Техника выполнения 46.5 KB
  Пункция перикарда Показания: с диагностической или лечебной целями преимущественно при выпотных перикардитах. Ушивание раны сердца оперативный доступ обычно по ходу раневого канала; продольное вскрытие перикарда широким разрезом кпереди от диафрагмального нерва; наложение узловых или Побразных швов на рану; освобождение полости перикарда от сгустков крови; ушивание перикарда редкими швами.
83865. Коронарные артерии и проводящая система сердца. Принципы операций на коронарных артериях, шунтирование и стентирование 54.08 KB
  Коронарные артерии . interventriculris posterior конечная ветвь правой коронарной артерии проходит в одноимённой борозде; r. interventriculris posterior конечная ветвь левой коронарной артерии проходит в одноимённой борозде.
83866. Хирургическая анатомия пищевода. Операции на пищеводе 66.98 KB
  Хирургическая анатомия пищевода Отделы: шейный грудной и брюшной. Синтопия: Спереди пищевода лежат перстневидный хрящ и трахея; сзади позвоночник и длинные мышцы шеи: по бокам нижние полюсы боковых долей щитовидной железы и общие сонные артерии. Правый возвратный нерв проходит позади трахеи по боковой поверхности пищевода.