10971

Непараметрические гипотезы. Критерий согласия хи-квадрат

Лекция

Математика и математический анализ

Непараметрические гипотезы Критерий согласия хиквадрат Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины характеризующего изучаемый признак по опытному эмпирическому распределению...

Русский

2013-04-03

455.84 KB

15 чел.

Непараметрические гипотезы

Критерий согласия хи-квадрат

Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины, характеризующего изучаемый признак по опытному (эмпирическому распределению), представляющему вариационный ряд.

Для решения этой задачи необходимо определить вид и параметры закона распределения.

Предположения о виде закона распределения может быть выдвинуто исходя из теоретических предпосылок, опыта предшествующих аналогичных исследований, и, наконец, на основании графического изображения эмпирического распределения.

Параметры распределения, как правило, неизвестны, поэтому их заменяют выборочными оценками (несмещенными, эффективными и состоятельными).

Как бы хорошо ни был подобран теоретический закон распределения, между эмпирическим и теоретическим распределениями неизбежны расхождения. Естественно возникает вопрос, обусловлены ли эти расхождения только случайными факторами, связанными с ограниченным числом наблюдений (объемом выборки), или они являются существенными и обусловлены неудачным выбором теоретического закона распределения. Для ответа на этот вопрос и служат критерии согласия.

Для поверки эквивалентности плотности вероятности выборочных данных некоторой гипотетической плотности часто используется особый критерий, называемый критерием согласия хи-квадрат. Общая идея критерия заключается в использовании в качестве меры расхождения наблюдаемой плотности вероятности и гипотетической плотности некоторой статистики (оценки), приближенно подчиняющейся распределению хи-квадрат . Затем гипотеза относительно их эквивалентности проверяется путем изучения выборочного распределения этой статистики.

Пусть дана выборка из независимых наблюдений случайной величины с плотностью . Сгруппируем наблюдений по
интервалам, называемым интервалами группировки, которые в совокупности образуют гистограмму частот. Число наблюдений, попавших в й интервал, называется наблюденной частотой го интервала; обозначим её . Число наблюдений, которые могли бы попасть в й интервал, если бы истинной плотностью СВ была , называется ожидаемой частотой го интервала .

Расхождение между наблюденной и ожидаемой частотами в каждом интервале равно .

Для того чтобы измерить общее расхождение по всем интервалам, нормируем квадраты расхождений соответствующими ожидаемыми частотами и просуммируем их. В результате получим выборочную статистику (оценку):

(8.1)

Показано, что распределение приближенно совпадает с распределением. Число степеней свободы в этом случае равно (число интервалов группировки) минус число различных независимых линейных ограничений, наложенных на наблюдения. Рассмотрим эти ограничения подробнее:

  1.  Ограничение связано с тем, что частота в последнем интервале группировки полностью определяется частотами всех остальных интервалов, т.е. не является независимой величиной.
  2.  Если гипотетическая (предполагаемая) плотность – нормальная, с неизвестным математическим ожиданием и дисперсией, то появятся два дополнительных ограничения, поскольку для подбора нормальной плотности необходимо оценить два параметра .

Естественно, при проверке нормальности распределения . Для показательного распределения . Тогда .

После выбора числа степеней свободы величины проверка гипотезы производится следующим образом:

  1.  выдвигается гипотеза случайная величина имеет плотность распределения ;
  2.  группируем выборочные значения по интервалам и вычисляем ожидаемую частоту для каждого интервала в предположении, что ;
  3.  по формуле (8.1) находим значение ;
  4.  поскольку любое отклонение от вызовет увеличение , то используем односторонний критерий (см. рис. 8.1). Тогда область принятия гипотезы имеет вид:
  5.  если выборочная оценка превышает , то гипотеза о том, что , отвергается с уровнем значимости ;


Рис. 8.1 Критическая область критерия Пирсона ().

ПРИМЕЧАНИЯ:

1). Обычно ширину интервала группировки выбирают: .

2). В качестве первого и последнего интервалов выбирают интервалы, простирающиеся соответственно до −∞ и +∞. При этом должно выполняться условие . Если это условие не выполняется, то объединяем соседние интервалы.

Пример 1. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ

Имеется выборка из независимых наблюдений. Необходимо проверить гипотезу о нормальности выборочного распределения с помощью критерия Пирсона с уровнем значимости . Для удобства выборочные значения упорядочены по возрастанию и сведены в таблицу:

Таблица 1 Исходная упорядоченная по возрастанию выборка

-7.6

-3.8

-2.5

-1.6

-0.7

0.2

1.1

2.0

3.4

4.6

-6.9

-3.8

-2.5

-1.6

-0.7

0.2

1.1

2.1

3.5

4.8

-6.6

-3.7

-2.4

-1.6

-0.6

0.2

1.2

2.3

3.5

4.8

-6.4

-3.6

-2.3

-1.5

-0.6

0.3

1.2

2.3

3.6

4.9

-6.2

-3.5

-2.3

-1.5

-0.6

0.3

1.3

2.3

3.6

5.0

-6.1

-3.4

-2.3

-1.4

-0.5

0.3

1.3

2.4

3.6

5.2

-6.0

-3.4

-2.2

-1.4

-0.4

0.4

1.3

2.4

3.7

5.3

-5.7

-3.4

-2.2

-1.2

-0.4

0.4

1.4

2.5

3.7

5.4

-5.6

-3.3

-2.1

-1.2

-0.4

0.5

1.5

2.5

3.7

5.6

-5.5

-3.2

-2.1

-1.2

-0.3

0.5

1.5

2.6

3.7

5.9

-5.4

-3.2

-2.0

-1.1

-0.3

0.6

1.6

2.6

3.8

6.1

-5.2

-3.1

-2.0

-1.1

-0.2

0.6

1.6

2.6

3.8

6.3

-4.8

-3.0

-1.9

-1.0

-0.2

0.7

1.6

2.7

3.9

6.3

-4.6

-3.0

-1.9

-1.0

-0.2

0.8

1.7

2.8

4.0

6.5

-4.4

-2.9

-1.8

-1.0

-0.1

0.9

1.8

2.8

4.2

6.9

-4.4

-2.9

-1.8

-0.9

0.0

0.9

1.8

2.9

4.2

7.1

-4.3

-2.9

-1.8

-0.9

0.0

1.0

1.8

3.1

4.3

7.2

-4.1

-2.7

-1.7

-0.8

0.1

1.0

1.9

3.2

4.3

7.4

-4.0

-2.6

-1.7

-0.8

0.1

1.1

1.9

3.2

4..4

7.9

-3.8

-2.6

-1.6

-0.7

0.2

1.1

2.0

3.3

4.4

9.0

Решение:

  1.  Вначале вычислим выборочные оценки .
  2.  Сгруппируем имеющиеся данные, принимая ширину интервала равной .
  3.  Квантили нормального (гауссова) распределения возьмем из таблицы, не забывая, что первый интервал начинается на , а последний – заканчивается на . Из таблицы определим вероятности попасть в соответствующий интервал. Полученные результаты сведем в таблицу:

Таблица 2 Результаты расчетов

1

-2.0

-6.36

0.0228

4.5

4

0.5

0.06

2

-1.6

-5.04

0.0320

6.4

8

1.6

0.40

3

-1.2

-3.72

0.0603

12.1

10

2.1

0.36

4

-0.8

-2.40

0.0968

19.4

21

1.6

0.13

5

-0.4

-1.08

0.1327

26.5

29

2.5

0.24

6

0

0.24

0.1554

31.1

31

0.1

0.00

7

0.4

1.56

0.1554

31.1

27

4.1

0.54

8

0.8

2.88

0.1327

26.5

25

1.5

0.08

9

1.2

4.20

0.0968

19.4

20

0.6

0.02

10

1.6

5.52

0.0603

12.1

13

0.9

0.07

11

2.0

6.84

0.0320

6.4

6

0.4

0.03

12

0.0228

4.5

6

1.5

0.50

  1.  Как видно из таблицы, и больше трех. В данном случае число степеней свободы равно , а величина . По таблице распределения хи-квадрат найдем уровень значимости Т.к. , следовательно, гипотеза о нормальности принимается с уровнем значимости .

Критерий Колмогорова.

При анализе выборок малого объема невозможно применить критерий (группирование данных некорректно). В этом случае часто используется критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распределениями рассматривают максимальное значение абсолютной величины разности между эмпирической функцией распределения и соответствующей теоретической функцией распределения:

.

(8.2)

Оценка  называется статистикой критерия Колмогорова.

Доказано, что какова бы ни была функция распределения непрерывной случайной величины , при неограниченном увеличении числа наблюдений вероятность неравенства стремится к пределу

.

(8.3)

Задавая уровень значимости , из соотношения

(8.4)

можно найти соответствующее критическое значение .

Схема применения критерия Колмогорова

  1.  Строятся эмпирическая функция распределения и предполагаемая теоретическая функция распределения.
  2.  Определяется мера расхождения между теоретическим и эмпирическим распределением по формуле (8.2) и вычисляется величина

.

(8.4)

  1.  Если вычисленное значение окажется больше критического , определенного на уровне значимости , то нулевая гипотеза о том, что случайная величина имеет заданный закон распределения, отвергается (односторонний критерий). Если , то считают, что гипотеза не противоречит опытным данным.

Замечание

Можно отметить, что решение подобных задач можно было бы найти с помощью критерия . Потенциальное преимущества критерия Колмогорова в том, что он не требует группирования данных (с неизбежной потерей информации), а дает возможность рассматривать индивидуальные наблюдаемые значения. Этот критерий можно успешно применять для малых выборок. Считается, что его мощность, вообще говоря, выше, чем у критерия .

Пример 2. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ

Получена случайная выборка объема . Построим вариационный ряд и эмпирическую функцию распределения:

-1.0

-0.6

0.2

1.3

2.1

3.0

> 3

1 \ 6

1 \ 6

1 \ 6

1 \ 6

1 \ 6

1 \ 6

0

1 \ 6

2 \ 6

3 \ 6

4 \ 6

5 \ 6

1

Проверим гипотезу, что эти наблюдения образуют случайную выборку из распределения с уровнем значимости . Затем мы можем определить графически либо аналитически, причем эти значения должны появиться в точке , соответствующей одной из наблюдаемых величин. С этой целью необходимо вычислить пары величин и
(рис. 8.2) для каждого значения выборки.

Рис. 8.2 Мера расхождения в точке наблюдения .

Для вычисления вспомним: , где - функция стандартного нормального распределения. Результаты всех вычислений представим в виде таблицы:

-1.0

0.1667

0.0228

0.1439

0.0228

-0.6

0.3333

0.0548

0.2785

0.1119

0.2

0.5

0.2119

0.2881

0.1214

1.3

0.6667

0.6179

0.0488

0.1179

2.1

0.8333

0.8643

0.0310

0.1976

3.0

1.0000

0.9772

0.0228

0.1439

Из таблицы результатов следует: . Из статистических таблиц получим . Поскольку , то принимается гипотеза , т.е. можно считать, что данные подчиняются распределению .


 

А также другие работы, которые могут Вас заинтересовать

27893. Правила техники ТБ в аккумуляторном участке 105.5 KB
  Определение допустимого износа. При этом следует иметь в виду что детали с допустимыми износами можно использовать при КР только в том случае если требуемая точность при сборке сопряжений обеспечивается применением методов регулирования или групповой взаимозаменяемости. Для определения величины допустимого износа детали необходимо знать ее предельный износ. Дет достигшую предельного износа восстанавливают или заменяют новой.
27894. Устранение дефектов деталей пластическим деформированием 80.5 KB
  Технология восстановления: подготовка к деформированию деформирование обработка после деформирования 1 Подготовка включ в себя отжиг или высокий отпуск если холодное деформирование; или нагрев детали если горячее деформирование I нагрева не должна вызывать пережога или перегрева Ме 2 Стальные детали с НК.С 2030 или детали цветных Ме сплавов деформируют в холодном состоянии Для всех остальных случаев проводится термообработка перед холодным деформированием или нагрев перед горячим 3 Механическая обработка восстх повей до...
27895. Диагностирование системы питания двигате 42 KB
  Обкатка=приработкаиспытание. Приработка это активный процесс изменения макро и микро геометрии физмех свойств трущихся поверхностей с целью скорейшего достижения оптимальных параметров для последующего восприятия нагрузок. Приработка происходит в 2 этапа: 1приработка стендовая 2 часа; 2приработка в начальный период эксплуатации 3040 часов. Стендовая приработка: вызывается необходимостью подготовки ДВС к восприятию эксплуатационных нагрузок и повышению его долговечности.