10971

Непараметрические гипотезы. Критерий согласия хи-квадрат

Лекция

Математика и математический анализ

Непараметрические гипотезы Критерий согласия хиквадрат Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины характеризующего изучаемый признак по опытному эмпирическому распределению...

Русский

2013-04-03

455.84 KB

12 чел.

Непараметрические гипотезы

Критерий согласия хи-квадрат

Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины, характеризующего изучаемый признак по опытному (эмпирическому распределению), представляющему вариационный ряд.

Для решения этой задачи необходимо определить вид и параметры закона распределения.

Предположения о виде закона распределения может быть выдвинуто исходя из теоретических предпосылок, опыта предшествующих аналогичных исследований, и, наконец, на основании графического изображения эмпирического распределения.

Параметры распределения, как правило, неизвестны, поэтому их заменяют выборочными оценками (несмещенными, эффективными и состоятельными).

Как бы хорошо ни был подобран теоретический закон распределения, между эмпирическим и теоретическим распределениями неизбежны расхождения. Естественно возникает вопрос, обусловлены ли эти расхождения только случайными факторами, связанными с ограниченным числом наблюдений (объемом выборки), или они являются существенными и обусловлены неудачным выбором теоретического закона распределения. Для ответа на этот вопрос и служат критерии согласия.

Для поверки эквивалентности плотности вероятности выборочных данных некоторой гипотетической плотности часто используется особый критерий, называемый критерием согласия хи-квадрат. Общая идея критерия заключается в использовании в качестве меры расхождения наблюдаемой плотности вероятности и гипотетической плотности некоторой статистики (оценки), приближенно подчиняющейся распределению хи-квадрат . Затем гипотеза относительно их эквивалентности проверяется путем изучения выборочного распределения этой статистики.

Пусть дана выборка из независимых наблюдений случайной величины с плотностью . Сгруппируем наблюдений по
интервалам, называемым интервалами группировки, которые в совокупности образуют гистограмму частот. Число наблюдений, попавших в й интервал, называется наблюденной частотой го интервала; обозначим её . Число наблюдений, которые могли бы попасть в й интервал, если бы истинной плотностью СВ была , называется ожидаемой частотой го интервала .

Расхождение между наблюденной и ожидаемой частотами в каждом интервале равно .

Для того чтобы измерить общее расхождение по всем интервалам, нормируем квадраты расхождений соответствующими ожидаемыми частотами и просуммируем их. В результате получим выборочную статистику (оценку):

(8.1)

Показано, что распределение приближенно совпадает с распределением. Число степеней свободы в этом случае равно (число интервалов группировки) минус число различных независимых линейных ограничений, наложенных на наблюдения. Рассмотрим эти ограничения подробнее:

  1.  Ограничение связано с тем, что частота в последнем интервале группировки полностью определяется частотами всех остальных интервалов, т.е. не является независимой величиной.
  2.  Если гипотетическая (предполагаемая) плотность – нормальная, с неизвестным математическим ожиданием и дисперсией, то появятся два дополнительных ограничения, поскольку для подбора нормальной плотности необходимо оценить два параметра .

Естественно, при проверке нормальности распределения . Для показательного распределения . Тогда .

После выбора числа степеней свободы величины проверка гипотезы производится следующим образом:

  1.  выдвигается гипотеза случайная величина имеет плотность распределения ;
  2.  группируем выборочные значения по интервалам и вычисляем ожидаемую частоту для каждого интервала в предположении, что ;
  3.  по формуле (8.1) находим значение ;
  4.  поскольку любое отклонение от вызовет увеличение , то используем односторонний критерий (см. рис. 8.1). Тогда область принятия гипотезы имеет вид:
  5.  если выборочная оценка превышает , то гипотеза о том, что , отвергается с уровнем значимости ;


Рис. 8.1 Критическая область критерия Пирсона ().

ПРИМЕЧАНИЯ:

1). Обычно ширину интервала группировки выбирают: .

2). В качестве первого и последнего интервалов выбирают интервалы, простирающиеся соответственно до −∞ и +∞. При этом должно выполняться условие . Если это условие не выполняется, то объединяем соседние интервалы.

Пример 1. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ

Имеется выборка из независимых наблюдений. Необходимо проверить гипотезу о нормальности выборочного распределения с помощью критерия Пирсона с уровнем значимости . Для удобства выборочные значения упорядочены по возрастанию и сведены в таблицу:

Таблица 1 Исходная упорядоченная по возрастанию выборка

-7.6

-3.8

-2.5

-1.6

-0.7

0.2

1.1

2.0

3.4

4.6

-6.9

-3.8

-2.5

-1.6

-0.7

0.2

1.1

2.1

3.5

4.8

-6.6

-3.7

-2.4

-1.6

-0.6

0.2

1.2

2.3

3.5

4.8

-6.4

-3.6

-2.3

-1.5

-0.6

0.3

1.2

2.3

3.6

4.9

-6.2

-3.5

-2.3

-1.5

-0.6

0.3

1.3

2.3

3.6

5.0

-6.1

-3.4

-2.3

-1.4

-0.5

0.3

1.3

2.4

3.6

5.2

-6.0

-3.4

-2.2

-1.4

-0.4

0.4

1.3

2.4

3.7

5.3

-5.7

-3.4

-2.2

-1.2

-0.4

0.4

1.4

2.5

3.7

5.4

-5.6

-3.3

-2.1

-1.2

-0.4

0.5

1.5

2.5

3.7

5.6

-5.5

-3.2

-2.1

-1.2

-0.3

0.5

1.5

2.6

3.7

5.9

-5.4

-3.2

-2.0

-1.1

-0.3

0.6

1.6

2.6

3.8

6.1

-5.2

-3.1

-2.0

-1.1

-0.2

0.6

1.6

2.6

3.8

6.3

-4.8

-3.0

-1.9

-1.0

-0.2

0.7

1.6

2.7

3.9

6.3

-4.6

-3.0

-1.9

-1.0

-0.2

0.8

1.7

2.8

4.0

6.5

-4.4

-2.9

-1.8

-1.0

-0.1

0.9

1.8

2.8

4.2

6.9

-4.4

-2.9

-1.8

-0.9

0.0

0.9

1.8

2.9

4.2

7.1

-4.3

-2.9

-1.8

-0.9

0.0

1.0

1.8

3.1

4.3

7.2

-4.1

-2.7

-1.7

-0.8

0.1

1.0

1.9

3.2

4.3

7.4

-4.0

-2.6

-1.7

-0.8

0.1

1.1

1.9

3.2

4..4

7.9

-3.8

-2.6

-1.6

-0.7

0.2

1.1

2.0

3.3

4.4

9.0

Решение:

  1.  Вначале вычислим выборочные оценки .
  2.  Сгруппируем имеющиеся данные, принимая ширину интервала равной .
  3.  Квантили нормального (гауссова) распределения возьмем из таблицы, не забывая, что первый интервал начинается на , а последний – заканчивается на . Из таблицы определим вероятности попасть в соответствующий интервал. Полученные результаты сведем в таблицу:

Таблица 2 Результаты расчетов

1

-2.0

-6.36

0.0228

4.5

4

0.5

0.06

2

-1.6

-5.04

0.0320

6.4

8

1.6

0.40

3

-1.2

-3.72

0.0603

12.1

10

2.1

0.36

4

-0.8

-2.40

0.0968

19.4

21

1.6

0.13

5

-0.4

-1.08

0.1327

26.5

29

2.5

0.24

6

0

0.24

0.1554

31.1

31

0.1

0.00

7

0.4

1.56

0.1554

31.1

27

4.1

0.54

8

0.8

2.88

0.1327

26.5

25

1.5

0.08

9

1.2

4.20

0.0968

19.4

20

0.6

0.02

10

1.6

5.52

0.0603

12.1

13

0.9

0.07

11

2.0

6.84

0.0320

6.4

6

0.4

0.03

12

0.0228

4.5

6

1.5

0.50

  1.  Как видно из таблицы, и больше трех. В данном случае число степеней свободы равно , а величина . По таблице распределения хи-квадрат найдем уровень значимости Т.к. , следовательно, гипотеза о нормальности принимается с уровнем значимости .

Критерий Колмогорова.

При анализе выборок малого объема невозможно применить критерий (группирование данных некорректно). В этом случае часто используется критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распределениями рассматривают максимальное значение абсолютной величины разности между эмпирической функцией распределения и соответствующей теоретической функцией распределения:

.

(8.2)

Оценка  называется статистикой критерия Колмогорова.

Доказано, что какова бы ни была функция распределения непрерывной случайной величины , при неограниченном увеличении числа наблюдений вероятность неравенства стремится к пределу

.

(8.3)

Задавая уровень значимости , из соотношения

(8.4)

можно найти соответствующее критическое значение .

Схема применения критерия Колмогорова

  1.  Строятся эмпирическая функция распределения и предполагаемая теоретическая функция распределения.
  2.  Определяется мера расхождения между теоретическим и эмпирическим распределением по формуле (8.2) и вычисляется величина

.

(8.4)

  1.  Если вычисленное значение окажется больше критического , определенного на уровне значимости , то нулевая гипотеза о том, что случайная величина имеет заданный закон распределения, отвергается (односторонний критерий). Если , то считают, что гипотеза не противоречит опытным данным.

Замечание

Можно отметить, что решение подобных задач можно было бы найти с помощью критерия . Потенциальное преимущества критерия Колмогорова в том, что он не требует группирования данных (с неизбежной потерей информации), а дает возможность рассматривать индивидуальные наблюдаемые значения. Этот критерий можно успешно применять для малых выборок. Считается, что его мощность, вообще говоря, выше, чем у критерия .

Пример 2. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ

Получена случайная выборка объема . Построим вариационный ряд и эмпирическую функцию распределения:

-1.0

-0.6

0.2

1.3

2.1

3.0

> 3

1 \ 6

1 \ 6

1 \ 6

1 \ 6

1 \ 6

1 \ 6

0

1 \ 6

2 \ 6

3 \ 6

4 \ 6

5 \ 6

1

Проверим гипотезу, что эти наблюдения образуют случайную выборку из распределения с уровнем значимости . Затем мы можем определить графически либо аналитически, причем эти значения должны появиться в точке , соответствующей одной из наблюдаемых величин. С этой целью необходимо вычислить пары величин и
(рис. 8.2) для каждого значения выборки.

Рис. 8.2 Мера расхождения в точке наблюдения .

Для вычисления вспомним: , где - функция стандартного нормального распределения. Результаты всех вычислений представим в виде таблицы:

-1.0

0.1667

0.0228

0.1439

0.0228

-0.6

0.3333

0.0548

0.2785

0.1119

0.2

0.5

0.2119

0.2881

0.1214

1.3

0.6667

0.6179

0.0488

0.1179

2.1

0.8333

0.8643

0.0310

0.1976

3.0

1.0000

0.9772

0.0228

0.1439

Из таблицы результатов следует: . Из статистических таблиц получим . Поскольку , то принимается гипотеза , т.е. можно считать, что данные подчиняются распределению .


 

А также другие работы, которые могут Вас заинтересовать

40101. Разработка системы защиты выбранного объекта 98.5 KB
  Объект представляет собой локальную сеть с выделенным сервером и 4 рабочих станции. Сеть находится в одном адресном пространстве с корпоративной сетью другого учреждения в дальнейшем СЕТЬ построенной по принципу internet. Кроме того имеется подключение к сети интернет через модемное соединение и через локальную сеть. Подключение к internet через локальную сеть происходит через проксисервер расположенный в СЕТИ.
40102. Математическая модель маятника на каретке 1.46 MB
  В качестве обобщенных координат для рассматриваемой системы с двумя степенями свободы выберем t угол отклонения маятника и xt положение каретки. Для записи уравнений динамики механической системы воспользуемся уравнениями Лагранжа второго рода 1.1 получим математическую модель рассматриваемого объекта в виде системы двух дифференциальных уравнений второго порядка 1. Дифференциальные уравнения в форме Коши Для записи системы дифференциальных уравнений в форме...
40103. СИНТЕЗ СИСТЕМ АВТОМАТИЧЕСКОЙ СТАБИЛИЗАЦИИ МЕХАНИЧЕСКОГО ОБЪЕКТА 13.61 MB
  Построение компьютерной модели с целью имитации движений, а также применение методов теории управления упрощается, если исходные уравнения привести к форме Коши. Для этого разрешим исходные уравнения относительно старших производных. Заметим, что старшие производные входят в уравнение линейно, что позволяет представить уравнения в матричной форме
40104. Синтез алгоритмов управления нестабильным объектом 449.5 KB
  Для достижения цели проекта необходимо решить следующие задачи: 1 – составить нелинейную математическую модель объекта и провести анализ методом компьютерного моделирования; 2 – провести анализ устойчивости управляемости и наблюдаемости объекта по линеаризованной модели; 3 – синтезировать регулятор состояния методом размещения собственных значений [2]; 4 – синтезировать наблюдатель состояний и динамический регулятор; 5 – оценить размеры области притяжения положения равновесия нелинейной системы с непрерывным регулятором; 6 – построить...
40105. Двойственный симплекс-метод, основные принципы, алгоритм. Случаи, когда удобно применять двойственный симплексный метод 178 KB
  ДСМ ДСМ как и СМ называется методом последовательного улучшения оценок и применяется для решения задачи: исходным пунктом этого метода является выбор такого базиса . Таким образом основные принципы ДСМ заключаются в том чтобы: каждый раз выполнялось 2 значения целевой функции убывало. Для этого воспользуемся 2м принципом ДСМ. Чтобы обеспечить это надо выбрать так что: 6 Алгоритм ДСМ формулируется так: Выбираем базис и строим I симплекстаблицу Если все то решение оптимально иначе переход к 3.
40106. Задача максимизации прибыли при заданных ценах на продукцию и ресурсы. Анализ оптимальных решений с помощью множителей Лагранжа 34.5 KB
  Требуется решить задачу максимизации прибыли при заданных P0 и p: mx P0fx – p x 1 x  0 2 Исследование задачи будем проводить с помощью функции Лагранжа: – балансовое соотношение В оптимальном плане x для любых используемых ресурсов отношение цены к предельной эффективности постоянно. Для этих же ресурсов показали что соотношение предельных эффективностей равно соотношению цен. Наибольшая отдача будет от тех ресурсов которые имеют самую большую предельную эффективность в текущей точке.
40107. Теорема о необходимых и достаточных условиях оптимальности смешанных стратегий 167.5 KB
  Пусть игра определена матрицей и ценой игры V. – оптимальная стратегия 1 игрока х является первой координатой некоторой седловой точки фции выигрыша Мх у. СЛЕДСТВИЕ: Если для смешанных стратегий и числа V одновременно выполняются 1 и 2 то будут оптимальными стратегиями игроков а V– цена игры. Докво: умножим 1 на y и просуммируем: умножим 2 на x и просуммируем: Получаем Тогда по следствию Т о седловой точке точка – седловая и –...
40108. Функция выигрыша в матричных играх без седловой точки. Смешанные и оптимальные смешанные стратегии. Метод сведения решения матричных игр к задаче линейного программирования 119.5 KB
  Функция выигрыша в матричных играх без седловой точки. Парная игра с нулевой суммой задается формально матрицей игры – матрицей А = {ij} элементы которой определяют выигрыш первого игрока и проигрыш второго если первый игрок выберет iю стратегию а второй jю стратегию. Пара i0j0 называется седловой точкой матрицы решением игры если выполняются условия: mx по столбцу I игрок min по строке II игрок Значение функции выигрыша в седловой точке называется ценой игры. Тогда выигрыш первого игрока при условии что он выбирает...
40109. Методы штрафных функций и методы центров в выпуклом программировании 90 KB
  Методы штрафных функций и методы центров в выпуклом программировании Метод штрафных функций Постановка задачи Даны непрерывно дифференцируемые целевая функция fx = fx1 xn и функции ограничений gjx = 0 j = 1 m; gjx 0 j = m1 p определяющие множество допустимых решений D. Требуется найти локальный минимум целевой функции на множестве D т. Стратегия поиска Идея метода заключается в сведении задачи на условный минимум к решению последовательности задач поиска безусловного минимума вспомогательной функции: Fx Ck =...