10971

Непараметрические гипотезы. Критерий согласия хи-квадрат

Лекция

Математика и математический анализ

Непараметрические гипотезы Критерий согласия хиквадрат Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины характеризующего изучаемый признак по опытному эмпирическому распределению...

Русский

2013-04-03

455.84 KB

15 чел.

Непараметрические гипотезы

Критерий согласия хи-квадрат

Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины, характеризующего изучаемый признак по опытному (эмпирическому распределению), представляющему вариационный ряд.

Для решения этой задачи необходимо определить вид и параметры закона распределения.

Предположения о виде закона распределения может быть выдвинуто исходя из теоретических предпосылок, опыта предшествующих аналогичных исследований, и, наконец, на основании графического изображения эмпирического распределения.

Параметры распределения, как правило, неизвестны, поэтому их заменяют выборочными оценками (несмещенными, эффективными и состоятельными).

Как бы хорошо ни был подобран теоретический закон распределения, между эмпирическим и теоретическим распределениями неизбежны расхождения. Естественно возникает вопрос, обусловлены ли эти расхождения только случайными факторами, связанными с ограниченным числом наблюдений (объемом выборки), или они являются существенными и обусловлены неудачным выбором теоретического закона распределения. Для ответа на этот вопрос и служат критерии согласия.

Для поверки эквивалентности плотности вероятности выборочных данных некоторой гипотетической плотности часто используется особый критерий, называемый критерием согласия хи-квадрат. Общая идея критерия заключается в использовании в качестве меры расхождения наблюдаемой плотности вероятности и гипотетической плотности некоторой статистики (оценки), приближенно подчиняющейся распределению хи-квадрат . Затем гипотеза относительно их эквивалентности проверяется путем изучения выборочного распределения этой статистики.

Пусть дана выборка из независимых наблюдений случайной величины с плотностью . Сгруппируем наблюдений по
интервалам, называемым интервалами группировки, которые в совокупности образуют гистограмму частот. Число наблюдений, попавших в й интервал, называется наблюденной частотой го интервала; обозначим её . Число наблюдений, которые могли бы попасть в й интервал, если бы истинной плотностью СВ была , называется ожидаемой частотой го интервала .

Расхождение между наблюденной и ожидаемой частотами в каждом интервале равно .

Для того чтобы измерить общее расхождение по всем интервалам, нормируем квадраты расхождений соответствующими ожидаемыми частотами и просуммируем их. В результате получим выборочную статистику (оценку):

(8.1)

Показано, что распределение приближенно совпадает с распределением. Число степеней свободы в этом случае равно (число интервалов группировки) минус число различных независимых линейных ограничений, наложенных на наблюдения. Рассмотрим эти ограничения подробнее:

  1.  Ограничение связано с тем, что частота в последнем интервале группировки полностью определяется частотами всех остальных интервалов, т.е. не является независимой величиной.
  2.  Если гипотетическая (предполагаемая) плотность – нормальная, с неизвестным математическим ожиданием и дисперсией, то появятся два дополнительных ограничения, поскольку для подбора нормальной плотности необходимо оценить два параметра .

Естественно, при проверке нормальности распределения . Для показательного распределения . Тогда .

После выбора числа степеней свободы величины проверка гипотезы производится следующим образом:

  1.  выдвигается гипотеза случайная величина имеет плотность распределения ;
  2.  группируем выборочные значения по интервалам и вычисляем ожидаемую частоту для каждого интервала в предположении, что ;
  3.  по формуле (8.1) находим значение ;
  4.  поскольку любое отклонение от вызовет увеличение , то используем односторонний критерий (см. рис. 8.1). Тогда область принятия гипотезы имеет вид:
  5.  если выборочная оценка превышает , то гипотеза о том, что , отвергается с уровнем значимости ;


Рис. 8.1 Критическая область критерия Пирсона ().

ПРИМЕЧАНИЯ:

1). Обычно ширину интервала группировки выбирают: .

2). В качестве первого и последнего интервалов выбирают интервалы, простирающиеся соответственно до −∞ и +∞. При этом должно выполняться условие . Если это условие не выполняется, то объединяем соседние интервалы.

Пример 1. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ

Имеется выборка из независимых наблюдений. Необходимо проверить гипотезу о нормальности выборочного распределения с помощью критерия Пирсона с уровнем значимости . Для удобства выборочные значения упорядочены по возрастанию и сведены в таблицу:

Таблица 1 Исходная упорядоченная по возрастанию выборка

-7.6

-3.8

-2.5

-1.6

-0.7

0.2

1.1

2.0

3.4

4.6

-6.9

-3.8

-2.5

-1.6

-0.7

0.2

1.1

2.1

3.5

4.8

-6.6

-3.7

-2.4

-1.6

-0.6

0.2

1.2

2.3

3.5

4.8

-6.4

-3.6

-2.3

-1.5

-0.6

0.3

1.2

2.3

3.6

4.9

-6.2

-3.5

-2.3

-1.5

-0.6

0.3

1.3

2.3

3.6

5.0

-6.1

-3.4

-2.3

-1.4

-0.5

0.3

1.3

2.4

3.6

5.2

-6.0

-3.4

-2.2

-1.4

-0.4

0.4

1.3

2.4

3.7

5.3

-5.7

-3.4

-2.2

-1.2

-0.4

0.4

1.4

2.5

3.7

5.4

-5.6

-3.3

-2.1

-1.2

-0.4

0.5

1.5

2.5

3.7

5.6

-5.5

-3.2

-2.1

-1.2

-0.3

0.5

1.5

2.6

3.7

5.9

-5.4

-3.2

-2.0

-1.1

-0.3

0.6

1.6

2.6

3.8

6.1

-5.2

-3.1

-2.0

-1.1

-0.2

0.6

1.6

2.6

3.8

6.3

-4.8

-3.0

-1.9

-1.0

-0.2

0.7

1.6

2.7

3.9

6.3

-4.6

-3.0

-1.9

-1.0

-0.2

0.8

1.7

2.8

4.0

6.5

-4.4

-2.9

-1.8

-1.0

-0.1

0.9

1.8

2.8

4.2

6.9

-4.4

-2.9

-1.8

-0.9

0.0

0.9

1.8

2.9

4.2

7.1

-4.3

-2.9

-1.8

-0.9

0.0

1.0

1.8

3.1

4.3

7.2

-4.1

-2.7

-1.7

-0.8

0.1

1.0

1.9

3.2

4.3

7.4

-4.0

-2.6

-1.7

-0.8

0.1

1.1

1.9

3.2

4..4

7.9

-3.8

-2.6

-1.6

-0.7

0.2

1.1

2.0

3.3

4.4

9.0

Решение:

  1.  Вначале вычислим выборочные оценки .
  2.  Сгруппируем имеющиеся данные, принимая ширину интервала равной .
  3.  Квантили нормального (гауссова) распределения возьмем из таблицы, не забывая, что первый интервал начинается на , а последний – заканчивается на . Из таблицы определим вероятности попасть в соответствующий интервал. Полученные результаты сведем в таблицу:

Таблица 2 Результаты расчетов

1

-2.0

-6.36

0.0228

4.5

4

0.5

0.06

2

-1.6

-5.04

0.0320

6.4

8

1.6

0.40

3

-1.2

-3.72

0.0603

12.1

10

2.1

0.36

4

-0.8

-2.40

0.0968

19.4

21

1.6

0.13

5

-0.4

-1.08

0.1327

26.5

29

2.5

0.24

6

0

0.24

0.1554

31.1

31

0.1

0.00

7

0.4

1.56

0.1554

31.1

27

4.1

0.54

8

0.8

2.88

0.1327

26.5

25

1.5

0.08

9

1.2

4.20

0.0968

19.4

20

0.6

0.02

10

1.6

5.52

0.0603

12.1

13

0.9

0.07

11

2.0

6.84

0.0320

6.4

6

0.4

0.03

12

0.0228

4.5

6

1.5

0.50

  1.  Как видно из таблицы, и больше трех. В данном случае число степеней свободы равно , а величина . По таблице распределения хи-квадрат найдем уровень значимости Т.к. , следовательно, гипотеза о нормальности принимается с уровнем значимости .

Критерий Колмогорова.

При анализе выборок малого объема невозможно применить критерий (группирование данных некорректно). В этом случае часто используется критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распределениями рассматривают максимальное значение абсолютной величины разности между эмпирической функцией распределения и соответствующей теоретической функцией распределения:

.

(8.2)

Оценка  называется статистикой критерия Колмогорова.

Доказано, что какова бы ни была функция распределения непрерывной случайной величины , при неограниченном увеличении числа наблюдений вероятность неравенства стремится к пределу

.

(8.3)

Задавая уровень значимости , из соотношения

(8.4)

можно найти соответствующее критическое значение .

Схема применения критерия Колмогорова

  1.  Строятся эмпирическая функция распределения и предполагаемая теоретическая функция распределения.
  2.  Определяется мера расхождения между теоретическим и эмпирическим распределением по формуле (8.2) и вычисляется величина

.

(8.4)

  1.  Если вычисленное значение окажется больше критического , определенного на уровне значимости , то нулевая гипотеза о том, что случайная величина имеет заданный закон распределения, отвергается (односторонний критерий). Если , то считают, что гипотеза не противоречит опытным данным.

Замечание

Можно отметить, что решение подобных задач можно было бы найти с помощью критерия . Потенциальное преимущества критерия Колмогорова в том, что он не требует группирования данных (с неизбежной потерей информации), а дает возможность рассматривать индивидуальные наблюдаемые значения. Этот критерий можно успешно применять для малых выборок. Считается, что его мощность, вообще говоря, выше, чем у критерия .

Пример 2. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ

Получена случайная выборка объема . Построим вариационный ряд и эмпирическую функцию распределения:

-1.0

-0.6

0.2

1.3

2.1

3.0

> 3

1 \ 6

1 \ 6

1 \ 6

1 \ 6

1 \ 6

1 \ 6

0

1 \ 6

2 \ 6

3 \ 6

4 \ 6

5 \ 6

1

Проверим гипотезу, что эти наблюдения образуют случайную выборку из распределения с уровнем значимости . Затем мы можем определить графически либо аналитически, причем эти значения должны появиться в точке , соответствующей одной из наблюдаемых величин. С этой целью необходимо вычислить пары величин и
(рис. 8.2) для каждого значения выборки.

Рис. 8.2 Мера расхождения в точке наблюдения .

Для вычисления вспомним: , где - функция стандартного нормального распределения. Результаты всех вычислений представим в виде таблицы:

-1.0

0.1667

0.0228

0.1439

0.0228

-0.6

0.3333

0.0548

0.2785

0.1119

0.2

0.5

0.2119

0.2881

0.1214

1.3

0.6667

0.6179

0.0488

0.1179

2.1

0.8333

0.8643

0.0310

0.1976

3.0

1.0000

0.9772

0.0228

0.1439

Из таблицы результатов следует: . Из статистических таблиц получим . Поскольку , то принимается гипотеза , т.е. можно считать, что данные подчиняются распределению .


 

А также другие работы, которые могут Вас заинтересовать

39885. ОФОРМЛЕНИЕ ОБЯЗАТЕЛЬНЫХ УЧЕБНЫХ ДОКУМЕНТОВ 636.5 KB
  2 Примечания следует помещать непосредственно после текстового графического материала или таблицы к которым относятся эти примечания и печатать с прописной буквы с абзаца. Примечание к таблице помещают в конце таблицы над линией обозначающей окончание таблицы. Ссылки на подразделы пункты таблицы и иллюстрации не допускаются за исключением подразделов пунктов таблиц и иллюстраций данного документа Ссылка заключается в квадратные скобки [ ] содержит порядковой номер документа в СПИСКЕ ЛИТЕРАТУРЫ указание страниц. Сноски помещают с...
39886. Разработка программного обеспечения для ведения финансовой отчетности Кировской территориальной избирательной комиссии 309 KB
  Во всех территориальных избирательных комиссиях на постоянной штатной основе работают председатели в Мурманской территориальной избирательной комиссии в связи с большим числом избирателей на штатной основе работает и секретарь главные бухгалтеры. Кроме того для обеспечения передачи данных о ходе проводимых избирательных кампаний в вышестоящие избирательные комиссии председателям территориальных избирательных комиссий оперативно подчиняются системные администраторы ГАС Выборы работающие в аппарате Комиссии области. Для обеспечения...
39887. Разработать на основе МПК I8085 контроллер управления, обеспечивающий и поддерживающий определенную температуру (точность: плюс/минус 0.1 С) в холодильной камере, в зависимости от вида продукции для хранения 204.08 KB
  3 Постановка задачи4 Структурная схема устройства5 Общая схема алгоритма.6 Функциональная схема8 Детальная схема алгоритма. Структурная организация устройства Общая схема алгоритма Основная программа Х1: 1 значение с датчиков равно значению с переключателей; 0 – не равно; Х2: 1 – значение датчика больше чем значение переключателей; 0 – меньше: Рис. Общая схема алгоритма работы устройства.
39888. Прохождение практики на Предприятии ОАО «Апатит» 177.73 KB
  Служба эксплуатации контрольноизмерительных приборов и автоматики КИП и А выполняет следующие функции: метрологический надзор; техническое обслуживание; ремонт и настройку контрольноизмерительных приборов и приборов автоматического управления. Цех КИП и А выполняет такие наиболее ответственные работы как ремонт и поверка приборов эксплуатация сложных систем автоматики и др. Внедряет новые системы автоматики осуществляет техническое руководство группами эксплуатации приборов КИП и А в других цехах предприятия организует...
39889. ОПРЕДЕЛЕНИЕ РАВНОВЕСНОЙ ТЕМПЕРАТУРЫ ВОЗДУХА В ОХЛАЖДАЕМОМ ПОМЕЩЕНИИ (НА ПРИМЕРЕ НИЗКОТЕМПЕРАТУРНЫХ ПРИЛАВКОВ И ШКАФОВ) 6.31 MB
  При включении холодильной машины в охлаждаемом помещении устанавливается температура ниже температуры наружного окружающего помещение воздуха. при балансе: При наступлении равновесия между теплопритоками и теплоотводом в камере установится определенная температура называемая равновесной температурой. Не будет теплопритока от грузов и в случае если это камера длительного хранения куда грузы заложены уже давно и их температура стала равна температуре в охлаждаемом помещении. Для ограждения не подверженного действию солнечной радиации:...
39890. Бизнес-план создания ОАО «Мебель Интерьер Центр» 300.5 KB
  Расчетные данные согласно приложениям 16 показывают что предприятие в 2013 году будет иметь стабильный экономический рост: общая выручка от реализации продукции составит 14187 млн. 7663 млн. Темп роста составит 1851; объемы реализации промышленной продукции увеличатся с 45069 млн. в 2012 году до 102270 млн.
39891. Программирование баз данных 29 KB
  Создание модуля данных Доступ к базе данных в системе DELPHI выполняется достаточно просто с использованием богатого набора невизуальных компонентов работы с СУБД. Как правило эти компоненты группируются в создаваемой программе в специальном модуле данных TDtModule. Модуль данных представляет собой хранилище объектов которое позволяет централизованно управлять их работой и отделяет программную логику связанную с базами данных от программного кода выполняющего вычислительные действия и отображение данных на форме.
39892. Объектно-ориентированное программирование. Скрытие данных в объектах 42 KB
  Наследование определение объекта и дальнейшее использование всех его свойств для построения иерархии порожденных объектов с возможностью для каждого порожденного объекта относящегося к иерархии доступа к коду и данным всех порожденных объектов...
39893. Компоненты страницы Standard 146 KB
  Button1ClickSender: TObject; begin lbel4.Text; end; Результат работы процедуры: Пример: при изменении состояния флажка о его текущем состоянии будет выведена надпись.CheckBox1ClickSender: TObject; begin cse CheckBox1.Cption:= 'Включен'; end; end; Результат работы процедуры: Пример: при изменении состояния переключателя о его текущем состоянии будет выведена надпись.