10971

Непараметрические гипотезы. Критерий согласия хи-квадрат

Лекция

Математика и математический анализ

Непараметрические гипотезы Критерий согласия хиквадрат Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины характеризующего изучаемый признак по опытному эмпирическому распределению...

Русский

2013-04-03

455.84 KB

15 чел.

Непараметрические гипотезы

Критерий согласия хи-квадрат

Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины, характеризующего изучаемый признак по опытному (эмпирическому распределению), представляющему вариационный ряд.

Для решения этой задачи необходимо определить вид и параметры закона распределения.

Предположения о виде закона распределения может быть выдвинуто исходя из теоретических предпосылок, опыта предшествующих аналогичных исследований, и, наконец, на основании графического изображения эмпирического распределения.

Параметры распределения, как правило, неизвестны, поэтому их заменяют выборочными оценками (несмещенными, эффективными и состоятельными).

Как бы хорошо ни был подобран теоретический закон распределения, между эмпирическим и теоретическим распределениями неизбежны расхождения. Естественно возникает вопрос, обусловлены ли эти расхождения только случайными факторами, связанными с ограниченным числом наблюдений (объемом выборки), или они являются существенными и обусловлены неудачным выбором теоретического закона распределения. Для ответа на этот вопрос и служат критерии согласия.

Для поверки эквивалентности плотности вероятности выборочных данных некоторой гипотетической плотности часто используется особый критерий, называемый критерием согласия хи-квадрат. Общая идея критерия заключается в использовании в качестве меры расхождения наблюдаемой плотности вероятности и гипотетической плотности некоторой статистики (оценки), приближенно подчиняющейся распределению хи-квадрат . Затем гипотеза относительно их эквивалентности проверяется путем изучения выборочного распределения этой статистики.

Пусть дана выборка из независимых наблюдений случайной величины с плотностью . Сгруппируем наблюдений по
интервалам, называемым интервалами группировки, которые в совокупности образуют гистограмму частот. Число наблюдений, попавших в й интервал, называется наблюденной частотой го интервала; обозначим её . Число наблюдений, которые могли бы попасть в й интервал, если бы истинной плотностью СВ была , называется ожидаемой частотой го интервала .

Расхождение между наблюденной и ожидаемой частотами в каждом интервале равно .

Для того чтобы измерить общее расхождение по всем интервалам, нормируем квадраты расхождений соответствующими ожидаемыми частотами и просуммируем их. В результате получим выборочную статистику (оценку):

(8.1)

Показано, что распределение приближенно совпадает с распределением. Число степеней свободы в этом случае равно (число интервалов группировки) минус число различных независимых линейных ограничений, наложенных на наблюдения. Рассмотрим эти ограничения подробнее:

  1.  Ограничение связано с тем, что частота в последнем интервале группировки полностью определяется частотами всех остальных интервалов, т.е. не является независимой величиной.
  2.  Если гипотетическая (предполагаемая) плотность – нормальная, с неизвестным математическим ожиданием и дисперсией, то появятся два дополнительных ограничения, поскольку для подбора нормальной плотности необходимо оценить два параметра .

Естественно, при проверке нормальности распределения . Для показательного распределения . Тогда .

После выбора числа степеней свободы величины проверка гипотезы производится следующим образом:

  1.  выдвигается гипотеза случайная величина имеет плотность распределения ;
  2.  группируем выборочные значения по интервалам и вычисляем ожидаемую частоту для каждого интервала в предположении, что ;
  3.  по формуле (8.1) находим значение ;
  4.  поскольку любое отклонение от вызовет увеличение , то используем односторонний критерий (см. рис. 8.1). Тогда область принятия гипотезы имеет вид:
  5.  если выборочная оценка превышает , то гипотеза о том, что , отвергается с уровнем значимости ;


Рис. 8.1 Критическая область критерия Пирсона ().

ПРИМЕЧАНИЯ:

1). Обычно ширину интервала группировки выбирают: .

2). В качестве первого и последнего интервалов выбирают интервалы, простирающиеся соответственно до −∞ и +∞. При этом должно выполняться условие . Если это условие не выполняется, то объединяем соседние интервалы.

Пример 1. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ

Имеется выборка из независимых наблюдений. Необходимо проверить гипотезу о нормальности выборочного распределения с помощью критерия Пирсона с уровнем значимости . Для удобства выборочные значения упорядочены по возрастанию и сведены в таблицу:

Таблица 1 Исходная упорядоченная по возрастанию выборка

-7.6

-3.8

-2.5

-1.6

-0.7

0.2

1.1

2.0

3.4

4.6

-6.9

-3.8

-2.5

-1.6

-0.7

0.2

1.1

2.1

3.5

4.8

-6.6

-3.7

-2.4

-1.6

-0.6

0.2

1.2

2.3

3.5

4.8

-6.4

-3.6

-2.3

-1.5

-0.6

0.3

1.2

2.3

3.6

4.9

-6.2

-3.5

-2.3

-1.5

-0.6

0.3

1.3

2.3

3.6

5.0

-6.1

-3.4

-2.3

-1.4

-0.5

0.3

1.3

2.4

3.6

5.2

-6.0

-3.4

-2.2

-1.4

-0.4

0.4

1.3

2.4

3.7

5.3

-5.7

-3.4

-2.2

-1.2

-0.4

0.4

1.4

2.5

3.7

5.4

-5.6

-3.3

-2.1

-1.2

-0.4

0.5

1.5

2.5

3.7

5.6

-5.5

-3.2

-2.1

-1.2

-0.3

0.5

1.5

2.6

3.7

5.9

-5.4

-3.2

-2.0

-1.1

-0.3

0.6

1.6

2.6

3.8

6.1

-5.2

-3.1

-2.0

-1.1

-0.2

0.6

1.6

2.6

3.8

6.3

-4.8

-3.0

-1.9

-1.0

-0.2

0.7

1.6

2.7

3.9

6.3

-4.6

-3.0

-1.9

-1.0

-0.2

0.8

1.7

2.8

4.0

6.5

-4.4

-2.9

-1.8

-1.0

-0.1

0.9

1.8

2.8

4.2

6.9

-4.4

-2.9

-1.8

-0.9

0.0

0.9

1.8

2.9

4.2

7.1

-4.3

-2.9

-1.8

-0.9

0.0

1.0

1.8

3.1

4.3

7.2

-4.1

-2.7

-1.7

-0.8

0.1

1.0

1.9

3.2

4.3

7.4

-4.0

-2.6

-1.7

-0.8

0.1

1.1

1.9

3.2

4..4

7.9

-3.8

-2.6

-1.6

-0.7

0.2

1.1

2.0

3.3

4.4

9.0

Решение:

  1.  Вначале вычислим выборочные оценки .
  2.  Сгруппируем имеющиеся данные, принимая ширину интервала равной .
  3.  Квантили нормального (гауссова) распределения возьмем из таблицы, не забывая, что первый интервал начинается на , а последний – заканчивается на . Из таблицы определим вероятности попасть в соответствующий интервал. Полученные результаты сведем в таблицу:

Таблица 2 Результаты расчетов

1

-2.0

-6.36

0.0228

4.5

4

0.5

0.06

2

-1.6

-5.04

0.0320

6.4

8

1.6

0.40

3

-1.2

-3.72

0.0603

12.1

10

2.1

0.36

4

-0.8

-2.40

0.0968

19.4

21

1.6

0.13

5

-0.4

-1.08

0.1327

26.5

29

2.5

0.24

6

0

0.24

0.1554

31.1

31

0.1

0.00

7

0.4

1.56

0.1554

31.1

27

4.1

0.54

8

0.8

2.88

0.1327

26.5

25

1.5

0.08

9

1.2

4.20

0.0968

19.4

20

0.6

0.02

10

1.6

5.52

0.0603

12.1

13

0.9

0.07

11

2.0

6.84

0.0320

6.4

6

0.4

0.03

12

0.0228

4.5

6

1.5

0.50

  1.  Как видно из таблицы, и больше трех. В данном случае число степеней свободы равно , а величина . По таблице распределения хи-квадрат найдем уровень значимости Т.к. , следовательно, гипотеза о нормальности принимается с уровнем значимости .

Критерий Колмогорова.

При анализе выборок малого объема невозможно применить критерий (группирование данных некорректно). В этом случае часто используется критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распределениями рассматривают максимальное значение абсолютной величины разности между эмпирической функцией распределения и соответствующей теоретической функцией распределения:

.

(8.2)

Оценка  называется статистикой критерия Колмогорова.

Доказано, что какова бы ни была функция распределения непрерывной случайной величины , при неограниченном увеличении числа наблюдений вероятность неравенства стремится к пределу

.

(8.3)

Задавая уровень значимости , из соотношения

(8.4)

можно найти соответствующее критическое значение .

Схема применения критерия Колмогорова

  1.  Строятся эмпирическая функция распределения и предполагаемая теоретическая функция распределения.
  2.  Определяется мера расхождения между теоретическим и эмпирическим распределением по формуле (8.2) и вычисляется величина

.

(8.4)

  1.  Если вычисленное значение окажется больше критического , определенного на уровне значимости , то нулевая гипотеза о том, что случайная величина имеет заданный закон распределения, отвергается (односторонний критерий). Если , то считают, что гипотеза не противоречит опытным данным.

Замечание

Можно отметить, что решение подобных задач можно было бы найти с помощью критерия . Потенциальное преимущества критерия Колмогорова в том, что он не требует группирования данных (с неизбежной потерей информации), а дает возможность рассматривать индивидуальные наблюдаемые значения. Этот критерий можно успешно применять для малых выборок. Считается, что его мощность, вообще говоря, выше, чем у критерия .

Пример 2. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ

Получена случайная выборка объема . Построим вариационный ряд и эмпирическую функцию распределения:

-1.0

-0.6

0.2

1.3

2.1

3.0

> 3

1 \ 6

1 \ 6

1 \ 6

1 \ 6

1 \ 6

1 \ 6

0

1 \ 6

2 \ 6

3 \ 6

4 \ 6

5 \ 6

1

Проверим гипотезу, что эти наблюдения образуют случайную выборку из распределения с уровнем значимости . Затем мы можем определить графически либо аналитически, причем эти значения должны появиться в точке , соответствующей одной из наблюдаемых величин. С этой целью необходимо вычислить пары величин и
(рис. 8.2) для каждого значения выборки.

Рис. 8.2 Мера расхождения в точке наблюдения .

Для вычисления вспомним: , где - функция стандартного нормального распределения. Результаты всех вычислений представим в виде таблицы:

-1.0

0.1667

0.0228

0.1439

0.0228

-0.6

0.3333

0.0548

0.2785

0.1119

0.2

0.5

0.2119

0.2881

0.1214

1.3

0.6667

0.6179

0.0488

0.1179

2.1

0.8333

0.8643

0.0310

0.1976

3.0

1.0000

0.9772

0.0228

0.1439

Из таблицы результатов следует: . Из статистических таблиц получим . Поскольку , то принимается гипотеза , т.е. можно считать, что данные подчиняются распределению .


 

А также другие работы, которые могут Вас заинтересовать

65384. РОЗРОБКА МІКРОПРОЦЕСОРНОГО КЕРУВАННЯ МАТРИЧНИМИ СВІТЛОДІОДНИМИ ВИПРОМІНЮВАЧАМИ 177.5 KB
  Основною причиною великих енергозатрат на освітлення є низький коефіцієнт корисної дії ККД сучасних лампових джерел світла який складає декілька відсотків. За останнє десятиліття розроблені світлодіодні джерела світла ККД яких досягає 80.
65385. УПРАВЛІННЯ ПРОЦЕСОМ ФОРМУВАННЯ ВРОЖАЙНОСТІ ЗЕРНА ПРОСА ПОСІВНОГО 1.49 MB
  Важливим є глибоке вивчення управління сортовими особливостями асиміляційного апарату рослин проса шляхом поєднання абіотичних і біотичних факторів та елементів технології вирощування на продуктивність рослин...
65386. РЕПРЕЗЕНТАЦІЯ ЧАСУ В СОЦІОЛОГІЇ 144.5 KB
  Представники різних наук, які, так чи інакше, підходять до проблематики часу відчувають раціональну потребу обєднати зусилля у його подальшому вивченні. Спроби співставити і порівняти різні тлумачення часу що пропонують фізики і біологи, геологи і екологи, психологи і логіки...
65387. ОБҐРУНТУВАННЯ ПАРАМЕТРІВ ПРОЦЕСУ ДОЗУВАННЯ І РОЗРОБКА РЕШІТНОГО ДОЗАТОРА КОНЦЕНТРОВАНИХ КОРМІВ 962.5 KB
  Тому створення конструкції і обґрунтування оптимальних параметрів решітного дозатора з вібророзрідженою подачею концентрованих кормів є актуальним і перспективним науковоприкладним завданням для розвитку тваринницької галузі України...
65388. РОБАСТНА ОБРОБКА СИГНАЛІВ НА ОСНОВІ АДАПТИВНОГО ОЦІНЮВАННЯ ПАРАМЕТРІВ НЕГАУСОВИХ ЗАВАД 364 KB
  На сучасному етапі розвитку техніки в Україні спостерігається збільшення числа радіотехнічних систем, а саме систем радіолокації, радіонавігації, дистанційного зондування (ДЗ) та моніторингу, телекомунікацій, тощо. При цьому збільшення об’єму інформації, що передається, зростання кількості користувачів...
65389. ПІДВИЩЕННЯ ЕФЕКТИВНОСТІ ФУНКЦІОНУВАННЯ СОРТУВАЛЬНИХ ГІРОК ШЛЯХОМ УДОСКОНАЛЕННЯ СТРУКТУР ЇХ ГОРЛОВИН 350.5 KB
  Для досягнення поставленої мети необхідно вирішити наступні задачі: 1 провести аналіз відомих структур та теорій розрахунку параметрів гіркових горловин; 2 розробити новий клас структур гіркових горловин СГГ і провести дослідження ефективності їх застосування...
65390. РЕГУЛЮВАННЯ ЕКОЛОГІЧНИХ НАСЛІДКІВ ДІЯЛЬНОСТІ ПРОМИСЛОВОГО ПІДПРИЄМСТВА 235 KB
  Регулювання екологічних аспектів діяльності підприємства Показники екологічності як результат управління екологічними аспектами діяльності підприємства Показники екологічності системи адміністра тивного управління підприємства...
65391. Розробка оптимальних за тепловими втратами систем керування позиційним електроприводом 8.88 MB
  Для позиційних електроприводів розроблені закони керування оптимальні за швидкодією або за тепловими втратами. Застосування систем регулювання положення СРП оптимальних за тепловими втратами дозволяє знизити непродуктивні витрати електроенергії...
65392. ВПЛИВ ДОВГОТРИВАЛОГО ЗАСТОСУВАННЯ РІЗНИХ СИСТЕМ УДОБРЕННЯ НА ГУМУСОВИЙ СТАН ТА АГРОХІМІЧНІ ПОКАЗНИКИ ДЕРНОВО-ПІДЗОЛИСТОГО ГРУНТУ ЗАХІДНОГО ПОЛІССЯ УКРАЇНИ 1.03 MB
  Мета роботи встановити закономірності змін гумусового стану і агрохімічних показників дерновопідзолистого поверхнево оглеєного супіщаного ґрунту за довготривалого застосування вапна гною і мінеральних добрив та оптимізувати систему удобрення...