10971

Непараметрические гипотезы. Критерий согласия хи-квадрат

Лекция

Математика и математический анализ

Непараметрические гипотезы Критерий согласия хиквадрат Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины характеризующего изучаемый признак по опытному эмпирическому распределению...

Русский

2013-04-03

455.84 KB

15 чел.

Непараметрические гипотезы

Критерий согласия хи-квадрат

Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины, характеризующего изучаемый признак по опытному (эмпирическому распределению), представляющему вариационный ряд.

Для решения этой задачи необходимо определить вид и параметры закона распределения.

Предположения о виде закона распределения может быть выдвинуто исходя из теоретических предпосылок, опыта предшествующих аналогичных исследований, и, наконец, на основании графического изображения эмпирического распределения.

Параметры распределения, как правило, неизвестны, поэтому их заменяют выборочными оценками (несмещенными, эффективными и состоятельными).

Как бы хорошо ни был подобран теоретический закон распределения, между эмпирическим и теоретическим распределениями неизбежны расхождения. Естественно возникает вопрос, обусловлены ли эти расхождения только случайными факторами, связанными с ограниченным числом наблюдений (объемом выборки), или они являются существенными и обусловлены неудачным выбором теоретического закона распределения. Для ответа на этот вопрос и служат критерии согласия.

Для поверки эквивалентности плотности вероятности выборочных данных некоторой гипотетической плотности часто используется особый критерий, называемый критерием согласия хи-квадрат. Общая идея критерия заключается в использовании в качестве меры расхождения наблюдаемой плотности вероятности и гипотетической плотности некоторой статистики (оценки), приближенно подчиняющейся распределению хи-квадрат . Затем гипотеза относительно их эквивалентности проверяется путем изучения выборочного распределения этой статистики.

Пусть дана выборка из независимых наблюдений случайной величины с плотностью . Сгруппируем наблюдений по
интервалам, называемым интервалами группировки, которые в совокупности образуют гистограмму частот. Число наблюдений, попавших в й интервал, называется наблюденной частотой го интервала; обозначим её . Число наблюдений, которые могли бы попасть в й интервал, если бы истинной плотностью СВ была , называется ожидаемой частотой го интервала .

Расхождение между наблюденной и ожидаемой частотами в каждом интервале равно .

Для того чтобы измерить общее расхождение по всем интервалам, нормируем квадраты расхождений соответствующими ожидаемыми частотами и просуммируем их. В результате получим выборочную статистику (оценку):

(8.1)

Показано, что распределение приближенно совпадает с распределением. Число степеней свободы в этом случае равно (число интервалов группировки) минус число различных независимых линейных ограничений, наложенных на наблюдения. Рассмотрим эти ограничения подробнее:

  1.  Ограничение связано с тем, что частота в последнем интервале группировки полностью определяется частотами всех остальных интервалов, т.е. не является независимой величиной.
  2.  Если гипотетическая (предполагаемая) плотность – нормальная, с неизвестным математическим ожиданием и дисперсией, то появятся два дополнительных ограничения, поскольку для подбора нормальной плотности необходимо оценить два параметра .

Естественно, при проверке нормальности распределения . Для показательного распределения . Тогда .

После выбора числа степеней свободы величины проверка гипотезы производится следующим образом:

  1.  выдвигается гипотеза случайная величина имеет плотность распределения ;
  2.  группируем выборочные значения по интервалам и вычисляем ожидаемую частоту для каждого интервала в предположении, что ;
  3.  по формуле (8.1) находим значение ;
  4.  поскольку любое отклонение от вызовет увеличение , то используем односторонний критерий (см. рис. 8.1). Тогда область принятия гипотезы имеет вид:
  5.  если выборочная оценка превышает , то гипотеза о том, что , отвергается с уровнем значимости ;


Рис. 8.1 Критическая область критерия Пирсона ().

ПРИМЕЧАНИЯ:

1). Обычно ширину интервала группировки выбирают: .

2). В качестве первого и последнего интервалов выбирают интервалы, простирающиеся соответственно до −∞ и +∞. При этом должно выполняться условие . Если это условие не выполняется, то объединяем соседние интервалы.

Пример 1. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ

Имеется выборка из независимых наблюдений. Необходимо проверить гипотезу о нормальности выборочного распределения с помощью критерия Пирсона с уровнем значимости . Для удобства выборочные значения упорядочены по возрастанию и сведены в таблицу:

Таблица 1 Исходная упорядоченная по возрастанию выборка

-7.6

-3.8

-2.5

-1.6

-0.7

0.2

1.1

2.0

3.4

4.6

-6.9

-3.8

-2.5

-1.6

-0.7

0.2

1.1

2.1

3.5

4.8

-6.6

-3.7

-2.4

-1.6

-0.6

0.2

1.2

2.3

3.5

4.8

-6.4

-3.6

-2.3

-1.5

-0.6

0.3

1.2

2.3

3.6

4.9

-6.2

-3.5

-2.3

-1.5

-0.6

0.3

1.3

2.3

3.6

5.0

-6.1

-3.4

-2.3

-1.4

-0.5

0.3

1.3

2.4

3.6

5.2

-6.0

-3.4

-2.2

-1.4

-0.4

0.4

1.3

2.4

3.7

5.3

-5.7

-3.4

-2.2

-1.2

-0.4

0.4

1.4

2.5

3.7

5.4

-5.6

-3.3

-2.1

-1.2

-0.4

0.5

1.5

2.5

3.7

5.6

-5.5

-3.2

-2.1

-1.2

-0.3

0.5

1.5

2.6

3.7

5.9

-5.4

-3.2

-2.0

-1.1

-0.3

0.6

1.6

2.6

3.8

6.1

-5.2

-3.1

-2.0

-1.1

-0.2

0.6

1.6

2.6

3.8

6.3

-4.8

-3.0

-1.9

-1.0

-0.2

0.7

1.6

2.7

3.9

6.3

-4.6

-3.0

-1.9

-1.0

-0.2

0.8

1.7

2.8

4.0

6.5

-4.4

-2.9

-1.8

-1.0

-0.1

0.9

1.8

2.8

4.2

6.9

-4.4

-2.9

-1.8

-0.9

0.0

0.9

1.8

2.9

4.2

7.1

-4.3

-2.9

-1.8

-0.9

0.0

1.0

1.8

3.1

4.3

7.2

-4.1

-2.7

-1.7

-0.8

0.1

1.0

1.9

3.2

4.3

7.4

-4.0

-2.6

-1.7

-0.8

0.1

1.1

1.9

3.2

4..4

7.9

-3.8

-2.6

-1.6

-0.7

0.2

1.1

2.0

3.3

4.4

9.0

Решение:

  1.  Вначале вычислим выборочные оценки .
  2.  Сгруппируем имеющиеся данные, принимая ширину интервала равной .
  3.  Квантили нормального (гауссова) распределения возьмем из таблицы, не забывая, что первый интервал начинается на , а последний – заканчивается на . Из таблицы определим вероятности попасть в соответствующий интервал. Полученные результаты сведем в таблицу:

Таблица 2 Результаты расчетов

1

-2.0

-6.36

0.0228

4.5

4

0.5

0.06

2

-1.6

-5.04

0.0320

6.4

8

1.6

0.40

3

-1.2

-3.72

0.0603

12.1

10

2.1

0.36

4

-0.8

-2.40

0.0968

19.4

21

1.6

0.13

5

-0.4

-1.08

0.1327

26.5

29

2.5

0.24

6

0

0.24

0.1554

31.1

31

0.1

0.00

7

0.4

1.56

0.1554

31.1

27

4.1

0.54

8

0.8

2.88

0.1327

26.5

25

1.5

0.08

9

1.2

4.20

0.0968

19.4

20

0.6

0.02

10

1.6

5.52

0.0603

12.1

13

0.9

0.07

11

2.0

6.84

0.0320

6.4

6

0.4

0.03

12

0.0228

4.5

6

1.5

0.50

  1.  Как видно из таблицы, и больше трех. В данном случае число степеней свободы равно , а величина . По таблице распределения хи-квадрат найдем уровень значимости Т.к. , следовательно, гипотеза о нормальности принимается с уровнем значимости .

Критерий Колмогорова.

При анализе выборок малого объема невозможно применить критерий (группирование данных некорректно). В этом случае часто используется критерий Колмогорова, в котором в качестве меры расхождения между теоретическим и эмпирическим распределениями рассматривают максимальное значение абсолютной величины разности между эмпирической функцией распределения и соответствующей теоретической функцией распределения:

.

(8.2)

Оценка  называется статистикой критерия Колмогорова.

Доказано, что какова бы ни была функция распределения непрерывной случайной величины , при неограниченном увеличении числа наблюдений вероятность неравенства стремится к пределу

.

(8.3)

Задавая уровень значимости , из соотношения

(8.4)

можно найти соответствующее критическое значение .

Схема применения критерия Колмогорова

  1.  Строятся эмпирическая функция распределения и предполагаемая теоретическая функция распределения.
  2.  Определяется мера расхождения между теоретическим и эмпирическим распределением по формуле (8.2) и вычисляется величина

.

(8.4)

  1.  Если вычисленное значение окажется больше критического , определенного на уровне значимости , то нулевая гипотеза о том, что случайная величина имеет заданный закон распределения, отвергается (односторонний критерий). Если , то считают, что гипотеза не противоречит опытным данным.

Замечание

Можно отметить, что решение подобных задач можно было бы найти с помощью критерия . Потенциальное преимущества критерия Колмогорова в том, что он не требует группирования данных (с неизбежной потерей информации), а дает возможность рассматривать индивидуальные наблюдаемые значения. Этот критерий можно успешно применять для малых выборок. Считается, что его мощность, вообще говоря, выше, чем у критерия .

Пример 2. ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ

Получена случайная выборка объема . Построим вариационный ряд и эмпирическую функцию распределения:

-1.0

-0.6

0.2

1.3

2.1

3.0

> 3

1 \ 6

1 \ 6

1 \ 6

1 \ 6

1 \ 6

1 \ 6

0

1 \ 6

2 \ 6

3 \ 6

4 \ 6

5 \ 6

1

Проверим гипотезу, что эти наблюдения образуют случайную выборку из распределения с уровнем значимости . Затем мы можем определить графически либо аналитически, причем эти значения должны появиться в точке , соответствующей одной из наблюдаемых величин. С этой целью необходимо вычислить пары величин и
(рис. 8.2) для каждого значения выборки.

Рис. 8.2 Мера расхождения в точке наблюдения .

Для вычисления вспомним: , где - функция стандартного нормального распределения. Результаты всех вычислений представим в виде таблицы:

-1.0

0.1667

0.0228

0.1439

0.0228

-0.6

0.3333

0.0548

0.2785

0.1119

0.2

0.5

0.2119

0.2881

0.1214

1.3

0.6667

0.6179

0.0488

0.1179

2.1

0.8333

0.8643

0.0310

0.1976

3.0

1.0000

0.9772

0.0228

0.1439

Из таблицы результатов следует: . Из статистических таблиц получим . Поскольку , то принимается гипотеза , т.е. можно считать, что данные подчиняются распределению .


 

А также другие работы, которые могут Вас заинтересовать

80229. Современные форматы видео 988.5 KB
  Аналоговый видеосигнал включает в себя несколько различных компонентов, объединенных в единое целое. Такой составной видеосигнал малопригоден для оцифровки. Предварительно его следует разделить на так называемые базовые компоненты. Обычно компоненты представляют собой три различных сигнала, соответствующие определенной модели представления цветового пространства
80230. Алгоритм сжатия видео. Основные особенности MPEG 160 KB
  Сначала все цветовое пространство кадра преобразуется из RGB в YCbCr. Необходимость этого преобразования заключается в том, что глаз более чувствителен к яркости цвета, чем к его оттенку. Y - это величина яркости цвета, а Cb и Cr - цветовые величины, определяющие оттенок и насыщение цвета (они определяют количество синей и красной составляющих в цвете).
80231. СРЕДСТВА МУЛЬТИМЕДИА 94.5 KB
  Мультимедиа это интерактивные системы обеспечивающие работу с неподвижными изображениями и движущимся видео анимированной компьютерной графикой и текстом речью и высококачественным звуком. Появление систем мультимедиа безусловно производит революционные изменения в таких областях как образование компьютерный тренинг во многих сферах профессиональной деятельности науки искусства в компьютерных играх и т. Появление систем мультимедиа подготовлено как с требованиями практики так и с развитием теории.
80232. Системи мультимедіа 543.5 KB
  Цифровий відеозапис забезпечує помітно кращу якість кадру, чіткіше зображення і кращу передачу кольорів. Більш того, цифрову копію відеофільму не відрізниш від оригіналу, що робить редагування і обробку зображення, навіть на рівні любителя, значно простіше, а якість - вищим в порівнянні з аналоговою відеотехнологією.
80233. Планування в організації 13.07 MB
  Планування в організації. Сутність планування як функції управління Щоб спільні зусилля співробітників організації були успішними вони повинні знати що від них очікується. Для цього необхідно: сформулювати цілі до яких прагне організація; визначити шляхи досягнення встановлених цілей; на підставі цього поставити задачі перед підрозділами організації та конкретними виконавцями. Планування – процес визначення цілей організації та прийняття рішень щодо шляхів їх досягнення.
80234. Командні ролі 42 KB
  Командні ролі описують типову схему конструктивної поведінки людини в команді. Не слід плутати командні ролі з типом особи, під яким розуміють переважний спосіб взаємодії з навколишнім світом або спрямованість психологічної енергії. Командна роль, яку людина переймає на себе часто залежить від складу і стану команди
80235. Мотивація. Процесні теорії мотивації 10.37 MB
  Потреби поділяють на: потреби першого роду первісні які за своєю сутністю є фізіологічними потреби в їжі сні тощо; потреби другого роду вторинні які носять соціально психологічний характер потреби в повазі владі визнанні заслуг тощо. Потреби першого роду закладені в людину генетично а другого – є наслідком її соціальної життєдіяльності. Потреби неможливо безпосередньо спостерігати або вимірювати. Потреба яка реально відчувається людиною викликає у неї прагнення здійснити конкретні дії спрямовані на задоволення цієї потреби.
80236. Управлінський контроль. Контроль поведінки працівників в організації 10.37 MB
  Управлінський контроль Поняття та процес контролю. Інструменти управлінського контролю. Поняття та процес контролю Контроль – це процес забезпечення досягнення цілей організації шляхом постійного спостереження за її діяльністю та усунення відхилень які при цьому виникають. В межах процесу контролю модель якого наведена на рис.
80237. Лідерство. Ситуаційні теорії лідерства 142.5 KB
  Наявність права впливати на діяльність підлеглих є необхідною передумовою керування але ще не гарантує ефективності такого впливу. Але перебуванням нагорі визначає лише видимість керування а не його сутність. Отже поведінковий підхід спирається на стиль керування. Стиль керування це манера поведінки керівника щодо підлеглих через яку і здійснюється вплив на працівників організації.