10981

Однофакторный дисперсионный анализ

Лекция

Математика и математический анализ

Однофакторный дисперсионный анализ Для описания данных в большинстве случаев оказывается приемлема аддитивная модель. Она предполагает что значение отклика можно представить в виде суммы вклада воздействия фактора и независимой от вкладов факторов случайной велич...

Русский

2013-04-03

136.3 KB

20 чел.

Однофакторный дисперсионный анализ

Для описания данных в большинстве случаев оказывается приемлема аддитивная модель. Она предполагает, что значение отклика можно представить в виде суммы вклада (воздействия) фактора и независимой от вкладов факторов случайной величины. Иначе говоря, каждое наблюдение является суммой вида:

  (18.1)

Здесь неизвестные неслучайные величины, являющиеся результатом действия соответствующих обработок; независимые одинаково распределённые случайные величины, отражающие внутреннюю, присущую наблюдениям, изменчивость.

Если в рассматриваемой модели известно, что величины , то это позволяет использовать в модели однофакторного анализа более сильные методы, как для проверки гипотез, так и для оценки параметров. Совокупность этих методов носит название однофакторного дисперсионного анализа.

Это название связано с тем, что анализ модели (18.1) основан на сопоставлении двух оценок дисперсий . Одна из них действует вне зависимости от того, верна или нет гипотезы . Другая оценка существенно использует это предположение, она дает близкий к результат, только в том случае, если гипотеза верна. Сопоставляя эти две оценки, мы можем заключить, что следует отвергнуть, если дисперсии оказываются заметно (значимо) различны.

Т.к. каждая однородная группа (столбец) дает оценку , то для каждого столбца найдем выборочную сумму квадратов отклонений от выборочного среднего  (по фактору). Тогда получим:

   (18.2)

и далее вычисляем . Показано, что такую сумму квадратов можно представить в виде произведения , где случайная величина имеет распределение с степенями свободы. В связи с тем, что данные в разных столбцах получены независимо, то объединенная сумма квадратов имеет распределение с степенями свободы. Отсюда получаем основную оценку:

.    (18.3)

Следует обратить внимание, что при выводе оценки (18.3) мы не упоминали о гипотезе . Следовательно, независимо от того, верна гипотеза или нет.

Теперь получим другую оценку , для этого опять обратимся к столбцам (факторам). Полагаем, что

.     (18.4)

Отметим, что и статистически независимы. Найдем центр совокупности (18.4) с учетом весов средних значений , т.е. найдем, при каких значениях достигается минимум выражения:

   (18.5)

Минимум (18.5) достигается при :

.     (18.6)

Если верна гипотеза , то значение выражения (18.5) при имеет распределение , где распределение с степенями свободы. Отсюда следует вторая оценка для дисперсии:

   (18.7)

Учитывая, что независима от , то это справедливо и для их комбинаций. Поэтому оценки (18.3) и (18.7) являются независимыми.

Если гипотеза не верна (нарушена), то оценка (18.7) имеет тенденцию к возрастанию, тем большему, чем больше отклонение от .

Поскольку для оценки мы получили две независимые оценки и , имеющие при  гипотезе распределение хи-квадрат, их частное должно иметь  распределение Фишера – Снедекора с степенями свободы:

  (18.8)

Замечания:

  1.  При большом (неправдоподобно большом) значении гипотеза отвергается и принимается гипотеза . Аналогично, если вероятность того, что мала, то гипотезу следует отвергнуть.
  2.   распределение (распределение Фишера–Снедекора) обозначается обычно , где и числа степеней свободы. При   распределение приближается к нормальному закону.

Оценка эффектов обработки в нормальной модели
(Доверительные интервалы)

Если гипотеза оказалась несовместимой с наблюдениями, то есть основание для обсуждения параметров . Ранее было показано, что их оценками могут служить внутригрупповые средние , которые имеют распределение и статистически независимы от оценки дисперсии (18.3). Поэтому отношение:

     (18.9)

подчиняется распределению Стьюдента с степенями свободы. Теперь с помощью выражения (18.9) можно вычислить доверительный интервал для фактора с произвольной доверительной вероятностью :

.   (18.10)

Отсюда

   (18.11)

Таким образом, доверительный интервал для оценки будет равен:

   (18.12)

Пример ОДНОФАКТОРНЫЙ АНАЛИЗ

Проверим гипотезу об отсутствии влияния денежного вознаграждения на число решенных сотрудниками фирмы задач.

Таблица 1   

Уровни фактора

1

2

3

4

5

6

10

8

12

12

24

19

11

10

17

15

16

18

9

16

14

16

22

27

13

13

9

16

18

25

7

12

16

19

20

24

Решение

  1.  Ранговые критерии
  2.  Критерий Краскела – Уоллеса

В связи с наличием в таблице совпадений, применим средние ранги. После пересчета таблица примет вид:

Таблица 2   

Уровни фактора

1

2

3

4

5

6

5.5

2

9

9

27.5

23.5

7

5.5

20

14

17

21.5

3.5

17

13

17

26

30

11.5

11.5

3.5

17

21.5

29

1

9

17

23.5

25

27.5

28.5

45

62.5

80.5

117

131.5

5.7

9

12.5

16.1

23.4

26.3

По формуле (17.2) вычислим статистику , учитывая, что . Поставив все значения из табл. 4, окончательно получим  .

Величина имеет асимптотическое распределение с степенями свободы. По таблице найдем уровень значимости, соответствующий вычисленному значению, ≈ 0,001. С учетом повторов, можно пересчитать . Тогда, ввиду малости вероятности значения , гипотезу можно отвергнуть.

  1.  Критерий Джонкхиера

Предполагая монотонную зависимость количества решенных задач от материального стимула, считаем применение критерия оправданным. Для этого найдем статистику Манна – Уитни для всех пар: таких что ;

По формулам (17.8 и 17.9) вычислим:

Следовательно, По таблице нормального распределения получим , т.е. гипотезу следует отвергнуть.

  1.  Оценка дисперсионного анализа

Используя формулы (18.3, 18.7 и 18.8), вычислим:

 ;   

Т.о., значение очень велико и могло бы быть "не значимо" с вероятностью , значит гипотезу отвергаем.

Оценим теперь параметры модели (18.1) по формуле (18.2) и заодно вычислим 95% доверительный интервал для каждого параметра. Все данные сведем в таблицу:

Таблица 3   

Уровни фактора

1

10.0

1.00

7.177

12.823

2

11.8

1.3565

8.977

14.623

3

13.6

1.4353

10.777

16.423

4

15.6

1.1225

12.777

18.423

5

20.0

1.4142

17.177

22.823

6

22.6

1.7493

19.777

25.423

.