87841

Построение прямых линий регрессии по выборочным данным

Лекция

Математика и математический анализ

СВ независимы если закон распределения одной из них не зависит от того какие значения принимает другая СВ. Статистической называется такая зависимость при которой изменение одной из них влечет за собой изменение распределения другой.

Русский

2015-04-23

426.8 KB

7 чел.

ЛЕКЦИЯ №3

Построение прямых линий регрессии по выборочным данным

Две СВ могут быть связаны либо функциональной зависимостью, либо быть независимыми, либо связаны зависимостью другого рода, называемой статистической (иначе стохастической). 

Как правило, функциональная зависимость реализуется редко, так как одна или две СВ подвержены действию многих случайных факторов.

СВ независимы, если закон распределения одной из них не зависит от того, какие значения принимает другая СВ.

Статистической называется такая зависимость, при которой изменение одной из них влечет за собой изменение распределения другой. В частности, если при изменении одной из величин изменяется среднее значение (условное матожидание) другой, статистическую зависимость называют корреляционной.

Приведем примеры статистической зависимости:

1.Рост школьников и их возраст

2.Количество удобрений внесенных на и урожай с этого участка.

Пусть изучается система количественных признаков Допустим в результате независимых опытов получены пар чисел которые могут быть представлены в виде таблицы:

    Таблица 1

 

Рассмотрим случай, когда есть основания предполагать наличие линейной корреляционной зависимости между величинами и (в генеральной совокупности их значений) т.е. когда линейные уравнения регрессии имеют вид:

        (1)

(1) –уравнение линейной регрессии  на

        (2)

(2)  –уравнение линейной регрессии  на

−условное матожидание при конкретном

− условное матожидание при конкретном

В этих случаях для описания корреляционных зависимостей между величинами и по результатам выборочных наблюдений вводят выборочные уравнения линейной регрессии на и на

         (3)

(3) –уравнение линейной регрессии  на

         (4)

(4)  –уравнение линейной регрессии  на

где - выборочные коэффициенты линейной  регрессии, имеющие смысл выборочных оценок коэффициентов и в формулах (1), (2). При этом и являются оценками условных математических ожиданий и а параметры и - оценками и

Нахождение параметров выборочных уравнений прямой линии регрессии

Пусть в результате независимых опытов получены пар значений системы которые могут быть заданы (табл. 1). По этим статистическим данным найдем сначала параметры (коэффициенты) уравнения (3) регрессии на

         (5)

Так как различные значения  и соответствующие им значения наблюдались по одному разу, то группировать данные нет необходимости; также нет надобности использовать понятие условной средней (−условное матожидание при конкретном − условное матожидание при конкретном ), поэтому уравнение (3) можно записать:

         (6)

Подберем параметры и  так, чтобы точки построенные по данным наблюдениям на плоскости лежали как можно ближе к прямой (5). 

Разность – является отклонением ординаты вычисленной с помощью уравнения (5) при от наблюдаемой ординаты (табличное значение), соответствующей значению Используем в дальнейшем метод наименьших квадратов, а именно подберем и так, чтобы сумма квадратов отклонений была минимальной, т.е. составим функцию

Исследуем функцию на минимум, приравниваем к нулю ее частные производные 1-го порядка:

(7)

Получим систему двух линейных уравнений относительно и

     (8)

Решив эту систему, получим: 

Применяя безындексную форму:

Аналогично можно найти выборочные уравнения прямой линии регрессии на формулы для параметров и имеют вид:

Однако иногда уравнение регрессии (5) удобно записать в другой форме, вводя выборочный коэффициент корреляции. Найдя из уравнения второго системы (8) и подставляя в уравнение (5), получим:

 

       (9)

Если ввести соотношение где

     (10)

(10) – выборочный коэффициент корреляции.

Действительно,  

разделим числитель и знаменатель на

но отсюда

  Тогда

       (11)

(11)выборочное уравнение регрессии  на Аналогично находится выборочное уравнение линейной регрессии на .

        (12)

−выборочные средние квадратические отклонения

Пример 1. Методами корреляционного анализа исследовать зависимость между урожайностью пшеницы и картофеля на соседних участках на основании статистических данных (США). Построить выборочное уравнение линейной регрессии.

         Таблица 2

Годы:

1926

1927

1928

1929

1930

1931

1932

1933

Урожай пшеница (ц)

20,1

23,6

26,3

19,9

16,7

23,2

31,9

33,5

Урожай картофель(т)

7,2

7,1

7,4

6,1

6,0

7,3

9,4

9,2

Решение

Таблица 3

1

20,1

7,2

404,1

51,84

144,72

2

23,6

7,1

556,96

50,41

167,56

3

26,3

7,4

691,69

54,76

194,62

4

19,9

6,1

396,01

37,21

121,39

5

16,7

6,0

278,89

36,0

100,2

6

23,2

7,3

538,24

53,29

169,36

7

31,4

9,4

985,96

88,36

295,16

8

33,5

9,2

1122,25

84,64

308,2

Выборочное уравнение линейной регрессии на имеет вид:

 

 

Уравнение линейной регрессии на имеет вид:

Аналогично уравнение линейной регрессии на имеет вид:

 

Таким образом, уравнение линейной регрессии на имеет вид:

Нахождение оценки для коэффициента корреляции двух случайных величин

Пусть над системой СВ произведено в одинаковых условиях независимых опытов. Результаты опытов:

      (13)

являются независимыми системами СВ, матожидания, дисперсии, корреляционные моменты которых одинаковы:

 

Требуется на основании статистических данных (13) найти оценки этих числовых характеристик системы. Для математических ожиданий и дисперсий компонент системы имеем известные формулы для их оценок:

(14)

Так как корреляционный момент равен:

будем искать оценку для него в виде:

      (15)

причем в силу равноточности измерений Неизвестный коэффициент определяется из условия несмещенности оценки (15).

 

После преобразования выражений, стоящих под знаком суммы, получим несмещенную, состоятельную оценку для корреляционного момента:

     (16)

Выборочный коэффициент корреляции определяется по формуле:

         (17)

Вместо формул (16) и (17) для выборочного коэффициента корреляции полезно иметь расчетные формулы, использующие статистические данные (13). Имеем:

 

Таким образом, для выборочного коэффициента корреляции имеем следующую формулу:

        (18)

Если использовать вместо «исправленных» выборочных дисперсий  выборочные дисперсии  то с использованием формулы их связи: вместо формулы (18) получим:

        (19)

Выборочный коэффициент корреляции является оценкой коэффициента корреляции .

 Пример 2. Используя данные в примере 1., найти выборочные коэффициенты корреляции.

Решение:

Используя формулу (19) имеем:

Статистическая проверка гипотез. Статистическая гипотеза. Нулевая и конкурирующая гипотеза. Статистический критерий. Критическая область

При исследовании случайной величины X на основании статистических данных довольно часто необходимо знать закон распределения генеральной совокупности или, если закон распределения известен, его параметры. В этих случаях выдвигают гипотезы о виде предполагаемого распределения или о предполагаемой величине параметра известного распределения.

Статистической называют гипотезу о виде неизвестного распределения или о параметрах известных распределений.

Нулевой (основной) называют выдвинутую гипотезу .  Конкурирующей (альтернативной) называют гипотезу , которая противоречит основной.

Например, если нулевая гипотеза состоит в предположении, что математическое ожидание нормального распределения равно 5, то конкурирующая гипотеза состоит в предположении, что . Кратко это записывают так:; .

Проверку выдвинутой гипотезы осуществляют статистическими методами, поэтому ее называют статистической проверкой гипотез. В итоге статистической проверки гипотезы может быть принято неправильное решение, т.е. могут быть допущены ошибки двух родов:

1) ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза;

2) ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Правильное решение может быть принято также в двух случаях:

1) гипотеза принимается, причем она и в действительности правильная;

2) гипотеза отвергается, причем она и в действительности неверна.

Вероятность совершить ошибку первого рода (отвергнуть правильную гипотезу) принято обозначать через ; ее называют уровнем значимости. Наиболее часто уровень значимости принимают равным 0,05 или 0,01. 

Если, например, принят уровень значимости 0,01, то это значит, что имеется риск отвергнуть правильную гипотезу в одном случае из ста.

Статистическим критерием (или просто критерием) называют случайную величину , которая служит для проверки нулевой гипотезы. Часто критерием служит случайная величина, распределенная по закону 2 или закону Стьюдента.

Рис. 1

Наблюдаемым значением Кнабл. называют значение критерия, вычисленное по выборке, т.е. получают частное (наблюдаемое) значение критерия, вычисленное с помощью частных значений, входящих в критерий величин. После установления множество его значений разбивается на два пересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, другое – при которых она принимается.

Критической областью называют множество значений критерия, при которых нулевую гипотезу отвергают.

Областью допустимых значений (область принятия гипотезы) называют множество значений критерия, при которых нулевую гипотезу принимают.

Идея метода статистических гипотез состоит в следующем: если наблюдаемое значение критерия принадлежит критической области – нулевую гипотезу отвергают; если наблюдаемое значение принадлежит области допустимых значений – нулевую гипотезу принимают.

Критическая область и область принятия гипотезы представляют собой интервалы, поэтому существуют точки, которые их разделяют.

Критическими точками кр называют точки, разделяющие критическую область и область принятия гипотезы.

Различают односторонние критические области (правосторонние и левосторонние) и двусторонние.

Правосторонней называют критическую область, определяемую неравенством кр, где кр>0 (рис. 1, а).

 Левосторонней называют критическую область, определяемую неравенством кр, где кр < 0 (рис. 1,b).

 Двусторонней называют критическую область, определяемую неравенствами , где . В частности, если критические точки симметричны, двусторонняя критическая область определяется неравенствами кр, кр или кр (рис.1,c).

Нахождение правосторонней критической области

Как известно, правосторонняя критическая область определяется неравенством кр. Для нахождения критической точки кр задаем достаточно малую вероятность – уровень значимости . Затем находим критическую точку исходя из требования, чтобы при условии справедливости нулевой гипотезы вероятность того, что кр., была равна

кр=.         (20)

Обоснование равенства (20) заключается в следующем: так как вероятность события кр мала ( – малая вероятность), то при справедливости нулевой гипотезы это событие не должно наступить в единичном испытании; если же оно произошло, т.е. наблюдаемое значение критерия оказалось больше кр, то это можно объяснить тем, что нулевая гипотеза ложна и должна быть отвергнута. С другой стороны, наблюдаемое значение может оказаться большим кр не потому, что нулевая гипотеза ложна, а по другим причинам (малый объем выборки, недостатки методики эксперимента и др.). В этом случае, отвергнув нулевую гипотезу совершают ошибку первого рода. Вероятность этой ошибки равна уровню значимости .

Критическая точка кр находится по таблицам критических точек распределения критерия и заданному уровню значимости .

Если критическая точка кр уже найдена, по данным выборки вычисляют наблюдаемое значение критерия наб и, если окажется, что наб > кр − нулевую гипотезу отвергают; если же наб < кр – нет оснований отвергать нулевую гипотезу.

Нахождение левосторонней критической области

Левосторонняя критическая область определяется неравенством <кр(кр<0). Критическую точку кр находят исходя из требования, чтобы при условии справедливости нулевой гипотезы вероятность того, что критерий примет значение, меньшее кр, была равна принятому уровню значимости :

кр.        (21)

Если набкр – нулевая гипотеза отвергается, если наб > kкр – нет оснований отвергать нулевую гипотезу.

Нахождение двусторонней критической области

Двусторонняя критическая область определяется неравенствами (). Задаем уровень значимости . Критические точки и находят исходя из требования, чтобы при справедливости нулевой гипотезы выполнялось равенство:

      (22)

Ясно, что критические точки и могут быть выбраны бесконечным числом способов. Если распределение является симметричным относительно , выбирают симметричные критические точки: кр,кр, (кр>0). В этом случае кр)кр), и поэтому:

кр).        (23)

Из соотношения (23) определяют кр. После ее нахождения находят наб и, если набкр – нулевую гипотезу отвергают; если набкр – нет оснований отвергать нулевую гипотезу.

Проверка гипотезы о значимости выборочного коэффициента корреляции

Пусть двумерная генеральная совокупность распределена по нормальному закону. Из этой совокупности извлечена выборка объема n и по ней найден выборочный коэффициент корреляции . Выборочный коэффициент является оценкой для коэффициента корреляции и, в общем случае, отличается от него; более того, между величинами и может отсутствовать корреляционная зависимость. Следовательно, в силу того, что выборка случайна, из того, что выборочный коэффициент корреляции нельзя заключить, что коэффициент корреляции генеральной совокупности также отличен от нуля. Возникает необходимость при заданном уровне значимости проверить нулевую гипотезу при конкурирующей гипотезе . Если нулевая гипотеза отвергается, то это будет означать, что выборочный коэффициент корреляции является значимым (выборочный коэффициент корреляции значимо отличается от нуля), а случайные величины X и Y коррелированны, т.е. связаны корреляционной зависимостью. Если нулевая гипотеза будет принята, то это будет означать, что выборочный коэффициент корреляции не является значимым, а случайные величины X и Y некоррелированны. В качестве критерия возьмем случайную величину:

        (24)

 Известно (в случае нормального распределения (X,Y)), что эта случайная величина распределена по закону Стьюдента с степенями свободы. В силу того, что распределение Стьюдента является симметричным, критическую область удобно брать симметричной: кр. Критическая точка кр находится по таблице критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы . Затем вычисляют (по данным выборки) наб.  

Если набкр – нулевую гипотезу отвергают. Если набкр, нет оснований отвергать нулевую гипотезу.

 Пример 3. По выборке объемом n=8 из двумерной генеральной совокупности (X,Y), распределенной по нормальному закону, найден выборочный коэффициент корреляции =0,945. При уровне значимости =0,05 проверить нулевую гипотезу при альтернативной гипотезе .

Решение: По уровню значимости и числу степеней свободы распределения Стьюдента  находим критических точек распределения Стьюдента (для двусторонней критической области): кр=2,45. Вычисляем наблюдаемое значение критерия по формуле (24): наб; набкр, следовательно, нулевая гипотеза отвергается; случайные величины X и Y коррелированны.

Пример 4. По выборке объемом n=150 из двумерной генеральной совокупности (X,Y), распределенной по нормальному закону, найден выборочный коэффициент корреляции =0,7. При уровне значимости проверить нулевую гипотезу при альтернативной гипотезе .

Решение: Вычислим сначала наблюдаемое значение критерия: наб. Критическая точка кр может быть найдена по таблице распределения Стьюдента (для двусторонней критической области) по и числу степеней свободы =148; имеем кр=2,58. набкр. Отсюда делаем вывод: нулевая гипотеза отвергается. Следовательно, выборочный коэффициент корреляции является значимым; между X и Y существует корреляционная связь.

2-распределение

Рис. 2

Пусть случайная величина Х имеет нормальное распределение с параметрами (0,1). Плотность распределения ее квадрата Х2 равна при y>0; а при y  0 функция плотности равна 0. Пусть теперь каждая из n независимых случайных величин  имеет нормальное распределение с параметрами (0,1). Введем случайную величину:

.       (25)

Случайная величина (25) называется 2- распределением (хи- квадрат распределением) с n степенями свободы. Формула для построения композиции распределений независимых случайных величин :

      (26)

Здесь – гамма-функция, значения которой определяются по таблицам для р>0. 2- распределение содержит параметр n, который часто называют  числом степеней свободы этого распределения. При функция плотности убывает для х>0, а при n>2 имеет единственный максимум в точке х = n -2. Графики функций для некоторых n изображены на рис. 2.

Рис. 3

Вычисляя, как обычно, числовые характеристики этой случайной величины, можно получить формулы для математического ожидания и дисперсии этой случайной величины: Во многих приложениях бывает важно найти вероятность Р того, что величина 2 принимает значение, превышающее данную величину . Эта вероятность равна площади, ограниченной ветвью кривой плотности, расположенной справа от (рис. 3). Таким образом,

,

где - функция распределения этой случайной величины. Обычно более удобно табулировать как функцию вероятности P. Если p выражается в процентах, скажем , то называют р-процентным значением, иначе р-процентным квантилем этого распределения.

Рис. 4

Замечание. В задачах математической статистики используется случайная величина – -распределение с n степенями свободы. Плотность вероятности этой случайной величины имеет вид:

 (27)

На рис. 4 представлен график плотности распределения этой случайной величины при некоторых n.

Распределение Стьюдента

Пусть Z – случайная величина, имеющая нормальное распределение N(0,1), а V – независимая от Z случайная величина, распределенная по закону 2 с n степенями свободы. Введем случайную величину:

.          (28)

Тогда соответствующая этой случайной величине плотность распределения имеет вид: , где

.          (29)

Распределение, определяемое функцией плотности sn(x), известно под названием распределения Стьюдента или t-распределения. Оно было впервые использовано в одной важной статистической проблеме В.Госсетом, писавшим под псевдонимом “Стьюдент” (Student). Как и в случае 2-распределения, параметр n часто называют числом степеней свободы t-распределения. Нетрудно убедиться, что это распределение унимодально и симметрично относительно x = 0. При <n моменты -го порядка конечны. В частности, математическое ожидание конечно при n>1, а стандартное (среднеквадратическое) отклонение – при n>2. Вследствие симметричности распределения все существующие моменты нечетного порядка равны нулю. Нетрудно показать, что , (n > 2). Для больших значений n величина T асимптотически нормальна с параметрами (0,1) в соответ

 Рис. 5

ствии с соотношением . Для небольших значений n t-распределение заметно отличается от предельного нормального распределения. График распределения Стьюдента для n = 3 вместе с приведенной для сравнения нормальной кривой дан на рис. 5.

Рис. 6

Вероятность того, что величина T отличается по модулю более чем на заданную величину от своего математического ожидания (равного нулю), равна площади заштрихованной области на рис. 6. В силу симметрии t-распределения она равна   где – функция распределения этой случайной величины. Исходя из этого, можно табулировать t0 как функцию вероятности P. Если , то соответствующее t0 = tp называется р-процентным значением или р-процентным квантилем распределения. Численные значения этой функции даны в таблице.

F-распределение Фишера-Снедекора

Пусть X и Y являются случайными величинами, распределенными по закону 2 со степенями свободы m и n соответственно. Тогда случайная величина

           (30)

называется F-распределением Фишера-Снедекора со степенями свободы m и n. Плотность вероятности F-распределения имеет вид:

(31)

Рис. 7

Математическое ожидание и дисперсия этой величины могут быть вычислены как обычно и имеют вид (n>2), (n>4). При m>2 распределение этой случайной величины имеет единственную моду в точке График плотности F-распределения (31) представлен на рис. 7.


 

А также другие работы, которые могут Вас заинтересовать

73006. Изучение влияния частоты тока на показания вольтметров электромеханической группы 114 KB
  Цель работы изучить основные свойства вольтметров электромеханической группы и исследовать их характеристики. Ознакомиться с лабораторным стендом предназначенным для исследования вольтметров электромеханической группы...
73008. Изучение устройства, принципа действия и методики выполнения измерений с помощью измерителя R, L, C типа Е7-11 и моста сопротивлений МКМВ 90.5 KB
  Цель работы изучить устройство и принцип действия измерителя моста сопротивлений МКМВ. Ознакомиться с назначением техническими характеристиками измерителя RLC универсального типа Е7–11 и моста сопротивлений МКМВ.
73010. Методика навчання роботі з ОС Windows 496 KB
  Учень повинен пояснювати: відмінність між системним службовим та прикладним програмним забезпеченням; поняття ядра операційної системи інтерфейсу користувача драйвера та утиліти; поняття файлової системи; відмінності між поширеними файловими системами...
73011. Методика створення комп’ютерних презентацій 93 KB
  Мета. Розглянути основні методичні особливості вивчення теми в ШКІ, опрацювати методичні рекомендації у педагогічно-методичній, науковій літературі, розробити дидактичне забезпечення до вивчення навчального матеріалу з даної теми.
73012. Методика навчання роботі з архіваторами і з антивірусними програмами 102 KB
  Мета. Розглянути основні методичні особливості вивчення теми в ШКІ, опрацювати методичні рекомендації у педагогічно-методичній, науковій літературі, розробити дидактичне забезпечення до вивчення навчального матеріалу з даної теми.
73013. Методика навчання роботі з графічним редактором 349.5 KB
  Учень повинен пояснювати: поняття векторного і растрового зображення; поняття колірної системи; відмінність між роздільною здатністю монітора та роздільною здатністю зображення; описувати: властивості поширених форматів графічних файлів таких як BMP GIF JPEG...
73014. СТВОРЕННЯ І РЕАЛІЗАЦІЯ ПРОГРАМ НА ВВЕДЕННЯ ТА ВИВЕДЕННЯ ДАНИХ 49.5 KB
  Завдання: У середовищі програмування С++ виконати такі дії: створити програму на виведення текстової інформації; створити програму на введення-виведення числової інформації; створити програму на введення-виведення інформації різних типів; зберегти програму на диску.