87841

Построение прямых линий регрессии по выборочным данным

Лекция

Математика и математический анализ

СВ независимы если закон распределения одной из них не зависит от того какие значения принимает другая СВ. Статистической называется такая зависимость при которой изменение одной из них влечет за собой изменение распределения другой.

Русский

2015-04-23

426.8 KB

7 чел.

ЛЕКЦИЯ №3

Построение прямых линий регрессии по выборочным данным

Две СВ могут быть связаны либо функциональной зависимостью, либо быть независимыми, либо связаны зависимостью другого рода, называемой статистической (иначе стохастической). 

Как правило, функциональная зависимость реализуется редко, так как одна или две СВ подвержены действию многих случайных факторов.

СВ независимы, если закон распределения одной из них не зависит от того, какие значения принимает другая СВ.

Статистической называется такая зависимость, при которой изменение одной из них влечет за собой изменение распределения другой. В частности, если при изменении одной из величин изменяется среднее значение (условное матожидание) другой, статистическую зависимость называют корреляционной.

Приведем примеры статистической зависимости:

1.Рост школьников и их возраст

2.Количество удобрений внесенных на и урожай с этого участка.

Пусть изучается система количественных признаков Допустим в результате независимых опытов получены пар чисел которые могут быть представлены в виде таблицы:

    Таблица 1

 

Рассмотрим случай, когда есть основания предполагать наличие линейной корреляционной зависимости между величинами и (в генеральной совокупности их значений) т.е. когда линейные уравнения регрессии имеют вид:

        (1)

(1) –уравнение линейной регрессии  на

        (2)

(2)  –уравнение линейной регрессии  на

−условное матожидание при конкретном

− условное матожидание при конкретном

В этих случаях для описания корреляционных зависимостей между величинами и по результатам выборочных наблюдений вводят выборочные уравнения линейной регрессии на и на

         (3)

(3) –уравнение линейной регрессии  на

         (4)

(4)  –уравнение линейной регрессии  на

где - выборочные коэффициенты линейной  регрессии, имеющие смысл выборочных оценок коэффициентов и в формулах (1), (2). При этом и являются оценками условных математических ожиданий и а параметры и - оценками и

Нахождение параметров выборочных уравнений прямой линии регрессии

Пусть в результате независимых опытов получены пар значений системы которые могут быть заданы (табл. 1). По этим статистическим данным найдем сначала параметры (коэффициенты) уравнения (3) регрессии на

         (5)

Так как различные значения  и соответствующие им значения наблюдались по одному разу, то группировать данные нет необходимости; также нет надобности использовать понятие условной средней (−условное матожидание при конкретном − условное матожидание при конкретном ), поэтому уравнение (3) можно записать:

         (6)

Подберем параметры и  так, чтобы точки построенные по данным наблюдениям на плоскости лежали как можно ближе к прямой (5). 

Разность – является отклонением ординаты вычисленной с помощью уравнения (5) при от наблюдаемой ординаты (табличное значение), соответствующей значению Используем в дальнейшем метод наименьших квадратов, а именно подберем и так, чтобы сумма квадратов отклонений была минимальной, т.е. составим функцию

Исследуем функцию на минимум, приравниваем к нулю ее частные производные 1-го порядка:

(7)

Получим систему двух линейных уравнений относительно и

     (8)

Решив эту систему, получим: 

Применяя безындексную форму:

Аналогично можно найти выборочные уравнения прямой линии регрессии на формулы для параметров и имеют вид:

Однако иногда уравнение регрессии (5) удобно записать в другой форме, вводя выборочный коэффициент корреляции. Найдя из уравнения второго системы (8) и подставляя в уравнение (5), получим:

 

       (9)

Если ввести соотношение где

     (10)

(10) – выборочный коэффициент корреляции.

Действительно,  

разделим числитель и знаменатель на

но отсюда

  Тогда

       (11)

(11)выборочное уравнение регрессии  на Аналогично находится выборочное уравнение линейной регрессии на .

        (12)

−выборочные средние квадратические отклонения

Пример 1. Методами корреляционного анализа исследовать зависимость между урожайностью пшеницы и картофеля на соседних участках на основании статистических данных (США). Построить выборочное уравнение линейной регрессии.

         Таблица 2

Годы:

1926

1927

1928

1929

1930

1931

1932

1933

Урожай пшеница (ц)

20,1

23,6

26,3

19,9

16,7

23,2

31,9

33,5

Урожай картофель(т)

7,2

7,1

7,4

6,1

6,0

7,3

9,4

9,2

Решение

Таблица 3

1

20,1

7,2

404,1

51,84

144,72

2

23,6

7,1

556,96

50,41

167,56

3

26,3

7,4

691,69

54,76

194,62

4

19,9

6,1

396,01

37,21

121,39

5

16,7

6,0

278,89

36,0

100,2

6

23,2

7,3

538,24

53,29

169,36

7

31,4

9,4

985,96

88,36

295,16

8

33,5

9,2

1122,25

84,64

308,2

Выборочное уравнение линейной регрессии на имеет вид:

 

 

Уравнение линейной регрессии на имеет вид:

Аналогично уравнение линейной регрессии на имеет вид:

 

Таким образом, уравнение линейной регрессии на имеет вид:

Нахождение оценки для коэффициента корреляции двух случайных величин

Пусть над системой СВ произведено в одинаковых условиях независимых опытов. Результаты опытов:

      (13)

являются независимыми системами СВ, матожидания, дисперсии, корреляционные моменты которых одинаковы:

 

Требуется на основании статистических данных (13) найти оценки этих числовых характеристик системы. Для математических ожиданий и дисперсий компонент системы имеем известные формулы для их оценок:

(14)

Так как корреляционный момент равен:

будем искать оценку для него в виде:

      (15)

причем в силу равноточности измерений Неизвестный коэффициент определяется из условия несмещенности оценки (15).

 

После преобразования выражений, стоящих под знаком суммы, получим несмещенную, состоятельную оценку для корреляционного момента:

     (16)

Выборочный коэффициент корреляции определяется по формуле:

         (17)

Вместо формул (16) и (17) для выборочного коэффициента корреляции полезно иметь расчетные формулы, использующие статистические данные (13). Имеем:

 

Таким образом, для выборочного коэффициента корреляции имеем следующую формулу:

        (18)

Если использовать вместо «исправленных» выборочных дисперсий  выборочные дисперсии  то с использованием формулы их связи: вместо формулы (18) получим:

        (19)

Выборочный коэффициент корреляции является оценкой коэффициента корреляции .

 Пример 2. Используя данные в примере 1., найти выборочные коэффициенты корреляции.

Решение:

Используя формулу (19) имеем:

Статистическая проверка гипотез. Статистическая гипотеза. Нулевая и конкурирующая гипотеза. Статистический критерий. Критическая область

При исследовании случайной величины X на основании статистических данных довольно часто необходимо знать закон распределения генеральной совокупности или, если закон распределения известен, его параметры. В этих случаях выдвигают гипотезы о виде предполагаемого распределения или о предполагаемой величине параметра известного распределения.

Статистической называют гипотезу о виде неизвестного распределения или о параметрах известных распределений.

Нулевой (основной) называют выдвинутую гипотезу .  Конкурирующей (альтернативной) называют гипотезу , которая противоречит основной.

Например, если нулевая гипотеза состоит в предположении, что математическое ожидание нормального распределения равно 5, то конкурирующая гипотеза состоит в предположении, что . Кратко это записывают так:; .

Проверку выдвинутой гипотезы осуществляют статистическими методами, поэтому ее называют статистической проверкой гипотез. В итоге статистической проверки гипотезы может быть принято неправильное решение, т.е. могут быть допущены ошибки двух родов:

1) ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза;

2) ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Правильное решение может быть принято также в двух случаях:

1) гипотеза принимается, причем она и в действительности правильная;

2) гипотеза отвергается, причем она и в действительности неверна.

Вероятность совершить ошибку первого рода (отвергнуть правильную гипотезу) принято обозначать через ; ее называют уровнем значимости. Наиболее часто уровень значимости принимают равным 0,05 или 0,01. 

Если, например, принят уровень значимости 0,01, то это значит, что имеется риск отвергнуть правильную гипотезу в одном случае из ста.

Статистическим критерием (или просто критерием) называют случайную величину , которая служит для проверки нулевой гипотезы. Часто критерием служит случайная величина, распределенная по закону 2 или закону Стьюдента.

Рис. 1

Наблюдаемым значением Кнабл. называют значение критерия, вычисленное по выборке, т.е. получают частное (наблюдаемое) значение критерия, вычисленное с помощью частных значений, входящих в критерий величин. После установления множество его значений разбивается на два пересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, другое – при которых она принимается.

Критической областью называют множество значений критерия, при которых нулевую гипотезу отвергают.

Областью допустимых значений (область принятия гипотезы) называют множество значений критерия, при которых нулевую гипотезу принимают.

Идея метода статистических гипотез состоит в следующем: если наблюдаемое значение критерия принадлежит критической области – нулевую гипотезу отвергают; если наблюдаемое значение принадлежит области допустимых значений – нулевую гипотезу принимают.

Критическая область и область принятия гипотезы представляют собой интервалы, поэтому существуют точки, которые их разделяют.

Критическими точками кр называют точки, разделяющие критическую область и область принятия гипотезы.

Различают односторонние критические области (правосторонние и левосторонние) и двусторонние.

Правосторонней называют критическую область, определяемую неравенством кр, где кр>0 (рис. 1, а).

 Левосторонней называют критическую область, определяемую неравенством кр, где кр < 0 (рис. 1,b).

 Двусторонней называют критическую область, определяемую неравенствами , где . В частности, если критические точки симметричны, двусторонняя критическая область определяется неравенствами кр, кр или кр (рис.1,c).

Нахождение правосторонней критической области

Как известно, правосторонняя критическая область определяется неравенством кр. Для нахождения критической точки кр задаем достаточно малую вероятность – уровень значимости . Затем находим критическую точку исходя из требования, чтобы при условии справедливости нулевой гипотезы вероятность того, что кр., была равна

кр=.         (20)

Обоснование равенства (20) заключается в следующем: так как вероятность события кр мала ( – малая вероятность), то при справедливости нулевой гипотезы это событие не должно наступить в единичном испытании; если же оно произошло, т.е. наблюдаемое значение критерия оказалось больше кр, то это можно объяснить тем, что нулевая гипотеза ложна и должна быть отвергнута. С другой стороны, наблюдаемое значение может оказаться большим кр не потому, что нулевая гипотеза ложна, а по другим причинам (малый объем выборки, недостатки методики эксперимента и др.). В этом случае, отвергнув нулевую гипотезу совершают ошибку первого рода. Вероятность этой ошибки равна уровню значимости .

Критическая точка кр находится по таблицам критических точек распределения критерия и заданному уровню значимости .

Если критическая точка кр уже найдена, по данным выборки вычисляют наблюдаемое значение критерия наб и, если окажется, что наб > кр − нулевую гипотезу отвергают; если же наб < кр – нет оснований отвергать нулевую гипотезу.

Нахождение левосторонней критической области

Левосторонняя критическая область определяется неравенством <кр(кр<0). Критическую точку кр находят исходя из требования, чтобы при условии справедливости нулевой гипотезы вероятность того, что критерий примет значение, меньшее кр, была равна принятому уровню значимости :

кр.        (21)

Если набкр – нулевая гипотеза отвергается, если наб > kкр – нет оснований отвергать нулевую гипотезу.

Нахождение двусторонней критической области

Двусторонняя критическая область определяется неравенствами (). Задаем уровень значимости . Критические точки и находят исходя из требования, чтобы при справедливости нулевой гипотезы выполнялось равенство:

      (22)

Ясно, что критические точки и могут быть выбраны бесконечным числом способов. Если распределение является симметричным относительно , выбирают симметричные критические точки: кр,кр, (кр>0). В этом случае кр)кр), и поэтому:

кр).        (23)

Из соотношения (23) определяют кр. После ее нахождения находят наб и, если набкр – нулевую гипотезу отвергают; если набкр – нет оснований отвергать нулевую гипотезу.

Проверка гипотезы о значимости выборочного коэффициента корреляции

Пусть двумерная генеральная совокупность распределена по нормальному закону. Из этой совокупности извлечена выборка объема n и по ней найден выборочный коэффициент корреляции . Выборочный коэффициент является оценкой для коэффициента корреляции и, в общем случае, отличается от него; более того, между величинами и может отсутствовать корреляционная зависимость. Следовательно, в силу того, что выборка случайна, из того, что выборочный коэффициент корреляции нельзя заключить, что коэффициент корреляции генеральной совокупности также отличен от нуля. Возникает необходимость при заданном уровне значимости проверить нулевую гипотезу при конкурирующей гипотезе . Если нулевая гипотеза отвергается, то это будет означать, что выборочный коэффициент корреляции является значимым (выборочный коэффициент корреляции значимо отличается от нуля), а случайные величины X и Y коррелированны, т.е. связаны корреляционной зависимостью. Если нулевая гипотеза будет принята, то это будет означать, что выборочный коэффициент корреляции не является значимым, а случайные величины X и Y некоррелированны. В качестве критерия возьмем случайную величину:

        (24)

 Известно (в случае нормального распределения (X,Y)), что эта случайная величина распределена по закону Стьюдента с степенями свободы. В силу того, что распределение Стьюдента является симметричным, критическую область удобно брать симметричной: кр. Критическая точка кр находится по таблице критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы . Затем вычисляют (по данным выборки) наб.  

Если набкр – нулевую гипотезу отвергают. Если набкр, нет оснований отвергать нулевую гипотезу.

 Пример 3. По выборке объемом n=8 из двумерной генеральной совокупности (X,Y), распределенной по нормальному закону, найден выборочный коэффициент корреляции =0,945. При уровне значимости =0,05 проверить нулевую гипотезу при альтернативной гипотезе .

Решение: По уровню значимости и числу степеней свободы распределения Стьюдента  находим критических точек распределения Стьюдента (для двусторонней критической области): кр=2,45. Вычисляем наблюдаемое значение критерия по формуле (24): наб; набкр, следовательно, нулевая гипотеза отвергается; случайные величины X и Y коррелированны.

Пример 4. По выборке объемом n=150 из двумерной генеральной совокупности (X,Y), распределенной по нормальному закону, найден выборочный коэффициент корреляции =0,7. При уровне значимости проверить нулевую гипотезу при альтернативной гипотезе .

Решение: Вычислим сначала наблюдаемое значение критерия: наб. Критическая точка кр может быть найдена по таблице распределения Стьюдента (для двусторонней критической области) по и числу степеней свободы =148; имеем кр=2,58. набкр. Отсюда делаем вывод: нулевая гипотеза отвергается. Следовательно, выборочный коэффициент корреляции является значимым; между X и Y существует корреляционная связь.

2-распределение

Рис. 2

Пусть случайная величина Х имеет нормальное распределение с параметрами (0,1). Плотность распределения ее квадрата Х2 равна при y>0; а при y  0 функция плотности равна 0. Пусть теперь каждая из n независимых случайных величин  имеет нормальное распределение с параметрами (0,1). Введем случайную величину:

.       (25)

Случайная величина (25) называется 2- распределением (хи- квадрат распределением) с n степенями свободы. Формула для построения композиции распределений независимых случайных величин :

      (26)

Здесь – гамма-функция, значения которой определяются по таблицам для р>0. 2- распределение содержит параметр n, который часто называют  числом степеней свободы этого распределения. При функция плотности убывает для х>0, а при n>2 имеет единственный максимум в точке х = n -2. Графики функций для некоторых n изображены на рис. 2.

Рис. 3

Вычисляя, как обычно, числовые характеристики этой случайной величины, можно получить формулы для математического ожидания и дисперсии этой случайной величины: Во многих приложениях бывает важно найти вероятность Р того, что величина 2 принимает значение, превышающее данную величину . Эта вероятность равна площади, ограниченной ветвью кривой плотности, расположенной справа от (рис. 3). Таким образом,

,

где - функция распределения этой случайной величины. Обычно более удобно табулировать как функцию вероятности P. Если p выражается в процентах, скажем , то называют р-процентным значением, иначе р-процентным квантилем этого распределения.

Рис. 4

Замечание. В задачах математической статистики используется случайная величина – -распределение с n степенями свободы. Плотность вероятности этой случайной величины имеет вид:

 (27)

На рис. 4 представлен график плотности распределения этой случайной величины при некоторых n.

Распределение Стьюдента

Пусть Z – случайная величина, имеющая нормальное распределение N(0,1), а V – независимая от Z случайная величина, распределенная по закону 2 с n степенями свободы. Введем случайную величину:

.          (28)

Тогда соответствующая этой случайной величине плотность распределения имеет вид: , где

.          (29)

Распределение, определяемое функцией плотности sn(x), известно под названием распределения Стьюдента или t-распределения. Оно было впервые использовано в одной важной статистической проблеме В.Госсетом, писавшим под псевдонимом “Стьюдент” (Student). Как и в случае 2-распределения, параметр n часто называют числом степеней свободы t-распределения. Нетрудно убедиться, что это распределение унимодально и симметрично относительно x = 0. При <n моменты -го порядка конечны. В частности, математическое ожидание конечно при n>1, а стандартное (среднеквадратическое) отклонение – при n>2. Вследствие симметричности распределения все существующие моменты нечетного порядка равны нулю. Нетрудно показать, что , (n > 2). Для больших значений n величина T асимптотически нормальна с параметрами (0,1) в соответ

 Рис. 5

ствии с соотношением . Для небольших значений n t-распределение заметно отличается от предельного нормального распределения. График распределения Стьюдента для n = 3 вместе с приведенной для сравнения нормальной кривой дан на рис. 5.

Рис. 6

Вероятность того, что величина T отличается по модулю более чем на заданную величину от своего математического ожидания (равного нулю), равна площади заштрихованной области на рис. 6. В силу симметрии t-распределения она равна   где – функция распределения этой случайной величины. Исходя из этого, можно табулировать t0 как функцию вероятности P. Если , то соответствующее t0 = tp называется р-процентным значением или р-процентным квантилем распределения. Численные значения этой функции даны в таблице.

F-распределение Фишера-Снедекора

Пусть X и Y являются случайными величинами, распределенными по закону 2 со степенями свободы m и n соответственно. Тогда случайная величина

           (30)

называется F-распределением Фишера-Снедекора со степенями свободы m и n. Плотность вероятности F-распределения имеет вид:

(31)

Рис. 7

Математическое ожидание и дисперсия этой величины могут быть вычислены как обычно и имеют вид (n>2), (n>4). При m>2 распределение этой случайной величины имеет единственную моду в точке График плотности F-распределения (31) представлен на рис. 7.


 

А также другие работы, которые могут Вас заинтересовать

81412. Влияние семьи на формы и уровень проявления подростковых девиаций. Понятие социализации и основные этапы данного процесса 40.08 KB
  Понятие социализации и основные этапы данного процесса. На каждом этапе социализации на человека оказывают влияние те или иные факторы соотношение которых на разных этапах различно. В целом можно выделить пять факторов оказывающих влияние на процесс социализации: биологическая наследственность; физическое окружение; культура социальное окружение; групповой опыт; индивидуальный опыт. Процесс социализации охватывает все слои общества.
81413. Типологический анализ социально-дезадаптированных семей 42.07 KB
  Семьи для которых характерны наиболее глубокие дефекты социализации вольно или невольно провоцируют детей на раннее употребление психоактивных веществ и совершение правонарушений. Псевдоблагополучная семья отличается ярко выраженным деспотическим характером безоговорочным доминированием одного из родителей полным подчинением ему остальных членов семьи наличием жестоких взаимоотношений держать всех в ежовых рукавицах применением физического наказания как основного средства воспитания. Дефекты в структуре родительской семьи в...
81414. Основные аспекты взаимосвязи социологии и социальной работы 36.7 KB
  Изучая тему студент должен исходить из тесной взаимосвязи социологии и социальной работы в теоретическом учебнообразовательном и прикладном аспектах. В подготовке специалистов по соцработе социология занимает одно из ведущих мест Универсальный многопрофильный характер социальной работы сближает ее прежде всего с социологией. Речь идет о близости объектов и предметов социологии и социальной работы.
81415. Социологическое знание в социальной работе. Категории индивид, личность, группа, общность, общество. Понятия «социальный факт», «социальная реальность» и «социальное действие» 37.24 KB
  Социологические исследования в социальной работе выполняют многообразные функции. Социологические методы и техника изучения проблем социальной работы выполняют двоякую функцию расширения и углубления социологического и социального образования в целом и получения важной первичной социальной информации без чего невозможны анализ практической социальной работы накопление опыта его обобщения и в целом повышение ее эффективности. Влияние социологии на социальную работу: использование результатов изучения социологами социальной структуры...
81416. Социологические проблемы социального взаимодействия в социальной работе. Понятия: социальная структура, социальные изменения, конфликты интересов основных социальных групп 37.54 KB
  Понятия: социальная структура социальные изменения конфликты интересов основных социальных групп. Социальные изменения представляют собой смену состояний свойств и связей социальных систем. В соответствии со строением и главной характеристикой любой системы можно выделить следующие виды изменений вообще и социальных изменений в частности: Содержательные изменения Под содержанием в науке понимают совокупность элементов системы поэтому здесь речь идет об изменении элементов системы их возникновении исчезновении или изменении ими своих...
81417. Социология в теории социальной работы наука об обществе как целостной системе и об отдельных социаль 34.67 KB
  Социология в теории социальной работы наука об обществе как целостной системе и об отдельных социальных институтах рассматриваемых в их связи с общественным целым. Влияние социологии на социальную работу: использование результатов изучения социологами социальной структуры общества и других фундаментальных проблем социологического знания и практической деятельности применение этих данных в подготовке и переподготовке социальных работников анализ самой социальной работы сточки зрения участия в ней разных групп социальных работников...
81418. Социологические парадигмы в анализе социальной работы 38.2 KB
  Парадигма социальных фактов связана с именем Э. Парадигма понимания или социологии действия связана с именами М. Парадигма социального поведения представлена социальным бихевиоризмом Б. Парадигма социальноисторического детерминизма связана с именами К.
81419. Структурно-функциональные социологические парадигмы в анализе социальной работы 35.85 KB
  Основное внимание социологов данного направления сосредотачивается на исследовании того какой вклад различные части общества структуры вносят в интеграцию целостного социальной системы. Конфликтная модель общества Р. В результате обострение противоречий внутри общества может быть обусловлено рядом причин: диспропорция в распределении власти и отсутствие свободных каналов перераспределения власти. Суть его концепции в следующем: ав каждый момент общество переживает социальный конфликт социальный конфликт вездесущ; б любое общество...
81420. Парадигмы социального поведения при анализе социальной работы 39.02 KB
  Для социального бихевиоризма Скиннера сформировавшегося под влиянием воззрений представителей ортодоксального неопозитивизма и отчасти утилитаризма характерно отождествление механизмов коллективного поведения животных и людей которое рассматривается...