71732

Методы статистической обработки выборочных данных

Лабораторная работа

Социология, социальная работа и статистика

Что показывает корреляционная зависимость между статистическими совокупностями Характеристика корреляционной зависимости по значению коэффициента парной корреляции. Связь коэффициентов уравнений регрессии с коэффициентом корреляции и их геометрический смысл.

Русский

2014-11-11

165 KB

16 чел.

24

Лабораторная работа №2

Методы статистической обработки

выборочных данных

Цель работы:  1. Научиться применять на практике методы статистической обработки выборочных данных.

                       2. Познакомиться с компьютерными программами   по статистической обработке.

Литература

  1.   1 , Гл. 2; §§ 2.3, 2.5 - 2.9.
  2.   2 , §§ 98; 100.
  3.   5 , стр. 22 - 24.

Лекции по теории вероятностей и математической статистике.

Вопросы входного контроля

  1.  Виды статистических совокупностей?
  2.  Способы задания статистических распределений?
  3.  Числовые характеристики статистических распределений?
  4.  Эффективность и несмещенность точечных оценок.
  5.  Стандартные интервалы в законе нормального распределения.
  6.  Интервальная оценка параметров генеральной совокупности.
  7.  Определение значения коэффициента Стьюдента.
  8.  Нулевая и альтернативная гипотезы. В чем их суть?
  9.  Критерии достоверности отличия между числовыми характеристиками двух выборочных совокупностей.
  10.  Что показывает корреляционная зависимость между статистическими совокупностями?
  11.  Характеристика корреляционной зависимости по значению коэффициента парной корреляции.
  12.  Цель регрессионного анализа.
  13.  Способы нахождения уравнений регрессии.
  14.  Связь коэффициентов уравнений регрессии с коэффициентом корреляции и их геометрический смысл.
  15.  Построение графиков регрессии.

1. Краткая теория

При измерении одного и того же параметра у группы испытуемых получается статистическая совокупность количественных данных х1, х2, …хn, которую для удобства обработки представляют в виде ранжированного ряда распределения. Ряд распределения обычно представляют в виде таблицы или  графика.

X

x1

x2

 

xk

K

m1

m2

mk

P

p1

p2

pk

В первой строке (Х) перечисляют все значения параметра в возрастающем или убывающем порядке;

во второй строке  (К) – показывают сколько раз встречается значение данного параметра в статистической совокупности;

в третьей строке (Р) – относительную частоту повторяемости данного параметра .

Рис.1.

При построении графика (рис.1) по оси абсцисс откладываются все полученные значения параметра хi, а по оси ординат – их частота рi.

Линия, соединяющая получаемые точки называется ломаной распределения, а сам график - полигон частот.

Расчет числовых характеристик выборки и их оценка для соответствующей генеральной совокупности производится по следующему плану:

I. Вычисление выборочных характеристик.

  1.   Выборочная средняя:    .

(В медицинских исследованиях эта величина часто обозначается буквой М).

  1.  Выборочная дисперсия:  
  2.  Среднеквадратическое выборочное отклонение: .

II. Оценка генеральных характеристик по выборочным.

  1.  Оценка выборочной дисперсии:  .
  2.  Оценка среднеквадратического выборочного  отклонения:

.

  1.  Оценка средней квадратической погрешности выборочной средней:

.

(В медицинских исследованиях эта величина часто обозначается буквой m).

  1.  Доверительный интервал:

= mt,

где t - коэффициента Стьюдента, который определяется исходя из объема выборки и доверительной вероятности.

  1.  Окончательный результат .

Таким образом, хотя мы не можем определить точное числовое значение характеристики изучаемого параметра в генеральной совокупности по известному значению ее для некоторой выборки. Однако по выборочной характеристике можно указать границы доверительного интервала, в пределах которого с доверительной вероятностью находится характеристика генеральной совокупности. Размер интервала зависит от объема выборки и от величины той ошибки, которую мы считаем в данном случае допустимой.

Доверительная вероятность – это вероятность гарантии того, что числовое значение параметра любого объекта, выбранного из генеральной совокупности, будет находится в интервале (-; +). Уровень значимости определяет вероятность допускаемой ошибки, т.е. =1-р.

В практике научных и лабораторных исследований вполне допустимым считается уровень значимости = 0,05, т.е. уровень допускающий ошибочность вывода лишь в 5% случаев от их общего количества. В некоторых особых случаях, требующих повышенной точности выводов, применяется 1% и менее уровни значимости. При окончательных выводах необходимо всегда указывать тот уровень значимости, для которых они приведены.  

В том случае, если аналогичные параметры снимались и в другой выборке, возможно получение двух отличающихся значений выборочной средней и выборочной дисперсии, а значит, будут различными и соответствующие оценки для генеральной совокупности:

 и  

Критерии сравнения достоверности отличия между двумя выборочными средними и дисперсиями позволяют проанализировать причины, вызвавшие эти отличия, т.е. зависят они от метода измерения и выбора объектов выборки (отличия достоверны) или объясняются статистическим характером разброса данных в генеральной совокупности, и каждой отдельно взятой выборке (отличия незначимы).

В случае незначимости отличий можно принять нулевую гипотезу о равенстве генеральных средних  и генеральных дисперсий . В противном случае принимается альтернативная гипотеза.

Критерии позволяют найти экспериментальное значение параметра Пэксп. и сравнить его с критическим параметром Пкр при заданной доверительной вероятности. Если Пэксп  Пкр, то делают вывод о согласии экспериментальных результатов  с нулевой гипотезой. Если Пэксп  Пкр, то нулевую гипотезу отвергают в пользу альтернативной.

Следует помнить, что описанные методы проверки нулевой гипотезы носят статистический характер, выраженный в том, что утверждение о справедливости нулевой гипотезы принимается не абсолютно, а лишь при некоторой доверительной вероятности или некотором уровне значимости.

Сравнение генеральных средних зависит от объема выборок.

Критерий Лапласа используется при больших объемах выборок (n 30) с любым даже неизвестным законом распределения:

;

tкр определяется из соотношения Ф (tкр) = , где Ф (t) – функция Лапласа, р – доверительная вероятность.

При малых выборках разного объема, если известно , что генеральные совокупности подчиняются закону нормального распределения, можно воспользоваться критерием Фишера-Стьюдента:

t эксп = ;

tкр (р;f) – значение коэффициента Стьюдента при доверительной вероятности р и количестве степеней свободы f = n1 + n2 – 2.

Критерий Фишера – Снедекора позволяет сделать выбор между нулевой и альтернативной гипотезами для равенства генеральных дисперсий:

, где - оценка дисперсии  с большим значением, и - оценка дисперсии с меньшим значением;

находят по таблице распределения Фишера-Снедекора, где - уменьшенный на единицу объем выборки c большей   дисперсией, а f2 – уменьшенный на единицу объем выборки с меньшей дисперсией.

Корреляционный и регрессионный анализ позволяет выявить наличие статистической зависимости между двумя рядами Х и Y различных параметров и подобрать функцию, наиболее точно описывающую эту зависимость и позволяющую исследовать характер влияния изменения одного признака на изменение другого.

Значение выборочного коэффициента парной корреляции   rху можно вычислить  по формуле:

   

         Основные свойства коэффициента корреляции:

  1.  Коэффициент корреляции двух независимых величин равен нулю.
  2.  Коэффициент корреляции двух величин, связанных линейной функцией равен 1 (+ - возрастающая; - убывающая зависимость).
  3.  Абсолютная величина коэффициента корреляции не превышает единицы:

.

Характер и тесноту корреляционной зависимости различают по величине коэффициента корреляции:

rxy  0 – прямая,

rxy  0 – обратная,

  1 – тесная,

  0,7 – средняя,

0  0,4 – слабая.

Для оценки достоверности коэффициента корреляции определяют его погрешность:

и вычисляют коэффициент Стьюдента:

Зная коэффициент Стьюдента, находят по таблице доверительную вероятность с учетом степени свободы: f = n – 2.

Или иначе:

  •  для того, чтобы убедиться, что коэффициент парной корреляции, вычисленный по данным выборочного исследования, будет соответствовать тесноте корреляционной связи в генеральной совокупности, применяют критерий Стьюдента для определения tтабл по числу степеней свободы f = n – 2.

Тогда:

  •  если tэксп  tтабл., то при принятой вероятности делают вывод о значимости коэффициента корреляции;
  •  если tэксп  tтабл., то такого вывода сделать нельзя.

Коэффициент корреляции указывает лишь на направление и тесноту связи между двумя переменными величинами, но не дает возможности судить о том, как количественно меняются величины одного признака по мере изменения величины другого признака. Ответ на этот вопрос дает применение метода регрессии.

Регрессия – это функция, позволяющая по величине одного коррелирующего признака определить средние величины другого признака.

Функция регрессии может иметь любой вид (линейная, степенная, показательная и т.д.) и методы регрессионного анализа позволяют отыскать внешний вид этой функции. Подробнее познакомимся с линейной регрессией.

Между коэффициентом корреляции rxy, числовыми характеристиками выборок и коэффициентами уравнений линейной регрессии существует определённая связь.

Для уравнения регрессии Y на Х: :   ;   .

Для уравнения регрессии Х на Y: :   ;   .

Имея частные значения уравнений линейной регрессии, можно построить их графики (рис.2):

Линии регрессии пересекаются в точке ().

При этом: tg =A;

   tg =C.

Рис. 2.

По величине выборочных коэффициентов регрессии судят о силе корреляционной связи между изучаемыми величинами. Так, например, чем больше коэффициент A линейной регрессии  на X, тем сильнее изменяется значение величины  при изменении величины X на единицу.

Ориентировочно о силе корреляционной зависимости можно судить по корреляционному полю. Корреляционное поле представляет собой множество точек с координатами (xi; yi) (рис.3):

     

Рис. 3а.                                               Рис. 3б.

Чем больше разброс точек (рис. 3а), тем слабее зависимость и, наоборот, если точки группируются вдоль некоторой линии, можно приближённо судить даже о виде функции регрессии (рис. 3б).

2. Практическая часть

Задание 1. Провести статистическую обработку данных выборочных исследований.

  1.  Используя данные прямых измерений предыдущей лабораторной работы (масса тела, рост и объём лёгких) сформировать следующие выборочные совокупности:

Х1 – масса тела девушек группы;

Х2 – масса тела юношей группы;

Y1 – рост девушек группы;

Y2 – рост юношей группы;

Z1 – объём лёгких девушек группы;

Z2 – объём лёгких юношей группы*.

Примечание: *) выборочная совокупность пригодна для дальнейшей работы, если её объём не менее трёх объектов (n3).

  1.  Построить ряд распределения для каждой выборочной совокупности в виде таблицы и графика.
  2.  Дать точечную и интервальную оценку истинного значения измеряемой величины с доверительной вероятностью p=0,95.

Задание 2. Используя данные задания 1 полученные другой группой (по предложению преподавателя) сравнить достоверности отличия генеральных средних и дисперсий для однотипных рядов.

Задание 3. По выборкам Xi, Yi и Zi провести попарный корреляционный анализ.

  1.  Вычислить выборочный коэффициент парной корреляции и по его значению дать характеристику корреляционной зависимости.
  2.  Оценить достоверность коэффициента корреляции.
  3.  Найти уравнения линейной регрессии.
  4.  Построить в одних осях координат для каждой пары рядов корреляционное поле и линии регрессии.

Задание 4.** (для УИРС – учебно-исследовательской работы студентов).

Сформировать выборочные совокупности V1 – объем легких девушек группы и V2  - объем легких юноши группы, используя данные косвенных измерений.

Провести их статистическую обработку и проверить корреляцию с соответствующими выборками Z1 и Z2.

Задание 5.** (для УИРС).

  1.  Провести статистическую обработку выборочных данных, используя компьютерные программы по статистической обработке (Excel, Stadia, Diasta).
  2.  Сравнить полученные при  этом результаты с результатами ’’ручной’’ обработки данных.

Задание 6.** (для УИРС).

Используя данные выполнения задания 3, найти коэффициент множественной корреляции и построить регрессионную поверхность = Ax + By + C.

Вопросы  выходного  контроля

  1.  Как обеспечить репрезентативность выборки?
  2.  Какой минимальный объём выборочной совокупности необходим для дальнейшей обработки выборочных данных? Как он определяется?
  3.  Как провести оценку параметров выборочной совокупности?
  4.  Какие требования учитываются при выборе значения коэффициента Стьюдента?
  5.  Как оценить достоверность коэффициента корреляции?
  6.  Что можно сказать о корреляционной зависимости между парами вариационных рядов:

масса – рост человека;

масса – объём лёгких;

рост – объём лёгких?

  1.  Можно ли по виду линий регрессии оценить корреляционную зависимость между признаками?
  2.  Какими методами можно оценивать достоверность отличия между генеральными средними и генеральными дисперсиями 2-х рядов однотипных показателей?

9.** Какая программа использовалась при машинной обработке статистических данных?

10.** Как различаются результаты машинной и ручной обработки статистических данных?

11.** Что представляет собой регрессионная поверхность, полученная при выполнении 5 задания.

 ** Вопросы по заданиям для УИРС.


 

А также другие работы, которые могут Вас заинтересовать

85173. Культура Беларуси в первой половине XIX в.) 27.14 KB
  Беларусь имела автономия в плане культурного развития. Отчётливо это проявилось в системе образования. 1803г – создан Виленский учебный округ, в состав кот входили школы Беларуси, Литвы, Украины.
85174. Буржуазные реформы 1860-1880 гг. в Российской империи и особенности их проведения в белорусских губерниях 29.45 KB
  Крестьяне получали гражданские права могли заниматься промыслами торговать приобретать имущество поступать на учебу и на службу; помещики не могли продавать и судить крестьян. Однако крестьяне не сразу становились лично свободными. Помещики признавались собственниками всей земли которая принадлежала им до реформы а крестьяне получали небольшие наделы в пользование которые должны были выкупить на протяжении 9 лет. Купить свой земельный надел крестьяне могли только путем заключения выкупной сделки.
85175. Восстание 1863-1864 гг. и его итоги 28.15 KB
  Белые рассчитывали этого путем переговоров с царем с помощью Франции других стран Запада а красные опирались на восстание населения на свои силы.Калиновский который готовил восстание издавал газету Мужицкая правда боролся за свободу народа. Восстание началось зимой 1863 Для руководства восстанием были созданы руководящие органы: Центральный нац.Калиновский возглавил восстание в Гродненской губернии.
85176. Развитие капитализма в Беларуси в 1860 - 1890-е годах 29.42 KB
  Ускорили развитие капиталистических отношений в эк. Сохранилась сельская община чересполосица что сдерживало развитие с х. Быстрое развитие всех форм хозяйствования и в первую очередь укрупнение промышленного прова потребовало создания кредитной системы.
85177. Общественно-политическое движение в белорусских губерниях в 1860-е гг. - начале XX века 27.66 KB
  Во второй половине XIX века в общественнополитическую жизнь Беларуси активно включились представители третьего сословияразночинцы получившие название народников. С возникновением в Петербурге организации Земля и воля 1876 народническое движение в Беларуси развивалось под ее непосредственным влиянием. В начале 1884 года с инициативой объединения в общую организацию всех кружков Беларуси выступила группа Гомон. Гомоновцы впервые в истории общественной мысли Беларуси заявили о существовании белорусской нации.
85178. Революция 1905-1907 гг. Белорусские земли в условиях ускорения буржуазной модернизации (начало XX в.) 29.88 KB
  Основными причинами революции 1905-07гг стали недовольство царизмом,нерешенность аграрного, рабочего и национального вопросов. Начало революции ускорило поражение России в войне с Японией (1904-05гг). Революция нач.9 янв 1905 в Петербкрге с расстрела мирной демонстрации рабочих (Кровавое воскресенье).
85179. Первая мировая война и Февральская революция 1917г. Борьба политических партий за выбор путей общественного развития 28.2 KB
  Значительная часть территории Беларуси стала ареной военных действий. Около половины территории Беларуси оказалась под немецкой оккупацией. На захваченной германскими войсками территории Беларуси был введен жесткий режим деспотизма грабежа и насилия. Тяжёлое положение сложилось и на неоккупированной территории Беларуси.
85180. Культура Беларуси во второй половине XIX - начале XX века 27.25 KB
  Начинается новый этап в развитии белорусской литературы. Писатели постепенно становились на путь создания развитой литературы. Шел процесс ее жанрового обогащения литературы совершенствовалась стихотворение. Вершиной развития белорусского литературы стало творчество Франтишка Богушевича.
85181. Становление белорусской нации: закономерности и особенности 27.44 KB
  Продолжался процесс формирования белорусского нации. Существование нации характеризовалась наличием следующих признаков: сообщество территории и экономической жизни культуры и литературного языка общностью черт национального характера. Формирование белорусской нации сдерживалось русификаторской политикой царизма: расширение российского землевладения переводом начальной школы полностью на русскую язык обучения отсутствием высших учебных заведений белорусской печати.