71732

Методы статистической обработки выборочных данных

Лабораторная работа

Социология, социальная работа и статистика

Что показывает корреляционная зависимость между статистическими совокупностями Характеристика корреляционной зависимости по значению коэффициента парной корреляции. Связь коэффициентов уравнений регрессии с коэффициентом корреляции и их геометрический смысл.

Русский

2014-11-11

165 KB

14 чел.

24

Лабораторная работа №2

Методы статистической обработки

выборочных данных

Цель работы:  1. Научиться применять на практике методы статистической обработки выборочных данных.

                       2. Познакомиться с компьютерными программами   по статистической обработке.

Литература

  1.   1 , Гл. 2; §§ 2.3, 2.5 - 2.9.
  2.   2 , §§ 98; 100.
  3.   5 , стр. 22 - 24.

Лекции по теории вероятностей и математической статистике.

Вопросы входного контроля

  1.  Виды статистических совокупностей?
  2.  Способы задания статистических распределений?
  3.  Числовые характеристики статистических распределений?
  4.  Эффективность и несмещенность точечных оценок.
  5.  Стандартные интервалы в законе нормального распределения.
  6.  Интервальная оценка параметров генеральной совокупности.
  7.  Определение значения коэффициента Стьюдента.
  8.  Нулевая и альтернативная гипотезы. В чем их суть?
  9.  Критерии достоверности отличия между числовыми характеристиками двух выборочных совокупностей.
  10.  Что показывает корреляционная зависимость между статистическими совокупностями?
  11.  Характеристика корреляционной зависимости по значению коэффициента парной корреляции.
  12.  Цель регрессионного анализа.
  13.  Способы нахождения уравнений регрессии.
  14.  Связь коэффициентов уравнений регрессии с коэффициентом корреляции и их геометрический смысл.
  15.  Построение графиков регрессии.

1. Краткая теория

При измерении одного и того же параметра у группы испытуемых получается статистическая совокупность количественных данных х1, х2, …хn, которую для удобства обработки представляют в виде ранжированного ряда распределения. Ряд распределения обычно представляют в виде таблицы или  графика.

X

x1

x2

 

xk

K

m1

m2

mk

P

p1

p2

pk

В первой строке (Х) перечисляют все значения параметра в возрастающем или убывающем порядке;

во второй строке  (К) – показывают сколько раз встречается значение данного параметра в статистической совокупности;

в третьей строке (Р) – относительную частоту повторяемости данного параметра .

Рис.1.

При построении графика (рис.1) по оси абсцисс откладываются все полученные значения параметра хi, а по оси ординат – их частота рi.

Линия, соединяющая получаемые точки называется ломаной распределения, а сам график - полигон частот.

Расчет числовых характеристик выборки и их оценка для соответствующей генеральной совокупности производится по следующему плану:

I. Вычисление выборочных характеристик.

  1.   Выборочная средняя:    .

(В медицинских исследованиях эта величина часто обозначается буквой М).

  1.  Выборочная дисперсия:  
  2.  Среднеквадратическое выборочное отклонение: .

II. Оценка генеральных характеристик по выборочным.

  1.  Оценка выборочной дисперсии:  .
  2.  Оценка среднеквадратического выборочного  отклонения:

.

  1.  Оценка средней квадратической погрешности выборочной средней:

.

(В медицинских исследованиях эта величина часто обозначается буквой m).

  1.  Доверительный интервал:

= mt,

где t - коэффициента Стьюдента, который определяется исходя из объема выборки и доверительной вероятности.

  1.  Окончательный результат .

Таким образом, хотя мы не можем определить точное числовое значение характеристики изучаемого параметра в генеральной совокупности по известному значению ее для некоторой выборки. Однако по выборочной характеристике можно указать границы доверительного интервала, в пределах которого с доверительной вероятностью находится характеристика генеральной совокупности. Размер интервала зависит от объема выборки и от величины той ошибки, которую мы считаем в данном случае допустимой.

Доверительная вероятность – это вероятность гарантии того, что числовое значение параметра любого объекта, выбранного из генеральной совокупности, будет находится в интервале (-; +). Уровень значимости определяет вероятность допускаемой ошибки, т.е. =1-р.

В практике научных и лабораторных исследований вполне допустимым считается уровень значимости = 0,05, т.е. уровень допускающий ошибочность вывода лишь в 5% случаев от их общего количества. В некоторых особых случаях, требующих повышенной точности выводов, применяется 1% и менее уровни значимости. При окончательных выводах необходимо всегда указывать тот уровень значимости, для которых они приведены.  

В том случае, если аналогичные параметры снимались и в другой выборке, возможно получение двух отличающихся значений выборочной средней и выборочной дисперсии, а значит, будут различными и соответствующие оценки для генеральной совокупности:

 и  

Критерии сравнения достоверности отличия между двумя выборочными средними и дисперсиями позволяют проанализировать причины, вызвавшие эти отличия, т.е. зависят они от метода измерения и выбора объектов выборки (отличия достоверны) или объясняются статистическим характером разброса данных в генеральной совокупности, и каждой отдельно взятой выборке (отличия незначимы).

В случае незначимости отличий можно принять нулевую гипотезу о равенстве генеральных средних  и генеральных дисперсий . В противном случае принимается альтернативная гипотеза.

Критерии позволяют найти экспериментальное значение параметра Пэксп. и сравнить его с критическим параметром Пкр при заданной доверительной вероятности. Если Пэксп  Пкр, то делают вывод о согласии экспериментальных результатов  с нулевой гипотезой. Если Пэксп  Пкр, то нулевую гипотезу отвергают в пользу альтернативной.

Следует помнить, что описанные методы проверки нулевой гипотезы носят статистический характер, выраженный в том, что утверждение о справедливости нулевой гипотезы принимается не абсолютно, а лишь при некоторой доверительной вероятности или некотором уровне значимости.

Сравнение генеральных средних зависит от объема выборок.

Критерий Лапласа используется при больших объемах выборок (n 30) с любым даже неизвестным законом распределения:

;

tкр определяется из соотношения Ф (tкр) = , где Ф (t) – функция Лапласа, р – доверительная вероятность.

При малых выборках разного объема, если известно , что генеральные совокупности подчиняются закону нормального распределения, можно воспользоваться критерием Фишера-Стьюдента:

t эксп = ;

tкр (р;f) – значение коэффициента Стьюдента при доверительной вероятности р и количестве степеней свободы f = n1 + n2 – 2.

Критерий Фишера – Снедекора позволяет сделать выбор между нулевой и альтернативной гипотезами для равенства генеральных дисперсий:

, где - оценка дисперсии  с большим значением, и - оценка дисперсии с меньшим значением;

находят по таблице распределения Фишера-Снедекора, где - уменьшенный на единицу объем выборки c большей   дисперсией, а f2 – уменьшенный на единицу объем выборки с меньшей дисперсией.

Корреляционный и регрессионный анализ позволяет выявить наличие статистической зависимости между двумя рядами Х и Y различных параметров и подобрать функцию, наиболее точно описывающую эту зависимость и позволяющую исследовать характер влияния изменения одного признака на изменение другого.

Значение выборочного коэффициента парной корреляции   rху можно вычислить  по формуле:

   

         Основные свойства коэффициента корреляции:

  1.  Коэффициент корреляции двух независимых величин равен нулю.
  2.  Коэффициент корреляции двух величин, связанных линейной функцией равен 1 (+ - возрастающая; - убывающая зависимость).
  3.  Абсолютная величина коэффициента корреляции не превышает единицы:

.

Характер и тесноту корреляционной зависимости различают по величине коэффициента корреляции:

rxy  0 – прямая,

rxy  0 – обратная,

  1 – тесная,

  0,7 – средняя,

0  0,4 – слабая.

Для оценки достоверности коэффициента корреляции определяют его погрешность:

и вычисляют коэффициент Стьюдента:

Зная коэффициент Стьюдента, находят по таблице доверительную вероятность с учетом степени свободы: f = n – 2.

Или иначе:

  •  для того, чтобы убедиться, что коэффициент парной корреляции, вычисленный по данным выборочного исследования, будет соответствовать тесноте корреляционной связи в генеральной совокупности, применяют критерий Стьюдента для определения tтабл по числу степеней свободы f = n – 2.

Тогда:

  •  если tэксп  tтабл., то при принятой вероятности делают вывод о значимости коэффициента корреляции;
  •  если tэксп  tтабл., то такого вывода сделать нельзя.

Коэффициент корреляции указывает лишь на направление и тесноту связи между двумя переменными величинами, но не дает возможности судить о том, как количественно меняются величины одного признака по мере изменения величины другого признака. Ответ на этот вопрос дает применение метода регрессии.

Регрессия – это функция, позволяющая по величине одного коррелирующего признака определить средние величины другого признака.

Функция регрессии может иметь любой вид (линейная, степенная, показательная и т.д.) и методы регрессионного анализа позволяют отыскать внешний вид этой функции. Подробнее познакомимся с линейной регрессией.

Между коэффициентом корреляции rxy, числовыми характеристиками выборок и коэффициентами уравнений линейной регрессии существует определённая связь.

Для уравнения регрессии Y на Х: :   ;   .

Для уравнения регрессии Х на Y: :   ;   .

Имея частные значения уравнений линейной регрессии, можно построить их графики (рис.2):

Линии регрессии пересекаются в точке ().

При этом: tg =A;

   tg =C.

Рис. 2.

По величине выборочных коэффициентов регрессии судят о силе корреляционной связи между изучаемыми величинами. Так, например, чем больше коэффициент A линейной регрессии  на X, тем сильнее изменяется значение величины  при изменении величины X на единицу.

Ориентировочно о силе корреляционной зависимости можно судить по корреляционному полю. Корреляционное поле представляет собой множество точек с координатами (xi; yi) (рис.3):

     

Рис. 3а.                                               Рис. 3б.

Чем больше разброс точек (рис. 3а), тем слабее зависимость и, наоборот, если точки группируются вдоль некоторой линии, можно приближённо судить даже о виде функции регрессии (рис. 3б).

2. Практическая часть

Задание 1. Провести статистическую обработку данных выборочных исследований.

  1.  Используя данные прямых измерений предыдущей лабораторной работы (масса тела, рост и объём лёгких) сформировать следующие выборочные совокупности:

Х1 – масса тела девушек группы;

Х2 – масса тела юношей группы;

Y1 – рост девушек группы;

Y2 – рост юношей группы;

Z1 – объём лёгких девушек группы;

Z2 – объём лёгких юношей группы*.

Примечание: *) выборочная совокупность пригодна для дальнейшей работы, если её объём не менее трёх объектов (n3).

  1.  Построить ряд распределения для каждой выборочной совокупности в виде таблицы и графика.
  2.  Дать точечную и интервальную оценку истинного значения измеряемой величины с доверительной вероятностью p=0,95.

Задание 2. Используя данные задания 1 полученные другой группой (по предложению преподавателя) сравнить достоверности отличия генеральных средних и дисперсий для однотипных рядов.

Задание 3. По выборкам Xi, Yi и Zi провести попарный корреляционный анализ.

  1.  Вычислить выборочный коэффициент парной корреляции и по его значению дать характеристику корреляционной зависимости.
  2.  Оценить достоверность коэффициента корреляции.
  3.  Найти уравнения линейной регрессии.
  4.  Построить в одних осях координат для каждой пары рядов корреляционное поле и линии регрессии.

Задание 4.** (для УИРС – учебно-исследовательской работы студентов).

Сформировать выборочные совокупности V1 – объем легких девушек группы и V2  - объем легких юноши группы, используя данные косвенных измерений.

Провести их статистическую обработку и проверить корреляцию с соответствующими выборками Z1 и Z2.

Задание 5.** (для УИРС).

  1.  Провести статистическую обработку выборочных данных, используя компьютерные программы по статистической обработке (Excel, Stadia, Diasta).
  2.  Сравнить полученные при  этом результаты с результатами ’’ручной’’ обработки данных.

Задание 6.** (для УИРС).

Используя данные выполнения задания 3, найти коэффициент множественной корреляции и построить регрессионную поверхность = Ax + By + C.

Вопросы  выходного  контроля

  1.  Как обеспечить репрезентативность выборки?
  2.  Какой минимальный объём выборочной совокупности необходим для дальнейшей обработки выборочных данных? Как он определяется?
  3.  Как провести оценку параметров выборочной совокупности?
  4.  Какие требования учитываются при выборе значения коэффициента Стьюдента?
  5.  Как оценить достоверность коэффициента корреляции?
  6.  Что можно сказать о корреляционной зависимости между парами вариационных рядов:

масса – рост человека;

масса – объём лёгких;

рост – объём лёгких?

  1.  Можно ли по виду линий регрессии оценить корреляционную зависимость между признаками?
  2.  Какими методами можно оценивать достоверность отличия между генеральными средними и генеральными дисперсиями 2-х рядов однотипных показателей?

9.** Какая программа использовалась при машинной обработке статистических данных?

10.** Как различаются результаты машинной и ручной обработки статистических данных?

11.** Что представляет собой регрессионная поверхность, полученная при выполнении 5 задания.

 ** Вопросы по заданиям для УИРС.


 

А также другие работы, которые могут Вас заинтересовать

38506. Обработка отверстий детали «переводник шлицевой» без применения технологической оснастки 1.59 MB
  В настоящее время для обработки отверстий применяют различного рода приспособления. При обработке отверстий без использования оснастки возникают такие условия что настройка на операцию обработки внутренних шпоночных пазов происходит с увеличением нормы времени штучное время. Это объясняется тем что количество установок детали ее переустановок время на настройку операции на различных приспособлениях будет различным в зависимости от быстродействия рассматриваемой технологической оснастки. Определение основного времени...
38507. АНАЛИЗ ДЕЯТЕЛЬНОСТИ КБ «ПРИВАТБАНК» В СОВРЕМЕННЫХ УСЛОВИЯХ РАЗВИТИЯ КРЕДИТНОГО РЫНКА УКРАИНЫ 2.31 MB
  КРЕДИТНАЯ ДЕЯТЕЛЬНОСТЬ БАНКА. Совершенствование кредитной политики банка {Error clculting vlue: Bookmrk _Toc125347208 ws not found in this document. Все усилия банка относительно возвращения кредитов сводятся на нет через несовершенство нашего законодательства. Учитывая экономическую и политическую нестабильность в Украине наилучшей гарантией возвращения кредита является его обеспечение поскольку при возникновении отрицательных явлений единым источником возвращения кредита для банка – реализация заставленного имущества.
38508. Проектирование жилого двухэтажного коттеджа с разработкой дизайна интерьера с добавлением элементов художественной ковки 6.56 MB
  Кованая мебель может быть выполнена в любом стиле: ампир и модерн артдеко барокко готика и неоготика кантри или хайтек. Кантри как основополагающий стиль. Для своего проекта интерьера коттеджа я предпочла применить стиль кантри с элементами художественной ковки. Слово кантри означает сельский деревенский а родиной этого стиля является Англия.
38509. Технология изготовления источника ионизирующего излучения 588.05 KB
  Сборочный чертеж источника ионизирующего излучения Р86 чертеж детали Корпус. Описание узла и назначение детали. Анализ чертежа детали. Анализ технологичности детали.
38510. Исследование уголовно-правовой и криминологической характеристики хулиганства 453.5 KB
  В дипломной работе детально рассмотрен целый комплекс проблем, касающихся определения социальной сущности хулиганства, его юридических признаков, мотивационно-причинных комплексов, психолого-педагогической характеристики хулигана, совершенствования форм и способов борьбы с ним, правотворческой и правоприменительной деятельности и т. д. Все это свидетельствует об актуальности избранной темы дипломной работы.
38511. Анализ и потребительская оценка ассортимента кондитерских товаров, реализуемых на предприятии ЗАО «Гулливер» 1.02 MB
  Основная задача товароведения кондитерских изделий состоит в изучении факторов, формирующих и сохраняющих их качество, т.е. в изучении сырья, из которого приготовлены кондитерские изделия, особенности технологии их производства, разработке наиболее рациональных режимов и способов хранения, упаковки и перевозки с наименьшими потерями.
38512. СЛАВЯНСКАЯ ГИПОТЕЗА ИДИШ П. ВЕКСЛЕРА: ЗА И ПРОТИВ 231 KB
  Пушкина Филологический факультет Кафедра общего и русского языкознания ГОЛОМАЗОВА ДАРЬЯ ВЛАДИМИРОВНА СЛАВЯНСКАЯ ГИПОТЕЗА ИДИШ П. Проблемы генетической классификации идиш в современной лингвистике.2 Проблема славянского происхождения идиш на примерах языкового материала . 48 ВВЕДЕНИЕ Выбор темы нашего исследования обусловлен сравнительной неизученностью происхождения языка идиш причинами которой являются недостаточное количество сохранившихся письменных документов по...
38513. Особливості маловідхідної технології вторинної переробки рудних пісків у балці «Крута» ВГМК 427 KB
  Значення вторинної переробки досить значне. По-перше ресурси багатьох матеріалів на Землі обмежені та не можуть бути заповнені в терміни, порівнянні з часом існування людської цивілізації. По-друге, потрапивши в навколишнє середовище, матеріали зазвичай стають забруднювачами.
38514. Описание технологического процесса изготовления детали «Муфта» 1019 KB
  Целью данной работы является: краткое описание характеристики цеха; описание оборудования приспособлений инструментов применяемых при изготовлении детали Муфта описание последовательности обработки детали Муфта назначение режимов резания при обработке детали составление технологической карты обработки; произвести обзор функций станков с ЧПУ описание программного обеспечения станков с ЧПУ тестирования и ввод коррекции станков с ЧПУ эксплуатации основных компонентов станков с ЧПУ методов наладки и контроля станка с ЧПУ...