71732

Методы статистической обработки выборочных данных

Лабораторная работа

Социология, социальная работа и статистика

Что показывает корреляционная зависимость между статистическими совокупностями Характеристика корреляционной зависимости по значению коэффициента парной корреляции. Связь коэффициентов уравнений регрессии с коэффициентом корреляции и их геометрический смысл.

Русский

2014-11-11

165 KB

19 чел.

24

Лабораторная работа №2

Методы статистической обработки

выборочных данных

Цель работы:  1. Научиться применять на практике методы статистической обработки выборочных данных.

                       2. Познакомиться с компьютерными программами   по статистической обработке.

Литература

  1.   1 , Гл. 2; §§ 2.3, 2.5 - 2.9.
  2.   2 , §§ 98; 100.
  3.   5 , стр. 22 - 24.

Лекции по теории вероятностей и математической статистике.

Вопросы входного контроля

  1.  Виды статистических совокупностей?
  2.  Способы задания статистических распределений?
  3.  Числовые характеристики статистических распределений?
  4.  Эффективность и несмещенность точечных оценок.
  5.  Стандартные интервалы в законе нормального распределения.
  6.  Интервальная оценка параметров генеральной совокупности.
  7.  Определение значения коэффициента Стьюдента.
  8.  Нулевая и альтернативная гипотезы. В чем их суть?
  9.  Критерии достоверности отличия между числовыми характеристиками двух выборочных совокупностей.
  10.  Что показывает корреляционная зависимость между статистическими совокупностями?
  11.  Характеристика корреляционной зависимости по значению коэффициента парной корреляции.
  12.  Цель регрессионного анализа.
  13.  Способы нахождения уравнений регрессии.
  14.  Связь коэффициентов уравнений регрессии с коэффициентом корреляции и их геометрический смысл.
  15.  Построение графиков регрессии.

1. Краткая теория

При измерении одного и того же параметра у группы испытуемых получается статистическая совокупность количественных данных х1, х2, …хn, которую для удобства обработки представляют в виде ранжированного ряда распределения. Ряд распределения обычно представляют в виде таблицы или  графика.

X

x1

x2

 

xk

K

m1

m2

mk

P

p1

p2

pk

В первой строке (Х) перечисляют все значения параметра в возрастающем или убывающем порядке;

во второй строке  (К) – показывают сколько раз встречается значение данного параметра в статистической совокупности;

в третьей строке (Р) – относительную частоту повторяемости данного параметра .

Рис.1.

При построении графика (рис.1) по оси абсцисс откладываются все полученные значения параметра хi, а по оси ординат – их частота рi.

Линия, соединяющая получаемые точки называется ломаной распределения, а сам график - полигон частот.

Расчет числовых характеристик выборки и их оценка для соответствующей генеральной совокупности производится по следующему плану:

I. Вычисление выборочных характеристик.

  1.   Выборочная средняя:    .

(В медицинских исследованиях эта величина часто обозначается буквой М).

  1.  Выборочная дисперсия:  
  2.  Среднеквадратическое выборочное отклонение: .

II. Оценка генеральных характеристик по выборочным.

  1.  Оценка выборочной дисперсии:  .
  2.  Оценка среднеквадратического выборочного  отклонения:

.

  1.  Оценка средней квадратической погрешности выборочной средней:

.

(В медицинских исследованиях эта величина часто обозначается буквой m).

  1.  Доверительный интервал:

= mt,

где t - коэффициента Стьюдента, который определяется исходя из объема выборки и доверительной вероятности.

  1.  Окончательный результат .

Таким образом, хотя мы не можем определить точное числовое значение характеристики изучаемого параметра в генеральной совокупности по известному значению ее для некоторой выборки. Однако по выборочной характеристике можно указать границы доверительного интервала, в пределах которого с доверительной вероятностью находится характеристика генеральной совокупности. Размер интервала зависит от объема выборки и от величины той ошибки, которую мы считаем в данном случае допустимой.

Доверительная вероятность – это вероятность гарантии того, что числовое значение параметра любого объекта, выбранного из генеральной совокупности, будет находится в интервале (-; +). Уровень значимости определяет вероятность допускаемой ошибки, т.е. =1-р.

В практике научных и лабораторных исследований вполне допустимым считается уровень значимости = 0,05, т.е. уровень допускающий ошибочность вывода лишь в 5% случаев от их общего количества. В некоторых особых случаях, требующих повышенной точности выводов, применяется 1% и менее уровни значимости. При окончательных выводах необходимо всегда указывать тот уровень значимости, для которых они приведены.  

В том случае, если аналогичные параметры снимались и в другой выборке, возможно получение двух отличающихся значений выборочной средней и выборочной дисперсии, а значит, будут различными и соответствующие оценки для генеральной совокупности:

 и  

Критерии сравнения достоверности отличия между двумя выборочными средними и дисперсиями позволяют проанализировать причины, вызвавшие эти отличия, т.е. зависят они от метода измерения и выбора объектов выборки (отличия достоверны) или объясняются статистическим характером разброса данных в генеральной совокупности, и каждой отдельно взятой выборке (отличия незначимы).

В случае незначимости отличий можно принять нулевую гипотезу о равенстве генеральных средних  и генеральных дисперсий . В противном случае принимается альтернативная гипотеза.

Критерии позволяют найти экспериментальное значение параметра Пэксп. и сравнить его с критическим параметром Пкр при заданной доверительной вероятности. Если Пэксп  Пкр, то делают вывод о согласии экспериментальных результатов  с нулевой гипотезой. Если Пэксп  Пкр, то нулевую гипотезу отвергают в пользу альтернативной.

Следует помнить, что описанные методы проверки нулевой гипотезы носят статистический характер, выраженный в том, что утверждение о справедливости нулевой гипотезы принимается не абсолютно, а лишь при некоторой доверительной вероятности или некотором уровне значимости.

Сравнение генеральных средних зависит от объема выборок.

Критерий Лапласа используется при больших объемах выборок (n 30) с любым даже неизвестным законом распределения:

;

tкр определяется из соотношения Ф (tкр) = , где Ф (t) – функция Лапласа, р – доверительная вероятность.

При малых выборках разного объема, если известно , что генеральные совокупности подчиняются закону нормального распределения, можно воспользоваться критерием Фишера-Стьюдента:

t эксп = ;

tкр (р;f) – значение коэффициента Стьюдента при доверительной вероятности р и количестве степеней свободы f = n1 + n2 – 2.

Критерий Фишера – Снедекора позволяет сделать выбор между нулевой и альтернативной гипотезами для равенства генеральных дисперсий:

, где - оценка дисперсии  с большим значением, и - оценка дисперсии с меньшим значением;

находят по таблице распределения Фишера-Снедекора, где - уменьшенный на единицу объем выборки c большей   дисперсией, а f2 – уменьшенный на единицу объем выборки с меньшей дисперсией.

Корреляционный и регрессионный анализ позволяет выявить наличие статистической зависимости между двумя рядами Х и Y различных параметров и подобрать функцию, наиболее точно описывающую эту зависимость и позволяющую исследовать характер влияния изменения одного признака на изменение другого.

Значение выборочного коэффициента парной корреляции   rху можно вычислить  по формуле:

   

         Основные свойства коэффициента корреляции:

  1.  Коэффициент корреляции двух независимых величин равен нулю.
  2.  Коэффициент корреляции двух величин, связанных линейной функцией равен 1 (+ - возрастающая; - убывающая зависимость).
  3.  Абсолютная величина коэффициента корреляции не превышает единицы:

.

Характер и тесноту корреляционной зависимости различают по величине коэффициента корреляции:

rxy  0 – прямая,

rxy  0 – обратная,

  1 – тесная,

  0,7 – средняя,

0  0,4 – слабая.

Для оценки достоверности коэффициента корреляции определяют его погрешность:

и вычисляют коэффициент Стьюдента:

Зная коэффициент Стьюдента, находят по таблице доверительную вероятность с учетом степени свободы: f = n – 2.

Или иначе:

  •  для того, чтобы убедиться, что коэффициент парной корреляции, вычисленный по данным выборочного исследования, будет соответствовать тесноте корреляционной связи в генеральной совокупности, применяют критерий Стьюдента для определения tтабл по числу степеней свободы f = n – 2.

Тогда:

  •  если tэксп  tтабл., то при принятой вероятности делают вывод о значимости коэффициента корреляции;
  •  если tэксп  tтабл., то такого вывода сделать нельзя.

Коэффициент корреляции указывает лишь на направление и тесноту связи между двумя переменными величинами, но не дает возможности судить о том, как количественно меняются величины одного признака по мере изменения величины другого признака. Ответ на этот вопрос дает применение метода регрессии.

Регрессия – это функция, позволяющая по величине одного коррелирующего признака определить средние величины другого признака.

Функция регрессии может иметь любой вид (линейная, степенная, показательная и т.д.) и методы регрессионного анализа позволяют отыскать внешний вид этой функции. Подробнее познакомимся с линейной регрессией.

Между коэффициентом корреляции rxy, числовыми характеристиками выборок и коэффициентами уравнений линейной регрессии существует определённая связь.

Для уравнения регрессии Y на Х: :   ;   .

Для уравнения регрессии Х на Y: :   ;   .

Имея частные значения уравнений линейной регрессии, можно построить их графики (рис.2):

Линии регрессии пересекаются в точке ().

При этом: tg =A;

   tg =C.

Рис. 2.

По величине выборочных коэффициентов регрессии судят о силе корреляционной связи между изучаемыми величинами. Так, например, чем больше коэффициент A линейной регрессии  на X, тем сильнее изменяется значение величины  при изменении величины X на единицу.

Ориентировочно о силе корреляционной зависимости можно судить по корреляционному полю. Корреляционное поле представляет собой множество точек с координатами (xi; yi) (рис.3):

     

Рис. 3а.                                               Рис. 3б.

Чем больше разброс точек (рис. 3а), тем слабее зависимость и, наоборот, если точки группируются вдоль некоторой линии, можно приближённо судить даже о виде функции регрессии (рис. 3б).

2. Практическая часть

Задание 1. Провести статистическую обработку данных выборочных исследований.

  1.  Используя данные прямых измерений предыдущей лабораторной работы (масса тела, рост и объём лёгких) сформировать следующие выборочные совокупности:

Х1 – масса тела девушек группы;

Х2 – масса тела юношей группы;

Y1 – рост девушек группы;

Y2 – рост юношей группы;

Z1 – объём лёгких девушек группы;

Z2 – объём лёгких юношей группы*.

Примечание: *) выборочная совокупность пригодна для дальнейшей работы, если её объём не менее трёх объектов (n3).

  1.  Построить ряд распределения для каждой выборочной совокупности в виде таблицы и графика.
  2.  Дать точечную и интервальную оценку истинного значения измеряемой величины с доверительной вероятностью p=0,95.

Задание 2. Используя данные задания 1 полученные другой группой (по предложению преподавателя) сравнить достоверности отличия генеральных средних и дисперсий для однотипных рядов.

Задание 3. По выборкам Xi, Yi и Zi провести попарный корреляционный анализ.

  1.  Вычислить выборочный коэффициент парной корреляции и по его значению дать характеристику корреляционной зависимости.
  2.  Оценить достоверность коэффициента корреляции.
  3.  Найти уравнения линейной регрессии.
  4.  Построить в одних осях координат для каждой пары рядов корреляционное поле и линии регрессии.

Задание 4.** (для УИРС – учебно-исследовательской работы студентов).

Сформировать выборочные совокупности V1 – объем легких девушек группы и V2  - объем легких юноши группы, используя данные косвенных измерений.

Провести их статистическую обработку и проверить корреляцию с соответствующими выборками Z1 и Z2.

Задание 5.** (для УИРС).

  1.  Провести статистическую обработку выборочных данных, используя компьютерные программы по статистической обработке (Excel, Stadia, Diasta).
  2.  Сравнить полученные при  этом результаты с результатами ’’ручной’’ обработки данных.

Задание 6.** (для УИРС).

Используя данные выполнения задания 3, найти коэффициент множественной корреляции и построить регрессионную поверхность = Ax + By + C.

Вопросы  выходного  контроля

  1.  Как обеспечить репрезентативность выборки?
  2.  Какой минимальный объём выборочной совокупности необходим для дальнейшей обработки выборочных данных? Как он определяется?
  3.  Как провести оценку параметров выборочной совокупности?
  4.  Какие требования учитываются при выборе значения коэффициента Стьюдента?
  5.  Как оценить достоверность коэффициента корреляции?
  6.  Что можно сказать о корреляционной зависимости между парами вариационных рядов:

масса – рост человека;

масса – объём лёгких;

рост – объём лёгких?

  1.  Можно ли по виду линий регрессии оценить корреляционную зависимость между признаками?
  2.  Какими методами можно оценивать достоверность отличия между генеральными средними и генеральными дисперсиями 2-х рядов однотипных показателей?

9.** Какая программа использовалась при машинной обработке статистических данных?

10.** Как различаются результаты машинной и ручной обработки статистических данных?

11.** Что представляет собой регрессионная поверхность, полученная при выполнении 5 задания.

 ** Вопросы по заданиям для УИРС.


 

А также другие работы, которые могут Вас заинтересовать

36373. Цифровые регуляторы. Достоинства. Структурная схема 34.77 KB
  Структурная схема состоит из входного устройства I вычислительного устройства II выходного устройства III входное устройство представляет собой совокупность блоков и включает в себя: АД аналоговый датчик АЗ аналоговый задатчик АО блок аналоговых отклонений АЦП аналогоцифровой преобразователь. Выходным сигналом является сигнал в цифровом коде Х [nT] который подается на вход вычислительного устройства. На выходе ВУ выдают управляющие воздействия Y[nТ] в цифровой форме которая поступает на вход выходного устройства.
36374. Чертежи общих видов щитов, пультов систем автоматизации. Правила выполнения 26.86 KB
  Чертеж общего вида единичного щита содержит следующие элементы: авид спереди фасадная плоскость; бвид на внутренние плоскости; втехнические требования; гтаблицу надписей табло и в рамках; дтаблицы для монтажа электрических и трубных проводок; еперечень составных частей; жосновную надпись и дополнительные графы. Чертеж общего вида составного щита содержит: вид спереди фронтальная плоскость; перечень составных частей; основную надпись и дополнительные графы. На чертежах общего вида щиты изображаются в следующих масштабах: 1:10...
36375. Моделирование как способ изучения, прогнозирования поведения и отображения объектов. Типы объектов. Виды моделирования 11.57 KB
  Существует два класса моделей: 1 физические которые представляют собой установки устройства воспроизводящие в том или ином масштабе исследуемый объект при сохранении физического подобия объекта. 2 абстрактные модели в них производится описание объекта на какомлибо языке как то речь чертеж схема математика. Совокупность математических соотношений описывающих характеристики объекта называется математической моделью объекта. Математическая модель отображает алгоритм функционирования объекта.
36376. ПИД – регулятор 31.47 KB
  Пропорциональная составляющая формирует на выходе управляющее воздействие пропорциональное ошибке Е. Дифференциальная составляющая формирует воздействие пропорциональное скорости изменения ошибки обеспечивает минимальное быстродействие ошибка Е по модулю всегда больше нуля. Интегральная составляющая формирует управляющее воздействие пропорционально площади ошибки т. Пропорциональная составляющая вырабатывает выходной сигнал противодействующий отклонению регулируемой величины от заданного значения наблюдаемому в данный момент времени.
36377. Прикладные программы 12.43 KB
  Прикладные программы предназначены для обработки данных пользователей ЭВМ. С помощью прикладных программ осуществляется решение: как отдельных задач так и системы взаимосвязанных задач. Область применения прикладных программ все отрасли человеческой деятельности. Эти программы находятся в постоянном развитии и расширении особенно в направлении применения оптимизирующих алгоритмов и представляются не в виде некоторого одного универсального комплекса а нескольких каждый из которых представлен совокупностью программ для разрешения вполне...
36378. Принцип действия пирометров спектрального отношения 125 KB
  Пирометры спектрального отношения измеряют цветовую температуру объекта по отношению интенсивностей излучения Еλ1 и Еλ2 в двух определенных участках спектра каждый из которых характеризуется эффективной длиной волны λ1 и λ2.Следовательно осуществив в приборе операцию логарифмирования можно свести измерение отношения интенсивностей излучения к измерению разности их логарифмов. Каждой температуре соответствует определенная длина волны на которой интенсивность излучения максимальна. В цветовых пирометрах определяется отношение интенсивности...
36379. Состав САПР. Компоненты видов обеспечения САПР 45.5 KB
  Составными частями САПР жестко связанными с организационной структурой проектной организации являются подсистемы в которых при помощи специализированных комплексных средств решается последовательность задач проектирования. Проектирующие подсистемы имеют объектную ориентацию и реализуют определенный этап проектирования или группы непосредственно связанных проектных задач например эскизное проектирование изделий проектирование корпусных деталей проектирование ТП механической обработки. Компоненты видов обеспечения Средства...
36380. Схемы внешних электрических и трубных проводок. Основные требования и правила выполнения 36 KB
  Схемы внешних электрических и трубных проводок. Схема соединений внешних проводок это комбинированная схема на которой показывают электрические и трубные связи между приборами и средствами автоматизации установленными на технологическом оборудовании вне щитов и на щитах а также подключения проводок к приборам и щитам. Схему подключения допускается не выполнять если все подключения могут быть показаны на схеме соединений внешних проводок. При необходимости раздельного изображения электрических и трубных проводок цеха участка...
36381. Учет персонала 29.58 KB
  Учет персонала. Взаимосвязи подсистемы Учет персонала : Из подсистемы АНАЛИЗ и УПРАВЛЕНИЕ приказы нормативы и запросы на получение информации. Информация из бухгалтерии о расходах на содержание персонала отчеты по начислениям з платы и прочие денежные выплаты. Различные отчеты и сводки для подсистемы АНАЛИЗ и УПРАВЛЕНИЕ об использовании персонала численность и качественный состав работников данные для статистики расходы на содержание персонала и т.