7244

Основные задачи статистики: выборки, гистограммы, полигоны частот

Лабораторная работа

Математика и математический анализ

ТЕМА: Основные задачи статистики: выборки, гистограммы, полигоны частот. п.1 Генеральная совокупность. Выборка. Вариационный ряд. Теоретический материал. Математическая статистика в основном занимается изучением случайных величин и случайных со...

Русский

2013-01-20

2.47 MB

211 чел.

ТЕМА: Основные задачи статистики: выборки, гистограммы, полигоны частот.

п.1 Генеральная совокупность. Выборка. Вариационный ряд.

Теоретический материал.

Математическая статистика в основном занимается изучением случайных величин и случайных событий по результатам наблюдений. Ее главная задача извлечь максимум информации из эмпирических данных.

Основные задачи математической статистики:

1. Определение неизвестного закона распределения случайных величин (или системы случайных величин) по статистическим данным.

2. Статистическая проверка гипотез

З. Задача нахождения неизвестных параметров распределения.

Важнейшими понятиями математической статистики являются генеральная совокупность и выборка.

Генеральная совокупность это вероятностное пространство с определенной на нем случайной величиной ξ (Конечное или бесконечное множество всех возможных значений случайного признака).

В результате проведения n экспериментов со случайной величиной ξ получаем n выборочных значений xi, i = 1, 2, ..., n. Вся совокупность этих значений называется выборкой.

Наблюдаемое значение хi называется вариантой, а их последовательность, записанная в возрастающем порядке, вариационным рядом.

По принципу организации выборки делятся на:

  •  случайные,
    •  серийные,
    •  типические,
    •  механические,
    •  комбинированные.

Наиболее распространённым и теоретически обоснованным методом выборочного обследования является случайный отбор. В свою очередь, случайная выборка делится на:

  •  повторную;

(При повторной выборке элементы генеральной совокупности, подвёргшиеся обследованию, возвращаются в генеральную совокупность и, таким образом, вновь участвуют в процедуре отбора. Такая схема называется схемой возвращённых шаров.)

  •  бесповторную.

(При бесповторной выборке обследованные элементы в генеральную совокупность не возвращаются (схема невозвращённых шаров).

Пусть из генеральной совокупности извлекается выборка, при этом значение x1 наблюдалось n1 раз и xкnк раз. Тогда общий объём выборки (количество элементов n, взятых в выборку для обследования):

Объем генеральной совокупности N может быть как конечным, так и бесконечным.

Для каждого элемента генеральной совокупности объема  N вероятность попасть в выборку объёма n равна отношению , независимо от способа отбора. Действительно, если производится повторная выборка (например, по схеме возвращённых шаров), то объем генеральной совокупности в процессе отбора не меняется, и вероятность попасть в выборку для каждого фиксированного элемента равна . Так как процедура отбора производится n раз, то и вероятность увеличивается в n раз.

Чрезвычайно важным является вопрос о соотношении объемов выборки n генеральной совокупности N. Ясно, что выборка очень малого объёма может дать искаженное представление о распределении случайного признака в генеральной совокупности. И, наоборот, при nN выборочное обследование будет максимально точно оценивать параметры распределения, но целесообразность такого эксперимента может оказаться весьма сомнительной.

Таким образом, выборка должна быть репрезентативной, и её характеристики с определенной достоверностью должны представлять параметры изучаемого распределения.

Выборка из генеральной совокупности является основным источником информации о случайной величине. По выборке оценивается класс распределений, к которому принадлежит распределение исследуемой случайной величины, устанавливаются интервалы, в которых лежат истинные значения параметров распределения, проверяются гипотезы об этой случайной величине и формулируются выводы о других её свойствах.

Первый этап первичной обработка данных состоит:

  •  в отыскании максимального xmax, минимального xmin значений выборки, размаха варьирования R=xmax - xmin,
    •  построении вариационного ряда – массива выборочных значений, записанных в порядке возрастания.

Замечание. В Mathcad xmax и xmin вычисляются соответственно функциями max(ξ), min(ξ) и sort(A).

Практическое задание:

1. Ввод и вывод файлов данных (стр.462-463)

2. Отыскание максимального xmax, минимального xmin значений выборки, размаха варьирования R=xmax - xmin и построение вариационного ряда (стр.464-465).


п.2 Гистограмма.
Полигон частот.

Теоретический материал.

Наиболее наглядная форма графического представления выборки является гистограмма.

Пусть δ1, δ2 ,.., δm  – длины интервалов группировки,  - их середины,  – величина, равная отношению числа наблюдений ni называемой частотой к объёму выборки есть относительная частота попадания наблюдений в j-й интервал группировки. Тогда можно построить график ступенчатой функции:

, , .

График, для которого каждому интервалу значений признака соответствует частота его попадания в этот интервал, называется гистограммой.

Иная форма графического представления группированных данных - полигон частот и полигон накопленных частот.

Полигон частот это ломаная линия, соединяющая точки с координатами , т.е. с абсциссами, равными серединам интервалов группировки, и ординатами, равными соответствующим частотам.

Полигон накопленных частот - это ломаная линия, соединяющая точки с координатами  или , т.е. с абсциссами, равными правым границам интервалов группировки, и ординатами, равными соответствующим накопленным частотам или относительным накопленным частотам.

Второй этап первичной обработка данных состоит:

  •  в группировке данных (выборки) объема n;

(1 шаг. Промежуток [xmax, xmin] разбивают на m интервалов группировки, чаще всего одинаковой длины, и подсчитывают число nj выборочных значений, которые попали в j-й интервал. Обычно выбирают: m=7-20.

2 шаг. Каждый интервал группировки j=(aj, bj) представлен своими левой aj и правой bj границами и числом nj элементов выборки, принадлежащих ему. Каждый интервал удобно представлять не двумя границами, а одним числом – срединным значением.)

  •  графическое представление группировки.

Замечание. 1. В Mathcad для построения гистограмм предназначена функция hist(∆,А).

2. Для построения гистограммы необходимо сначала сгруппировать выборочные данные, записанные в массиве А, и сохранить граничные точки интервалов группировки в векторе , размерность которого равна числу интервалов. Результат вычислений функции hist(∆,А) – вектор, каждый элемент которого равен количеству выборочных значений, попадающих в соответствующий интервал группировки. Размерность вектора hist(∆,А) совпадает с размерностью вектора ∆ и равна числу интервалов группировки.

3. Величина интервала группировки существенно влияет на вид гистограммы. При малой их ширине в каждый интервал попадает незначительное число наблюдений или даже не попадает ни одного, в результате гистограмма становится сильно «изрезанной» и плохо передает основные особенности изучаемого распределения. Другая крайность – большие интервалы группировки; в этом случае складываются характерные черты распределения.

3. В Mathcad для построения полигон частот предназначена функция hist(∆,А).

Практическое задание:

  1.  Группировка данных.
  2.  Построение гистограммы (стр.466-468)
  3.  Построение полигона частот (стр.472-474)


п.3 Эмпирическая функция распределения.

Теоретический материал.

Пусть известно статистическое распределение частот количественного признака X. Введем обозначения:

  •  nx – число наблюдений, при которых наблюдалось значение признака, меньшее х;
  •  n – общее число наблюдений (объем выборки).

Ясно, что относительная частота события X < x равна . Если х изменяется, то, вообще говоря, изменяется и относительная частота, т.е. относительная частота  есть функция от х. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения х относительную частоту события:

,

где nx – число вариант, меньших х; n – объем выборки.

Например, для того чтобы найти, , надо вариант, меньших х2, разделить на объем выборки.

В отличие от эмпирической функции распределения выборки функцию распределения  генеральной совокупности называют теоретической функцией распределения.

Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция  определяет вероятность события Х < x, а эмпирическая функция  определяет относительную частоту этого же события.

Из теоремы Бернулли следует, что относительная частота события Х < x, т.е.  стремится по вероятности к вероятности  этого события. Другими словами, при больших n числа  и  мало отличается одно от другого в том смысле, что:

, где .

Уже отсюда следует целесообразность использования эмпирической функции распределения выборки для приближенного представления теоретической (интегральной) функции распределения генеральной совокупности.

Такое заключение подтверждается и тем, что  обладает всеми свойствами . Действительно, из определения функции  вытекает следующие ее свойства:

  1.  Значения эмпирической функции принадлежат отрезку [0, 1];
  2.   – неубывающая функция;
  3.  если х1 – наименьшая варианта, то  при хх1;
  4.  если хк – наибольшая варианта, то  при х>хк.

распределение случайной величины является ее «паспортом», содержащим всю информацию о случайной величине.

Рассмотрим методы оценивания функции распределения ξ(х) случайной величины, о которой известно, что она непрерывна.

Пусть  – совокупность выборочных значений случайной величины ξ, то есть выборка из случайной величины ξ. Расположим наблюдения   в порядке их возрастания. Обозначим новую упорядоченную последовательность – вариационный ряд* – как:

, где .

По этому вариационному ряду построим следующую неубывающую ступенчатую функцию:

.

Из приведенной выше формулы видно, что  претерпевает в каждой точке вариационного ряда скачок, равный по величине 1/n. Если какая-нибудь точка вариационного ряда повторяется m раз (m точек вариационного ряда совпадают), то скачок функции  в этой точке равен m/n.

Функция  называется эмпирической функцией распределения.

Замечание. Эмпирическая функция распределения  зависит не только от х, но и от всей выборки . Чтобы обратить внимание на этот факт, будем обозначать эмпирическую функцию распределения через . Именно  принимают за оценку теоретической функции распределения .

Чтобы использовать аппарат математической статистики, нужно уметь находить числовые характеристики выборок и строить эмпирические распределения, с помощью которых в дальнейшем можно сделать соответствующие выводы.

Рассмотрим правила предварительной обработки выборочных данных. Таблица 1 выборки объёма n=250 будет использоваться, как пример, далее во всех вычислениях, а так же станет источником построения выборок для индивидуальных вариантов заданий.

Таблица 1

145.61 143.206 145.267 140.485 133.143 150.435 148.794 155.564 171.918

158.087 159.851 158.622 159.156 156.73 139.557 150.691 142.444 156.967

148.181 143.556 142.769 144.834 155.58 147.552 150.895 162.618 142.945

150.019 161.076 158.926 120.991 128.429 152.06 143.842 138.023 150.99

157.708 153.059 150.113 142.355 145.909 143.262 148.678 160.181 151.805

155.133 157.398 149.837 152.788 151.622 154.285 145.248 143.045 180.482

147.135 137.201 157.594 146.073 137.964 139.631 149.807 150.32 152.649

154.915 152.383 143.155 133.852 164.113 159.715 138.44 151.437 166.972

146.797 129.688 135.888 136.747 144.829 150.621 144.042 146.693 155.391

152.186 154.05 138.441 138.949 138.966 145.927 136.867 121.596 162.762

157.911 151.429 139.937 140.73 141.22 152.777 145.978 163.02 136.219

153.803 154.377 167.603 143.527 155.51 165.465 131.784 163.079 139.511

154.591 139.478 137.579 154.241 130.834 148.761 154.132 164.656 137.711

146.154 154.763 151.862 151.96 155.206 159.229 159.314 158.972 152.601

143.066 154.656 148.493 141.368 171.144 137.64 133.062 153.865 135.711

145.891 158.742 144.311 140.903 141.323 160.971 139.771 131.484 156.247

142.623 155.409 156.641 155.196 151.459 149.488 153.16 152.488 148.294

145.475 152.937 151.507 140.659 157.925 157.163 160.438 158.11 156.17

147.549 149.142 156.848 157.911 153.578 147.887 148.445 151.36 158.639

169.584 150.688 155.646 155.572 168.911 164.788 127.059 156.623 145.593

145.263 150.889 143.012 153.472 141.25 169.001 122.741 158.702 171.791

160.849 161.757 140.286 134.241 154.64 164.744 161.654 142.365 155.094

154.96 141.977 143.729 144.466 146.54 145.355 152.509 146.266 147.269

162.895 151.941 170.865 134.377 150.79 154.205 166.274 156.198 132.828

136.274 173.96 157.332 149.975 141.54 139.826 133.692 139.462 161.159

159.455 157.597 139.385 145.867 166.069 150.237 146.685 145.436 153.969

154.961 149.211 150.83 154.224 142.28 148.655 135.371 152.018 166.807

140.923 157.864 148.745 138.823 157.239 151.912 141.182 0 0

Функцию распределения  случайной величины часто называют теоретической функцией распределения. хотя более правильным представляется другой термин – истинная функция распределения.

Замечание. При первичной обработке выборочных данных можно рекомендовать несколько общих правил:

  1.  Перед началом группировки следует упорядочить выборочные значения в порядке возрастания – вариационным рядом.
  2.  При выборе числа интервалов группировки следует ориентироваться на 10-20 интервалов.
  3.  Предпочтительнее использовать интервалы одинаковой длины.
  4.  При анализе охватывайте всю область данных.
  5.  Избегайте полуоткрытых промежутков.
  6.  Интервалы группировки не должны перекрываться.

Практическое задание.

Вычислите максимальное. минимальное значения и размах для заданной части приведенной выше выборки. Выполните группировку для заданных значений m. постройте соответствующие гистограммы. полигоны частот и полигоны накопленных частот.

Указание.

1. Определите и введите вектор-столбец выборочных значений.

  •  В данной выборке i=0…250.

  •  Чтобы ввести вектор-столбец выборочных значений. выполняем команды:

«Вставка-Компонент-Таблица (Input Table)».

  •  Вводим и сохраняем 250 выборочных значений в массиве с именем ξ.

  •  При необходимости можно изменить свойства таблицы. используя команды:

«Свойства-Формат» контекстного меню.

Замечание. Существует и другой способ ввода данных-с помощью функции  READ(file). которая считывает значение из файла и присваивает его переменной. Надо указывать полное имя файла. в котором заранее введены и сохранены таблицы чисел.

2. Упорядочите выборку в порядке возрастания выборочных значений.

Прежде чем приступать к группировке выборки. необходимо упорядочить выборочные значения в порядке их возрастания: sort(ξ).

З. Вычислите минимальное значение и размах для полученной выборки. с помощью функций max(А). min(А).

4. Определите  число интервалов группировки и их длину.

5. Определите вектор-столбец. содержащий середины интервалов группировки.

6. Определите с помощью функции hist(Х.ξ) вектор-столбец частот для полученных интервалов группировки.

7. Постройте гистограмму. полигон частот.

8. Определите вектор-столбец накопленных частот и постройте эмпирическую функцию распределения.

9. Постройте полигон накопленных частот и полигон относительных накопленных частот.

10. Выполните вычисления пп. 6- 9 для всех заданных значений m=10. 20. 100.

11. Сохраните рабочий документ в файле на диске.

PAGE   \* MERGEFORMAT 1


 

А также другие работы, которые могут Вас заинтересовать

25933. Реакторы. Назначение. Конструктивное исполнение. Принцип действия. Условия выбора. Сдвоенные реакторы 26 KB
  Реакторы. Сдвоенные реакторы. Для ограничения ударного тока короткого замыкания применяют токоограничивающие реакторы. По этой причине реакторы выполняют без стальных сердечников несмотря на то что при этом для поддержания такого же значения индуктивности их приходится делать больших размеров и массы.
25934. Измерительные трансформаторы тока и напряжения. Назначение. Конструктивное исполнение. Принцип действия. Условия выбора 26 KB
  Измерительные трансформаторы тока и напряжения. Трансформатор напряжения трансформатор предназначеный для преобразования высокого напряжения в низкое в цепях РЗиА. Применение трансформатора напряжения позволяет изолировать логические цепи защиты и цепи измерения от цепи высокого напряжения. Виды трансформаторов напряжения Заземляемый трансформатор напряжения однофазный трансформатор напряжения один конец первичной обмотки которого должен быть наглухо заземлен или трехфазный трансформатор напряжения нейтраль первичной обмотки которого...
25935. Разрядники: назначение, конструкция, принцип действия. Вентильные и трубчатые разрядники. Нелинейные ограничители перенапряжения (ОПН): назначение, конструкция, принцип действия. Условия выбора 52.5 KB
  Нелинейные ограничители перенапряжения ОПН: назначение конструкция принцип действия. В результате пробоя в трубке возникает интенсивная газогенерация и через выхлопное отверстие образуется продольное дутье достаточное для погашения дуги . ОПН Ограничитель перенапряжения нелинейный ОПН это разрядник без искровых промежутков. Активная часть ОПН состоит из последовательного набора варисторов.
25936. Устройство защитного отключения (УЗО). Назначение, схема подключения 53 KB
  Устройство защитного отключения УЗО. Устройство защитного отключения УЗО; более точное название: Устройство защитного отключения управляемое дифференциальным остаточным током сокр. УЗО−Д механический коммутационный аппарат или совокупность элементов которые при достижении превышении дифференциальным током заданного значения при определённых условиях эксплуатации должны вызвать размыкание контактов. Основная задача УЗО защита человека от поражения электрическим током и от возникновения пожара вызванного утечкой тока через...
25937. Конструкция и принцип действия воздушных выключателей. Достоинства и недостатки. Условия выбора. Сравнение с другими высоковольтными выключателями 27.5 KB
  Воздушные выключатели обладают высокими техническими характеристиками. Сетевые выключатели на напряжение 6кВ и выше применяемыев электрических сетях и предназначенные для пропуска и коммутации тока в нормальных условиях работы цепи и в условиях КЗ. Генераторные выключатели на напряжение 624 кВ предназначенные для пропуска и коммутации токов в нормальных условиях а также в пусковых режимах и при КЗ. Выключатели для электротермических установок с напряжениями 6220 кВ предназначенные для работы как в нормальных так и в аварийных режимах 4.
25938. Конструкция и принцип действия элегазовых выключателей. Достоинства и недостатки. Условия выбора. Сравнение с другими высоковольтными выключателями 23 KB
  В элегазовых выключателях гашение дуги происходит так же как и в воздушных выключателях при интенсивнои охлаждении дуги потоком газа. В элегазовых дугогасительных устройствах в отличие о воздушных при гашении дуги истечение газа через сопло происходит не в атмосферу а в замкнутый объем камеры заполненный элегазом при небольшом избыточном давлении. По способу гашения дуги в элегазе различают следующие ДУ: с системой продольного дутья в которую предварительно сжатый воздух поступает из резервуара с относительно высоким давлением элегаза ДУ...
25939. Выключатели нагрузки. Назначение, конструктивное исполнение и принцип действия выключателей нагрузки. Условия выбора 21 KB
  Выключатели нагрузки. Назначение конструктивное исполнение и принцип действия выключателей нагрузки. Выключатели нагрузки используются для оперативного соединения и разъединения цепи. Выключатель нагрузки обеспечивает двухкратное включение нормированного для него тока включения на короткое замыкание без повреждений препятствующих его дальнейшей работе в нормальном и эксплуатационном режиме.
25940. Расчет деревянных, металлических, железобетонных перекрытий 1.07 MB
  Орел 2011 Расчет деревянного перекрытия Подобрать сечение деревянной балки для перекрытия жилого дома.Предварительно принимаем собственный вес одного метра балки qnбалки=025кН м;f=1.1 qбалки= qnбалки f=0.Собираем нагрузку на погонный метр балки с учетом её собственного веса: qn=qnперекрытияlгр qnбалки=18140275=277кН м; q= qперекрытияlгр qбалки=234120275=3083кН м.
25941. СБОРНО-МОНОЛИТНЫЕ КОНСТРУКЦИИ 26.5 KB
  СБОРНОМОНОЛИТНЫЕ КОНСТРУКЦИИ конструкции состоящие из заранее изготовленных на заводах отд. Наибольшее распространение получили сборномонолитные конструкции со сборными элементами из железобетона см. Железобетонные конструкции . арматуру конструкции и иногда используются в качестве формы опалубки для монолитного бетона; их целесообразно делать предвари тсльно напряженными.