7244

Основные задачи статистики: выборки, гистограммы, полигоны частот

Лабораторная работа

Математика и математический анализ

ТЕМА: Основные задачи статистики: выборки, гистограммы, полигоны частот. п.1 Генеральная совокупность. Выборка. Вариационный ряд. Теоретический материал. Математическая статистика в основном занимается изучением случайных величин и случайных со...

Русский

2013-01-20

2.47 MB

208 чел.

ТЕМА: Основные задачи статистики: выборки, гистограммы, полигоны частот.

п.1 Генеральная совокупность. Выборка. Вариационный ряд.

Теоретический материал.

Математическая статистика в основном занимается изучением случайных величин и случайных событий по результатам наблюдений. Ее главная задача извлечь максимум информации из эмпирических данных.

Основные задачи математической статистики:

1. Определение неизвестного закона распределения случайных величин (или системы случайных величин) по статистическим данным.

2. Статистическая проверка гипотез

З. Задача нахождения неизвестных параметров распределения.

Важнейшими понятиями математической статистики являются генеральная совокупность и выборка.

Генеральная совокупность это вероятностное пространство с определенной на нем случайной величиной ξ (Конечное или бесконечное множество всех возможных значений случайного признака).

В результате проведения n экспериментов со случайной величиной ξ получаем n выборочных значений xi, i = 1, 2, ..., n. Вся совокупность этих значений называется выборкой.

Наблюдаемое значение хi называется вариантой, а их последовательность, записанная в возрастающем порядке, вариационным рядом.

По принципу организации выборки делятся на:

  •  случайные,
    •  серийные,
    •  типические,
    •  механические,
    •  комбинированные.

Наиболее распространённым и теоретически обоснованным методом выборочного обследования является случайный отбор. В свою очередь, случайная выборка делится на:

  •  повторную;

(При повторной выборке элементы генеральной совокупности, подвёргшиеся обследованию, возвращаются в генеральную совокупность и, таким образом, вновь участвуют в процедуре отбора. Такая схема называется схемой возвращённых шаров.)

  •  бесповторную.

(При бесповторной выборке обследованные элементы в генеральную совокупность не возвращаются (схема невозвращённых шаров).

Пусть из генеральной совокупности извлекается выборка, при этом значение x1 наблюдалось n1 раз и xкnк раз. Тогда общий объём выборки (количество элементов n, взятых в выборку для обследования):

Объем генеральной совокупности N может быть как конечным, так и бесконечным.

Для каждого элемента генеральной совокупности объема  N вероятность попасть в выборку объёма n равна отношению , независимо от способа отбора. Действительно, если производится повторная выборка (например, по схеме возвращённых шаров), то объем генеральной совокупности в процессе отбора не меняется, и вероятность попасть в выборку для каждого фиксированного элемента равна . Так как процедура отбора производится n раз, то и вероятность увеличивается в n раз.

Чрезвычайно важным является вопрос о соотношении объемов выборки n генеральной совокупности N. Ясно, что выборка очень малого объёма может дать искаженное представление о распределении случайного признака в генеральной совокупности. И, наоборот, при nN выборочное обследование будет максимально точно оценивать параметры распределения, но целесообразность такого эксперимента может оказаться весьма сомнительной.

Таким образом, выборка должна быть репрезентативной, и её характеристики с определенной достоверностью должны представлять параметры изучаемого распределения.

Выборка из генеральной совокупности является основным источником информации о случайной величине. По выборке оценивается класс распределений, к которому принадлежит распределение исследуемой случайной величины, устанавливаются интервалы, в которых лежат истинные значения параметров распределения, проверяются гипотезы об этой случайной величине и формулируются выводы о других её свойствах.

Первый этап первичной обработка данных состоит:

  •  в отыскании максимального xmax, минимального xmin значений выборки, размаха варьирования R=xmax - xmin,
    •  построении вариационного ряда – массива выборочных значений, записанных в порядке возрастания.

Замечание. В Mathcad xmax и xmin вычисляются соответственно функциями max(ξ), min(ξ) и sort(A).

Практическое задание:

1. Ввод и вывод файлов данных (стр.462-463)

2. Отыскание максимального xmax, минимального xmin значений выборки, размаха варьирования R=xmax - xmin и построение вариационного ряда (стр.464-465).


п.2 Гистограмма.
Полигон частот.

Теоретический материал.

Наиболее наглядная форма графического представления выборки является гистограмма.

Пусть δ1, δ2 ,.., δm  – длины интервалов группировки,  - их середины,  – величина, равная отношению числа наблюдений ni называемой частотой к объёму выборки есть относительная частота попадания наблюдений в j-й интервал группировки. Тогда можно построить график ступенчатой функции:

, , .

График, для которого каждому интервалу значений признака соответствует частота его попадания в этот интервал, называется гистограммой.

Иная форма графического представления группированных данных - полигон частот и полигон накопленных частот.

Полигон частот это ломаная линия, соединяющая точки с координатами , т.е. с абсциссами, равными серединам интервалов группировки, и ординатами, равными соответствующим частотам.

Полигон накопленных частот - это ломаная линия, соединяющая точки с координатами  или , т.е. с абсциссами, равными правым границам интервалов группировки, и ординатами, равными соответствующим накопленным частотам или относительным накопленным частотам.

Второй этап первичной обработка данных состоит:

  •  в группировке данных (выборки) объема n;

(1 шаг. Промежуток [xmax, xmin] разбивают на m интервалов группировки, чаще всего одинаковой длины, и подсчитывают число nj выборочных значений, которые попали в j-й интервал. Обычно выбирают: m=7-20.

2 шаг. Каждый интервал группировки j=(aj, bj) представлен своими левой aj и правой bj границами и числом nj элементов выборки, принадлежащих ему. Каждый интервал удобно представлять не двумя границами, а одним числом – срединным значением.)

  •  графическое представление группировки.

Замечание. 1. В Mathcad для построения гистограмм предназначена функция hist(∆,А).

2. Для построения гистограммы необходимо сначала сгруппировать выборочные данные, записанные в массиве А, и сохранить граничные точки интервалов группировки в векторе , размерность которого равна числу интервалов. Результат вычислений функции hist(∆,А) – вектор, каждый элемент которого равен количеству выборочных значений, попадающих в соответствующий интервал группировки. Размерность вектора hist(∆,А) совпадает с размерностью вектора ∆ и равна числу интервалов группировки.

3. Величина интервала группировки существенно влияет на вид гистограммы. При малой их ширине в каждый интервал попадает незначительное число наблюдений или даже не попадает ни одного, в результате гистограмма становится сильно «изрезанной» и плохо передает основные особенности изучаемого распределения. Другая крайность – большие интервалы группировки; в этом случае складываются характерные черты распределения.

3. В Mathcad для построения полигон частот предназначена функция hist(∆,А).

Практическое задание:

  1.  Группировка данных.
  2.  Построение гистограммы (стр.466-468)
  3.  Построение полигона частот (стр.472-474)


п.3 Эмпирическая функция распределения.

Теоретический материал.

Пусть известно статистическое распределение частот количественного признака X. Введем обозначения:

  •  nx – число наблюдений, при которых наблюдалось значение признака, меньшее х;
  •  n – общее число наблюдений (объем выборки).

Ясно, что относительная частота события X < x равна . Если х изменяется, то, вообще говоря, изменяется и относительная частота, т.е. относительная частота  есть функция от х. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения х относительную частоту события:

,

где nx – число вариант, меньших х; n – объем выборки.

Например, для того чтобы найти, , надо вариант, меньших х2, разделить на объем выборки.

В отличие от эмпирической функции распределения выборки функцию распределения  генеральной совокупности называют теоретической функцией распределения.

Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция  определяет вероятность события Х < x, а эмпирическая функция  определяет относительную частоту этого же события.

Из теоремы Бернулли следует, что относительная частота события Х < x, т.е.  стремится по вероятности к вероятности  этого события. Другими словами, при больших n числа  и  мало отличается одно от другого в том смысле, что:

, где .

Уже отсюда следует целесообразность использования эмпирической функции распределения выборки для приближенного представления теоретической (интегральной) функции распределения генеральной совокупности.

Такое заключение подтверждается и тем, что  обладает всеми свойствами . Действительно, из определения функции  вытекает следующие ее свойства:

  1.  Значения эмпирической функции принадлежат отрезку [0, 1];
  2.   – неубывающая функция;
  3.  если х1 – наименьшая варианта, то  при хх1;
  4.  если хк – наибольшая варианта, то  при х>хк.

распределение случайной величины является ее «паспортом», содержащим всю информацию о случайной величине.

Рассмотрим методы оценивания функции распределения ξ(х) случайной величины, о которой известно, что она непрерывна.

Пусть  – совокупность выборочных значений случайной величины ξ, то есть выборка из случайной величины ξ. Расположим наблюдения   в порядке их возрастания. Обозначим новую упорядоченную последовательность – вариационный ряд* – как:

, где .

По этому вариационному ряду построим следующую неубывающую ступенчатую функцию:

.

Из приведенной выше формулы видно, что  претерпевает в каждой точке вариационного ряда скачок, равный по величине 1/n. Если какая-нибудь точка вариационного ряда повторяется m раз (m точек вариационного ряда совпадают), то скачок функции  в этой точке равен m/n.

Функция  называется эмпирической функцией распределения.

Замечание. Эмпирическая функция распределения  зависит не только от х, но и от всей выборки . Чтобы обратить внимание на этот факт, будем обозначать эмпирическую функцию распределения через . Именно  принимают за оценку теоретической функции распределения .

Чтобы использовать аппарат математической статистики, нужно уметь находить числовые характеристики выборок и строить эмпирические распределения, с помощью которых в дальнейшем можно сделать соответствующие выводы.

Рассмотрим правила предварительной обработки выборочных данных. Таблица 1 выборки объёма n=250 будет использоваться, как пример, далее во всех вычислениях, а так же станет источником построения выборок для индивидуальных вариантов заданий.

Таблица 1

145.61 143.206 145.267 140.485 133.143 150.435 148.794 155.564 171.918

158.087 159.851 158.622 159.156 156.73 139.557 150.691 142.444 156.967

148.181 143.556 142.769 144.834 155.58 147.552 150.895 162.618 142.945

150.019 161.076 158.926 120.991 128.429 152.06 143.842 138.023 150.99

157.708 153.059 150.113 142.355 145.909 143.262 148.678 160.181 151.805

155.133 157.398 149.837 152.788 151.622 154.285 145.248 143.045 180.482

147.135 137.201 157.594 146.073 137.964 139.631 149.807 150.32 152.649

154.915 152.383 143.155 133.852 164.113 159.715 138.44 151.437 166.972

146.797 129.688 135.888 136.747 144.829 150.621 144.042 146.693 155.391

152.186 154.05 138.441 138.949 138.966 145.927 136.867 121.596 162.762

157.911 151.429 139.937 140.73 141.22 152.777 145.978 163.02 136.219

153.803 154.377 167.603 143.527 155.51 165.465 131.784 163.079 139.511

154.591 139.478 137.579 154.241 130.834 148.761 154.132 164.656 137.711

146.154 154.763 151.862 151.96 155.206 159.229 159.314 158.972 152.601

143.066 154.656 148.493 141.368 171.144 137.64 133.062 153.865 135.711

145.891 158.742 144.311 140.903 141.323 160.971 139.771 131.484 156.247

142.623 155.409 156.641 155.196 151.459 149.488 153.16 152.488 148.294

145.475 152.937 151.507 140.659 157.925 157.163 160.438 158.11 156.17

147.549 149.142 156.848 157.911 153.578 147.887 148.445 151.36 158.639

169.584 150.688 155.646 155.572 168.911 164.788 127.059 156.623 145.593

145.263 150.889 143.012 153.472 141.25 169.001 122.741 158.702 171.791

160.849 161.757 140.286 134.241 154.64 164.744 161.654 142.365 155.094

154.96 141.977 143.729 144.466 146.54 145.355 152.509 146.266 147.269

162.895 151.941 170.865 134.377 150.79 154.205 166.274 156.198 132.828

136.274 173.96 157.332 149.975 141.54 139.826 133.692 139.462 161.159

159.455 157.597 139.385 145.867 166.069 150.237 146.685 145.436 153.969

154.961 149.211 150.83 154.224 142.28 148.655 135.371 152.018 166.807

140.923 157.864 148.745 138.823 157.239 151.912 141.182 0 0

Функцию распределения  случайной величины часто называют теоретической функцией распределения. хотя более правильным представляется другой термин – истинная функция распределения.

Замечание. При первичной обработке выборочных данных можно рекомендовать несколько общих правил:

  1.  Перед началом группировки следует упорядочить выборочные значения в порядке возрастания – вариационным рядом.
  2.  При выборе числа интервалов группировки следует ориентироваться на 10-20 интервалов.
  3.  Предпочтительнее использовать интервалы одинаковой длины.
  4.  При анализе охватывайте всю область данных.
  5.  Избегайте полуоткрытых промежутков.
  6.  Интервалы группировки не должны перекрываться.

Практическое задание.

Вычислите максимальное. минимальное значения и размах для заданной части приведенной выше выборки. Выполните группировку для заданных значений m. постройте соответствующие гистограммы. полигоны частот и полигоны накопленных частот.

Указание.

1. Определите и введите вектор-столбец выборочных значений.

  •  В данной выборке i=0…250.

  •  Чтобы ввести вектор-столбец выборочных значений. выполняем команды:

«Вставка-Компонент-Таблица (Input Table)».

  •  Вводим и сохраняем 250 выборочных значений в массиве с именем ξ.

  •  При необходимости можно изменить свойства таблицы. используя команды:

«Свойства-Формат» контекстного меню.

Замечание. Существует и другой способ ввода данных-с помощью функции  READ(file). которая считывает значение из файла и присваивает его переменной. Надо указывать полное имя файла. в котором заранее введены и сохранены таблицы чисел.

2. Упорядочите выборку в порядке возрастания выборочных значений.

Прежде чем приступать к группировке выборки. необходимо упорядочить выборочные значения в порядке их возрастания: sort(ξ).

З. Вычислите минимальное значение и размах для полученной выборки. с помощью функций max(А). min(А).

4. Определите  число интервалов группировки и их длину.

5. Определите вектор-столбец. содержащий середины интервалов группировки.

6. Определите с помощью функции hist(Х.ξ) вектор-столбец частот для полученных интервалов группировки.

7. Постройте гистограмму. полигон частот.

8. Определите вектор-столбец накопленных частот и постройте эмпирическую функцию распределения.

9. Постройте полигон накопленных частот и полигон относительных накопленных частот.

10. Выполните вычисления пп. 6- 9 для всех заданных значений m=10. 20. 100.

11. Сохраните рабочий документ в файле на диске.

PAGE   \* MERGEFORMAT 1


 

А также другие работы, которые могут Вас заинтересовать

38951. Особенности анализа оптических сигналов с помощью процедуры двумерного ДПФ. Методические погрешности 298 KB
  Массив gk1k2 трактуется как результат дискретизации некоторого изображения или излучающей поверхности gху т. что отсчеты спектра соответствующие высоким пространственным частотам находятся в центральной ийласти результирующего массива а соответствующие низким пространственным частотам в угловых областях Для...
38952. Синтез линейных элементов ОЭП с помощью процедуры дискретной свертки (ДС). Вид выражения одномерной и двумерной ДС, его связь с аналоговой сверткой 784 KB
  сигнала gτ St – сигналы на входе и выходе ht – ИХ линейного элемента При проектировании gτ St известны ht искомая. сигнала является дискретным аналогом свертки. сигнала hk – отсчеты ИХ ЛЭ ym – результирующая последовательность отсчетов вых. сигнала При переходе к автоматическому проектированию необходимо вхю сигнал и ИХ ограничить некоторым временным интервалом затем дискретезировать.
38953. Синтез случайных величин как базовая операция процедуры анализа параметрической чувствительности. Методы: «обратной функции», Неймана, «кусочной аппроксимации» 353.5 KB
  Синтез случайных величин как базовая операция процедуры анализа параметрической чувствительности. расчет качества ОЭС при условии изменения параметров элементов в соответствии с законами распределения их как случайных величин. Ядро процедуры – синтез случайных величин с известными параметрами. Методы синтеза основаны на преобразовании исходной последовательности значений gk случ велич Г р м распределенной в интервале [0;1] в последовательность значений xi случ величины Х с заданной функцией распределения ФР Fx или плотностью...
38954. Вычисление сигнала на выходе линейного элемента ОЭП с использованием процедуры ДС. Методы: прямой свертки, быстрой свертки 432.5 KB
  Методы: прямой свертки быстрой свертки Определение Линейных элементов Линейность в широком смысле Параметрические системы у них импульсная характеристика изменяется но не в зависимости от входного сигнала Линейность в узком смысле Дюамель Если это выражение справедливо для линейного элемента то он линейный в узком смысле. ymотсчеты выходного сигнала При выполнении процедуры используется метод прямого перебора значений ht: известен вид ht но неизвестен а Дискретная свертка T1T2предварительные значения по методике дпф Нужно...
38955. Анализ сигналов с помощью процедуры дискретного преобразование Фурье (ДПФ). Вид выражения ДПФ, его связь с аналоговым преобразованием Фурье 42 KB
  Вид выражения ДПФ его связь с аналоговым преобразованием Фурье Для гармонического анализа периодического сигнала с периодомиспользуется разложение в ряд Фурье на некотором интервале Т: где Sn комплексный коэффициент определяющий амплитуду и фазу гармонической составляющей с номером n и частотой fn n T0 исследуемого сигнала. В случае апериодического сигнала g{t используется преобразование Фурье: где Sf комплексная непрерывная функция спектральная плотность сигнала определяющая текущую амплитуду и фазу сигнала в бесконечно...
38956. Общая методика выполнения процедуры ДС. 167.5 KB
  с известным приближением определяется интегральной сверткой: 1 где момент времени в который определяется величина выходного сигнала; сигналы на входе и выходе соответственно; импульсная характеристика линейного элемента. При проектировании известными являются входной сигнал а также...
38957. Общая методика анализа спектра типовых входных сигналов с использованием процедуры ДПФ. Зеркальная особенность (mirror). Эффект появления ложных спектральных компонент (aliasing) 1.76 MB
  Эффект появления ложных спектральных компонент lising. Выбирается интервал Т ограничения сигнала в соответствии с выражениями: для бесконечного апериодического сигнал: где интервал по шкале частот между отсчетами спектра определяющей требуемое по условию задачи разрешение по частоте; для сигнала в виде одиночного импульса или группы импульсов: при отсутствии разрыва хотя бы в одной краевой точке т. Вследствие нарушения условия Котельникова происходит наложение отсчетов спектра соответствующих соседним периодам сто приводит к...
38958. Принципы построения обучаемых АТСН 43.5 KB
  Назначение обучаемых ТВК может быть различным всевозможные измерительные приборы системы технического зрения астронавигационные системы тепловизионные обзорнопоисковые системы и т. Однако режиму автономного функционирования должен предшествовать период обучения системы при временном участии оператора. Изображение эталона посредством оптической системы ОС и телевизионного датчика ТВД преобразуется сначала в аналоговый видеосигнал а затем с помощью формирователя бинарного сигнала ФБС в эталонный бинарный сигнал фиксируемый в...
38959. Функции узла предварительной обработки видеосигнала в структуре ТВК. Состав и назначение его основных компонентов 235.5 KB
  Состав и назначение его основных компонентов Основная функция устройства предварительной обработки УПО – преобразование видеосигнала представляющего собой последовательность видеоимпульсов соответствующих освещенностям в анализируемых точках изображения в адекватные значения кодов двоичных чисел. Кроме АЦП в составе УПО должны быть дополнительные аппаратные средства обеспечивающие условия оптимального согласования параметров видеосигнала с параметрами АЦП независимо от содержания кадра рис. Функциональная схема устройства...