7244

Основные задачи статистики: выборки, гистограммы, полигоны частот

Лабораторная работа

Математика и математический анализ

ТЕМА: Основные задачи статистики: выборки, гистограммы, полигоны частот. п.1 Генеральная совокупность. Выборка. Вариационный ряд. Теоретический материал. Математическая статистика в основном занимается изучением случайных величин и случайных со...

Русский

2013-01-20

2.47 MB

210 чел.

ТЕМА: Основные задачи статистики: выборки, гистограммы, полигоны частот.

п.1 Генеральная совокупность. Выборка. Вариационный ряд.

Теоретический материал.

Математическая статистика в основном занимается изучением случайных величин и случайных событий по результатам наблюдений. Ее главная задача извлечь максимум информации из эмпирических данных.

Основные задачи математической статистики:

1. Определение неизвестного закона распределения случайных величин (или системы случайных величин) по статистическим данным.

2. Статистическая проверка гипотез

З. Задача нахождения неизвестных параметров распределения.

Важнейшими понятиями математической статистики являются генеральная совокупность и выборка.

Генеральная совокупность это вероятностное пространство с определенной на нем случайной величиной ξ (Конечное или бесконечное множество всех возможных значений случайного признака).

В результате проведения n экспериментов со случайной величиной ξ получаем n выборочных значений xi, i = 1, 2, ..., n. Вся совокупность этих значений называется выборкой.

Наблюдаемое значение хi называется вариантой, а их последовательность, записанная в возрастающем порядке, вариационным рядом.

По принципу организации выборки делятся на:

  •  случайные,
    •  серийные,
    •  типические,
    •  механические,
    •  комбинированные.

Наиболее распространённым и теоретически обоснованным методом выборочного обследования является случайный отбор. В свою очередь, случайная выборка делится на:

  •  повторную;

(При повторной выборке элементы генеральной совокупности, подвёргшиеся обследованию, возвращаются в генеральную совокупность и, таким образом, вновь участвуют в процедуре отбора. Такая схема называется схемой возвращённых шаров.)

  •  бесповторную.

(При бесповторной выборке обследованные элементы в генеральную совокупность не возвращаются (схема невозвращённых шаров).

Пусть из генеральной совокупности извлекается выборка, при этом значение x1 наблюдалось n1 раз и xкnк раз. Тогда общий объём выборки (количество элементов n, взятых в выборку для обследования):

Объем генеральной совокупности N может быть как конечным, так и бесконечным.

Для каждого элемента генеральной совокупности объема  N вероятность попасть в выборку объёма n равна отношению , независимо от способа отбора. Действительно, если производится повторная выборка (например, по схеме возвращённых шаров), то объем генеральной совокупности в процессе отбора не меняется, и вероятность попасть в выборку для каждого фиксированного элемента равна . Так как процедура отбора производится n раз, то и вероятность увеличивается в n раз.

Чрезвычайно важным является вопрос о соотношении объемов выборки n генеральной совокупности N. Ясно, что выборка очень малого объёма может дать искаженное представление о распределении случайного признака в генеральной совокупности. И, наоборот, при nN выборочное обследование будет максимально точно оценивать параметры распределения, но целесообразность такого эксперимента может оказаться весьма сомнительной.

Таким образом, выборка должна быть репрезентативной, и её характеристики с определенной достоверностью должны представлять параметры изучаемого распределения.

Выборка из генеральной совокупности является основным источником информации о случайной величине. По выборке оценивается класс распределений, к которому принадлежит распределение исследуемой случайной величины, устанавливаются интервалы, в которых лежат истинные значения параметров распределения, проверяются гипотезы об этой случайной величине и формулируются выводы о других её свойствах.

Первый этап первичной обработка данных состоит:

  •  в отыскании максимального xmax, минимального xmin значений выборки, размаха варьирования R=xmax - xmin,
    •  построении вариационного ряда – массива выборочных значений, записанных в порядке возрастания.

Замечание. В Mathcad xmax и xmin вычисляются соответственно функциями max(ξ), min(ξ) и sort(A).

Практическое задание:

1. Ввод и вывод файлов данных (стр.462-463)

2. Отыскание максимального xmax, минимального xmin значений выборки, размаха варьирования R=xmax - xmin и построение вариационного ряда (стр.464-465).


п.2 Гистограмма.
Полигон частот.

Теоретический материал.

Наиболее наглядная форма графического представления выборки является гистограмма.

Пусть δ1, δ2 ,.., δm  – длины интервалов группировки,  - их середины,  – величина, равная отношению числа наблюдений ni называемой частотой к объёму выборки есть относительная частота попадания наблюдений в j-й интервал группировки. Тогда можно построить график ступенчатой функции:

, , .

График, для которого каждому интервалу значений признака соответствует частота его попадания в этот интервал, называется гистограммой.

Иная форма графического представления группированных данных - полигон частот и полигон накопленных частот.

Полигон частот это ломаная линия, соединяющая точки с координатами , т.е. с абсциссами, равными серединам интервалов группировки, и ординатами, равными соответствующим частотам.

Полигон накопленных частот - это ломаная линия, соединяющая точки с координатами  или , т.е. с абсциссами, равными правым границам интервалов группировки, и ординатами, равными соответствующим накопленным частотам или относительным накопленным частотам.

Второй этап первичной обработка данных состоит:

  •  в группировке данных (выборки) объема n;

(1 шаг. Промежуток [xmax, xmin] разбивают на m интервалов группировки, чаще всего одинаковой длины, и подсчитывают число nj выборочных значений, которые попали в j-й интервал. Обычно выбирают: m=7-20.

2 шаг. Каждый интервал группировки j=(aj, bj) представлен своими левой aj и правой bj границами и числом nj элементов выборки, принадлежащих ему. Каждый интервал удобно представлять не двумя границами, а одним числом – срединным значением.)

  •  графическое представление группировки.

Замечание. 1. В Mathcad для построения гистограмм предназначена функция hist(∆,А).

2. Для построения гистограммы необходимо сначала сгруппировать выборочные данные, записанные в массиве А, и сохранить граничные точки интервалов группировки в векторе , размерность которого равна числу интервалов. Результат вычислений функции hist(∆,А) – вектор, каждый элемент которого равен количеству выборочных значений, попадающих в соответствующий интервал группировки. Размерность вектора hist(∆,А) совпадает с размерностью вектора ∆ и равна числу интервалов группировки.

3. Величина интервала группировки существенно влияет на вид гистограммы. При малой их ширине в каждый интервал попадает незначительное число наблюдений или даже не попадает ни одного, в результате гистограмма становится сильно «изрезанной» и плохо передает основные особенности изучаемого распределения. Другая крайность – большие интервалы группировки; в этом случае складываются характерные черты распределения.

3. В Mathcad для построения полигон частот предназначена функция hist(∆,А).

Практическое задание:

  1.  Группировка данных.
  2.  Построение гистограммы (стр.466-468)
  3.  Построение полигона частот (стр.472-474)


п.3 Эмпирическая функция распределения.

Теоретический материал.

Пусть известно статистическое распределение частот количественного признака X. Введем обозначения:

  •  nx – число наблюдений, при которых наблюдалось значение признака, меньшее х;
  •  n – общее число наблюдений (объем выборки).

Ясно, что относительная частота события X < x равна . Если х изменяется, то, вообще говоря, изменяется и относительная частота, т.е. относительная частота  есть функция от х. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения х относительную частоту события:

,

где nx – число вариант, меньших х; n – объем выборки.

Например, для того чтобы найти, , надо вариант, меньших х2, разделить на объем выборки.

В отличие от эмпирической функции распределения выборки функцию распределения  генеральной совокупности называют теоретической функцией распределения.

Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция  определяет вероятность события Х < x, а эмпирическая функция  определяет относительную частоту этого же события.

Из теоремы Бернулли следует, что относительная частота события Х < x, т.е.  стремится по вероятности к вероятности  этого события. Другими словами, при больших n числа  и  мало отличается одно от другого в том смысле, что:

, где .

Уже отсюда следует целесообразность использования эмпирической функции распределения выборки для приближенного представления теоретической (интегральной) функции распределения генеральной совокупности.

Такое заключение подтверждается и тем, что  обладает всеми свойствами . Действительно, из определения функции  вытекает следующие ее свойства:

  1.  Значения эмпирической функции принадлежат отрезку [0, 1];
  2.   – неубывающая функция;
  3.  если х1 – наименьшая варианта, то  при хх1;
  4.  если хк – наибольшая варианта, то  при х>хк.

распределение случайной величины является ее «паспортом», содержащим всю информацию о случайной величине.

Рассмотрим методы оценивания функции распределения ξ(х) случайной величины, о которой известно, что она непрерывна.

Пусть  – совокупность выборочных значений случайной величины ξ, то есть выборка из случайной величины ξ. Расположим наблюдения   в порядке их возрастания. Обозначим новую упорядоченную последовательность – вариационный ряд* – как:

, где .

По этому вариационному ряду построим следующую неубывающую ступенчатую функцию:

.

Из приведенной выше формулы видно, что  претерпевает в каждой точке вариационного ряда скачок, равный по величине 1/n. Если какая-нибудь точка вариационного ряда повторяется m раз (m точек вариационного ряда совпадают), то скачок функции  в этой точке равен m/n.

Функция  называется эмпирической функцией распределения.

Замечание. Эмпирическая функция распределения  зависит не только от х, но и от всей выборки . Чтобы обратить внимание на этот факт, будем обозначать эмпирическую функцию распределения через . Именно  принимают за оценку теоретической функции распределения .

Чтобы использовать аппарат математической статистики, нужно уметь находить числовые характеристики выборок и строить эмпирические распределения, с помощью которых в дальнейшем можно сделать соответствующие выводы.

Рассмотрим правила предварительной обработки выборочных данных. Таблица 1 выборки объёма n=250 будет использоваться, как пример, далее во всех вычислениях, а так же станет источником построения выборок для индивидуальных вариантов заданий.

Таблица 1

145.61 143.206 145.267 140.485 133.143 150.435 148.794 155.564 171.918

158.087 159.851 158.622 159.156 156.73 139.557 150.691 142.444 156.967

148.181 143.556 142.769 144.834 155.58 147.552 150.895 162.618 142.945

150.019 161.076 158.926 120.991 128.429 152.06 143.842 138.023 150.99

157.708 153.059 150.113 142.355 145.909 143.262 148.678 160.181 151.805

155.133 157.398 149.837 152.788 151.622 154.285 145.248 143.045 180.482

147.135 137.201 157.594 146.073 137.964 139.631 149.807 150.32 152.649

154.915 152.383 143.155 133.852 164.113 159.715 138.44 151.437 166.972

146.797 129.688 135.888 136.747 144.829 150.621 144.042 146.693 155.391

152.186 154.05 138.441 138.949 138.966 145.927 136.867 121.596 162.762

157.911 151.429 139.937 140.73 141.22 152.777 145.978 163.02 136.219

153.803 154.377 167.603 143.527 155.51 165.465 131.784 163.079 139.511

154.591 139.478 137.579 154.241 130.834 148.761 154.132 164.656 137.711

146.154 154.763 151.862 151.96 155.206 159.229 159.314 158.972 152.601

143.066 154.656 148.493 141.368 171.144 137.64 133.062 153.865 135.711

145.891 158.742 144.311 140.903 141.323 160.971 139.771 131.484 156.247

142.623 155.409 156.641 155.196 151.459 149.488 153.16 152.488 148.294

145.475 152.937 151.507 140.659 157.925 157.163 160.438 158.11 156.17

147.549 149.142 156.848 157.911 153.578 147.887 148.445 151.36 158.639

169.584 150.688 155.646 155.572 168.911 164.788 127.059 156.623 145.593

145.263 150.889 143.012 153.472 141.25 169.001 122.741 158.702 171.791

160.849 161.757 140.286 134.241 154.64 164.744 161.654 142.365 155.094

154.96 141.977 143.729 144.466 146.54 145.355 152.509 146.266 147.269

162.895 151.941 170.865 134.377 150.79 154.205 166.274 156.198 132.828

136.274 173.96 157.332 149.975 141.54 139.826 133.692 139.462 161.159

159.455 157.597 139.385 145.867 166.069 150.237 146.685 145.436 153.969

154.961 149.211 150.83 154.224 142.28 148.655 135.371 152.018 166.807

140.923 157.864 148.745 138.823 157.239 151.912 141.182 0 0

Функцию распределения  случайной величины часто называют теоретической функцией распределения. хотя более правильным представляется другой термин – истинная функция распределения.

Замечание. При первичной обработке выборочных данных можно рекомендовать несколько общих правил:

  1.  Перед началом группировки следует упорядочить выборочные значения в порядке возрастания – вариационным рядом.
  2.  При выборе числа интервалов группировки следует ориентироваться на 10-20 интервалов.
  3.  Предпочтительнее использовать интервалы одинаковой длины.
  4.  При анализе охватывайте всю область данных.
  5.  Избегайте полуоткрытых промежутков.
  6.  Интервалы группировки не должны перекрываться.

Практическое задание.

Вычислите максимальное. минимальное значения и размах для заданной части приведенной выше выборки. Выполните группировку для заданных значений m. постройте соответствующие гистограммы. полигоны частот и полигоны накопленных частот.

Указание.

1. Определите и введите вектор-столбец выборочных значений.

  •  В данной выборке i=0…250.

  •  Чтобы ввести вектор-столбец выборочных значений. выполняем команды:

«Вставка-Компонент-Таблица (Input Table)».

  •  Вводим и сохраняем 250 выборочных значений в массиве с именем ξ.

  •  При необходимости можно изменить свойства таблицы. используя команды:

«Свойства-Формат» контекстного меню.

Замечание. Существует и другой способ ввода данных-с помощью функции  READ(file). которая считывает значение из файла и присваивает его переменной. Надо указывать полное имя файла. в котором заранее введены и сохранены таблицы чисел.

2. Упорядочите выборку в порядке возрастания выборочных значений.

Прежде чем приступать к группировке выборки. необходимо упорядочить выборочные значения в порядке их возрастания: sort(ξ).

З. Вычислите минимальное значение и размах для полученной выборки. с помощью функций max(А). min(А).

4. Определите  число интервалов группировки и их длину.

5. Определите вектор-столбец. содержащий середины интервалов группировки.

6. Определите с помощью функции hist(Х.ξ) вектор-столбец частот для полученных интервалов группировки.

7. Постройте гистограмму. полигон частот.

8. Определите вектор-столбец накопленных частот и постройте эмпирическую функцию распределения.

9. Постройте полигон накопленных частот и полигон относительных накопленных частот.

10. Выполните вычисления пп. 6- 9 для всех заданных значений m=10. 20. 100.

11. Сохраните рабочий документ в файле на диске.

PAGE   \* MERGEFORMAT 1


 

А также другие работы, которые могут Вас заинтересовать

84722. Задачи и функции российских диппредставительств 14.84 KB
  Защита в государстве пребывания интересов аккредитующего государства и его граждан в пределах допускаемых международным правом; ведение переговоров с правительством государства пребывания; выяснение всеми законными средствами условий и событий в государстве пребывания и сообщение о них правительству аккредитующего государства; поощрение дружественных отношений между государствами конструктивное развитие их...
84723. Ремонт Рессоры ГАЗ - 53 1.21 MB
  Рессоры предназначены для смягчения толчков при наезде на неровности на дороге. При наезде автомобиля на какую-нибудь неровность рессоры прогибаются и смягчают толчок. Кроме этого, через них передается автомобилю толкающее усилие от ведущих колес и усилие при их торможении.
84724. Разработка автоматизированного участка изготовления детали Вал 5 499 KB
  Автоматизация производственных процессов на основе внедрения роботизированных технологических комплексов РТК и гибких производственных модулей ГПМ вспомогательного оборудования транспортно-накопительных и контрольно-измерительных устройств объединенных в гибкие...
84725. Технологічний процес обробки деталі Лабіринт 492 KB
  Відповідно до особливостей деталей, характеру між операційних зв’язків і форм організаційно-виробничого процесу, необхідно обирати підйомно-транспортні засоби і розрахувати потребу у них. При виборі підйомно-транспортних засобів необхідно суворе дотримання зв’язку їхньої роботи і загального ритму виробництва. Як підйомно-транспортні засоби в механічних цехах з потоковим виробництвом деталей середньої маси доцільно використовувати монорейки
84726. Оцінка цілісного майнового комплексу автомобілебудівельного заводу 169.25 KB
  Провести аналіз інвестиційної привабливості піприємства; Окреслити теоретичні аспекти дослідження вартості піприємства як майнового комплексу; Дослідити методичні підходи до оцінки вартості підприємства як майнового комплексу; Провести практичну роботу з оцінки цілісного майнового комплексу.
84727. МИНИСТЕРСТВО ФИНАНСОВ РЕСПУБЛИКИ БЕЛАРУСЬ КАК ОРГАН ФИНАНСОВОГО КОНТРОЛЯ 178 KB
  Важнейшей функцией любого государства является контрольная функция, предполагающая контроль со стороны государства за соблюдением хозяйствующими субъектами экономических и правовых правил и норм в процессе их хозяйственной деятельности, а также контроль за исполнительной властью.
84729. Разработка рекомендаций для ООО «Тюменьмебелькомплект» по продвижению продукции на целевой рынок 93.16 KB
  Цель данной работы – изучить различные подходы, методы и принципы сегментирования рынка. Для достижения поставленной цели, необходимо выполнить следующие задачи: Определить основные понятия, признаки и критерии сегментирования рынка Выбрать целевой сегмент и позиционирование товара...
84730. АУДИТ КАПИТАЛА 1.78 MB
  Собственники, и, прежде всего коллективные собственники - акционеры, пайщики, а также кредиторы, лишены возможности самостоятельно убедиться в том, что все многочисленные операции предприятия, зачастую очень сложные, законны и правильно отражены в отчетности...