10965

Элементы математической статистики

Лекция

Математика и математический анализ

Элементы математической статистики Математическая статистика – это наука изучающая методы сбора систематизации и интерпретации числовых случайных данных. В этом определении интерпретация и систематизация данных рассматривается как существенный аспект. Главна

Русский

2013-04-03

91.45 KB

77 чел.

Элементы математической статистики

Математическая статистика – это наука, изучающая методы сбора, систематизации и интерпретации числовых (случайных) данных.

В этом определении интерпретация и систематизация данных рассматривается как существенный аспект.

Главная цель статистики – получение осмысленных заключений из несогласованных (подверженных разбросу) данных.

Действительно, исключая тривиальные ситуации, реальные данные всегда являются несогласованными, что требует применения статистических методов. Рассогласованность (разброс) между индивидуальными наблюдениями может быть, например, обусловлена ошибкой при считывании позиции стрелки прибора, когда она расположена между двумя делениями шкалы стрелочного прибора. Изменчивость может быть также следствием нестабильности работы электронного оборудования при передаче сообщений по радио или телеграфу. (В последнем случае для характеристики ситуации используется термин "шум").

Чем же, конкретно занимается математическая статистика?

Какие задачи решает?

1. Выборочные распределения

Статистика должна получить свои выводы, используя наличную выборку. Каждое наблюдение является реализацией некоторой случайной величины. Известно множество значений, которые может принимать случайная величина; некоторые из них имеют большую возможность появления, чем другие.

Значение, которое наблюдалось, представляет собой реализацию. Вероятности возможных реализаций характеризуются распределением вероятностей случайных величин (СВ). Обычно функции распределения вероятностей бывают заданы с точностью до одного двух параметров, значений некоторых неизвестных. Это приводит к проблеме поиска таких комбинаций выборочных значений, которые бы давали наилучшее приближение для неизвестных параметров. Каждая такая комбинация и есть статистика. Выборочное распределение статистики позволяет судить, может ли предложенная статистика служить оценкой интересующего нас параметра.

2.Оценки, тесты (критерии, значимости), решения

Проблема оценивания была схематично рассмотрена выше. Ясно, что разумная процедура оценивания не должна ограничиваться лишь выбором  приближенного численного значения для неизвестного параметра; она должна что-то говорить и о надежности этого приближения. Обычно говорят о точечном оценивании и об интервальном оценивании.

Существуют различные методы конструирования "точечных" оценок и определения их надежности. Наиболее полезным из них является метод максимального правдоподобия. Другой известный метод, который можно рассматривать либо как специальный случай ММП (метод максимального правдоподобия), либо как независимая процедура подгонки – метод наименьших квадратов.

Интервальное оценивание – связано с определением "доверительных интервалов", правдоподобных интервалов, байесовских интервалов.

Поскольку статистика в целом основана на случайной изменчивости, каждая оценка подвержена ошибке. Так, если получены две различные оценки параметра – одна при одном наборе условий, а другая – при другом, непосредственно неясно, соответствует ли имеющееся между ними различие различию между параметрами.

Вопрос об их различии решается с помощью статистического критерия (теста) или критерия значимости.

Один из подходов к статистическим критериям (проверки гипотез) связан с именем Р.А Фишера, который рассматривает проверку гипотезы как пробный шаг в проведение научного исследования, позволяющий получить ученому объектный критерий, с помощью которого можно судить об истинности гипотезы.

Другой подход связан, в основном, с именами Дж. Неймана и
Э. Пирсона, которые рассматривают процедуру проверки гипотезы, как правило, с помощью которого должен быть сделан выбор, либо принято решение об истинности одной гипотезы в противоречии другой.

Одна из частных проблем теории проверки статистических гипотез – оценка пригодности вероятной модели, предложенной для объяснения (интерпретации) данных. При этом необходимо решить: насколько предложенная модель соответствует выборке? И является ли выборочные значения действительно близкими к тем, которые можно ожидать, используя подогнанную модель? Наиболее широко для решения подобных вопросов применяется процедура, предложенная Карлом Пирсоном, и использующая критерий, основанный на ее выборочном распределении. Это пирсоновский критерий согласия хи-квадрат.

Выборочные распределения

Статистическая устойчивость случайных явлений проявляется лишь при большом (в пределе – бесконечно большом) числе наблюдений. Однако на практике реальное число наблюдений ограничено. Поэтому характеристики случайных величин (СВ), определенные по малому числу наблюдений, в принципе не должны совпадать с величинами тех же характеристик, определенными по большому числу наблюдений (условия опыта остаются неизменными). Чтобы провести различие между характеристиками СВ, найденными по достаточно большому и малому числу наблюдений, в математической статистике введено понятие абстрактной генеральной совокупности и выборки.

Генеральной совокупностью случайной величины ξ называется множество всех значений, которые может принимать случайная величина ξ.

Выборка представляет собой совокупность ограниченного числа наблюдений.

В соответствии с этим различают выборочные характеристики СВ, найденные по ограниченному числу наблюдений (выборке) и зависящие от числа наблюдений, и соответствующие им характеристики в генеральной совокупности, не зависящие от числа наблюдений. При этом выборочные характеристики рассматриваются как оценки соответствующих характеристик в генеральной совокупности.

На практике во многих случаях функция распределения рассматриваемой случайной величины ξ неизвестна; ее определяют по результатам наблюдений, или как говорят, по выборке.

Выборкой объемом для данной случайной величины ξ называется последовательность независимых наблюдений этой величины.

Пусть из генеральной совокупности извлечена выборка, причем

наблюдалось раз;

наблюдалось раз;

наблюдалось раз;

Объём выборки. Наблюдаемые значения называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом.

Число наблюдений называют частотами, а их отношение к объему выборки:  относительными частотами (частостями).

В статистике различают малые и большие выборки.

Малой выборкой считают такую выборку, при обработке которой методами, основанными на группировании наблюдений, нельзя достичь заданных точности и достоверности.

Большой считают такую выборку, при обработке которой можно перейти к группированию наблюдений без ощутимой потери информации и  достижением заданных значений точности и достоверности.

Если выборка достаточно велика, то построенный на ее основе вариационный ряд неудобен для дальнейшего статистического анализа. В этом случае строится так называемый группированный статистический ряд.

Группирование данных, гистограмма, полигон

При группировании данных необходимо соблюдать определенные правила. Рассмотрим наиболее важные из них:

  1.  Объем выборки должен быть достаточно велик .
  2.  Число интервалов группирования (число групп) должно находиться в интервале . При выборе в каждом конкретном случае следует помнить, что при малом числе групп определение вида теоретической кривой распределения по эмпирическим данным может быть затруднено из-за маскировки (утраты) резких изменений кривой распределения, если они фактически имели место. При большом числе групп и незначительном объеме выборки будет наблюдаться большое количество пропусков (ноль попаданий в группу), что будет обусловлено не столько видом распределения, сколько недостатком статистики, кроме того, в этом случае даже небольшие случайные колебания приводят к искажению кривой распределения.
  3.  Необходимо, по возможности, охватывать всю область данных, т.к. при неизвестных предельных значениях невозможно вычислить некоторые числовые характеристики выборки.
  4.  Интервалы не должны перекрываться. Не должно возникать никаких сомнений относительно того, в какой интервал попадает любое значение.
  5.  Если заведомо известно, что теоретическая кривая может быть двумодальной, число групп может быть увеличено в 1,5 – 2 раза по сравнению с оптимальным числом .

Оптимальное число групп выборки объемом рассчитывается по формулам:

  1.  при известном значении ;   (2.1)
  2.  при неизвестном значении , но известно, что :

    (2.2)

  1.  согласно формуле "Стерджесса":

.      (2.3)

Отсюда (2.3) видно, что для увеличения оптимального количества интервалов на единицу необходимо увеличить объем выборки вдвое.

Шаг группирования (ширина интервала) определяется по формуле:

    (2.4)

Для графического изображения вариационных рядов наиболее часто используются полигон, гистограмма и кумулятивная кривая.

Гистограммой распределения, или  просто гистограммой называется чертеж в прямоугольной системе координат, горизонтальная ось  которого разбивается на равных интервалов (групп) шириной . На каждом отрезке, как на основании, строится прямоугольник с высотой, равной частоте (частости) соответствующего интервала.

Полигоном распределения, или просто полигоном, называется ломаная линия, соединяющая середины верхних оснований каждого столбца гистограммы. За пределами гистограммы, как слева, так и справа, размещают пустые интервалы, в которых точки, соответствующие их серединам, лежат на оси абсцисс.

Кумулятивная кривая (кумулята) – кривая накопления частот (частостей). Для дискретного ряда кумулята представляет ломанную соединяющую точки или . Для интервального вариационного ряда ломанная начинается с точки, абсцисса которой равна началу первого интервала, а ордината – накопленной частоте (частости), равной нулю. Остальные точки этой ломанной соответствуют концам интервалов.

Пример: Построить полигон, гистограмму и кумуляту по выборке объема . Сгруппированные данные приведены в таблице.

Интервалы

[0, 1]

[1, 2]

[2, 3]

[3, 4]

[4, 5]

[5, 6]

[6, 7]

[7, 8]

Частоты

2

7

14

28

22

20

6

1

Рис. 2.1. Гистограмма частот

Рис. 2.2. Полигон

Рис. 2.3. Кумулята


 

А также другие работы, которые могут Вас заинтересовать

2350. Усі уроки до курсу Всесвітня історія 9 клас 1.04 MB
  Вікторіанська Британія. Велика Французька революція кінця ХVIII ст. Франція під владою Наполеона. Модернізація Японії. Велика Британія в останній третині ХІХ ст. Завершення територіального поділу світу. Культура народів світу наприкінці ХVІІІ — у ХІХ ст.
2351. Сільське господарство та аграрні відносини на українських землях 33.5 KB
  Мета: показати процес занепаду кріпосницьких та зародження ринкових відносин в Україні у першій половині XIX ст., довести, що російський царизм намагався зміцнити феодально-кріпосницьку систему господарювання в Україні, ознайомити учнів із процесом визрівання ознак ринкової економіки в сільському господарстві, промисловості, торгівлі України.
2352. Початок промислової революції 59 KB
  Мета: дослідити занепад кріпосницьких та зародження ринкових вілносин в Україні в першій половині XIX ст., ознайомити учнів із процесом визрівання ознак ринкової економіки в промисловості, торгівлі.
2353. Повсякденне життя українців у селі та місті. 19.07 KB
  Мета: сформувати в учнів уявлення про повсякденне життя українських селян та міщан у першій половині XIX ст. Розпорядок робочого дня українських селян.
2354. Соціально-економічне становище українського населення під владою Австрійської та Російської імперій і соціальні рухи 41 KB
  Мета: проаналізувати причини розгортання селянського руху, розкрити хід і наслідки соціальної боротьби в Україні в першій половині XIX ст., довести, що колонізаторська політика Російської та Австрійської імперій на українських землях призвела до посилення національного та соціального гніту, з’ясувати форми й характер протесту українського населення.
2355. Утворення Кирило-Мефодіївського братства. 38 KB
  Мета: ознайомити учнів із процесом розвитку національної ідеї в суспільно-політичному русі України першої половини XIX ст., діяльністю першої української політичної нелегальної організації – Кирило-Мефодіївське братство, проаналізувати діяльність Т.Г. Шевченка, як суспільно-політичного діяча та його участь у братстві; проаналізувати програмні документи братства, розкрити значення діяльності кирило-мефодіївців у розвитку українського національного руху.
2356. Національно-визвольний рух на західноукраїнських землях під час революції 1848-1849 рр. в Австрійській імперії 42 KB
  Мета: з’ясувати причини розгортання революції 1848-1849 рр. на західноукраїнських землях; показати роль Головної руської ради в розгортанні українського національно-визвольного руху.
2357. Національно-визвольний рух на західноукраїнських землях під час революції в Австрійській імперії 53 KB
  Мета: з’ясувати досягнення української національної революції 1848-1849 рр. у Галичині, довести, що Україна як складова європейської цивілізації не стояла осторонь проблем, які в середині XIX ст. вирішувала Європа.
2358. Соціально-економічне життя народу та український національний рух у першій половині XIX ст 35 KB
  Мета: провести підсумкове оцінювання знань, як кінцевий етап оцінювання знань з теми Соціально-економічне життя народу та український національний рух у першій половині XIX ст..