10965

Элементы математической статистики

Лекция

Математика и математический анализ

Элементы математической статистики Математическая статистика – это наука изучающая методы сбора систематизации и интерпретации числовых случайных данных. В этом определении интерпретация и систематизация данных рассматривается как существенный аспект. Главна

Русский

2013-04-03

91.45 KB

75 чел.

Элементы математической статистики

Математическая статистика – это наука, изучающая методы сбора, систематизации и интерпретации числовых (случайных) данных.

В этом определении интерпретация и систематизация данных рассматривается как существенный аспект.

Главная цель статистики – получение осмысленных заключений из несогласованных (подверженных разбросу) данных.

Действительно, исключая тривиальные ситуации, реальные данные всегда являются несогласованными, что требует применения статистических методов. Рассогласованность (разброс) между индивидуальными наблюдениями может быть, например, обусловлена ошибкой при считывании позиции стрелки прибора, когда она расположена между двумя делениями шкалы стрелочного прибора. Изменчивость может быть также следствием нестабильности работы электронного оборудования при передаче сообщений по радио или телеграфу. (В последнем случае для характеристики ситуации используется термин "шум").

Чем же, конкретно занимается математическая статистика?

Какие задачи решает?

1. Выборочные распределения

Статистика должна получить свои выводы, используя наличную выборку. Каждое наблюдение является реализацией некоторой случайной величины. Известно множество значений, которые может принимать случайная величина; некоторые из них имеют большую возможность появления, чем другие.

Значение, которое наблюдалось, представляет собой реализацию. Вероятности возможных реализаций характеризуются распределением вероятностей случайных величин (СВ). Обычно функции распределения вероятностей бывают заданы с точностью до одного двух параметров, значений некоторых неизвестных. Это приводит к проблеме поиска таких комбинаций выборочных значений, которые бы давали наилучшее приближение для неизвестных параметров. Каждая такая комбинация и есть статистика. Выборочное распределение статистики позволяет судить, может ли предложенная статистика служить оценкой интересующего нас параметра.

2.Оценки, тесты (критерии, значимости), решения

Проблема оценивания была схематично рассмотрена выше. Ясно, что разумная процедура оценивания не должна ограничиваться лишь выбором  приближенного численного значения для неизвестного параметра; она должна что-то говорить и о надежности этого приближения. Обычно говорят о точечном оценивании и об интервальном оценивании.

Существуют различные методы конструирования "точечных" оценок и определения их надежности. Наиболее полезным из них является метод максимального правдоподобия. Другой известный метод, который можно рассматривать либо как специальный случай ММП (метод максимального правдоподобия), либо как независимая процедура подгонки – метод наименьших квадратов.

Интервальное оценивание – связано с определением "доверительных интервалов", правдоподобных интервалов, байесовских интервалов.

Поскольку статистика в целом основана на случайной изменчивости, каждая оценка подвержена ошибке. Так, если получены две различные оценки параметра – одна при одном наборе условий, а другая – при другом, непосредственно неясно, соответствует ли имеющееся между ними различие различию между параметрами.

Вопрос об их различии решается с помощью статистического критерия (теста) или критерия значимости.

Один из подходов к статистическим критериям (проверки гипотез) связан с именем Р.А Фишера, который рассматривает проверку гипотезы как пробный шаг в проведение научного исследования, позволяющий получить ученому объектный критерий, с помощью которого можно судить об истинности гипотезы.

Другой подход связан, в основном, с именами Дж. Неймана и
Э. Пирсона, которые рассматривают процедуру проверки гипотезы, как правило, с помощью которого должен быть сделан выбор, либо принято решение об истинности одной гипотезы в противоречии другой.

Одна из частных проблем теории проверки статистических гипотез – оценка пригодности вероятной модели, предложенной для объяснения (интерпретации) данных. При этом необходимо решить: насколько предложенная модель соответствует выборке? И является ли выборочные значения действительно близкими к тем, которые можно ожидать, используя подогнанную модель? Наиболее широко для решения подобных вопросов применяется процедура, предложенная Карлом Пирсоном, и использующая критерий, основанный на ее выборочном распределении. Это пирсоновский критерий согласия хи-квадрат.

Выборочные распределения

Статистическая устойчивость случайных явлений проявляется лишь при большом (в пределе – бесконечно большом) числе наблюдений. Однако на практике реальное число наблюдений ограничено. Поэтому характеристики случайных величин (СВ), определенные по малому числу наблюдений, в принципе не должны совпадать с величинами тех же характеристик, определенными по большому числу наблюдений (условия опыта остаются неизменными). Чтобы провести различие между характеристиками СВ, найденными по достаточно большому и малому числу наблюдений, в математической статистике введено понятие абстрактной генеральной совокупности и выборки.

Генеральной совокупностью случайной величины ξ называется множество всех значений, которые может принимать случайная величина ξ.

Выборка представляет собой совокупность ограниченного числа наблюдений.

В соответствии с этим различают выборочные характеристики СВ, найденные по ограниченному числу наблюдений (выборке) и зависящие от числа наблюдений, и соответствующие им характеристики в генеральной совокупности, не зависящие от числа наблюдений. При этом выборочные характеристики рассматриваются как оценки соответствующих характеристик в генеральной совокупности.

На практике во многих случаях функция распределения рассматриваемой случайной величины ξ неизвестна; ее определяют по результатам наблюдений, или как говорят, по выборке.

Выборкой объемом для данной случайной величины ξ называется последовательность независимых наблюдений этой величины.

Пусть из генеральной совокупности извлечена выборка, причем

наблюдалось раз;

наблюдалось раз;

наблюдалось раз;

Объём выборки. Наблюдаемые значения называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом.

Число наблюдений называют частотами, а их отношение к объему выборки:  относительными частотами (частостями).

В статистике различают малые и большие выборки.

Малой выборкой считают такую выборку, при обработке которой методами, основанными на группировании наблюдений, нельзя достичь заданных точности и достоверности.

Большой считают такую выборку, при обработке которой можно перейти к группированию наблюдений без ощутимой потери информации и  достижением заданных значений точности и достоверности.

Если выборка достаточно велика, то построенный на ее основе вариационный ряд неудобен для дальнейшего статистического анализа. В этом случае строится так называемый группированный статистический ряд.

Группирование данных, гистограмма, полигон

При группировании данных необходимо соблюдать определенные правила. Рассмотрим наиболее важные из них:

  1.  Объем выборки должен быть достаточно велик .
  2.  Число интервалов группирования (число групп) должно находиться в интервале . При выборе в каждом конкретном случае следует помнить, что при малом числе групп определение вида теоретической кривой распределения по эмпирическим данным может быть затруднено из-за маскировки (утраты) резких изменений кривой распределения, если они фактически имели место. При большом числе групп и незначительном объеме выборки будет наблюдаться большое количество пропусков (ноль попаданий в группу), что будет обусловлено не столько видом распределения, сколько недостатком статистики, кроме того, в этом случае даже небольшие случайные колебания приводят к искажению кривой распределения.
  3.  Необходимо, по возможности, охватывать всю область данных, т.к. при неизвестных предельных значениях невозможно вычислить некоторые числовые характеристики выборки.
  4.  Интервалы не должны перекрываться. Не должно возникать никаких сомнений относительно того, в какой интервал попадает любое значение.
  5.  Если заведомо известно, что теоретическая кривая может быть двумодальной, число групп может быть увеличено в 1,5 – 2 раза по сравнению с оптимальным числом .

Оптимальное число групп выборки объемом рассчитывается по формулам:

  1.  при известном значении ;   (2.1)
  2.  при неизвестном значении , но известно, что :

    (2.2)

  1.  согласно формуле "Стерджесса":

.      (2.3)

Отсюда (2.3) видно, что для увеличения оптимального количества интервалов на единицу необходимо увеличить объем выборки вдвое.

Шаг группирования (ширина интервала) определяется по формуле:

    (2.4)

Для графического изображения вариационных рядов наиболее часто используются полигон, гистограмма и кумулятивная кривая.

Гистограммой распределения, или  просто гистограммой называется чертеж в прямоугольной системе координат, горизонтальная ось  которого разбивается на равных интервалов (групп) шириной . На каждом отрезке, как на основании, строится прямоугольник с высотой, равной частоте (частости) соответствующего интервала.

Полигоном распределения, или просто полигоном, называется ломаная линия, соединяющая середины верхних оснований каждого столбца гистограммы. За пределами гистограммы, как слева, так и справа, размещают пустые интервалы, в которых точки, соответствующие их серединам, лежат на оси абсцисс.

Кумулятивная кривая (кумулята) – кривая накопления частот (частостей). Для дискретного ряда кумулята представляет ломанную соединяющую точки или . Для интервального вариационного ряда ломанная начинается с точки, абсцисса которой равна началу первого интервала, а ордината – накопленной частоте (частости), равной нулю. Остальные точки этой ломанной соответствуют концам интервалов.

Пример: Построить полигон, гистограмму и кумуляту по выборке объема . Сгруппированные данные приведены в таблице.

Интервалы

[0, 1]

[1, 2]

[2, 3]

[3, 4]

[4, 5]

[5, 6]

[6, 7]

[7, 8]

Частоты

2

7

14

28

22

20

6

1

Рис. 2.1. Гистограмма частот

Рис. 2.2. Полигон

Рис. 2.3. Кумулята


 

А также другие работы, которые могут Вас заинтересовать

71420. ПУБЛИЦИСТИЧЕСКИЙ СТИЛЬ 29.3 KB
  Тенденция к экспрессивности выражается в стремлении к доступности и образности формы выражения что характерно для художественного стиля и разговорной речи в публицистической речи переплетаются черты этих стилей. С одной стороны в публицистической речи присутствует достаточное количество...
71421. НАУЧНЫЙ СТИЛЬ 34.02 KB
  Возникновение и развитие научного стиля связано с развитием разных областей научного знания разных сфер человеческой деятельности. Первоначально стиль научного изложения был близок к стилю художественного повествованию – его отделение произошло в александрийский период когда в греческом языке...
71422. РАЗГОВОРНАЯ РЕЧЬ 32.65 KB
  В разговорной речи находит свою наиболее полную реализацию одна из функций языка функция общения в условиях неофициальных отношений участников речевой коммуникации участников диалога. Обзор функциональных параметров поможет выяснить основные функциональные характеристики разговорной речи и книжной речи.
71423. ОБЩАЯ ХАРАКТЕРИСТИКА ФУНКЦИОНАЛЬНЫХ СТИЛЕЙ 29.29 KB
  Функциональный стиль речи представляет собой определенную систему языка которая отвечает за цели и условия общения в определенной сфере и сочетает в себе совокупность стилистических языковых средств. Официально–деловой стиль Официально-деловой стиль речи применяется для передачи информации в условиях...
71424. ОСНОВНЫЕ ПРИНЦИПЫ РУССКОЙ ОРФОГРАФИИ И ПУНКТУАЦИИ 30.31 KB
  Орфография система правил о написании слов и их значимых частей о слитных раздельных и дефисных написаниях об употреблении прописных букв и переносе слов. Принципы русской орфографии Морфологический принцип заключается в требовании одинакового написания одних и тех же морфем...
71425. СИНТАКСИЧЕСКИЕ НОРМЫ РУССКОГО ЛИТЕРАТУРНОГО ЯЗЫКА 36.79 KB
  Подлежащее и сказуемое в таких предложениях координируются в формах рода и числа а также формах лица числа и рода если подлежащее выражено местоимением. Если подлежащее называет группу лиц а также если подлежащее и сказуемое разделены распространяющими членами то формы множественного...
71427. Понятие производственной технологии. Технологический процесс 15.82 KB
  Совокупность всех технологических операций - технологический процесс. Три основных направления развития производственных технологий: переход от дискретных циклических технологий к непрерывным поточным производственным процессам как наиболее эффективным и экономичным...