10965

Элементы математической статистики

Лекция

Математика и математический анализ

Элементы математической статистики Математическая статистика – это наука изучающая методы сбора систематизации и интерпретации числовых случайных данных. В этом определении интерпретация и систематизация данных рассматривается как существенный аспект. Главна

Русский

2013-04-03

91.45 KB

77 чел.

Элементы математической статистики

Математическая статистика – это наука, изучающая методы сбора, систематизации и интерпретации числовых (случайных) данных.

В этом определении интерпретация и систематизация данных рассматривается как существенный аспект.

Главная цель статистики – получение осмысленных заключений из несогласованных (подверженных разбросу) данных.

Действительно, исключая тривиальные ситуации, реальные данные всегда являются несогласованными, что требует применения статистических методов. Рассогласованность (разброс) между индивидуальными наблюдениями может быть, например, обусловлена ошибкой при считывании позиции стрелки прибора, когда она расположена между двумя делениями шкалы стрелочного прибора. Изменчивость может быть также следствием нестабильности работы электронного оборудования при передаче сообщений по радио или телеграфу. (В последнем случае для характеристики ситуации используется термин "шум").

Чем же, конкретно занимается математическая статистика?

Какие задачи решает?

1. Выборочные распределения

Статистика должна получить свои выводы, используя наличную выборку. Каждое наблюдение является реализацией некоторой случайной величины. Известно множество значений, которые может принимать случайная величина; некоторые из них имеют большую возможность появления, чем другие.

Значение, которое наблюдалось, представляет собой реализацию. Вероятности возможных реализаций характеризуются распределением вероятностей случайных величин (СВ). Обычно функции распределения вероятностей бывают заданы с точностью до одного двух параметров, значений некоторых неизвестных. Это приводит к проблеме поиска таких комбинаций выборочных значений, которые бы давали наилучшее приближение для неизвестных параметров. Каждая такая комбинация и есть статистика. Выборочное распределение статистики позволяет судить, может ли предложенная статистика служить оценкой интересующего нас параметра.

2.Оценки, тесты (критерии, значимости), решения

Проблема оценивания была схематично рассмотрена выше. Ясно, что разумная процедура оценивания не должна ограничиваться лишь выбором  приближенного численного значения для неизвестного параметра; она должна что-то говорить и о надежности этого приближения. Обычно говорят о точечном оценивании и об интервальном оценивании.

Существуют различные методы конструирования "точечных" оценок и определения их надежности. Наиболее полезным из них является метод максимального правдоподобия. Другой известный метод, который можно рассматривать либо как специальный случай ММП (метод максимального правдоподобия), либо как независимая процедура подгонки – метод наименьших квадратов.

Интервальное оценивание – связано с определением "доверительных интервалов", правдоподобных интервалов, байесовских интервалов.

Поскольку статистика в целом основана на случайной изменчивости, каждая оценка подвержена ошибке. Так, если получены две различные оценки параметра – одна при одном наборе условий, а другая – при другом, непосредственно неясно, соответствует ли имеющееся между ними различие различию между параметрами.

Вопрос об их различии решается с помощью статистического критерия (теста) или критерия значимости.

Один из подходов к статистическим критериям (проверки гипотез) связан с именем Р.А Фишера, который рассматривает проверку гипотезы как пробный шаг в проведение научного исследования, позволяющий получить ученому объектный критерий, с помощью которого можно судить об истинности гипотезы.

Другой подход связан, в основном, с именами Дж. Неймана и
Э. Пирсона, которые рассматривают процедуру проверки гипотезы, как правило, с помощью которого должен быть сделан выбор, либо принято решение об истинности одной гипотезы в противоречии другой.

Одна из частных проблем теории проверки статистических гипотез – оценка пригодности вероятной модели, предложенной для объяснения (интерпретации) данных. При этом необходимо решить: насколько предложенная модель соответствует выборке? И является ли выборочные значения действительно близкими к тем, которые можно ожидать, используя подогнанную модель? Наиболее широко для решения подобных вопросов применяется процедура, предложенная Карлом Пирсоном, и использующая критерий, основанный на ее выборочном распределении. Это пирсоновский критерий согласия хи-квадрат.

Выборочные распределения

Статистическая устойчивость случайных явлений проявляется лишь при большом (в пределе – бесконечно большом) числе наблюдений. Однако на практике реальное число наблюдений ограничено. Поэтому характеристики случайных величин (СВ), определенные по малому числу наблюдений, в принципе не должны совпадать с величинами тех же характеристик, определенными по большому числу наблюдений (условия опыта остаются неизменными). Чтобы провести различие между характеристиками СВ, найденными по достаточно большому и малому числу наблюдений, в математической статистике введено понятие абстрактной генеральной совокупности и выборки.

Генеральной совокупностью случайной величины ξ называется множество всех значений, которые может принимать случайная величина ξ.

Выборка представляет собой совокупность ограниченного числа наблюдений.

В соответствии с этим различают выборочные характеристики СВ, найденные по ограниченному числу наблюдений (выборке) и зависящие от числа наблюдений, и соответствующие им характеристики в генеральной совокупности, не зависящие от числа наблюдений. При этом выборочные характеристики рассматриваются как оценки соответствующих характеристик в генеральной совокупности.

На практике во многих случаях функция распределения рассматриваемой случайной величины ξ неизвестна; ее определяют по результатам наблюдений, или как говорят, по выборке.

Выборкой объемом для данной случайной величины ξ называется последовательность независимых наблюдений этой величины.

Пусть из генеральной совокупности извлечена выборка, причем

наблюдалось раз;

наблюдалось раз;

наблюдалось раз;

Объём выборки. Наблюдаемые значения называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом.

Число наблюдений называют частотами, а их отношение к объему выборки:  относительными частотами (частостями).

В статистике различают малые и большие выборки.

Малой выборкой считают такую выборку, при обработке которой методами, основанными на группировании наблюдений, нельзя достичь заданных точности и достоверности.

Большой считают такую выборку, при обработке которой можно перейти к группированию наблюдений без ощутимой потери информации и  достижением заданных значений точности и достоверности.

Если выборка достаточно велика, то построенный на ее основе вариационный ряд неудобен для дальнейшего статистического анализа. В этом случае строится так называемый группированный статистический ряд.

Группирование данных, гистограмма, полигон

При группировании данных необходимо соблюдать определенные правила. Рассмотрим наиболее важные из них:

  1.  Объем выборки должен быть достаточно велик .
  2.  Число интервалов группирования (число групп) должно находиться в интервале . При выборе в каждом конкретном случае следует помнить, что при малом числе групп определение вида теоретической кривой распределения по эмпирическим данным может быть затруднено из-за маскировки (утраты) резких изменений кривой распределения, если они фактически имели место. При большом числе групп и незначительном объеме выборки будет наблюдаться большое количество пропусков (ноль попаданий в группу), что будет обусловлено не столько видом распределения, сколько недостатком статистики, кроме того, в этом случае даже небольшие случайные колебания приводят к искажению кривой распределения.
  3.  Необходимо, по возможности, охватывать всю область данных, т.к. при неизвестных предельных значениях невозможно вычислить некоторые числовые характеристики выборки.
  4.  Интервалы не должны перекрываться. Не должно возникать никаких сомнений относительно того, в какой интервал попадает любое значение.
  5.  Если заведомо известно, что теоретическая кривая может быть двумодальной, число групп может быть увеличено в 1,5 – 2 раза по сравнению с оптимальным числом .

Оптимальное число групп выборки объемом рассчитывается по формулам:

  1.  при известном значении ;   (2.1)
  2.  при неизвестном значении , но известно, что :

    (2.2)

  1.  согласно формуле "Стерджесса":

.      (2.3)

Отсюда (2.3) видно, что для увеличения оптимального количества интервалов на единицу необходимо увеличить объем выборки вдвое.

Шаг группирования (ширина интервала) определяется по формуле:

    (2.4)

Для графического изображения вариационных рядов наиболее часто используются полигон, гистограмма и кумулятивная кривая.

Гистограммой распределения, или  просто гистограммой называется чертеж в прямоугольной системе координат, горизонтальная ось  которого разбивается на равных интервалов (групп) шириной . На каждом отрезке, как на основании, строится прямоугольник с высотой, равной частоте (частости) соответствующего интервала.

Полигоном распределения, или просто полигоном, называется ломаная линия, соединяющая середины верхних оснований каждого столбца гистограммы. За пределами гистограммы, как слева, так и справа, размещают пустые интервалы, в которых точки, соответствующие их серединам, лежат на оси абсцисс.

Кумулятивная кривая (кумулята) – кривая накопления частот (частостей). Для дискретного ряда кумулята представляет ломанную соединяющую точки или . Для интервального вариационного ряда ломанная начинается с точки, абсцисса которой равна началу первого интервала, а ордината – накопленной частоте (частости), равной нулю. Остальные точки этой ломанной соответствуют концам интервалов.

Пример: Построить полигон, гистограмму и кумуляту по выборке объема . Сгруппированные данные приведены в таблице.

Интервалы

[0, 1]

[1, 2]

[2, 3]

[3, 4]

[4, 5]

[5, 6]

[6, 7]

[7, 8]

Частоты

2

7

14

28

22

20

6

1

Рис. 2.1. Гистограмма частот

Рис. 2.2. Полигон

Рис. 2.3. Кумулята


 

А также другие работы, которые могут Вас заинтересовать

85205. Основные итоги и уроки исторического пути Беларуси 27.38 KB
  Бел. народ получил возможность с оптимизмом смотреть в будущее и самостоятельно писать свою историю. В своем историческом развитии белорусский народ должен надеяться только на собственные силы. Самым большим богатством Беларуси являются люди трудолюбивые мудрые талантливые рассудительные 3.
85206. Предмет и задачи исторической науки. Формационный и цивилизационный подходы к изучению истории. Источники и литература 29.87 KB
  История – наука комплексная интегральная так как изучает всю совокупность явлений общественной жизни на протяжении всей истории общества. Литература: Всемирная Истрия; история отдельных континентов и стран; история отдельных периодов и эпох; история разных общественных периодов; история выдающихся личностей.
85207. Этапы развития первобытного общества. Первобытное общество и начало расселения славян на территории Беларуси 33.43 KB
  В соответствии с исторической периодизацией история первобытного общества прошла следующие стадии становления и развития: 1.) первобытное человеческое стало, или праобщина; 2.) ранняя родовая община; 3.) поздняя родовая община; 4.) разложение первобытного общества и начало образования классов.
85208. Социально-экономическое развитие белорусских земель в раннем средневековье (VI - IX в.) 28.39 KB
  Распад родовой общины образование соседской общины. К трехпольной системе земледелия включающей посев яровых озимых и отдыхающий под паром клин привел к выделению крестьянских семей ведущих самостоятельное хозяйство в рамках соседской общины.
85209. Становление раннефеодальных государственных образований восточных славян. Полоцкое и Туровское княжества. Феодальная раздробленность (IX - первая половина XIII в.) 34.44 KB
  ПОЛОЦКОЕ КНЯЖЕСТВО среднее течение Западной Двины вся современная центральная и северная Беларусь. Во время правления Всеслава Полоцкое княжество достигло наибольшего могущества: за Полоцком закрепилось Нижнее Подвинье был построен Софийский собор основан Минск расширены восточные границы княжества. После смерти Всеслава Полоцкое княжество было разделено между тремя его сыновьями наиболее мощным стало Минское княжество где правил Глеб. ТУРОВСКОЕ КНЯЖЕСТВО юг Беларуси бассейн Припяти Туров 980г.
85210. Духовная жизнь и культура белорусских земель в IX - первой половине XIII в. Концепции происхождения белорусского этноса 32.19 KB
  Итоги распространения христианства: развитие культуры восточных славян распространение письменности летописание; начало каменному зодчеству; развитие ремесла и торговли с другими странами; создание художественных ценностей. Особенности распространения христианства на Бел: переплетение христианства с языческими обрядами – двухверье; православная церковь приспосабливала языческие верования к своим обрядам и праздникам. с принятием христианства начинается возведение монументальных культовых строений – в середине 11 в.
85211. Предпосылки формирования ВКЛ, его территориальный рост 34 KB
  Развитие с/х-ого производства, ремесла, торговли; рост городов и их значение как ремесленно-торговых центров; Углубление социальных противоречий между сословиями, социальное дифференциация в обществе; Необходимость борьбы с внешней угрозой (со стороны монголо-татар и крестоносцев, галицко-волынских и польских князей).
85212. Социально-экономическое развитие белорусских земель в период ВКЛ 32.38 KB
  Категории крестьян в зависимости от повинности: тяглые панщина осадники чинш огородники бывшие слуги слуги занимали привилегированное положение и выполняли разные специальные работы. По степени зависимости крестьяне делились на похожих имели право уйти от феодала и непохожих челядь невольная домашние рабы которые не имели земельных наделов. Юридически закрепощение крестьян в 5 документах: 1447г Привилей Казимира феодалы получают право на суд над крестьянами 1529г. – Статут ВКЛ вводится 10тилетний срок поиска...
85213. Эволюция сословной структуры и политического устройства ВКЛ: от единовластия к сословно-представительской монархии 30.83 KB
  В начальный период ВКЛ состояло из удельных княжеств а также областей находящихся в федеративных отношениях с центральной властью Полоцкая Витебская Смоленская Жемайтская земли и из территорий собственно Литвы с частью белорусских земель. территория ВКЛ разделяется на Трокское и Виленское воеводства. В ВКЛ входило 6 воеводств: Виленское Трокское Киевское Полоцкое Витебское Смоленское и с XVI в.