10965

Элементы математической статистики

Лекция

Математика и математический анализ

Элементы математической статистики Математическая статистика это наука изучающая методы сбора систематизации и интерпретации числовых случайных данных. В этом определении интерпретация и систематизация данных рассматривается как существенный аспект. Главна

Русский

2013-04-03

91.45 KB

78 чел.

Элементы математической статистики

Математическая статистика – это наука, изучающая методы сбора, систематизации и интерпретации числовых (случайных) данных.

В этом определении интерпретация и систематизация данных рассматривается как существенный аспект.

Главная цель статистики – получение осмысленных заключений из несогласованных (подверженных разбросу) данных.

Действительно, исключая тривиальные ситуации, реальные данные всегда являются несогласованными, что требует применения статистических методов. Рассогласованность (разброс) между индивидуальными наблюдениями может быть, например, обусловлена ошибкой при считывании позиции стрелки прибора, когда она расположена между двумя делениями шкалы стрелочного прибора. Изменчивость может быть также следствием нестабильности работы электронного оборудования при передаче сообщений по радио или телеграфу. (В последнем случае для характеристики ситуации используется термин "шум").

Чем же, конкретно занимается математическая статистика?

Какие задачи решает?

1. Выборочные распределения

Статистика должна получить свои выводы, используя наличную выборку. Каждое наблюдение является реализацией некоторой случайной величины. Известно множество значений, которые может принимать случайная величина; некоторые из них имеют большую возможность появления, чем другие.

Значение, которое наблюдалось, представляет собой реализацию. Вероятности возможных реализаций характеризуются распределением вероятностей случайных величин (СВ). Обычно функции распределения вероятностей бывают заданы с точностью до одного двух параметров, значений некоторых неизвестных. Это приводит к проблеме поиска таких комбинаций выборочных значений, которые бы давали наилучшее приближение для неизвестных параметров. Каждая такая комбинация и есть статистика. Выборочное распределение статистики позволяет судить, может ли предложенная статистика служить оценкой интересующего нас параметра.

2.Оценки, тесты (критерии, значимости), решения

Проблема оценивания была схематично рассмотрена выше. Ясно, что разумная процедура оценивания не должна ограничиваться лишь выбором  приближенного численного значения для неизвестного параметра; она должна что-то говорить и о надежности этого приближения. Обычно говорят о точечном оценивании и об интервальном оценивании.

Существуют различные методы конструирования "точечных" оценок и определения их надежности. Наиболее полезным из них является метод максимального правдоподобия. Другой известный метод, который можно рассматривать либо как специальный случай ММП (метод максимального правдоподобия), либо как независимая процедура подгонки – метод наименьших квадратов.

Интервальное оценивание – связано с определением "доверительных интервалов", правдоподобных интервалов, байесовских интервалов.

Поскольку статистика в целом основана на случайной изменчивости, каждая оценка подвержена ошибке. Так, если получены две различные оценки параметра – одна при одном наборе условий, а другая – при другом, непосредственно неясно, соответствует ли имеющееся между ними различие различию между параметрами.

Вопрос об их различии решается с помощью статистического критерия (теста) или критерия значимости.

Один из подходов к статистическим критериям (проверки гипотез) связан с именем Р.А Фишера, который рассматривает проверку гипотезы как пробный шаг в проведение научного исследования, позволяющий получить ученому объектный критерий, с помощью которого можно судить об истинности гипотезы.

Другой подход связан, в основном, с именами Дж. Неймана и
Э. Пирсона, которые рассматривают процедуру проверки гипотезы, как правило, с помощью которого должен быть сделан выбор, либо принято решение об истинности одной гипотезы в противоречии другой.

Одна из частных проблем теории проверки статистических гипотез – оценка пригодности вероятной модели, предложенной для объяснения (интерпретации) данных. При этом необходимо решить: насколько предложенная модель соответствует выборке? И является ли выборочные значения действительно близкими к тем, которые можно ожидать, используя подогнанную модель? Наиболее широко для решения подобных вопросов применяется процедура, предложенная Карлом Пирсоном, и использующая критерий, основанный на ее выборочном распределении. Это пирсоновский критерий согласия хи-квадрат.

Выборочные распределения

Статистическая устойчивость случайных явлений проявляется лишь при большом (в пределе – бесконечно большом) числе наблюдений. Однако на практике реальное число наблюдений ограничено. Поэтому характеристики случайных величин (СВ), определенные по малому числу наблюдений, в принципе не должны совпадать с величинами тех же характеристик, определенными по большому числу наблюдений (условия опыта остаются неизменными). Чтобы провести различие между характеристиками СВ, найденными по достаточно большому и малому числу наблюдений, в математической статистике введено понятие абстрактной генеральной совокупности и выборки.

Генеральной совокупностью случайной величины ξ называется множество всех значений, которые может принимать случайная величина ξ.

Выборка представляет собой совокупность ограниченного числа наблюдений.

В соответствии с этим различают выборочные характеристики СВ, найденные по ограниченному числу наблюдений (выборке) и зависящие от числа наблюдений, и соответствующие им характеристики в генеральной совокупности, не зависящие от числа наблюдений. При этом выборочные характеристики рассматриваются как оценки соответствующих характеристик в генеральной совокупности.

На практике во многих случаях функция распределения рассматриваемой случайной величины ξ неизвестна; ее определяют по результатам наблюдений, или как говорят, по выборке.

Выборкой объемом для данной случайной величины ξ называется последовательность независимых наблюдений этой величины.

Пусть из генеральной совокупности извлечена выборка, причем

наблюдалось раз;

наблюдалось раз;

наблюдалось раз;

Объём выборки. Наблюдаемые значения называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом.

Число наблюдений называют частотами, а их отношение к объему выборки:  относительными частотами (частостями).

В статистике различают малые и большие выборки.

Малой выборкой считают такую выборку, при обработке которой методами, основанными на группировании наблюдений, нельзя достичь заданных точности и достоверности.

Большой считают такую выборку, при обработке которой можно перейти к группированию наблюдений без ощутимой потери информации и  достижением заданных значений точности и достоверности.

Если выборка достаточно велика, то построенный на ее основе вариационный ряд неудобен для дальнейшего статистического анализа. В этом случае строится так называемый группированный статистический ряд.

Группирование данных, гистограмма, полигон

При группировании данных необходимо соблюдать определенные правила. Рассмотрим наиболее важные из них:

  1.  Объем выборки должен быть достаточно велик .
  2.  Число интервалов группирования (число групп) должно находиться в интервале . При выборе в каждом конкретном случае следует помнить, что при малом числе групп определение вида теоретической кривой распределения по эмпирическим данным может быть затруднено из-за маскировки (утраты) резких изменений кривой распределения, если они фактически имели место. При большом числе групп и незначительном объеме выборки будет наблюдаться большое количество пропусков (ноль попаданий в группу), что будет обусловлено не столько видом распределения, сколько недостатком статистики, кроме того, в этом случае даже небольшие случайные колебания приводят к искажению кривой распределения.
  3.  Необходимо, по возможности, охватывать всю область данных, т.к. при неизвестных предельных значениях невозможно вычислить некоторые числовые характеристики выборки.
  4.  Интервалы не должны перекрываться. Не должно возникать никаких сомнений относительно того, в какой интервал попадает любое значение.
  5.  Если заведомо известно, что теоретическая кривая может быть двумодальной, число групп может быть увеличено в 1,5 – 2 раза по сравнению с оптимальным числом .

Оптимальное число групп выборки объемом рассчитывается по формулам:

  1.  при известном значении ;   (2.1)
  2.  при неизвестном значении , но известно, что :

    (2.2)

  1.  согласно формуле "Стерджесса":

.      (2.3)

Отсюда (2.3) видно, что для увеличения оптимального количества интервалов на единицу необходимо увеличить объем выборки вдвое.

Шаг группирования (ширина интервала) определяется по формуле:

    (2.4)

Для графического изображения вариационных рядов наиболее часто используются полигон, гистограмма и кумулятивная кривая.

Гистограммой распределения, или  просто гистограммой называется чертеж в прямоугольной системе координат, горизонтальная ось  которого разбивается на равных интервалов (групп) шириной . На каждом отрезке, как на основании, строится прямоугольник с высотой, равной частоте (частости) соответствующего интервала.

Полигоном распределения, или просто полигоном, называется ломаная линия, соединяющая середины верхних оснований каждого столбца гистограммы. За пределами гистограммы, как слева, так и справа, размещают пустые интервалы, в которых точки, соответствующие их серединам, лежат на оси абсцисс.

Кумулятивная кривая (кумулята) – кривая накопления частот (частостей). Для дискретного ряда кумулята представляет ломанную соединяющую точки или . Для интервального вариационного ряда ломанная начинается с точки, абсцисса которой равна началу первого интервала, а ордината – накопленной частоте (частости), равной нулю. Остальные точки этой ломанной соответствуют концам интервалов.

Пример: Построить полигон, гистограмму и кумуляту по выборке объема . Сгруппированные данные приведены в таблице.

Интервалы

[0, 1]

[1, 2]

[2, 3]

[3, 4]

[4, 5]

[5, 6]

[6, 7]

[7, 8]

Частоты

2

7

14

28

22

20

6

1

Рис. 2.1. Гистограмма частот

Рис. 2.2. Полигон

Рис. 2.3. Кумулята


 

А также другие работы, которые могут Вас заинтересовать

55366. Та сторона мила, де мати народила 35 KB
  Мета проекту: - виховати почуття поваги до звичаїв та обрядів; - відчуття належності до України; - сформувати у школярів гуманістичні громадянські орієнтири.
55367. ЧОРНОБИЛЬ-ДОВГИЙ СЛІД ТРАГЕДІЇ 68 KB
  За 25 років після Чорнобильського вибуху світ принципово змінив свої підходи як щодо використання ядерної енергії, так і щодо ядерної та радіаційної безпеки. На даному етапі розвитку людства ядерну енергетику не можна розглядати як безпечну та перспективну...
55368. Інтернет. Соціальні мережі 232.5 KB
  Мета уроку: підвести підсумки роботи над проектом Інтернет. В цьому навчальному році в школі відбулись великі зміни ми маємо підєднання шкільної мережі до швидкісного Інтернету.
55369. У душах людських хай палає тепло, людське милосердя хай творить добро 138.5 KB
  Мета: розвивати в учнів доброзичливість вміння співчувати милосердя; виховувати дітей у дусі відродження українських традицій благодійності; залучати школярів до практичної благодійності. Бесіда на тему Що таке милосердя?
55370. ФОРМУВАННЯ ЖИТТЄВОЇ КОМПЕТЕНТНОСТІ УЧНІВ ЧЕРЕЗ ОРГАНІЗАЦІЮ РОБОТИ ОРГАНІВ УЧНІВСЬКОГО САМОВРЯДУВАННЯ «ШКІЛЬНОГО МІСТЕЧКА» 169 KB
  Принцип самоврядування є основним в діяльності будь якої дитячої громадської організації яка призвана захищати права та інтереси дітей і підлітків; розвивати їх здібності.
55371. Добро починається з тебе, волонтерський проект 338.5 KB
  Мета проекту: Освітня Поглибити знання учнів про волонтерський рух в Україні та світі. Дізнатися про діючі волонтерські фонди на території України. Поглибити знання учнів про добро і зло, розвивати вміння визначати прояви добра і зла
55372. ВЕЛИКІ КНЯЗІ КИЇВСЬКІ. ПРОЕКТ 216.5 KB
  ТИП ПРОЕКТУ: інформаційний ТЕРМІН ПРОВЕДЕННЯ ПРОЕКТУ: листопадгрудень УЧАСНИКИ ПРОЕКТУ: учні 7х класів МЕТОДИ ОТРИМАННЯ ІНФОРМАЦІЇ: опрацювання історичних та літературних джерел довідників ілюстрацій. АКТУАЛЬНІСТЬ РОБОТИ З ДЖЕРЕЛАМИ ІНФОРМАЦІЇ Метою викладання історії є не передавати загальноприйняті істини про минуле а залу чати учнів до процесу реконструкції та пояс нення цього минулого. Тому використання джерел інформації на уроках історії є зараз надзвичайно актуальним. Робота з джерелами інформації на уроках сприятиме набуттю...
55373. Проектна діяльність молодших школярів як засіб формування особистості 52 KB
  Мета проектної роботи – навчити дитину діяти самостійно, ініціативно в будь-яких умовах сьогодні і в майбутньому; формувати комунікативну компетентність в процесі спільної роботи;...
55374. Проектний метод як засіб розвитку творчих здібностей учнів 35 KB
  В даний час метод проектів широко застосовується в сучасній світовій методики викладання англійської мови так як він дозволяє органічно інтегрувати знання учнів з різних областей для вирішення окремо взятої практичної проблеми стимулюючи при цьому розвиток творчих здібностей особистості учня.