10965

Элементы математической статистики

Лекция

Математика и математический анализ

Элементы математической статистики Математическая статистика это наука изучающая методы сбора систематизации и интерпретации числовых случайных данных. В этом определении интерпретация и систематизация данных рассматривается как существенный аспект. Главна

Русский

2013-04-03

91.45 KB

78 чел.

Элементы математической статистики

Математическая статистика – это наука, изучающая методы сбора, систематизации и интерпретации числовых (случайных) данных.

В этом определении интерпретация и систематизация данных рассматривается как существенный аспект.

Главная цель статистики – получение осмысленных заключений из несогласованных (подверженных разбросу) данных.

Действительно, исключая тривиальные ситуации, реальные данные всегда являются несогласованными, что требует применения статистических методов. Рассогласованность (разброс) между индивидуальными наблюдениями может быть, например, обусловлена ошибкой при считывании позиции стрелки прибора, когда она расположена между двумя делениями шкалы стрелочного прибора. Изменчивость может быть также следствием нестабильности работы электронного оборудования при передаче сообщений по радио или телеграфу. (В последнем случае для характеристики ситуации используется термин "шум").

Чем же, конкретно занимается математическая статистика?

Какие задачи решает?

1. Выборочные распределения

Статистика должна получить свои выводы, используя наличную выборку. Каждое наблюдение является реализацией некоторой случайной величины. Известно множество значений, которые может принимать случайная величина; некоторые из них имеют большую возможность появления, чем другие.

Значение, которое наблюдалось, представляет собой реализацию. Вероятности возможных реализаций характеризуются распределением вероятностей случайных величин (СВ). Обычно функции распределения вероятностей бывают заданы с точностью до одного двух параметров, значений некоторых неизвестных. Это приводит к проблеме поиска таких комбинаций выборочных значений, которые бы давали наилучшее приближение для неизвестных параметров. Каждая такая комбинация и есть статистика. Выборочное распределение статистики позволяет судить, может ли предложенная статистика служить оценкой интересующего нас параметра.

2.Оценки, тесты (критерии, значимости), решения

Проблема оценивания была схематично рассмотрена выше. Ясно, что разумная процедура оценивания не должна ограничиваться лишь выбором  приближенного численного значения для неизвестного параметра; она должна что-то говорить и о надежности этого приближения. Обычно говорят о точечном оценивании и об интервальном оценивании.

Существуют различные методы конструирования "точечных" оценок и определения их надежности. Наиболее полезным из них является метод максимального правдоподобия. Другой известный метод, который можно рассматривать либо как специальный случай ММП (метод максимального правдоподобия), либо как независимая процедура подгонки – метод наименьших квадратов.

Интервальное оценивание – связано с определением "доверительных интервалов", правдоподобных интервалов, байесовских интервалов.

Поскольку статистика в целом основана на случайной изменчивости, каждая оценка подвержена ошибке. Так, если получены две различные оценки параметра – одна при одном наборе условий, а другая – при другом, непосредственно неясно, соответствует ли имеющееся между ними различие различию между параметрами.

Вопрос об их различии решается с помощью статистического критерия (теста) или критерия значимости.

Один из подходов к статистическим критериям (проверки гипотез) связан с именем Р.А Фишера, который рассматривает проверку гипотезы как пробный шаг в проведение научного исследования, позволяющий получить ученому объектный критерий, с помощью которого можно судить об истинности гипотезы.

Другой подход связан, в основном, с именами Дж. Неймана и
Э. Пирсона, которые рассматривают процедуру проверки гипотезы, как правило, с помощью которого должен быть сделан выбор, либо принято решение об истинности одной гипотезы в противоречии другой.

Одна из частных проблем теории проверки статистических гипотез – оценка пригодности вероятной модели, предложенной для объяснения (интерпретации) данных. При этом необходимо решить: насколько предложенная модель соответствует выборке? И является ли выборочные значения действительно близкими к тем, которые можно ожидать, используя подогнанную модель? Наиболее широко для решения подобных вопросов применяется процедура, предложенная Карлом Пирсоном, и использующая критерий, основанный на ее выборочном распределении. Это пирсоновский критерий согласия хи-квадрат.

Выборочные распределения

Статистическая устойчивость случайных явлений проявляется лишь при большом (в пределе – бесконечно большом) числе наблюдений. Однако на практике реальное число наблюдений ограничено. Поэтому характеристики случайных величин (СВ), определенные по малому числу наблюдений, в принципе не должны совпадать с величинами тех же характеристик, определенными по большому числу наблюдений (условия опыта остаются неизменными). Чтобы провести различие между характеристиками СВ, найденными по достаточно большому и малому числу наблюдений, в математической статистике введено понятие абстрактной генеральной совокупности и выборки.

Генеральной совокупностью случайной величины ξ называется множество всех значений, которые может принимать случайная величина ξ.

Выборка представляет собой совокупность ограниченного числа наблюдений.

В соответствии с этим различают выборочные характеристики СВ, найденные по ограниченному числу наблюдений (выборке) и зависящие от числа наблюдений, и соответствующие им характеристики в генеральной совокупности, не зависящие от числа наблюдений. При этом выборочные характеристики рассматриваются как оценки соответствующих характеристик в генеральной совокупности.

На практике во многих случаях функция распределения рассматриваемой случайной величины ξ неизвестна; ее определяют по результатам наблюдений, или как говорят, по выборке.

Выборкой объемом для данной случайной величины ξ называется последовательность независимых наблюдений этой величины.

Пусть из генеральной совокупности извлечена выборка, причем

наблюдалось раз;

наблюдалось раз;

наблюдалось раз;

Объём выборки. Наблюдаемые значения называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом.

Число наблюдений называют частотами, а их отношение к объему выборки:  относительными частотами (частостями).

В статистике различают малые и большие выборки.

Малой выборкой считают такую выборку, при обработке которой методами, основанными на группировании наблюдений, нельзя достичь заданных точности и достоверности.

Большой считают такую выборку, при обработке которой можно перейти к группированию наблюдений без ощутимой потери информации и  достижением заданных значений точности и достоверности.

Если выборка достаточно велика, то построенный на ее основе вариационный ряд неудобен для дальнейшего статистического анализа. В этом случае строится так называемый группированный статистический ряд.

Группирование данных, гистограмма, полигон

При группировании данных необходимо соблюдать определенные правила. Рассмотрим наиболее важные из них:

  1.  Объем выборки должен быть достаточно велик .
  2.  Число интервалов группирования (число групп) должно находиться в интервале . При выборе в каждом конкретном случае следует помнить, что при малом числе групп определение вида теоретической кривой распределения по эмпирическим данным может быть затруднено из-за маскировки (утраты) резких изменений кривой распределения, если они фактически имели место. При большом числе групп и незначительном объеме выборки будет наблюдаться большое количество пропусков (ноль попаданий в группу), что будет обусловлено не столько видом распределения, сколько недостатком статистики, кроме того, в этом случае даже небольшие случайные колебания приводят к искажению кривой распределения.
  3.  Необходимо, по возможности, охватывать всю область данных, т.к. при неизвестных предельных значениях невозможно вычислить некоторые числовые характеристики выборки.
  4.  Интервалы не должны перекрываться. Не должно возникать никаких сомнений относительно того, в какой интервал попадает любое значение.
  5.  Если заведомо известно, что теоретическая кривая может быть двумодальной, число групп может быть увеличено в 1,5 – 2 раза по сравнению с оптимальным числом .

Оптимальное число групп выборки объемом рассчитывается по формулам:

  1.  при известном значении ;   (2.1)
  2.  при неизвестном значении , но известно, что :

    (2.2)

  1.  согласно формуле "Стерджесса":

.      (2.3)

Отсюда (2.3) видно, что для увеличения оптимального количества интервалов на единицу необходимо увеличить объем выборки вдвое.

Шаг группирования (ширина интервала) определяется по формуле:

    (2.4)

Для графического изображения вариационных рядов наиболее часто используются полигон, гистограмма и кумулятивная кривая.

Гистограммой распределения, или  просто гистограммой называется чертеж в прямоугольной системе координат, горизонтальная ось  которого разбивается на равных интервалов (групп) шириной . На каждом отрезке, как на основании, строится прямоугольник с высотой, равной частоте (частости) соответствующего интервала.

Полигоном распределения, или просто полигоном, называется ломаная линия, соединяющая середины верхних оснований каждого столбца гистограммы. За пределами гистограммы, как слева, так и справа, размещают пустые интервалы, в которых точки, соответствующие их серединам, лежат на оси абсцисс.

Кумулятивная кривая (кумулята) – кривая накопления частот (частостей). Для дискретного ряда кумулята представляет ломанную соединяющую точки или . Для интервального вариационного ряда ломанная начинается с точки, абсцисса которой равна началу первого интервала, а ордината – накопленной частоте (частости), равной нулю. Остальные точки этой ломанной соответствуют концам интервалов.

Пример: Построить полигон, гистограмму и кумуляту по выборке объема . Сгруппированные данные приведены в таблице.

Интервалы

[0, 1]

[1, 2]

[2, 3]

[3, 4]

[4, 5]

[5, 6]

[6, 7]

[7, 8]

Частоты

2

7

14

28

22

20

6

1

Рис. 2.1. Гистограмма частот

Рис. 2.2. Полигон

Рис. 2.3. Кумулята


 

А также другие работы, которые могут Вас заинтересовать

28218. Отношение мышления и речи. Роль внутренней речи в процессе мышления (по А.Н.Соколову). Методы исследования внутренней речи 37 KB
  Отношение мышления и речи. Роль внутренней речи в процессе мышления по А. Методы исследования внутренней речи. Внутренняя речь производная форма внешней звуковой речи специально приспособленная к выполнению мыслительных операций в уме.
28219. Язык и речь: виды речи и ее функции 38.5 KB
  Язык и речь: виды речи и ее функции. Речь конкретный продукт использования носителем языка системы вербальных знаков проявляющийся в различных процессах речи. Речь форма общения опосредствованная языком. Речь процесс использования языка.
28220. Память как сквозной психический процесс: ее функции, виды и процессы 48.5 KB
  При выделении процессов памяти в качестве основания рассматривают различные функции выполняемые памятью в жизни и деятельности. Основные процессы памяти: запоминание сохранение воспроизведение Есть еще один процесс памяти забывание. Деятельность памяти начинается с запоминания т. Таким образом запоминание можно определить как процесс памяти в результате которого происходит закрепление нового путем связывания его с приобретенным ранее.
28221. Основные характеристики памяти и методы их исследования 37 KB
  У нормального человека в процессе запоминания впечатления внешнего мира подвергаются классификации отбору переработке. Опосредствованный осмысленный характер запоминания. Отбирая нужное существенное подлежащее сохранению человек пользуется для лучшего удержания этого материала какимлибо обозначением чаще всего словом Опосредствованное запоминание осмысленного материала это высший уровень запоминания. Если в раннем детстве ребенок многое запоминает механически то впоследствии он все более широко пользуется опосредствованными...
28222. Факторы и способы повышения эффективности запоминания 38 KB
  Факторы влияющие на извлечение информации из памяти: Осмысленность информации. Неожиданностъ информации. В задаче запоминания и последующего воспроизведения уход из сознания неожиданных знаков будет осуществляться медленнее все мнемотехники стараются использовать самые невероятные и странные комбинации предметов Близостъ информации по смыслу или по форме. Время между предъявлением информации и извлечением ее из памяти.
28223. Внимание, его характеристики и методы диагностики 49.5 KB
  Функции внимания: 1функция отбора значимых воздействий которые соответствуют потребностям данной деятельности; 2функция игнорирования других несущественных контролирующих воздействий; 3функция удержания сохранения выполняемой деятельности пока не будет достигнута цель т. Виды внимания: непроизвольное непреднамеренное произвольное преднамеренное. Поддержание устойчивого произвольного внимания зависит от ряда условий. Свойства внимания: сосредоточенность удержание внимания на одном объекте или одной деятельности при отвлечении...
28224. Понятие креативности. Дивергентное и конвергентное мышление 36.5 KB
  Дивергентное и конвергентное мышление. Креативность творческое мышление творческие способности индивида характеризующиеся готовностью к продуцированию принципиально новых идей. Факторы стимулирующие развитие креативности: ситуации незавершенности открытости разрешение и поощрение множества вопросов стимулирование ответственности и независимости внимание к интересам детей со стороны взрослых самостоятельные разработки и наблюдения неприклонение перед авторитетами Конвергентное и дивергентное мышление. Конвергентное мышление лат.
28225. ВОЛЯ КАК ВЫСШИЙ УРОВЕНЬ ПСИХИЧЕСКОЙ РЕГУЛЯЦИИ. ОСНОВНЫЕ ТЕОРИИ ВОЛИ 42 KB
  ОСНОВНЫЕ ТЕОРИИ ВОЛИ. Функции воли:1.Регулятивная внешняя используется когда усилия носят коллективный характер Характеристики воли: Направленность воля всегда направлена на объект Отдаленность идет работа на перспективу а не удовлетворение сиюминутных потребностей Устойчивость протяженность во времени Энергетическая волевые процессы возникают при слабом побуждении = низкой энергетичности Информационная только при наделении объекта социальной ценностью обеспечении личностного смысла возможно формирование дополнительного...
28226. Интеллект и его структура 52 KB
  Структура интеллекта 1. Структура интеллекта по Ч. В соответствии с этой теорией генеральный фактор интеллекта имеет наибольший вес при выполнении задач на абстрактные отношения а наименьший при выполнении сенсорных задач. Кроме генерального существуют также и групповые факторы интеллекта к которым можно отнести механическую лингвистическую математическую компетентность а также специальные факторы которые делают свой вклад лишь в отдельные интеллектуальные тесты.