99372

Основные принципы использования математической статистики

Лекция

Математика и математический анализ

Математическая статистика математическая дисциплина в которой рассматриваются методы сбора систематизации и анализа результатов измерений или наблюдений в условиях воздействия случайных факторов. В этих случаях роль исследователя сводится к выбору компьютерных программ вводу исходных данных результатов эксперимента и анализу получаемых результатов компьютерных расчетов. Так изучение того или иного свойства материала путем анализа результатов испытаний его образцов проб...

Русский

2016-09-10

185.43 KB

2 чел.

8

Лекция № 12

6.2. ОСНОВНЫЕ ПРИНЦИПЫ ИСПОЛЬЗОВАНИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Математическая статистика — математическая дисциплина, в которой рассматриваются методы сбора, систематизации и анализа результатов измерений или наблюдений в условиях воздействия случайных факторов. Ее раздел, охватывающий вопросы оценки точности приближенных измерений, анализа возникающих погрешностей, называется теорией ошибок. Для экспериментатора важно не столько знать методику статистических расчетов, сколько понимать их смысл и уметь правильно истолковывать получаемые результаты расчетов. В современных условиях это имеет особое значение, так как статистические расчеты все в большей мере выполняются на компьютере. В этих случаях роль исследователя сводится к выбору компьютерных программ, вводу исходных данных (результатов эксперимента) и анализу получаемых результатов компьютерных расчетов.

Основным понятием математической статистики является случайная величина, которая в отличие от постоянной (неслучайной) величины при каждом определении может иметь различные частные значения. Тем не менее, эти частные значения (иначе конкретные реализации случайной величины) хотя и носят случайный характер, в целом в своей совокупности подчиняются определенному закону, именуемому законом распределения случайной величины. Такой закон отражает вероятность попадания того или иного частного значения в конкретный интервал возможных значений рассматриваемой случайной величины.

Понятие случайной величины имеет большое практическое значение при анализе экспериментальных данных, так как любой исследуемый фактор проявляется (количественно) как случайная величина через свои частные значения, т. е. через результаты конкретных измерений. Так, изучение того или иного свойства материала путем анализа результатов испытаний его образцов (проб) различными методами представляет типичный пример оценки случайной величины. Изучение температуры воздуха в населенном пункте в какой-либо период года путем замеров, выполняемых в этот период, с математической точки зрения также является оценкой случайной величины и т. д.

Графически случайная величина чаще всего представляется гистограммой, в которой на оси абсцисс указываются интервалы возможных значений рассматриваемого показателя, а по оси ординат— относительные частоты попадания этих значений в тот или иной интервал. В качестве примера на рис. 6.2 показана гистограмма, отображающая в качестве случайной величины температуру воздуха в конкретном населенном пункте в январе. Частоты попадания результатов измерений в каждый из таких интервалов в своей совокупности отражают упомянутый закон распределения рассматриваемой случайной величины (в данном случае январских температур в населенном пункте).

Рис. 6.2 Гистограмма, отображающая результаты измерения температуры воздуха в конкретном населенном пункте в январе:

а — в виде ступенчатой фигуры; б — и виде системы вертикальных линий; I — температура воздуха, n/N — относительные частоты температур (N— общее число результатов измерений температуры, n — число результатов, попадающих в конкретный интервал).

Вместо ступенчатой фигуры — гистограммы (рис. 6.2а) — иногда распределение представляется системой вертикальных линий (рис. 6.26). Используется также так называемый «полигон распределения», в котором верхние концы таких линий соединяются ломаной, а сами вертикальные линии не проводятся. Иногда распределение рассматривают как непрерывное и выражают его (аппроксимируют) аналитическим законом. В таких случаях по оси ординат указывается так называемая «плотность распределения» (отношение вероятности попадания данных в интервал к ширине интервала, стремящейся к нулю).

При малом числе исходных данных принятие того или иного закона распределения, как правило, особого значения не имеет, т. е. одни и те же математические приемы оказываются пригодными для многих распределений. Когда число результатов не превышает 10... 15, исследователь обычно не задумывается над такими вопросами и использует наиболее известные приемы статистических расчетов. При значительном числе данных в исследованиях, связанных со строительством, природообустройством, симметричные распределения, как правило, аппроксимируются нормальным законом, асимметричные — логнормальным. В некоторых исследованиях вообще избегают этапа принятия закона распределения, т. е. используют решения, пригодные для любых распределений (непараметрические методы).

В связи с тем, что случайную величину нельзя охарактеризовать подобно постоянной величине одним числом, любые действия со случайными величинами (сравнение их друг с другом, установление зависимостей, сложение, вычитание, деление, умножение и пр.) приходится выполнять по более сложным правилам, нежели действия с постоянными величинами. Математики разработали способы оценки, сравнения, выполнения различных операций со случайными величинами, а исследователи в области прикладных наук (в первую очередь технических, экономических и др.) используют их готовые решения в качестве математических моделей при обработке своих экспериментальных данных. Некоторые специалисты выделяют даже так называемый «рутинный подход» к использованию математической статистики, предполагающий выполнение статистических расчетов как некоего шаблона, не требующего вникать в математическую сущность. К таковым относят, например, расчеты, приводимые в стандартах по обработке результатов испытаний, различные инструкции для специалистов-производственников, контролирующих качество продукции, и т. д. Такой подход, как правило, приемлем в практической деятельности, но в научных исследованиях он нежелателен, ибо ошибочный вывод при анализе результатов экспериментов может обесценить всю проведенную работу.

Простейшими характеристиками распределения являются среднее значение х̅ и дисперсия σ2, корень из которой называется среднеквадратическим (иначе стандартным) отклонением σ:

где xi — частное значение изучаемой характеристики (результат io измерения); п — количество частных значений (результатов измерений).

Если под количеством частных значений п понимать не всю совокупность данных, а число элементов ограниченной выборки, дисперсия определяется по формуле

Нормально распределенная случайная величина изменяется в пределах х ± , где t — коэффициент, зависящий от вероятности отклонения частного значения от среднего (имеются специальные таблицы). Например, диапазон x̅ ± σ соответствует вероятности 0,68, диапазон x̅ ±2σ — вероятности 0,95, х̅ ±3σ— вероятности 0,997.

В математической статистике рассматривается очень широкий круг задач, связанных с изучением поведения случайных величин и случайных функций. Практически для любой ситуации, возникающей при анализе экспериментальных данных, можно найти подходящее решение статистической задачи (часто не единственной). Однако для такого выбора экспериментатор должен обладать определенными навыками использования статистических методов. Попытки перекладывания такого выбора на математика являются для экспериментатора грубой ошибкой, ибо математик силен в решениях, но не в постановках таких задач. Для него всегда наибольшую трудность представляет физический смысл получаемых результатов, а неточности в понимании смысла очень часто становятся источниками ошибок. Как правило, оптимальным является тесная совместная работа экспериментатора с математиком, даже когда последний выступает лишь в роли специалиста по компьютерным (статистическим) программам.

В рамках настоящего пособия содержание математической статистики подробно не рассматривается, ибо это отдельный предмет, требующий серьезного внимания. Начинающий исследователь должен изучить его, используя специальную литературу, которая в настоящее время имеется в достаточном количестве. Тем не менее, далее приводятся некоторые типичные примеры применения методов математической статистики, иллюстрирующие возможности этой дисциплины при анализе данных, связанных со строительством и природообустройством.

6.3. ОЦЕНКА РАЗЛИЧИЯ ДВУХ ВЫБОРОК ПУТЕМ СТАТИСТИЧЕСКОГО СРАВНЕНИЯ ИХ ПАРАМЕТРОВ

В экспериментальных исследованиях часто приходится сравнивать одну совокупность данных с другой, выясняя, есть ли между ними различия. Например, сравниваются результаты испытаний образцов какого-либо материала с аналогичными результатами испытаний другого материала. Или сравнивается производительность землеройных машин, оснащенных каким-либо дополнительным приспособлением, с производительностью аналогичных машин без такового приспособления и т. д. Выражаясь языком математической статистики, решается задача о принадлежности двух сравниваемых выборок одной и той же генеральной совокупности. При этом предположение об отсутствии различия между выборками именуется «нулевой гипотезой».

Существует множество способов решения такой задачи, соответствующих различным условиям. В исследованиях, связанных со строительством и природообустройством, чаще всего проводятся сравнения параметров распределений сравниваемых выработок — средних значений и дисперсий. Имеются специальные формулы и таблицы, позволяющие делать такие сравнения, т. е. оценивать «значимость» получаемых различий.

Обычно целесообразно вначале оценивать различие дисперсий сравниваемых выборок. Для этого определяется отношение F:

где σ21, σ22— дисперсии первой и второй выборки соответственно, определяемые по формуле (6.2); при этом обычно первой считается выборка с большей дисперсией (σ21 > σ22).

Полученная величина F сравнивается с табличным значением Fα (критерием Фишера), определяемым в зависимости от заданной доверительной вероятности (чаще всего 0,95) и так называемых чисел степеней свободы k1 и k2, в данном случае равных k1=n1-1, k2=n2-1

Если FFα — дисперсии различаются существенно (нулевая гипотеза отклоняется).

Если F<Fα различие дисперсий несущественно, т. е. может объясняться действием лишь случайных факторов (нулевая гипотеза принимается).

Различие дисперсий позволяет делать вывод, что выборки принадлежат разным совокупностям. Если же существенного различия не обнаружено, проводится сравнение средних х1 и х2. Для этого определяется величина t:

где х̅1, и х̅2 — средние значения первой и второй выборки соответственно, определяемые по формуле(6.1); х̅1i и х̅2j — текущие значения первой и второй выборки соответственно, определяемые по формуле (6.1); n1 и п2 — количество элементов в первой и второй выборке соответственно.

Полученная величина t сравнивается с табличным значением ta (критерием Стьюдента), определяемым в зависимости от заданной доверительной вероятности (чаще всего 0,95) и числа степеней свободы, в данном случае равного k = n1 + п2 - 2.

Если tta — средние различаются существенно (нулевая гипотеза отклоняется).

Если t < ta — различие средних несущественно, т. е. может объясняться действием лишь случайных факторов (нулевая гипотеза принимается).

Если не обнаружено существенного различия и между средними значениями х̅1± и x̅2, делается окончательный вывод, что сравниваемые выборки не различаются, т. е. принадлежат одной совокупности.

Для пояснения изложенного целесообразно рассмотреть следующий простой пример.

Исследуется прочность бетонов, приготовленных из одних и тех же компонентов, но по разным технологиям. Испытываются образцы каждого вида бетона, т. е. изготавливаются стандартные кубики, которые после твердения раздавливаются на специальном прессе с измерением возникающих напряжений. Предположим, что по первой технологии изготовлено 4 кубика, которые показали следующую прочность: 13,1; 15,0; 10,7; 10,0 МПа. По второй технологии изготовлено 5 кубиков прочностью 10,5; 12,1; 8,9; 12,4; 10,7 МПа.

Переходя на язык математической статистики, имеем две выборки:

В табл. 6.1 приведены значения критерия Фишера Fa (критических точек распределения Фишера) при различных числах степеней свободы k и доверительной вероятности 0,95. Согласно этой таблице при числах степеней свободы k1=4-1=3 и k2 =5-1 = 4 критерий Фишера равен Fa = 6,59, что больше вычисленного значения F = 2,65. Таким образом, соблюдается условие F<Fα указывающее на отсутствие существенного различия между дисперсиями.

На следующем этапе проверяем различие средних х\ и х2:

где через S обозначена сумма квадратов:

S = (13,l-12,2)2 + (15,0-12,2)2+...+

+ (10,5-10,92)2 + (12,1-10,92)2+....

В табл. 6.2 приведены значения критерия Стьюдента ta при различных числах степеней свободы k, соответствующие односторонней доверительной вероятности 0,95 (односторонняя доверительная вероятность используется в случаях, когда неравенство x̅1>х̅2 принимается за установленный факт). Согласно табл. 6.2 при числе степеней свободы k = 4 + 5 - 2 = 7 критерий Стьюдента равен tα= 1,89. Это больше вычисленного значения t = 1,04, т. е. выполняется условие t < ta указывающее на отсутствие существенного различия между средними.

Таким образом, несмотря на кажущееся различие результатов испытаний двух серий образцов, вывода о различии их прочности делать нельзя. Если фактически такое различие и имеется, то оно лежит в пределах точности проведенного эксперимента. Не исключено, что при большем числе испытаний (испытуемых образцов) мог бы получиться и другой результат и были бы сделаны другие выводы, но это лишь предположение, которое без дополнительных экспериментов не может служить аргументом. Иными словами, влияние примененных технологий на прочность бетона проведенный эксперимент не обнаружил.


 

А также другие работы, которые могут Вас заинтересовать

40578. Web-страницы доступа к данным базы 10.27 MB
  Access 2000 позволяет создавать новые объекты страницы доступа к данным (Data Access Page), которые представляют собой Web-страницы специального типа, подключенные к источнику данных OLE DB — базе данных Access или Microsoft SQL Server, — предназначенные для работы пользователей Internet или intranet с данными базы в интерактивном режиме через браузер Internet Explorer
40579. Работа Access с данными на SQL Server 3.6 MB
  Access предоставляет возможность использовать данные из различных внешних источников. Внешними источниками данных могут служить таблицы других баз данных Access, Microsoft FoxPro, dBASE, Paradox и Microsoft SQL Server, таблицы и списки HTML и НТХ, находящиеся на сервере в локальной, корпоративной или сети Internet, данные из таких приложений, как Excel, Exchange
40580. Сущность метода Баркера 40.52 KB
  С их помощью определяются важные для предметной области объекты сущности их свойства атрибуты и отношения друг с другом связи. Графическое изображение сущности Каждая сущность должна обладать уникальным идентификатором. Каждый экземпляр сущности должен однозначно идентифицироваться и отличаться от всех других экземпляров данного типа сущности. Одна и та же интерпретация не может применяться к различным именам если только они не являются псевдонимами; сущность обладает одним или несколькими атрибутами которые либо принадлежат...
40581. Сущность метода Баркера 53 KB
  Вендрова Проектирование ПО Ход урока Организационный момент 24 мин: Приветствие оформление документов к занятию Повторение пройденного материала применяемая методика выводы1520 мин Письменные ответы на вопросы: Рассмотреть стандарты: проектирования; оформления проектной документации; пользовательского интерфейса. Сообщение темы урока постановка цели и задачи:13 мин: рассмотреть сущность метода Баркера; Изложение нового материала применяемая методика: 5060 мин. Закрепление изучаемого материала...
40582. Разработка диаграмм по методу Баркера 46 KB
  Организационный момент 23 мин: Приветствие фиксация отсутствующих проверка санитарного состояния аудитории заполнение журнала рапортички проверка подготовленности студентов к занятию. Напоминание правил техники безопасности при работе с ПК; 2. Сообщение темы цели и задач практикума 23 мин: Цели: Приобретение навыков моделирования по методу Баркера для построения моделей информационной системы. Актуализация опорных знаний и умений студентов 1015 мин: устный опрос занятие 18 п.
40583. Общие принципы и подходы к разработке ПО 869.44 KB
  Итерация N Унифицированный процесс разработки программного обеспечения USDP Модель вариантов использования описывает случаи в которых приложение будет использоваться. Аналитическая модель описывает базовые классы для приложения. Модель проектирования описывает связи и отношения между классами и выделенными объектами Модель развертывания описывает распределение программного обеспечения по компьютерам.
40584. Структурный подход 30 KB
  Все наиболее распространенные методологии структурного подхода [9111213] базируются на ряде общих принципов [3]. В качестве двух базовых принципов используются следующие: принцип разделяй и властвуй принцип решения сложных проблем путем их разбиения на множество меньших независимых задач легких для понимания и решения; принцип иерархического упорядочивания принцип организации составных частей проблемы в иерархические древовидные структуры с добавлением новых деталей на каждом уровне. Выделение двух базовых принципов не означает...
40585. Проблема сложности больших систем 21.96 KB
  Единственно эффективный подход к решению этой проблемы заключается в построении сложной системы из небольшого количества крупных частей каждая из которых в свою очередь строится из частей меньшего размера и т. по отношению к проектированию сложной программной системы это означает что ее необходимо разделять декомпозировать на небольшие подсистемы каждую из которых можно разрабатывать независимо от других. Это позволяет при разработке подсистемы любого уровня держать в уме информацию только о ней а не обо всех остальных частях системы....
40586. Методология функционального моделирования SADT. Состав и функции моделей SADT 61.84 KB
  Состав и функции моделей SDT. Взаимодействие блоков друг с другом описываются посредством интерфейсных дуг выражающих ограничения которые в свою очередь определяют когда и каким образом функции выполняются и управляются; строгость и точность. отделение организации от функции т. Методология SDT может использоваться для моделирования широкого круга систем и определения требований и функций а затем для разработки системы которая удовлетворяет этим требованиям и реализует эти функции.