99372

Основные принципы использования математической статистики

Лекция

Математика и математический анализ

Математическая статистика математическая дисциплина в которой рассматриваются методы сбора систематизации и анализа результатов измерений или наблюдений в условиях воздействия случайных факторов. В этих случаях роль исследователя сводится к выбору компьютерных программ вводу исходных данных результатов эксперимента и анализу получаемых результатов компьютерных расчетов. Так изучение того или иного свойства материала путем анализа результатов испытаний его образцов проб...

Русский

2016-09-10

185.43 KB

0 чел.

8

Лекция № 12

6.2. ОСНОВНЫЕ ПРИНЦИПЫ ИСПОЛЬЗОВАНИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Математическая статистика — математическая дисциплина, в которой рассматриваются методы сбора, систематизации и анализа результатов измерений или наблюдений в условиях воздействия случайных факторов. Ее раздел, охватывающий вопросы оценки точности приближенных измерений, анализа возникающих погрешностей, называется теорией ошибок. Для экспериментатора важно не столько знать методику статистических расчетов, сколько понимать их смысл и уметь правильно истолковывать получаемые результаты расчетов. В современных условиях это имеет особое значение, так как статистические расчеты все в большей мере выполняются на компьютере. В этих случаях роль исследователя сводится к выбору компьютерных программ, вводу исходных данных (результатов эксперимента) и анализу получаемых результатов компьютерных расчетов.

Основным понятием математической статистики является случайная величина, которая в отличие от постоянной (неслучайной) величины при каждом определении может иметь различные частные значения. Тем не менее, эти частные значения (иначе конкретные реализации случайной величины) хотя и носят случайный характер, в целом в своей совокупности подчиняются определенному закону, именуемому законом распределения случайной величины. Такой закон отражает вероятность попадания того или иного частного значения в конкретный интервал возможных значений рассматриваемой случайной величины.

Понятие случайной величины имеет большое практическое значение при анализе экспериментальных данных, так как любой исследуемый фактор проявляется (количественно) как случайная величина через свои частные значения, т. е. через результаты конкретных измерений. Так, изучение того или иного свойства материала путем анализа результатов испытаний его образцов (проб) различными методами представляет типичный пример оценки случайной величины. Изучение температуры воздуха в населенном пункте в какой-либо период года путем замеров, выполняемых в этот период, с математической точки зрения также является оценкой случайной величины и т. д.

Графически случайная величина чаще всего представляется гистограммой, в которой на оси абсцисс указываются интервалы возможных значений рассматриваемого показателя, а по оси ординат— относительные частоты попадания этих значений в тот или иной интервал. В качестве примера на рис. 6.2 показана гистограмма, отображающая в качестве случайной величины температуру воздуха в конкретном населенном пункте в январе. Частоты попадания результатов измерений в каждый из таких интервалов в своей совокупности отражают упомянутый закон распределения рассматриваемой случайной величины (в данном случае январских температур в населенном пункте).

Рис. 6.2 Гистограмма, отображающая результаты измерения температуры воздуха в конкретном населенном пункте в январе:

а — в виде ступенчатой фигуры; б — и виде системы вертикальных линий; I — температура воздуха, n/N — относительные частоты температур (N— общее число результатов измерений температуры, n — число результатов, попадающих в конкретный интервал).

Вместо ступенчатой фигуры — гистограммы (рис. 6.2а) — иногда распределение представляется системой вертикальных линий (рис. 6.26). Используется также так называемый «полигон распределения», в котором верхние концы таких линий соединяются ломаной, а сами вертикальные линии не проводятся. Иногда распределение рассматривают как непрерывное и выражают его (аппроксимируют) аналитическим законом. В таких случаях по оси ординат указывается так называемая «плотность распределения» (отношение вероятности попадания данных в интервал к ширине интервала, стремящейся к нулю).

При малом числе исходных данных принятие того или иного закона распределения, как правило, особого значения не имеет, т. е. одни и те же математические приемы оказываются пригодными для многих распределений. Когда число результатов не превышает 10... 15, исследователь обычно не задумывается над такими вопросами и использует наиболее известные приемы статистических расчетов. При значительном числе данных в исследованиях, связанных со строительством, природообустройством, симметричные распределения, как правило, аппроксимируются нормальным законом, асимметричные — логнормальным. В некоторых исследованиях вообще избегают этапа принятия закона распределения, т. е. используют решения, пригодные для любых распределений (непараметрические методы).

В связи с тем, что случайную величину нельзя охарактеризовать подобно постоянной величине одним числом, любые действия со случайными величинами (сравнение их друг с другом, установление зависимостей, сложение, вычитание, деление, умножение и пр.) приходится выполнять по более сложным правилам, нежели действия с постоянными величинами. Математики разработали способы оценки, сравнения, выполнения различных операций со случайными величинами, а исследователи в области прикладных наук (в первую очередь технических, экономических и др.) используют их готовые решения в качестве математических моделей при обработке своих экспериментальных данных. Некоторые специалисты выделяют даже так называемый «рутинный подход» к использованию математической статистики, предполагающий выполнение статистических расчетов как некоего шаблона, не требующего вникать в математическую сущность. К таковым относят, например, расчеты, приводимые в стандартах по обработке результатов испытаний, различные инструкции для специалистов-производственников, контролирующих качество продукции, и т. д. Такой подход, как правило, приемлем в практической деятельности, но в научных исследованиях он нежелателен, ибо ошибочный вывод при анализе результатов экспериментов может обесценить всю проведенную работу.

Простейшими характеристиками распределения являются среднее значение х̅ и дисперсия σ2, корень из которой называется среднеквадратическим (иначе стандартным) отклонением σ:

где xi — частное значение изучаемой характеристики (результат io измерения); п — количество частных значений (результатов измерений).

Если под количеством частных значений п понимать не всю совокупность данных, а число элементов ограниченной выборки, дисперсия определяется по формуле

Нормально распределенная случайная величина изменяется в пределах х ± , где t — коэффициент, зависящий от вероятности отклонения частного значения от среднего (имеются специальные таблицы). Например, диапазон x̅ ± σ соответствует вероятности 0,68, диапазон x̅ ±2σ — вероятности 0,95, х̅ ±3σ— вероятности 0,997.

В математической статистике рассматривается очень широкий круг задач, связанных с изучением поведения случайных величин и случайных функций. Практически для любой ситуации, возникающей при анализе экспериментальных данных, можно найти подходящее решение статистической задачи (часто не единственной). Однако для такого выбора экспериментатор должен обладать определенными навыками использования статистических методов. Попытки перекладывания такого выбора на математика являются для экспериментатора грубой ошибкой, ибо математик силен в решениях, но не в постановках таких задач. Для него всегда наибольшую трудность представляет физический смысл получаемых результатов, а неточности в понимании смысла очень часто становятся источниками ошибок. Как правило, оптимальным является тесная совместная работа экспериментатора с математиком, даже когда последний выступает лишь в роли специалиста по компьютерным (статистическим) программам.

В рамках настоящего пособия содержание математической статистики подробно не рассматривается, ибо это отдельный предмет, требующий серьезного внимания. Начинающий исследователь должен изучить его, используя специальную литературу, которая в настоящее время имеется в достаточном количестве. Тем не менее, далее приводятся некоторые типичные примеры применения методов математической статистики, иллюстрирующие возможности этой дисциплины при анализе данных, связанных со строительством и природообустройством.

6.3. ОЦЕНКА РАЗЛИЧИЯ ДВУХ ВЫБОРОК ПУТЕМ СТАТИСТИЧЕСКОГО СРАВНЕНИЯ ИХ ПАРАМЕТРОВ

В экспериментальных исследованиях часто приходится сравнивать одну совокупность данных с другой, выясняя, есть ли между ними различия. Например, сравниваются результаты испытаний образцов какого-либо материала с аналогичными результатами испытаний другого материала. Или сравнивается производительность землеройных машин, оснащенных каким-либо дополнительным приспособлением, с производительностью аналогичных машин без такового приспособления и т. д. Выражаясь языком математической статистики, решается задача о принадлежности двух сравниваемых выборок одной и той же генеральной совокупности. При этом предположение об отсутствии различия между выборками именуется «нулевой гипотезой».

Существует множество способов решения такой задачи, соответствующих различным условиям. В исследованиях, связанных со строительством и природообустройством, чаще всего проводятся сравнения параметров распределений сравниваемых выработок — средних значений и дисперсий. Имеются специальные формулы и таблицы, позволяющие делать такие сравнения, т. е. оценивать «значимость» получаемых различий.

Обычно целесообразно вначале оценивать различие дисперсий сравниваемых выборок. Для этого определяется отношение F:

где σ21, σ22— дисперсии первой и второй выборки соответственно, определяемые по формуле (6.2); при этом обычно первой считается выборка с большей дисперсией (σ21 > σ22).

Полученная величина F сравнивается с табличным значением Fα (критерием Фишера), определяемым в зависимости от заданной доверительной вероятности (чаще всего 0,95) и так называемых чисел степеней свободы k1 и k2, в данном случае равных k1=n1-1, k2=n2-1

Если FFα — дисперсии различаются существенно (нулевая гипотеза отклоняется).

Если F<Fα различие дисперсий несущественно, т. е. может объясняться действием лишь случайных факторов (нулевая гипотеза принимается).

Различие дисперсий позволяет делать вывод, что выборки принадлежат разным совокупностям. Если же существенного различия не обнаружено, проводится сравнение средних х1 и х2. Для этого определяется величина t:

где х̅1, и х̅2 — средние значения первой и второй выборки соответственно, определяемые по формуле(6.1); х̅1i и х̅2j — текущие значения первой и второй выборки соответственно, определяемые по формуле (6.1); n1 и п2 — количество элементов в первой и второй выборке соответственно.

Полученная величина t сравнивается с табличным значением ta (критерием Стьюдента), определяемым в зависимости от заданной доверительной вероятности (чаще всего 0,95) и числа степеней свободы, в данном случае равного k = n1 + п2 - 2.

Если tta — средние различаются существенно (нулевая гипотеза отклоняется).

Если t < ta — различие средних несущественно, т. е. может объясняться действием лишь случайных факторов (нулевая гипотеза принимается).

Если не обнаружено существенного различия и между средними значениями х̅1± и x̅2, делается окончательный вывод, что сравниваемые выборки не различаются, т. е. принадлежат одной совокупности.

Для пояснения изложенного целесообразно рассмотреть следующий простой пример.

Исследуется прочность бетонов, приготовленных из одних и тех же компонентов, но по разным технологиям. Испытываются образцы каждого вида бетона, т. е. изготавливаются стандартные кубики, которые после твердения раздавливаются на специальном прессе с измерением возникающих напряжений. Предположим, что по первой технологии изготовлено 4 кубика, которые показали следующую прочность: 13,1; 15,0; 10,7; 10,0 МПа. По второй технологии изготовлено 5 кубиков прочностью 10,5; 12,1; 8,9; 12,4; 10,7 МПа.

Переходя на язык математической статистики, имеем две выборки:

В табл. 6.1 приведены значения критерия Фишера Fa (критических точек распределения Фишера) при различных числах степеней свободы k и доверительной вероятности 0,95. Согласно этой таблице при числах степеней свободы k1=4-1=3 и k2 =5-1 = 4 критерий Фишера равен Fa = 6,59, что больше вычисленного значения F = 2,65. Таким образом, соблюдается условие F<Fα указывающее на отсутствие существенного различия между дисперсиями.

На следующем этапе проверяем различие средних х\ и х2:

где через S обозначена сумма квадратов:

S = (13,l-12,2)2 + (15,0-12,2)2+...+

+ (10,5-10,92)2 + (12,1-10,92)2+....

В табл. 6.2 приведены значения критерия Стьюдента ta при различных числах степеней свободы k, соответствующие односторонней доверительной вероятности 0,95 (односторонняя доверительная вероятность используется в случаях, когда неравенство x̅1>х̅2 принимается за установленный факт). Согласно табл. 6.2 при числе степеней свободы k = 4 + 5 - 2 = 7 критерий Стьюдента равен tα= 1,89. Это больше вычисленного значения t = 1,04, т. е. выполняется условие t < ta указывающее на отсутствие существенного различия между средними.

Таким образом, несмотря на кажущееся различие результатов испытаний двух серий образцов, вывода о различии их прочности делать нельзя. Если фактически такое различие и имеется, то оно лежит в пределах точности проведенного эксперимента. Не исключено, что при большем числе испытаний (испытуемых образцов) мог бы получиться и другой результат и были бы сделаны другие выводы, но это лишь предположение, которое без дополнительных экспериментов не может служить аргументом. Иными словами, влияние примененных технологий на прочность бетона проведенный эксперимент не обнаружил.


 

А также другие работы, которые могут Вас заинтересовать

71931. Основные неисправности жестких дисков и способы их устранения 121.5 KB
  Жесткий диск (винчестер) относится к группе устройств, предназначенных для хранения данных. Эта группа достаточно многочисленна, однако жесткий диск по праву занимает в ней первое место по объему информации, которую он способен хранить, и по необходимости присутствия.
71932. Обычаи делового оборота и иные обычаи, их роль в регулировании предпринимательских отношений 36.5 KB
  Следует особо обратить внимание на то что ГК включил новое для кодексов понятие обычаи делового оборота. Несомненно что ниша в правовом регулировании оставленная для обычаев делового оборота является признанием роли децентрализованных мер правового регулирования рынка в целом...
71933. ОРГАНИЗАЦИЯ ИНЖЕНЕРНО-ТЕХНИЧЕСКОЙ ЗАЩИТЫ ИНФОРМАЦИИ 314 KB
  К ним относятся: перечни защищаемых сведений составляющих государственную по тематике государственного заказа если он выполняется организацией и коммерческую тайну; требуемые уровни безопасности информации обеспечение которых не приведет к превышению ущерба...
71937. Смысловая организация сложного предложения в английском языке 105 KB
  Основным признаком сложного предложения лингвисты издавна считают объединение в нем нескольких предикативных сочетаний подлежащего и сказуемого. Причем на протяжении всей истории развития учения о сложном предложении наблюдаются разногласия в трактовке...
71938. Организация отношений между данными: иерархическая, сетевая, реляционная 896.09 KB
  Основные идеи современной информационной технологии базируются на концепции баз данных (БД). Согласно данной концепции основой информационной технологии являются данные, организованные в БД, адекватно отражающие реалии действительности в той или иной предметной области...
71939. Декабризм, и его значение в истории России 365 KB
  Движение декабристов является событием, длительное время приковывающим внимание историков. Это связано с тем, что события более чем 170-летней давности оказали значительное влияние на последующее развитие России; декабристы были первыми русскими революционерами, которые организовали открытое восстание против царизма.