99368

Проверка наличия зависимости между изучаемыми величинами

Лекция

Математика и математический анализ

В реальных условиях очень редко встречаются чисто функциональные зависимости, когда каждому значению одной переменной соответствует строго определенное значение другой

Русский

2016-09-10

212.47 KB

0 чел.

9

Лекция № 13

6.4. ПРОВЕРКА НАЛИЧИЯ ЗАВИСИМОСТИ МЕЖДУ ИЗУЧАЕМЫМИ ВЕЛИЧИНАМИ

Во всех областях науки исследователю приходится искать закономерности, связывающие рассматриваемые факторы друг с другом. Математическая статистика предоставляет эффективные средства для такого поиска. Они позволяют объективно оценивать наличие или отсутствие связи между сравниваемыми величинами и при подтверждении такой связи получать соответствующие эмпирические зависимости.

В реальных условиях очень редко встречаются чисто функциональные зависимости, когда каждому значению одной переменной соответствует строго определенное значение другой. Как правило, результат зависит не только от рассматриваемого фактора, но и от множества других, случайных факторов, которые могут оставаться неизвестными. Такие зависимости называются стохастическими или корреляционными. Они изображаются в виде диаграмм рассеяния, т. е. точечных графиков, в которых координатами каждой точки являются сравниваемые величины (рис. 6.3). Каждому значению одной переменной x в таких зависимостях могут соответствовать различные значения другой, т. е. зависимой переменной у, причем диапазон колебаний х (при фиксированном у) может быть различным. Если такой диапазон мал, корреляционная зависимость будет мало отличаться от функциональной (рис. 6.3а). Такую связь у с х называют тесной или говорят, что зависимость имеет малый разброс. Напротив, если этот диапазон велик, говорят о слабой связи между у и х или о большом разбросе (рис. 6.3в). Промежуточный случай (рис. 6.3б) представляет среднюю связь.

Рис. 6.3 Примеры диаграмм рассеяния, иллюстрирующие различную тесноту связи между сравниваемыми величинами х и y: а — тесная связь; б — средняя связь; в — слабая связь.

Очевидно, что разделение корреляционных связей на тесные, средние и слабые условно и в значительной мере субъективно, поэтому математическая статистика дает количественный критерий для оценки тесноты связи — коэффициент корреляции г:

где хi, yi, х̅, у̅ текущие и средние значения х и у.

Коэффициент корреляции г может принимать значения в диапазоне от —1 до +1. Положительные значения соответствуют возрастанию у от х, отрицательные — убыванию. Если коэффициент корреляции r по абсолютному значению равен 1, связь между у и х предельно тесная, т. е. не имеет разброса и является функциональной. Если же r = 0, связь между у и х вообще отсутствует, т. е. у и х являются независимыми величинами, и любая попытка их связать эмпирической формулой будет фальсификацией.

Коэффициент корреляции сам является случайной величиной, результат его расчета является частным значением, нуждающимся в статистической оценке. Иными словами, необходима проверка, действительно ли он отличается от нуля. Используется формула

где r— коэффициент корреляции, вычисленный по формуле (6.5); п — число пар(xi, yi); ta — коэффициент Стьюдента при числе степеней свободы k = п — 2.

При t < ta отличие коэффициента корреляции от нуля случайно, т. е. наличие корреляции не подтверждается.

При t > ta коэффициент корреляции с заданной вероятностью отличен от нуля, т. е. наличие корреляции подтверждается.

Если рассмотреть в качестве примера диаграмму рассеяния, представленную на рис. 5.8, коэффициент корреляции которой равен r= 0,5, то формула (6.6) дает следующую оценку его значимости:

При наличии 50 точек число степеней свободы составит 50 — 2 = 48. Согласно табл. 6.2 при таком числе степеней свободы критерий Стьюдента равен ta = 1,675, что меньше полученной величины t = 4,0.

Таким образом, соблюдается условие ttα. Коэффициент корреляции действительно отличен от нуля, т. е. наличие корреляции с вероятностью 0,95 подтверждается.

В экономических, технических науках, связанных со строительством, природообустройством, расчеты коэффициентов корреляции делаются довольно часто. Тесные корреляционные зависимости встречаются сравнительно редко, в основном экспериментатор имеет дело со слабой корреляцией или ее отсутствием. В таких ситуациях всегда приходится решать вопрос, имеется ли связь между сравниваемыми величинами, что и заставляет определять коэффициент корреляции. Это может относиться к исследованиям самого разнообразного содержания. Например, при разработке нового метода расчета несущей способности или деформируемости какой-либо конструкции приходится сравнивать получаемые результаты расчетов с результатами натурных испытаний таких конструкций (имеются в виду испытания, аналогичные показанным на рис. 5.1). Учитывая большую ответственность принимаемых в таких случаях решений, проверка должна проводиться на основе как можно большего числа натурных испытаний. Если корреляция между вычисленными и измеренными сопротивлениями конструкций оказывается очень слабой или не обнаруживается вообще, расчет не может рекомендоваться к практическому применению, требуется его доработка или полная переработка. Если же обнаруживается средняя или тесная корреляция, расчет обычно считают приемлемым (чаще всего это соответствует коэффициенту корреляции не менее 0,70...0,75). Для обеспечения безопасности проектирования в расчет вводятся необходимые снижающие коэффициенты надежности, т. е. возможные ошибки компенсируются «запасами», при которых вероятность аварийных ситуаций снижается практически до нуля, т. е. до пренебрежимо малых значений.

На рис. 6.4 приводится пример использования диаграммы рассеяния для оценки достоверности нового метода расчета. В 60-70-е годы XX в. специалисты по геотехнике в СССР решали вопрос о создании быстрого, дешевого, но достаточно надежного метода определения несущей способности свай. Был предложен метод расчета сопротивлений свай по данным так называемого статического зондирования (вдавливание в грунт специального приспособления — зонда, замеряющего сопротивления каждого слоя грунта).

Результаты расчета несущей способности свай по данным статического зондирования сравнивались с «точными» данными, т. е. результатами натурных испытаний свай статической нагрузкой.

Как видно из рис. 6.4, количество точек на диаграмме рассеяния достаточно велико (п = 503) и наличие корреляции настолько очевидно, что расчеты по формулам (6.5) и (6.6) могли бы и не проводиться. Тем не менее, расчет коэффициента корреляции был выполнен (в несколько иной, более удобной для выполнения форме, здесь не рассматриваемой) и показал, что он равен 0,75. Его проверка по формуле (6.6) показала, что t = 23,9. Это явно больше табличного значения ta = 1,64 при числе степеней свободы k = 501 (см. табл. 6.2).

В связи с получением таких результатов расчет был включен в строительные нормы СНиП и используется до настоящего времени. При этом в расчет были введены дополнительные «запасы прочности» в виде снижающих коэффициентов, учитывающих различные случайные факторы, в том числе достоверность самого расчета (±25%).

Коэффициент корреляции может отражать наличие или отсутствие зависимости между несколькими переменными (множественная корреляция). Общие идеи такого расчета те же, что и при двух переменных (x, y) так что в данном кратком обзоре нет особой необходимости в его рассмотрении.

При использовании коэффициентов корреляции необходимо иметь в виду одно ограничение: коэффициент корреляции отражает наличие не любой, а только линейной зависимости. Для выявления нелинейных зависимостей используется другой, несколько более сложный критерий — корреляционное отношение ŋyx. Оно предполагает предварительное разбиение диаграммы рассеяния на участки (группы) и определение параметров распределения в каждой группе (групповых средних и групповых дисперсий):

где ŋyx — корреляционное отношение; σy̅x— межгрупповое среднеквадратическое отклонение (т. е. среднеквадратическое отклонение групповых средних от общей средней); σ̅y— общее среднеквадратическое отклонение.

Корреляционное отношение при отсутствии связи равно 0, при функциональной связи — 1, при этом всегда r ≤ ŋyx. Таким образом, при отсутствии связи r = ŋyx = 0, но при функциональной криволинейной зависимости ŋyx = 1, а │r│ ≠ 1.

Следует отметить, что необходимость в использовании корреляционного отношения возникает относительно редко (при большом числе результатов, незначительных разбросах, при визуально очевидной криволинейности и пр.). При малом числе исходных данных, при значительном разбросе для выявления наличия корреляции, как правило, достаточно использования одного лишь коэффициента корреляции r.

6.5. ПОДБОР ЭМПИРИЧЕСКИХ ФОРМУЛ (РЕГРЕССИОННЫЙ АНАЛИЗ)

Составление диаграмм рассеяния, оценка тесноты связи между сравниваемыми величинами чаще всего являются этапом, предшествующим поиску эмпирических формул. Следующим этапом обычно является подбор аналитической функции, которая могла бы наилучшим образом отобразить искомую стохастическую зависимость. Такую функцию в математике называют аппроксимирующей, а линию, ее отображающую, — аппроксимирующей кривой. С точки же зрения общенаучной методологии это эмпирическая зависимость, потому что ее получение основывается на формально-математических операциях (см. раздел 5.4). Аппроксимирующая функция представляет основную форму выражения эмпирической зависимости, которая обычно более удобна, чем табличная форма. Исключение составляют лишь очень сложные зависимости, которые в практической деятельности удобнее использовать в форме таблиц. Процесс подбора аппроксимирующей функции представляет раздел математической статистики, называемый регрессионным анализом. Он включает две операции: сначала выбирается ее вид (форма зависимости у ™ f(x)), а затем определяются численные значения параметров выбранной функции, при которых обеспечивается наибольшее ее соответствие экспериментальным данным. Вид функции у = f(x) обычно принимается исходя из упрощенных теоретических соображений. Если их нет, принимается простейшая зависимость. Чаще всего это линейная функция типа

y = kx + b (6.8)

или

у - kx, (6.8а)

где k и b — параметры такой функции.

При нелинейной зависимости обычно используются полиномы, например

где b0, b1, bn — параметры принятого полинома.

Существует множество методов подбора параметров таких зависимостей. Самые простые предполагают визуальное построение аппроксимирующей линии («на глаз») с последующим установлением параметров уже начерченной линии (или вообще без установления параметров, т. е. с использованием полученного графика как номограммы). Несмотря на примитивность такого подхода, он может быть вполне приемлемым для зависимостей с малым разбросом (при тесной корреляции). Примером могут служить экспериментальные зависимости, представленные на рис. 6.1. Однако такие зависимости встречаются очень редко. В большинстве технических наук экспериментаторам приходится довольствоваться теснотой связи, примерно соответствующей рис. 5.8 и 6.4, для которых выбор аппроксимирующих кривых должен основываться только на статистических расчетах.

Наиболее точным методом подбора параметров аппроксимирующей функции является так называемый метод наименьших квадратов. Основная идея этого метода в том, что параметры аппроксимирующей кривой подбираются таким образом, что сумма квадратов отклонений используемых экспериментальных данных от этой кривой (по вертикали или по горизонтали) будет минимальной (рис. 6.5), т. е.

где у — текущее значение ординаты аппроксимирующей линии, соответствующее i-й точке, т. е. значение аппроксимирующей функции у = f(x) при д: = х(; yt — ордината i-й точки.

Если b0, b1, b2, ... — параметры аппроксимирующей функции у = f(x), то соблюдение условия (6.10) должно достигаться при равенстве нулю производных выражения s по каждому из этих параметров, т. е. значения параметров могут быть найдены из решения системы уравнений

Для линейной функции требуется нахождение лишь двух параметров k и b или даже одного k (см. формулы (6.8) и (6.8а)).

Подбор параметров аппроксимирующей функции представляет довольно сложную, громоздкую процедуру, поэтому такие операции выполняются, как правило, с помощью компьютерных программ. Для простейших случаев получены готовые формулы, позволяющие сразу получать аппроксимирующую функцию у=f(x) по параметрам распределения исходных данных. Так, для линейных зависимостей метод наименьших квадратов дает следующую формулу:

где х̅, у̅ — средние значения xi и уi

п — число пар (xi, yi), т. е. число точек на диаграмме рассеяния; r— коэффициент корреляции, определяемый по формуле (6.5).

В рассмотренном выше случае предполагалось, что известной величиной является x, а искомой у. Полученная для такого случая формула (6.12) называется уравнением регрессии у на х. Однако возможен и другой вариант связи у с х, когда определяется х по известному значению у. Такой случай называется регрессией х на у. Формула для него может быть получена таким же способом, но в качестве ∆i, следует рассматривать отклонения не по оси у, а по оси х, т. е. сумма ∑(уi - у)2 в выражении (6.10) заменяется на ∑(xi-x) 2. На рис. 6.3 это отклонения в горизонтальном направлении. Уравнение регрессии л- на у при линейной зависимости будет иметь вид

где обозначения те же, что и в формуле (6.12).

В отличие от детерминированных (функциональных) зависимостей, которые, будучи решенными относительно у или х, остаются одинаковыми, стохастические (корреляционные) зависимости оказываются в этих случаях разными, их угловые коэффициенты будут различаться. Это видно из рассмотрения уравнений (6.12) и (6.13), которые нельзя вывести одно из другого простым алгебраическим преобразованием.


 

А также другие работы, которые могут Вас заинтересовать

21541. КЛИНИКА, ДИАГНОСТИКА И ТЕРАПИЯ ПОРАЖЕНИЙ ОТРАВЛЯЮЩИМИ ВЕЩЕСТВАМИ НЕРВНО-ПАРАЛИТИЧЕСКОГО ДЕЙСТВИЯ 53 KB
  Обстоятельства при которых появились первые жалобы; динамику и последовательность развития признаков поражения: находился ли в зараженной атмосфере и сколько времени; принял внутрь какоето вещество и в какой дозе; сколько времени прошло с момента отравления до оказания помощи и в каком объеме она была оказана; каково было состояние на догоспитальном этапе была ли потеря сознания нарушения дыхания и сердечной деятельности мышечная слабость миофибрилляция судороги; 2. Состояние накануне заболевания возраст наличие болезней...
21542. КЛИНИКА, ДИАГНОСТИКА И ТЕРАПИЯ ПОРАЖЕНИЙ ОТРАВЛЯЮЩИМИ ВЕЩЕСТВАМИ УДУШАЮЩЕГО ДЕЙСТВИЯ И АГРЕССИВНЫМИ ЖИДКОСТЯМИ 99.5 KB
  В результате развития патологического процесса в легких нарушается оксигенация крови наступает гипоксия. Распространенность и степень выраженности патологического процесса в дыхательных путях и легких определяется характером яда его концентрацией и временем действия состоянием организма и его реакцией на воздействие яда. Поражениям ОВ удушающего действия средней и тяжелой степени как правило сопутствует острая эмфизема легких которая еще в большей степени усугубляет дыхательную недостаточность и создает дополнительную нагрузку на...
21543. ОСТРЫЕ ОТРАВЛЕНИЯ ХЛОРОМ, АММИАКОМ, ГИПОКСИЧЕСКИМИ ГАЗАМИ 82.5 KB
  ОТРАВЛЕНИЯ ГИПОКСИЧЕСКИМИ ГАЗАМИ ОСТРЫЕ ОТРАВЛЕНИЯ ОКИСЬЮ УГЛЕРОДА Окись углерода встречается везде где существуют условия для неполного сгорания веществ содержащих углерод. Она входит в состав многих промышленных газов доменный генераторный коксовый; содержание окиси углерода в выхлопных газах двигателей внутреннего сгорания колеблется от 1 до 13. Окись углерода широко применяется как одно из исходных соединений в современной промышленности органического синтеза. Окись углерода СО это бесцветный газ без запаха и вкуса.
21544. ОТРАВЛЕНИЯ СПИРТАМИ (клиника, диагностика, лечение) 82 KB
  Отравления могут носить профессиональный характер и возникать вследствие нарушений правил техники безопасности приема спиртсодержащей жидкости внутрь по ошибке или преднамеренно с целью опьянения. Наиболее часто встречаются и тяжело протекают острые отравления такими веществами как этиленгликоль и его производные метиловый спирт этиловый спирт амиловый бутиловый тетрагидрофурфуриловый спирт. Острые отравления спиртсодержащими жидкостями это трудный для диагностики и сложный для лечения раздел клинической токсикологии имеющий большую...
21545. ОТРАВЛЕНИЯ ТЕХНИЧЕСКИМИ ЖИДКОСТЯМИ 211 KB
  Острые ингаляционные отравления четыреххлористым углеродом – 20 мин. Острые пероральные отравления дихлорэтаном – 10 мин. Острые отравления метиловым спиртом – 25 мин.
21546. Электропривод для швейных машин 3.38 MB
  На швейных машинах привод работает в необычно тяжёлых условиях когда в течение часа производится до 1000 пусков машины. Найдётся ли иная технологическая машина с подобным режимом работы А скорость главного вала до 9000 мин –1 Многие передачи не выдерживают таких скоростей Отсюда и специальные требования к электроприводу: Быстроходность – способность обеспечить на главном валу машины 5 – 6 103 мин –1. Плавный пуск плавная регулировка скорости машины. В автоматизируемых электроприводах имеется свыше 30 микросхем а его стоимость...
21547. Способы получения кроя 8.63 MB
  Механический способ получения кроя характеризуется разделением материала путём сдвига слоёв волокон частиц материала. Термический способ представляет разделение материала путём подвода тепла вызывающее размягчение или его сгорание. после размягчения ослабления материала его разделение довершается механическим сдвигом. В зависимости от вида инструмента различают три способа механического разделения текстильного материала: 1.
21548. Схема механизмов швейного предприятия 12.55 MB
  Машины машиныавтоматы и автоматические линии легкой промышленности М. Швейные машины: Иллюстрированное пособие. Швейные машины М. Швейные машины: Иллюстрированное пособие.
21549. Регулировки механизма челнока 4.66 MB
  I регулировка зазора между носиком челнока и иглой 005 мм – 01 мм. II – регулировка зазора между зубом установочного пальца и дном открытого паза П шпуледержателя 8 который должен составлять 06 – 08 мм рис. III – регулировка натяжения нижней нити; осуществляется поворотом регулировочного винта с большей головкой на тормозной пластине шпульного колпачка. IV – регулировка количества подаваемого в челнок масла рис.