99368

Проверка наличия зависимости между изучаемыми величинами

Лекция

Математика и математический анализ

В реальных условиях очень редко встречаются чисто функциональные зависимости, когда каждому значению одной переменной соответствует строго определенное значение другой

Русский

2016-09-10

212.47 KB

0 чел.

9

Лекция № 13

6.4. ПРОВЕРКА НАЛИЧИЯ ЗАВИСИМОСТИ МЕЖДУ ИЗУЧАЕМЫМИ ВЕЛИЧИНАМИ

Во всех областях науки исследователю приходится искать закономерности, связывающие рассматриваемые факторы друг с другом. Математическая статистика предоставляет эффективные средства для такого поиска. Они позволяют объективно оценивать наличие или отсутствие связи между сравниваемыми величинами и при подтверждении такой связи получать соответствующие эмпирические зависимости.

В реальных условиях очень редко встречаются чисто функциональные зависимости, когда каждому значению одной переменной соответствует строго определенное значение другой. Как правило, результат зависит не только от рассматриваемого фактора, но и от множества других, случайных факторов, которые могут оставаться неизвестными. Такие зависимости называются стохастическими или корреляционными. Они изображаются в виде диаграмм рассеяния, т. е. точечных графиков, в которых координатами каждой точки являются сравниваемые величины (рис. 6.3). Каждому значению одной переменной x в таких зависимостях могут соответствовать различные значения другой, т. е. зависимой переменной у, причем диапазон колебаний х (при фиксированном у) может быть различным. Если такой диапазон мал, корреляционная зависимость будет мало отличаться от функциональной (рис. 6.3а). Такую связь у с х называют тесной или говорят, что зависимость имеет малый разброс. Напротив, если этот диапазон велик, говорят о слабой связи между у и х или о большом разбросе (рис. 6.3в). Промежуточный случай (рис. 6.3б) представляет среднюю связь.

Рис. 6.3 Примеры диаграмм рассеяния, иллюстрирующие различную тесноту связи между сравниваемыми величинами х и y: а — тесная связь; б — средняя связь; в — слабая связь.

Очевидно, что разделение корреляционных связей на тесные, средние и слабые условно и в значительной мере субъективно, поэтому математическая статистика дает количественный критерий для оценки тесноты связи — коэффициент корреляции г:

где хi, yi, х̅, у̅ текущие и средние значения х и у.

Коэффициент корреляции г может принимать значения в диапазоне от —1 до +1. Положительные значения соответствуют возрастанию у от х, отрицательные — убыванию. Если коэффициент корреляции r по абсолютному значению равен 1, связь между у и х предельно тесная, т. е. не имеет разброса и является функциональной. Если же r = 0, связь между у и х вообще отсутствует, т. е. у и х являются независимыми величинами, и любая попытка их связать эмпирической формулой будет фальсификацией.

Коэффициент корреляции сам является случайной величиной, результат его расчета является частным значением, нуждающимся в статистической оценке. Иными словами, необходима проверка, действительно ли он отличается от нуля. Используется формула

где r— коэффициент корреляции, вычисленный по формуле (6.5); п — число пар(xi, yi); ta — коэффициент Стьюдента при числе степеней свободы k = п — 2.

При t < ta отличие коэффициента корреляции от нуля случайно, т. е. наличие корреляции не подтверждается.

При t > ta коэффициент корреляции с заданной вероятностью отличен от нуля, т. е. наличие корреляции подтверждается.

Если рассмотреть в качестве примера диаграмму рассеяния, представленную на рис. 5.8, коэффициент корреляции которой равен r= 0,5, то формула (6.6) дает следующую оценку его значимости:

При наличии 50 точек число степеней свободы составит 50 — 2 = 48. Согласно табл. 6.2 при таком числе степеней свободы критерий Стьюдента равен ta = 1,675, что меньше полученной величины t = 4,0.

Таким образом, соблюдается условие ttα. Коэффициент корреляции действительно отличен от нуля, т. е. наличие корреляции с вероятностью 0,95 подтверждается.

В экономических, технических науках, связанных со строительством, природообустройством, расчеты коэффициентов корреляции делаются довольно часто. Тесные корреляционные зависимости встречаются сравнительно редко, в основном экспериментатор имеет дело со слабой корреляцией или ее отсутствием. В таких ситуациях всегда приходится решать вопрос, имеется ли связь между сравниваемыми величинами, что и заставляет определять коэффициент корреляции. Это может относиться к исследованиям самого разнообразного содержания. Например, при разработке нового метода расчета несущей способности или деформируемости какой-либо конструкции приходится сравнивать получаемые результаты расчетов с результатами натурных испытаний таких конструкций (имеются в виду испытания, аналогичные показанным на рис. 5.1). Учитывая большую ответственность принимаемых в таких случаях решений, проверка должна проводиться на основе как можно большего числа натурных испытаний. Если корреляция между вычисленными и измеренными сопротивлениями конструкций оказывается очень слабой или не обнаруживается вообще, расчет не может рекомендоваться к практическому применению, требуется его доработка или полная переработка. Если же обнаруживается средняя или тесная корреляция, расчет обычно считают приемлемым (чаще всего это соответствует коэффициенту корреляции не менее 0,70...0,75). Для обеспечения безопасности проектирования в расчет вводятся необходимые снижающие коэффициенты надежности, т. е. возможные ошибки компенсируются «запасами», при которых вероятность аварийных ситуаций снижается практически до нуля, т. е. до пренебрежимо малых значений.

На рис. 6.4 приводится пример использования диаграммы рассеяния для оценки достоверности нового метода расчета. В 60-70-е годы XX в. специалисты по геотехнике в СССР решали вопрос о создании быстрого, дешевого, но достаточно надежного метода определения несущей способности свай. Был предложен метод расчета сопротивлений свай по данным так называемого статического зондирования (вдавливание в грунт специального приспособления — зонда, замеряющего сопротивления каждого слоя грунта).

Результаты расчета несущей способности свай по данным статического зондирования сравнивались с «точными» данными, т. е. результатами натурных испытаний свай статической нагрузкой.

Как видно из рис. 6.4, количество точек на диаграмме рассеяния достаточно велико (п = 503) и наличие корреляции настолько очевидно, что расчеты по формулам (6.5) и (6.6) могли бы и не проводиться. Тем не менее, расчет коэффициента корреляции был выполнен (в несколько иной, более удобной для выполнения форме, здесь не рассматриваемой) и показал, что он равен 0,75. Его проверка по формуле (6.6) показала, что t = 23,9. Это явно больше табличного значения ta = 1,64 при числе степеней свободы k = 501 (см. табл. 6.2).

В связи с получением таких результатов расчет был включен в строительные нормы СНиП и используется до настоящего времени. При этом в расчет были введены дополнительные «запасы прочности» в виде снижающих коэффициентов, учитывающих различные случайные факторы, в том числе достоверность самого расчета (±25%).

Коэффициент корреляции может отражать наличие или отсутствие зависимости между несколькими переменными (множественная корреляция). Общие идеи такого расчета те же, что и при двух переменных (x, y) так что в данном кратком обзоре нет особой необходимости в его рассмотрении.

При использовании коэффициентов корреляции необходимо иметь в виду одно ограничение: коэффициент корреляции отражает наличие не любой, а только линейной зависимости. Для выявления нелинейных зависимостей используется другой, несколько более сложный критерий — корреляционное отношение ŋyx. Оно предполагает предварительное разбиение диаграммы рассеяния на участки (группы) и определение параметров распределения в каждой группе (групповых средних и групповых дисперсий):

где ŋyx — корреляционное отношение; σy̅x— межгрупповое среднеквадратическое отклонение (т. е. среднеквадратическое отклонение групповых средних от общей средней); σ̅y— общее среднеквадратическое отклонение.

Корреляционное отношение при отсутствии связи равно 0, при функциональной связи — 1, при этом всегда r ≤ ŋyx. Таким образом, при отсутствии связи r = ŋyx = 0, но при функциональной криволинейной зависимости ŋyx = 1, а │r│ ≠ 1.

Следует отметить, что необходимость в использовании корреляционного отношения возникает относительно редко (при большом числе результатов, незначительных разбросах, при визуально очевидной криволинейности и пр.). При малом числе исходных данных, при значительном разбросе для выявления наличия корреляции, как правило, достаточно использования одного лишь коэффициента корреляции r.

6.5. ПОДБОР ЭМПИРИЧЕСКИХ ФОРМУЛ (РЕГРЕССИОННЫЙ АНАЛИЗ)

Составление диаграмм рассеяния, оценка тесноты связи между сравниваемыми величинами чаще всего являются этапом, предшествующим поиску эмпирических формул. Следующим этапом обычно является подбор аналитической функции, которая могла бы наилучшим образом отобразить искомую стохастическую зависимость. Такую функцию в математике называют аппроксимирующей, а линию, ее отображающую, — аппроксимирующей кривой. С точки же зрения общенаучной методологии это эмпирическая зависимость, потому что ее получение основывается на формально-математических операциях (см. раздел 5.4). Аппроксимирующая функция представляет основную форму выражения эмпирической зависимости, которая обычно более удобна, чем табличная форма. Исключение составляют лишь очень сложные зависимости, которые в практической деятельности удобнее использовать в форме таблиц. Процесс подбора аппроксимирующей функции представляет раздел математической статистики, называемый регрессионным анализом. Он включает две операции: сначала выбирается ее вид (форма зависимости у ™ f(x)), а затем определяются численные значения параметров выбранной функции, при которых обеспечивается наибольшее ее соответствие экспериментальным данным. Вид функции у = f(x) обычно принимается исходя из упрощенных теоретических соображений. Если их нет, принимается простейшая зависимость. Чаще всего это линейная функция типа

y = kx + b (6.8)

или

у - kx, (6.8а)

где k и b — параметры такой функции.

При нелинейной зависимости обычно используются полиномы, например

где b0, b1, bn — параметры принятого полинома.

Существует множество методов подбора параметров таких зависимостей. Самые простые предполагают визуальное построение аппроксимирующей линии («на глаз») с последующим установлением параметров уже начерченной линии (или вообще без установления параметров, т. е. с использованием полученного графика как номограммы). Несмотря на примитивность такого подхода, он может быть вполне приемлемым для зависимостей с малым разбросом (при тесной корреляции). Примером могут служить экспериментальные зависимости, представленные на рис. 6.1. Однако такие зависимости встречаются очень редко. В большинстве технических наук экспериментаторам приходится довольствоваться теснотой связи, примерно соответствующей рис. 5.8 и 6.4, для которых выбор аппроксимирующих кривых должен основываться только на статистических расчетах.

Наиболее точным методом подбора параметров аппроксимирующей функции является так называемый метод наименьших квадратов. Основная идея этого метода в том, что параметры аппроксимирующей кривой подбираются таким образом, что сумма квадратов отклонений используемых экспериментальных данных от этой кривой (по вертикали или по горизонтали) будет минимальной (рис. 6.5), т. е.

где у — текущее значение ординаты аппроксимирующей линии, соответствующее i-й точке, т. е. значение аппроксимирующей функции у = f(x) при д: = х(; yt — ордината i-й точки.

Если b0, b1, b2, ... — параметры аппроксимирующей функции у = f(x), то соблюдение условия (6.10) должно достигаться при равенстве нулю производных выражения s по каждому из этих параметров, т. е. значения параметров могут быть найдены из решения системы уравнений

Для линейной функции требуется нахождение лишь двух параметров k и b или даже одного k (см. формулы (6.8) и (6.8а)).

Подбор параметров аппроксимирующей функции представляет довольно сложную, громоздкую процедуру, поэтому такие операции выполняются, как правило, с помощью компьютерных программ. Для простейших случаев получены готовые формулы, позволяющие сразу получать аппроксимирующую функцию у=f(x) по параметрам распределения исходных данных. Так, для линейных зависимостей метод наименьших квадратов дает следующую формулу:

где х̅, у̅ — средние значения xi и уi

п — число пар (xi, yi), т. е. число точек на диаграмме рассеяния; r— коэффициент корреляции, определяемый по формуле (6.5).

В рассмотренном выше случае предполагалось, что известной величиной является x, а искомой у. Полученная для такого случая формула (6.12) называется уравнением регрессии у на х. Однако возможен и другой вариант связи у с х, когда определяется х по известному значению у. Такой случай называется регрессией х на у. Формула для него может быть получена таким же способом, но в качестве ∆i, следует рассматривать отклонения не по оси у, а по оси х, т. е. сумма ∑(уi - у)2 в выражении (6.10) заменяется на ∑(xi-x) 2. На рис. 6.3 это отклонения в горизонтальном направлении. Уравнение регрессии л- на у при линейной зависимости будет иметь вид

где обозначения те же, что и в формуле (6.12).

В отличие от детерминированных (функциональных) зависимостей, которые, будучи решенными относительно у или х, остаются одинаковыми, стохастические (корреляционные) зависимости оказываются в этих случаях разными, их угловые коэффициенты будут различаться. Это видно из рассмотрения уравнений (6.12) и (6.13), которые нельзя вывести одно из другого простым алгебраическим преобразованием.


 

А также другие работы, которые могут Вас заинтересовать

79376. Основные причины вынужденного автономного существования 49 KB
  Нахождение человека в сложных условиях изолированности когда ограничена или исключена вероятность помощи и возможность использования технических и других достижений. Основные причины вынужденного автономного существования АС в природных условиях схему...
79377. Автономное существование человека в условиях природной среды 57 KB
  Способствующие: хорошее здоровье, высокие морально-волевые качества, психофизиологическая устойчивость организма, наличие средств для жизнедеятельности в экстремальных условиях (одежда, снаряжение водно-пищевой запас), подготовленность к действиям в экстремальных условиях.
79378. Комп’ютери бувають різні 66.5 KB
  Мета: сформувати уявлення про види комп’ютерів; розглянути види комп’ютерів та сфери їх застосування; повторити правила безпечної роботи та поведінки в комп’ютерному класі правила вибору переміщення об’єктів; вчити робити висновки узагальнення доводити власну думку...
79379. ПРАВИЛА БЕЗОПАСНОГО ПОВЕДЕНИЯ В СИТУАЦИЯХ КРИМИНОГЕННОГО ХАРАКТЕРА 36.5 KB
  Не держите деньги в карманах в которые легко проникнуть вору. Ключи и кошелек храните во внутренних карманах При выходе из дома в темное время суток избегайте малолюдных и плохо освещенных мест пустынных парков и скверов; на улице держитесь подальше от стен домов.
79380. Относительное позиционирование 85.5 KB
  Смещение в этом случае будет происходить не относительно «родительского» элемента (как при абсолютном позиционировании), а относительно самого блока в нормальном потоке. Это будет понятнее на примере. Пусть у нас есть html-страница с тремя div-ами...
79381. УГОЛОВНАЯ ОТВЕСТВЕННОСТЬ НЕСОВЕРШЕННОЛЕТНИХ. ПОНЯТИЕ ПРСТУПЛЕНИЯ. ОСОБЕННОСТИ УГОЛОВНОЙ ОТВЕТСТВЕННОСТИ НЕСОВЕРШЕННОЛЕТНИХ 16.78 KB
  Лишение свободы на определенный срок в возрасте до 16 лет на срок до 6 лет. Если за особо тяжкое преступления с санкцией до 10 лет несовершеннолетним назначается отбытие в воспитательных колониях. М.Б. наказание в виде лишения свободы и за небольшой и средней тяжести преступления, есл преступления совершены впервые.
79382. УГОЛОВНАЯ ОТВЕСТВЕННОСТЬ ЗА ХУЛИГАНСТВО, ВАНДАЛИЗМ, НАДРУГАТЕЛЬСТВО, ЗА ПРИВЕДЕНИЕ В НЕГОДНОСТЬ ТРАНСПОРТНЫХ СРЕДСТВ 19.16 KB
  Грубое нарушение общественного порядка: действия причинившие существенный ущерб личным или общественным интересам либо выразившееся в злостном нарушении общественной нравственности Примеры: срыв общественного мероприятия нарушение покоя и отдыха граждан в ночное время распитие спиртных...
79383. ПРАВИЛА ПОВЕДЕНИЯ В УСЛОВИЯХ ЧС ПРИРОДНОГО И ТЕХНОГЕННОГО ХАРАКТЕРА 55 KB
  Способы оповещения и управления эвакуацией людей при пожаре: подачей звуковых и или световых сигналов во все помещения здания с постоянным или временным пребыванием людей; трансляцией текстов директор школы зам. директора о необходимости эвакуации путях эвакуации направлении...