99368

Проверка наличия зависимости между изучаемыми величинами

Лекция

Математика и математический анализ

В реальных условиях очень редко встречаются чисто функциональные зависимости, когда каждому значению одной переменной соответствует строго определенное значение другой

Русский

2016-09-10

212.47 KB

0 чел.

9

Лекция № 13

6.4. ПРОВЕРКА НАЛИЧИЯ ЗАВИСИМОСТИ МЕЖДУ ИЗУЧАЕМЫМИ ВЕЛИЧИНАМИ

Во всех областях науки исследователю приходится искать закономерности, связывающие рассматриваемые факторы друг с другом. Математическая статистика предоставляет эффективные средства для такого поиска. Они позволяют объективно оценивать наличие или отсутствие связи между сравниваемыми величинами и при подтверждении такой связи получать соответствующие эмпирические зависимости.

В реальных условиях очень редко встречаются чисто функциональные зависимости, когда каждому значению одной переменной соответствует строго определенное значение другой. Как правило, результат зависит не только от рассматриваемого фактора, но и от множества других, случайных факторов, которые могут оставаться неизвестными. Такие зависимости называются стохастическими или корреляционными. Они изображаются в виде диаграмм рассеяния, т. е. точечных графиков, в которых координатами каждой точки являются сравниваемые величины (рис. 6.3). Каждому значению одной переменной x в таких зависимостях могут соответствовать различные значения другой, т. е. зависимой переменной у, причем диапазон колебаний х (при фиксированном у) может быть различным. Если такой диапазон мал, корреляционная зависимость будет мало отличаться от функциональной (рис. 6.3а). Такую связь у с х называют тесной или говорят, что зависимость имеет малый разброс. Напротив, если этот диапазон велик, говорят о слабой связи между у и х или о большом разбросе (рис. 6.3в). Промежуточный случай (рис. 6.3б) представляет среднюю связь.

Рис. 6.3 Примеры диаграмм рассеяния, иллюстрирующие различную тесноту связи между сравниваемыми величинами х и y: а — тесная связь; б — средняя связь; в — слабая связь.

Очевидно, что разделение корреляционных связей на тесные, средние и слабые условно и в значительной мере субъективно, поэтому математическая статистика дает количественный критерий для оценки тесноты связи — коэффициент корреляции г:

где хi, yi, х̅, у̅ текущие и средние значения х и у.

Коэффициент корреляции г может принимать значения в диапазоне от —1 до +1. Положительные значения соответствуют возрастанию у от х, отрицательные — убыванию. Если коэффициент корреляции r по абсолютному значению равен 1, связь между у и х предельно тесная, т. е. не имеет разброса и является функциональной. Если же r = 0, связь между у и х вообще отсутствует, т. е. у и х являются независимыми величинами, и любая попытка их связать эмпирической формулой будет фальсификацией.

Коэффициент корреляции сам является случайной величиной, результат его расчета является частным значением, нуждающимся в статистической оценке. Иными словами, необходима проверка, действительно ли он отличается от нуля. Используется формула

где r— коэффициент корреляции, вычисленный по формуле (6.5); п — число пар(xi, yi); ta — коэффициент Стьюдента при числе степеней свободы k = п — 2.

При t < ta отличие коэффициента корреляции от нуля случайно, т. е. наличие корреляции не подтверждается.

При t > ta коэффициент корреляции с заданной вероятностью отличен от нуля, т. е. наличие корреляции подтверждается.

Если рассмотреть в качестве примера диаграмму рассеяния, представленную на рис. 5.8, коэффициент корреляции которой равен r= 0,5, то формула (6.6) дает следующую оценку его значимости:

При наличии 50 точек число степеней свободы составит 50 — 2 = 48. Согласно табл. 6.2 при таком числе степеней свободы критерий Стьюдента равен ta = 1,675, что меньше полученной величины t = 4,0.

Таким образом, соблюдается условие ttα. Коэффициент корреляции действительно отличен от нуля, т. е. наличие корреляции с вероятностью 0,95 подтверждается.

В экономических, технических науках, связанных со строительством, природообустройством, расчеты коэффициентов корреляции делаются довольно часто. Тесные корреляционные зависимости встречаются сравнительно редко, в основном экспериментатор имеет дело со слабой корреляцией или ее отсутствием. В таких ситуациях всегда приходится решать вопрос, имеется ли связь между сравниваемыми величинами, что и заставляет определять коэффициент корреляции. Это может относиться к исследованиям самого разнообразного содержания. Например, при разработке нового метода расчета несущей способности или деформируемости какой-либо конструкции приходится сравнивать получаемые результаты расчетов с результатами натурных испытаний таких конструкций (имеются в виду испытания, аналогичные показанным на рис. 5.1). Учитывая большую ответственность принимаемых в таких случаях решений, проверка должна проводиться на основе как можно большего числа натурных испытаний. Если корреляция между вычисленными и измеренными сопротивлениями конструкций оказывается очень слабой или не обнаруживается вообще, расчет не может рекомендоваться к практическому применению, требуется его доработка или полная переработка. Если же обнаруживается средняя или тесная корреляция, расчет обычно считают приемлемым (чаще всего это соответствует коэффициенту корреляции не менее 0,70...0,75). Для обеспечения безопасности проектирования в расчет вводятся необходимые снижающие коэффициенты надежности, т. е. возможные ошибки компенсируются «запасами», при которых вероятность аварийных ситуаций снижается практически до нуля, т. е. до пренебрежимо малых значений.

На рис. 6.4 приводится пример использования диаграммы рассеяния для оценки достоверности нового метода расчета. В 60-70-е годы XX в. специалисты по геотехнике в СССР решали вопрос о создании быстрого, дешевого, но достаточно надежного метода определения несущей способности свай. Был предложен метод расчета сопротивлений свай по данным так называемого статического зондирования (вдавливание в грунт специального приспособления — зонда, замеряющего сопротивления каждого слоя грунта).

Результаты расчета несущей способности свай по данным статического зондирования сравнивались с «точными» данными, т. е. результатами натурных испытаний свай статической нагрузкой.

Как видно из рис. 6.4, количество точек на диаграмме рассеяния достаточно велико (п = 503) и наличие корреляции настолько очевидно, что расчеты по формулам (6.5) и (6.6) могли бы и не проводиться. Тем не менее, расчет коэффициента корреляции был выполнен (в несколько иной, более удобной для выполнения форме, здесь не рассматриваемой) и показал, что он равен 0,75. Его проверка по формуле (6.6) показала, что t = 23,9. Это явно больше табличного значения ta = 1,64 при числе степеней свободы k = 501 (см. табл. 6.2).

В связи с получением таких результатов расчет был включен в строительные нормы СНиП и используется до настоящего времени. При этом в расчет были введены дополнительные «запасы прочности» в виде снижающих коэффициентов, учитывающих различные случайные факторы, в том числе достоверность самого расчета (±25%).

Коэффициент корреляции может отражать наличие или отсутствие зависимости между несколькими переменными (множественная корреляция). Общие идеи такого расчета те же, что и при двух переменных (x, y) так что в данном кратком обзоре нет особой необходимости в его рассмотрении.

При использовании коэффициентов корреляции необходимо иметь в виду одно ограничение: коэффициент корреляции отражает наличие не любой, а только линейной зависимости. Для выявления нелинейных зависимостей используется другой, несколько более сложный критерий — корреляционное отношение ŋyx. Оно предполагает предварительное разбиение диаграммы рассеяния на участки (группы) и определение параметров распределения в каждой группе (групповых средних и групповых дисперсий):

где ŋyx — корреляционное отношение; σy̅x— межгрупповое среднеквадратическое отклонение (т. е. среднеквадратическое отклонение групповых средних от общей средней); σ̅y— общее среднеквадратическое отклонение.

Корреляционное отношение при отсутствии связи равно 0, при функциональной связи — 1, при этом всегда r ≤ ŋyx. Таким образом, при отсутствии связи r = ŋyx = 0, но при функциональной криволинейной зависимости ŋyx = 1, а │r│ ≠ 1.

Следует отметить, что необходимость в использовании корреляционного отношения возникает относительно редко (при большом числе результатов, незначительных разбросах, при визуально очевидной криволинейности и пр.). При малом числе исходных данных, при значительном разбросе для выявления наличия корреляции, как правило, достаточно использования одного лишь коэффициента корреляции r.

6.5. ПОДБОР ЭМПИРИЧЕСКИХ ФОРМУЛ (РЕГРЕССИОННЫЙ АНАЛИЗ)

Составление диаграмм рассеяния, оценка тесноты связи между сравниваемыми величинами чаще всего являются этапом, предшествующим поиску эмпирических формул. Следующим этапом обычно является подбор аналитической функции, которая могла бы наилучшим образом отобразить искомую стохастическую зависимость. Такую функцию в математике называют аппроксимирующей, а линию, ее отображающую, — аппроксимирующей кривой. С точки же зрения общенаучной методологии это эмпирическая зависимость, потому что ее получение основывается на формально-математических операциях (см. раздел 5.4). Аппроксимирующая функция представляет основную форму выражения эмпирической зависимости, которая обычно более удобна, чем табличная форма. Исключение составляют лишь очень сложные зависимости, которые в практической деятельности удобнее использовать в форме таблиц. Процесс подбора аппроксимирующей функции представляет раздел математической статистики, называемый регрессионным анализом. Он включает две операции: сначала выбирается ее вид (форма зависимости у ™ f(x)), а затем определяются численные значения параметров выбранной функции, при которых обеспечивается наибольшее ее соответствие экспериментальным данным. Вид функции у = f(x) обычно принимается исходя из упрощенных теоретических соображений. Если их нет, принимается простейшая зависимость. Чаще всего это линейная функция типа

y = kx + b (6.8)

или

у - kx, (6.8а)

где k и b — параметры такой функции.

При нелинейной зависимости обычно используются полиномы, например

где b0, b1, bn — параметры принятого полинома.

Существует множество методов подбора параметров таких зависимостей. Самые простые предполагают визуальное построение аппроксимирующей линии («на глаз») с последующим установлением параметров уже начерченной линии (или вообще без установления параметров, т. е. с использованием полученного графика как номограммы). Несмотря на примитивность такого подхода, он может быть вполне приемлемым для зависимостей с малым разбросом (при тесной корреляции). Примером могут служить экспериментальные зависимости, представленные на рис. 6.1. Однако такие зависимости встречаются очень редко. В большинстве технических наук экспериментаторам приходится довольствоваться теснотой связи, примерно соответствующей рис. 5.8 и 6.4, для которых выбор аппроксимирующих кривых должен основываться только на статистических расчетах.

Наиболее точным методом подбора параметров аппроксимирующей функции является так называемый метод наименьших квадратов. Основная идея этого метода в том, что параметры аппроксимирующей кривой подбираются таким образом, что сумма квадратов отклонений используемых экспериментальных данных от этой кривой (по вертикали или по горизонтали) будет минимальной (рис. 6.5), т. е.

где у — текущее значение ординаты аппроксимирующей линии, соответствующее i-й точке, т. е. значение аппроксимирующей функции у = f(x) при д: = х(; yt — ордината i-й точки.

Если b0, b1, b2, ... — параметры аппроксимирующей функции у = f(x), то соблюдение условия (6.10) должно достигаться при равенстве нулю производных выражения s по каждому из этих параметров, т. е. значения параметров могут быть найдены из решения системы уравнений

Для линейной функции требуется нахождение лишь двух параметров k и b или даже одного k (см. формулы (6.8) и (6.8а)).

Подбор параметров аппроксимирующей функции представляет довольно сложную, громоздкую процедуру, поэтому такие операции выполняются, как правило, с помощью компьютерных программ. Для простейших случаев получены готовые формулы, позволяющие сразу получать аппроксимирующую функцию у=f(x) по параметрам распределения исходных данных. Так, для линейных зависимостей метод наименьших квадратов дает следующую формулу:

где х̅, у̅ — средние значения xi и уi

п — число пар (xi, yi), т. е. число точек на диаграмме рассеяния; r— коэффициент корреляции, определяемый по формуле (6.5).

В рассмотренном выше случае предполагалось, что известной величиной является x, а искомой у. Полученная для такого случая формула (6.12) называется уравнением регрессии у на х. Однако возможен и другой вариант связи у с х, когда определяется х по известному значению у. Такой случай называется регрессией х на у. Формула для него может быть получена таким же способом, но в качестве ∆i, следует рассматривать отклонения не по оси у, а по оси х, т. е. сумма ∑(уi - у)2 в выражении (6.10) заменяется на ∑(xi-x) 2. На рис. 6.3 это отклонения в горизонтальном направлении. Уравнение регрессии л- на у при линейной зависимости будет иметь вид

где обозначения те же, что и в формуле (6.12).

В отличие от детерминированных (функциональных) зависимостей, которые, будучи решенными относительно у или х, остаются одинаковыми, стохастические (корреляционные) зависимости оказываются в этих случаях разными, их угловые коэффициенты будут различаться. Это видно из рассмотрения уравнений (6.12) и (6.13), которые нельзя вывести одно из другого простым алгебраическим преобразованием.


 

А также другие работы, которые могут Вас заинтересовать

75942. Особенности политических конфликтов в России. Характеристика общего кризиса власти 1992-1993 годах 22.78 KB
  Характеристика общего кризиса власти 1992-1993 гг. Содержание политических конфликтов в отдельной стране зависит от структурных и функциональных характеристик политической власти потребностей политического развития общества состояния идеологии традиций и опыта политической борьбы особенностей политической культуры. Ряд особенностей российской конфликтности тесно связан с элементами византийского влияния откуда берет свое начало российское самодержавие как устойчивая форма ярко выраженной централизованной власти. Характеристика общего...
75943. Осуществление процесса приватизации, дискуссии вокруг этого явления 22.82 KB
  Если пакет Филиппова был ориентирован на сочетание различных форм приватизации инвестиционные вклады продажа акций госпредприятий конкурсы аукционы частичный выкуп и др. в течение 56 лет то пакет Малея значительно более жестко и детерминированно отдавал приоритет коллективной форме приватизации через т. Хронология: Первый этап или доваучерный 19891990 Выкуп арендного имущества; Создание национальных холдингов и спонтанной приватизации; Официальная идеология периода перестройки предполагала постепенное длительное преобразование...
75944. Первая и вторая чеченские компании: сравнительный анализ 18.39 KB
  Чеченский вооруженный конфликт 19941996 годах военные действия между российскими федеральными войсками силами и вооруженными формированиями Чеченской Республики Ичкерии созданными в нарушение законодательства РФ. В сентябре 1999 года началась новая фаза чеченской военной кампании которая получила название контр-террористической операции на Северном Кавказе. Вооруженный конфликт в 19941996 годах первая чеченская война Чеченский вооруженный конфликт 19941996 годах военные действия между российскими федеральными войсками силами и...
75945. Политическая борьба за «ельцинское наследство». Думские выборы 1999 года и их итоги 30.09 KB
  Главный сюжет предвыборной борьбы схватка между двумя партиями власти ОВР и Единством завершается весьма печально для сторонников Лужкова и Примакова. Привычка к атмосфере советского номенклатурного чинопочитания сыграла с лидерами ОВР злую шутку. Дело дошло до того что в Кремле задумались: как после столь сокрушительных побед в предвыборной игре Замочи Лужка удастся наладить отношения с новой Думой в которой как ожидается будут доминировать коммунисты о союзнических отношениях которых с ОВР так много пишет прокремлевская пресса в...
75946. Политические партии в РФ в конце 20 века 18.17 KB
  Политические партии в России в конце 20 в. Стратегическая цель партии построение в России обновленного социализма социализма XXI века. Женщины России. Политическая ориентация фракции умеренный либерализм развитие межнациональных отношений поддержка социальных программ государства сохранение территориальной целостности России поддержка Правительства и Президента России.
75947. Практика осуществления принципа свободы слова в РФ. Политика в сфере СМИ и коммуникаций 16.51 KB
  К сожалению на современном этапе развития российского общества проблема ответственности средств массовой информации приобрела особое значение. В существующих условиях обострения политической борьбы сложных межнациональных отношений деградации нравственных ценностей дестабилизация социально-политической обстановки в стране инициирование недовольства населения действиями государственных органов и органов местного самоуправления негативное воздействие...
75949. Президентская избирательная компания 1996 года: ход, особенности, последствия 29.75 KB
  Выборы президента России были назначены на 16 июня 1996 года в соответствии с переходными положениями Конституции России и в связи с истечением срока полномочий Президента России-Бориса. Ельцина избранного в 1991 году президентом России РСФСР. Единственные на 2013 год президентские выборы в России где для определения победителя потребовалось два тура. Основными конкурентами считались действующий Президент России Б.
75950. Причины и стадии экономического роста в РФ в начале ХХI века 15.21 KB
  В это время начался рост производства вызванный последствиями дефолта в результате которого возросли цены в рублях на импортные изделия и появился стимул к замещению импорта наращиванием товаров отечественного производства. Росту производства в России помог также рост мировых цен на нефть и газ достигших в конце 2007 г. Вместе с тем этот этап экономического развития России всё ещё характеризовался недостаточной стабильностью роста производства особенно в промышленности чрезмерной зависимостью от мировых цен на сырьё недостаточной...