17628

Сложности и проблемы, связанные с множественной регрессией

Лекция

Экономическая теория и математическое моделирование

Тема: Сложности и проблемы связанные с множественной регрессией К сожалению на практике множественная регрессия не всегда позволяет получить результаты о которых пишут в учебниках. В этой лекции приведен перечень потенциальных проблем и некоторые соображения п

Русский

2013-07-05

62 KB

3 чел.

Тема: «Сложности и проблемы, связанные с множественной регрессией»

К сожалению, на практике множественная регрессия не всегда позволяет получить результаты, о которых пишут в учебниках. В этой лекции приведен перечень потенциальных проблем и некоторые соображения по поводу того, как с ними справиться (в тех случаях, когда это возможно).

Существуют три основные разновидности проблем. Ниже приведен краткий обзор каждой из этих разновидностей, а затем следует более подробное их описание.

  1.  Проблема мультиколлинеарности возникает в тех случаях, когда некоторые из ваших объясняющих переменных (X) оказываются слишком схожими. Несмотря на то что эти переменные могут хорошо пояснять и прогнозировать У (на что указывают высокое значение R2 и значимый F-тест), отдельные коэффициенты регрессии плохо поддаются оценке. Это связано с тем, что мы не располагаем достаточной информацией, чтобы решить, какая (или какие) из переменных обеспечивает это объяснение. Одно из возможных решений состоит в том, чтобы удалить из уравнения некоторые из переменных с целью избавиться от сомнений. Другое решение заключается в том, чтобы переопределить какие-то из переменных (возможно, путем деления), чтобы отличать одну переменную от другой.
  2.  Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных объясняющих (независимых) Х- переменных и необходимо решить, какие из этих переменных следует включать в уравнение регрессии. С одной стороны, если у вас слишком много Х- переменных, лишние из них будут снижать качество результатов (возможно,  по причине все той же мультиколлинеарности). Часть информации, содержащейся в данных, понапрасну расходуется на оценивание ненужных параметров. С другой стороны, если отбросить нужную Х- переменную, снизится качество прогнозов, поскольку вы проигнорируете полезную информацию. Одно из возможных решений состоит в том,   чтобы   хорошенько   подумать,    почему   важна   та   или   иная   X- переменная, чтобы быть уверенным в том, что каждая включаемая в рассмотрение переменная действительно выполняет важную функцию. Другой подход заключается в том, чтобы воспользоваться автоматической процедурой, которая старается отобрать наиболее важные переменные.
  3.  Проблема неправильного выбора модели связана с множеством различных потенциальных несоответствий между вашей конкретной задачей и моделью множественной линейной регрессии, которая является фундаментом и каркасом множественного линейного регрессионного анализа. Может получиться так, что ваша конкретная задача не соответствует условиям и допущениям модели линейной множественной регрессии. Анализируя данные, вы можете выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющихся значений. Однако даже наличие подобных проблем еще ни о чем не говорит.  Несмотря  на то, что  гистограммы  некоторых  переменных  могут быть сильно скошенными (несимметричными), а некоторые диаграммы рассеяния могут быть нелинейными, модель множественной линейной регрессии и в таких случаях вполне может быть применима. Существует так называемая диагностическая диаграмма, которая помогает понять, действительно ли обнаруженная проблема является настолько серьезной, что ее необходимо как-то решать. Один из возможных вариантов решений заключается в создании новых Х- переменных, которые формируются на основе существующих переменных, и/или преобразовании некоторых или всех этих переменных. Еще одна серьезная проблема возникает в случае, когда приходится иметь дело с временным рядом, применительно к которому допущение модели линейной множественной регрессии о независимости отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выполнить, используя вместо исходных данных процентные изменения между различными временными периодами.

Мультиколлинеарность: не слишком ли схожи между собой объясняющие переменные?

Когда какие-то из объясняющих Х- переменных слишком схожи между собой, у вас может возникнуть проблема мультиколлинеарности, поскольку множественная регрессия не в состоянии отличить влияние одной переменной от влияния другой переменной. Последствия мультиколлинеарности могут быть статистическими или вычислительными.

1. Статистические последствия  мультиколлинеарности  связаны с трудностями  проведения  статистических  тестов для  отдельных коэффициентов регрессии вследствие увеличения стандартных ошибок. Результатом может быть невозможность объявить ту или иную Х- переменную значимой даже в том случае, если эта переменная (сама по себе) имеет сильную взаимосвязь с У.

2. Вычислительные  последствия  мультиколлинеарности  связаны  с трудностями в организации вычислений на компьютере, вызванными "неустойчивостью  вычислений".  В  крайних случаях  компьютер  может пытаться выполнить деление на нуль и, таким образом, неудачно завершить анализ данных.  Хуже того,  компьютер может завершить анализ  и выдать бессмысленные и неверные результаты. Деление на нуль невозможно с математической точки зрения: например, результат выполнения 5/0 является неопределенным. Однако из-за небольших ошибок округления в процессе вычислений компьютер может разделить не 5 на 0, а 5,0000000000968 на 0,0000000000327. В этом случае, вместо того чтобы остановиться и сообщить об ошибке, компьютер использует в дальнейших вычислениях бессмысленный и огромный результат такого деления: 152 905 198 779,72.

Мультиколлинеарность может порождать проблемы, а может и не порождать их, – все зависит от конкретных целей выполняемого вами анализа и степени мультиколлинеарности. Небольшая или средняя мультиколлинеарность обычно не  представляет  проблемы.   Очень  сильная  мультиколлинеарность (например, включение одной и той же переменной дважды) всегда будет представлять проблему и может приводить к серьезным ошибкам (вычислительные последствия). К счастью, если вашей целью является в основном предсказание или прогнозирование У, сильная мультиколлинеарность может не представлять серьезного препятствия, поскольку качественная программа множественной регрессии может и в этом случае делать оптимальные прогнозы У (по методу наименьших квадратов), основанные на всех Х- переменных. Однако если вы хотите использовать индивидуальные коэффициенты регрессии для выяснения того, как каждая из Х- переменных влияет на У, то статистические последствия мультиколлинеарности, по-видимому, вызовут определенные проблемы, ввиду того что эти влияния невозможно отделить друг от друга. В табл. 1 подытоживается влияние мультиколлинеарности на результаты регрессионного анализа.

Таблица 1. Влияние мультиколлинеарности на регрессию

Степень мультиколлинеарности

Влияние на регрессионный анализ

Незначительная

Вообще не представляет проблемы

Средняя

Как правило, не представляет проблем ы

Сильная

Статистические последствия: зачастую представляет собой проблему, если требуется оценить влияние отдельных Х- переменных (т.е. коэффициенты регрессии); может не представлять проблемы, если цель заключается в предсказании или прогнозировании У

Чрезвычайно сильная

Численные последствия: всегда представляет собой проблему; компьютерные вычисления могут даже оказаться неправильными из-за неустойчивости вычислений

 

Как выяснить, действительно ли существует проблема мультиколлинеарности? Один из простейших способов ответить на этот вопрос заключается в анализе обычных двумерных корреляций для каждой пары переменных. Корреляционная матрица представляет собой таблицу, которая содержит коэффициенты корреляции для каждой пары переменных из вашей многомерной совокупности данных. Чем выше коэффициент корреляции между двумя Х- переменными, тем больше мультиколлинеарность. Это объясняется тем, что высокая корреляция (близкая к 1 или -1) указывает на сильную связь и свидетельствует о том, что эти две Х- переменные измеряют очень схожие характеристики, привнося тем самым в анализ "пересекающуюся" информацию.

Основной статистический результат мультиколлинеарности заключается в росте стандартных ошибок некоторых или всех коэффициентов регрессии (). Это вполне естественно: если две Х- переменные содержат "пересекающуюся" информацию, трудно определить влияние каждой из них в отдельности. Высокое значение стандартной ошибки приводит к тому, что компьютер сообщает вам приблизительно следующее: "Я вычислил для вас коэффициент регрессии, но результат неточный, поскольку трудно сказать, эта или какая другая переменная является определяющей". В результате доверительные интервалы для соответствующих коэффициентов регрессии значительно расширяются, а t-тесты вряд ли будут значимыми.

В случае сильной мультиколлинеарности может оказаться, что регрессия очень высоко значима (исходя из результатов F-теста), однако ни один из t-тестов для отдельных Х- переменных значимым не является. Компьютер сообщает вам о том, что Х- переменные, рассматриваемые как единая группа, весьма сильно влияют на У, но практически невозможно определить важность какой-то конкретной переменной. Следует помнить, что t-тест для конкретной X- переменной измеряет ее влияние на У при условии, что значения других переменных остаются неизменными. Таким образом, t-тест для переменной Xi выявляет только дополнительную информацию, привнесенную переменной Xi помимо той информации, которую несут другие Х- переменные. Если какая-то другая переменная очень близка к Xi, тогда переменная Xi не привносит в регрессию значимо новую информацию.

Одно из решений заключается в том, чтобы проигнорировать те X- переменные, которые дублируют информацию, уже присутствующую в других Х- переменных. Если, например, ваши Х- переменные включают три различные измерения размера, попробуйте либо избавиться от двух из них, либо объединить все три переменные в единую меру размера (например, воспользовавшись их средним значением).

Другое решение заключается в том, чтобы переопределить некоторые из переменных с тем, чтобы каждая из Х- переменных выполняла четкую, присущую только ей одной роль в определении У. Распространенный способ применения этой идеи к группе близких друг к другу Х- переменных заключается в том, чтобы взять для представления этой группы одну Х- переменную (можно либо выбрать одну из этих Х- переменных, либо сформировать из них индекс) и представить остальные переменные как относительные показатели (например, величина на единицу другого показателя), построенные из этой представляющей X- переменной. Например, можно представлять зависимость размера объема продаж (У) с помощью численности населения (X1) и общего дохода 2) для каждого региона. Однако эти переменные являются мультиколлинеарными (т.е. численность населения и общий доход — высоко коррелированные величины). Эту проблему можно решить, объясняя объем продаж (Y) с помощью численности населения (X1) и размера дохода на одного человека (новая переменная Х2). В результате численность населения будет выполнять роль представляющей переменной, отражая общую величину территории, а доход, вместо того чтобы повторять уже известную нам информацию (о величине соответствующей территории), переопределяется и несет новую информацию (о благосостоянии людей).

Выбор переменной: может быть, мы пользуемся "не теми" переменными?

Результаты статистического анализа в значительной мере зависят от имеющейся информации, т.е. от использованных для анализа данных. В частности, особое внимание следует обратить на выбор независимых ("объясняющих") X- переменных для множественного регрессионного анализа. Включение как можно большего числа Х- переменных "просто так, на всякий случай" или потому, что "создается впечатление, будто каждая из них как-то влияет на У" — далеко не лучшее решение. Поступая таким образом, вы обрекаете себя на возможные трудности при определении значимости для регрессии (F-тест), или – вследствие мультиколлинеарности, вызванной наличием избыточных переменных, — у вас могут возникнуть трудности при решении вопроса о значимости для некоторых отдельных коэффициентов регрессии.

Что происходит, когда вы включаете одну лишнюю, неуместную X-переменную? Значение R2 в этом случае окажется несколько большим, так как несколько большую долю У можно объяснить за счет случайности этой новой переменной. Однако F-тест значимости регрессии учитывает это увеличение, поэтому такое увеличение R2 нельзя считать преимуществом.

На самом деле включение дополнительной Х- переменной может принести небольшой или даже умеренный вред. Оценка того или иного неуместного параметра (в данном случае неуместного коэффициента регрессии) оставляет меньше информации для стандартной ошибки оценки, Se. По техническим причинам следствием этого является менее мощный F-тест, который может не обнаружить значимость даже в том случае, когда Х- переменные в генеральной совокупности на самом деле объясняют У.

А что произойдет в случае, когда вы проигнорируете необходимую Х- переменную? В результате из совокупности данных выпадет важная и полезная информация и ваше прогнозирование У будет менее точным, чем в случае использования этой Х- переменной. Стандартная ошибка оценки, Se,, в этом случае, как правило, оказывается больше (что указывает на большие ошибки прогнозирования), а R2, как правило, оказывается меньшим (что указывает на объяснение меньшей доли вариации У). Естественно, если вы проигнорируете критически важную X- переменную, то, возможно, F-тест для этой регрессии просто будет незначим.

Ваша задача в данном случае – включить ровно столько Х- переменных, сколько нужно (т.е. не слишком много и не слишком мало), причем включить именно те Х- переменные, которые необходимы. Если у вас есть сомнения, можно включить некоторые из Х- переменных, относительно которых вы не уверены. В таком случае полезен субъективный метод (основанный на приоритетном перечне X- переменных). Существует также множество различных автоматических методов.

Классификация перечня Х- переменных по приоритетам

Хороший способ определить круг важных Х- переменных заключается в том, чтобы внимательно проанализировать решаемую задачу, имеющиеся данные и цели, которых вы хотите добиться. Затем необходимо составить список Х- переменных, классифицированных по приоритетам. Сделать это можно следующим образом.

  1.  Выберите переменную У, которую вам необходимое объяснить, понять или прогнозировать.
  2.  Выберите Х- переменную,  которая,  как вам кажется,  является наиболее важной в определении или объяснении У. Если это вызывает у вас затруднения,  поскольку все Х- переменные кажутся вам одинаково важными, примите волевое решение.
  3.  Выберите самую важную среди оставшихся Х- переменных, задав себе вопрос: "Принимая во внимание первую переменную, какая из оставшихся
    Х- переменных несет больше новой информации, объясняющей поведение
    переменной
    У?"
  4.  Продолжайте выбирать по этому принципу самые важные из оставшихся Х- переменных до тех пор, пока не классифицируете по приоритетам весь перечень Х- переменных. На каждой стадии задавайте себе вопрос: "Принимая во внимание уже отобранные Х- переменные, какая из оставшихся Х- переменных несет больше новой информации, объясняющей поведение переменной У?"

Затем вычислите регрессию, используя лишь те Х- переменные из составленного вами списка, которые кажутся вам важнейшими. Вычислите еще несколько регрессий, включая в свой анализ некоторые из оставшихся Х- переменных (или все эти переменные), и выясните, действительно ли они влияют на прогнозирование переменной У. Наконец, выберите тот результат регрессии, который кажется вам наиболее полезным.

Несмотря на то, что описанная процедура выглядит достаточно субъективной (поскольку зависит в основном от вашего субъективного мнения), ей присущи два важных преимущества. Во-первых, когда необходимо сделать выбор между двумя Х- переменными, которые практически одинаково объясняют поведение переменной У, окончательный выбор остается за вами (автоматизированная процедура может в этом случае сделать менее содержательный выбор). Во-вторых, тщательно классифицировав по приоритетам свои независимые Х- переменные, вы можете глубже разобраться в исследуемой ситуации. Такое прояснение решаемой задачи может оказаться не менее полезным, чем результаты множественной регрессии!

Проблема неправильного выбора модели.

Прежде всего, следует помнить, что масса серьезных проблем возникает в случае, когда приходится иметь дело с временным, а не с одновременно срезанными, наборами данных, применительно к которому допущения стандартной модели линейной множественной регрессии о независимости отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выполнить, используя вместо исходных данных процентные изменения между различными временными периодами.


 

А также другие работы, которые могут Вас заинтересовать

46511. Перестройка в СССР (1985 - 1991) 18.13 KB
  Перестройка период в истории СССР в ходе которого произошли кардинальные преобразования в жизни советского общества результатом которых стал отказ от социалистического пути развития и распад СССР. Перестройка в СССР тесно связана с деятельностью М. XXVII съезд КПСС поставил перед страной беспрецедентную и почти нереальную задачу только за 15 лет 1986 2000 построить в СССР столько же новых предприятий и выпустить столько же продукции сколько было выпущено за все предыдущие 70 лет советской власти.
46512. Серебряный век 18.15 KB
  Педагогические аспекты деятельности Вильгельма Августа Лая 18621926 – представитель экспериментальной педагогики автор школы действия. Стремился найти для школы твердую почву в тесной связи с жизнью на основе трудового воспитания. Предложил создать обязательные трудовые школы для работающих подростков закончивших народные. Придавал значение обстановке вне школы деятельности различных молодежных организаций самоуправления.
46513. Взаимодействие государственного и муниципального управления 18.15 KB
  Являясь неотъемлемой частью общего механизма управления государством местное самоуправление имеет отличительные особенности от органов государственной власти а именно: является властью подзаконной действующей в рамках законодательства принимаемого органами государственной власти; возникает лишь в том случае когда определены предметы его ведения; должно иметь достаточные собственные материальнофинансовые ресурсы для решения вопросов местного значения; требует обязательного наличия представительства населения в муниципальных...
46514. Основные принципы оценки бизнеса и виды стоимости, определяемые при оценке предприятий 18.16 KB
  Виды стоимости определяемые при оценке Стоимость это денежный эквивалент который покупатель готов обменять на какойлибо предмет или объект. Стоимость отличается от цены и затрат. По степени рыночности различают рыночную стоимость и нормативно рассчитываемую стоимость. Рыночная стоимость это наиболее вероятная цена при осуществлении сделки между типичным покупателем и продавцом.
46515. Россия на пути радикальной социально-экономической модернизации 18.33 KB
  Большинство граждан страны в течение нескольких месяцев оказались за чертой бедности. каждый гражданин страны получил приватизационный чек ваучер номинальной стоимостью 10 тыс. Но МВФ страны Большой семерки обещанные займы не предоставили ссылаясь на неустойчивую политическую ситуацию в России. экономическое развитие страны находилось в своеобразном плену у политического противостояния Правительства с Верховным Советом.
46516. Центральный рак легкого: дифференциальная диагностика, лечение 18.35 KB
  При дифференциальной диагностике центрального рака легкого приходится иметь в виду хроническую пневмонию туберкулез сегментарный пневмосклероз саркоидоз лимфогранулематоз аденому бронха. После нее возникают необратимый стеноз бронха и негомогенное затемнение соответствующего сегмента или доли легкого. обработка элементов корня легкого или удаляемой доли должна быть раздельной.
46517. Подходы и методы определения рыночной стоимости права арены земельных участков 18.35 KB
  Рыночная стоимость права аренды земельного участка зависит от правомочий арендатора срока действия права обременений права аренды прав иных лиц на земельный участок целевого назначения и разрешенного использования земельного участка. Рыночная стоимость права аренды земельного участка зависит от ожидаемой величины продолжительности и вероятности получения дохода от права аренды за определенный период времени при наиболее эффективном использовании арендатором земельного участка принцип ожидания. Общие рекомендации по проведению оценки При...
46518. Экспертиза безопасности оборудования, технологических процессов и производственных объектов 18.37 KB
  Действующие предприятия также подлежат сертификации на соответствие требованиям ОТ в течение последующих пяти лет до 1999г.94 № 485 О проведении обязательной сертификации постоянных рабочих мест на производственных объектах средств производства оборудования для средств коллективной и индивидуальной защиты устанавливает единый порядок проведения сертификации на соответствие требованиям ОТ. Предприятия ежегодно представляют перечень постоянных РМ на производственных объектах подлежащих обязательной сертификации на соответствие требованиям...
46519. Сбор, утилизация и захоронение твердых и жидких отходов 18.37 KB
  Сбор утилизация и захоронение твердых и жидких отходов. Громадные объемы производственных отходов только от горнодобывающей промышленности более 3 млрд. Методы и средства утилизации и ликвидации отходов зависят от их токсичности физического и химического состава и объемов. Наиболее значительная по объему свыше 60 часть твердых отходов инертные и малоразлагающиеся вещества используются для планировочных работ.