48525

ОСНОВЫ ЭКОНОМЕТРИКИ

Конспект

Экономическая теория и математическое моделирование

Эконометрические модели Оценивание неизвестных параметров модели: Верификация модели Прогноз на основе линейной модели

Русский

2013-12-11

4.15 MB

116 чел.

Л. Н. Ежова

ОСНОВЫ ЭКОНОМЕТРИКИ

Оглавление

[0.0.1] Л. Н. Ежова

[0.0.1.1] ОСНОВЫ ЭКОНОМЕТРИКИ

[1] Глава 1.  Введение

[1.1] 1.1. Предмет и основные задачи эконометрики

[1.2] 1.2. Эконометрические модели

[1.3] 1.3. Типы моделей

[2] Глава 2. Двумерная регрессионная модель

[2.1] 2.1. Модель парной линейной регрессии

[2.2] 2.2. Оценивание неизвестных параметров модели:

[2.3] метод наименьших квадратов

[2.4] 2.3.  Доверительные интервалы для коэффициентов

[2.5] регрессии. Проверка гипотез

[2.6] 2.4. Верификация модели

[2.7] 2.5. Интерпретация уравнения регрессии

[2.8] 2.6. Прогноз на основе линейной модели

[2.9] 2.7. Нелинейная регрессия

[3] Глава 3. Многомерная регрессионная модель

[3.1] 3.1. Линейная модель множественной регрессии

[3.2] 3.2. Оценивание неизвестных параметров модели

[3.3] 3.3. Доверительные интервалы и проверка

[3.4] статистических гипотез

[3.5] 3.4. Качество модели: дисперсионный анализ

[3.6] и коэффициент

[3.7] 3.5. Интерпретация коэффициентов

[3.8] множественной регрессии

[3.9] 3.6. Множественная регрессия в нелинейных моделях

[3.10] Вопросы для самопроверки и упражнения

[4] Глава 4. Некоторые особенности при изучении многомерной регрессии

[4.1] 4.1. Мультиколлинеарность

[5] 4.2. Фиктивные переменные

[5.1] 4.3. Частная корреляция

[6] 4.4. Линейные ограничения

[7] Вопросы для самопроверки и упражнения

[8] Глава 5. Обобщенная линейная модель множественной регрессии

[9] 5.1. Обобщенный метод наименьших квадратов

[9.1] 5.2. Обобщенная линейная модель с гетероскедастичностью

[9.2] 5.3. Обобщенная линейная модель с автокоррелированными остатками

[9.3] Вопросы для самопроверки и упражнения

[10] Глава 6. Системы эконометрических уравнений

[10.1] 6.1. Внешне не связанные уравнения

[10.2] 6.2. Системы одновременных уравнений

[10.3] 6.3. Методы оценивания систем одновременных уравнений

[10.4] Вопросы для самопроверки и упражнения

Предисловие

Эконометрика входит в число базовых дисциплин современного экономического образования наряду с такими предметами, как микроэкономика, макроэкономика, финансовый анализ. Это обусловлено несколькими факторами, и важнейшим из них является признание того, что изучение методов эмпирических исследований должно стать существенной частью подготовки будущих специалистов.

Чем большим профессионалом становится экономист, тем яснее он понимает, что в экономике все зависит от всего. Причинно-следственными связями занимается экономическая теория, а связями вообще, без выявления их причин – эконометрика. Эконометрические методы позволяют проводить эмпирическую проверку теоретических утверждений и моделей, они выступают мощным инструментом развития самой экономической теории. С их помощью отвергаются теоретические концепции и принимаются новые, более полезные гипотезы.

Прикладное значение этой дисциплины состоит в том, что она является связующим звеном между экономической теорией и практикой. Эконометрика дает методы экономических измерений, методы оценивания параметров моделей микро– и макроэкономики. Важно, что эконометрические методы при этом позволяют оценить ошибки измерений экономических величин и параметров моделей. Экономист, не владеющий этими методами, не может эффективно проводить анализ и строить достаточно надежный прогноз. Отсюда под вопросом будет и его успех в банковском деле, и в бизнесе, и в финансах. Поэтому курс эконометрики должен быть тесно связан с перечисленными выше курсами, давая не абстрактно-формальные, а прикладные знания.

Учебное пособие адресовано прежде всего студентам, впервые приступающим к изучению эконометрики. Вынесенные в заглавие пособия «Основы эконометрики» подчеркивают то обстоятельство, что акценты в нем сделаны именно на методах, в то время как приложения присутствуют, как правило, лишь в виде иллюстративных примеров. Хотелось бы, чтобы оно, хотя бы в рамках начального курса, подготовило будущих специалистов к прикладным исследованиям в области экономики и было бы полезным при дальнейшем углубленном изучении теории эконометрики. Никаких предварительных знаний об эконометрике не требуется. Однако предполагается, что читатель знаком с курсами теории вероятностей и математической статистики, а также линейной алгебры и математического анализа.

Глава 1.  Введение

В этой вводной главе мы обсудим предмет и основные задачи эконометрики, рассмотрим общую характеристику эконометрических моделей и их классификацию.

1.1. Предмет и основные задачи эконометрики

Эконометрика является сравнительно молодой отраслью науки, известной под таким названием (или названием «эконометрия») только с 1930 г. Введя термин «эконометрика» для обозначения самостоятельной отрасли научных исследований, крупнейший норвежский экономист и статистик Рагнар Фриш провозгласил в качестве основной задачи «развитие экономической теории в ее связи со статистикой и математикой».

Эконометрика как наука расположена где-то между экономикой, статистикой и математикой. Существуют различные варианты определения эконометрики. Буквально термин «эконометрия» (мы будем придерживаться названия «эконометрика») обозначает измерение в экономике, и измерение действительно является важной частью эконометрики. Оценка национального дохода или разработка индекса розничных цен – важные проблемы измерения, однако это не эконометрические проблемы.

 Эконометрика – это наука, в которой с помощью статистических методов устанавливаются количественные взаимосвязи между экономическими переменными. То есть под эконометрикой следует понимать определенный набор математико-статистических средств, позволяющих проверять или верифицировать модельные соотношения между анализируемыми экономическими показателями и оценивать неизвестные значения параметров в этих соотношениях на основе исходных экономических данных.

Эконометрику можно определить как специальный вид экономического анализа, в котором объединены два аспекта: общий теоретический метод, часто формулируемый математически, и эмпирическое измерение экономических показателей. Таким образом, один из ответов на вопрос о том, что же такое эконометрика, может звучать так: это наука, связанная с эмпирическим выводом экономических законов. Для того, чтобы получить количественные зависимости для экономических соотношений, используются данные или наблюдения, которые, как правило, не являются экспериментальными. В экономике, в отличие от любой другой науки (химии. биологии, медицины и т. д.), мы не можем проводить многократные эксперименты и «вмешиваться» в постановку и организацию таких экспериментов.

Можно выделить с одной стороны – эконометрические методы, с другой – их приложения к конкретным экономическим задачам. Применяемые в эконометрике методы базируются на разделах регрессионного, дисперсионного и корреляционного анализов. Однако специфичность задач, с которыми здесь сталкиваются, вызывает необходимость особых изменений в принятых подходах и разработке специальных приемов. Взаимосвязи, которые исследуются с помощью этих методов, например, функции спроса или производственные функции, являются сердцевиной экономической теории, в то же время конкретная их форма, принятая в конкретном исследовании, может быть совершенно новой.

С точки зрения теоретиков эконометрическое исследование начинается после того, как

  1.  выбрана математическая модель объекта с фиксированной формой всех зависимостей и с неизвестными параметрами при входящих в модель переменных;
  2.  получено множество наблюдений над входящими в модель переменными в соответствующие моменты времени;
  3.  поставлена задача отыскать значения неизвестных параметров, обеспечивающие наилучшее (с точки зрения фиксированного критерия) приближение модельных значений переменных к их значениям, наблюдавшимся в действительности.

В такой постановке формальный подход эконометрики был бы неотличим от подхода, разрабатываемого в теории аппроксимаций, и, следовательно, не обладал бы вероятностной природой. Различие возникает, когда принимается гипотеза, что отклонения модельных значений переменных, по которым ведется подгонка, от их реально наблюдаемых величин случайны с априорно заданными моментами первого и второго порядков.

Таким образом, наиболее существенная задача эконометрического исследования – это оценка и проверка экономической модели. Еще раз перечислим основные стадии этого процесса. Во-первых, необходима спецификация модели в математической форме (под спецификацией взаимосвязи обычно понимают выбор формы уравнения и набора соответствующих переменных). Вторая стадия – сбор адекватных данных об экономике или ее секторе в зависимости от того, какой объект является целью моделирования. На третьей стадии мы используем собранные данные для оценки параметров модели и проверки ее пригодности (адекватности) или верификации. В соответствии с этим можно определить источники, на которых базируется эконометрическая наука:

  •  экономическая теория (макро- и микроэкономика, математическая экономика);
  •  социально-экономическая статистика (включая информационное обеспечение экономических исследований);
  •  основы теории вероятностей и математической статистики.

На рис.1.1. представлена структура эконометрических исследований. Эта схема, конечно, условна. Однако она поможет лучше понять существующую точку зрения на эконометрику и ее задачи.

Рис. 1.1. Структура эконометрических исследований

1.2. Эконометрические модели

Каждый изучающий экономику сталкивается с принципиальной идеей о взаимосвязях между экономическими показателями. Формирующийся на рынке спрос на некоторый товар есть функция его цены; затраты, связанные с изготовлением какого-либо продукта, зависят от объема производства; потребительские расходы могут быть функцией дохода и т. д. Все это примеры связей между двумя переменными, одна из которых (спрос на товар, производственные затраты, потребительские расходы) играет роль объясняемой переменной (или результирующего показателя), а другие интерпретируются как объясняющие переменные (или факторы-регрессоры).Однако реально в каждое такое соотношение приходится вводить несколько объясняющих переменных и остаточную случайную составляющую, отражающую влияние на результирующий показатель всех неучтенных факторов. Спрос на товар можно рассматривать как функцию его цены, потребительского дохода и цен на конкурирующие и дополняющие товары, производственные затраты будут зависеть от объема производства, от его динамики и от цен на основные производственные ресурсы; потребительские расходы можно определить как функцию дохода, ликвидных активов и предыдущего уровня потребления. При этом участвующая в каждом из этих соотношений случайная составляющая обуславливает стохастический или статистический характер зависимости, а именно: даже зафиксировав на определенных уровнях значения объясняющих переменных, допустим, цены на сам товар и на конкурирующие с ним или дополняющие товары, а также потребительский доход, мы не можем ожидать, что тем самым однозначно определяется спрос на этот товар. Иными словами, в реальной ситуации мы имеем случайное варьирование величины спроса относительно некоторого уровня даже при неизменных значениях всех объясняющих переменных.

Большая часть традиционных экономических теорий, в которых связи между экономическими показателями отражаются с помощью диаграмм и алгебраических формул, имеет дело с точными функциональными соотношениями – экономическими моделями. Количество связей, включаемых в экономическую модель, зависит от условий, при которых эта модель конструируется, и от того, насколько подробно стремимся мы объяснить то или иное явление. Например, традиционная модель спроса и предложения должна объяснять соотношения между ценой и объемом выпуска, характерные для некоторого определенного рынка. Она содержит три уравнения, а именно уравнение спроса, уравнение предложения и уравнение реакции рынка (см. пример 1.2).

Все экономические модели, независимо от того, относятся они ко всему хозяйству или к его элементам (т. е. к макроэкономике, отрасли, фирме или рынку), имеют некоторые общие особенности. Во-первых, они основаны на предположении, что поведение экономических переменных определяется с помощью совместных и одновременных операций с некоторым числом экономических соотношений. Во-вторых, принимается гипотеза, в силу которой модель, допуская упрощение сложной действительности, тем не менее улавливает главные характеристики изучаемого объекта. В-третьих, создатель модели полагает, что на основе достигнутого с ее помощью понимания реальной системы удастся предсказать ее будущее движение и, возможно, управлять им в целях улучшения экономического благосостояния.

Чтобы проиллюстрировать сказанное, рассмотрим пример достаточно общей и приближенной макромодели.

Пример 1.1. Предположим, что экономист-теоретик сформулировал следующие положения:

  •  потребление есть возрастающая функция от имеющегося в наличии дохода, но возрастающая, видимо, медленнее, чем рост дохода;
  •  объем инвестиций есть возрастающая функция национального дохода и убывающая функция характеристики государственного регулирования (например, нормы процента);
  •  национальный доход есть сумма потребительских, инвестиционных и государственных закупок товаров и услуг.

Наша первая задача – перевести эти положения на математический язык. Возникает вопрос: какие соотношения выбрать между переменными – линейные или нелинейные (логарифмические, полиномиальные и т. д.). Даже определив форму конкретного соотношения, мы оставляем еще нерешенной проблему выбора для различных уравнений запаздываний по времени. Будут ли, например, инвестиции текущего периода реагировать на национальный доход, произведенный в последнем периоде, или же на них скажется динамика нескольких предыдущих периодов? Обычный выход из этих трудностей состоит в выборе при первоначальном анализе наиболее простой из возможных форм этих соотношений. Тогда появляется возможность записать на основе указанных выше положений следующую модель:

  ,                           (1.1)

  ,                               (1.2)

,                                  (1.3)

где априорные ограничения выражены неравенствами  

Эти три соотношения вместе с ограничениями образуют модель. Здесь  обозначает потребление,  - инвестиции,  - национальный доход,  - государственные закупки товаров и услуг,  - подоходный налог,  - норму процента как инструмент государственного регулирования, измеренные в момент времени .

Модель сформулирована (два уравнения, объясняющие поведение потребителей и инвесторов, и одно тождество) для дискретных периодов времени, и выбрано запаздывание (лаг) в один период для отражения воздействия национального дохода на инвестиции.

Уравнения поведения имеют здесь форму точных функциональных зависимостей, однако, как мы увидим позднее, это нереалистично, и нельзя приступать к эконометрическим разработкам, не пользуясь некоторыми дополнительными стохастическими спецификациями. То есть уравнения (1.1) и (1.2) должны содержать аддитивные случайные составляющие, обусловленные необходимостью учесть влияние соответственно на  и  ряда неучтенных факторов. Действительно, нереалистично ожидать, что величина потребления  будет однозначно определяться уровнями национального дохода  и подоходного налога ; аналогично величина инвестиций  зависит, очевидно, не только от достигнутого в предыдущий год уровня национального дохода  и от величины нормы процента , но и от ряда других неучтенных в уравнении (1.2) факторов. Таким образом, для реальной ситуации мы имеем линейную относительно анализируемых переменных и аддитивную относительно случайных составляющих  и  модель:

                          (1.4)

                             (1.5)

                                       (1.6)

где    Здесь коэффициенты или параметры , , ,  неизвестны до получения «наблюдений» над экономическими переменными.

Если мы поставим задачу найти оценки этих параметров по результатам наблюдений (исходным статистическим данным) и верифицируем полученную модель, то мы охарактеризуем функционирование конкретного (а не гипотетического) экономического явления. Такая модель будет эконометрической.

Мы привели здесь этот пример, чтобы пояснить общие черты одного из важнейших этапов эконометрического моделирования, в процессе которого исследователь математически формализует отдельные положения экономической теории (этап «выбора» модели). В дальнейшем мы используем этот пример для пояснения некоторых основных понятий эконометрического моделирования.

1.3. Типы моделей

Как мы уже сказали, основным этапом эконометрического моделирования является выбор модели. Модель, построенная и верифицированная на основе (уже имеющихся) данных наблюдений над объясняющими переменными, может быть использована для прогноза значений зависимой переменной в будущем или для других наборов значений объясняющих переменных.

Можно выделить три основных класса моделей, которые применяются для анализа и / или прогноза явлений и процессов в экономике.

Модели временных рядов. К этому классу относятся модели:

тренда:

где  - временной тренд заданного параметрического вида (например, линейный  параболический ), - случайная (стохастическая) компонента;

сезонности:

где  - периодическая (сезонная) компонента,  - случайная компонента;

тренда и сезонности:  (аддитивная) или

                                        (мультипликативная),

где  - временной тренд заданного параметрического вида,  - периодическая (сезонная) компонента,  - случайная компонента.

К моделям временных рядов относится множество более сложных моделей, таких как модели адаптивного прогноза, модели авторегрессии и скользящего среднего и др. Их общей чертой является то, что они объясняют поведение временного ряда, исходя только из его предыдущих значений. Такие модели могут применяться, например, для изучения и прогнозирования объема продаж авиабилетов, спроса на продукты питания, краткосрочного прогноза процентных ставок и т. п.

Регрессионные модели с одним уравнением. В таких моделях зависимая (объясняемая) переменная  представляется в виде функции

где  - независимые (объясняющие) переменные-факторы, а  - параметры. В зависимости от вида функции  модели делятся на линейные и нелинейные (как по независимым переменным, так и по неизвестным параметрам). Например, можно исследовать спрос на мороженое как линейную функцию от времени, температуры воздуха, среднего уровня доходов. Зависимость же заработной платы от возраста, пола, уровня образования, стажа работы может и не быть линейной.

Область применения таких моделей, даже линейных, значительно шире, чем моделей временных рядов. Проблемам теории оценивания неизвестных параметров модели, ее верификации, отбора значимых факторов и другим посвящен огромный объем литературы [1-11]. Эта тема является, пожалуй, стержневой в эконометрике и основной в данном пособии.

Системы одновременных уравнений. Эти модели описываются системами уравнений. Системы могут состоять из тождеств и регрессионных уравнений, каждое из которых может, кроме объясняющих переменных, включать в себя также объясняемые переменные из других уравнений системы. Таким образом, мы имеем здесь набор объясняемых переменных, связанных через уравнения системы. Примером может служить модель, представленная соотношениями (1.4)–(1.6) (здесь, например, доход , измеренный в момент времени , играет роль объясняющей переменной в уравнении (1.4) и объясняемой переменной в тождестве (1.6)), а также модель спроса и предложения, приведенная ниже. Системы одновременных уравнений требуют относительно более сложный математический аппарат. Они могут использоваться для макромоделей, моделей страновой экономики и др.

Пример 1.2. Модель спроса и предложения:

  (предложение),

               (спрос),

                                 (равновесие).

Здесь  - спрос на товар в момент времени ,  - предложение товара в момент времени ,  - цена товара в момент времени ,  - доход в момент времени . Цена товара  и спрос на товар  определяются из уравнений модели, т. е. являются эндогенными переменными. Предопределенными переменными в данной модели являются доход  и значение цены товара в предыдущий момент времени .

В заключение отметим, что при построении перечисленных выше моделей могут использоваться следующие типы данных.

Пространственные данные представляют собой набор сведений (объем производства, количество работников, доходы и расходы населения и др.) по разным фирмам, предприятиям в один и тот же момент времени (пространственный срез). К ним также относятся данные по курсам покупки / продажи наличной валюты в какой-либо день по обменным пунктам данного города, и т. д.

Временные ряды, примерами которых могут быть ежеквартальные данные по инфляции, средней заработной плате, национальному доходу, денежной эмиссии за последние годы и т. д. Отличительной чертой временных данных является то, что они естественным образом упорядочены во времени, и наблюдения в близкие моменты времени часто бывают зависимыми.


Глава 2. Двумерная регрессионная модель

В данной главе мы рассмотрим основные принципы построения модели для двух переменных. Будут представлены основной метод оценивания неизвестных параметров – метод наименьших квадратов – с характеристикой свойств оценок и интерпретацией полученных результатов, а также способы верификации модели.

2.1. Модель парной линейной регрессии

Рассмотрим элементарный случай, когда экономическая модель состоит из одного уравнения, которое содержит только две переменные. Обозначив переменные через  и , мы постулируем между ними зависимость . На первом шаге мы лишь идентифицировали переменную , как оказывающую воздействие на другую переменную . Второй шаг состоит в спецификации формы связи между  и . (Под спецификацией взаимосвязи обычно понимают выбор формы уравнения и набора соответствующих переменных). Содержательные соображения или положения экономической теории могут привести к конкретному виду этой связи, однако простейшим соотношением является линейная как по независимой или объясняющей переменной , так и по неизвестным параметрам  и  модель

.                                            (2.1)

Возможны и другие формы связи между переменными  и :

                      

Третье из этих соотношений линейно относительно  и  (линейно относительно  и ), а первое и второе могут быть сведены к линейной форме для преобразованных переменных, если взять логарифмы от обеих частей

  и   .

Если ввести  и , то мы получим линейную зависимость вида (2.1). Подробнее вопрос о построении таких моделей мы рассмотрим в п. 2.7.

Таким образом, в модели (2.1)  и  - постоянные, а  и  могут непосредственно или после логарифмических или иных преобразований представлять экономические переменные, например такие, как цены или спрос. Очевидно, что при таком подходе охватывается широкая область функциональных взаимосвязей между исходными экономическим переменными.

Задача построения модели (2.1) состоит в определении значений неизвестных параметров  и  - их оценок - по имеющимся в нашем распоряжении данным так, чтобы полученное соотношение «наилучшим» образом описывало зависимость  от . В каком смысле будет пониматься «наилучшее» приближение реально наблюдаемых данных к их теоретическим ожидаемым значениям мы рассмотрим в п. 2.2. Здесь же отметим, что в действительности, имея набор значений двух переменных   ; и изображая пары  точками на координатной плоскости О(рис. 2.1), мы имеем разброс этих точек относительно реальной линии связи.

Рис. 2.1. Диаграмма рассеяния и теоретическая линия связи

Предположим, например, что мы изучаем зависимость между расходами на питание и доходом семей, используя данные о семейных бюджетах, относящиеся к некоторому фиксированному промежутку времени. Обозначим через  общую величину расходов на питание, а через  - объем распределяемого дохода. Соберем данные о бюджетах, допустим,  семей и образуем пары соответствующих измерений для величин . Предположим, что мы уже разделили семьи на группы по их размеру и составу и рассматриваем интересующую нас связь между  и  внутри конкретной группы (условие «однородности» наблюдений). Естественно, мы не ожидаем, что у всех семей этой группы, имеющих одинаковый доход, будут и одинаковые потребительские расходы. Одни потратят больше других, а некоторые, наоборот , меньше. Однако можно надеяться, что величины расходов сгруппируются вокруг некоторого значения, соответствующего тому объему дохода, о котором шла речь. Эта идея находит свое формальное воплощение в новой гипотезе о характере линейной зависимости:

                                        (2.2)

где  - случайная (или стохастическая) переменная, способная принимать и положительные, и отрицательные значения.

Таким образом, если мы рассмотрим подгруппу семей, располагающих доходом , то средним значением их потребительских расходов окажется величина , в то время как реальные объемы потребления для семей в подгруппе будут , где случайная величина  измеряет отклонения потребительских расходов каждой отдельной семьи от среднего значения.

Запишем уравнение зависимости (2.2) для  наблюдений  :

    .                   (2.3)

Здесь  - неслучайная (детерминированная) величина, а  - случайные величины;  - объясняемая (зависимая) переменная,  - объясняющая (независимая) переменная, фактор или регрессор. Уравнение (2.3) называется также регрессионным уравнением или линейной регрессионной моделью с двумя переменными (моделью парной регрессии).

Какова природа случайной составляющей или ошибки ? Источниками ошибок могут быть разные причины:

  1.  Пропущенные объясняющие переменные. Соотношение между  и  почти наверняка является очень большим упрощением. В действительности существуют другие факторы, также влияющие на , которые не учтены в формуле (2.1). Влияние этих факторов приводит к тому, что наблюдаемые точки лежат вне прямой (см. рис. 2.1). Часто возникают ситуации, когда мы не включаем в регрессионное уравнение переменные, только потому, что не знаем, как их измерить, например психологические факторы. Либо существуют также другие факторы, которые мы можем измерить, но которые оказывают такое слабое влияние, что их не стоит учитывать. Объединив все эти составляющие, мы и получаем то, что обозначено через .
  2.  Агрегирование переменных. Во многих случаях рассматриваемая зависимость – это попытка объединить вместе некоторое число микроэкономических соотношений. Например, функция суммарного потребления – это попытка общего выражения решений многих отдельных семей о расходах. Так как отдельные соотношения, вероятно, имеют разные параметры, любая попытка определить соотношение между совокупными потребительскими расходами и доходом является лишь аппроксимацией, Наблюдаемое расхождение при этом приписывается наличию случайной составляющей.
  3.  Неправильное описание структуры модели. Структура модели может быть описана неправильно или не вполне правильно. Например, если зависимость относится к данным о временном ряде, то значение  может зависеть не от фактического значения , а от значения, которое ожидалось в предыдущем периоде. Если ожидаемое и фактическое значения тесно связаны, то будет казаться, что между  и  существует зависимость, но это будет лишь аппроксимация, и расхождение вновь будет связано с наличием случайной величины .
  4.  Неправильная функциональная спецификация. Функциональное соотношение между  и  математически может быть определено неправильно, т. е. сам вид функциональной зависимости выбран неверно. Например, мы рассматриваем зависимость между потребительскими расходами и доходом семей, используя линейную функцию, а истинная зависимость может быть более сложной, нелинейной.
  5.  Ошибки измерения. Ошибки могут сопровождать любые наблюдения или измерения экономических показателей. Например, данные по расходам семьи на питание составляются на основании записей участников опросов, которые, как предполагается, тщательно фиксируют свои ежедневные расходы. Разумеется, при этом возможны ошибки. В данном случае источниками ошибок являются особенности собранного материала (присущ элемент случайности).

Таким образом, можно считать, что случайные величины  являются суммарным проявлением всех этих факторов.

Сформулируем теперь те основные предпосылки или гипотезы, которые лежат в основе линейной регрессионной модели с двумя переменными.

Основные гипотезы:

  1.   - спецификация модели.
  2.   - детерминированные величины, вектор не коллинеарен вектору .

3а.    - не зависит от .

3b.   при  - некоррелированность ошибок для разных наблюдений.

Часто добавляется условие

3с.  , т. е.  - нормально распределенная случайная величина с математическим ожиданием или средним значением, равным нулю, и дисперсией .

В этом случае модель называется нормальной линейной регрессионной. Для такой модели условие 3b. эквивалентно условию статистической независимости ошибок  при  [3].

Обсудим гипотезы, лежащие в основе линейной регрессионной модели.

1.  Спецификация модели отражает наше представление о механизме зависимости  от  и сам  выбор объясняющей переменной ; на линейный характер связи может указывать и разброс точек на диаграмме рассеивания.

2.  Величины  являются неслучайными или детерминированными, линейно несвязанными между собой. Если же в реальной ситуации их значения также представляются результатами измерений, то предполагается, что ошибки таких измерений пренебрежимо малы.

3а. Условие  означает отсутствие систематических ошибок, ошибки носят только случайный характер. Условие независимости дисперсий ошибок от номера наблюдений , , или однородности наблюдений называется также гомоскедастичностью; случай, когда , т. е. условие гомоскедастичности не выполняется. называется гетероскедастичностью. Ниже на рис.2.2 приведен пример типичного разброса точек для случая гомоскедастичности ошибок; на рис.2.3 - пример данных с гетероскедастичными ошибками.

Рис. 2.2. Однородные наблюдения (,  )

Рис. 2.3. Неоднородные наблюдения (,)

3b. Условие , , указывает на некоррелированность ошибок, а в случае нормальной модели, и на независимость для разных наблюдений. Это требование оказывается вполне естественным в широком классе реальных ситуаций, особенно, если речь идет о пространственных данных (значения анализируемых переменных регистрируются на различных объектах: индивидуумах, семьях, предприятиях, банках, регионах и т. п.). Однако условие часто нарушается, когда наши данные являются временными рядами. В случае, когда это условие не выполняется, говорят об автокорреляции остатков.

3с. Так как можно считать, что случайная составляющая  в различных наблюдениях обусловлена суммарным аддитивным эффектом большого числа независимых случайных факторов, ни один из которых не является доминирующим, то обращение к центральной предельной теореме служит достаточным обоснованием выбора нормального распределения для нее.

2.2. Оценивание неизвестных параметров модели: 

метод наименьших квадратов

Рассмотрим задачу «наилучшей» аппроксимации набора наблюдений , , линейной функцией  в смысле минимизации величины

.                             (2.4)

Нахождение оценок  и  в соответствии с этим условием называется методом наименьших квадратов (МНК). Запишем необходимые условия экстремума:

Решение этой системы нормальных уравнений дает нам явный вид оценок

                          (2.5)

(для краткости индексы суммирования у знака суммы  опущены).

Если  найдено по формуле (2.5), то , где , .

Уравнение прямой линии , полученное в результате минимизации величины (2.4), проходит через точку . Единственность  МНК-оценок (2.5) обеспечивается предпосылкой 2.

Из общей теории МНК при сделанных выше предпосылках 3a, 3b следуют свойства МНК-оценок (подробнее эти свойства мы обсудим в разделе 3.2): 1) линейная зависимость от , 2) несмещенность, 3) эффективность, поскольку в классе линейных несмещенных оценок МНК-оценки обладают наименьшей возможной дисперсией (теорема Гаусса-Маркова [3,8]).

Несмещенные оценки дисперсий и ковариаций оценок  и  определяются по формулам

;                               (2.6)

;                                (2.7)

,                          (2.8)

где  - остаточная сумма квадратов и под ,  понимаются их значения, найденные по формулам (2.5).

Несмещенной оценкой дисперсии ошибок наблюдений будет .

Остатки регрессии  определяются из уравнения

.

Не следует путать остатки регрессии с ошибками регрессии в уравнении модели . Разница состоит в том, что остатки  в отличие от ошибок  вычисляются. С учетом введенного обозначения для остатков можно записать несмещенную оценку дисперсии :

.

Пример использования формул (2.5) - (2.7) мы рассмотрим ниже в п. 2.6 с тем, чтобы проиллюстрировать все этапы построения и анализа линейной модели и задачу прогнозирования на ее основе.

2.3.  Доверительные интервалы для коэффициентов 

регрессии. Проверка гипотез

С помощью формул (2.5) мы можем получить по данным наблюдений над величинами ,  лишь оценки неизвестных параметров линейной модели. Поэтому возникает вопрос о точности и надежности найденных оценок. В математической статистике этот вопрос решается построением доверительных интервалов для истинных значений параметров, которые по сути представляют собой множество всех возможных гипотетических значений, не противоречащих результатам экспериментов.

Если выполнено условие 3с. нормальной линейной регрессионной модели, т. е. , , то  будут также нормально распределены. Отсюда и МНК-оценки коэффициентов регрессии  и  имеют совместное нормальное распределение как линейные функции от .

Если гипотеза нормальности ошибок не выполняется, то нормальность оценок, вообще говоря, неверна. Однако при некоторых условиях регулярности на поведение  при росте , оценки  и  имеют асимптотически нормальное распределение, т. е. , при .

В этих условиях справедливы формулы интервальных оценок или доверительных интервалов:

,                        (2.9)

,                        (2.10)

где  - квантиль -распределения (распределения Стьюдента) уровня  и числа степеней свободы . Здесь  - доверительная вероятность или надежность:

,

т. е. это вероятность того, что построенный нами доверительный интервал покроет истинное значение параметра . Аналогично можно определить  и для параметра . Обычно значения доверительной вероятности стандартизованы и принимаются равными 0,9; 0,95; 0,99; 0,999.

Доверительный интервал для неизвестной дисперсии ошибок наблюдений :

,                           (2.11)

где  и  - квантили -распределения.

При статистическом исследовании реальной ситуации возникает необходимость не только оценить неизвестные параметры модели, но и проверить по отношению к ним некоторые гипотезы. Например, можно ли считать потребление пропорционально зависящим от дохода ? Будет ли предельная склонность к потреблению больше половины ? И, наконец, служит ли линейная зависимость адекватным отражением эмпирических данных?

Статистики, которые использовались для построения доверительных интервалов, могут использоваться и для проверки или тестирования гипотез о параметрах модели.

Так, для проверки гипотезы  против альтернативной гипотезы  используется статистика

,                     (2.12)

распределенная по закону Стьюдента с  степенями свободы.

Аналогично для гипотезы  и  используется критерий, статистика которого

.                      (2.13)

Мы отвергаем гипотезу  (и принимаем ) с уровнем значимости , если  (или ),  - наблюдаемое или экспериментальное значение -статистики, в противном случае гипотезу  следует принять, т. е. считать, что результаты наблюдений согласуются с гипотезой , не противоречат ей.

Для такого вида альтернативной гипотезы  область принятия  совпадает с доверительным интервалом для соответствующего неизвестного параметра: гипотеза  принимается на уровне значимости , если построенный доверительный интервал для  (или ) в форме (2.9) (или (2.10)) покрывает гипотетическое значение параметра  (или ).

Для проверки гипотезы , против  может использоваться доверительный интервал (2.11). Гипотезу  принимаем с уровнем , если интервал покрывает значение .

При использовании современных статистических пакетов программ не требуется искать нужные квантили -распределения (или -распределения), поскольку в них (пакетах) рассчитывается уровень ошибки, с которой можно отвергнуть нулевую гипотезу и , если он меньше желаемого значения, либо равен ему, то нулевая гипотеза отвергается.

2.4. Верификация модели

Пригодность построенной модели  или ее верификация, а также качество оценивания регрессии может быть проверено двумя равноценными способами: дисперсионным анализом в регрессии и с использованием элементов теории корреляции.

  1.  Дисперсионный анализ в регрессии

Суть метода заключается в разложении общей суммарной дисперсии выходной величины  на составляющие, обусловленные действием входных переменных-факторов, и остаточную дисперсию, обусловленную ошибкой или всеми неучтенными в данной модели переменными. Фактор оказывает несущественное влияние на , если соответствующая ему дисперсия и дисперсия ошибок статистически незначимы. Для проверки гипотезы о равенстве таких дисперсий используется критерий Фишера (-критерий). Поскольку для оценок дисперсий используются суммы квадратов  (от англ. sum of squares) отклонений значений данной переменной от ее средней величины, то можно говорить о разложении общей суммы квадратов  на составляющие. Этой идеи мы и будем придерживаться далее.

Рассмотрим  - величину, характеризующую разброс значений  относительно среднего значения . Разобьем эту сумму на две части: объясненную регрессионным уравнением и не объясненную (т. е. связанную с ошибками ).

Обозначим через  предсказанное по модели значение , тогда  (см. рис. 2.4).

Рис. 2.4.

Тогда  представляется в виде трех слагаемых:

. Здесь , так как ,  , т. е. вектор остатков регрессии  ортогонален константе  и вектору  (геометрическая интерпретация МНК [8]).

Действительно,

.

Поэтому справедливо равенство

;

.                                    (2.14)

Здесь через  обозначена сумма квадратов, объясненная регрессией, и  - остаточная сумма квадратов, обусловленная ошибкой.

Заметим, что вектор остатков регрессии ортогонален константе, т. е. , вообще говоря, только в том случае, когда константа включена в число объясняющих параметров регрессии. Поэтому (2.14) справедливо только в этом случае.

Коэффициентом детерминации, или  долей объясненной дисперсии , называется

.                               (2.15)

В силу определения . Если , то это значит, что регрессия ничего не дает, т. е. фактор  не улучшает качество предсказания  по сравнению с тривиальным предсказанием .

Другой крайний случай  означает точную подгонку: все наблюдаемые значения  лежат на регрессионной прямой (все остатки ).

Чем ближе к 1 значение , тем лучше качество подгонки или качество регрессии,  более точно аппроксимирует .

Гипотеза об отсутствии линейной функциональной связи между  и  может быть записана как  . Критерий, статистика которого (2.13) распределена по закону Стьюдента, эквивалентен здесь критерию, статистика которого

                        (2.16)

распределена по закону Фишера со степенями свободы .

То есть проверка гипотезы   с использованием - и -статистик дает в данном случае (для одномерной регрессионной модели) тождественные результаты.

Здесь через  и  обозначены средние квадраты (от англ. mean of squares), которые дают несмещенные оценки соответствующих теоретических дисперсий.

Используя коэффициент детерминации (2.15), получим для -статистики

.                                        (2.17)

Вычисления, необходимые для дисперсионного анализа уравнения регрессии, обычно сводят в таблицу (табл. 2.1).

Таблица 2.1.

Дисперсионный анализ одномерной регрессии

Источник дисперсии

Число степе-ней свободы

Сумма квадра-тов

Средний квадрат

Критерий Фишера

Крити-ческая точка

Гипотеза

Регрес-сор

1

Ошибка (остаток)

Общая диспер-сия (итог)

Если при заданном уровне значимости  наблюдаемое значение -статистики больше критической точки , то гипотеза  отвергается, то есть связь между  и  есть, и результаты наблюдений не противоречат предположению о ее линейности. В противном случае  принимается и постулируется отсутствие значимой функциональной связи между  и . Исходя из соотношения (2.16), малым значениям -статистики будут соответствовать и малые значения коэффициента детерминации  (плохая аппроксимация данных).

  1.  Использование элементов теории корреляции

Другой способ верификации линейной модели состоит в использовании элементов теории корреляции. Мерой линейной связи двух величин является коэффициент корреляции, выборочное значение которого

                       (2.18)

будет его несмещенной оценкой.

Значения коэффициента корреляции принадлежат промежутку . Чем больше его абсолютное значение к 1, тем теснее связь между признаками. Положительная величина коэффициента корреляции свидетельствует о прямой связи между ними, отрицательная – о наличии обратной связи между признаками.

Гипотеза об отсутствии линейной функциональной  связи между  и  может быть записана как . Для проверки  используется критерий, статистика которого

                             (2.19)

распределена по закону Стьюдента с  степенями свободы.

Вывод о значимости корреляции между  и  может быть сделан, если , где ,  - уровень значимости.

Здесь также вычисляется коэффициент детерминации  (чаще всего выражаемый в %). Он равен, как уже отмечалось, той доле дисперсии , которая объяснена линейной зависимостью от . Если ,то это значит, что линейная регрессия  на  объясняет 81% дисперсии . Остальные 19% приходятся на долю прочих факторов, не учтенных в уравнении регрессии.

2.5. Интерпретация уравнения регрессии

Существуют два этапа интерпретации уравнения регрессии. Первый этап состоит в словесном толковании уравнения так, чтобы это было понятно человеку, не являющемуся специалистом в области статистики или эконометрики. На втором этапе необходимо решить, следует ли ограничиться этим или провести более детальное исследование зависимости, например, проверить по отношению к исследуемым переменным некоторые статистические гипотезы, либо улучшить качество и предсказательные свойства модели.

Представим простой способ интерпретации коэффициентов линейного уравнения регрессии , когда  и  - переменные с простыми, естественными единицами измерения.

Во-первых, можно сказать, что увеличение  на одну единицу измерения приведет к увеличению  на  единиц (в единицах измерения и переменной  и переменной ). Здесь коэффициент регрессии  есть абсолютный показатель силы связи, характеризующий среднее абсолютное изменение результата  при изменении фактора  на единицу своего измерения. Вторым шагом является проверка, каковы действительно единицы измерения  и , и замена слова «единица» фактическим количеством.

Постоянная  дает прогнозируемое значение  (в единицах ), если . Это может иметь или не иметь ясного смысла в зависимости от конкретной ситуации. Если  находится достаточно далеко от выборочных значений переменной , то буквальная интерпретация может привести к неверным результатам; даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, мы не можем гарантировать, что это ее свойство сохранится при экстраполяции влево или вправо. В случае, когда интерпретация  не имеет никакого смысла, эта константа выполняет единственную функцию: она позволяет определить положение линии регрессии на графике.

При интерпретации уравнения регрессии важно помнить о трех вещах. Во-первых,  является лишь оценкой , а  - оценкой параметра . Поэтому вся интерпретация в действительности представляет собой лишь оценку. Во-вторых, уравнение регрессии отражает только общую тенденцию для выборки. При этом каждое отдельное наблюдение подвержено воздействию случайностей. В-третьих, верность интерпретации зависит от правильности спецификации уравнения.

В заключение, обратим внимание на то, что для линейного уравнения  эластичность . Поэтому при интерпретации уравнения регрессии значение эластичности в любой точке будет зависеть не только от значения , но также и от значений  и  в данной точке.

2.6. Прогноз на основе линейной модели

Построенная адекватная модель может использоваться для прогнозирования. Оценка прогнозируемых величин в регрессионном анализе получается подстановкой в регрессию значений независимых переменных. Таким образом, прогноз на основе уравнения регрессии является условным типа: «если независимые переменные равны таким-то величинам, то зависимая переменная составит такую-то величину».

Рассмотрим подробнее задачу прогноза на основе линейной модели. Предположим, что мы хотим распространить нашу модель, содержащую две переменные, на другие значения независимой переменной и поставить проблему прогнозирования среднего значения , соответствующего некоторому данному значению , которое может лежать как между выборочными наблюдениями от  до , так и вне соответствующего интервала. Наш прогноз может быть  точечным или интервальным.

В случае точечного прогноза мы определяем

.                                      (2.20)

Мы не останавливаемся здесь на доказательстве того, что наилучшей несмещенной линейной оценкой для (2.20) будет , где  и  - МНК-оценки (2.5). Обоснование этого факта можно найти, например, в [4].

Итак, .

Вычислим дисперсию величины :

.

После постановки значений дисперсий и ковариаций МНК-оценок для линейной модели в форме (2.6) - (2.8) с точностью до значения неизвестной дисперсии ошибок наблюдений , получим

                    .

Последнее выражение в силу того, что , может быть сведено к виду:

.               (2.21)

Отсюда видно, что дисперсия прогноза возрастает по мере удаления значения  от среднего , использованного для расчета  и .

Подставляя в (2.21) вместо  ее несмещенную оценку , мы получим оценку дисперсии прогнозируемого значения . Тогда доверительный интервал для прогностического значения  можно записать в виде

,                            (2.22)

где ,  - доверительная вероятность.

Построением доверительного интервала решается задача интервального прогноза.

Рассмотрим пример построения линейной регрессии, статистического анализа полученных результатов и прогноза по модели.

Пример 2.2 [3]. Исследуем зависимость розничного товарооборота (млрд. руб.) магазинов от среднесписочного числа работников. Товарооборот как результирующую объясняемую переменную обозначим через , а среднесписочное число работников (чел.) как независимую объясняющую переменную (фактор или регрессор) – через . На объем товарооборота оказывают также влияние такие факторы, как объем основных фондов, их структура, площади торговых залов и подсобных помещений, расположение магазинов по отношению к потокам покупателей, сезонность и др. Предположим, что в исследуемой группе магазинов значения этих последних факторов примерно одинаковы, поэтому влияние различия их значений на изменение объема товарооборота оказывается незначительно. То есть можно считать, что анализ зависимости производится в условиях гомоскедастичности ошибок наблюдений.

В табл. 2.2. во втором и третьем столбцах приведены значения соответственно объемов розничного товарооборота и среднесписочного числа работников, а в следующих столбцах – значения расчетных величин, необходимых для определения оценок коэффициентов линейной регрессии, их дисперсий и дисперсии случайной составляющей, а также статистик, необходимых для верификации модели.

Используем итоги столбцов 4-6  для определения оценок коэффициентов регрессии по формулам (2.5):

                      (2.23)

Таким образом, уравнение линии регрессии, найденное по результатам наблюдений, можно записать в виде

.

Подставляя в это уравнение значения , определим  (выравненные или вычисленные по модели значения результирующего признака). Заполнив столбцы 7-9 и определив итоги по этим столбцам, найдем оценку дисперсии случайной составляющей или ошибки :

.

Таблица 2.2.

Результаты наблюдений и необходимые расчеты

для построения линейной регрессии

Порядковый номер магазина

1

2

3

4

5

6

7

8

9

1

73

0,5

5 329

0,25

36,5

0,43

0,07

0,0049

2

85

0,7

7 225

0,49

59,5

0,661

0,039

0,0015

3

102

0,9

10 404

0,81

91,8

0,998

-0,088

0,0077

4

115

1,1

13 225

1,21

126,5

1,239

-0,139

0,0193

5

122

1,4

14 884

1,96

170,8

1,373

0,027

0,0007

6

126

1,4

15 876

1,96

176,4

1,45

-0,05

0,0025

7

134

1,7

17 956

2,89

227,8

1,604

0,096

0,0092

8

147

1,9

21 609

3,61

279,3

1,854

0,046

0,0021

Итог

904

9,6

106 508

13,18

1168,6

1,199

0,001

0,0479

Для построения интервальных оценок параметров регрессии найдем по формулам (2.6), (2.7) оценки дисперсий точечных оценок этих параметров:

 

    

При доверительной вероятности  получаем . Согласно формулам (2.9), (2.10) имеем

,

или

                                   (2.24)

Итак, наилучшие точечные оценки неизвестных параметров, соответствующие  результатам наблюдений, определяются (2.23), и все их возможные значения, выходящие за пределы интервалов (2.24), маловероятны.

Проверка значимости коэффициентов регрессии – это проверка гипотез  и  при альтернативных  и . Наблюдаемые значения -статистик, вычисленные по формулам  (2.12), (2.13), для этих гипотез равны соответственно  и . Критическая точка для 5% уровня значимости и числа степеней свободы  равна . Так как в обоих случаях , то гипотезы о незначимости коэффициентов регрессии следует отвергнуть, т. е. считать, что как среднесписочное число работников, так и другие не учтенные в модели факторы существенно влияют на объем розничного товарооборота.

Проверку гипотез  здесь можно было бы провести и с использованием построенных доверительных интервалов для параметров модели: интервальные оценки этих параметров есть области принятия нулевых гипотез. Так как интервальные оценки теоретических коэффициентов регрессии не содержат гипотетических значений, равных нулю, то гипотезы  в том и в другом случаях следует отвергнуть.

Верификацию модели осуществим вначале дисперсионным анализом одномерной регрессии.

Для расчета сумм квадратов ,  и , составим вспомогательную табл. 2.3, имея в виду, что .

Итак, ,  и . Очевидно, здесь

(мы вынуждены поставить знак приближенного равенства из-за погрешностей округления).

Вычисления, необходимые для дисперсионного анализа, сведем в табл. 2.4.

Таблица 2.3

Расчет сумм квадратов

Порядковый номер магазина

1

2

3

4

5

6

7

8

9

1

0,5

0,43

-0,7

-0,77

0,07

0,49

0,5929

0,0049

2

0,7

0,661

-0,5

-0,539

0,039

0,25

0,2905

0,0015

3

0,9

0,998

-0,3

-0,202

-0,088

0,09

0,0408

0,0077

4

1,1

1,239

-0,1

0,039

-0,139

0,01

0,0015

0,0193

5

1,4

1,373

0,2

0,173

0,027

0,04

0,030

0,0007

6

1,4

1,45

0,2

0,25

-0,05

0,04

0,0625

0,0025

7

1,7

1,604

0,5

0,404

0,096

0,25

0,1632

0,0092

8

1,9

1,854

0,7

0,654

0,046

0,49

0,4277

0,0021

Итог

9,6

1,199

0,0

0,009

0,001

1,66

1,6091

0,0479

Так как  , то гипотеза  отвергается, т. е. результаты наблюдений не противоречат предположению о наличии связи и о ее линейности.

Коэффициент детерминации  показывает, что в исследуемой ситуации 97% общей дисперсии розничного товарооборота объясняется изменениями числа работников, в то время как на все остальные факторы приходится лишь 3% изменчивости товарооборота.

Найдем коэффициент корреляции. Используя формулу (2.18), получим

.

Таблица 2.4

Дисперсионный анализ в регрессии

Источник дисперсии

Число степ. свободы

Сумма квадратов

Средний квадрат

Критерий Фишера

Критическая точка

Гипотеза

Регрессор

1

1,6091

1,6091

Ошибка (остаток)

6

0,0479

0,008

Общая дисперсия (итог)

7

1,66

Коэффициент детерминации здесь также равен . Высокое значение как коэффициента корреляции, так и коэффициента детерминации свидетельствует о том, что данные наблюдений хорошо согласуются с представлением их в виде линейной регрессионной модели.

Дадим интерпретацию коэффициентам регрессии. Если не учитывать, что мы имеем не теоретическую, а эмпирическую линию регрессии, то коэффициент  показывает, что увеличение среднесписочной численности на одного человека приводит к увеличению объема товарооборота в среднем на 19,24 млн. руб. Это своего рода эмпирический норматив приростной эффективности использования работников данной группы магазинов. Если увеличение численности на одного работника приводит к меньшему росту объема товарооборота, то прием его на работу необоснован.

Отрицательное значение коэффициента  означает, что если мы рассмотрим магазины без работников, то объем товарооборота будет снижаться; хотя сама ситуация может показаться парадоксальной. Здесь константа определяет положение линии регрессии на графике.

Полученное уравнение регрессии может быть использовано для прогноза. В частности, пусть намечается открытие магазина такого же типа с численностью работников  чел., тогда достаточно обоснованный объем товарооборота следует установить по уравнению регрессии

млрд.руб.

Доверительный интервал с надежностью  для теоретического значения прогноза определим по формуле (2.22):

или                                         .

То есть мы на 95% уверены в том, что объем товарооборота для магазинов с численностью работников 140 чел. будет в указанных пределах.

2.7. Нелинейная регрессия

Многие экономические процессы наилучшим образом описываются нелинейными соотношениями, например, нелинейными функциями спроса и производственными функциями. Здесь мы рассмотрим нелинейные модели, которые с помощью преобразования переменных, сводятся к линейным, и потому для их построения могут использоваться описанные выше приемы.

В случае простого регрессионного анализа (линейного однофакторного) речь идет об уравнениях вида

,                                        (2.25)

состоящих из постоянной величины (которая может и отсутствовать), независимой переменной, умноженной на некоторый коэффициент, и случайной составляющей (ошибки), которой мы можем временно пренебречь. В общем случае линейное уравнение выглядит так

 .                          (2.26)

Уравнения вида

,                                         (2.27)

                                            (2.28)

являются нелинейными. Их графические изображения для выбранных значений  и  будут представлены кривыми.

Зависимости (2.27) и (2.28) считаются приемлемыми для описания кривых Энгеля, характеризующих соотношение между спросом на определенный товар () и общей суммой дохода (). Как можно определить параметры  и  в каждом уравнении, зная значения  и ?

Заметим, что уравнение (2.27) является линейным по неизвестным параметрам  и  и нелинейным по переменной . Поэтому оценки параметров могут быть найдены по формулам (2.5) (с заменой ). Уравнение (2.27) примет вид .

Нелинейность по переменным всегда можно обойти путем использования соответствующих определений. Например, для модели вида

можно определить ,  и т. д., тогда модель или соотношение примет вид

и теперь оно является линейным как по переменным, так и по параметрам. Такой тип преобразований является лишь косметическим, он не меняет свойств оценок, полученных для линейных моделей, и обычно уравнения регрессии записываются с нелинейными выражениями относительно переменных. Это позволяет избежать лишних обозначений.

Уравнение (2.28) является нелинейным как по параметрам, так и по переменной . Такое соотношение может быть преобразовано в линейное уравнение путем логарифмирования:

.                                     (2.29)

Если обозначить ,  и , то уравнение (2.29) можно переписать в следующем виде

.                                       (2.30)

Процедура оценивания регрессии теперь будет следующей. Сначала вычислим  и  для каждого наблюдения путем взятия логарифмов от исходных значений. Затем оценим регрессионную зависимость от . Коэффициент при  будет представлять собой непосредственно оценку . Постоянный член является оценкой , т. е. . Для получения оценки  необходимо взять антилогарифм, т. е. вычислить .

Функции вида (2.28) часто встречаются в эконометрическом моделировании. Для таких функций эластичность  по  равна . Действительно, если соотношение между  и  имеет вид (2.28), то эластичность

.

Оценка этого коэффициента по результатам наблюдений будет показывать, на сколько процентов в среднем изменится значение  при изменении  на 1% от своего среднего значения. Например, если имеется кривая Энгеля вида  ( - спрос, а  - доход), то это означает, что эластичность спроса по доходу равна 0,3, т. е. изменение  на 1% от среднего уровня  вызывает изменение  на 0,3% от среднего уровня .

Функция вида (2.28) может также применяться к кривым спроса, где  - спрос на товар,  - цена товара, а  - эластичность спроса по цене. (На практике обычно такая функция спроса объединяется с кривой Энгеля, в результате чего получается зависимость спроса одновременно от дохода и цены.)

При моделировании процессов в экономике могут использоваться и показательные (или экспоненциальные) функции вида

.                                        (2.31)

Наиболее общим их приложением является случай, когда предполагается, что переменная  имеет постоянный темп прироста во времени, в этом случае вместо  обычно используется время (), а вместо  - постоянный темп прироста ():

.                                        (2.32)

Если зависимость  от  задана уравнением (2.32), то абсолютный прирост  за единицу времени  определяется как

.

Следовательно, относительный прирост  за единицу времени можно записать так

.

Следует помнить, что оценка , которую мы получаем при оценивании регрессии (2.32), представляет собой оценку темпа прироста в абсолютном выражении. Обычно говорят о процентных темпах прироста, это значит, что полученную оценку нужно умножить на 100. Следовательно, если оценка составляет 0,053, это означает, что темп прироста в процентах будет 5,3% за период.

Как же найти оценки неизвестных параметров модели (2.32)? Если имеются значения  для нескольких временных периодов , то параметры  и  можно оценить, если прологарифмировать (по основанию ) обе части уравнения (2.32):

.                                   (2.33)

Если определить  и , то из соотношения (2.33) получим:

.

Таким образом, оценивая регрессию между  и , мы непосредственно получаем по формулам (2.5) оценку темпа прироста  и . Обычно оценка параметра  имеет второстепенное значение, но если она представляет интерес, то можно получить , потенцируя .

Пример 2.3. [5]. Предположим, что по результатам наблюдений за расходами на питание в США за период с 1959 по 1983 г. была построена кривая Энгеля в виде соотношения (2.28). Преобразованное в результате логарифмирования и оцененное выражение имело вид:

.

Выполнив обратные преобразования, получим

.

Если уравнение (2.28) представляет собой правильную формулу зависимости, т. е. модель адекватна, то полученный результат предполагает, что эластичность спроса на продукты питания по доходу составляет 0,55, что означает, что увеличение личного располагаемого дохода на 1% от среднего уровня  приведет к увеличению расходов на питание на 0,55% от среднего уровня . Коэффициент 3,32 не имеет простого толкования. Он помогает прогнозировать значения  при заданных значениях , приводя их к единому масштабу.

Те же данные о расходах на питание были использованы для оценивания экспоненциального временного тренда типа (2.32), также приведенного к линейному виду путем логарифмирования [см. уравнение (2.33)]. Оцененная зависимость имеет вид:

.

Выполнив обратные преобразования, получим:

.

Уравнение показывает, что расходы на продукты питания в течение выборочного периода росли с темпом 2% в год. В этом случае постоянный множитель имеет интерпретацию, так как он «прогнозирует», что в момент , т. е. в 1958 г. общие расходы на питание составили 97,5 млрд.долл. Такой прогноз, безусловно, не имеет важного значения, так как легко можно найти в справочниках действительные расходы на питание в 1958 г.

До сих пор мы ничего не говорили о том, как осуществленные преобразования модели (например, логарифмирование) повлияют на случайную составляющую . Основное требование здесь состоит в том, чтобы случайная составляющая в преобразованном уравнении присутствовала в виде слагаемого и удовлетворяла условиям 3а – 3с (см. параграф 2.1). В противном случае коэффициенты регрессии, полученные по методу наименьших квадратов, не будут обладать обычными свойствами и проводимые для них выводы на основе проверки гипотез окажутся недостоверными.

В случае нелинейных регрессий степень концентрации распределения наблюдаемых точек вблизи линии регрессии показывает корреляционное отношение или индекс корреляции

,                                  (2.34)

где  - рассчитанные по модели значения переменной ,  - фактические или наблюдаемые значения этой переменной,  - среднее значение , найденное по  наблюдениям, .

Из определения индекса корреляции следует, что . Если  имеет место функциональная зависимость (все точки сосредоточены на кривой регрессии), если   и  некоррелированы.

В отличие от линейного коэффициента корреляции индекс корреляции характеризует тесноту нелинейной связи между переменными в соответствии с той функциональной зависимостью, по которой рассчитаны значения . Он не характеризует направление связи. Очевидно, что если значения  рассчитаны по уравнению парной линейной регрессии, значения индекса корреляции и линейного коэффициента корреляции по абсолютной величине совпадут.

Здесь также определяется коэффициент детерминации , интерпретация которого чаще всего дается в процентах. Как и в случае линейной регрессии, коэффициент детерминации показывает ту долю вариации переменной , которая объяснена вариацией фактора , включенного в уравнение регрессии.

Вопросы для самопроверки и упражнения

2.1. Перечислите основные гипотезы регрессионного анализа и обсудите их.

2.2. Каковы источники случайной составляющей регрессионной модели.

2.3. Исследователь имеет ежегодные данные о временных рядах для совокупной заработной платы (), совокупной прибыли () и совокупного дохода () для страны за период в  лет. По определению

.

Используя метод наименьших квадратов, получаем уравнение регрессии:

;

.

Покажите, что коэффициенты регрессии будут автоматически удовлетворять следующим уравнениям

,

.

Объясните на интуитивном уровне, почему это должно быть именно так.

2.4. Выведите формулу для МНК-оценки параметра  уравнения , т. е. методом наименьших квадратов по  наблюдениям  получите оценку коэффициента наклона в регрессии без свободного члена.

2.5. Наблюдения 16 пар  дали следующие результаты: , , , , . Оцените регрессию  и проверьте гипотезу, что коэффициент  равен 1,0.

2.6. Уравнения регрессии между расходами на коммунальные услуги () и располагаемым личным доходом () временем () имеют вид (в скобках указаны стандартные ошибки):

, .

                   

Постройте доверительные интервалы теоретических коэффициентов моделей, проверьте значимость коэффициентов там, где это необходимо.

2.7. Предположим, что по принятой гипотезе 10% предельного дохода расходуется на питание. Проверьте эту гипотезу, используя результат оценивания регрессии, представленной в уравнении

.

     

2.8. Как определить качество модели ?

2.9. Используя данные наблюдений:

Наблюдения

1

2

3

1

2

3

3

5

6

3,1667

4,6667

6,1667

вычислите коэффициент корреляции и коэффициент детерминации. Какой вывод можно сделать на основании полученных значений?

2.10. В упражнении 2.6. значение коэффициента  в модели регрессии между расходами на коммунальные услуги  и располагаемым личным доходом составило 0,9875. Вычислите соответствующую -статистику и проверьте гипотезу об адекватности этой модели при уровнях значимости 0,05 и 0,01.

2.11. Интерпретируйте результаты оценивания регрессий в упражнении 2.6., дайте им экономическое толкование.

2.12. Используя уравнение регрессии (упр. 2.6.), получите точечный и интервальный прогнозы предполагаемых расходов на оплату жилья, если располагаемый личный доход составит 700 (у. е.).

2.13. Могут ли следующие нелинейные уравнения быть преобразованы в уравнения, линейные по параметрам?

а)  ,

б)  ,

в)  ,

г)  .

2.14. Логарифмические регрессии между а) расходами на продукты питания или б) на оплату жилья и личным располагаемым доходом имели следующий вид (в скобках приведены стандартные ошибки):

а) ;  ,

            

б) ;  .

               

Проверьте соответствующие статистические гипотезы и определите 95%-доверительный интервал для эластичности по доходу в каждом случае.

2.15. В каком случае точечный прогноз на основе линейной модели является несмещенным?


Глава 3. Многомерная регрессионная модель

Естественным обобщением регрессионной модели с двумя переменными является многомерная регрессионная модель или модель множественной регрессии. В этой главе регрессионный анализ по методу наименьших квадратов обобщается для случая, когда в модели вместо одной независимой переменной-фактора используется несколько независимых переменных-факторов количественной и качественной природы.

3.1. Линейная модель множественной регрессии

Начнем с рассмотрения примера, в котором определяются факторы совокупного спроса на продукты питания. Расширим первоначальную модель (см. п. 2.1), чтобы учесть влияние ценовых изменений на спрос, и , допустим, что истинную зависимость можно выразить следующим образом:

,                                  (3.1)

где  - общая величина расходов на питание,  - располагаемый личный доход, а  - цена продуктов питания.

Геометрическая иллюстрация этой зависимости представлена на рис. 3.1.

Рис. 3.1. Истинная модель с двумя независимыми переменными: расход как функция дохода и цены

Основание этой диаграммы содержит оси для  и , и если пренебречь текущим влиянием случайной составляющей , то наклонная плоскость над ним показывает значение , соответствующее любому сочетанию  и  и равное расстоянию от данной точки  до этой плоскости. Так как расходы на питание могут увеличиваться с ростом доходов и уменьшаться с увеличением цены, изображение на рис. 3.1. построено с учетом того, что , а . Если  и , то . При сохранении  уравнение (3.1) означает, что для любого положительного дохода , и на рисунке приращение  обозначено как «чистый эффект дохода». При сохранении  уравнение означает, что для любой положительной цены , приращение  на рисунке обозначено как «чистый эффект цены». Поскольку  на практике является отрицательной величиной, отрицательным будет и этот эффект. Показан также комбинированный эффект дохода и цены .

Если пренебречь случайной составляющей, то значения  в выборке наблюдений для ,  и  будут находиться точно на наклонной плоскости. Учет случайного члена приводит к тому, что мы имеем разброс точек, соответствующих фактическим наблюдениям, относительно этой плоскости. Следовательно, теперь мы имеем трехмерный аналог для двумерной задачи, показанной на рис. 2.1. Вместо нахождения линии, соответствующей двумерному рассеянию точек, мы теперь должны расположить плоскость так, чтобы она соответствовала трехмерному рассеянию. Уравнение для выбранной плоскости будет иметь вид:

,

и ее расположение будет зависеть от выбора оценок , , .

Как и в случае парной регрессии, мы стремимся получить оптимальные оценки для неизвестных истинных значений параметров, чтобы обеспечить наилучшее соответствие результатам наблюдений.

Рассмотрим теперь общую линейную модель с  переменными. Пусть существует линейное соотношение между объясняемой переменной ,  объясняющими переменными-регрессорами , и случайным возмущением (ошибкой) . Если мы имеем выборку  наблюдений над этими переменными, то можно записать

.                         (3.2)

Коэффициенты  и параметры распределения случайной величины  неизвестны. Наша задача состоит в получении наилучших их оценок.

Гипотезы, лежащие в основе многомерной регрессионной модели, являются естественным обобщением двумерной модели:

  1.  ,  - спецификация модели,

или                                                   (3.3)

(то есть можно различать модели со свободным членом вида (3.2) или без свободного члена; очевидно, в модели (3.2) переменная  для всех ).

  1.   - детерминированные величины; векторы , , ,  - линейно независимы в .

3а. ,  для всех .

3b.  при  - статистическая независимость (некоррелированность) ошибок для разных наблюдений.

3с. , т. е.  - нормально распределенная случайная величина со средним 0 и дисперсией .

В этом случае модель называется нормальной линейной регрессионной.

В дальнейшем, стремясь к наибольшей компактности изложения, будем использовать матричные обозначения.

Обозначим через   матрицу (вектор-столбец) наблюдений над объясняемой переменной ,  -  вектор коэффициентов;  -  вектор ошибок;

 -   матрица значений             

объясняющих переменных.

Условия 1 – 3 в матричной записи выглядят следующим образом:

  1.    – спецификация модели;
  2.   - детерминированная матрица, имеющая максимальный ранг , .

3a.b. ,  

(здесь матрица  называется матрицей вариаций или матрицей дисперсий-ковариаций: диагональные элементы этой матрицы равны дисперсиям ошибок , внедиагональные элементы характеризуют корреляционные связи; через  обозначена  единичная матрица).

Дополнительное условие

3с. .

В случае выполнения предпосылок 1 – 3с имеем нормальную линейную модель множественной регрессии.

3.2. Оценивание неизвестных параметров модели

Как и в случае регрессионного уравнения с одной переменной (см. п. 2.2) оценки неизвестных параметров  модели (3.3) находятся по методу наименьших квадратов из условия минимума суммы квадратов ошибок наблюдений:

.

В матричных обозначениях: .            (3.4)

Необходимые условия экстремума дают систему нормальных уравнений:

, .

Или в матричных обозначениях:

.

Откуда, учитывая существование матрицы  в силу условия 2 (), находим МНК-оценку для вектора неизвестных параметров

.                                  (3.5)

(Сравните с аналогичной формулой (2.5), полученной для регрессионного уравнения с одной независимой переменной, и попытайтесь получить ее, используя общее решение в матричном виде).

Докажем, что МНК-оценки (3.5) являются несмещенными. Действительно, так как , то

и

.

Найдем матрицу вариаций МНК-оценки (3.5). Для этого подставим вначале в (3.5) значение , получим

,

отсюда             .

Матрица вариаций оценок  равна

.

Используя полученное выше значение для , получаем

.              (3.6)

При выводе этой формулы мы учли, что  (условие 3b) и что .

Реально величина , характеризующая дисперсию ошибок наблюдений, неизвестна. Получим сейчас ее несмещенную оценку .

Минимальное значение величины  в (3.4) получится тогда, когда вместо  подставляется его МНК-оценка:

.             (3.7)

Здесь  - вектор прогнозных значений,  - вектор остатков регрессии.

Учитывая значение  из (3.5) и , получим

.

Отсюда, так как ,

.

Матрица  является идемпотентной: . И поэтому

.

Найдем математическое ожидание от . Для этого воспользуемся тем, что если мы имеем квадратичную форму

,

то, учитывая, что  для всех  и  для , получаем

(здесь  - след матрицы , равный сумме ее диагональных элементов).

Поэтому

.

Но , а .

Следовательно,

.

Теперь мы можем указать несмещенную оценку для величины :

.                            (3.8)

Действительно, по только что доказанному соотношению, .

Формула (3.8) позволяет записать оценку матрицы вариаций (3.6) и тем самым оценку дисперсий МНК-оценок неизвестных параметров модели:

;

.                              (3.9)

Для  можно также получить выражение

.                          (3.10)

МНК-оценки (3.5) обладают также наименьшей дисперсией в классе линейных несмещенных оценок, т. е. являются наиболее эффективными (теорема Гаусса-Маркова [3,4,9]).

3.3. Доверительные интервалы и проверка 

статистических гипотез

Статистический анализ множественной линейной регрессии для нормальной модели производится по аналогии с тем, как это делалось в случае двумерной модели.

Проверка гипотезы  по -критерию, статистика которого

,                                 (3.11)

выполняется для коэффициентов множественной регрессии так же, как это делается в парном регрессионном анализе (см. п. 2.3). Отметим, что критическая точка  при любом уровне значимости  зависит от числа степеней свободы, которое равно , где  - число наблюдений,  - число оцененных параметров модели.

Доверительные интервалы определяются точно так же, как и в случае двумерной регрессионной модели, с учетом замечания относительно числа степеней свободы. Так, доверительный интервал вида

                     (3.12)

покроет истинное неизвестное значение параметра  с доверительной вероятностью или надежностью .

Очевидно гипотеза  будет принята с уровнем значимости , если соответствующий доверительный интервал содержит гипотетическое значение .

Отметим, что проверка значимости коэффициентов регрессии или значимости влияния регрессоров – это проверка гипотез . Регрессор принимается статистически незначимым, если доверительный интервал для соответствующего коэффициента регрессии покрывает нуль.

3.4. Качество модели: дисперсионный анализ 

и коэффициент

Качество оценивания многомерной регрессии, как и в случае регрессионной модели с одной независимой переменной, можно определить дисперсионным анализом в модели и с использованием коэффициента детерминации .

Общая сумма квадратов  разбивается здесь на две части: объясненную регрессионным уравнением и не объясненную (т. е. связанную с ошибками ):

,

где , .

Гипотеза об отсутствии линейной функциональной связи между объясняемой переменной  и регрессорами  может быть записана как  (мы предполагаем, что в число регрессоров включена константа – свободный член), т. е. нулевая гипотеза состоит в том, что коэффициенты при всех регрессорах равны нулю.

Для проверки этой гипотезы используется критерий, статистика которого

        (3.12)

имеет распределение Фишера с соответствующими числами степеней свободы.

Если , гипотеза  отвергается на уровне значимости ; уравнение в целом значимо и оцененная линейная множественная регрессия

 

пригодна для описания зависимости между  и .

Вычисления, необходимые для дисперсионного анализа множественной регрессии, обычно сводят в таблицу (табл. 3.1).

Таблица 3.1

Регрессионный анализ множественной регрессии

Источник дисперсии

Число степе-ней свободы

Сумма квадратов

Средний квадрат

Критерий Фишера

Критическая точка

Гипотеза

Модель (регрес-соры

)

Ошибка (остаток)

Общая диспер-сия (итог)

Как и ранее в (2.15), определим коэффициент детерминации

.                           (3.13)

Коэффициент  показывает качество подгонки регрессионной модели к наблюденным значениям .

Если , то регрессия не улучшает качество предсказания  по сравнению с тривиальным предсказанием . Другой крайний случай  означает точную подгонку: все точки наблюдений лежат на регрес

сионной плоскости.

Определенная в (3.12) -статистика с учетом коэффициента детерминации  определится как

.

Заметим, что при добавлении еще одного регрессора или еще одной объясняющей переменной к уравнению регрессии коэффициент , вообще говоря, возрастает. Если взять число регрессоров равным числу наблюдений, всегда можно добиться того, что , но это вовсе не будет означать, что существует содержательная, имеющая экономический смысл зависимость  от регрессоров. Для того, чтобы устранить эффект, связанный с ростом  при возрастании числа регрессоров, вводится скорректированный коэффициент детерминации :

.                    (3.14)

Корректировка  на число регрессоров оправдана тем, что числитель дроби в (3.14) есть несмещенная оценка дисперсии ошибок, а знаменатель – несмещенная оценка дисперсии .

Для скорректированного коэффициента детерминации  справедливо

.

Отсюда, по мере роста  увеличивается отношение , и, следовательно, возрастает размер корректировки коэффициента  в сторону уменьшения, т. е.  для .

Использование скорректированного коэффициента детерминации   более корректно для сравнения регрессий при изменении числа регрессоров. Однако следует иметь в виду, что иногда даже плохо определенная модель регрессии может дать высокий коэффициент детерминации , и признание этого факта привело к снижению значимости . Теперь он рассматривается лишь как один из показателей, который должен быть проверен при построении модели регрессии. Следовательно, и корректировка этого коэффициента мало что дает.

3.5. Интерпретация коэффициентов 

множественной регрессии

Множественный регрессионный анализ позволяет разграничить влияние независимых переменных, допуская при этом возможность их коррелированности (проблема наличия связи между регрессорами или их мультиколлинеарность будет обсуждаться в п. 4.1.). Коэффициент регрессии при каждой переменной  дает оценку ее влияния на величину  в случае неизменности влияния на нее всех остальных переменных . Так, например, в оцененной регрессии

коэффициенты  и  являются показателями силы связи, характеризующими абсолютное (в натуральных единицах измерения) изменение объясняемой переменной  при изменении каждого из  и  соответственно на единицу своего измерения при фиксированном влиянии второй переменной.

Относительными показателями силы связи в уравнении множественной регрессии являются частные коэффициенты эластичности:

где  и  - выборочные средние величины объясняющей переменной  и результирующего показателя  соответственно, значения которых подсчитаны в ходе статистического анализа рассматриваемой регрессионной модели.

Эластичность  показателя  по переменной  приблизительно определяет на сколько процентов изменится значение  от своего среднего уровня при изменении объясняющей переменной  на 1% от ее среднего уровня.

Пример 3.1. На предприятиях Российской Федерации изучалась зависимость объема производства  от капитальных вложений  и выполнения нормы выработки . Исходные данные для 14 предприятий приведены в табл. 3.2.

В данном примере мы располагаем пространственной выборкой объема ; число объясняющих переменных . Специальный анализ технологий сбора исходных статистических данных показал, что гипотеза о взаимной некоррелированности и гомоскедастичности ошибок наблюдений может быть принята. Поэтому мы можем записать уравнения статистической связи между  и  в виде

 

с выполнением условий 2 - 3с (см. п. 3.1.).

Матрица  будет составлена из трех столбцов размерности 14 каждый; в качестве первого столбца используется вектор, состоящий из единиц, а столбцы 2 и 3 представлены соответственно 3 и 4 столбцами табл. 3.2. Вектор-столбец  определяется 2-м столбцом табл.3.2.

Таблица 3.2.

Данные об объеме производства ( - млн.руб.) капитальных вложениях ( - млн.руб.) и выполнении нормы выработки ( - %)

Номер предприятия

1

2

3

4

1

52,8

16,3

99,5

2

48,4

16,8

98,9

3

52,4

18,5

99,2

4

50,0

16,3

99,3

5

54,9

17,9

99,8

6

53,9

17,4

99,6

7

53,8

17,5

99,5

8

53,1

16,1

99,8

9

52,4

16,2

99,7

10

53,0

17,0

99,8

11

52,9

16,7

99,9

12

53,1

17,5

100,0

13

60,1

19,1

100,2

14

60,0

19,0

100,1

Итог

750,8

242,3

1395,3

Средний итог

53,63

17,31

99,66

Применение формулы (3.5) к исходным данным позволяет получить следующие МНК-оценки для параметров модели:

, , .

Таким образом, оценка множественной регрессии в данном случае имеет вид

                      (3.15)

Сумма квадратов остатков, вычисленная по формуле (3.7) с использованием результатов оценивания уравнения (3.15), равна . Отсюда несмещенная оценка дисперсии ошибок наблюдений получится равной . С учетом этого можно записать оценку матрицы вариаций МНК-оценок коэффициентов регрессии:

(диагональные элементы этой матрицы равны оценкам дисперсий МНК-оценок ; внедиагональные – и ковариациям).

Стандартная форма компьютерной выдачи результатов счета, объединяющая информацию о значениях оценок регрессии  и их средних квадратических ошибках , как правило, имеет следующий вид:

                                              

В скобках под значениями оцененных коэффициентов регрессии  указаны несмещенные оценки их средних квадратических отклонений .

Соответствующие –статистики для проверки гипотез :   равны   и  соответственно. Критическая точка . Сравнение полученных значений -статистик с критической точкой показывает, что нулевые гипотезы о статистической незначимости коэффициентов регрессии должны быть отвергнуты.

Качество всей модели в целом определим дисперсионным анализом модели. Вычисления, необходимые для этого, сведем в табл. 3.3. Так как значение –статистики, найденное по модели, больше критической точки, гипотеза об отсутствии линейной функциональной связи между объемом производства , капитальными вложениями  и выполнением нормы выработки  отвергается. Коэффициент детерминации .

Зависимость  от  характеризуется как тесная, в которой 88,4% вариации объема производства определяются вариацией учтенных в модели факторов.

Для характеристики силы влияния  на  и на  рассчитываем частные коэффициенты эластичности: .

 

С увеличением капитальных вложений  на 1% от их среднего уровня объем производства  возрастает на 0,617% от своего среднего уровня; при увеличении выполнения нормы выработки  на 1% от своего среднего уровня объем производства  возрастает на 8,347%.

Таблица 3.3.

Дисперсионный анализ множественной регрессии

Источник дисперсии

Число степ. свободы

Сумма квадратов

Средний квадрат

Критерий Фишера

Крит. точка

Гипотеза

Модель (регрессоры )

2

113,56

56,778

41,8673

3,98

Ошибка (остаток)

11

14,918

1,3561

Общая дисперсия (итог)

13

128,47

Очевидно, что сила влияния выполнения нормы выработки  на объем производства оказалась больше, чем сила влияния капитальных вложений . На этот же факт указывает и сравнение оценок коэффициентов регрессии:

3.6. Множественная регрессия в нелинейных моделях

Во второй главе было показано, что линейные модели регрессии могут быть описаны как линейные в двух отношениях: как линейные по переменным и как линейные по параметрам или коэффициентам регрессии. Для линейного регрессионного анализа требуется линейность только по параметрам, так как нелинейность по переменным может быть устранена либо изменением определений, либо, если это возможно, логарифмированием.

Например, зависимость

является линейной по неизвестным параметрам  и нелинейной по переменным  Для определения МНК-оценок этих параметров можно воспользоваться формулой (3.5), имея в виду, что первый столбец матрицы  будет состоять из единиц, второй – из квадратов наблюдений над переменной , а третий – из корней квадратных из данных для переменной . Если случайная составляющая (не показана явно в уравнении) удовлетворяла условиям 2 - 3с (см. п. 3.1.), то свойства МНК-оценок, полученных при этом, будут совпадать со свойствами МНК-оценок параметров модели (3.2).

Нелинейность по параметрам является более серьезной проблемой. Если, однако, правая часть модели состоит из членов вида  или , умноженных друг на друга, а случайная составляющая мультипликативна, то модель может быть линеаризована логарифмированием обеих ее частей.

Пример 3.2. Функция спроса

где  – расходы на товар,  - доход,  - относительная цена, а  – случайная составляющая, может быть преобразована в линейную по параметрам модель:

Если вы оцениваете регрессию между данными для  и , то коэффициент при  будет непосредственной оценкой  – эластичности спроса по доходу, а коэффициент при  будет оценкой  – эластичности спроса по цене.

Пример 3.3. [5] Производственная функция Кобба-Дугласа.

В 1927 г. Пол Дуглас, экономист по образованию, обнаружил, что если нанести на одну и ту же диаграмму графики логарифмов показателей реального объема выпуска (), капитальных затрат () и затрат труда (), то расстояния от точек графика показателей выпуска до точек графиков показателей затрат труда и капитала будут составлять постоянную пропорцию. Затем он обратился к математику Чарльсу Коббу с просьбой найти математическую зависимость, обладающую такой особенностью, и Кобб предложил следующую функцию:

                                  (3.16)

Эта функция была предложена примерно 30 годами раньше Филипом Уикстидом, как было указано Ч. Коббом и П. Дугласом в их классической работе (Cobb, Douglas, 1929), но они были первыми, кто использовал для ее построения эмпирические данные.

Если провести линеаризацию уравнения (3.16) путем логарифмирования обеих его частей, то, используя МНК, мы получим две различные оценки . Коэффициент при  даст нам одну оценку, а коэффициент при , который является оценкой , позволит нам вычислить другую оценку. Вместо этого разделим обе части уравнения (3.16) на  и перепишем его следующим образом:

                                  (3.17)

(включая случайную составляющую ). В этой форме функция может быть интерпретирована как соотношение выпуска на одного работника и капитальным затратам на одного работника. Теперь логарифмируя ее, получим

При использовании для оценивания этого уравнения данных реального объема производства, реальных капитальных затрат и реальных затрат труда промышленности США в 1899-1922 гг. получены следующие результаты (в скобках указаны стандартные ошибки оценок коэффициентов модели):

 

                                                          .

Формула Кобба-Дугласа, конечно, является частным случаем более общей формулы:

                                       (3.18)

где показатели эластичности выпуска по затратам капитала и труда не связаны между собой. При линеаризации (3.18) путем логарифмирования и использовании тех же  данных, что и для модели (3.17),  получено

 

                                                     .

Здесь эластичность выпуска продукции по затратам капитала составляет 0,23, что очень близко к предыдущей оценке, а эластичность по затратам труда составляет 0,81, что несколько выше предыдущей оценки, равной 1-0,25=0,75.

Вопросы для самопроверки и упражнения

3.1. Перечислите свойства МНК-оценок линейной множественной регрессии и прокомментируйте их.

3.2. Что является основной характеристикой качества модели, ее прогностической силы?

3.3. Пятифакторное уравнение линейной регрессии для переменной  оценено по 31 наблюдениям. При этом объясненная регрессией и остаточная дисперсия соответственно равны 8 и 2. Вычислите коэффициент детерминации и расчетное или наблюдаемое значение –статистики.

3.4. Оценка множественной регрессии между расходами на коммунальные услуги, располагаемым личным доходом и индексом относительных цен получена в виде

Дайте экономическую интерпретацию этого результата. Почему он не может вас удовлетворить?

3.5. Оценка логарифмической регрессии между расходами на коммунальные услуги, располагаемым личным доходом и относительной ценой этих услуг получена по тем же данным, что и модель в упр. 3.4., и имеет вид

Дайте интерпретацию этого уравнения. Сравните ее с интерпретацией, данной для упражнения 3.4. В каком смысле она лучше?

3.6. На основе  наблюдений получено следующее уравнение регрессии зависимой переменной  на три независимые переменные :

Стандартные ошибки

            (2,1) (1,5)   (1,3)     (0,06)

-значения

           (11,9)  ( )       ( )          ( )

95%-доверительные границы

          (4,3)  ( )       ( )          ( )

а) Заполните пропуски.

б) Оцените значимость коэффициентов регрессии.

3.7. Бюджетное обследование пяти случайно выбранных семей дало следующие результаты (в млн.руб.):

Семья

Накопления,

Доход,

Имущество,

1

3

40

60

2

6

55

36

3

5

45

36

4

3,5

30

15

5

1,5

30

90

а) Оцените регрессию

б) Постройте 95%-доверительные интервалы для коэффициентов регрессии.

в) Проверьте с уровнем значимости  следующие гипотезы:

  1.   (стоимость имущества несущественна);
  2.   (величина дохода несущественна);
  3.   (такое значение коэффициента  могло быть с высокой степенью надежности установлено для другой страны и вас интересует вопрос, верно ли это для вашей страны).

г) Пусть некоторая семья имеет доход  млн.руб. и имущество стоимостью  млн.руб. Чему равна прогнозная величина ее накоплений?

д) Дайте оценку полученного уравнения на основе коэффициента детерминации и общего –критерия Фишера.


Глава 4. Некоторые особенности при изучении многомерной регрессии

В предыдущей главе рассматривались основные теоретические вопросы построения и анализа многомерных регрессионных моделей. Здесь мы рассмотрим некоторые особенности или проблемы, которые возникают при их практическом использовании.

4.1. Мультиколлинеарность

На практике исследователю нередко приходится сталкиваться с ситуацией, когда полученная им регрессия является «плохой», т.е. –статистики большинства оценок малы, что свидетельствует о незначимости соответствующих независимых переменных (регрессоров). В то же время –статистика (3.12) может быть достаточно большой, что говорит о значимости регрессии в целом. Одна из возможных причин такого явления носит название мультиколлинеарности и возникает при наличии высокой корреляции между регрессорами. Эта проблема является обычной для регрессий временных рядов, т.е. когда данные состоят из ряда наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют ярко выраженный тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности.

Одним из условий классической регрессионной модели является предположение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы исходных данных  или (эквивалентно), что матрица  имеет полный ранг  (, где  – число оцениваемых параметров модели). Это предположение потребовалось, чтобы обеспечить обратимость матрицы , необходимую для вычисления МНК-оценки . (Если ранг матрицы  меньше , то и ранг  меньше , т. е. матрица  оказывается вырожденной, ее определитель равен нулю, а значит не существует обратная матрица ). При нарушении этого условия, т.е. когда один из столбцов матрицы  есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить МНК-оценку , что формально следует из вырожденности матрицы  и невозможности решить систему нормальных уравнений.

Нетрудно также понять и содержательный смысл этого явления. Рассмотрим следующий простой пример регрессии:

где  - потребление,  - зарплата,  - доход, получаемый вне работы,  - полный доход. Поскольку выполнено равенство , то для произвольного числа  исходную регрессию можно переписать в следующем виде

где   

Таким образом, одни и те же наблюдения могут быть объяснены различными наборами коэффициентов , т. е. мы наблюдаем неединственность МНК-оценок. Кроме того, если с учетом равенства  переписать исходное уравнение в виде

,

то ясно, что оценить можно три параметра , , , а не четыре исходных.

В общем случае можно показать, что если , то оценить можно только  линейных комбинаций исходных коэффициентов (так называемых параметрических функций). Если есть полная коллинеарность, то можно выделить в матрице  максимальную линейно независимую систему столбцов и, удалив остальные столбцы, провести новую регрессию.

На практике полная коллинеарность (т.е. когда все или некоторые из объясняющих переменных подчиняются точной (функциональной) линейной связи) встречается исключительно редко (так как ее несложно избежать уже на предварительной стадии анализа и отбора множества объясняющих переменных). Гораздо чаще приходится сталкиваться с ситуацией, когда матрица  имеет полный ранг, но между регрессорами имеется высокая степень корреляции, т. е. когда матрица , говоря нестрого, близка к вырожденной, . Тогда говорят о наличии мультиколлинеарности. В этом случае МНК-оценки формально существуют, но обладают «плохими» свойствами. Это нетрудно объяснить, используя геометрическую интерпретацию МНК.

Регрессию можно рассматривать как проекцию в пространстве  вектора  на векторы, образованные столбцами матрицы . Если между этими векторами существует приблизительная линейная зависимость, то операция проектирования становится неустойчивой: небольшое изменение в исходных данных может привести к существенному изменению оценок.

На рис.3.2. представлено разложение вектора наблюдений  на оси, соответствующие двум независимым переменным  и .

Векторы  и  мало отличаются друг от друга, но в силу того, что угол между регрессорами  и  мал, разложения проекций этих векторов по  и  отличаются значительно.

Рис. 3.2.

У проекции вектора  оба коэффициента разложения по  и  (отметим, что это и есть МНК-оценки) положительны и относительно невелики. У проекции вектора  коэффициент при  принимает отрицательное значение, а коэффициент при  значительно больше. В силу этого обстоятельства интерпретация коэффициентов регрессии становится весьма проблематичной.

Реальная (или частичная) мультиколлинеарность возникает в случаях, когда между объясняющими переменными существуют достаточно тесные линейные статистические связи. Точных количественных критериев для определения наличия или отсутствия мультиколлинеарности не существует. Тем не менее, возможны некоторые рекомендации по ее выявлению.

  1.  В первую очередь анализируют матрицу парных коэффициентов корреляции, точнее, ту ее часть, которая относится к объясняющим переменным. Считается, что если значения коэффициентов корреляции по абсолютной величине больше 0,75 - 0,80, то это свидетельствует о присутствии мультиколлинеарности.
  2.  Если  оказывается близким к нулю (допустим, одного порядка с накапливающимися ошибками вычислений), то это тоже свидетельствует о наличии мультиколлинеарности.
  3.  Важную роль в анализе мультиколлинеарности играет и минимальное собственное число  матрицы . Если  близко к нулю, то и  близок к нулю и наоборот. Поэтому, наряду с величиной  (или вместо нее), вычисляют и сравнивают с накапливающимися ошибками от округлений значение , т. е. минимальный корень уравнения

.

  1.  Наконец, о присутствии явления мультиколлинеарности говорят и некоторые внешние признаки построенной модели, которые являются его следствием. К ним в первую очередь следует отнести такие:

а) небольшое изменение исходных статистических данных (добавление или изъятие небольшой порции наблюдений) приводит к существенному изменению оценок коэффициентов модели, вплоть до изменения их знаков;

б) оценки имеют большие стадартные ошибки, малую значимость, в то время, как модель в целом является значимой (высокое значение коэффициента детерминации  и соответствующей -статистики);

в) оценки коэффициентов имеют неправильные с точки зрения экономической теории знаки или неоправданно большие значения.

Что же делать, если по всем признакам имеется мультиколлинеарность? Однозначного ответа на этот вопрос нет. У неискушенного исследователя при столкновении с проблемой мультиколлинеарности может возникнуть естественное желание отбросить «лишние» независимые переменные, которые, возможно, служат ее причиной. Однако, следует помнить, что при этом могут возникнуть новые трудности. Во-первых, не всегда ясно, какие переменные являются лишними в указанном смысле. Мультиколлинеарность означает лишь приблизительную линейную зависимость между столбцами матрицы , но это не всегда выделяет «лишние» переменные. Во-вторых, во многих ситуациях удаление каких-либо независимых переменных может значительно отразиться на содержательном смысле модели. Наконец, отбрасывание так называемых существенных переменных, т. е. независимых переменных, которые реально влияют на изучаемую зависимую переменную, приводит к смещенности МНК-оценок. Более подробно методы устранения мультиколлинеарности описаны в [3].

4.2. Фиктивные переменные

Независимые переменные в регрессионных моделях, как правило, имеют «непрерывные» области изменения (национальный доход, уровень безработицы, размер зарплаты и т. д.). Однако теория не накладывает никаких ограничений на характер регрессоров, в частности, некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость рассматривать такие переменные возникает довольно часто в тех случаях, когда требуется принимать во внимание какой-либо качественный признак. Например, при исследовании зависимости зарплаты от различных факторов может возникнуть вопрос, влияет ли на ее размер и, если да, то в какой степени, наличие у работника высшего образования. Также можно задать вопрос, существует ли дискриминация в оплате труда между мужчинами и женщинами. В принципе можно оценивать соответствующие уравнения внутри каждой категории, а затем изучать различия между ними, но введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.

Рассмотрим пример с заработной платой. Пусть  (руб.) - заработная плата работника,  - набор объясняющих (независимых) переменных или количественных признаков, от которых может зависеть величина  (трудовой стаж, категория оплаты и т. д.). В действительности,  и  – это логарифмы соответствующих характеристик, так как связь между заработной платой и определяющими ее признаками имеет мультипликативный (степенной) характер. Логарифмирование степенной зависимости позволяет перейти к линейной аддитивной модели:

     (3.19)

где  – размер зарплаты  –го работника.

Теперь нам интересно включить в рассмотрение такой фактор, как наличие или отсутствие у работника высшего образования. Введем новую, бинарную, переменную , полагая

Рассмотрим новую систему

 (3.20)

где , .

Иными словами, принимая модель (3.20), мы считаем, что средняя зарплата есть  при отсутствии высшего образования и  – при его наличии. Таким образом, величина  интерпретируется как среднее изменение зарплаты при переходе из одной категории (без высшего образования) в другую (с высшим образованием) при неизменных значениях остальных параметров. К модели (3.20) можно применить МНК и получить оценки соответствующих коэффициентов. Тестируя гипотезу , мы проверяем предположение о несущественном различии в  зарплате между категориями.

В англоязычной литературе по эконометрике переменные указанного выше типа называются dummy variables («фиктивные» переменные). Следует, однако, ясно понимать, что  такая же «равноправная» переменная, как и любой из регрессоров  . Ее «фиктивность» состоит только в том, что она количественным образом описывает качественный признак.

Качественное различие можно формализовать с помощью любой переменной, принимающей два значения, а не обязательно значения 0 или 1. Однако в эконометрической практике почти всегда используют лишь фиктивные переменные типа «0 - 1», поскольку в этом случае интерпретация выглядит наиболее просто. Если бы в рассмотренном выше примере переменная  принимала значение, скажем, 5 для работника с высшим образованием и 2 для работника без высшего образования, то коэффициент при этом регрессоре равнялся бы трети среднего изменения зарплаты при получении высшего образования.

Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то в принципе можно было бы ввести дискретную переменную, принимающую такое же количество значений. Но этого фактически никогда не делают, так как тогда трудно дать содержательную интерпретацию соответствующему коэффициенту. В этих случаях целесообразно использовать несколько бинарных или фиктивных переменных.

Типичным примером подобной ситуации является исследование сезонных колебаний.

Пусть, например,  - объем потребления некоторого продукта в –ый месяц, например, мороженого, и есть все основания считать, что потребление зависит от времени года. Для выявления влияния сезонности можно ввести три фиктивные переменные ,, :

   

и оценивать уравнение

.                    (3.21)

Отметим, что мы не вводим четвертую переменную , относящуюся к осени, иначе тогда для любого месяца  выполнялось бы тождество , что означало бы линейную зависимость регрессоров в (3.21) и, как следствие, невозможность получения МНК-оценок. Интерпретация коэффициентов в (3.21) будет такой:

среднемесячный объем потребления для осенних месяцев - ,

для зимних – ,

для весенних – ,

для летних - .

Таким образом, оценки коэффициентов , , показывают средние сезонные отклонения в объеме потребления по отношению к осенним месяцам. Тестируя, например, стандартную гипотезу , мы проверяем предположение о несущественном различии в объеме потребления между летним и осенним сезоном. Гипотеза  эквивалентна предположению об отсутствии различия в потреблении между зимой и весной и т. д.

Фиктивные переменные, несмотря на свою внешнюю простоту, являются весьма гибким инструментом при исследовании влияния качественных признаков. Кроме этого фиктивные переменные позволяют строить и оценивать так называемые кусочно-линейные модели, которые можно применять для исследования структурных изменений.

Рассмотрим пример. Пусть  – зависимая переменная и пусть для простоты есть только две независимые переменные:  и постоянный (свободный) член. Предположим, что  и  представлены в виде временных рядов {, }. Например,  - размер основного фонда некоторого предприятия в период ,  - объем продукции, выпущенной в этот же период.

Из некоторых априорных соображений исследователь считает, что в момент  произошла структурная перестройка и линия регрессии будет отличаться от той, что была до момента , но общая линия остается непрерывной (см. рис. 3.3).

Чтобы оценить такую модель введем бинарную переменную , полагая  и запишем следующее регрессионное уравнение

.                    (3.22)

Рис. 3.3.

Нетрудно проверить, что линия регрессии, соответствующая уравнению (3.22), имеет коэффициент наклона  для  и  для , и разрыва в точке  не происходит.

Действительно, для  имеем

или                        ,

т. е. угловой коэффициент равен . Таким образом, тестируя гипотезу , мы проверяем предположение о том, что фактически структурного изменения не произошло.

В заключение отметим, что с помощью фиктивных переменных можно исследовать влияние разных качественных признаков (например, уровень образования и наличие или отсутствие детей), а также их взаимное влияние (эффект взаимодействия). Следует только быть внимательным, чтобы при включении нескольких бинарных переменных не нарушить линейную независимость регрессоров (см. пример с сезонными колебаниями).

Пример 3.2. ([8]). Рынок квартир в Москве (данные для этого исследования собраны студентами РЭШ в 1994 и 1996 гг).

После проведенного анализа по  наблюдениям была выбрана логарифмическая форма модели:

- цена квартиры (в долларах США),

- жилая площадь (в кв.м.),

- площадь нежилых помещений (в кв.м.),

- площадь кухни (в кв.м.),

- расстояние от центра Москвы (в км).

Фиктивные переменные:

     

     

Из анализа –статистик получено,что все коэффициенты регрессии, кроме коэффициентов при  и , значимы при доверительной вероятности .

Коэффициент при , равный 0,67, означает, что увеличение жилой площади квартиры на 1% увеличивает ее цену на 0,67%. Иначе говоря, эластичность цены квартиры по жилой площади равна 0,67.

Отрицательное значение коэффициента при  (-0,114) означает, что увеличение расстояния от центра города на 1% уменьшает цену квартиры на 0,11%.

Рассмотрим интерпретацию фиктивных переменных .

Отрицательный коэффициент при  означает, что квартира на 1-ом или последнем этаже стоит на 6,9% дешевле аналогичной квартиры на средних этажах. Квартира в кирпичном доме стоит на 13,4% дороже аналогичной квартиры в панельном доме, присутствие лифта увеличивает стоимость на 11,4%, а наличие балкона – на 4,2%.

Переменные  были включены в регрессию, чтобы учесть возможные различия в структуре рынка жилья для квартир с разным количеством комнат. Отмечается, что в выборке были 5-ти,6-ти и даже 8-ми комнатные квартиры, поэтому переменные  (т. е. в сумме не дают константу, что означает отсутствие полной коллинеарности факторов).

Было показано, что коэффициенты при  можно считать равными. Из уравнения регрессии видно, что квартиры с числом комнат от 2 до 4 стоят дороже многокомнатных, а однокомнатные – еще дороже (при прочих равных условиях).

4.3. Частная корреляция

В том случае, когда имеется одна независимая переменная  и одна зависимая , естественной мерой их линейной связи является (выборочный) коэффициент корреляции  (2.18) или парный коэффициент корреляции . Для многомерной регрессии мы можем найти значения таких коэффициентов для  и каждой из независимых переменных . Из парных коэффициентов корреляции можно составить матрицу парных коэффициентов корреляции и сделать вывод о наличии или отсутствии в построенной модели мультиколлинеарности факторов.

Высокое значение коэффициента корреляции между исследуемой зависимой и какой-либо независимой переменной может, как и раньше, означать высокую степень зависимости, но может быть обусловлено и другой причиной. А именно, есть третья переменная, которая оказывает сильное влияние на две первые, что и служит в конечном счете причиной их высокой коррелированности. Поэтому возникает естественная задача найти «чистую» корреляцию между двумя переменными, исключая (линейное) влияние других факторов. Это можно сделать с помощью коэффициента частной корреляции.

Для простоты предположим, что имеется обычная двумерная регрессионная модель

где

-  вектор наблюдений зависимой переменной,  -  векторы независимых переменных,  - (скалярные) параметры,  -  вектор ошибок. Наша цель – определить корреляцию между  и, например, первым регрессором  после исключения влияния .

Соответствующая процедура устроена следующим образом:

  1.  Осуществим регрессию  на и константу и получим прогнозные значения

;

  1.  Осуществим регрессию  на  и константу и получим прогнозные значения

;

  1.  Удалим влияние , взяв остатки  и  ;
  2.  Определим (выборочный) коэффициент частной корреляции между  и  при исключении влияния  как (выборочный) коэффициент корреляции между  и :

.                                  (3.23)

Из свойств МНК следует, что остатки  и  не коррелированы с . Именно в этом смысле указанная процедура соответствует интуитивному представлению об «исключении» (линейного) влияния переменной .

Прямыми вычислениями можно показать, что справедлива следующая формула, связывающая коэффициенты частной и обычной корреляции:

.                        (3.24)

Здесь значения частного коэффициента корреляции  лежат в интервале  как у обычного коэффициента корреляции. Если , то говоря нестрого, это означает отсутствие прямого (линейного) влияния переменной  на .

Существует тесная связь между коэффициентом частной корреляции  и коэффициентом детерминации , а именно:

.

Описанная выше процедура очевидным образом обобщается на случай, когда исключается влияние не одной, а нескольких переменных: достаточно переменную  заменить на набор переменных , сохраняя определение (3.23). Формула (3.24) естественно усложнится. Подробнее об этом можно прочесть в книге [3].

Проиллюстрируем приведенное выше понятие частных коэффициентов корреляции и их отличие от обычных коэфффициентов корреляции на следующем примере.

Пример 3.2. Изучается зависимость выработки продукции на одного работника ( - млн. руб.) от ввода в действие новых основных фондов (в % от стоимости фондов на конец года,  - коэффициент обновления основных фондов) и от удельного веса рабочих высокой квалификации в общей численности рабочих ( - %). По результатам наблюдений с использованием ППП Статграф были обоснованы гипотезы, лежащие в основе множественного регрессионного анализа. В результате получено уравнение

.

Здесь  оценивает агрегированное влияние прочих (кроме ) факторов на объясняемую переменную ;  и  указывают, что с увеличением  и  на единицу их значений, результат увеличивается, соответственно, на 0,9459 млн. руб. и на 0,0856 млн. руб. Сравнивать эти значения не следует, т.к. они зависят от единиц измерения каждого признака и потому несопоставимы между собой.

Соответствующие  - статистики:

     Так как ,

то  – статистически незначим, т.е.  можно исключить из модели как несущественно влияющий или неинформативный.

Значения линейных коэффициентов парной корреляции, представленные ниже в матрице парных коэффициентов, определяют тесноту парных зависимостей переменных, указанных в данном уравнении множественной регрессии.

Таблица 3.5

Парная корреляция

1

0,9699

0,9408

0,9699

1

0,9428

0,9408

0,9428

1

 и  говорит о весьма тесной связи выработки «» как с коэффициентом обновления основных фондов - , так и с  долей рабочих высокой квалификации - .

Межфакторная связь  весьма тесная и превышает тесноту связи  с , . Связь между : , т.е. имеет место мультиколлинеарность факторов.

Ниже  в матрице приведены линейные коэффициенты частной корреляции, которые оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии:

Таблица 3.6

Частная корреляция

1

0,7335

0,3247

0,7335

1

0,3679

0,3247

0,3679

1

Коэффициенты частной корреляции дают более точную характеристику тесноты зависимости двух признаков, чем коэффициенты парной корреляции, так как «очищают» парную зависимость от взаимодействия данной пары признаков с другими признаками, представленными в модели.

Наиболее тесно связаны  и , , связь  с  гораздо слабее, т. к. , а межфакторная зависимость  и  выше, чем парная частная  и , >. Все это приводит к выводу о необходимости исключить фактор  – доля высококвалифицированных рабочих – из правой части уравнения множественной регрессии.

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи:

 ~   

 ~  .

Именно по этой причине рекомендуется при наличии сильной коллинеарности (мультиколлинеарности) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи .

4.4. Линейные ограничения

При изучении общей линейной эконометрической модели, т. е. при оценивании ее коэффициентов, следует иметь в виду возможность линейных ограничений на эти коэффициенты. Экономическая теория часто указывает на линейные ограничения, которым должны удовлетворять коэффициенты рассматриваемых соотношений. Например, постоянная отдача от единицы масштаба в производственной функции Кобба-Дугласа означает, что сумма показателей степени при соответствующих переменных равна единице, а отсутствие «денежной иллюзии» со стороны потребителей означает равенство нулю суммы, образованной денежным доходом и эластичностями функции спроса по ценам.

С этими ограничениями можно поступить двояко:

  1.  Первый путь состоит в оценке интересующей нас зависимости без учета всяких ограничений. После чего проверяют, будут ли оцененные коэффициенты удовлетворять этим ограничениям.
  2.  Второй путь, альтернативный, состоит в попытке инкорпорировать ограничение в процесс подгонки так, чтобы оцененные коэффициенты точно ему удовлетворяли. В некоторых случаях это гораздо проще сделать, если сразу же выбрать специальную форму оцениваемого уравнения для конкретного рассматриваемого случая.

В «качестве» иллюстрации расмотрим производственную функцию Кобба-Дугласа:

с условием

Здесь  – выпуск,  - затраты капитала,  - затраты труда, и  – эластичности выпуска по капиталу и труду.

Возьмем логарифмы от обеих частей равенства и добавим случайное возмущение

где                              (3.25)

 

Чтобы инкорпорировать условие  в процесс оценивания, мы перепишем (3.25) в виде

т.к.

Теперь нам нужно найти  и  из условия

.

Непосредственное дифференцирование приводит к уравнениям, из которых эти оценки могут быть найдены:

Однако может быть выведена и общая формула, позволяющая учесть линейные ограничения [4].

Если в процессе подгонки модели учитываются линейные связи между параметрами, то оценки регрессии получаются более эффективными. Если до этого имела место проблема мультиколлинеарности, то она может быть смягчена. Даже если эта проблема в исходной модели отсутствовала, то выигрыш в эффективности может дать улучшение точности оценок, так как в этом случае уменьшаются значения их стандартных ошибок.

Пример 3.3. [5]. Производственная функция Кобба-Дугласа, рассчитанная для производственного сектора США за 1899-1922 гг. выглядела без учета линейного ограничения на параметры как (в скобках указаны стандартные ошибки):

 

                                                ,

с учетом ограничения

 

                                                                  .

Оценки параметров  и  в модели без ограничения действительно в сумме дают примерно единицу, что может служить обоснованием для использования ограничения, учет которого повышает эффективность оценивания (сравните значения стандартных ошибок).

Вопросы для самопроверки и упражнения

4.1. Что такое полная коллинеарность и мультиколлинеарность факторов? Перечислите характерные признаки мультиколлинеарности.

4.2. Какие из перечисленных факторов учитываются в регрессии с помощью фиктивных переменных: 1) профессия, 2) курс доллара, 3) численность населения, 4) размер среднемесячных потребительских расходов, 5) местоположение пункта продажи?

4.3. С помощью фиктивных переменных напишите уравнение, соответстующее наличию двух структурных изменений в моменты времени  и , <.

4.4. Предположим, что вы оцениваете регрессионную зависимость расходов на мороженое от располагаемого личного дохода, используя наблюдения по месяцам. Объясните, как вы введете фиктивные переменные для оценки сезонных колебаний? Какую интерпретацию дадите коэффициентам регрессии? Какие гипотезы сможете протестировать?

4.5. Рассчитайте парные и частные коэффициенты корреляции для данных примера 3.1. Сделайте вывод о наличии или отсутствии в модели мультиколлинеарности факторов.

4.6. Почему введение линейных ограничений на параметры модели приводит к увеличению точности их оценок?


Глава 5. Обобщенная линейная модель множественной регрессии

При моделировании многих реальных экономических или социально-экономических процессов естественно возникают ситуации, в которых условия классической линейной модели множественной регрессии оказываются нарушенными. Так, если в качестве исходных статистических данных используются временные ряды или пространственно-временные выборки, то , как правило, условия некоррелированности и гомоскедастичности случайных ошибок (или регрессионных остатков) не выполняются, становятся нереалистичными. Использование обычного МНК в таких случаях будет давать плохие результаты, так как МНК-оценки неизвестных параметров модели не всегда будут несмещенными и эффективными. В этой главе мы обсудим некоторые обобщения многомерной регрессии и методы, при использовании которых можно получить лучшие результаты.

Классическая регрессионная схема может быть обобщена в соответствии с тем, какие из условий этой схемы могут быть нарушены. И здесь можно выделить два направления такого обобщения. Во-первых, это отказ от предположения, что независимые переменные или регрессоры являются неслучайными, т. е. детерминированными величинами. В экономической практике часто это предположение оказывается нереалистичным. Обычно обнаруживается, что объясняющие переменные модели сами были определены из других экономических зависимостей. И потому при проведении анализа их следует рассматривать как случайные величины или, как принято определять, стохастические регрессоры. Оказывается, что при выполнении некоторых естественных условий (например, некоррелированности матрицы регрессоров  и вектора ошибок ) МНК-оценка вектора неизвестных параметров сохраняет основные свойства МНК-оценки в стандартной модели. Другим методом оценивания, который позволяет получать оценки с более приемлемыми свойствами в случае стохастических регрессоров, является метод, основанный на инструментальных переменных [4,5,8,9]. Подробное изложение этого вопроса выходит за рамки данного пособия.

Второе направление в обобщении многомерной регрессии связано с изучением линейной модели, в которой ковариационная матрица вектора ошибок , обозначим ее через , не обязательно имеет вид , а может быть произвольной симметричной положительно определенной матрицей (это случай, когда ошибки коррелированы и имеют различные дисперсии). С помощью линейного преобразования исходную систему можно свести к обычному регрессионному уравнению и построить для него МНК-оценку вектора коэффициентов. Эта оценка зависит от матрицы ковариаций ошибки , а способ оценивания носит название «обобщенный метод наименьших квадратов» (ОМНК). Для ОМНК-оценки устанавливается аналог теоремы Гаусса-Маркова, а именно, доказывается, что в классе всех несмещенных линейных оценок она обладает наименьшей матрицей дисперсий-ковариаций. Обобщенный метод наименьших квадратов позволяет с единых позиций изучать некоторые важные классы регрессионных моделей: так называемые модели с гетероскедастичностью, когда матрица  является диагональной, но имеет разные элементы на главной диагонали, и модели, в которых наблюдения имеют смысл временных рядов, а ошибки коррелированы по времени.

Следует подчеркнуть, что практическое использование обобщенного метода наименьших квадратов усложнено тем, что для построения ОМНК-оценки требуется знать матрицу , которая реально почти всегда неизвестна. В связи с этим возникает проблема построения так называемого доступного обобщенного метода наименьших квадратов.

5.1. Обобщенный метод наименьших квадратов

Одно из предположений классической регрессионной модели состоит в том, что случайные ошибки некоррелированы между собой и имеют постоянную дисперсию (см. п. 3.1). В тех случаях, когда наблюдаемые объекты достаточно однородны, не сильно отличаются друг от друга, такое допущение оправдано. Однако во многих ситуациях такое предположение нереалистично. Например, если исследуется зависимость расходов на питание в семье от ее общего дохода, то естественно ожидать, что разброс в данных будет выше для семей с более высоким доходом. Это означает, что дисперсии зависимых величин (а следовательно, и случайных ошибок) не постоянны. Как мы уже указывали (см. п. 2.1), это явление в эконометрике называется гетероскедастичностью (в отличии от гомоскедастичности – равенства дисперсий). Кроме того, при анализе временных рядов, как правило, значение исследуемой величины в текущий момент времени статистически зависит от ее значений в прошлом, что означает наличие корреляции между ошибками. Поэтому естественно изучать модели регрессии без предположения, что .

Здесь мы будем рассматривать так называемую обобщенную линейную модель множественной регрессии, которая описывается системой следующих соотношений и условий:

1.  - спецификация модели;                                               (5.1)

2.  - детерминированная матрица полного ранга,  (<,  - число оцениваемых параметров модели,  - число наблюдений);

3а.

3b.  и  - симметричная положительно определенная матрица размера ;

где  -  вектор зависимых переменных,  -  матрица значений независимых переменных,  -  вектор неизвестных параметров,  -  вектор случайных ошибок.

Формальная запись такой модели отличается от классической линейной модели множественной регрессии (см. п. 3.1) только условием 3b, т. е. отказом от требования некоррелированности и гомоскедастичности случайных ошибок.

Прежде чем перейти к задаче оценивания вектора параметров  в модели (5.1) выясним смысл гипотезы, в силу которой  - положительно определенная матрица.

Как известно, для такой матрицы все главные миноры положительны. Так, для матрицы  размера  мы можем записать

, где , .

Тогда условие положительности главных миноров дает нам , ,  или

, где  - коэффициент корреляции между  и .

Таким образом, каждая случайная ошибка должна обладать положительной дисперсией, а две ошибки не должны полностью коррелировать, т. е. .

Задача оценивания может быть решена несколькими эквивалентными способами, из которых мы выбрали простейший.

Известно, что положительно определенная матрица допускает представление в виде , где  - матрица невырожденная. Поэтому запишем

,                                             (5.2)

так что , и .

Умножим уравнение модели (5.1) слева на , получим

,                                        (5.3)

где ,  и .

Найдем матрицу вариаций ошибок :

, т. е. модель (5.3) удовлетворяет всем предположениям классической линейной модели множественной регрессии с той лишь разницей, что все , если , то получим, что . Поэтому применив к (5.3) обыкновенный МНК, получим

;

подставим значения , :

.

Таким образом, оценки по обобщенному методу наименьших квадратов (ОМНК-оценки) определяются соотношением

.                            (5.4)

Справедлива теорема Айткена (см. например, [8]): в классе линейных несмещенных оценок вектора  модели (5.1) оценки , определенные соотношением (5.4), являются оптимальными в смысле теоремы Гаусса-Маркова, т. е. имеют наименьшую матрицу вариаций

.                                       (5.5)

Нетрудно проверить, что если , т. е. модель является классической, то . Если предположить, что ошибки  нормально распределены, то этим же свойством будет обладать и , поэтому ОМНК-оценки будут совпадать с оценками, найденными по методу максимального правдоподобия (естественно, при известной матрице ).

Заметим, что если мы применим к модели (5.1) обыкновенный МНК, то получим оценку , которая будет линейной относительно вектора наблюдений  и несмещенной, но не будет эффективной, т. е. не будет обладать наименьшей дисперсией.

Для обобщенной регрессионной модели, в отличие от классической, коэффициент детерминации

не может служить удовлетворительной мерой качества подгонки. В общем случае он даже не обязан лежать в интервале [0,1], а добавление или удаление независимой переменной не обязательно приводит к его увеличению или уменьшению.

Еще раз обратим внимание на то, что для применения ОМНК необходимо знать матрицу , которая практически всегда неизвестна. Поэтому вполне естественным кажется такой способ: попытаться оценить матрицу , а затем использовать эту оценку в формуле (5.4) вместо . Этот подход составляет суть так называемого доступного обобщенного метода наименьших квадратов. Следует, однако, понимать, что в общем случае матрица  содержит  неизвестных параметров (в силу ее симметричности) и, имея только  наблюдений, нельзя получить для нее «хорошую» оценку. Поэтому для получения приемлемых результатов приходится вводить дополнительные условия или ограничения на структуру матрицы .

Далее рассмотрим два важных класса обобщенных регрессионных моделей: 1) – с гетероскедастичными и 2) – автокоррелированными ошибками.

5.2. Обобщенная линейная модель с гетероскедастичностью

Рассмотрим частный случай обобщенной регрессионной модели (5.1), когда  есть диагональная матрица с элементами на главной диагонали , т. е. ошибки в разных наблюдениях некоррелированы, но их дисперсии различны. Как уже отмечалось, гетероскедастичность довольно часто возникает, если анализируемые объекты, говоря нестрого, неоднородны. Например, если исследуется зависимость прибыли предприятия от каких-либо факторов, допустим, от размера основного фонда, то естественно ожидать, что для больших предприятий колебание прибыли будет выше, чем для малых.

Обобщенный метод наименьших квадратов в данном случае выглядит очень просто. Вспомогательная система (5.3) получается делением каждого уравнения системы (5.1) на соответствующее  (здесь нам удобнее выписать каждое уравнение):

,      ,                             (5.6)

где , причем ,  при .

Применяя к (5.6) обычный метод наименьших квадратов, ОМНК-оценку получаем минимизацией по  суммы

.

Нетрудно понять содержательный смысл этого преобразования. Используя обычный МНК, мы минимизируем сумму квадратов отклонений , в которую, говоря нестрого, разные слагаемые дают разный статистический вклад из-за различных дисперсий, что в конечном итоге и приводит к неэффективности МНК-оценок. «Взвешивая» каждое наблюдение с помощью коэффициента , мы устраняем такую неоднородность. Поэтому часто ОМНК для системы с гетероскедастичностью называют методом взвешенных наименьших квадратов. Можно непосредственно проверить, что применение метода взвешенных наименьших квадратов приводит к уменьшению дисперсий оценок по сравнению с обычным МНК.

Если числа  неизвестны (что, как правило, и бывает на практике), необходимо использовать доступный обобщенный метод наименьших квадратов, который требует оценивания дисперсий . Так как число этих параметров равно , то без дополнительных ограничений на структуру матрицы  нет надежды получить приемлемые оценки дисперсий. Такими ограничениями, в частности, могут быть: 1) ошибка пропорциональна одной из независимых переменных; 2) дисперсии ошибок принимают только два значения.

Ограничимся рассмотрением лишь второго случая.

Пусть известно, что  для , и  для  (), но числа  и  неизвестны. Иными словами, в первых  наблюдениях дисперсия ошибки имеет одно значение, в последующих  - другое. В этом случае естественным является следующий вариант доступного ОМНК:

1) обыкновенным методом наименьших квадратов оценить параметры модели (5.1), получить вектор остатков  и разбить его на два подвектора  и  размерности  и  соответственно;

2) построить оценки  и  дисперсий  и ;

3) преобразовать переменные, разделив первые  уравнений на , а последующие  - на ;

4) для преобразованной модели вновь использовать метод наименьших квадратов.

Оценки  и , полученные таким способом, будут смещенными, но состоятельными.

Если дисперсия ошибок принимает не два, а несколько значений, то описанная схема может быть обобщена соответствующим образом.

Мы не рассматриваем здесь вопрос о состоятельном оценивании дисперсий в общем случае; более подробное изложение этого можно найти в [3,4]. Отметим лишь, что корректировка оценок параметров модели с учетом гетероскедастичности может привести к существенному уменьшению их дисперсий, т. е. увеличению точности найденных оценок (ОМНК-оценки оказываются более эффективными, более точными, чем МНК-оценки).

В заключение обратим внимание на то, каким образом может быть обнаружена гетероскедастичность. Очень часто появление этой проблемы можно предвидеть заранее, основываясь на характере данных (в этом случае значения переменных в уравнении регрессии значительно различаются в разных наблюдениях). В таких ситуациях можно предпринять соответствующие действия по устранению этого эффекта на этапе спецификации модели, и это позволит сократить или, даже, исключить необходимость формальной проверки. В специальной литературе [3,4,5,8] описываются различные методы проверки гипотезы . Опишем наиболее простой из них [3].

Предполагается, что объем  имеющихся исходных данных достаточно велик, и, в частности, выборка может быть разбита на определенное число () подвыборок объемов, соответственно,  () таким образом, что внутри каждой из подвыборок значения объясняющих переменных либо совпадают, либо принадлежат одному интервалу группирования. В каждой из подвыборок (либо в каждом из интервалов) определяется среднее значение объясняющей переменной и значение выборочной дисперсии , строится несмещенная оценка соответствующей теоретической дисперсии , . Проверка гипотезы  сведется к построению статистического критерия для проверки гипотезы об однородности дисперсий по величинам соответствующих несмещенных их оценок, т. е. исправленных выборочных дисперсий. В качестве такого критерия может быть использован, например, критерий Бартлетта (если  различны) или критерий Кохрана (если все  равны между собой) [1-3]. В случае отклонения гипотезы  значения  могут быть использованы в качестве диагональных элементов матрицы , что позволит осуществить обобщенный метод наименьших квадратов, и тем самым улучшить качество оценок параметров модели.

5.3. Обобщенная линейная модель с автокоррелированными остатками

До сих пор предполагалось, что случайные ошибки в разных наблюдениях некоррелированы, т. е. , . Так как мы предполагаем, что , , то , . Когда данное условие не выполняется, говорят, что случайные ошибки или остатки подвержены автокорреляции, которую часто называют сериальной корреляцией (эти два термина взаимозаменяемы). Последствия автокорреляции в некоторой степени сходны с последствиями гетероскедастичности. Оценки параметров регрессионной модели остаются несмещенными, но становятся неэффективными, и их стандартные ошибки оцениваются неправильно, занижаются.

Автокорреляция обычно встречается только в регрессионном анализе при использовании данных временных рядов. Случайная составляющая  в уравнении регрессии подвергается воздействию тех переменных, которые влияют на зависимую переменную, но не включены в модель. Если ошибки некоррелированы, то и значения любой переменной, «скрытой» в  должны быть некоррелированными.

Постоянное воздействие переменных или факторов, не включенных в модель, является наиболее частой причиной положительной автокорреляции, которая наиболее типична для экономического анализа. Предположим, что мы оцениваем уравнение спроса на мороженое по ежемесячным данным, и такой важный фактор, как температура воздуха, не включен в модель. Естественно, у нас будет несколько последовательных наблюдений, когда теплая погода способствует увеличению спроса на мороженое и, таким образом, ; после этого может быть несколько последовательных наблюдений, когда , затем опять идет еще один ряд теплых месяцев и т. д.

Если доход постоянно возрастает со временем, то схема наблюдений может быть такой, как показано на рис. 5.1. Здесь через  обозначен объем продаж мороженого, через  - доход; трендовая зависимость  отражает рост объема продаж.

Рис. 5.1. Положительная автокорреляция

Изменения экономической конъюнктуры часто приводят к похожим результатам, особенно наглядным в макроэкономическом анализе.

Отметим, что чем меньше интервал между наблюдениями, тем существеннее проблема автокорреляции. Очевидно, чем больше этот интервал, тем менее правдоподобно, что при переходе от одного наблюдения к другому характер влияния неучтенных факторов будет сохраняться.

Если в нашем примере с мороженым наблюдения проводятся не ежемесячно, а ежегодно, то автокорреляции, вероятно, вообще не будет. Действительно, маловероятно, чтобы совокупное влияние погодных условий в одном году коррелировало с аналогичным влиянием в следующем году.

В случае отрицательной корреляции, которая в экономике встречается относительно редко, за положительным значением  в одном наблюдении идет отрицательное значение в следующем, и наоборот; диаграмма рассеяния при этом выглядит так, как показано на рис. 5.2.

Рис. 5.2. Отрицательная корреляция

При рассмотрении автокорреляции мы будем предполагать, что имеем дело с данными временного ряда, т. е. когда исходные наблюдения регистрируются во времени. Тогда, очевидно, номер наблюдения «» несет смысловую нагрузку времени регистрации наблюдения , а объем выборки  - времени .

Рассмотрим модель

,                                              (5.7)

где -я компонента вектора ,представляет значение зависимой переменной в момент времени , . Для удобства запишем подробнее уравнение для наблюдения в момент времени :

.                             (5.8)

Один из наиболее простых способов учета коррелированности ошибок (в разные моменты времени) состоит в предположении, что случайная последовательность  образует авторегрессионный процесс первого порядка. Это означает, что ошибки удовлетворяют рекуррентному соотношению

,                                         (5.9)

+

где  - последовательность независимых, нормально распределенных случайных величин с нулевым средним и постоянной дисперсией , т. е. , ; а  - некоторый параметр, называемый коэффициентом авторегрессии (). Вероятностный смысл  состоит в том, что он является коэффициентом корреляции между двумя соседними ошибками. С использованием коэффициента авторегрессии  и дисперсии  ковариационная матрица случайного вектора  запишется следующим образом

.

Условие (5.9) означает, что величина случайной ошибки в любом наблюдении равна ее значению в предшествующем наблюдении, умноженному на , плюс новая случайная составляющая . Данный процесс оказывается авторегрессионным, поскольку  определяется значениями этой же самой величины с запаздыванием, и процессом первого порядка, потому что в этом случае максимальное запаздывание равно единице. Предполагается, что значение  в каждом наблюдении не зависит от его значений во всех других наблюдениях. Если , то автокорреляция положительная, если , автокорреляция отрицательная. Если , то автокорреляции нет и условие 3.b классической схемы удовлетворяется.

Обсудим проблему оценивания в модели с авторегрессией. Рассмотрим отдельно случай, когда коэффициент  известен, и отдельно – когда  неизвестен.

  1.  Значение  известно. Предположим, что истинная модель задается в виде (5.7), так что наблюдения в момент времени  формируются как (5.8), а в момент времени  как

.                      (5.10)

Умножим обе части этого соотношения на  и вычтем из (5.8). Тогда с учетом (5.9) получим

.           (5.11)

При  достаточно обе части уравнения (5.8) умножить на :

.            (5.12)

В системе (5.11), (5.12) ошибки удовлетворяют условиям уже классической регрессионной модели. Действительно, в (5.11) случайные величины  независимы и имеют постоянную дисперсию , а в (5.12) ошибка  не зависит от  и также имеет дисперсию . По методу наименьших квадратов можно получить оценки неизвестных параметров модели, используя преобразованные значения переменных.

На практике часто опускают преобразование (5.12), игнорируя тем самым первое наблюдение. В этом случае, если в выборке нет данных, предшествующих первому наблюдению, то по формуле (5.11) мы не сможем преобразовать наблюдения, и, таким образом, потеряем первое наблюдение вообще. Число степеней свободы уменьшится на единицу, и это вызовет потерю эффективности, которая может в небольших выборках перевесить повышение эффективности от устранения автокорреляции.

Эта проблема устраняется введением поправки Прайса-Уинстена. Так как случайная ошибка , согласно определению, не зависит от значения  в любом предшествующем наблюдении, то все величины  не зависят от . Следовательно, если при устранении автокорреляции все другие наблюдения преобразуются, то не требуется преобразовывать первое наблюдение. Его можно сохранить, включив в новую схему.

Мы можем таким способом спасти первое наблюдение, однако, если  велико, то первое наблюдение будет оказывать непропорционально большое воздействие на МНК-оценки. Для нейтрализации этого эффекта вес данного наблюдения уменьшается умножением его на величину . Отсюда становится понятным преобразование (5.12).

  1.  Значение  неизвестно. На практике параметр авторегрессии  часто неизвестен. Поэтому необходимо получить его оценку одновременно с оценками коэффициентов регрессии. Как правило, процедуры оцененивания при неизвестном  имеют итеративный характер и являются достаточно эффективными. Опишем три наиболее употребительные.

Процедура Кохрейна-Оркатта состоит из следующих этапов:

1. Оценивается регрессия (5.7) с исходными непреобразованными данными по обычному методу наименьших квадратов.

2. Вычисляются остатки .

3. Оценивается регрессионная зависимость  от , соответствующая формуле (5.9), и в качестве приближенного значения  берется МНК-оценка коэффициента при  .

4. С этой оценкой  модель (5.7) преобразуется в (5.11) (или (5.11), (5.12)) и находятся МНК-оценки  вектора параметров  (т. е. получаются пересмотренные оценки коэффициентов исходной модели).

5. Повторно вычисляются остатки (строится новый вектор остатков ).

6. Процедура повторяется, начиная с п.3.

Процесс обычно заканчивается, когда очередное приближение  мало отличается от предыдущего. Иногда просто фиксируется количество итераций. Либо чередование этапов пересмотра оценок коэффициентов регрессии и оценки  продолжается до тех пор, пока не будет получена требуемая точность сходимости, т. е. до тех пор, пока оценки на последнем и предпоследнем этапах не совпадут с заданной степенью точности. Процедура Кохрейна-Оркатта реализована в большинстве эконометрических компьютерных программ.

Метод Хилдрета-Лу достаточно прост. Из интервала (-1,1) возможного изменения коэффициента  берутся последовательно некоторые значения (например, числа с постоянным шагом 0,1 или 0,05) и для каждого из них проводится оценивание преобразованной системы (5.11). Значение, которое дает минимальную стандартную ошибку для преобразованного уравнения (сумма квадратов отклонений в (5.11) минимальная), принимается в качестве оценки , а коэффициенты регрессии определяются при оценивании уравнения (5.11) с использованием этого значения. Можно в целях улучшения качества оценок и достижения желаемой точности повторить процесс, устраивая более мелкую сетку в окрестности найденного значения . Время работы процедуры, очевидно, сокращается, если есть априорная информация об области изменения параметра .

Процедура Дарбина заключается в том, что значение  включается в число регрессоров, а  - в число оцениваемых параметров. Преобразованная система (5.11) переписывается в виде:

Для этой системы строятся обычные МНК-оценки  и , тогда . Можно улучшить качество оценок , если в систему (5.11) подставить полученное значение , и найти новые МНК-оценки параметров .

В заключение этого параграфа рассмотрим вопрос о том, каким образом можно обнаружить автокорреляцию первого порядка.

Большинство тестов на наличие корреляции по времени в ошибках системы (5.7) используют следующую идею: если корреляция есть у ошибок , то она присутствует и в остатках , получаемых после применения  к (5.7) обычного метода наименьших квадратов. Одна из реализаций этого подхода состоит в следующем.

Пусть нулевая гипотеза состоит в отсутствии корреляции, т. е. . В качестве альтернативной можно взять либо просто : «не », либо .

Наиболее широко используется критерий Дарбина-Уотсона, статистика которого

.                              (5.13)

Будем считать, что постоянный член включен в число регрессоров. Тогда нетрудно проверить, что эта статистика тесно связана с величиной  - выборочным коэффициентом корреляции между  и  и получается приближенно равной

.                                     (5.14)

Понятен и содержательный смысл статистики : если между  и  имеется достаточно высокая положительная корреляция, то в определенном смысле  и  близки друг к другу и значение  по формуле (5.13) мало. Это также согласуется с (5.14): если , то . Отсутствие корреляции означает, что . При наличии положительной корреляции величина , вообще говоря, будет меньше двух; при отрицательной – будет превышать 2. Так как  должно находиться между значениями 1 и -1, то  должно лежать между 0 и 4.

Если бы распределение статистики  было известно, то для  и  можно было бы для заданного уровня значимости  (например, ) найти такое критическое значение , что если , то гипотеза  принимается, в противном случае она отвергается в пользу . Проблема, однако, состоит в том, что распределение  зависит не только от числа наблюдений в выборке  и количества регрессоров  или объясняющих переменных в уравнении регрессии, но и от конкретных значений, принимаемых объясняющими переменными, т. е. от всей матрицы . Поэтому невозможно составить таблицу с указанием точных критических значений для всех возможных выборок, как это можно сделать для - и -статистик. Тем не менее, Дарбин и Уотсон доказали, что для критического значения существует верхняя  и нижняя  границы, которые зависят лишь от ,  и уровня значимости  (а, следовательно, могут быть затабулированы) и обладают следующим свойством: если , то  и, значит, гипотеза  принимается, а если , то , и гипотеза  отвергается в пользу . В случае  ситуация неопределенна, т. е. нельзя высказаться в пользу той или иной гипотезы.

Если альтернативной является гипотеза об отрицательной корреляции , то соответствующими верхними и нижними границами будут  и . Представим результаты тестирования в виде следующей таблицы

Значение статистики

Вывод

отвергается, есть отрицательная корреляция

Неопределенность

Принимается

Принимается

Неопределенность

отвергается, есть положительная корреляция

На рисунках 5.3 и 5.4 данная ситуация представлена в виде схемы; стрелка указывает критическую точку .

Рис. 5.3. Тест Дарбина-Уотсона на автокорреляцию (зона неопределенности в случае предполагаемой положительной автокорреляции)

Рис. 5.4. Тест Дарбина-Уотсона на автокорреляцию (зона неопределенности в случае предполагаемой отрицательной автокорреляции)

Вопросы для самопроверки и упражнения

5.1. Проверьте несмещенность оценки (5.4).

5.2. Покажите, что для матрицы вариаций ОМНК-оценок справедлива формула (5.5).

5.3. Какими свойствами будут характеризоваться оценки параметров обобщенной линейной модели множественной регрессии, если для их нахождения используется обыкновенный метод наименьших квадратов.

5.4. Докажите, что если в модели (5.1) ошибки нормально распределены, то ОМНК–оценки будут совпадать с оценками, найденными по методу максимального правдоподобия.

5.5. Приведите примеры данных с гетероскедастичными ошибками.

5.6. Проверьте непосредственно, что для модели , , с гетероскедастичностью дисперсия оценки , полученной с помощью метода взвешенных наименьших квадратов, будет меньше дисперсии МНК-оценки.

5.7. Предположим, что модель подвержена автокорреляции первого порядка. Почему при построении уравнения регрессии не следует использовать МНК?

5.8. Рассмотрим модель , где ошибки  порождаются авторегрессионным процессом второго порядка:

.

Предложите, каким образом можно обобщить итерационную процедуру Кохрейна-Оркатта для оценивания параметров этой модели.


Глава 6. Системы эконометрических уравнений

При моделировании достаточно сложных экономических объектов часто приходится использовать не одно, а несколько уравнений, чаще всего связанных между собой. В таких случаях модель объекта описывается системой эконометрических уравнений, которую необходимо оценить при проведении регрессионного анализа. Проблема оценивания систем уравнений требует введения новых понятий и разработки новых методов. Эти вопросы и будут обсуждаться в данной главе. Вначале мы рассмотрим простую задачу оценивания системы, в которой уравнения связаны потому, что ошибки в разных уравнениях коррелированы между собой, - это так называемая система внешне не связанных уравнений. Затем мы исследуем общие системы, которые в эконометрике называются системами одновременных уравнений, и частный случай таких систем – рекурсивные системы.

6.1. Внешне не связанные уравнения

Для того, чтобы понять постановку задачи и суть проблемы, рассмотрим следующий пример. Предположим, что исследуется зависимость инвестиций , осуществляемых некоторым предприятием (например, Иркутским алюминиевым заводом), от его дохода  и размера основного фонда :

, .                      (6.1)

Представим теперь, что имеется ряд наблюдений другого аналогичного предприятия (например, Братского алюминиевого завода):

, .                         (6.2)

Уравнения (6.1) и (6.2) можно оценивать по отдельности. Внешне они выглядят как не связанные друг с другом. Но ясно, что в данной ситуации ошибки  и  коррелированы, так как для каждого  (или ) предприятия действуют в «одной экономической среде». Поэтому целесообразно объединить уравнения (6.1) и (6.2) и оценивать их совместно, используя доступный обобщенный метод наименьших квадратов.

Общую задачу можно сформулировать следующим образом. Даны  регрессионных уравнений (в матричном виде)

                                      (6.3)

        ,

где  -  вектор зависимых переменных,  -  матрица независимых переменных,  -  вектор неизвестных параметров,  -  вектор ошибок, . Будем предполагать, что  и  при  и  при . Последнее условие можно представить так:

, .                          (6.4)

Иными словами, заданы  регрессионных уравнений, по каждому из которых имеется  наблюдений. (Или  наблюдений в случае временных рядов). Если данные имеют структуру временных рядов, то считается, что ошибки во всех уравнениях коррелированы в один и тот же момент времени и некоррелированы для других моментов.

Каждое отдельное уравнение в системе (6.3) удовлетворяет условиям классической регрессионной модели и может быть оценено обычным МНК.Однако, если объединить эти уравнения и применить ОМНК, то можно повысить эффективность оценивания.

Обозначим

       ,         ,         ,         ,   

       ,    .

Тогда система (6.3) перепишется в виде

.

Используя понятие произведение Кронекера двух матриц, ковариационную матрицу вектора ошибок можно представить так:

.

В качестве справки приведем пример произведения Кронекера двух матриц:

.

Предположим,что матрица  не вырождена.

Для построения оценки  применим ОМНК:

или

.          (6.5)

(здесь мы воспользовались известным свойством произведения Кронекера: для двух квадратных невырожденных матриц  и  справедливо ).

Нетрудно понять, что в общем случае оценка (6.5) отличается от оценки, полученной в результате применения обычного МНК к каждому уравнению в системе (6.3). Есть, однако, две ситуации, когда эти оценки совпадают.

  1.  Уравнения в (6.3) действительно не связаны друг с другом, т. е.  при .
  2.  Все уравнения в (6.3) имеют один и тот же набор независимых переменных, т. е. .

Для использования доступного ОМНК нужно оценить матрицу . Это можно сделать, применяя к каждому уравнению системы (6.3) обычный МНК, получая векторы остатков , , и беря в качестве оценок ковариаций  величины , т. е. . Можно проверить, что эти оценки являются состоятельными.

Отметим в заключение, что эффективность , полученной таким способом, тем выше, чем сильнее корреляция между ошибками.

6.2. Системы одновременных уравнений

В теории экономико-статистического моделирования систему взаимосвязанных регрессионных уравнений и тождеств, в которой одни и те же переменные в различных регрессионных уравнениях могут одновременно выступать и в роли результирующих показателей (эндогенных переменных) и в роли объясняющих (экзогенных) переменных, принято называть системой одновременных (эконометрических) уравнений.

Как мы уже сказали, эконометрическая модель содержит так называемые эндогенные и экзогенные переменные. Эндогенными являются те переменные, которые в силу принятых концепций определяются внутренней структурой изучаемого явления, иначе говоря, их значения выясняются на основе модели. В свою очередь, экзогенные переменные по определению независимы от структуры явления и их значения (в том числе прогностические) устанавливаются вне модели. Модель содержит также различного рода параметры (коэффициенты), которые определяются в ходе статистического оценивания путем обработки имеющейся информации.

То, как классифицированы переменные (эндогенные или экзогенные) зависит от теоретической схемы или принятой модели. Внеэкономические переменные, например, климатические условия, постоянно бывают экзогенными. В то же время экономические переменные, такие как экспорт и правительственные расходы, могут в одной модели рассматриваться как эндогенные, а в другой – как экзогенные. При этом в соотношения могут входить переменные, относящиеся не только к периоду , но и к предшествующим периодам, называемые лаговыми («запаздывающими») переменными.

Для экономистов большой интерес представляет количественный анализ модели, т. е. нахождение оценок параметров на основании имеющейся в распоряжении исследователя информации о значениях переменных. Первая из возникающих здесь проблем: можно ли в предложенной модели однозначно восстановить значение некоторого параметра или же его определение принципиально невозможно на основе рассматриваемой модели? Это так называемая проблема идентифицируемости – первоочередная на этапе формирования модели, поскольку прежде, чем переходить к процедурам оценивания необходимо быть уверенным, что их применение имеет смысл.

Проблема оценивания здесь также имеет свои особенности. Основная трудность состоит в том, что в эконометрических моделях переменная, играющая роль независимой (объясняющей - экзогенной) переменной в одном соотношении, может быть зависимой в другом. Это приводит к тому, что в регрессионных уравненях системы экзогенные переменные и случайные возмущения оказываются, вообще говоря, коррелированными. Наконец, в современной практике встречаются модели, имеющие десятки и даже сотни уравнений (в том числе и нелинейных), в связи с чем возникают и вычислительные трудности.

Все это обусловило необходимость построения специальной теории, изучающей статистический аспект таких моделей. К настоящему времени довольно хорошо разработан ее раздел, относящийся к моделям, описываемым системами линейных уравнений. Основные положения этой теории мы и изучим с вами.

Прежде чем перейти к формулировке общей линейной модели, рассмотрим вначале два примера простой классической макромодели. В первом отсутствует случайное возмущение (мы его опустим для упрощения выкладок).

Пример 6.1. Рассмотрим простую макромодель, которую мы уже обсуждали в первой главе (см. (1.1) - (1.3)), но которую мы приводим здесь для того, чтобы проиллюстрировать основные понятия, характерные для систем одновременных уравнений.

Итак, предположим, что потребление  есть возрастающая функция от имеющегося в наличии дохода , но возрастающая медленнее, чем рост дохода

, .                       (6.6)

Объем инвестиций есть возрастающая функция национального дохода и убывающая функция характеристики государственного регулирования (например, нормы процента), т. е.

, , .                  (6.7)

И, наконец, национальный доход есть сумма потребительских, инвестиционных и государственных закупок товаров и услуг (условие макроэкономического равновесия):

.                                 (6.8)

Здесь  - подоходный налог в момент ,  - инструмент государственного регулирования в момент ,  - государственные закупки товаров и услуг в момент времени .

Соотношения (6.6)-(6.8) следует рассматривать как систему одновременных уравнений, так как одна и та же переменная, например, национальный доход  в момент  играет роль объясняемой переменной в (6.8) и объясняющей – в (6.6).

Проведем классификацию переменных модели:

, ,  - текущие эндогенные переменные;

, ,  - текущие экзогенные переменные;

 - лаговая эндогенная переменная.

Модель предназначена для объяснения значений эндогенных переменных в текущем периоде времени  на основе значений, принимаемых экзогенными и лаговыми эндогенными переменными. В более общих ситуациях в модели могут появиться и лаговые значения экзогенных переменных. Оба множества экзогенных (текущих и лаговых) и лаговые эндогенные переменные называют предопределенными переменными. Схематически работа модели в последовательные моменты времени может быть описана с помощью диаграммы:

Соотношения (6.6)-(6.8) описывают структурную форму модели. Приведенная форма получится, если каждая из текущих эндогенных переменных выразится в виде функции только предопределенных переменных.

Подставляя (6.7) и (6.8) в (6.6), получим

т. е. .

,          (6.9)

                                                             (6.10)

(инвестиционное уравнение в своем первоначальном виде имеет приведенную форму, так как в нем нет других текущих эндогенных переменных, кроме ).

Затем, используя (6.8), (6.9) и (6.10), получим

, отсюда

.               (6.11)

Уравнения (6.9)-(6.11) образуют приведенную форму модели. Все коэффициенты в приведенной форме модели представляют собой функции первоначальных коэффициентов ее структурной формы. При этом особое значение придается коэффициентам при экзогенных переменных. Эти коэффициенты часто интерпретируют как импульсные мультипликаторы, поскольку они показывают реакцию в текущем периоде каждой эндогенной переменной на изменение текущего значения любой экзогенной переменной. Например, увеличение на единицу значения переменной, отражающей государственное регулирование, вызовет изменение  на , а  на . Поскольку модель линейная, эффект от одновременного изменения экзогенных переменных будет равен сумме частных эффектов. Так, одновременное увеличение на единицу объема государственных закупок  и налога  оставит потребление  и инвестиции  неизменными, так как , и инвестиции  вообще не зависят от  и , а соответствующий прирост национального дохода будет равен единице, так как .

Пример 6.2. В этом примере мы введем в модель случайную составляющую для того, чтобы проиллюстрировать те особенности, которые возникают при реализации известных процедур оценивания неизвестных параметров модели.

Пусть модель содержит функцию спроса и тождество, определяющее доход:

                                     (6.12)

.                                          (6.13)

Содержательный смысл модели спроса состоит в утверждении, что потребительские расходы, т. е. спрос, пропорционален доходу. В свою очередь доход есть сумма потребительских и непотребительских расходов.

Математическую формулировку модели представляют соотношения (6.12), (6.13), где  - потребительские расходы,  - доход,  - непотребительские расходы,  - случайная составляющая (учитывающая неполноту информации, незамкнутость системы и т. п.), рассматриваемые в момент времени . Предполагается, что  принимает множество значений, определяемых вне модели. Например,  может определяться руководителями общества каким-либо способом, не зависящим от  и . Будем считать  и  эндогенными переменными, т. е. переменными, значения которых определяются в результате одновременного взаимодействия образующих модель соотношений, а  - экзогенной переменной, значения которой определяются вне модели. Случайные величины , , некоррелированы, имеют нулевые средние и одинаковые дисперсии , т. е.  для всех ;

Предполагается также, что  и  независимы (это свойство удовлетворяется как для переменной , принимающей множество фиксированных значений, так и для переменной , принимающей произвольные значения, распределенные случайным и независимым от  образом).

Требуется оценить параметры модели ,  и . Если наша задача состоит в получении «хороших» оценок параметров модели (6.12), то мы прежде всего можем рассмотреть применение обычного метода наименьших квадратов. Условия (6.14a) и (6.14b) означают отсутствие как гетероскедастичности, так и автокорреляции. Поэтому для обоснования применения МНК остается только решить вопрос о независимости между  и . Подставляя (6.12) в (6.13), получим

или

    .

Так как , то  и

.

Таким образом, входящие в уравнение случайная составляющая и объясняющая переменная оказываются коррелированными, а потому непосредственное применение к (6.12) метода наименьших квадратов приведет к смещенным оценкам параметров  и . Это смещение возникает в случае конечных выборок, однако, оценки, найденные обычным МНК, будут к тому же и несостоятельными, т. е. смещение в оценках сохранится для бесконечно больших выборок.

Так как корреляция между  и  в уравнении (6.12) приводит к нежелательным последствиям, естественно рассмотреть альтернативные методы оценивания, которые позволяют их избежать. Такие методы, как косвенный МНК двух-, трехшаговые МНК, пригодные для решения подобных задач, и будут рассмотрены нами далее.

Прежде чем обсуждать проблему оценивания одновременных уравнений, рассмотрим матричную спецификацию общей линейной модели и ее идентифицируемость.

Системы одновременных уравнений в матричной форме. Проблема идентификации.

Предположим, что имеется следующая система уравнений для момента времени :

.....................................................................................................        (6.15)

,

где через  обозначены значения эндогенных переменных в момент , а через  - как значения экзогенных переменных, так и лаговые значения эндогенных переменных,  - случайные возмущения, , , . Эти две последние группы переменных объединены и образуют вместе класс предопределенных переменных.

Совокупность равенств (6.15) и будет системой одновременных уравнений в структурной форме. Структурная форма модели – это система уравнений, отражающая связь между переменными в соответствии с положениями экономической теории и характеризующая структуру экономики или ее сектора. Параметры структурной формы модели называют структурными параметрами. Если модель содержит тождества, то без потери общности их можно назвать уравнениями, в которых структурные параметры при переменных равны 1.

Приведенная форма модели – это система уравнений, в которой каждая эндогенная переменная есть линейная функция от всех предопределенных переменных модели. Для экономической интерпретации применяются структурные уравнения, для прогнозирования – приведенная форма.

Будем считать, что в каждом уравнении один из коэффициентов  при какой-либо эндогенной переменной равен единице – это естественное условие нормировки. Оно позволяет каждое уравнение системы разрешить относительно одной эндогенной переменной.

Введем обозначения

, , ,

, .

Тогда система (6.15) перепишется в виде

.                                  (6.16)

Здесь  -  матрица, состоящая из коэффициентов при текущих значениях эндогенных переменных,  -  матрица из коэффициентов при предопределенных переменных, , ,  - вектор-столбцы.

Подчеркнем, что деление переменных на экзогенные и эндогенные должно проводиться вне модели. Одним из основных требований к экзогенным переменным является условие их некоррелируемости с ошибками в каждом наблюдении . Будем предполагать, что

  1.  ;
  2.  , матрица  не зависит от  и положительно определена;
  3.  векторы  и  при  некоррелированы;
  4.  матрица  невырождена, т. е. .

Используя условие 4), умножим обе части равенства (6.16) слева на :

,                  (6.17)

где , .

Полученная система (6.17) будет приведенной формой модели. Элементами матриц  и  являются структурные коэффициенты, а элементами матрицы  в (6.17) – коэффициенты приведенной формы.

Нетрудно понять, что в общем случае эндогенные переменные и ошибки в структурной системе коррелированы, поэтому, как уже отмечалось, применение к какому-либо из уравнений обычного метода наименьших квадратов даст смещенные и несостоятельные оценки структурных коэффициентов. В то же время коэффициенты приведенной формы могут быть состоятельно оценены, поскольку переменные  некоррелированы со структурными ошибками  и, следовательно, с ошибками приведенной формы модели .

Проблема идентификации или, правильнее сказать, идентифицируемости относится к структурным параметрам, а не к параметрам приведенной формы. Она может быть сформулирована следующим образом: можно ли в предположении, что элементы матрицы  в (6.17) известны, однозначно определить некоторые или все элементы матриц  и .

Мы не будем здесь давать строгое формальное определение идентифицируемости структурной модели. Подробное изложение этого вопроса можно найти, например, в [4,9]. Подчеркнем лишь, что тот или иной структурный коэффициент идентифицируем, если он может быть вычислен на основе коэффициентов приведенной формы. Соответственно какое-либо уравнение в структурной форме модели будем называть идентифицируемым, если идентифицируемы все его коэффициенты. Следует иметь в виду, что проблема идентифицируемости логически предшествует задаче оценивания. Если система не идентифицируема, то это означает, что с имеющимися в нашем распоряжении наблюдениями, независимо от их числа, совместимы многие модели.

Данное уравнение системы точно идентифицировано , если его структурные параметры однозначно определяются по приведенным коэффициентам. Структурные параметры такого уравнения можно найти косвенным методом наименьших квадратов (см. п. 6.3). Если из приведенной формы модели можно получить несколько оценок структурных параметров, то уравнение сверхидентифицировано. Структурные параметры такого уравнения определяются двухшаговым методом наименьших квадратов. Если структурные параметры уравнения модели нельзя найти через приведенные коэффициенты, то такое структурное уравнение называется неидентифицируемым, и численные оценки его параметров найти нельзя.

В [3-5] описаны необходимые и достаточные условия идентифицируемости. Здесь же мы приведем лишь необходимое условие, так называемое порядковое условие идентификации или счетное правило.

Для того, чтобы определить, идентифицировано ли структурное уравнение модели, по каждому уравнению и модели в целом подсчитывают:  - число предопределенных переменных модели,  - число предопределенных переменных в каждом уравнении,  - число эндогенных переменных в каждом уравнении. Далее для каждого уравнения в отдельности проверяют следующее соотношение:

.                                     (6.18)

Если число предопределенных переменных, не входящих в уравнение, строго больше числа эндогенных переменных, входящих в уравнение, минус 1 (), уравнение сверхидентифицировано.

Если число предопределенных переменных, не входящих в   уравнение, равно числу эндогенных переменных, входящих в уравнение, минус 1 (), уравнение точно идентифицировано.

Если число предопределенных переменных, не входящих в уравнение, строго меньше числа эндогенных переменных, входящих в уравнение, минус 1 (), уравнение неидентифицировано.

Примите во внимание, что нет необходимости исследовать на идентификацию тождества модели, поскольку их структурные параметры известны и равны 1. Однако переменные, входящие в тождества учитываются при подсчете числа эндогенных и предопределенных переменных модели.

Обсуждая проблему идентификации, следует иметь в виду, что при неполной идентификации невозможно получить оценки некоторых или даже всех параметров. В случае точной идентификации все методы оценивания дают одинаковые результаты.

Пример 6.3. Пусть имеется следующая эконометрическая модель:

    (функция потребления)

                        (функция инвестиций)

  (функция заработной платы)

,                                 (тождество дохода),

где  - расходы на конечное потребление в период ; ,  - совокупный доход в периоды  и , соответственно;  - валовые инвестиции периода ;  - расходы на заработную плату в период ;  - государственные расходы в году ; , ,  - случайные ошибки.

Данная модель представляет собой систему одновременных уравнений, так как она содержит взаимозависимые переменные. Здесь четыре эндогенных переменных , , , , которые находятся в левой части каждого из уравнений; две переменные  и  являются экзогенными, их значения определяются вне модели. Кроме того, модель содержит лаговую эндогенную переменную . Таким образом, общее число предопределенных переменных модели .

Проверим выполнение порядкового условия идентификации (6.18) для каждого из уравнений модели.

Для первого уравнения  (в него входят эндогенные переменные , , );  (уравнение включает одну предопределенную переменную ). Имеем:

.

Следовательно, первое уравнение точно идентифицировано.

Для второго уравнения:  ();  (). Имеем:

.

Второе уравнение сверхидентифицировано.

Для третьего уравнения:  (,);  ().Имеем:

.

Третье уравнение сверхидентифицировано.

Последнее уравнение модели представляет собой тождество, его не надо проверять на идентификацию.

6.3. Методы оценивания систем одновременных уравнений

Как уже отмечалось, независимо от того, хотим ли мы оценить только одно из уравнений системы (6.15) или каждое уравнение этой модели, мы оказываемся в ситуации, когда ни обыкновенный метод наименьших квадратов, ни различные версии обобщенного МНК в общем случае не обеспечивают удовлетворительную процедуру оценивания. Если обыкновенный МНК применить к уравнению модели, в котором присутствуют несколько текущих значений эндогенных переменных, то придется одну из них выбрать в качестве «зависимой» переменной для данного уравнения. Тогда оставшиеся (одно или несколько) текущие значения эндогенных переменных, участвующие в этом соотношении, будут, вообще говоря, коррелировать с ошибками, и потому МНК-оценки параметров модели окажутся смещенными и несостоятельными. Только в случае рекурсивных моделей обыкновенный МНК, как мы увидим ниже, дает оптимальный способ оценивания.

В более общем случае, когда модель состоит из одновременных уравнений, не удовлетворяющих специальным предположениям о рекурсивности, существует простой метод оценивания – косвенный метод наименьших квадратов, но он применим лишь к точно идентифицируемым уравнениям. Этот метод состоит в оценивании обычным МНК параметров приведенной формы и подстановке оценок в выражения для коэффициентов структурной формы через коэффициенты приведенной формы, что приводит к смещенным, но состоятельным оценкам. В случае сверхидентифицируемости косвенный МНК не применим.

Для оценивания произвольных систем одновременных уравнений в настоящее время имеется довольно значительное количество методов, которые делятся на две группы. К первой группе относятся методы, применимые к каждому уравнению в отдельности, т. е. позволяющие оценивать каждое из уравнений поочередно; и вторая группа содержит методы, предназначенные для оценивания всей системы в целом, т. е. всех уравнений сразу.

Примерами первой группы являются двухшаговый метод наименьших квадратов (2МНК), метод максимума правдоподобия с ограниченной информацией, т. е. для одного уравнения, называемый также методом наименьшего дисперсионного соотношения или методом Комиссии Коулса и некоторые другие. Примерами методов второй группы являются трехшаговый метод наименьших квадратов (3МНК) и метод максимального правдоподобия полной информации. Несколько особняком стоят итерационные методы или методы неподвижной точки, которые обладают определенными вычислительными достоинствами, что немаловажно при исследовании систем большой размерности, однако статистические их свойства изучены в недостаточной степени [4,9].

Существует специальный тип систем одновременных уравнений – так называемые рекурсивные системы, - для которых при определенном выборе порядка и взаимосвязей оцениваемых отдельных уравнений системы процедура МНК приводит к оцениванию всех ее уравнений. С точки зрения задач статистического оценивания этот тип систем одновременных уравнений является простейшим, поэтому мы с него и начнем.

  1.  Рекурсивные системы

Система одновременных уравнений удовлетворяет свойству рекурсивности, если она построена следующим образом. В качестве 1-го уравнения системы определяют соотношение, в котором присутствует только одна эндогенная переменная  (соответственно, и индексирует ее первым номером). Так что первое уравнение системы содержит одну эндогенную переменную и какое-то количество предопределенных переменных. Второе уравнение системы может содержать не более двух эндогенных переменных; это, если необходимо,  («участница» 1-го уравнения) и . В третье уравнение, кроме уже участвовавших во 2-м уравнении  и , можно включить опять только одну эндогенную переменную  и т. д. В результате мы получим модель вида (6.16), в которой матрица  является нижней треугольной матрицей, т. е.  при  для всех  (при сохранении условия нормировки ). Если для систем такого вида дополнительно потребовать взаимную некоррелируемость случайных ошибок (т. е. диагональность ковариационной матрицы: ) и независимость ее от , то оценки структурных параметров в каждом отдельном уравнении системы с помощью прямого метода наименьших квадратов будут состоятельными, а при нормальности ошибок – и асимптотически эффективными. Под прямым МНК понимается следующая процедура, последовательно примененная к –му уравнению системы (): с помощью обычного МНК строятся оценки коэффициентов регрессии  по всем включенным в это уравнение эндогенным и предопределенным переменным.

Пример 6.4. Рекурсивная система с тремя эндогенными и одной экзогенной переменной может быть записана в виде

.

Так как  не коррелирует с , а  не коррелирует с  и , то второе и третье уравнения этой системы могут оцениваться путем непосредственного применения обыкновенного МНК, как, впрочем, и первое уравнение, которое содержит одну эндогенную и одну экзогенную переменные. Для применения МНК система переписывается в виде

               

                            .

Указанные выше привлекательные свойства рекурсивных систем вызывают желание использовать именно их в эконометрических исследованиях, так как считается, что большинство реальных механизмов формирования рассматриваемых в модели экономических показателей функционируют в рекурсивном (а не одновременном режиме).

Рассмотрим пример спецификации модели в виде рекурсивной системы одновременных уравнений при описании процесса формирования равновесных цен и количеств предлагаемых на рынке товаров.

Пример 6.5. [4] Пусть  - цена некоторого товара в момент времени , а  - объем продаж этого товара в тот же момент времени. Естественно предположить, что объем продаж  зависит от цены  и от объема продаж в предыдущий момент времени . В свою очередь, цена товара  зависит от объема его продаж в предыдущий момент времени (т. е. ). В данной схеме цена  и объем продаж  играют роль эндогенных переменных, а лаговая переменная  играет роль единственной предопределенной переменной, которую мы обозначим через  (т.е. ). Таким образом, анализируемая ситуация будет описана рекурсивной системой

, .          (6.19)

Очень важным моментом правильной спецификации этой модели является выбор продолжительности рассматриваемого периода времени. Действительно, продавец устанавливает цены, а покупатель на них реагирует. При этом торговые запасы будут либо накапливаться, либо рассасываться. Продавец среагирует на эту динамику и т. д. Если выбрать в качестве периода один день, то сделанные в модели допущения выглядят естественными, так как последовательность причинных связей  является линейной цепью и не содержит никаких петель обратной связи. Это позволяет нам предположить, что ошибки или возмущения, влияющие на спрос () и предложение (), являются независимыми.

Однако в действительности приходится рассматривать системы, отличные от рекурсивных типа (6.19), в связи с тем, что исследователь обычно располагает некоторыми усредненными (агрегированными) данными. Например, данные о рыночной конъюнктуре могут быть усреднены по недельным или месячным периодам. Предположим, что публикуются не дневные, а только недельные данные о средней недельной цене  и среднем объеме дневных продаж . Тогда вынужденное агрегирование соответствующих ошибок  и в системе (6.19) делает их взаимно коррелированными, а саму модель – неидентифицированной. В этой ситуации модель спроса и предложения («крест» Маршалла) представляется более естественной:

.

Здесь использованы привычные для экономистов обозначения:  - средняя цена за неделю ,  - средний объем ежедневных продаж за неделю .

Без введения дополнительных переменных эта модель оказывается теперь даже неидентифицируемой. Однако если бы идентифицирующие ее переменные и существовали, то, как правило, введение их в модель и вынужденное агрегирование по временным периодам может превратить рекурсивную модель в обычную систему одновременных уравнений со всеми вытекающими отсюда проблемами ее оценивания.

  1.  Косвенный метод наименьших квадратов

Косвенный метод наименьших квадратов (КМНК) (или метод приведенной формы) предназначен для оценивания структурных параметров отдельного уравнения системы и может дать результат (без сочетания с другими методами, например, с двухшаговым методом наименьших квадратов) только в применении к точно идентифицируемому уравнению.

Суть КМНК состоит в следующем. Сначала структурная форма преобразуется в приведенную, затем с помощью МНК оцениваются параметры каждого уравнения приведенной формы модели в отдельности. Наконец, параметры приведенной формы трансформируются в параметры структурной формы модели. Иначе говоря, на этом этапе осуществляется обратный переход от системы с численными параметрами приведенной формы к системе структурной формы. Оценки структурных параметров, полученные КМНК, получаются состоятельными.

Пример 6.6. Для иллюстрации КМНК расмотрим простую структурную форму

 .

Оба уравнения точно идентифицируемы:

(1)       ,      ,      

.

 (2)       ,      ,      

.

Приведенная форма имеет вид

 .

Пусть в результате статистического наблюдения собраны данные об эндогенных переменных ,  и экзогенных переменных  и . На основе этой информации с помощью МНК оценим неизвестные параметры приведенной формы, т. е. получим ,  и , . Это первый этап косвенного метода наименьших квадратов. На втором этапе необходимо по найденным оценкам , ,  определить значения структурных параметров  и . Для этого используем соотношения, связывающие структурные параметры каждого уравнения, с параметрами приведенной формы:

, ;

, .

Заменим в этих выражениях неизвестные значения коэффициентов их оценками, из полученной системы четырех уравнений с четырьмя неизвестными найдем оценки структурных коэффициентов , , , .

В этом случае МНК-оценки параметров приведенной формы получаются несмещенными и состоятельными, однако оценки структурных коэффициентов, найденные из этой системы, будут только состоятельными.

Если система сверхидентифицируема, то один и тот же структурный коэффициент допускает разные выражения через параметры приведенной формы, так как в системе, связывающей эти коэффициенты число уравнений превышает число неизвестных. В этом случае наиболее простым и в то же время надежным является двухшаговый метод наименьших квадратов (2МНК).

  1.  Двухшаговый метод наименьших квадратов

Опишем в общих чертах суть вычислений по двухшаговому методу, которым оцениваются коэффициенты лишь одного уравнения сверхидентифицированной системы.

К процедуре оценивания параметров при применении 2МНК прибегают дважды. На первом шаге производится оценивание обычным МНК параметров приведенной формы. Это дает возможность получить оценки систематической и случайной составляющей эндогенной переменной , т. е. предполагается, что , где  - оценки значений этой переменной, полученные по приведенной форме.

На втором шаге эндогенные переменные, находящиеся в правой части структурных уравнений, заменяются их оценками . К преобразованому таким путем структурному уравнению применяется обычный МНК.

Оценки структурных параметров, полученные 2МНК, получаются, вообще говоря, смещенными, но состоятельными и эффективными.

Отметим, что в большинстве эконометрических компьютерных пакетов для оценивания систем одновременных уравнений реализован именно двухшаговый метод наименьших квадратов, при использовании которого фактически каждое уравнение оценивается независимо от других.

  1.  Трехшаговый метод наименьших квадратов

Метод применяется для оценки параметров системы одновременных уравнений в целом. Сначала к каждому уравнению применяется двухшаговый метод для определения оценок коэффициентов и оценок дисперсий случайных ошибок. Затем с использованием найденных оценок дисперсий возмущений строится оценка ковариационной матрицы. После этого для оценивания коэффициентов всей системы применяется обобщенный метод наименьших квадратов. Трехшаговый метод в случае, когда возмущения, входящие в различные структурные уравнения, коррелируют друг с другом, оказывается асимптотически эффективнее двухшагового метода.

При практическом использовании 3МНК требуется иметь в виду, что:

  1.  каждое уравнение, являющееся определением (т. е. все тождества), необходимо исключить из системы прежде, чем приступать к вычислениям;
  2.  каждое неидентифицируемое уравнение также исключается;
  3.  в системе остаются только точно идентифицируемые и сверхидентифицируемые уравнения, причем с вычислительной точки зрения целесообразно применять трехшаговую процедуру к каждой из этих групп уравнений отдельно;
  4.  если матрица ковариаций для структурных возмущений блочно-диагональная, то вся процедура трехшагового оценивания может быть применена отдельно к каждой группе уравнений, соответствующих одному блоку.

Завершим эту главу описанием классической макроэкономической модели Клейна и результатов ее оценивания с помощью обычного и двухшагового метода наименьших квадратов [8].

Пример 6.7. Модель Клейна 1. В 1950 году Л. Клейн предложил динамическую модель макроэкономики, получившую название модель Клейна 1. Она описывается следующей системой уравнений.

       (потребление),

                 (инвестиции),

(зарплата в частном секторе),

             (совокупный спрос в равновесии),

            (доход частного сектора),

                 (капитал).

Переменные, стоящие в левых частях уравнений, являются эндогенными. Экзогенными переменными в данной модели являются:  - государственные расходы, не включающие зарплату,  - непрямые налоги плюс чистый доход от экспорта,  - зарплата в государственном секторе,  - временной тренд (в годах, начиная с 1931 года). Кроме того, включены три лаговые переменные. Модель содержит три поведенческих уравнения, одно уравнение равновесия и два тождества.

Приведем результаты оценивания первых трех уравнений на основе ежегодных данных для экономики США за период с 1921 по 1941 г. с помощью обычного МНК и двухшагового МНК (в скобках указаны оценки стандартных ошибок).

Обычный метод наименьших квадратов:

,

                    (1,30)  (0,091)     (0,091)       (0,040)

               ,

                    (5,47)  (0,097)    (0,101)       (0,027)

               .

                       (1,27)  (0,032)     (0,037)        (0,032)

Двухшаговый метод наименьших квадратов:

,

                        (1,32)  (0,118)     (0,107)       (0,040)

               ,

                     (7,54)  (0,173)    (0,162)       (0,036)

               .

                       (1,15)  (0,036)     (0,039)        (0,029)

Вопросы для самопроверки и упражнения

6.1. Как классифицируются переменные в системах одновременных уравнений?

6.2. Что такое идентифицируемость модели? Запишите порядковое условие идентификации.

6.3. Для модели спроса и предложения:

           (предложение)

                         (спрос)

                                            (равновесие)

укажите, какие переменные являются эндогенными, а какие - экзогенными.

6.4. Исследуйте на идентифицируемость модель, приведенную в примере 6.1.

6.5. Опишите процедуру оценивания параметров модели в примере 6.3.

6.6. Для модели:

запишите приведенную форму; с помощью порядкового условия идентификации проверьте, идентифицирована ли данная модель. Укажите, каким методом вы будете определять структурные параметры каждого уравнения. В предположении, что имеются все необходимые исходные данные, кратко опишите методику расчетов.

6.7. Рассматривается статическая модель экономики страны

          

,

где  - личное потребление в постоянных ценах,  - национальный доход в постоянных ценах,  - инвестиции в отрасли экономики страны в постоянных ценах.

Система приведенных уравнений оказалась следующей:

              ;

              .

Дайте интерпретацию коэффициентов приведенной формы модели. Определите параметры структурной формы модели и дайте их интерпретацию. Укажите, какая форма модели используется для прогноза.


Рекомендуемая литература

1.   Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Основы моделирования и первичная обработка данных. – М.: Финансы и статистика, 1983.

2.   Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Исследование зависимостей. – М.: Финансы и статистика, 1985.

3.  Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики. – М.: ЮНИТИ, 1998.

4.    Джонстон Дж. Эконометрические методы. – М.: Статистика, 1980.

5.    Доугерти К. Введение в эконометрику. – М.:ИНФРА – М, 1999.

6.    Ланге О. Введение в эконометрику. – М.: Прогресс, 1964.

7.    Лизер С. Эконометрические методы и задачи. – М.: Статистика, 1971.

8.  Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. – М.: Дело, 1997.

9. Маленво Э. Статистические методы эконометрии. – М.: Статистика,1975.

10.   Тинтнер Г. Введение в эконометрию. – М.: Статистика,1965.

11. Четыркин Е. М. Статистические методы прогнозирования. - М.: Статистика, 1977.


 

А также другие работы, которые могут Вас заинтересовать

6896. Определение постоянной в законе Стефана-Больцмана 107 KB
  Цель работы: изучение законов теплового излучения. Приборы и принадлежности: лампа накаливания, выпрямитель, реостат, амперметр, вольтметр, приёмник светового излучения, микроамперметр. Тела способны излучать электромагнитные волны...
6897. Исследование спектров поглощения ипропускания световых волн 106 KB
  Исследование спектров поглощения ипропускания световых волн Цель работы: освоение методов получения спектров пропускания, ознакомление с параметрами фильтров и с принципом работы монохроматора. Приборы и принадлежности: монохроматор МУМ-01, блок пит...
6898. Изучение и компьютерное моделирование работы LC-автогенератора с трансформаторной обратной связью 320 KB
  Автогенераторы Цель работы Изучение и компьютерное моделирование работы LC-автогенератора с трансформаторной обратной связью. В работе необходимо исследовать условия самовозбуждения автогенератора, а также научиться определять амплитуду нап...
6899. Поняття державного механізму та значення його для держави 81.72 KB
  Вступ На будь-якому етапі розвитку людства питання про те, якою повинна бути держава, її функції, а також як і ким повинна здійснюватися державна влада залишалося в тій або іншій мірі актуальним і суттєвим. Держава, як вища форма організації суспіль...
6900. Разработка форм и интерфейса базы данных используя средства Microsoft Access 336 KB
  Разработка форм Цель работы: Используя средства Microsoft Access, приобрести навыки разработки интерфейса базы данных Основы создания формы. Создадим форму с помощью автоформы - Клиенты. Для этого будем использовать таблиц...
6901. Лінійна алгебра. Конспект лекцій та тестові завдання 855 KB
  Вища математика належить до циклу фундаментальнихдисциплін і забезпечує вивчення загальнонаукових, загально інженерних та спеціальних дисциплін.У технічному університеті курс вищої математики є одним із основних, визначальних, як для всь...
6902. Правознавство. Основи державного (конституційного) права України 1.37 MB
  Лекція 1. Основи державного (конституційного) права України ПЛАН Загальна характеристика держави. Державний суверенітет. Поняття і риси правової держави. Форми держави. Загальна характеристика права. Поняття норм права. Джере...
6903. Економіка та організація виробництва. Опорні конспекти 618 KB
  Підприємство, як субєкт господарювання. Визначення, мета і напрямки діяльності підприємства. Вплив зовнішнього оточення на діяльність підприємств. Класифікація підприємств. Порядок створення і ліквідація підприємств. В...