87522

ПАРНАЯ НЕЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ

Лекция

Экономическая теория и математическое моделирование

Использование нелинейных моделей в экономике Во многих практических случаях моделирование экономических зависимостей линейными уравнениями дает вполне удовлетворительный результат и может использоваться для анализа и прогнозирования. Многие экономические зависимости не являются линейными...

Русский

2015-04-21

2.94 MB

14 чел.

PAGE  149

ЛЕКЦИЯ 6

EMBED Excel.Chart.8 \s

Рис. 6.1

EMBED PBrush  

ЛЕКЦИЯ 6

Парная нелинейная регрессионная модель. Особенности нелинейного регрессионного моделирования в экономике. Описание основных нелинейных регрессионных моделей. Показатели качества для нелинейных уравнений регрессии: средняя ошибка аппроксимации, средний коэффициент эластичности, коэффициент детерминации.

  1.  
    ПАРНАЯ НЕЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ
    1. ОСОБЕННОСТИ НЕЛИНЕЙНОГО РЕГРЕССИОННОГО
      МОДЕЛИРОВАНИЯ
      1.  Использование нелинейных моделей в экономике

Во многих практических случаях моделирование экономических зависимостей линейными уравнениями дает вполне удовлетворительный результат и может использоваться для анализа и прогнозирования. Однако в силу многообразия и сложности экономических процессов ограничится рассмотрением лишь линейных регрессионных моделей невозможно. Многие экономические зависимости не являются линейными по своей сути, и поэтому их моделирование линейными уравнениями регрессии, безусловно, не дает положительного результата. Например, при рассмотрении спроса Y на некоторый товар от цены X данного товара в ряде случаев можно ограничиться линейным уравнением регрессии: . Если же мы хотим проанализировать эластичность спроса по цене, приведенное уравнение не позволит этого осуществить. В этом случае целесообразно рассмотреть т.н. логарифмическую модель. При анализе издержек Y от объема выпуска X наиболее обоснованной является полиномиальная (точнее, кубическая) модель. При рассмотрении производственных функций линейная модель является нереалистичной. В этом случае обычно используют степенные модели. Например, широкую известность имеет производственная функция Кобба-Дугласа  (здесь Y – объем  выпуска, K и L – затраты капитала и труда соответственно). Достаточно широко применяются и многие другие модели, в частности обратная и экспоненциальная.

Построение и анализ нелинейных моделей имеют свою специфику.

  1.  Особенности использования МНК
    в нелинейных моделях

Идея МНК основана на том, чтобы минимизировать сумму квадратов отклонений расчетных значений от эмпирических, т.е. нужно оценить параметры q функции f(x,q) таким образом, чтобы ошибки , точнее – их квадраты, по совокупности, были минимальны. Для этого нужно решить задачу минимизации

.                                     (6.1)

Для решения этой задачи приравниваем нулю частные производные функции Q по каждому из параметров qj, т.е.

.

В результате получается система алгебраических уравнений

,                              (6.2)

однако в отличие от линейной модели, это будет уже система нелинейных алгебраических уравнений. Решить аналитически такую систему уравнений, как правило, уже невозможно. Однако её можно решить численно. В наше время, век компьютеров, это уже не такая сложная задача.

Для численного решения этой задачи существует два пути. Во-первых, может быть осуществлена непосредственная минимизация функции Q(q) с помощью методов нелинейной оптимизации, позволяющих находить экстремумы выпуклых функций. Это, например, метод наискорейшего спуска, при использовании которого в некоторой исходной точке определяется антиградиент (направление наиболее быстрого убывания) функции Q. Далее находится минимум Q при движении в данном направлении, и в точке этого минимума снова определяется градиент. Процедура повторяется до тех пор, пока разница значений Q на двух последовательных шагах не окажется меньше заданной малой величины.

Другой путь состоит в решении системы нелинейных уравнений (6.2). Эта система уравнений может быть решена итерационными методами. Однако в общем случае решение такой системы не является более простым способом нахождения решения q, чем непосредственная оптимизация методом наискорейшего спуска.

Существуют методы оценивания нелинейной регрессии, сочетающие непосредственную оптимизацию, используя нахождение градиента, с разложением в функциональный ряд (ряд Тейлора) для последующей оценки линейной регрессии. Наиболее известен один из них – метод Маркуардта, сочетающий в себе достоинства каждого из двух используемых методов.

Недостаток методов нелинейной оптимизации состоит в том, что здесь затруднительно провести статистический анализ модели, т.е. оценить значимость коэффициентов регрессии, построить для них доверительные интервалы, оценить качество уравнения регрессии в целом, оценить точность прогноза, использовать критерии Стьюдента и Фишера и т.д. Кое-что из выше перечисленного численные методы позволяют проделать, однако полный статистический анализ модели, подобный анализу линейной модели, провести не удается. Поэтому для того чтобы можно было провести полный статистический анализ модели, её линеаризуют, если конечно это возможно.

  1.  Методы линеаризации функции регрессии

Один из подходов оценки параметров нелинейных моделей состоит в линеаризации модели. Линеаризация модели заключается в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными. В рамках этого подхода различают два класса нелинейных регрессионных моделей, допускающих линеаризацию: а) модели, нелинейные относительно включенных в модель переменных, но линейных по оцениваемым параметрам; б) модели, нелинейные по оцениваемым параметрам.

Примером нелинейной регрессии, но линейной по оцениваемым параметрам, могут служить следующие функции: полиномы различных степеней, например

;

равносторонняя гипербола:

.

К нелинейным регрессионным моделям, нелинейным по оцениваемым параметрам, относятся: степенная функция

;

показательная функция:

.

Нелинейная регрессионная модель с линейно включенными в нее параметрами не таит каких-либо сложностей в оценке ее параметров. Введение новых переменных позволяет свести её к линейной модели, для оценки параметров которой можно использовать обычный МНК. Так, например, если нужно оценить параметры регрессионной модели

,

то вводя новые переменные , , получим линейную модель

,

параметры которой находятся обычным МНК.

Следует, однако, отметить и недостаток такой замены переменных, связанный с тем, что оценки параметров получаются не из условия минимизации суммы квадратов отклонений для исходной переменной, а из условия минимизации суммы квадратов отклонений для новых переменных, что не одно и то же. К тому же такое преобразование искажает исходные предпосылки МНК, поскольку новые объясняющие переменные, вообще говоря, будут зависимыми. В связи с этим необходимо определенное уточнение полученных оценок.

Более сложной проблемой является нелинейность модели по параметрам, т.к. линеаризация достигается при помощи более сложных преобразований. Например, приведенную выше степенную модель при помощи логарифмического преобразования можно привести к линейному виду

.

К этой модели уже можно применить обычный МНК. Однако следует подчеркнуть, что критерии значимости и интервальные оценки параметров, применяемые для нормальной линейной регрессии, требуют, чтобы нормальный закон распределения в такой модели имел логарифм случайного отклонения (т.е. , а вовсе не e. Другими словами, случайное отклонение e должно иметь логарифмически нормальное распределение.

Заметим попутно, что к модели

,

рассматриваемой в качестве альтернативной к уже рассмотренной, изложенный метод исследования уже непригоден, т.к. ее нельзя привести к линейному виду. В этом случае можно использовать только численные методы нелинейной оптимизации.

Отметим ещё, что при построении нелинейных уравнений более остро, чем в линейном случае, стоит проблема правильной оценки формы зависимости между переменными. Неточности при выборе формы оцениваемой функции существенно сказываются на качестве отдельных параметров уравнений регрессии и, соответственно, на адекватности всей модели в целом (проблема спецификации).

  1.  ОПИСАНИЕ ОСНОВНЫХ НЕЛИНЕЙНЫХ
    РЕГРЕССИОННЫХ МОДЕЛЕЙ
    1. Полиномиальная модель

Модель вида

                           (6.3)

называется полиномиальной моделью. Как показывает опыт, среди полиномиальных моделей чаще всего используется параболическая и кубическая модели. Ограничение использования полиномов более высоких степеней связана с требованием однородности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и соответственно менее однородна совокупность по результативному признаку.

Параболическая модель

                                      (6.4)

может отражать зависимость между объемом выпуска и средними или предельными издержками; или между расходами на рекламу и прибыль и т.д. Параболическая модель целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную и наоборот. Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболической модели становятся трудно интерпретируемыми, поэтому форма связи заменяется другой нелинейной моделью (например, степенной).

При b1>0 и b2<0 парабола симметрична относительно максимума, т.е. точки в которой рост сменяется на падение. Такого рода функции можно наблюдать в экономике труда при изучении зависимости заработной платы работников физического труда от возраста. С увеличение возраста повышается заработная плата ввиду одновременного увеличения опыта и повышения квалификации работника. Однако с определенного возраста ввиду старения организма и снижения производительности труда дальнейшее повышение возраста может привести к снижению заработной платы работника.

Кубическая модель

                                (6.5)

в микроэкономике может характеризовать зависимость общих издержек от объема выпуска. Использование кубической модели более проблематично, чем параболической модели, поскольку при изменении фактора характер связи рассматриваемых признаков меняется два раза (рост, спад и опять рост).

  1. Степенная модель

Модель вида

                                              (6.6)

называется степенной моделью. Эта модель может отражать зависимость спроса Y на благо от его цены X (тогда b<0) или дохода X (тогда b>0). Функция (6.7) может отражать также зависимость объёма выпуска Y от использования ресурса X (производственная функция), в которой 0<b<1, а также ряд других зависимостей.

Стандартным и широко используемым подходом к анализу моделей подобного вида в эконометрике является логарифмирование. Прологарифмируем обе части равенства (6.6), имеем

.

После замены lna=b0 и lne=e0, получим

.                                         (6.7)

Это есть т.н. двойная логарифмическая модель (и зависимая, и объясняющая переменные заданы в логарифмическом виде).

Заметим, что в случае парной регрессии обоснованность использования логарифмической модели проверить достаточно просто. Вместо наблюдений (xi, yi) рассматриваются наблюдения (lnxi, lnyi). Вновь полученные точки наносятся на корреляционное поле. Если их расположение соответствует прямой линии, то произведённая замена удачна и использование логарифмической модели обосновано.

Степенные производственные функции обладают большими возможностями. Они хорошо моделируют как линейные, так и криволинейные, как возрастающие, так и убывающие зависимости. Поэтому показательные функции довольно часто используются в экономических исследованиях.

  1. Показательная модель

Модель вида

                                                 (6.8)

называется показательной моделью. Ей равносильна экспоненциальная модель

.                                               (6.9)

Прологарифмировав выражение (6.9), получим полулогарифмическую (логарифмически-линейную) модель

.                                               (6.10)

Такие модели обычно используются в тех случаях, когда необходимо определять темп роста или прироста каких-либо экономических показателей. Например, при анализе банковского вклада по первоначальному вкладу и процентной ставке, при исследовании зависимости прироста объёма выпуска от относительного (процентного) увеличения затрат ресурса, бюджетного дефицита от темпа роста ВНП, темпа роста инфляции об объёма денежной массы и т.д.

В качестве примера можно примести зависимость, хорошо известную в банковском и финансовом анализе

,

где Y0 – начальная величина переменной Y (например, первоначальный вклад в банке); r – сложный темп прироста величины Y (процентная ставка); Yt – значение величины Y в момент времени t (вклад в банке в момент времени t).

Заметим, что в случае парной регрессии обоснованность использования логарифмической модели проверить достаточно просто. Вместо наблюдений (xi, yi) рассматриваются наблюдения (xi, lnyi). Вновь полученные точки наносятся на корреляционное поле. Если их расположение соответствует прямой линии, то произведённая замена удачна и использование полулогарифмической модели обосновано.

Отметим, что иногда в компьютерных программах используется логарифмическая параболическая модель

,                                         (6.11)

а также модифицированная экспонента

.                                                  (6.12)

Константа k носит название асимптоты экспоненты, т.к. значения этой функции неограниченно приближаются (снизу) к величине k. Могут и другие варианты модифицированной экспоненты. Основной недостаток модифицированной экспоненты состоит в том, что она является существенно нелинейной моделью.

  1. Гиперболические модели

Модель вида

                                              (6.13)

называется гиперболической моделью. Эта модель обычно используется в тех случаях, когда неограниченное увеличение объясняющей переменной X асимптотически приближает зависимую переменную Y к некоторому пределу (к b0).

Гиперболическая модель (6.13) может отражать зависимость между объемом выпуска (X) и средними фиксированными издержками, а также для характеристики связи времени обращения товаров от величины товарооборота. То есть данная модель используется как на макроуровне, так и на микроуровне.

Классическим примером гиперболической модели является кривая Филипса, характеризующая нелинейные соотношения между нормой безработицы X и процентом прироста заработной платы Y. Английский экономист А. Филипс, анализируя данные более чем за 100-летний период, в конце 50-х годов XX в. установил обратную зависимость процента прироста заработной платы от уровня безработицы.

При b1>0 имеем гиперболическую зависимость, которая при x приближается к постоянному значению b0. Так, для кривой Филипса

величина b0=0,00679 означает, что с ростом уровня безработицы темп прироста заработной платы в пределе практически к нулю. Соответственно можно определить тот уровень безработицы, при котором заработная плата оказывается стабильной и темп ее прироста равен нулю.

При b1<0 имеем возрастающую функцию с верхней асимптотой при x. примером такого рода зависимости может служить взаимосвязь доли расходов на товары длительного пользования и общих сумм расходов (или доходов). Математическое описание подобного рода взаимосвязей получило название кривых Энгеля. В 1857 г. немецкий статистик Э. Энгель на основе исследования семейных расходов сформулировал закономерность – с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается соответственно увеличивается доля доходов, расходуемая на непродовольственные товары. Однако это увеличение не беспредельно, ибо на все товары сумма долей не может быть больше единицы, а на отдельные непродовольственные товары этот предел может характеризоваться величиной параметра b0.

Разновидностью гиперболической модели является обратная модель

.                                               (6.14)

Эта модель сводится к линейной модели при помощи обратного преобразования Z=1/Y. Следует отметить, что параметры b0 и b1 интерпретируются также как и в линейной модели, если имеет смысл величина 1/Y. Например, если под Y подразумеваются затраты на 1 руб. продукции, а под X – производительность труда (выработка продукции на одного работника), то обратная величина характеризует затратоотдачу и параметр b1 имеет экономическое содержание – средний прирост продукции в стоимостном измерении на 1 руб. затрат с ростом производительности труда на единицу своего измерения.

  1. Полулогарифмическая модель

Модель вида

                                              (6.15)

называется полулогарифмической (или линейно-логарифмической) моделью. Эта модель обычно используется в тех случаях, когда необходимо исследовать влияние процентного изменения независимой переменной на абсолютное изменение зависимой переменной. Полулогарифмическая модель характеризует замедленными темпами роста Y от X.

Например, если положить Y=GNP (валовой национальный продукт), а X=M (денежная масса), то получим следующую формулу:

,

из которой следует, что если увеличить предложение денег M на 1%, то ВНП в среднем вырастет на 0,01b.

  1. S-образные модели

В экономике достаточно распространены процессы, которые сначала растут медленно, затем ускоряются, а затем снова замедляют свой рост, стремясь к какому-либо пределу. В качестве примера можно привести процесс ввода некоторого объекта в промышленную эксплуатацию, процесс изменения спроса на товары, обладающие достигать некоторого уровня насыщения, и др. Для моделирования таких процессов используются т.н. S-образные кривые роста, среди которых выделяют кривую Гомперца и логистическую кривую.

Логистическая модель (модель Перл-Рида) имеет вид

.                                                   (6.16)

Логистическая кривая имеет вид, показанный на рис. 6.1. Особенностью логистической кривой состоит в том, что она является симметричной относительно точки перегиба.

К числу S-образных моделей относится модель Гомперца:

.                       (6.17)

Здесь a и b – положительные параметры, k – асимптотическое значение функции.

В отличие от логистической кривой в кривой Гомперца выделяются четыре участка: на первом – прирост функции незначителен, на втором – прирост увеличивается, на третьем участке прирост примерно постоянен, на четвертом – происходит замедление темпов прироста и функция неограниченно приближается к значению k. Отметим, что кривая Гомперца уже не является симметричной относительно точки перегиба.

  1. ПОКАЗАТЕЛИ КАЧЕСТВА ДЛЯ НЕЛИНЕЙНЫХ МОДЕЛЕЙ РЕГРЕССИИ
    1. Средняя ошибка аппроксимации

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, имеющимся статистическим данным. В случае простой линейной регрессии показателями качества построенного уравнения регрессии служат, в первую очередь, коэффициент детерминации и критерий Фишера. Однако в случае нелинейной регрессии использование этих показателей наталкивается на определенные трудности, о которых будет ниже говориться. Поэтому для оценки качества нелинейного уравнения регрессии используется совокупность различных показателей и характеристик. Обсудим некоторые из них.

Фактические значения результативного признака (зависимой переменной) отличаются от теоретических, рассчитанных по уравнению регрессии, т.е. yi от . Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, тем лучше качество модели. Величина отклонений фактических и расчётных значений результативного признака () по каждому наблюдению представляет собой ошибку аппроксимации.

Поскольку () может быть как величиной положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю:

.

Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую:

.                                     (6.18)

Допустимый предел значений  – не более 8-12%. Здесь нет единого мнения о допустимых значений , тем более этот выбор зависит от конкретных условий задачи.

Отметим, что средний коэффициент аппроксимации является приближенной оценкой качества модели. В первую очередь это связано с тем, что этот коэффициент зависит от выбора начала отчета величин yi.

  1. Средний коэффициент эластичности

В экономическом анализе часто используется эластичность функции:

.                                              (6.19)

Эластичность показывает, насколько процентов изменяется функция y=f(x) при увеличении независимой переменной на 1%.

Для степенной функции  производная равна . Соответственно коэффициент эластичности окажется равным

.

Отметим, что только для степенной функции коэффициент эластичности представляет собой постоянную величину, равную параметру b. Именно поэтому степенные функции широко используются в экономических исследованиях, поскольку параметр b здесь имеет чёткую экономическую интерпретацию

Для других функций коэффициент эластичности зависит от значений переменной x. Так, для линейной функции  коэффициент эластичности равен

.

В силу того, что коэффициент эластичности для линейной и других функций не является величиной постоянной, а зависит от соответствующего значения x, то обычно рассчитывается средний коэффициент эластичности по формуле:

.                                            (6.20)

Средний коэффициент эластичности характеризует силу связи между факторным и результирующим признаками. Он показывает на сколько процентов в среднем изменится y, если среднее значение x увеличится на один процент. В зависимости от вида зависимости между x и y формулы расчёта коэффициентов эластичности будут меняться. Поэтому из всех функциональных зависимостей предпочтение отдают той, для которой  имеет наибольшее значение.

Несмотря на широкое использование в эконометрике коэффициентов эластичности, возможны случаи, когда их расчёт экономического смысла не имеет. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в процентах. Например, вряд ли кто будет определять, на сколько процентов может измениться заработная плата с ростом стажа работы на 1%. Или, например, на сколько процентов изменится урожайность пшеницы, если качество почвы, измеряемое в баллах, изменится на 1%.

  1. Коэффициент детерминации

Как уж ранее отмечалось, в случае линейной регрессии основными показателями качества построенного уравнения регрессии служат коэффициент детерминации и критерий Фишера. Использование этих показателей обосновывается в теории дисперсионного анализа. Здесь рассматриваются следующие суммы:

 – общая сумма квадратов отклонений зависимой переменной от средней (TSS);

 – сумма квадратов, обусловленная регрессией (RSS);

 – сумма квадратов, характеризующая влияние неучтенных факторов (ESS).

Напомним, что для моделей, линейных относительно параметров, выполняется следующее равенство

.                                                (6.21)

Исходя из этого равенства, вводился коэффициент детерминации 

.                                          (6.22)

В силу определения R2 принимает значения между 0 и 1, . Чем ближе R2 к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R2=1, то эмпирические точки (xi,yi) лежат на линии регрессии и между переменными Y и X существует функциональная зависимость. Если R2=0, то вариация зависимой переменной полностью обусловлена воздействием неучтённых в модели переменных. Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

Однако для моделей, нелинейных относительно параметров, равенство (6.21) не выполняется, т.е. . В связи с этим может получиться, что  или . Это означает, что коэффициент детерминации, определяемый по формулам (6.22), может быть больше единицы или меньше нуля. Следовательно, R2 для нелинейных моделей не является вполне адекватной характеристикой качества построенного уравнения регрессии.

На практике обычно в качестве коэффициента детерминации принимается величина

.                                                (6.23)

Эта величина имеет тот же самый смысл, что и для линейной модели, но при его использовании нужно учитывать все рассмотренные выше оговорки.

Замечание. Величину R2 для нелинейных моделей иногда называют индексом детерминации, корень из данной величины R называют индексом корреляции.

Если после преобразования нелинейное уравнение регрессии принимает форму линейного парного уравнения регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции , где z – преобразованная величина независимой переменной, например z=1/x или z=lnx.

Иначе обстоит дело, когда преобразования уравнения в линейную форму связаны с результативным признаком. В этом случае  линейный коэффициент корреляции по преобразованным значениям  даёт лишь приближённую оценку тесноты связи и численно не совпадает с индексом корреляции.

Вследствие близости результатов и простоты расчётов с использованием компьютерных программ для характеристики тесноты связи по нелинейным функциям широко используется линейный коэффициент корреляции ( или ). Несмотря на близость значений Ryx и  или Ryx и , следует помнить, что эти значения не совпадают. Это связано с тем, что для нелинейной регрессии , в отличие от линейной регрессии .

Коэффициент детерминации  можно сравнивать с квадратом коэффициента корреляции  для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем величина  меньше . Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. Практически, если величина (–) не превышает 0,1, то предположение о линейной форме связи считается оправданным. В противном случае проводится оценка существенности различия этих показателей, вычисленных по одним и тем же исходным данным.

Коэффициент детерминации можно использовать при сравнении двух альтернативных уравнений регрессии. Можно выбрать наилучшую из них по максимальному значению коэффициента детерминации. При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной предложенный способ выбора достаточно проста и очевидна. Однако нельзя сравнивать, например, линейную и логарифмические модели. Значения lnY значительно меньше соответствующих значений Y, поэтому неудивительно, что остатки также значительно меньше, но это ничего не решает. Величина R2 безразмерна, однако в двух уравнениях она относится к разным понятиям. В одном уравнении она измеряет объясненную регрессией долю дисперсии Y, а в другом – объясненную регрессией долю дисперсии lnY. Если для одной модели коэффициент R2 значительно больше, чем для другой, то можно сделать оправданный выбор без особых раздумий, однако, если значения R2 для двух моделей приблизительно равны, то проблема выбора существенно усложняется.

Более подробно проблемы спецификации рассматриваются в дополнении 3.

Отметим, что критерий Фишера можно применять только для нормальной линейной классической регрессионной модели. Однако в общем случае, в первую для моделей нелинейных по параметрам, критерий Фишера применять нельзя! Иногда критерий Фишера применяют для линеаризованных моделей, однако здесь следует помнить, что исходное и линеаризованное уравнения не одно и то же, т.е. здесь нужны серьезные оговорки.

Более подробно использования критерия Фишера для линеаризированных моделей смотрите в дополнении 2.

  1. ПРИМЕРЫ

Пример 6.1. Вычислить полулогарифмическую функцию регрессии зависимости доли расходов на товары длительного пользования в общих расходах семьи (Y, %) от среднемесячного дохода семьи (X, тыс. $):

X

1

2

3

4

5

6

Y

10

13,4

15,4

16,5

18,6

19,3

Решение. Используем стандартные процедуры линейного регрессионного анализа. Для расчетов воспользуемся данными таблицы 6.1:

Табл. 6.1.

x

u=lnx

y

uy

u2

y2

A

1

1

0

10

0

0

100

9,88

0,12

1,241

0,0154

2

2

0,693

13,4

9,29

0,48

179,56

13,43

-0,03

0,232

0,0010

3

3

1,099

15,4

16,92

1,21

237,16

15,51

-0,11

0,718

0,0122

4

4

1,386

16,5

22,87

1,92

272,25

16,99

-0,49

2,946

0,2363

5

5

1,609

18,6

29,94

2,59

345,96

18,13

0,47

2,524

0,2203

6

6

1,792

19,1

34,22

3,21

364,81

19,07

0,03

0,180

0,0012

Итого

21

6,579

93

113,24

9,41

1499,74

0

7,840

0,4864

Среднее значение

3,5

1,097

15,5

18,87

1,57

249,96

1,307

В соответствии с формулами (6.103) вычисляем

,        .

В результате, получим уравнение полулогарифмической регрессии:

.                                             (6.24)

Подставляя в уравнение (6.24) фактические значения xi, получаем теоретические значения результата . Используя программу Excel, получим следующие данные (на уровне значимости a=0,05):

Табл. 6.3

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,9958

R-квадрат

0,9916

Нормированный R-квадрат

0,9896

Стандартная ошибка

0,3487

Наблюдения

6

ДИСПЕРСИОННЫЙ АНАЛИЗ

 

df

SS

MS

F

Значимость F

Регрессия

1

57,75

57,75

474,93

0,000026

Остаток

4

0,49

0,12

Итого

5

58,24

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

9,8759

0,2947

33,51

0,0000047

9,0576

10,6942

Переменная lnX

5,1289

0,2353

21,79

0,0000262

4,4755

5,7823

Из этих данных видно, в частности, что все коэффициенты  регрессии статистически значимы. Оценим качество уравнения регрессии. Рассчитаем среднюю ошибку аппроксимации

,

т.е. с точки зрения этого показателя уравнение регрессии подобрано очень хорошо.

Вычислим теперь средний коэффициент эластичности

.

Таким образом, при возрастании среднемесячного дохода семьи на 1% доля расходов на товары длительного пользования в общих расходах семьи возрастет на 0,25% .

Коэффициент детерминации для данной модели совпадает с квадратом коэффициента корреляции . По данным таблицы 6.3 получаем

и .

Коэффициент детерминации показывает, что уравнение регрессии на 99% объясняет вариацию значений признака y, т.е. с точки зрения коэффициента детерминации построенное уравнение регрессии очень хорошо описывает исходные данные.

Для оценки качества данной модели можно использовать критерий Фишера (при предположении, что мы имеем дело с нормальной классической линейной моделью). В этом случае получаем

,            .

Поскольку Fнабл>Fкрит, то гипотеза о случайной природе оцениваемых параметров отклоняется и признается их статистическая значимость и надежность, т.е. построенное уравнение регрессии признается статистически значимым.

Пример 6.2. Имеются данные о просроченной задолженности по заработной плате за 9 месяцев 2000 г. по Санкт-Петербургу.

Месяцы

Январь

Февраль

Март

Апрель

Май

Июнь

Июль

Август

Сентябрь

Y

387,5

399,9

404,0

383,1

376,9

377,7

358,1

371,9

333,4

а) Оцените МНК коэффициенты линейной модели . Оцените качество построенной регрессии. б) Оцените МНК коэффициенты обратной модели , линеаризуя модель. Оцените качество построенной регрессии. в) Оцените МНК коэффициенты обратной модели , используя численные методы (метод Маркуардта)? г) Проанализируйте полученные результаты.

Решение. а) Используя стандартные процедуры линейного регрессионного анализа (считая, как обычно, t=1 для января 2000 г.), получим:

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,846

R-квадрат

0,716

Нормированный
R-квадрат

0,675

Стандартная ошибка

12,233

Наблюдения

9

ДИСПЕРСИОННЫЙ АНАЛИЗ

 

df

SS

MS

F

Значимость F

Регрессия

1

2640,07

2640,07

17,64

0,00403

Остаток

7

1047,58

149,65

Итого

8

3687,64

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

410,12

8,89

46,15

5,87E-10

389,11

431,14

Переменная X 1

-6,63

1,58

-4,20

4,03E-03

-10,37

-2,90

Таким образом, линейное уравнение регрессии будет иметь вид

,

причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные. На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом:

В соответствии с построенным уравнением просроченная задолженность по заработной плате за 9 месяцев 2000 г. ежемесячно снижалась на 6,6 млн. руб. Расчётное значение просроченной задолженности за декабрь 1999 г. составило 410,1 млн. руб. Точечный прогноз за октябрь составила:  млн. руб.

Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза (на уровне значимости a=0,05):

В результате, доверительный интервал для прогнозного значения будет иметь вид

.

Точность прогноза составила .

б) Линеаризуем модель, полагая v=1/y. Составляем расчётную таблицу.

Месяцы

t

y

v=1/y

tv

t2

v2

Январь

1

387,6

0,00258

0,0026

1

0,0000067

0,00247

0,0001134

0,00000001286

Февраль

2

399,9

0,00250

0,0050

4

0,0000063

0,00252

-0,0000145

0,00000000021

Март

3

404,0

0,00248

0,0074

9

0,0000061

0,00256

-0,0000885

0,00000000783

Апрель

4

383,1

0,00261

0,0104

16

0,0000068

0,00261

-0,0000020

0,00000000000

Май

5

376,9

0,00265

0,0133

25

0,0000070

0,00266

-0,0000076

0,00000000006

Июнь

6

377,7

0,00265

0,0159

36

0,0000070

0,00271

-0,0000618

0,00000000382

Июль

7

358,1

0,00279

0,0195

49

0,0000078

0,00276

0,0000345

0,00000000119

Август

8

371,9

0,00269

0,0215

64

0,0000072

0,00281

-0,0001177

0,00000001385

Сентябрь

9

333,4

0,00300

0,0270

81

0,0000090

0,00286

0,0001442

0,00000002081

Итого:

45

3392,6

0,02395

0,1227

285

0,0000639

0,02395

0

0,00000006063

Среднее

5

376,96

0,002661

0,0136

31,67

0,0000071

Вычисляем

,

.

В результате, получим уравнение обратной регрессии:

.

Используя программу Excel получим следующие данные (на уровне значимости a=0,05):

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,837

R-квадрат

0,700

Нормированный R-квадрат

0,657

Стандартная ошибка

9,30686E-05

Наблюдения

9

ДИСПЕРСИОННЫЙ АНАЛИЗ

 

df

SS

MS

F

Значимость F

Регрессия

1

1,41557E-07

1,41557E-07

16,34

0,00492

Остаток

7

6,06323E-08

8,66176E-09

Итого

8

2,02189E-07

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

0,002418

6,76E-05

35,76

3,47E-09

0,00226

0,00258

Переменная lnX

0,0000486

1,20E-05

4,04

0,00492

2,02E-05

7,70E-05

Качество линеаризованного уравнения довольно высокое (R2=0,7). Этот вывод подтверждается и с точки зрения критерия Фишера (отметим, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y, а к обратным значениям 1/y, а это существенная разница. Проанализируем исходную, нелинеаризированную, модель.

t

y

A

1

387,6

405,42

-17,821

317,58

113,30

810,26

4,60

2

399,9

397,59

2,309

5,33

526,45

425,83

0,58

3

404,0

390,06

13,942

194,37

731,40

171,68

3,45

4

383,1

382,81

0,294

0,09

37,75

34,22

0,08

5

376,9

375,82

1,082

1,17

0,00

1,29

0,29

6

377,7

369,08

8,620

74,30

0,55

62,02

2,28

7

358,1

362,58

-4,480

20,07

355,53

206,64

1,25

8

371,9

356,31

15,595

243,19

25,56

426,43

4,19

9

333,4

350,24

-16,844

283,71

1897,09

713,52

5,05

45

3392,6

2,696

1139,81

3687,64

2851,90

21,77

5

376,96

2,42

Из таблицы видно, что для данной модели

.

Отметим, что для нелинейных моделей, оцененных МНК, эта сумма всегда равна нулю. Следовательно, оценки исходной нелинейной модели будут смещёнными.

Отсюда, в частности, следует, что равенство  не выполняется. Действительно,

.

В связи с этим, для коэффициента детерминации можно получить два разных значения:

,   или    .

Это означает, что коэффициент детерминации для нелинейных моделей не всегда является адекватной характеристикой. Отметим, что в компьютерных программах для вычисления коэффициента детерминации в основном используют второе равенство.

Сделаем прогноз по полученному уравнению обратной модели и оценим его точность. Точечный прогноз за октябрь составит:

млн. руб.

Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза по линеаризированному уравнению (на уровне значимости a=0,05):

В результате, доверительный интервал для прогнозного значения будет иметь вид

.

Точность прогноза для преобразованной переменной v составляет 9,4%. Однако мы имеем дело нес обратными величинами v=1/y, а с y. Переходя к исходной переменной, получим следующий доверительный интервал

.

Точность прогноза для непреобразованной переменной y составляет уже 18,9%. Этот результат показывает, что исходное и преобразованное уравнения дают, вообще говоря, разный результат.

в) Оценим МНК коэффициенты обратной модели

,

используя численные методы (метод Левенберга-Маркуардта). Для этого воспользуемся программой STATISTIKA. Программа выдаёт следующие результаты.

Уравнение регрессии имеет вид

с коэффициентом детерминации R2=0,6947. Для сравнений приведем результаты вычислений.

Видно, что численные методы дают вполне удовлетворительный результат. Более того, они позволяют провести также и некоторый статистический анализ полученной модели (хотя и не такой полный по-сравнению с линейными моделями). Таким образом, как показывает данный пример, линеаризация не всегда даёт более лучший результат по-сравнению с численными методами.

г) Сделаем некоторые выводы. Отметим, что коэффициенты детерминации для обеих моделей (линейной и обратной) практически не отличаются друг от друга: R2=0,716 для линейной модели и R2=0,691 для обратной модели. Поэтому обе модели с точки зрения коэффициента детерминации равноценны. Однако при оценке точности прогноза лучше использовать, как мы видели, линейную модель. Таким образом, использование обратной модели для интерпретации имеющихся результатов не совсем оправдано. С точки зрения статистических свойств в данном случае лучше использовать линейную модель.

Пример 6.3. Имеются данные о зависимости расхода топлива (Y, г/на т·км) от мощности двигателя грузовых автомобилей общего назначения (X, л.с.):

X

70

70

75

85

97

115

120

150

175

180

240

Y

88

84

88

76

71

52

52

46

63

21

35

а) Оцените МНК коэффициенты линейной модели . Оцените качество построенной регрессии. б) Оцените МНК коэффициенты степенной модели , линеаризуя модель. Оцените качество построенной регрессии.

Решение. а) Используя стандартные процедуры линейного регрессионного анализа, получим:

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,8378

R-квадрат

0,7019

Нормированный
R-квадрат

0,6688

Стандартная ошибка

12,8383

Наблюдения

11

ДИСПЕРСИОННЫЙ АНАЛИЗ

 

df

SS

MS

F

Значимость F

Регрессия

1

3493,3

3493,3

21,19

0,001284

Остаток

9

1483,4

164,8

Итого

10

4976,7

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

103,866

9,993

10,39

0,0000

81,261

126,471

Переменная X

-0,3388

0,0736

-4,60

0,0013

-0,5053

-0,1723

Таким образом, линейное уравнение регрессии будет иметь вид

,

причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные.

На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом:

б) Линеаризуем модель . В данном случае линеаризация производится путем логарифмирования обеих частей уравнения:

.

В результате получаем линейное уравнение регрессии:

,

где . Таким образом, степенная модель свелась к линейной модели с ее методами оценивания параметров и проверки гипотез. Составляем расчетную таблицу.

x

y

u=lnx

v=lny

uv

u2

v 2

1

70

88

4,248

4,477

19,022

18,050

20,047

4,4714

0,0059

0,00003

2

70

84

4,248

4,431

18,824

18,050

19,632

4,4714

-0,0406

0,00165

3

75

88

4,317

4,477

19,331

18,641

20,047

4,4119

0,0655

0,00429

4

85

76

4,443

4,331

19,240

19,737

18,755

4,3038

0,0270

0,00073

5

97

71

4,575

4,263

19,501

20,928

18,170

4,1897

0,0730

0,00533

6

115

52

4,745

3,951

18,748

22,514

15,612

4,0427

-0,0914

0,00836

7

120

52

4,787

3,951

18,917

22,920

15,612

4,0059

-0,0547

0,00299

8

150

46

5,011

3,829

19,184

25,106

14,658

3,8132

0,0154

0,00024

9

175

63

5,165

4,143

21,398

26,675

17,166

3,6801

0,4631

0,21444

10

180

21

5,193

3,045

15,810

26,967

9,269

3,6557

-0,6112

0,37357

11

240

35

5,481

3,555

19,486

30,037

12,640

3,4073

0,1481

0,02193

Итого:

1377

676

52,213

44,453

209,460

249,625

181,609

0

0,6336

Среднее

125,18

61,45

4,747

4,041

19,042

22,693

16,510

Рассчитываем коэффициенты линеаризованного уравнения регрессии:

,

,             .

В результате, получим уравнение степенной регрессии:

.

Коэффициент эластичности в данном случае равен . Это означает, что с увеличением мощности двигателя грузового автомобиля на 1% расход топлива в расчёте на 1 т-км снижается примерно на 0,86%.

Используя программу Excel получим следующие данные (на уровне значимости a=0,05):

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,8233

R-квадрат

0,6778

Нормированный R-квадрат

0,6420

Стандартная ошибка

0,2653

Наблюдения

11

ДИСПЕРСИОННЫЙ АНАЛИЗ

 

df

SS

MS

F

Значимость F

Регрессия

1

1,3327

1,3327

18,93

0,001847

Остаток

9

0,6336

0,0704

Итого

10

1,9663

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

8,141

0,946

8,609

0,0000123

6,002

10,280

Переменная lnX

-0,864

0,198

-4,351

0,0018473

-1,313

-0,415

Качество линеаризованного уравнения довольно высокое (R2=0,678). Этот вывод подтверждается и с точки зрения критерия Фишера (напомним, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y, а к их логарифмам lny, а это существенная разница. Проанализируем исходную, нелинеаризированную, модель.

x

y

A

70

88

87,483

-0,517

0,27

704,66

677,49

0,59

70

84

87,483

3,483

12,13

508,30

677,49

3,98

75

88

82,422

-5,578

31,11

704,66

439,65

6,77

85

76

73,977

-2,023

4,09

211,57

156,82

2,73

97

71

66,003

-4,997

24,97

91,12

20,69

7,57

115

52

56,979

4,979

24,79

211,57

20,03

8,74

120

52

54,922

2,922

8,54

91,12

42,67

5,32

150

46

45,295

-0,705

0,50

89,39

261,13

1,56

175

63

39,649

-23,351

545,29

89,39

475,50

58,90

180

21

38,696

17,696

313,13

1636,57

517,97

45,73

240

35

30,182

-4,818

23,21

699,84

977,95

15,96

1377

676

-12,909

988,03

5038,18

4267,39

157,85

125,18

61,45

 

 

14,35

Из таблицы видно, что для данной модели

.

Следовательно, оценки исходной нелинейной модели будут смещёнными.

Для коэффициента детерминации можно получить два разных значения:

,   или    .

Это означает, что полученное уравнение достаточно хорошо описывает исходные данные и этот коэффициент выше, чем для коэффициента детерминации линейной регрессии. Хотя средний коэффициент аппроксимации не очень низкий .

Сделаем прогноз по полученному уравнению степенной модели и оценим его точность. При мощности двигателя x=70 л.с. расход топлива на 1 т-км составит

 г.

Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза по линеаризированному уравнению (на уровне значимости a=0,05):

В результате, доверительный интервал для прогнозного значения будет иметь вид

.

Точность прогноза для преобразованной переменной v составляет 9,4%. Однако мы имеем дело нес обратными величинами v=1/y, а с y. Переходя к исходной переменной, получим следующий доверительный интервал

.

Точность прогноза для непреобразованной переменной y составляет уже 18,9%. Этот результат показывает, что исходное и преобразованное уравнения дают, вообще говоря, разный результат.

Дополнение 1.
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ ДЛЯ
ОБОБЩЕННЫХ ЛИНЕЙНЫХ МОДЕЛЕЙ

  1.  Обобщённые линейные регрессионные модели.
    Матричная запись МНК

Общей линейной регрессионной моделью называется модель, которую можно представить в виде

.                        (6.25)

Эмпирическая регрессионная модель тогда будет иметь вид

,       (6.26)

или в матричном виде

,                                                               (6.27)

где  – вектор неизвестных параметров,

– матрица размерности (nm),

– вектор случайных отклонений,

– вектор измерений.

В соответствии с МНК, нужно выбрать вектор таким образом, чтобы минимизировать сумму:

.                       (6.28)

Раскрывая скобки, получим

                                            (6.29)

Здесь использованы известные соотношения линейной алгебры

,   ,   .

На основании необходимого условия экстремума функции нескольких переменных Q(q1,…,qm), необходимо приравнять нулю частные производные по этим переменным или в матричной форме – вектор частных производных

.

Для вектора частных производных справедливы следующие равенства:

,     ,

где q и b – вектор-столбцы, A – симметрическая матрица. Полагая,  и , находим

.

Откуда получаем систему нормальных уравнений в матричной форме для определения вектора q:

.                                               (6.30)

В явном виде эту систему нормальных уравнений можно записать в виде

        (6.34)

где

,      .

Решение системы нормальных уравнений (6.27) можно записать в виде

,                                               (6.32)

если при этом матрица  является невырожденной. Это означает, что функции fi(x) должны быть линейно независимыми.

Проанализируем полученные результаты для случая m=2:

,                               (6.33)

или в матричном виде

,                                                (6.34)

где  – вектор неизвестных параметров,  – матрица размерности (n2),  – вектор случайных отклонений,  – вектор измерений. Тогда система нормальных уравнений (6.28) примет вид:

                              (6.35)

Из этой системы находим оценки параметров q1 и q2:

,

,                              (6.36)

.

  1.  Статистические свойства МНК-оценок

Для того чтобы регрессионный анализ, основанный на обычном МНК, давал наилучшие из всех возможных результаты, случайное отклонение e должно удовлетворять условиям Гаусса-Маркова:

10. ,     20. ,      30. ,   (ij),              (6.37)

для всех возможных наблюдений.

Введём ковариационную матрицу:

.                     (6.38)

Тогда условия 10-30 можно записать в следующем, матричном, виде

10. ,     20-30. ,                                (6.39)

где E – единичная матрицы nxn.

Наряду с выполнимостью указанных условий при построении регрессионных моделей делаются еще некоторые предположения.

40. Матрица F должна быть детерминированной (т.е. ее элементы не должны быть случайными) и иметь максимальный ранг, равный m (т.е. матрица FTF должна быть невырожденной).

50. Случайные отклонения ei имеют нормальное распределение: eI~N(0,s).

При выполнении условий 10-50 модель (6.29) называется обобщённой нормальной классической линейной регрессионной моделью.

Теорема Гаусса-Маркова. Если в регрессионной модели (6.25) выполняются условия 10-40, то оценки (6.32), полученные по МНК, имеют наименьшую дисперсию в классе всех линейных несмещённых оценок (т.е. BLUE-оценками).

Более подробно статистические свойства МНК-оценок линейных моделей будут обсуждаться в главе 7.

  1.  Стандартная ошибка регрессии

Несмещённая оценка S2 параметра s2 определяется по формуле:

.                                                  (6.40)

Как и в случае парной линейной регрессии, величина S называется стандартной ошибкой регрессии.

Полученная формула легко объяснима. В знаменателе выражения (6.37) стоит nm, а не n2, как было для парной линейной регрессии. Это связано с тем, что теперь m степеней свободы (а не две) теряются при определении неизвестных параметров.

Можно показать, что рассмотренные в этой главе оценки  и S2 параметров q и s2 при выполнении условия 50 о нормальном распределении вектора случайных отклонений e являются независимыми. Для этого в данном случае достаточно убедиться в некоррелированности оценок  и S2.

Заметим, что формулу (6.37) можно записать также в виде

                                                (6.41)

  1.  Статистический анализ коэффициентов регрессии

Перейдём теперь к оценке значимости коэффициентов регрессии  и построению доверительного интервала для параметров регрессионной модели q. В п.1.3 мы получили

.                                                      (6.42)

В силу этого оценка  дисперсии  коэффициента регрессии qj определится по формуле:

,                                                   (6.43)

где Bjj – диагональный элемент матрицы B. Величина  называется стандартной ошибкой коэффициента регрессии .

В предыдущих пунктах мы показали, что вектор оценок  имеет нормальное распределение со средним q и ковариационной матрицей (6.46). Тогда

.

Случайная величина (6.45) имеет распределение 2-распределение и оценки  и S2 независимы. Отсюда получаем, что величина

                                            (6.44)

имеет распределение Стьюдента с nm степенями свободы. Поэтому qj значимо отличается от нуля на уровне значимости a, если

.

Из (6.42) также следует, что доверительный интервал для параметра qj имеет вид

.                                        (6.45)

Наряду с интервальным оцениванием коэффициентов регрессии весьма важным для оценки точности определения зависимой переменной (прогноза) является построение доверительного интервала для функции регрессии или для условного математического ожидания зависимой переменной M[Y|X=x]. Ранее такой интервал был получен для парной линейной регрессии. Обобщая полученные результаты, можно получить доверительный интервал для условного математического ожидания M[Y|X=x]:

,                               (6.46)

где

                                                   (6.47)

стандартная ошибка прогноза среднего значения. Здесь

.

Аналогично строится доверительный интервал для индивидуальных значений зависимой переменной :

,                           (6.48)

где

.                                   (6.49)

Более подробное обсуждение этого вопроса см. лекцию 7.

Дополнение 2.
КРИТЕРИЙ ФИШЕРА

Как уже говорилось, в рамках линейной классической регрессионной модели общее качество уравнения регрессии оценивается при помощи методов дисперсионного анализа. Схема дисперсионного анализа, имеет следующий вид:

Компоненты дисперсии

Сумма квадратов

Число степеней свободы, df

Средние квадраты

Регрессия

m–1

Остаточная

n–m

Общая

n–1

Определение дисперсии на одну степень свободы приводит дисперсии к сравниваемому виду. Средние квадраты представляют собой несмещённые оценки соответствующих дисперсий.

Проверка гипотезы о значимости уравнения регрессии осуществляется на основе дисперсионного анализа сравнения объяснённой и остаточной дисперсий:

H0: (объяснённая дисперсия) = (остаточная дисперсия);

H1: (объяснённая дисперсия) > (остаточная дисперсия).

Строится F-статистика

.                                    (6.50)

В рамках нормальной линейной регрессионной модели, случайные величины  и  будут иметь c2-распределение соответственно с m и nm степенями свободы. Сопоставляя факторную и остаточную дисперсии в расчёте на одну степень свободы, получим случайную величину, описывающуюся распределением Фишера с теми же степенями свободы:

Полученную F-статистику можно использовать для проверки нулевой гипотезы . Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга, т.е. . Эмпирическое уравнение регрессии значимо на уровне a, если фактически наблюдаемое значение статистики

,

где  – табличное значение F-критерия Фишера, определённое на уровне значимости a при k1=1 и k2=n–2 степенях свободы.

Величина F-критерия связана с коэффициентом детерминации R2:

.                                            (6.51)

Таким образом, малым значениям F соответствуют малые значения R2.

Отметим, что критерий Фишера можно применять только обобщенной нормальной линейной классической регрессионной модели. Однако в общем случае, особенно для моделей нелинейных по параметрам, критерий Фишера применять нельзя! Иногда критерий Фишера применяют для линеаризованных моделей, однако здесь следует помнить, что исходное и линеаризованное уравнения не одно и то же, т.е. здесь нужны серьезные оговорки.

F-критерий Фишера можно использовать для сравнения двух альтернативных уравнений регрессии в рамках классической нормальной линейной модели. В данном случае его величина рассчитывается по формуле

.                           (6.52)

где ,  – расчётные значения переменной y, полученные на основе первого и второго вариантов моделей соответственно, различающиеся, быть может, формой зависимости f и количества факторов; n1 и n2 – количества факторов в первом и втором вариантов соответственно.

Критерий (6.98) является двухсторонним. Особенности его применения состоят в следующем. Если выполняется соотношение

,

то рассматриваемые альтернативные варианты модели признаются равнозначимыми с точки зрения точности описания процесса yi.

Если

,

то выбор следует сделать в пользу первого варианта модели, а если

,

то – в пользу второго.

Здесь  – табличное значение критерия Фишера, выбранное для заданного уровня надёжности a и числе степеней свободы  и .

Если сравнение производится с простой линейной регрессией, то  и m1=2. В результате критерий (6.94) примет вид

.                                     (6.53)

Тогда если

,

то различия между  и  не существенны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата. Если

,

То различия между рассматриваемыми показателями корреляции существенны и замена нелинейной регрессии уравнением линейной функции неправильна.

Дополнение 3.
СПЕЦИФИКАЦИЯ МОДЕЛИ

  1.  Проблемы спецификации модели

Многообразие и сложность экономических процессов предопределяет многообразие моделей, используемых для эконометрического анализа. С другой стороны, это существенно усложняет процесс нахождения максимально адекватной формулы зависимости. Для случая парной регрессии подбор модели обычно осуществляется по виду расположения точек на корреляционном поле. Однако нередки ситуации, когда расположение точек приблизительно соответствует нескольким функциям и необходимо из них выявить наилучшую.

В данной главе были рассмотрены базовые модели, используемые в эконометрическим моделировании, а также практические задачи, вызывающие необходимость их использования. Правильный выбор вида эконометрической модели является отправной точкой для качественного её анализа. Безусловно, на практике неизвестно, какая модель является верной, и зачастую подбирают такую модель, которая наиболее точно соответствует реальным данным. При этом необходимо учитывать, что идеальной модели не существует. Поэтому, чтобы выбрать качественную модель, необходимо ответить на ряд вопросов, возникающих при анализе:

  •  Каковы признаки «хорошей» модели?
  •  Какие ошибки спецификации встречаются и каковы последствия таких ошибок?
  •  Как обнаружить ошибку спецификации?
  •  Каким образом можно исправить ошибку спецификации и перейти к «лучшей» модели?
    1. Признаки «хорошей» модели

В ряде случаев достаточно очевидно, какая модель лучше. В других случаях для принятия обоснованного решения приходится проводить достаточно кропотливый сравнительный анализ. Для этого необходимо выбрать критерии, которые позволяют сделать обоснованный вывод. Обычно для построения «хорошей» работоспособной модели

10. Простота. Модель должна быть максимально простой. Данное свойство определяется тем фактом, что модель не отражает действительность идеально, а является её упрощением. Поэтому из двух моделей, приблизительно одинаково отражающих реальность, предпочтение отдаётся модели, содержащей меньшее число объясняющих переменных.

20. Единственность. Для любого набора статистических данных определяемые коэффициенты должны вычисляться однозначно.

30. Максимальное соответствие. Уравнение тем лучше, чем большую часть разброса зависимой переменной оно может объяснить. Поэтому стремятся построить уравнение с максимально возможным коэффициентом детерминации.

40. Согласованность с теорией. Никакое уравнение не может быть признано качественным, если оно не соответствует известным теоретическим предпосылкам.

50. Прогнозные качества. Модель может быть признана качественной, если полученные на её основе прогнозы подтверждаются реальностью.

В общем случае не существует какого-либо единого правила построения регрессионных моделей. Анализ перечисленных свойств позволяет строить более качественные эконометрические модели.

  1. Последствия выбора неправильной функциональной зависимости

Одним из базовых предположений построения качественной модели является правильная (хорошая) спецификация уравнения регрессии. Правильная спецификация уравнения регрессии означает, что оно в целом правильно отражает соотношение между экономическими показателями, участвующими в модели. Это является необходимой предпосылкой дальнейшего качественного оценивания. Неправильный выбор функциональной формы или набора объясняющих переменных называется ошибками спецификации. Рассмотрим первый тип ошибок спецификации, т.е. выбор неправильной формы функциональной зависимости.

Суть ошибки проиллюстрируем следующим примером. Пусть правильная регрессионная модель имеет вид

.

Любое эмпирическое уравнение регрессии с теми же переменными, но имеющее другой функциональный вид, приводит к искажению истинной зависимости. Например, в следующих уравнениях

,   

Совершена ошибка выбора неправильной функциональной формы уравнения регрессии.

Последствия данной ошибки будут весьма серьёзными. Обычно такая ошибка приводит либо к получению смещённых оценок, либо к ухудшению статистических свойств оценок коэффициентов регрессии и других показателей качества уравнения. В первую очередь это вызвано нарушением условий Гаусса-Маркова для отклонений. Прогнозные качества модели в этом случае очень низки.

  1. Схема анализа зависимостей

Стандартная схема анализа зависимостей состоит в осуществления ряда последовательных процедур.

  •  Подбор начальной модели. Он осуществляется на основе экономической теории, предыдущих знаний об объекте исследования, опыта исследователя и его интуиции.
  •  Оценка параметров модели на основе имеющихся статистических данных.
  •  Осуществление тестов проверки качества модели
  •  При наличии хотя бы одного неудовлетворительного ответа по какому-либо тесту модель совершенствуются с целью устранения выявленного недостатка.
  •  При положительных ответах по всем приведённым тестам модель считается качественной. Она используется для анализа и прогноза объясняемой переменной.

Однако необходимо предостеречь от абсолютизации полученного результата, поскольку даже качественная модель является подгонкой спецификации модели под имеющийся набор данных. Поэтому вполне реальна картина, когда исследователи, обладающие одинаковыми наборами данных, строят разные модели для объяснения одной и той же переменной. Проблематичным является и использование модели для прогнозирования значений объясняемой переменной. Иногда хорошие с точки зрения диагностических тестов модели обладают весьма низкими прогнозными качествами.

Одно из главных направлений эконометрического анализа – постоянное совершенствование моделей. До сих пор достаточно спорным является вопрос, как строить модели: а) начинать с самой простой модели и постоянно её усложнять; б) начинать с максимально сложной модели и упрощать её на основе проводимых исследований. И тот и другой подход имеют как достоинства, так и недостатки. Построение модели является индивидуальным в каждой конкретной ситуации и опирается на серьёзные знания экономической теории и статистического анализа. Однако отметим, что при всех недостатках моделей принятие на их основе решений приводит в целом к гораздо более точным результатам, чем принятие решений лишь на основе интуиции и экономической теории.

  1.  Обнаружение и корректировка ошибок спецификации

При построении уравнений регрессии, особенно на начальных этапах, ошибки спецификации весьма нередки. Они допускаются обычно из-за поверхностных знаний об исследуемых экономических процессах либо из-за недостаточно глубокого проработанной теории, или из-за погрешности сбора и обработки статистических данных при построении эмпирического уравнения регрессии. Важно уметь обнаружить и исправить эти ошибки. Сложность процедуры определяется типом ошибки и нашими знаниями об исследуемом объекте.

  1.  Исследование остатков регрессионной модели

Анализ остатков ei позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов. Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые (в действительности, почти независимые) одинаково распределённые величины. В классических методах регрессионного анализа предполагается также нормальный закон распределения.

Исследование остатков полезно начинать с изучения их графика. Он может показать наличие какой-либо зависимости, не учтённой в модели. Считается, что модель подобрана «удачно», если остатки ведут себя как независимые одинаково распределенные случайные величины (т.е. как «белый шум»). На практике обычно полагают, что остатки должны быть распределены по нормальному закону (т.е. должны вести как «гауссов белый шум»). Для проверки нормальности распределения остатков чаще всего используется график на нормальной вероятностной бумаге, а также критерии типа Пирсона, Колмогорова, Бера-Жарка и др.

Существуют и ряд других тестов обнаружения ошибок спецификации. Рассмотрим некоторые из них.

  1. Тест Рамсея RESET

Суть теста Рамсея RESET (Regression specification error test) состоит в следующем. Оценивается линейная модель вида

                                                     (6.54)

Отметим, что в принципе можно взять любую обобщенную линейную модель. Затем анализируются графически зависимость . Так, если она может быть представлена явной функциональной зависимостью , то в данную зависимость вводят в исходное уравнение регрессии (6.52) и затем оценивают уравнение

                                   (6.55)

После этого сравнивают два уравнения регрессии (6.58) и (6.59), например, при помощи критерия Фишера (для линейных уравнений):

.                                            (6.56)

Здесь n – число наблюдений, m1 – число параметров в исходной модели m2 – число параметров в новой модели. Статистика F имеет распределение Фишера с числами степеней свободы n1=nm1, n2=nm2. Если F–статистика окажется статистически значимой, то это означает, что исходное уравнение регрессии было неправильно специфицировано.

В случае простой линейной модели (6.58) можно использовать и такой критерий Фишера

.                                        (6.57)

Здесь k – число параметров в новой модели, r – число новых регрессоров. В этом случае, статистика F имеет распределение Фишера с числами степеней свободы n1=r, n2=nk.

В качестве альтернативы критерию (6.61), можно рассмотреть и другую статистику. Доказано, что при большом объёме выборки n произведение  имеет c2-распредление с числом степеней свободы r, равным числу добавленных регрессоров модели. Построенная таким образом статистика сравнивается с соответствующей критической точкой . Если , то первоначально выбранная модель должна быть отклонена в пользу вновь построенной.

Пример 6.4. Проанализировать прибыль предприятия Y (млн $) в зависимости от расходов на рекламу X (млн $). По наблюдением за 9 лет получены следующие  данные:

X

0,8

1,0

1,8

2,5

4,0

5,7

7,5

8,3

8,8

Y

5

7

13

15

20

25

22

20

17

Решение. Оценка простой линейной регрессии имеет вид

,                                                        (6.58)

для которого коэффициент детерминации равен . Модель (6.56) будет, скорее всего, неудовлетворительной. Это видно, в первую очередь из рисунка 6.4.

Рис. 6.4

В частности, изменение отклонений ei будет носить системный характер, который найдёт отражение на графике , вид которого приведен на рис. (6.5).

Рис. 6.5

Ломаная линия графика соответствует параболической функции. Поэтому в модель (6.56) целесообразно ввести дополнительный регрессор

.                                                 (6.59)

Оценка этой модели даёт

.                                             (6.60)

Как видно из рисунка 6.4, модель (6.58) уже хорошо описывает исходные данные.

Рис. 6.6

В частности, изменение отклонений ei уже будет носить системный характер (см. рис. 6.7).

Рис. 6.7

Действительно, сравнивая коэффициенты детерминации для обеих уравнений регрессии при помощи критерия Фишера (6.60), получим

.

Критическое значение равно

.

Поскольку , то исходное уравнение было неверно специфицировано.

К сожалению, тест Рамсея не указывает напрямую спецификацию модели лучшую, чем исследуемая. Поэтому подбор лучшей спецификации требует определённых усилий.

  1. Тесты Бокса-Кокса

Выше мы описали различные зависимости, поддающихся линеаризации с помощью подходящих преобразований переменных. Но решение вопроса о том, к какому именно из рассмотренных типов зависимостей следует отнести наш конкретный случай, является задачей не простой. Можно, конечно, действовать методом «проб и ошибок»: последовательно построить по имеющимся у нас исходным статистическим данным каждую из альтернативного набора линеаризуемых моделей, а затем выбрать из них наилучшую в смысле какого-либо «критерия качества» (например, по максимальному значению подправленной на несмещённость оценки коэффициента детерминации).

При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной предложенная выше процедура выбора достаточно проста и очевидна. Однако нельзя сравнивать, например, линейную и логарифмические модели. Значения lnY значительно меньше соответствующих значений Y, поэтому неудивительно, что остатки также значительно меньше, но это ничего не решает. Величина R2 безразмерна, однако в двух уравнениях она относится к разным понятиям. В одном уравнении она измеряет объясненную регрессией долю дисперсии Y, а в другом – объясненную регрессией долю дисперсии lnY. Если для одной модели коэффициент R2 значительно больше, чем для другой, то можно сделать оправданный выбор без особых раздумий, однако, если значения R2 для двух моделей приблизительно равны, то проблема выбора существенно усложняется.

Английские статистики Г. Бокс и Д. Кокс предложили более формализованную процедуру подбора линеаризующего преобразования. Их метод основан на предположении, что искомое преобразование принадлежит к определенному однопараметрическому семейству преобразований вида

,   .                                 (6.61)

Гипотезу Бокса-Кокса можно сформулировать следующим образом: существует такое действительное значение l*, что модель

                                      (6.62)

будет удовлетворять всем требованиям нормальной классической регрессионной модели.

Замечание. Семейство степенных преобразований вида весьма широко и гибко. При l=1 модель (6.57) является линейной. При l=0 мы будем иметь степенную зависимость между Y и X, поскольку . При других значениях l уравнение (6.57) будет связывать между собой какие-то степени исходных переменных.

Таким образом, если исходить из справедливости гипотезы Бокса-Кокса, подбор линеаризующего преобразования анализируемых переменных сводится к оценке параметра l в формулах (6.61) по имеющимся в нашем распоряжении исходным статистическим данным. Обычно эта проблема решается с помощью метода максимально правдоподобия. Отыскивается такое значение l*, при котором функция правдоподобия принимает максимальное значение. С этой целью определяется априорный диапазон возможных значений l (обычно от lmin=–1 до lmax=2), на этом диапазоне выбирается сетка значений l и для каждого такого значения последовательно вычисляются функции правдоподобия. То значение l*, при котором функция правдоподобия принимает максимальное значение и будет определять искомое линеаризующее преобразование (6.61).


ЛЕКЦИЯ 6                                                                                                                                    117

Глава 6. ПАРНАЯ НЕЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ                         117

§6.1. Особенности нелинейного регрессионного моделирования                                     117

6.1.1. Использование нелинейных моделей в экономике                                     117

6.1.2. Особенности использования МНК  в нелинейных моделях                         117

6.1.3. Методы линеаризации функции регрессии                                                             118

§6.2. Описание основных нелинейных регрессионных моделей                                     120

6.2.1. Полиномиальная модель                                                                                    120

6.2.2. Степенная модель                                                                                                121

6.2.3. Показательная модель                                                                                    121

6.2.4. Гиперболические модели                                                                                    122

6.2.5. Полулогарифмическая модель                                                                        123

6.2.6. S-образные модели                                                                                                123

§6.3. Показатели качества для нелинейных моделей регрессии                                     124

6.3.1. Средняя ошибка аппроксимации                                                                        124

6.3.2. Средний коэффициент эластичности                                                             125

6.3.3. Коэффициент детерминации                                                                              126

§6.4. Примеры                                                                                                                        128

Дополнение 1. Метод наименьших квадратов для обобщенных линейных моделей             137

1.1. Обобщённые линейные регрессионные модели.  Матричная запись МНК  137

1.2. Статистические свойства МНК-оценок                                                             139

1.3. Стандартная ошибка регрессии                                                                        140

1.4. Статистический анализ коэффициентов регрессии                                                 140

Дополнение 2. Критерий Фишера                                                                                                141

Дополнение 3. Спецификация модели                                                                                    143

3.1. Проблемы спецификации модели                                                                        143

a) Признаки «хорошей» модели                                                                                                143

b) Последствия выбора неправильной функциональной зависимости                                     144

c) Схема анализа зависимостей                                                                                                144

3.2. Обнаружение и корректировка ошибок спецификации                                     145

a) Исследование остатков регрессионной модели                                                             145

b) Тест Рамсея RESET                                                                                                            145

c) Тесты Бокса-Кокса                                                                                                            147

PAGE  148

Глава 6. ПАРНАЯ НЕЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ


 

А также другие работы, которые могут Вас заинтересовать

53072. Ігри при вивченні іноземної мови 59.5 KB
  Методичний посібник розрахований на розвиток інтересу школярів до вивчення іноземної мови формування творчих здібностей учнів кращому закріпленню лексичного та граматичного матеріалу. Гра сприяє засвоєнню знань не за примусом а проходить зацікавлено створює атмосферу здорового змагання сприяє мобілізації та розвитку творчих здібностей дає можливість оцінити себе серед інших учнів а також працювати командою. Проводячи такий урок обов'язком вчителя є створити атмосферу дружби довіри на уроці не тільки ставити свої умови гри але й...
53073. Проектна робота «Ходить гарбуз по городу» 72.5 KB
  Мета проекту: вчити учнів працювати з науковопізнавальною літературою; розкрити користь гарбуза для людини його фармакологічні властивості та використання; розвивати творчі та інтелектуальні здібності; виховувати працьовитість взаємодопомогу почуття дружби необхідність ділитися досвідом новими ідеями знахідками. Посередині столу – великий гарбуз з намальованим обличчям. Гарбуз Що ти знаєш про нього Наше завдання – збагатити знання учнів про гарбуз його історію назву види лікувальні властивості страви з нього.
53075. Каждый несет ответственность перед всей планетой (по рассказу Ю. Нагибина «Мой первый друг, мой друг бесценный» 24 KB
  Нагибина Мой первый друг мой друг бесценный. Оборудование и материалы: текст рассказа; портрет писателя; тетради учеников; на отвороте доски закрыт от учеников написан отрывок из стихотворения:: Мой первый друг мой друг бесценный И я судьбу благословил Когда мой двор уединенный Печальным снегом занесенный Твой колокольчик огласил. Сегодня мы говорим о рассказе писателя Юрия Нагибина Мой первый друг мой друг бесценный.
53076. Основи здоров'я. Газобезпека 137 KB
  Перша вправа для покращення мозкового обігу, працюємо з нашими головами, але не забуваємо, що вага голови 5кг., тому оберігаємо шию, як зв.язуючий ланцюг.
53077. Рівняння стану ідеального газу 138.5 KB
  Повторення основних понять створення презентації за допомогою програми PowerPoint. Створення презентації за темою Рівняння стану ідеального газу. Два учні розв’язують домашні задачі біля дошки інші повторюють основні поняття створення презентації за допомогою програми PowerPoint вчитель читає початок речення а учні закінчують його. Закінчіть речення: Комп'ютерні презентації використовують для.
53078. Перлини народної мудрості Жива газета для учнів 5 - 9 класів 72 KB
  Допоможемо вам поринути у світ фольклору ми – працівники редакції: я – головний редактор координатори – ведучі сторінок голоси та ілюстрації. Голос 1: Природа. Голос 2: Наука. Голос 3: Вади вдачі та поведінки.
53079. Газообмін у легенях і тканинах 76 KB
  Основні поняття й терміни: зовнішнє диханнявнутрішнє диханнягазообміндифузіяпарціальний тискоксигемоглобінартеріальна кроввенозна кров. Знати як явище дифузії впливає на перетворення венозної крові в артеріальну і навпаки. Яким повітря повинне потрапляти до легень Яка система нашого організму тісно пов’язана з дихальною системою Яка кров називається артеріальною Яка кров називається венозною Де починається й закінчується М. оксигемаглобін Альвеоли...
53080. ТВОРЧІ ТА ПРОБЛЕМНІ ЗАВДАННЯ З ФІЗИЧНОЇ ГЕОГРАФІЇ 108 KB
  Учні вивчають матеріал а потім їм пропонується відповісти на запитання: Якими морями та океанами омивається Південна Америка Які форми рельєфу переважають в Південній Америці Чому Південну Америку вважають найвологішим материком. У чому полягає особливість клімату Південної Америки Як вплинула надмірна вологість клімату на особливості розташування природних зон на материку Для розв’язання проблеми учням пропонують відповіді які не завжди були правильними тому такі завдання допомагає виконувати вчитель. З яким океаном...