72238

Нелинейные регрессионные модели

Лекция

Математика и математический анализ

Во-первых зависимость между x и y во всех уравнениях нелинейная. Как всё сказанное влияет на методы отыскания неизвестных коэффициентов β0 β1 Если оба коэффициента входят в уравнение линейно а случайная составляющая e аддитивно то исходная нелинейная функция путем замены переменных...

Русский

2014-11-19

443 KB

43 чел.

4.  Нелинейные регрессионные модели

4.1. Линеаризация функций

 Во второй главе мы изучили методы  оценивания неизвестных коэффициентов линейной функции регрессии. То, что  зависимость между результирующим признаком  y и фактором x линейная, постулировалось после изучения  экономических предпосылок и статистической эмпирической информации.

Предположим, что у нас есть основание считать, что зависимость между экономическими переменными y и x имеет, например,  следующий вид:

 

,                 (4.1.1)

,                   (4.1.2)

В этих функциях – х входит нелинейно

                                         ,                           (4.1.3)

                                      - показательная функция.(4.1.4)
4.1.3 и 4.1.4 – Бэта входит нелинейно

Пусть х~ = x^2

Тогда:

Y=B0+B1*(x~)+E =>

(Y^)=(B0^)+(B1^)*(x^2)

 Коэффициенты β0 ,    β1 во всех уравнениях неизвестны. Чем отличаются эти функции от рассмотренных ранее?

●Во-первых, зависимость между x и y во всех уравнениях нелинейная. 

●Во-вторых, сами коэффициенты  β0 ,    β1    в уравнения (4.1.1), (4.1.2) входят линейно, а в уравнения (4.1.3), (4.1.4) нелинейно.

●В-третьих, в уравнения (4.1.1) и (4.1.2) случайная составляющая e входит как слагаемое (аддитивно), а в уравнения (4.1.3), (4.1.4) как сомножитель (мультипликативно).

Как всё сказанное влияет на методы отыскания неизвестных коэффициентов     β0 , β1?

  1.  Если оба коэффициента входят в уравнение линейно, а случайная составляющая e аддитивно, то исходная нелинейная функция путем замены переменных сводится к линейной функции вида (2.1.2).

Процесс преобразования нелинейной функции к линейной называют линеаризацией.

Например, обозначим в уравнении (4.1.1) через  новую переменную:

.

В уравнении (4.1.2)  также произведем замену переменной:

=.

Тогда оба эти  уравнения могут быть переписаны в виде:                                      .                                              (4.1.5)

Структура этого уравнения совпадает с уравнением (2.1.2). Значит,  оценки   в0  и в1 параметров линейной регрессии, которые мы найдем по  методу  наименьших квадратов для модели (4.1.5),  будут искомыми и для исходных моделей (4.1.1) и (4.1.2).

2) Для линеаризации (приведения нелинейной функции к линейной) функций (4.1.3) и (4.1.4) поступим следующим образом: прологарифмируем обе части этих уравнений по произвольному основанию. (В экономических задачах чаще всего используют натуральные логарифмы ln). Уравнение (4.1.3) преобразуется к виду:

                .                                     (4.1.6)

а уравнение (4.1.4)  будет следующим:

                  .                                     (4.1.7)

Проанализируем оба последних уравнения. Для этого в уравнении (4.1.6) произведем следующую замену переменных:

.

и введем такие обозначения для новых  коэффициентов:

Тогда уравнение (4.1.6) примет вид:

 

.                                   (4.1.8)

В уравнении  (4.1.7) введем такие переменные:

.

и обозначения для новых коэффициентов:

Тогда уравнение (4.1.7) также запишется в виде (4.1.8), совпадающим  по виду с линейным уравнением (2.1.2).

 Параметры линейной регрессионной модели (4.1.8) мы можем  оценить,  используя для этого МНК. Обозначим найденные оценки для     через  и используем обратное преобразование, для того, чтобы найти оценки  в0  и в1 уравнений (4.1.3)

 

,     .                              (4.1.9)

и (4.1.4) соответственно:

                       ,  .                              (4.1.10)

Безусловно, проводить линеаризацию функции при помощи логарифмирования, можно только в том случае, если логарифмируемое выражение положительно. И все должно быть положительно, каждый изначальный множитель функции. Подводя итог, отметим, что  логарифмирование нелинейных функций и переход к линейной модели дает возможность решить задачу нахождения неизвестных коэффициентов для  моделей вида (4.1.3), (4.1.4).

Для 4.1.3:

y^=e2x-3, если оценка lnB0=2, lnB1=-3

Для 4.1.4:

 y^= e3,5x+1, если оценка lnB0=1, lnB1 = 3,5

Приведем теперь пример ещё одной функции

,                                      (4.1.11)

как пример  нелинейной функции, которая не может быть приведена к модели, линейной относительно неизвестных коэффициентов β0 и   β1 . Поэтому, необходимы уже другие методы для нахождения оценок этих коэффициентов, отличные от методов, рассмотренных в этой главе.

Замечание 1. Функции вида (4.1.2) при   β1<0 и вида

при  β0 >0 и   β1>0 используют для описания кривых Энгеля, которые, характеризуют, спрос на товар и услуги (переменная, y) в зависимости от доходов населения (переменная x). В то же время, если в уравнении (4.1.2)     β1 >0,

а в уравнении

коэффициенты удовлетворяют условиям:

β0 <0 и   β1>0

или,

β0 >0 и   β1<0,

то эти функции могут быть использованы при изучении спроса на товар (переменная y) в зависимости от цены товара (переменная x).

Функции вида (4.1.3) используют при аппроксимации производственных функций. В роли y выступает объем производства, а в роли x - один из основных факторов производства. В частности, функция (4.1.2) использовалась при изучении взаимосвязи показателей инфляции и безработицы в Великобритании в период 1950 - 1966 [10].

В свою очередь, функции вида

применяют при анализе урожайности сельскохозяйственного производства, а функции вида (4.1.3) могут быть использованы при изучении изменения ставок межбанковского кредита  (переменная y) в зависимости от срока его предоставления (в днях) (переменная x).

Замечание 2. Одним из существенных предположений при изучении линейной регрессионной модели было предположение о том, что случайные составляющие  распределены по нормальному закону и входят в уравнение  аддитивно. Это предположение играло существенную роль при изучении свойств оценок регрессии. В случае нелинейной регрессии, если  входит в уравнение для y аддитивно, то по-прежнему достаточно предположить нормальный закон распределения для ошибок   (уравнения типа (4.1.1), (4.1.2)). Если же,  входит в нелинейную зависимость y от x мультипликативно, как в уравнениях (4.1.3),  (4.1.4), то после линеаризации, вместо   мы получаем  ln . Только в том случае, если закон распределения случайной величины  будет логнормальным, закон распределения ln будет нормальным.

4.2. Особенности выбора  функций регрессий

(прочитать самостоятельно)

В предыдущем параграфе мы предположили, что вид нелинейной  функции, связывающей переменные x и y, нам известен и решали проблему нахождения неизвестных  параметров, принимающих участие в описании функциональной зависимости. Как же на практике подбирать функцию, которая задает зависимость y от x? На подобный вопрос мы уже отвечали. Например, вид функции может подсказать    характер расположения фактических значений переменных (xi, yi) на корреляционном поле. Если зависимость линейная, то решение задачи однозначно, а если нелинейная, то очень трудно определиться с выбором, какая же конкретно функция связывает переменные. Так, например, в [17] показано, что в задаче аппроксимации спроса на товар, в зависимости  от дохода, может быть использована и параболическая, и гиперболическая функции. В этом случае предлагают использовать несколько различных функций, а затем выбрать ту из них, которая наиболее адекватно оценивает имеющиеся в нашем расположении данные.

Критериями адекватности могут выступать статистические показатели, которые мы рассматривали в предыдущей главе. Однако следует иметь в виду следующее. Пусть, например, в качестве аппроксимирующей функции выбраны две функции: линейная функция  и функция  вида (4.1.3): .  Для линейной функции  мы находим неизвестные коэффициенты в0, в1 , вычисляем выборочные  коэффициенты корреляции , детерминации  , строим доверительные интервалы. Функцию (4.1.3) сначала линеаризуем и приводим к виду (4.1.8). Для уравнения (4.1.8) находим оценки коэффициентов , вычисляем коэффициент детерминации  и все остальные статистические характеристики.  Для дальнейшего анализа воспользуемся числовыми данными, приведенными в [8]. Пусть =0, 985, а =0,992, в свою очередь =385,2 для первого случая и =0,02 для линеаризованной модели. Можем ли мы сравнить эти результаты?  Нет, так как  является мерой доли дисперсии  объясненной переменной y,  а  - переменной . Разница в величине   и  также объяснима: значения y существенно больше, чем  значения переменной ln y.

Для однозначного выбора искомой функции из множества возможных рекомендуют использовать, например тесты Бокcа-Кокса, тесты Зарембки. Тест Зарембки позволяет производить  сравнение  и  за счет преобразования масштаба. Для  того чтобы преобразовать масштаб необходимо проделать следующие шаги [8]:

● Вычислить  

.

●Произвести пересчет значений  каждого  yi по формуле:

●Решить задачу оценивания коэффициентов линейной регрессии, где, вместо  зависимой переменной   берется  переменная  и  нелинейной, где в качестве зависимой переменной выбирается .

●Сравнить величину    для обеих «звездных» моделей и  предпочесть ту из них, для которой сравниваемое значения меньше.

Пример 4.2.1. Вернемся к примеру (4.1.1) и воспользуемся результатами оценивания параметров функций (4.1.12) и (4.1.13) при помощи функции «ЛИНЕИН», выделив в каждой таблице следующие  значения:

=0,918

=1,43

=0,998

=0,05

 Как уже отмечалось, сравнивать значения  и   нельзя, поэтому  воспользуемся алгоритмом преобразования масштаба, описанным выше. Для этого вычислим ,  он будет равен:

.

Пересчитаем      и    (Таблица 13.):

                Таблица 13.

0,360

-1,021

0.499

-0,695

0,582

-0,541

1,386

0,326

1,913

0,649

3,604

1,282

Используя новые  значения  зависимых переменных,  найдем оценки коэффициентов следующих функций регрессии:

                                  ,                                                      (4.2.1)

                               .                                                      (4.2.2)

Последняя функция получена после линеаризации модели  нелинейной регрессии вида:  

;

.

Результат использования функции  «ЛИНЕЙН» для оценивания параметров приведенных выше линейных функций регрессий представлен в  таблицах 14 и 15 соответственно.  Для регрессии (4.2.1):

                                         

                                    Таблица 14.

0,339

-0,102

0,051

0,276

=0,918

=0,396

45,048

4

7,054

0,626

Для регрессии (4.2.2):

                                        Таблица 15.

0,255

-1,126

0,006

0,032

=0,999

=0,046

45,047

4

3,979

0,008

Теперь допустимо провести  сравнение  стандартных ошибок =0,396 и =0,046. Величина стандартной  ошибки   существенно меньше , поэтому выбор модели (4.1.2) для описания зависимости y от x предпочтительней. К  такому же результату мы пришли в примере 4.1.1.

4.3. Обобщенная модель нелинейной однофакторной регрессии

В этом параграфе рассмотрим общий случай регрессионной модели, нелинейной относительно фактора x, но линейной относительно неизвестных коэффициентов.

Предположим, что зависимость переменной y от фактора x имеет вид:

   .           (4.3.1)

В уравнении (4.3.1)  , известные нелинейные функции переменной x;  ,  - неизвестные коэффициенты.  Случайные составляющие  по-прежнему предполагаются нормально распределенными  случайными величинами с нулевыми средними, одинаковыми (неизвестными) дисперсиями s2 и независимыми друг от друга.

Функция регрессии будет иметь вид:

.      (4.3.2)

Для нахождения  неизвестных   коэффициентов   модели  (4.3.1) опять воспользуемся линеаризацией  этой функции и приведением ее к модели многофакторной линейной регрессии. Произведем замену переменных следующим образом:

,

,

………..

    .

Тогда вместо уравнения (4.3.1) мы можем записать следующее уравнение линейной многофакторной регрессионной модели:

.             (4.3.3)

 

Один  из  методов оценивания параметров линейной многофакторной регрессии – МНК,  мы уже рассмотрели в третьей главе.  Воспользуемся полученными там результатами и сразу запишем систему нормальных уравнений в матричной форме. Для этого введем в рассмотрение следующие матрицы и векторы:

=;

, .

Матричное уравнение вида (3.1.8) с учетом введенных обозначений запишется в виде:

                                        .                                  (4.3.4)

Если квадратная матрица  размерности   будет невырожденной, то решение матричного уравнения   (4.3.4) существует и его можно найти по формуле:

.                                  (4.3.5)

Так как по формуле (4.3.5) находим не сам вектор неизвестных b, а его оценку, полученную по МНК,  то равенство (4.3.5) будет корректно переписать в виде:

,                                    (4.3.6)

где  В -  это вектор оценок: .

Качество аппроксимации результатов наблюдений  функцией регрессии:

 

                                     (4.3.7)

определяют при помощи величины , которая является оценкой дисперсии s2. Оценка   вычисляется по формуле:

=.(4.3.8)

С учетом введенных ранее обозначений для вычисления  можно воспользоваться формулой:

 

                 =.                                    (4.3.9)

Если модель (4.3.1) адекватна эмпирическим данным, то  является несмещенной оценкой дисперсии 2.

Отметим также, что  случайная величина  распределена по закону   с (n-k) степенями свободы. Этот факт используется при построении доверительного интервала для s2 , он имеет вид:

 

         .                          (4.3.10)

Значения   и ищут по таблицам критических точек распределения   по заданной доверительной вероятности  и (n -k) степеням свободы.

В свою очередь, границы доверительных интервалов для неизвестных коэффициентов    находят по следующим формулам

 

  .(4.3.11)

В формуле (4.3.11) использованы следующие обозначения: - диагональный элемент матрицы  с номером (j+1,j+1),  -значение симметричной квантили порядка a, найденное по таблицам распределения Стьюдента по заданной доверительной вероятности a и (n- k) степеням свободы, .

Алгоритм проверки гипотезы о значимости модели с использованием статистики Фишера будет следующим. Выдвигаем основную и альтернативную гипотезы    вида:

Для проверки основной гипотезы Н0    вводим выборочную статистику Z*:

 

                         ,                                (4.3.12)

которую можно записать и в следующем виде:                  

.                      (4.3.13)

 

Если основная гипотеза верна, то случайная  величина Z* распределена по закону Фишера с n1=(k-1), n2=(n-k) степенями свободы: Z*=Fk-1,n-k.. Границу правосторонней критической области K2 находят  по таблицам распределения Фишера по заданному уровню значимости 1-a и  n1=(k-1), n2=(n-k) степеням свободы. В том случае, если Z*³ K2,  гипотезу H0 отвергаем и делаем вывод, что выбранная регрессионная модель статистически значима. Принимаем основную гипотезу H0 и считаем, что модель (4.3.1) статистически незначима, если

0<Z*< K2.

  Пример 4.3.1. Для того чтобы инвестиционный менеджер мог правильно выбрать время операции (market timer), для прогнозирования  изменения избыточной доходности портфеля ценных бумаг в зависимости от избыточной доходности, рынка ему приходится использовать не только линейную регрессионную модель, но и более сложные модели [16]. Рассмотрим в качестве примера такой зависимости квадратичную функцию:

.

В последнем уравнении использовались следующие обозначения:

● - избыточная доходность рынка в момент времени i;

●() -избыточная доходность портфеля ценных бумаг в момент времени i;

●- безрисковая ставка доходности;

●- случайная составляющая.

Пусть  ,  =,  у = ().  Тогда исходное уравнение перепишем в виде:

.

Запишем вид матрицы Н для этой модели:

Н= .

В качестве упражнения, используя исходные данные примера 2.5.1,  оцените  параметры  нелинейной регрессии и проведите ее  статистическое тестирование двумя способами. Во-первых, применяя формулы (4.3.6)-(4.3.13), во-вторых, используя результаты функции «РЕГРЕССИЯ» для линеаризованной модели. Сопоставьте полученные результаты.

4.4. Обобщенные нелинейные модели многофакторной регрессии

В общем виде нелинейная многофакторная модель задается в виде:

 

            . (4.4.1)

Или:

.(4.4.2)

В уравнении (4.4.1) у - эндогенная переменная; - независимые экзогенные  переменные, - известные нелинейные функции этих переменных, - неизвестные коэффициенты, ε-  случайная составляющая.  Относительно случайных величин ,  предполагается   выполнение условий  Гаусса-Маркова.

В качестве примера такой модели  рассмотрим следующую функцию:

,

которая описывает изменение прибыли (переменная у) в зависимости от следующих показателей:

●удельных расходов на рекламу (переменная х1);

●капитала фирмы (переменная х2);

●доли продаж фирмы в общем объеме продаж данной группы товаров по региону (переменная х3);

●увеличения объема продаж фирмы по сравнению с предыдущим годом (переменная х4).

Функция вида:

            (4.4.3)

будет являться  функцией нелинейной многофакторной регрессии.

Отметим, что, как  и в предыдущем параграфе при рассмотрении обобщенных нелинейных зависимостей от одного фактора, так и в этом параграфе,

неизвестные коэффициенты  входят в модель линейно. Этот факт позволяет нам производить  линеаризацию исходной функции путем замены переменных,  затем оценивать параметры  линеаризованной модели, а тем самым и исходной нелинейной модели.

В качестве альтернативы рассмотрим еще несколько нелинейных моделей:

,

.

В  эти  уравнения  и сами факторы, и неизвестные коэффициенты, входят нелинейно, такие функции относятся к существенно нелинейным  функциям. Нахождение параметров такой функции становится самостоятельной математической задачей, однако, чаще всего решение  этой задачи удается найти не аналитически, а с использованием численных методов. В заключение  приведем  пример  существенно  нелинейной  функции:

.

4.5. Производственные функции

 Нам уже не раз приходилось обсуждать вопрос о том, как подбирать функцию,  при помощи которой можно описать связь между экономическими показателями. В книге К.Доугерти «Введение в эконометрику» [8] вы можете найти описание того, что в 1827 году, экономист по образованию, Пол Дуглас, изучая производственную модель, нанес на один и тот же чертеж графики следующих функций:

●график логарифма показателя  реального объема  выпуска (Y);

●логарифма капитальных затрат (K);

●логарифма затрат труда (L).

В результате изучения графика он обнаружил, что расстояние от точек графика показателей выпуска до точек графика показателей труда и капитала составляют постоянную пропорцию. Для, аппроксимации, такой зависимости математик Чарльз Кобб предложил следующее аналитическое выражение:

.                                      (4.5.1)

Константы А и a в выражении (4.5.1) являлись неизвестными. Переменная ε характеризовала неучтенные в модели факторы производства.

 Задача нахождения  неизвестных параметров функции по известным значениям переменных x и y  решается в математике различными методами. Предполагается, что  Кобб и Дуглас для нахождения неизвестных параметров  использовали метод наименьших квадратов.

 Перепишем  выражение для производственной функции (4.5.1) в виде

,                                      (4.5.2)


Тогда:

Ln(Y)=ln(B0)+B1*ln(x1)+B2*ln(x2)+ln(e)

В уравнении (4.5.2) использованы следующие обозначения: . Перед нами нелинейная функция двух переменных  и  с неизвестными коэффициентами  Произведем ее линеаризацию,  проведя предварительно  некоторые преобразования. Разделим обе части равенства на  , получим:

.

Или:

.

Последнее выражение прологарифмируем по  натуральному основанию

и запишем следующим образом:

.

По свойству логарифмов правую часть равенства можно переписать в таком виде:

   .              (4.5.3)

Перейдем к новым переменным:

,

,

,

и перепишем равенство (4.5.3):

         (4.5.4)

 

Преобразования привели нас к модели парной линейной регрессии (4.5.4). Методы оценивания параметров такой модели нам уже известны. Обозначим полученные оценки параметров модели (4.5.4)  следующим образом: .

Запишем выражения для  оценок  параметров исходной модели (4.5.2):

 ,

                                       ,                                 (4.5.5)

.

  

Замечание 1. В общем случае в уравнении для производственной  функции отсутствует ограничение , связывающее параметры. Поэтому линеаризацию уравнения (4.5.2) , задающего вид производственной функции, можно   выполнять сразу, переходя  к уравнению вида:

 

.                (4.5.6)

 

Последнее уравнение при помощи новых обозначений запишем в виде:

                                                     (4.5.7)

Оценив параметры модели (4.5.7)  и используя   соотношения,  

          ,

                                            ,                            (4.5.8)

                                               ,

получим решение задачи оценивания параметров производственной функции без ограничения на параметры.

Ответ на вопрос о том, будет ли предположение  о взаимосвязи  параметров иметь место,  можно получить, используя технику проверки о выборе между  «короткой» (если равенство  имеет место) регрессии вида (4.5.4)  или «длинной» регрессии  вида (4.5.6) (предположение   не выполняется).


 

А также другие работы, которые могут Вас заинтересовать

10311. Эпоха эллинизма 12.39 KB
  Эллинизм охватывающий период от завоеваний Александра Македонского до падения западной Римской Империи характеризует собой последующую античную философию. Сохранив многое из античной классики Эллинизм по существу завершил ее. Исходные принципы заложенные великими ...
10312. Давид Юм - философ английского Просвещения 15.5 KB
  Давид Юм философ английского Просвещения критиковал религиозный и философский догматизм который заложился в сознании людей. Он был философомскептиком антирационалистом. Юм известен своей мыслью о том что не существует объективной причинной связи вещей.Когда мы на
10313. Язык и мышление, их взаимосвязь 42.75 KB
  Язык и мышление Язык главная из знаковых систем человека важнейшее средство человеческого общения способ осуществления мышления. Человек единственной существо моделирующее внешний мир при помощи знаковых систем. В любом человеческом сообществе люди реагиру...
10314. Функции культуры 26 KB
  Функции культуры Основная человекотворческая Человек живет не в природе а в культуре. В ней он сам себя познает. Здесь есть и моменты миропонимания формирования воспитания и социологизации человека. Иначе она еще называется преобразующей функцией поскольку освое
10315. Категории диалектики. Законы диалектики 30 KB
  Категории диалектики общие понятия отражающие наиболее существенные закономерные связи и отношения реальности. Можно сказать что философские категории воспроизводят свойства и отношения бытия в максимально общем виде. Регулируя реальный процесс мышлени они в ходе е
10316. Общество - это продукт совметной историчсекой деятельности дюдей 18.99 KB
  Общество это продукт совместной исторической деятельности людей совокупность общественных связей отношений и компонентов особый тип надындивидуальной и надприродной системной организации. Общество представляет собой специфическую систему включающую множество э...
10317. Предмет и функции философии, Философские дисциплины 27.54 KB
  Философия есть определенная способность думать о вечных вопросах, о человеческой жизни и смерти, о предназначении человека, и в таком своем качестве она возникла вместе с появлением человеческого рода, Философия имеет дело с предельными, вековечными вопросами.
10318. Мировоззренческая, методологическая, рефлексивно–критическая и интегративная функция философии 26.11 KB
  Содержание Введение 1. Предмет философии. Место философии в системе наук и культуре 2. Основные разделы философии 3. Мировоззренческая методологическая рефлексивно–критическая и интегративная функция философии Заключение Список использованной ли...
10319. Гумилев Л.Н. Этногенез и биосфера Земли 47.04 KB
  Тема: Гумилев Л.Н. Этногенез и биосфера Земли. Этнос и популяция. Этнос не популяция. Начать свой доклад я бы хотел с определения терминов этнос и популяция. Этнос – исторически возникший вид устойчивой социальной группировки людей представленный племенем или народ...