72238

Нелинейные регрессионные модели

Лекция

Математика и математический анализ

Во-первых зависимость между x и y во всех уравнениях нелинейная. Как всё сказанное влияет на методы отыскания неизвестных коэффициентов β0 β1 Если оба коэффициента входят в уравнение линейно а случайная составляющая e аддитивно то исходная нелинейная функция путем замены переменных...

Русский

2014-11-19

443 KB

43 чел.

4.  Нелинейные регрессионные модели

4.1. Линеаризация функций

 Во второй главе мы изучили методы  оценивания неизвестных коэффициентов линейной функции регрессии. То, что  зависимость между результирующим признаком  y и фактором x линейная, постулировалось после изучения  экономических предпосылок и статистической эмпирической информации.

Предположим, что у нас есть основание считать, что зависимость между экономическими переменными y и x имеет, например,  следующий вид:

 

,                 (4.1.1)

,                   (4.1.2)

В этих функциях – х входит нелинейно

                                         ,                           (4.1.3)

                                      - показательная функция.(4.1.4)
4.1.3 и 4.1.4 – Бэта входит нелинейно

Пусть х~ = x^2

Тогда:

Y=B0+B1*(x~)+E =>

(Y^)=(B0^)+(B1^)*(x^2)

 Коэффициенты β0 ,    β1 во всех уравнениях неизвестны. Чем отличаются эти функции от рассмотренных ранее?

●Во-первых, зависимость между x и y во всех уравнениях нелинейная. 

●Во-вторых, сами коэффициенты  β0 ,    β1    в уравнения (4.1.1), (4.1.2) входят линейно, а в уравнения (4.1.3), (4.1.4) нелинейно.

●В-третьих, в уравнения (4.1.1) и (4.1.2) случайная составляющая e входит как слагаемое (аддитивно), а в уравнения (4.1.3), (4.1.4) как сомножитель (мультипликативно).

Как всё сказанное влияет на методы отыскания неизвестных коэффициентов     β0 , β1?

  1.  Если оба коэффициента входят в уравнение линейно, а случайная составляющая e аддитивно, то исходная нелинейная функция путем замены переменных сводится к линейной функции вида (2.1.2).

Процесс преобразования нелинейной функции к линейной называют линеаризацией.

Например, обозначим в уравнении (4.1.1) через  новую переменную:

.

В уравнении (4.1.2)  также произведем замену переменной:

=.

Тогда оба эти  уравнения могут быть переписаны в виде:                                      .                                              (4.1.5)

Структура этого уравнения совпадает с уравнением (2.1.2). Значит,  оценки   в0  и в1 параметров линейной регрессии, которые мы найдем по  методу  наименьших квадратов для модели (4.1.5),  будут искомыми и для исходных моделей (4.1.1) и (4.1.2).

2) Для линеаризации (приведения нелинейной функции к линейной) функций (4.1.3) и (4.1.4) поступим следующим образом: прологарифмируем обе части этих уравнений по произвольному основанию. (В экономических задачах чаще всего используют натуральные логарифмы ln). Уравнение (4.1.3) преобразуется к виду:

                .                                     (4.1.6)

а уравнение (4.1.4)  будет следующим:

                  .                                     (4.1.7)

Проанализируем оба последних уравнения. Для этого в уравнении (4.1.6) произведем следующую замену переменных:

.

и введем такие обозначения для новых  коэффициентов:

Тогда уравнение (4.1.6) примет вид:

 

.                                   (4.1.8)

В уравнении  (4.1.7) введем такие переменные:

.

и обозначения для новых коэффициентов:

Тогда уравнение (4.1.7) также запишется в виде (4.1.8), совпадающим  по виду с линейным уравнением (2.1.2).

 Параметры линейной регрессионной модели (4.1.8) мы можем  оценить,  используя для этого МНК. Обозначим найденные оценки для     через  и используем обратное преобразование, для того, чтобы найти оценки  в0  и в1 уравнений (4.1.3)

 

,     .                              (4.1.9)

и (4.1.4) соответственно:

                       ,  .                              (4.1.10)

Безусловно, проводить линеаризацию функции при помощи логарифмирования, можно только в том случае, если логарифмируемое выражение положительно. И все должно быть положительно, каждый изначальный множитель функции. Подводя итог, отметим, что  логарифмирование нелинейных функций и переход к линейной модели дает возможность решить задачу нахождения неизвестных коэффициентов для  моделей вида (4.1.3), (4.1.4).

Для 4.1.3:

y^=e2x-3, если оценка lnB0=2, lnB1=-3

Для 4.1.4:

 y^= e3,5x+1, если оценка lnB0=1, lnB1 = 3,5

Приведем теперь пример ещё одной функции

,                                      (4.1.11)

как пример  нелинейной функции, которая не может быть приведена к модели, линейной относительно неизвестных коэффициентов β0 и   β1 . Поэтому, необходимы уже другие методы для нахождения оценок этих коэффициентов, отличные от методов, рассмотренных в этой главе.

Замечание 1. Функции вида (4.1.2) при   β1<0 и вида

при  β0 >0 и   β1>0 используют для описания кривых Энгеля, которые, характеризуют, спрос на товар и услуги (переменная, y) в зависимости от доходов населения (переменная x). В то же время, если в уравнении (4.1.2)     β1 >0,

а в уравнении

коэффициенты удовлетворяют условиям:

β0 <0 и   β1>0

или,

β0 >0 и   β1<0,

то эти функции могут быть использованы при изучении спроса на товар (переменная y) в зависимости от цены товара (переменная x).

Функции вида (4.1.3) используют при аппроксимации производственных функций. В роли y выступает объем производства, а в роли x - один из основных факторов производства. В частности, функция (4.1.2) использовалась при изучении взаимосвязи показателей инфляции и безработицы в Великобритании в период 1950 - 1966 [10].

В свою очередь, функции вида

применяют при анализе урожайности сельскохозяйственного производства, а функции вида (4.1.3) могут быть использованы при изучении изменения ставок межбанковского кредита  (переменная y) в зависимости от срока его предоставления (в днях) (переменная x).

Замечание 2. Одним из существенных предположений при изучении линейной регрессионной модели было предположение о том, что случайные составляющие  распределены по нормальному закону и входят в уравнение  аддитивно. Это предположение играло существенную роль при изучении свойств оценок регрессии. В случае нелинейной регрессии, если  входит в уравнение для y аддитивно, то по-прежнему достаточно предположить нормальный закон распределения для ошибок   (уравнения типа (4.1.1), (4.1.2)). Если же,  входит в нелинейную зависимость y от x мультипликативно, как в уравнениях (4.1.3),  (4.1.4), то после линеаризации, вместо   мы получаем  ln . Только в том случае, если закон распределения случайной величины  будет логнормальным, закон распределения ln будет нормальным.

4.2. Особенности выбора  функций регрессий

(прочитать самостоятельно)

В предыдущем параграфе мы предположили, что вид нелинейной  функции, связывающей переменные x и y, нам известен и решали проблему нахождения неизвестных  параметров, принимающих участие в описании функциональной зависимости. Как же на практике подбирать функцию, которая задает зависимость y от x? На подобный вопрос мы уже отвечали. Например, вид функции может подсказать    характер расположения фактических значений переменных (xi, yi) на корреляционном поле. Если зависимость линейная, то решение задачи однозначно, а если нелинейная, то очень трудно определиться с выбором, какая же конкретно функция связывает переменные. Так, например, в [17] показано, что в задаче аппроксимации спроса на товар, в зависимости  от дохода, может быть использована и параболическая, и гиперболическая функции. В этом случае предлагают использовать несколько различных функций, а затем выбрать ту из них, которая наиболее адекватно оценивает имеющиеся в нашем расположении данные.

Критериями адекватности могут выступать статистические показатели, которые мы рассматривали в предыдущей главе. Однако следует иметь в виду следующее. Пусть, например, в качестве аппроксимирующей функции выбраны две функции: линейная функция  и функция  вида (4.1.3): .  Для линейной функции  мы находим неизвестные коэффициенты в0, в1 , вычисляем выборочные  коэффициенты корреляции , детерминации  , строим доверительные интервалы. Функцию (4.1.3) сначала линеаризуем и приводим к виду (4.1.8). Для уравнения (4.1.8) находим оценки коэффициентов , вычисляем коэффициент детерминации  и все остальные статистические характеристики.  Для дальнейшего анализа воспользуемся числовыми данными, приведенными в [8]. Пусть =0, 985, а =0,992, в свою очередь =385,2 для первого случая и =0,02 для линеаризованной модели. Можем ли мы сравнить эти результаты?  Нет, так как  является мерой доли дисперсии  объясненной переменной y,  а  - переменной . Разница в величине   и  также объяснима: значения y существенно больше, чем  значения переменной ln y.

Для однозначного выбора искомой функции из множества возможных рекомендуют использовать, например тесты Бокcа-Кокса, тесты Зарембки. Тест Зарембки позволяет производить  сравнение  и  за счет преобразования масштаба. Для  того чтобы преобразовать масштаб необходимо проделать следующие шаги [8]:

● Вычислить  

.

●Произвести пересчет значений  каждого  yi по формуле:

●Решить задачу оценивания коэффициентов линейной регрессии, где, вместо  зависимой переменной   берется  переменная  и  нелинейной, где в качестве зависимой переменной выбирается .

●Сравнить величину    для обеих «звездных» моделей и  предпочесть ту из них, для которой сравниваемое значения меньше.

Пример 4.2.1. Вернемся к примеру (4.1.1) и воспользуемся результатами оценивания параметров функций (4.1.12) и (4.1.13) при помощи функции «ЛИНЕИН», выделив в каждой таблице следующие  значения:

=0,918

=1,43

=0,998

=0,05

 Как уже отмечалось, сравнивать значения  и   нельзя, поэтому  воспользуемся алгоритмом преобразования масштаба, описанным выше. Для этого вычислим ,  он будет равен:

.

Пересчитаем      и    (Таблица 13.):

                Таблица 13.

0,360

-1,021

0.499

-0,695

0,582

-0,541

1,386

0,326

1,913

0,649

3,604

1,282

Используя новые  значения  зависимых переменных,  найдем оценки коэффициентов следующих функций регрессии:

                                  ,                                                      (4.2.1)

                               .                                                      (4.2.2)

Последняя функция получена после линеаризации модели  нелинейной регрессии вида:  

;

.

Результат использования функции  «ЛИНЕЙН» для оценивания параметров приведенных выше линейных функций регрессий представлен в  таблицах 14 и 15 соответственно.  Для регрессии (4.2.1):

                                         

                                    Таблица 14.

0,339

-0,102

0,051

0,276

=0,918

=0,396

45,048

4

7,054

0,626

Для регрессии (4.2.2):

                                        Таблица 15.

0,255

-1,126

0,006

0,032

=0,999

=0,046

45,047

4

3,979

0,008

Теперь допустимо провести  сравнение  стандартных ошибок =0,396 и =0,046. Величина стандартной  ошибки   существенно меньше , поэтому выбор модели (4.1.2) для описания зависимости y от x предпочтительней. К  такому же результату мы пришли в примере 4.1.1.

4.3. Обобщенная модель нелинейной однофакторной регрессии

В этом параграфе рассмотрим общий случай регрессионной модели, нелинейной относительно фактора x, но линейной относительно неизвестных коэффициентов.

Предположим, что зависимость переменной y от фактора x имеет вид:

   .           (4.3.1)

В уравнении (4.3.1)  , известные нелинейные функции переменной x;  ,  - неизвестные коэффициенты.  Случайные составляющие  по-прежнему предполагаются нормально распределенными  случайными величинами с нулевыми средними, одинаковыми (неизвестными) дисперсиями s2 и независимыми друг от друга.

Функция регрессии будет иметь вид:

.      (4.3.2)

Для нахождения  неизвестных   коэффициентов   модели  (4.3.1) опять воспользуемся линеаризацией  этой функции и приведением ее к модели многофакторной линейной регрессии. Произведем замену переменных следующим образом:

,

,

………..

    .

Тогда вместо уравнения (4.3.1) мы можем записать следующее уравнение линейной многофакторной регрессионной модели:

.             (4.3.3)

 

Один  из  методов оценивания параметров линейной многофакторной регрессии – МНК,  мы уже рассмотрели в третьей главе.  Воспользуемся полученными там результатами и сразу запишем систему нормальных уравнений в матричной форме. Для этого введем в рассмотрение следующие матрицы и векторы:

=;

, .

Матричное уравнение вида (3.1.8) с учетом введенных обозначений запишется в виде:

                                        .                                  (4.3.4)

Если квадратная матрица  размерности   будет невырожденной, то решение матричного уравнения   (4.3.4) существует и его можно найти по формуле:

.                                  (4.3.5)

Так как по формуле (4.3.5) находим не сам вектор неизвестных b, а его оценку, полученную по МНК,  то равенство (4.3.5) будет корректно переписать в виде:

,                                    (4.3.6)

где  В -  это вектор оценок: .

Качество аппроксимации результатов наблюдений  функцией регрессии:

 

                                     (4.3.7)

определяют при помощи величины , которая является оценкой дисперсии s2. Оценка   вычисляется по формуле:

=.(4.3.8)

С учетом введенных ранее обозначений для вычисления  можно воспользоваться формулой:

 

                 =.                                    (4.3.9)

Если модель (4.3.1) адекватна эмпирическим данным, то  является несмещенной оценкой дисперсии 2.

Отметим также, что  случайная величина  распределена по закону   с (n-k) степенями свободы. Этот факт используется при построении доверительного интервала для s2 , он имеет вид:

 

         .                          (4.3.10)

Значения   и ищут по таблицам критических точек распределения   по заданной доверительной вероятности  и (n -k) степеням свободы.

В свою очередь, границы доверительных интервалов для неизвестных коэффициентов    находят по следующим формулам

 

  .(4.3.11)

В формуле (4.3.11) использованы следующие обозначения: - диагональный элемент матрицы  с номером (j+1,j+1),  -значение симметричной квантили порядка a, найденное по таблицам распределения Стьюдента по заданной доверительной вероятности a и (n- k) степеням свободы, .

Алгоритм проверки гипотезы о значимости модели с использованием статистики Фишера будет следующим. Выдвигаем основную и альтернативную гипотезы    вида:

Для проверки основной гипотезы Н0    вводим выборочную статистику Z*:

 

                         ,                                (4.3.12)

которую можно записать и в следующем виде:                  

.                      (4.3.13)

 

Если основная гипотеза верна, то случайная  величина Z* распределена по закону Фишера с n1=(k-1), n2=(n-k) степенями свободы: Z*=Fk-1,n-k.. Границу правосторонней критической области K2 находят  по таблицам распределения Фишера по заданному уровню значимости 1-a и  n1=(k-1), n2=(n-k) степеням свободы. В том случае, если Z*³ K2,  гипотезу H0 отвергаем и делаем вывод, что выбранная регрессионная модель статистически значима. Принимаем основную гипотезу H0 и считаем, что модель (4.3.1) статистически незначима, если

0<Z*< K2.

  Пример 4.3.1. Для того чтобы инвестиционный менеджер мог правильно выбрать время операции (market timer), для прогнозирования  изменения избыточной доходности портфеля ценных бумаг в зависимости от избыточной доходности, рынка ему приходится использовать не только линейную регрессионную модель, но и более сложные модели [16]. Рассмотрим в качестве примера такой зависимости квадратичную функцию:

.

В последнем уравнении использовались следующие обозначения:

● - избыточная доходность рынка в момент времени i;

●() -избыточная доходность портфеля ценных бумаг в момент времени i;

●- безрисковая ставка доходности;

●- случайная составляющая.

Пусть  ,  =,  у = ().  Тогда исходное уравнение перепишем в виде:

.

Запишем вид матрицы Н для этой модели:

Н= .

В качестве упражнения, используя исходные данные примера 2.5.1,  оцените  параметры  нелинейной регрессии и проведите ее  статистическое тестирование двумя способами. Во-первых, применяя формулы (4.3.6)-(4.3.13), во-вторых, используя результаты функции «РЕГРЕССИЯ» для линеаризованной модели. Сопоставьте полученные результаты.

4.4. Обобщенные нелинейные модели многофакторной регрессии

В общем виде нелинейная многофакторная модель задается в виде:

 

            . (4.4.1)

Или:

.(4.4.2)

В уравнении (4.4.1) у - эндогенная переменная; - независимые экзогенные  переменные, - известные нелинейные функции этих переменных, - неизвестные коэффициенты, ε-  случайная составляющая.  Относительно случайных величин ,  предполагается   выполнение условий  Гаусса-Маркова.

В качестве примера такой модели  рассмотрим следующую функцию:

,

которая описывает изменение прибыли (переменная у) в зависимости от следующих показателей:

●удельных расходов на рекламу (переменная х1);

●капитала фирмы (переменная х2);

●доли продаж фирмы в общем объеме продаж данной группы товаров по региону (переменная х3);

●увеличения объема продаж фирмы по сравнению с предыдущим годом (переменная х4).

Функция вида:

            (4.4.3)

будет являться  функцией нелинейной многофакторной регрессии.

Отметим, что, как  и в предыдущем параграфе при рассмотрении обобщенных нелинейных зависимостей от одного фактора, так и в этом параграфе,

неизвестные коэффициенты  входят в модель линейно. Этот факт позволяет нам производить  линеаризацию исходной функции путем замены переменных,  затем оценивать параметры  линеаризованной модели, а тем самым и исходной нелинейной модели.

В качестве альтернативы рассмотрим еще несколько нелинейных моделей:

,

.

В  эти  уравнения  и сами факторы, и неизвестные коэффициенты, входят нелинейно, такие функции относятся к существенно нелинейным  функциям. Нахождение параметров такой функции становится самостоятельной математической задачей, однако, чаще всего решение  этой задачи удается найти не аналитически, а с использованием численных методов. В заключение  приведем  пример  существенно  нелинейной  функции:

.

4.5. Производственные функции

 Нам уже не раз приходилось обсуждать вопрос о том, как подбирать функцию,  при помощи которой можно описать связь между экономическими показателями. В книге К.Доугерти «Введение в эконометрику» [8] вы можете найти описание того, что в 1827 году, экономист по образованию, Пол Дуглас, изучая производственную модель, нанес на один и тот же чертеж графики следующих функций:

●график логарифма показателя  реального объема  выпуска (Y);

●логарифма капитальных затрат (K);

●логарифма затрат труда (L).

В результате изучения графика он обнаружил, что расстояние от точек графика показателей выпуска до точек графика показателей труда и капитала составляют постоянную пропорцию. Для, аппроксимации, такой зависимости математик Чарльз Кобб предложил следующее аналитическое выражение:

.                                      (4.5.1)

Константы А и a в выражении (4.5.1) являлись неизвестными. Переменная ε характеризовала неучтенные в модели факторы производства.

 Задача нахождения  неизвестных параметров функции по известным значениям переменных x и y  решается в математике различными методами. Предполагается, что  Кобб и Дуглас для нахождения неизвестных параметров  использовали метод наименьших квадратов.

 Перепишем  выражение для производственной функции (4.5.1) в виде

,                                      (4.5.2)


Тогда:

Ln(Y)=ln(B0)+B1*ln(x1)+B2*ln(x2)+ln(e)

В уравнении (4.5.2) использованы следующие обозначения: . Перед нами нелинейная функция двух переменных  и  с неизвестными коэффициентами  Произведем ее линеаризацию,  проведя предварительно  некоторые преобразования. Разделим обе части равенства на  , получим:

.

Или:

.

Последнее выражение прологарифмируем по  натуральному основанию

и запишем следующим образом:

.

По свойству логарифмов правую часть равенства можно переписать в таком виде:

   .              (4.5.3)

Перейдем к новым переменным:

,

,

,

и перепишем равенство (4.5.3):

         (4.5.4)

 

Преобразования привели нас к модели парной линейной регрессии (4.5.4). Методы оценивания параметров такой модели нам уже известны. Обозначим полученные оценки параметров модели (4.5.4)  следующим образом: .

Запишем выражения для  оценок  параметров исходной модели (4.5.2):

 ,

                                       ,                                 (4.5.5)

.

  

Замечание 1. В общем случае в уравнении для производственной  функции отсутствует ограничение , связывающее параметры. Поэтому линеаризацию уравнения (4.5.2) , задающего вид производственной функции, можно   выполнять сразу, переходя  к уравнению вида:

 

.                (4.5.6)

 

Последнее уравнение при помощи новых обозначений запишем в виде:

                                                     (4.5.7)

Оценив параметры модели (4.5.7)  и используя   соотношения,  

          ,

                                            ,                            (4.5.8)

                                               ,

получим решение задачи оценивания параметров производственной функции без ограничения на параметры.

Ответ на вопрос о том, будет ли предположение  о взаимосвязи  параметров иметь место,  можно получить, используя технику проверки о выборе между  «короткой» (если равенство  имеет место) регрессии вида (4.5.4)  или «длинной» регрессии  вида (4.5.6) (предположение   не выполняется).


 

А также другие работы, которые могут Вас заинтересовать

59774. Профессионализм и методическое мастерство учителя иностранного языка 70 KB
  Цели: определить цели и содержание анализа урока иностранного языка выявить специфику анализа уроков различных видов и типов критерии оценки урока. Задачи: сформировать основные понятия по теме познакомиться со схемой анализа и оценки урока...
59775. Мамочка моя 46 KB
  Заходит ведущая под звучание фанфар. Ведущая: Здравствуйте дорогие гости Сегодня праздник самый светлый Щебечут птицы по дворам Все гости празднично одеты 8 марта праздник мам Заходят дети парами Ребенок...
59776. Увага. Види та властивості уваги 68.5 KB
  Мета уроку: продовжувати ознайомлювати учнів з найважливішими психічними процесами; визначити природу, види, властивості уваги, її значення в житті людини. Тип уроку: формування нових знань, умінь і навичок.
59777. Узагальнюючий урок з основ економіки для учнів 10-х класів 74 KB
  Тип уроку: урокгра Учні класу обєднуються у 2 команди. Запитання для 1 команди: Речі виготовлені не для власного споживання а для продажу товар. Запитання для 2 команди: Надмірне збільшення грошової маси інфляція. За відомими висловлюваннями команди відгадують імена авторів.
59781. ІНТЕГРОВАНЕ НАВЧАННЯ ДІТЕЙ З ВАДАМИ РОЗВИТКУ 96 KB
  І цю проблему не можна звести до проблеми педагогічної майстерності вчителя. Тому центральне завдання корекційнорозвиваючої діяльності – забезпечення кожної дитини індивідуальною траєкторією розвитку з урахуванням його психофізіологічних особливостей здібностей й нахилів...
59782. МІЖНАРОДНИЙ ДЕНЬ ЗАКОХАНИХ 72.5 KB
  Тому сьогодні ми пропонуємо вам відзначити прекрасне веселе давнє свято. 1 ВЕДУЧИЙ: Це – Миле Домашнє Забавне і Незвичайне свято День Святого Валентина або Свято всіх Закоханих 2 ВЕДУЧИЙ: Незвичайне воно тому що зовсім не слов’янське.