32231

Метод динамического программирования Р. Беллмана

Лекция

Информатика, кибернетика и программирование

6 величина определяется в соответствии с уравнениями 7.10 При условиях ; Оптимальное уравнение определяется в результате решения уравнения 7.10 можно заменить уравнениями в частных производных 7.4 получим Из уравнения получим П 7.

Русский

2013-09-04

1.14 MB

35 чел.

Лекция №7

Метод динамического программирования Р. Беллмана

В основу динамического программирования положен принцип оптимальности. Согласно этому принципу оптимальное уравнение определяется конечной целью управления и состоянием системы в рассматриваемый момент времени не зависимо от предыстории системы (как она попала в рассматриваемую точку). Это означает что для оптимальных траекторий каждый участок, связывающий любую промежуточную точку этой траектории с конечной точкой, также является оптимальной траекторией.

Задача оптимизации состоит в том, чтобы определить оптимальное управление  и оптимальную траекторию (экстремаль) из условия выполнения минимума (или максимума) функция …. (критерия)

     (7.1)

При заданных динамикой объекта управления уравнений

      (7.2)

или        (7.3)

и заданных краевых условиях ,  на интервале  при наличии ограничений , и может , где  – области допустимых значений переменных состояний объекта и управляющих воздействий.

В данном методе вводится вспомогательная функция S, называемая функцией Беллмана

     (7.4)

Дадим приращение по времени Δt. Тогда

     (7.5)

где ,  - вектор переменных (координат) объекта в момент .

Пусть 0, тогда с учетом выражения (7.5) получим

     (7.6)

Получаемая из (7.6) величина  определяется в соответствии с уравнениями (7.2) или (7.3) оптимальную траекторию .

Первое слагаемое в первой части выражения (7.6) с точностью до малых величин   …. Порядка  можно заменить приближенным выражением

   (7.7)

Второе слагаемое разложим в ряд Тейлора и ограничимся линейными слагаемыми относительно переменной .

  (7.8)

В соответствии с (7.2) точность для любых малых более высокого порядка

С учетом этого выражение (7.8) примет вид:

 (7.9)

На основании (7.6), (7.7) и (7.8) запишем

После деления всех членов на  и переходя к пределу 0 получим нелинейное уравнение Беллмана в частных производных

  (7.10)

При условиях ; ,

Оптимальное уравнение  определяется в результате решения уравнения (7.10), что в общем случае сделать достаточно сложно. Для внутренней области  условие (7.10) можно заменить уравнениями в частных производных

   (7.11)

Решая эту систему можно определить закон оптимального управления .

Для стационарного объекта управления в (7.11) можно представить в виде

   (7.12)

Пример: определим оптимальный закон управления для предыдущего примера методом динамического программирования:

    (П 7.1)

    (П 7.2)

или       (П 7.3)

где ; ; .

В соответствии с (7.12) для нашего случая будет:

   (П 7.4)

И условие минимума не управляющему воздействию (второе уравнение (7.11)) дает следующее уравнение:

    (П 7.5)

Из (П 7.5) следует

     (П 7.6)

После подстановки (П 7.6) в (П 7.4) получим

Из уравнения получим

   (П 7.7)

Подставляем значение  в (П 7.6) получим оптимальный закон управления

   (П 7.8)

где   – коэффициент обратной связи будет определятся, как

  (П 7.9)

Что совпадает с результатами, полученными в предыдущих примерах.

Наиболее эффективное применение динамического программирования при численном решении уравнения Беллмана. Для этого заменяем дифференциальные уравнения объекта управления (7.3) уравнениям в конечных разностях, т.е. дифференциальные уравнения  заменяем на разность  

    (П 7.9)

, k=1,2,…N – число временных …

Функционал (критерий оптимальности) примет вид

   (П 7.9)

На каждом интервале  считаем  - непостоянной величиной. Таким образом решая рекуррентные уравнения (7.13) находится значения оптимального уравнения на каждом значения оптимального уравнения на каждом интервале : , ,…,, также что  ,  и которые обеспечивают минимум функционала (7.14). при численном решении задача оптимизации на каждом участке решается в обратном порядке -  от конца к началу.

Графически вычислительную процедуру можно в виде пути, который проходит через точку, минимальных значений критерия (7.14) на рис 7.1 представлена оптимальная траектория (экстремаль) x(t). Величина x разбита на интервалы Δx и время t на интервалы Δt. В точках пересечения показаны численные значения приращения функционала ΔJ.

Рис. 7.1. Расчет оптимальной траектории x(t) по минимому приращения функционала.

Минимальное значение функционала достигается при движении по траектории, обозначается при движении по траектории, обозначенной сплошной строкой.


x

1,5

1,3

1,1

0,7

1,8

1,6

1,5

1,2

2,7

2,4

2,1

1,8

 0

 0

1,1

0,8

0,6

0,3

3,5

3,2

2,8

2,3

1,6

1,2

0,8

0,6

X5

Δx

X4

Δx

X3

Δx

X2

Δx

X1

Δx

t1

Δt

t2

Δt

t3

Δt

t4

Δt

t5


 

А также другие работы, которые могут Вас заинтересовать

66456. Совершенствование системы управления персоналом в ГУ ЦЗН 244 KB
  Актуальность выбранной темы определяется тем, что в современной российской действительности в процессе реализации задач эффективного государственного управления учреждения столкнулись с множеством проблем, ключевой из которых является низкая эффективность системы управления персоналом.
66457. Причин высокого уровня инфляции в России на протяжении многих лет 154.5 KB
  Целью дипломной работы является поиск возможных причин высокого уровня инфляции в России на протяжении многих лет. Причиной дипломной является интерес к тому факту что уровень инфляции в Европе и США является в последние годы низким...
66458. Разработка и оценка действующего механизма управления прибылью в условиях малого предприятия ООО «Флер де Элен» 347.5 KB
  Целью данной работы является изучение теоретических основ управления прибылью анализ разработка и оценка действующего механизма управления прибылью в условиях малого предприятия ООО Флер де Элен планирование финансовых результатов определение направлений их совершенствования и поиск путей увеличения чистой прибыли.
66459. Анализ эффективности управления кредитными операциями коммерческого банка (на примере АБ Капитал) 772 KB
  Анализ эффективности управления кредитными операциями коммерческого банка на примере АБ Капитал Поэтому перед российскими коммерческими банками при увеличении конкурентной борьбы за потенциальных заемщиков возникла необходимость планирования своей кредитной деятельности.
66461. Структурно-семантичні та прагматичні особливості парантезу в оповіданнях У.Фолкнера 209 KB
  Робоча гіпотеза, яка висувається в дослідженні полягає в тому, що експресивна функція парантетичних внесень, експресивний характер є результатом нашарування текстових характеристик на статичну природу речення. Тому парантези — це не тільки, навіть не стільки належність речення, скільки належність тексту.
66462. Розробка рекомендацій щодо підвищення дохідності КБ «Фінанси та кредит» 5.49 MB
  Метою нашої роботи є вивчення і аналіз роботи по проведенню валютно-розрахункових операцій на прикладі КБ Фінанси та кредит здійснення розрахунків по експортно-імпортних операціях залучення клієнтів та збільшення прибутків банку. Національна мережа банківського обслуговування банку...
66463. Шляхи покращення банківського кредитування фізичних осіб 713.5 KB
  Об'єктивні відхилення фактичної потреби господарюючих суб'єктів у фінансуванні їх господарської діяльності від наявності (надлишку або нестачі) вільних ресурсів залежать від багатьох факторів, серед яких: капіталомісткість виробничої діяльності; сезонність виробництва...