32231

Метод динамического программирования Р. Беллмана

Лекция

Информатика, кибернетика и программирование

6 величина определяется в соответствии с уравнениями 7.10 При условиях ; Оптимальное уравнение определяется в результате решения уравнения 7.10 можно заменить уравнениями в частных производных 7.4 получим Из уравнения получим П 7.

Русский

2013-09-04

1.14 MB

35 чел.

Лекция №7

Метод динамического программирования Р. Беллмана

В основу динамического программирования положен принцип оптимальности. Согласно этому принципу оптимальное уравнение определяется конечной целью управления и состоянием системы в рассматриваемый момент времени не зависимо от предыстории системы (как она попала в рассматриваемую точку). Это означает что для оптимальных траекторий каждый участок, связывающий любую промежуточную точку этой траектории с конечной точкой, также является оптимальной траекторией.

Задача оптимизации состоит в том, чтобы определить оптимальное управление  и оптимальную траекторию (экстремаль) из условия выполнения минимума (или максимума) функция …. (критерия)

     (7.1)

При заданных динамикой объекта управления уравнений

      (7.2)

или        (7.3)

и заданных краевых условиях ,  на интервале  при наличии ограничений , и может , где  – области допустимых значений переменных состояний объекта и управляющих воздействий.

В данном методе вводится вспомогательная функция S, называемая функцией Беллмана

     (7.4)

Дадим приращение по времени Δt. Тогда

     (7.5)

где ,  - вектор переменных (координат) объекта в момент .

Пусть 0, тогда с учетом выражения (7.5) получим

     (7.6)

Получаемая из (7.6) величина  определяется в соответствии с уравнениями (7.2) или (7.3) оптимальную траекторию .

Первое слагаемое в первой части выражения (7.6) с точностью до малых величин   …. Порядка  можно заменить приближенным выражением

   (7.7)

Второе слагаемое разложим в ряд Тейлора и ограничимся линейными слагаемыми относительно переменной .

  (7.8)

В соответствии с (7.2) точность для любых малых более высокого порядка

С учетом этого выражение (7.8) примет вид:

 (7.9)

На основании (7.6), (7.7) и (7.8) запишем

После деления всех членов на  и переходя к пределу 0 получим нелинейное уравнение Беллмана в частных производных

  (7.10)

При условиях ; ,

Оптимальное уравнение  определяется в результате решения уравнения (7.10), что в общем случае сделать достаточно сложно. Для внутренней области  условие (7.10) можно заменить уравнениями в частных производных

   (7.11)

Решая эту систему можно определить закон оптимального управления .

Для стационарного объекта управления в (7.11) можно представить в виде

   (7.12)

Пример: определим оптимальный закон управления для предыдущего примера методом динамического программирования:

    (П 7.1)

    (П 7.2)

или       (П 7.3)

где ; ; .

В соответствии с (7.12) для нашего случая будет:

   (П 7.4)

И условие минимума не управляющему воздействию (второе уравнение (7.11)) дает следующее уравнение:

    (П 7.5)

Из (П 7.5) следует

     (П 7.6)

После подстановки (П 7.6) в (П 7.4) получим

Из уравнения получим

   (П 7.7)

Подставляем значение  в (П 7.6) получим оптимальный закон управления

   (П 7.8)

где   – коэффициент обратной связи будет определятся, как

  (П 7.9)

Что совпадает с результатами, полученными в предыдущих примерах.

Наиболее эффективное применение динамического программирования при численном решении уравнения Беллмана. Для этого заменяем дифференциальные уравнения объекта управления (7.3) уравнениям в конечных разностях, т.е. дифференциальные уравнения  заменяем на разность  

    (П 7.9)

, k=1,2,…N – число временных …

Функционал (критерий оптимальности) примет вид

   (П 7.9)

На каждом интервале  считаем  - непостоянной величиной. Таким образом решая рекуррентные уравнения (7.13) находится значения оптимального уравнения на каждом значения оптимального уравнения на каждом интервале : , ,…,, также что  ,  и которые обеспечивают минимум функционала (7.14). при численном решении задача оптимизации на каждом участке решается в обратном порядке -  от конца к началу.

Графически вычислительную процедуру можно в виде пути, который проходит через точку, минимальных значений критерия (7.14) на рис 7.1 представлена оптимальная траектория (экстремаль) x(t). Величина x разбита на интервалы Δx и время t на интервалы Δt. В точках пересечения показаны численные значения приращения функционала ΔJ.

Рис. 7.1. Расчет оптимальной траектории x(t) по минимому приращения функционала.

Минимальное значение функционала достигается при движении по траектории, обозначается при движении по траектории, обозначенной сплошной строкой.


x

1,5

1,3

1,1

0,7

1,8

1,6

1,5

1,2

2,7

2,4

2,1

1,8

 0

 0

1,1

0,8

0,6

0,3

3,5

3,2

2,8

2,3

1,6

1,2

0,8

0,6

X5

Δx

X4

Δx

X3

Δx

X2

Δx

X1

Δx

t1

Δt

t2

Δt

t3

Δt

t4

Δt

t5


 

А также другие работы, которые могут Вас заинтересовать

14492. Политика США в Западном полушарии. Интеграционные проекты США 17.91 KB
  Политика США в Западном полушарии. Интеграционные проекты США Сложно выделить в истории Соединённых Штатов Америки такой период когда бы они не проявляли геополитического интереса в отношении своих ближайших соседей латиноамериканских государств. Выразителем го...
14493. Арктическая политика США (90-е гг. XX в. - 10 -е гг. XXI в.) 18.12 KB
  Арктическая политика США 90е гг. XX в. 10 е гг. XXI в. Интересы США в Арктике можно сгруппировать в несколько блоков. Вопервых военностратегические в том числе: ПРО и раннее предупреждение; развертывание наземных и морских систем для стратегической переброски; страт
14494. Интересы ЕС в ЛА. Саммиты ЕС-ЛА. Политика ЕС – как фактор интеграции в регионе 21.53 KB
  Интересы ЕС в ЛА. Саммиты ЕСЛА. Политика ЕС как фактор интеграции в регионе. Ибероамериканские саммиты. Основы трансрегионального сотрудничества ЛКА и ЕС Интересы: Динамичное развитие региональных интеграционных процессов. Углубление политического диалога ...
14495. Международные программы развития Африки и роль стран ЕС в развитии региона 17.82 KB
  Международные программы развития Африки и роль стран ЕС в развитии региона В период формирования Европейского союза европейские страны имевшие бывшие колонии за пределами Европы стремились сохранить свои особые отношения с ними. Таким образом возникла идея ассоциа...
14496. Интересы и политика США в Африке 22.87 KB
  Интересы и политика США в Африке В последние годы ведущие державы мира уделяют повышенное внимание реализации своей политики в Африке. Наибольшую активность на континенте проявляют Соединенные Штаты стремясь к усилению здесь своего влияния и укреплению как военнопол...
14497. Статус ЕС в ведущих международных организациях 22.3 KB
  Статус ЕС в ведущих международных организациях ООН ЕС крупнейший финансовый спонсор системы ООН. Эти 27 фондов странчленов ЕС 38 регулярного бюджета ООН. ЕС участвует более чем в двух пятых операций ООН по поддержанию мира. Одна только Европейская комиссия вносит бол...
14498. Интересы ЕС на постсоветском пространстве. «Восточное партнерство» 21.08 KB
  Интересы ЕС на постсоветском пространстве. Восточное партнерство Отношения Евросоюза с государствами постсоветского пространства как некое целостное направление внешней политики начали формироваться в 20022004 гг. когда была разработана Европейская политика сосед...
14499. Подходы США к проблеме региональной безопасности в АТР 15.74 KB
  Подходы США к проблеме региональной безопасности в АТР АТР АзиатскоТихоокеанский Регион Развитие права норм и механизмов регулирования международных отношений в АТР как и в других регионах мира связано с такими организациями как АСЕАН АТЭС АРФ Асеановский Рег...
14500. Политика ЕС и США по урегулированию ближневосточного конфликта 24.43 KB
  Политика ЕС и США по урегулированию ближневосточного конфликта Благодаря своим запасам нефти Ближний Восток является регионом где пересекаются интересы США и их традиционных европейских союзников. Установление стабильности в этом стратегически важном регионе остае