32231

Метод динамического программирования Р. Беллмана

Лекция

Информатика, кибернетика и программирование

6 величина определяется в соответствии с уравнениями 7.10 При условиях ; Оптимальное уравнение определяется в результате решения уравнения 7.10 можно заменить уравнениями в частных производных 7.4 получим Из уравнения получим П 7.

Русский

2013-09-04

1.14 MB

35 чел.

Лекция №7

Метод динамического программирования Р. Беллмана

В основу динамического программирования положен принцип оптимальности. Согласно этому принципу оптимальное уравнение определяется конечной целью управления и состоянием системы в рассматриваемый момент времени не зависимо от предыстории системы (как она попала в рассматриваемую точку). Это означает что для оптимальных траекторий каждый участок, связывающий любую промежуточную точку этой траектории с конечной точкой, также является оптимальной траекторией.

Задача оптимизации состоит в том, чтобы определить оптимальное управление  и оптимальную траекторию (экстремаль) из условия выполнения минимума (или максимума) функция …. (критерия)

     (7.1)

При заданных динамикой объекта управления уравнений

      (7.2)

или        (7.3)

и заданных краевых условиях ,  на интервале  при наличии ограничений , и может , где  – области допустимых значений переменных состояний объекта и управляющих воздействий.

В данном методе вводится вспомогательная функция S, называемая функцией Беллмана

     (7.4)

Дадим приращение по времени Δt. Тогда

     (7.5)

где ,  - вектор переменных (координат) объекта в момент .

Пусть 0, тогда с учетом выражения (7.5) получим

     (7.6)

Получаемая из (7.6) величина  определяется в соответствии с уравнениями (7.2) или (7.3) оптимальную траекторию .

Первое слагаемое в первой части выражения (7.6) с точностью до малых величин   …. Порядка  можно заменить приближенным выражением

   (7.7)

Второе слагаемое разложим в ряд Тейлора и ограничимся линейными слагаемыми относительно переменной .

  (7.8)

В соответствии с (7.2) точность для любых малых более высокого порядка

С учетом этого выражение (7.8) примет вид:

 (7.9)

На основании (7.6), (7.7) и (7.8) запишем

После деления всех членов на  и переходя к пределу 0 получим нелинейное уравнение Беллмана в частных производных

  (7.10)

При условиях ; ,

Оптимальное уравнение  определяется в результате решения уравнения (7.10), что в общем случае сделать достаточно сложно. Для внутренней области  условие (7.10) можно заменить уравнениями в частных производных

   (7.11)

Решая эту систему можно определить закон оптимального управления .

Для стационарного объекта управления в (7.11) можно представить в виде

   (7.12)

Пример: определим оптимальный закон управления для предыдущего примера методом динамического программирования:

    (П 7.1)

    (П 7.2)

или       (П 7.3)

где ; ; .

В соответствии с (7.12) для нашего случая будет:

   (П 7.4)

И условие минимума не управляющему воздействию (второе уравнение (7.11)) дает следующее уравнение:

    (П 7.5)

Из (П 7.5) следует

     (П 7.6)

После подстановки (П 7.6) в (П 7.4) получим

Из уравнения получим

   (П 7.7)

Подставляем значение  в (П 7.6) получим оптимальный закон управления

   (П 7.8)

где   – коэффициент обратной связи будет определятся, как

  (П 7.9)

Что совпадает с результатами, полученными в предыдущих примерах.

Наиболее эффективное применение динамического программирования при численном решении уравнения Беллмана. Для этого заменяем дифференциальные уравнения объекта управления (7.3) уравнениям в конечных разностях, т.е. дифференциальные уравнения  заменяем на разность  

    (П 7.9)

, k=1,2,…N – число временных …

Функционал (критерий оптимальности) примет вид

   (П 7.9)

На каждом интервале  считаем  - непостоянной величиной. Таким образом решая рекуррентные уравнения (7.13) находится значения оптимального уравнения на каждом значения оптимального уравнения на каждом интервале : , ,…,, также что  ,  и которые обеспечивают минимум функционала (7.14). при численном решении задача оптимизации на каждом участке решается в обратном порядке -  от конца к началу.

Графически вычислительную процедуру можно в виде пути, который проходит через точку, минимальных значений критерия (7.14) на рис 7.1 представлена оптимальная траектория (экстремаль) x(t). Величина x разбита на интервалы Δx и время t на интервалы Δt. В точках пересечения показаны численные значения приращения функционала ΔJ.

Рис. 7.1. Расчет оптимальной траектории x(t) по минимому приращения функционала.

Минимальное значение функционала достигается при движении по траектории, обозначается при движении по траектории, обозначенной сплошной строкой.


x

1,5

1,3

1,1

0,7

1,8

1,6

1,5

1,2

2,7

2,4

2,1

1,8

 0

 0

1,1

0,8

0,6

0,3

3,5

3,2

2,8

2,3

1,6

1,2

0,8

0,6

X5

Δx

X4

Δx

X3

Δx

X2

Δx

X1

Δx

t1

Δt

t2

Δt

t3

Δt

t4

Δt

t5


 

А также другие работы, которые могут Вас заинтересовать

78644. Структура и сегментирование рынков в маркетинге 30.5 KB
  Углубленное исследование рынка предполагает необходимость ее рассмотрения как дефиринцированной структуры в зависимости от групп потребителей и потребительских свойств товара что в широком смысле определяет понятие рыночной сегментации. Рыночная сегментация представляет собой с одной стороны метод для нахождения частей рынка и определения объектов на которые направлена маркетинговая деятельность предприятия. Под сегментацией понимается разделение рынка на сегменты различающиеся своими параметрами или реакцией на те или иные виды...
78645. Маркетинг: принципы и методы маркетинговых исследований 31.5 KB
  Маркетинговые исследования занимают обычно срединное положение между осознанием необходимости какоголибо решения и его принятием. Принципиальной особенностью маркетингового исследования отличающей его от сбора и анализа внутренней и внешней текущей информации является его целевая направленность на решение определенной проблемы или комплекса проблем маркетинга. В итоге маркетинговые исследования призваны обосновать вид и долю товара фирмы который она намерена представить на определённом рынке. Принцип точности означает четкость постановки...
78646. Товарная политика фирмы и методы ее формирования 32 KB
  Товарная политика это разработка частных стратегий по оценке номенклатуры выпускаемой продукции и движения ее до потребителей соответствующих рынков. Товарная политика составная часть перспективного плана развития производства включающая предварительный выбор номенклатуры продукции некоторые из которых в дальнейшем будут включены в производственный портфель. Разработка товарной политики предусматривает: комплексный анализ возможностей действующих рынков с позиции обеспечения успешной реализации планируемой номенклатуры продукции т....
78647. Диагностика банкротства предприятия 32 KB
  Диагностика банкротства предприятия. Определение банкротства дается в ст. Наличие признаков банкротства: юридическое лицо считается неспособным удовлетворить требования кредиторов по денежным обязательствам и или исполнить обязанность по уплате обязательных платежей если соответствующие обязательства и или обязанность не исполнены им в течение трех месяцев с даты когда они должны были быть исполнены. Одним из методов диагностики вероятности банкротства может быть использован многокритериальный подход.
78648. Методы разработки, обоснования и принятия УР на предприятии 28 KB
  Конечная цель системы менеджмента увеличение массы прибыли за счет повышения конкурентоспособности товара расширения рынка его сбыта и обеспечения устойчивости работы фирмы. Другими словами улучшения финансового состояния фирмы можно достигнуть за счет повышения качества товара чем выше качество тем выше цена реализации политики ресурсосбережения увеличения программы выпуска конкурентоспособного товара организационнотехнического и социального развития фирмы. Любые мероприятия по улучшению этих сторон деятельности отражаются на...
78649. Экономические методы управления 32 KB
  Экономические методы управления. Методы управления совокупность способов и приемов воздействия субъекта управления посредством своей дельности на управляемый объект для достижения поставленной цели. Методы управления классифицируются по многочисленным признакам. Их соотношение отражает характерные черты стиля управления.
78650. Организация антикризисного управления предприятием 47 KB
  Организация антикризисного управления предприятием. Главная задача антикризисного управления выработка наименее рисковых управленческих решений которые позволили бы достичь поставленной цели и результата с минимумом дополнительных средств и при минимальных негативных последствиях. 2 Разработка концепции преодоления кризиса Ниже указаны этапы разработки концепции преодоления кризиса: ознакомление со стратегическим планом развития предприятия для уточнения целей и задач антикризисного управления; налаживание межрегиональных отношений...
78651. Характеристика организационных структур управления 44.5 KB
  Графически чаще всего изображается в виде иерархической диаграммы показывающей состав подчиненность и связи структурных единиц организации. Основы линейных структур составляет так называемый шахтный принцип принцип колодца построения и специализация управленческого процесса по функциональным подсистемам организации маркетинг производство исследования и разработки финансы персонал и т. При этом конечный результат эффективность и качество работы организации в целом становится как бы второстепенным так как считается что все...
78652. Услуги, их специфические черты. Основные виды 34.5 KB
  Услуги их специфические черты. Услуги действия направленные непосредственно на потребителя. Услуги виды деятельности в процессе выполнения которых не создается новый материальновещественный продукт но изменяется качество имеющегося продукта. Услуги блага предоставляемые в форме деятельности.