32232

Связь между принципами максимумами и динамическим программированием

Лекция

Информатика, кибернетика и программирование

17 является скалярным произведением векторов Ψ и X: Н = ψ 8. Вектор касателен к траектории t и нормален к векторам ψ и –ψ что определяет оптимальный процесс перехода из в . Максимальное быстрое уменьшение J будет происходить очевидно что если вектор скорости Хточка в направлении убывании убывание J будет максимальным. Для обеспечения этого необходимо чтобы проекция вектора скорости движения изображающей точки Хточка на вектор отрицательной нормалям к поверхности J...

Русский

2013-09-04

359.5 KB

2 чел.

Лекция №8

Связь между принципами максимумами и динамическим программированием

Величина функции Гамильтона согласно (6.17) является скалярным произведением  векторов Ψ и X:

Н = <ψ, >                            (8.1)

Функция Беллмана (7.4) представляет определенное значения критерия оптимальности для определенного момента времени t1. Следовательно, в пространстве состояния объекта  управления или, в частности, как показано на рис. 8.1, на фазовой плоскости, можно представить изменения критерия  J в виде линий равного уровня, составляющие конкретные значения функции Беллмана S.

Рис. 8.1. Геометрическая интерпретация на фазовой плоскости определения       оптимальной траектории изменения состояния объекта управления

Геометрическая интерпретация  принципа максимума и динамического  программирования представляется следующим образом. Вектор  касателен к траектории (t) и нормален к векторам ψ и –ψ, что определяет оптимальный процесс  перехода из в . Оптимальная траектория изменения состояния объекта управления из начального состояния ={, } в конечное  ={, }должна быть направлено в сторону убывания критерия  J.

Если изображающая точка состояния объекта будет двигаться вдоль линии равного уровня то J не будет меняться. Максимальное быстрое уменьшение  J будет происходить, очевидно, что если вектор скорости Х(точка) в направлении убывании убывание J будет максимальным. Для обеспечения этого необходимо, чтобы  проекция вектора скорости  движения изображающей точки Х(точка) на вектор отрицательной нормалям к поверхности J (или перпендикулярен к линии равного уровня J) была максимальной  (см. рисунок 7.1)

Компоненты вектора ψ={ } определяется из системы уравнений (6.18) и из аналогичной системы (7.11). Следовательно, вектор равен градиенту с отрицательным знаком функции Беллмана, так как                                     (8.2)

Или учитывая соотношение (7.4) можно записать, что

                            .                                    (8.3)

Следовательно,

                                     S                            (8.4)

Таким образом, вектор  определяет направление максимальной скорости уменьшения критерия оптимальности  J, т.е. – является нормалью к поверхностям равного уровня функционала (критерия) J.

Из этого следует, что векторное произведение (8.1) будет максимальным, а значит управления оптимальным по критерию J, если проекция вектора скорости  на нормаль –  будет максимальная, т.е нулевой. Следовательно, вектора   и   должны быть ортогональным. Этим определяется экстремаль и оптимальное управление  (x).

Уравнение Беллмана  (7.12) можно так же записать в виде векторного произведения

,                   (8.5)

где                                                      (8.6)    

                             = f (X,U) – уравнение динамики объекта управления.

Выражение (8.6) предоставляет градиент функции S на X. Следовательно, выражение (8.5) можно представить как

Расширим  вектор столбец (8.6) на один элемент, равный единица и обозначим его   

                        (8.8)

Учитывая, что минимум положительной функции равен отрицательной величине максимальное значения, уравнение (7.12) можно записать в следующем виде:

.               (8.9)

Составляя полученное выражение (8.9) с условием (6.20) принципа максимума, можно убедиться, что они идентичны, если вектор  отожествляется с вектором . Это значит, что

.           (8.10)

Т.е.        – .                                                         (8.11)

Эти выражения геометрически интерпретируются на рис 8.1, как нормаль и поверхностям равного уровня S. Т.е. между методом Эйлера-Лагранжа принципами максимума и динамическим программированием существует тесная связь. Это продемонстрировано и решением примеров по определению оптимального управления для объекта  .


 

А также другие работы, которые могут Вас заинтересовать

22349. Формула Коши и теорема о среднем 821.5 KB
  Пусть функция аналитична в связной области и непрерывна в . Тогда для любой внутренней точки этой области имеет место так называемая формула Коши: 1 где граница области проходимая так что область остается всё время слева. Таким образом формула Коши позволяет вычислить значение аналитической функции в любой точке области если известны граничные значения этой функции. Выбросим из области кружок радиусом с центром в точке и заметим что в полученной...
22351. Теоремы Лиувилля и Мореры 98 KB
  По определению аналитическая функция – это функция комплексной переменной обладающая производной в каждой точке некоторой области D. Если функция fz аналитична в области D и непрерывна в то она обладает в каждой точке D производными всех порядков причем n я производная представляется формулой 1 где C – граница области D. По определению производной и формуле Коши имеем: Но очевидно что при функция равномерна для всех на C стремиться к и следовательно по теореме 2 предыдущей лекции для случая семейства функций...
22352. Представление аналитических функций рядами 464 KB
  Ряды Тейлора. при каких условиях функция представима своим рядом Тейлора с центром в точке : 4 даёт Теорема 1 Коши. Функция представима своим рядом Тейлора 4 в любом открытом круге с центром в точке в котором она аналитична.
22353. Ряды Лорана 269.5 KB
  Поэтому обе формулы можно объединить в одну: 7 Полученное разложение 6 функции fz по положительным и отрицательным степеням za с коэффициентами определяемыми по формулам 7 называется лорановским разложением функции fz с центром в точке a; ряд 2 называется правильной а ряд 4 – главной частью этого разложения. и в нашем рассуждении могут быть взяты сколь угодно близкими к r и R а q может сколь угодно мало отличаться от 1 то разложение 6 можно считать справедливым для...
22354. Примеры особых точек 2.06 MB
  Функции имеют в начале координат устранимую особую точку. Функции имеют начале координат существенную особую точку. Проверим справедливость теоремы Сохоцкого для функции . Целые функции.
22355. Бесконечно удаленная точка 682.5 KB
  Пусть функция аналитична в некоторой окрестности бесконечно удаленной точки кроме самой точки . В этом случае функция очевидно ограничена и в некоторой окрестности точки . Пусть функция аналитична в полной поскости. Но тогда функция ограничена во всей плоскости: для всех имеем .
22356. Приложение теории вычетов 797 KB
  Напомним что мероморфной называется функция fz все конечные особые точки которой являются полюсами. в любой ограниченной области такая функция может иметь лишь конечное число полюсов то все ее полюсы можно пронумеровать например в порядке не убывания модулей: Будем обозначать главную часть fz в точке т. Если мероморфная функция fz имеет лишь конечное число полюсов и кроме того является либо правильной регулярной ее точкой либо полюсом то эта функция представляется в виде суммы своих главных частей 3 и...
22357. Обращение степенных рядов 217.5 KB
  Выберем число столь малым чтобы в круге функция обращалась в нуль только в точке . Каждое значение из круга функция принимает в круге только один раз. В самом деле на окружности выполняется неравенство и по теореме Руше функция имеет в круге столько же нулей сколько и функция т. Итак пусть тот круг в котором функция принимает каждое значение ровно один раз а область плоскости ограниченная кривой кривая является простой кривой т.