32232

Связь между принципами максимумами и динамическим программированием

Лекция

Информатика, кибернетика и программирование

17 является скалярным произведением векторов Ψ и X: Н = ψ 8. Вектор касателен к траектории t и нормален к векторам ψ и –ψ что определяет оптимальный процесс перехода из в . Максимальное быстрое уменьшение J будет происходить очевидно что если вектор скорости Хточка в направлении убывании убывание J будет максимальным. Для обеспечения этого необходимо чтобы проекция вектора скорости движения изображающей точки Хточка на вектор отрицательной нормалям к поверхности J...

Русский

2013-09-04

359.5 KB

3 чел.

Лекция №8

Связь между принципами максимумами и динамическим программированием

Величина функции Гамильтона согласно (6.17) является скалярным произведением  векторов Ψ и X:

Н = <ψ, >                            (8.1)

Функция Беллмана (7.4) представляет определенное значения критерия оптимальности для определенного момента времени t1. Следовательно, в пространстве состояния объекта  управления или, в частности, как показано на рис. 8.1, на фазовой плоскости, можно представить изменения критерия  J в виде линий равного уровня, составляющие конкретные значения функции Беллмана S.

Рис. 8.1. Геометрическая интерпретация на фазовой плоскости определения       оптимальной траектории изменения состояния объекта управления

Геометрическая интерпретация  принципа максимума и динамического  программирования представляется следующим образом. Вектор  касателен к траектории (t) и нормален к векторам ψ и –ψ, что определяет оптимальный процесс  перехода из в . Оптимальная траектория изменения состояния объекта управления из начального состояния ={, } в конечное  ={, }должна быть направлено в сторону убывания критерия  J.

Если изображающая точка состояния объекта будет двигаться вдоль линии равного уровня то J не будет меняться. Максимальное быстрое уменьшение  J будет происходить, очевидно, что если вектор скорости Х(точка) в направлении убывании убывание J будет максимальным. Для обеспечения этого необходимо, чтобы  проекция вектора скорости  движения изображающей точки Х(точка) на вектор отрицательной нормалям к поверхности J (или перпендикулярен к линии равного уровня J) была максимальной  (см. рисунок 7.1)

Компоненты вектора ψ={ } определяется из системы уравнений (6.18) и из аналогичной системы (7.11). Следовательно, вектор равен градиенту с отрицательным знаком функции Беллмана, так как                                     (8.2)

Или учитывая соотношение (7.4) можно записать, что

                            .                                    (8.3)

Следовательно,

                                     S                            (8.4)

Таким образом, вектор  определяет направление максимальной скорости уменьшения критерия оптимальности  J, т.е. – является нормалью к поверхностям равного уровня функционала (критерия) J.

Из этого следует, что векторное произведение (8.1) будет максимальным, а значит управления оптимальным по критерию J, если проекция вектора скорости  на нормаль –  будет максимальная, т.е нулевой. Следовательно, вектора   и   должны быть ортогональным. Этим определяется экстремаль и оптимальное управление  (x).

Уравнение Беллмана  (7.12) можно так же записать в виде векторного произведения

,                   (8.5)

где                                                      (8.6)    

                             = f (X,U) – уравнение динамики объекта управления.

Выражение (8.6) предоставляет градиент функции S на X. Следовательно, выражение (8.5) можно представить как

Расширим  вектор столбец (8.6) на один элемент, равный единица и обозначим его   

                        (8.8)

Учитывая, что минимум положительной функции равен отрицательной величине максимальное значения, уравнение (7.12) можно записать в следующем виде:

.               (8.9)

Составляя полученное выражение (8.9) с условием (6.20) принципа максимума, можно убедиться, что они идентичны, если вектор  отожествляется с вектором . Это значит, что

.           (8.10)

Т.е.        – .                                                         (8.11)

Эти выражения геометрически интерпретируются на рис 8.1, как нормаль и поверхностям равного уровня S. Т.е. между методом Эйлера-Лагранжа принципами максимума и динамическим программированием существует тесная связь. Это продемонстрировано и решением примеров по определению оптимального управления для объекта  .


 

А также другие работы, которые могут Вас заинтересовать

39977. Различия между семействами операционных систем Windows для рабочих станций 200.82 KB
  Различия между семействами операционных систем Windows для рабочих станций Рабочая станция Рабо́чая ста́нция англ. Microsoft Windows Все версии традиционно делятся на 4 группы: 16ти разрядные расширения MSDOS – 1.0 windows 2.11 с 1986 по 1997 Windows9x с остатками MSDOS – win95 98 ME с 1995 по 2003 WindowsNT современная линейка для ПК – NT3.
39978. Методы увеличения вычислительной производительности 92.37 KB
  Однако процесс обработки команд и данных нельзя нашинковать в произвольных местах на любое число кусков хотя авторы последних модификаций Pentium 4 сделали такую попытку получив в результате очень горячий и высокочастотный но умеренно производительный процессор. При возникновении в программе любого ветвления что по статистике происходит каждые 710 команд специальная схема предсказатель переходов первая стадия конвейера должна за 1 такт сообразить сработает ли этот переход и если да то куда при том что данные для...
39979. Сервер (аппаратное обеспечение) 56.21 KB
  Консоль обычно монитор клавиатура мышь и участие человека необходимы серверам только на стадии первичной настройки при аппаратнотехническом обслуживании и управлении в нештатных ситуациях штатно большинство серверов управляются удаленно. Надёжность Серверное оборудование зачастую предназначено для обеспечения работы сервисов в режиме 24 7 поэтому часто комплектуется дублирующими элементами позволяющими обеспечить пять девяток 99999 ; время недоступности сервера или простой системы составляет менее 6 минут в год. Повышение...
39980. Общие средства повышения надежности 22.51 KB
  Общие средства повышения надежности Надежность это вероятность безотказной работы какоголибо устройства в течение заданного срока службы. Эту вероятность они называют надежностью. Для оценки важности понятия надежность нам придется вести довольно тривиальный разговор о сложности мира машин и приборов. Надежность машин зависит от множества причин: и от материалов используемых для их изготовления и от станочного оборудования и от условий эксплуатации и от заводского контроля и от мастерства рабочих и конечно от конструкторских идей...
39981. Многопроцессорные системы 31.16 KB
  Термин также относится к способности системы поддержать больше чем один процессор и или способность распределить задачи между ними. Комбинация конструктивных соображений программного обеспечения аппаратной и операционной системы определяет симметрию или отсутствие её в данной системе. Часто многопроцессорные системы проще проектировать если введены такие ограничения но они имеют тенденцию быть менее эффективными чем системы в которых используются все центральные процессоры.
39982. Наиболее востребованные уровни RAID (0,1,5,10) 221.4 KB
  Наиболее востребованные уровни RID 01510. RID 0 надежность с увеличением дисков снижается. RID 1 – вся информация которая хранится на основном диск – дублируется на резервный. RID 01 – совмещение 1 и 0 уровней.
39983. Закон Мура в применении к СКС 47.01 KB
  Gigbit Ethernet возник в ответ на потребность во все больших и больших скоростях передачи данных. Gigbit Ethernet является дальнейшим развитием стандартов Ethernet и Fst Ethernet которые уже хорошо зарекомендовали себя за почти двадцатилетнюю историю. Он быстрее в первого из них в 100 и второго в 10 раз соответственно а теоретическая пропускная способность gigbit Ethernet достигает 1000 Мбит сек что приблизительно равно 120 МБайтам в секунду то есть вплотную приближается к скорости 32битной шины PCI 33 МГц. Технология обладает обратной...
39984. Кластер (группа компьютеров) 74.59 KB
  Обычно различают следующие основные виды кластеров: отказоустойчивые кластеры Highvilbility clusters H кластеры высокой доступности кластеры с балансировкой нагрузки Lod blncing clusters вычислительные кластеры High perfomnce computing clusters Гридвычисления Содержание 1 Классификация кластеров 1.1 Кластеры высокой доступности 1.2 Кластеры распределения нагрузки 1.3 Вычислительные кластеры 1.
39985. Функции шифрования пароля в Unix и Windows 24.56 KB
  Поле пароль x будет содержать либо реальный зашифрованный пароль либо его обозначение как в данном примере. При регистрации в системе UNIX программа getty требует ввести имя пользователя и запускает программу входа в систему а та в свою очередь запрашивает пароль но не декодирует его. Фактически программа bin login шифрует пароль введенный пользователем а затем сравнивает полученное значение с тем которое хранится в etc psswd. Если данные совпадают то пароль был введен правильно.