Громов - СПЕЦИАЛЬНЫЕ РАЗДЕЛЫ ТЕОРИИ УПРАВЛЕНИЯ. Специальные разделы теории управления. Оптимальное управление
Скачать 1.34 Mb.
|
x) – минимальное значение критерия качества (43) на оптимальных траекториях системы (41), начинающихся в точке (t, x) и заканчивающихся в фиксированной точке (t 1 , x 1 ), ∫ ∈ = 1 ) , , ( min ) , ( 0 t t U dt t f t V m u x x u (44) на траекториях (1) из (t, x) в (t 1 , x 1 ). Функция V(t, x) является аналогом «действия» в аналитической механике и «экстремального интеграла» в классическом вариационном исчислении. Если функция V(t, x) существует и является непрерывно дифференцируемой по (t, x), то она удовлетворяет основному уравнению динамического программирования, которое является необходимым и достаточным условием, – дифференциальному уравне- нию в частных производных первого порядка (уравнению Гамильтона–Беллмана) 0 ) , , , ( min = ∂ ∂ + ∂ ∂ ∈ u x x u V t H t V m U (45) с граничным условием 0 ) , ( 1 1 = x t V ; (46) здесь ) , , ( ) , , ( ) , , , ( 0 u x f u x u x x x t V t f V t H + = , (47) где x x ∂ ∂ = V V (см. табл. 2). Уравнение (45) аналогично уравнению Гамильтона–Якоби классического вариационного исчисления – достаточное ус- ловие: 0 ) , , ( = ∂ ∂ + ∂ ∂ x x H V t t V , (48) где функция H получена в результате подстановки в функцию ) , , , ( u x x V t H управления ) , , ( 0 0 x x u u V t = , найденного из условия стационарности этой функции, ) , 1 ( 0 m j u H j = = ∂ ∂ . (49) Из (45) можно определить оптимальный закон управления ∂ ∂ = ∂ ∂ = = ∈ x x u u x x x v u u V t V t H t m U , , , , , min arg ) , ( * * * . (50) Геометрический смысл условия (50) пояснен на рис. 3.8. Если функция V(t, x) найдена путем решения уравнения (45) с условием (46), то проблема синтеза решена, так как для известной функции V(t, x) имеем ) , ( ) , ( , , * * * x v x x x u u t t V t = ∂ ∂ = . (51) Рис. 3.8. Геометрический смысл условия )] , , ( [ min ) , , , ( min u x u x x u x u t f V V t H m m U U ∈ ∈ = : , 0 , 2 , )], ( [ min ) , ( 0 = = = ∂ ∂ = = ∈ f m n V V t u J t V m U x x x u * x& – оптимальная фазовая скорость: ) , , ( * * u x f x t = & ; u * (t, x) – оптимальное управление: ) , , , ( min arg * u x u x u V t H m U ∈ = ; x * – оптимальная траектория Подобно тому, как принцип максимума Понтрягина придает удобную форму и уточняет условие Вейерштрасса (см. п. 9.3) для основной задачи оптимального программного управления в случае замкнутой области значений управления m U , так и уравнение Гамильтона–Беллмана является уточнением и обобщением уравнения Гамильтона–Якоби. Уточнение состоит в том, что вместо условия стационарности 0 = ∂ ∂ u H там, где оно не отвечает существу дела, в (45) используется условие ∂ ∂ ∈ u x x u , , , min V t H m U В приведенном условии (45) требование непрерывной дифференцируемости (гладкости) функции V(t, x) является суще- ственным. Но в отличие от принципа максимума, где утверждается существование необходимой для него вектор-функции ) (t λ , существование гладкого потенциала V(t, x) в методе динамического программирования не доказывается. Это снижает ценность необходимого условия (45), так как для негладкой функции V(t, x) трудно сохранить необходимость его в полном объеме. 5.3. Ослабленное необходимое условие Уточненное необходимое условие для основной задачи оптимального координатного управления на основе принципа оптимальности, частично свободное от требования непрерывной дифференцируемости функции V(t, x), формулируется сле- дующим образом. Формулировка задачи . Пусть краевые условия имеют вид 0 )) ( , ( ; ) ( 1 1 0 0 = = t t t x q x x . (52) Минимизируемый функционал имеет вид dt t f t t t J t t ) , , ( )) ( , ( ] , , [ 2 1 0 1 1 0 0 u x x u x ∫ + Φ = (53) и определен на траекториях системы (41) с управлением ) , ( ) ( x u t U t m ∈ Закон управления v(t, x) считается допустимым, если u(t) = v(t, x(t)), ) , ( )) ( , ( x x v t U t t m ∈ , и является кусочно- непрерывным. Если управление u = u*(t), 1 0 t t t ≤ ≤ доставляет минимум функционалу J, то ему соответствует оптимальная траектория x * (t). Пусть ) 54 ( )) ( ), ( , ( )) ( , ( ) , , ( )) ( , ( min ) , ( * 1 0 1 0 * * 0 * 1 * 1 0 1 1 0 0 dt t t t f t t dt t f t t t V t t t t U m ∫ ∫ + Φ = = + Φ = ∈ u x x u x x x u Тогда ∫ + Φ ≤ 1 0 )) ( ), ( , ( )) ( , ( ) , ( 0 1 1 0 0 t t dt t t t f t t t V u x x x , где u(t) произвольно. Необходимые условия . Предполагается, что искомое оптимальное управление u* = v * (t, x) существует. Тогда можно ус- тановить необходимые условия для основной задачи оптимального координатного управления. Пусть в области G пространства состояний n X выполняются следующие условия. 1. Для G x ∈ в момент t функция ∑ = ∂ ∂ + = ∂ ∂ n i i i t f x V t f V t H 1 0 ) , , ( ) , , ( , , , u x u x u x x имеет абсолютный минимум по u, т.е. ) , , ( min * x u x V t H H = при ) , , ( ) , ( * * * x x u x v u V t t = = по всем допустимым ) , ( ) ( x u t U t m ∈ , где x x ∂ ∂ = V V – градиент V(t, x). 2. Решение x(t) системы (41) существует и является непрерывной функцией для всех допустимых ) , ( ) ( x u t U t m ∈ 3. Функция ) , , ( 0 u x t f непрерывна по t. 4. Функция t V t V t ∂ ∂ = ) , ( x непрерывна по t и x; вектор-функции ) , ( x x t V и f(t, x, u) либо непрерывны по t и x, либо имеют равные левый и правый пределы для скалярного произведения f x V вдоль любой траектории x(t) системы (41): ))] ( ), ( , ( ) , ( [ lim ))] ( )), ( , ( ) , ( [ lim 0 0 0 0 t t t t V t t t t V t t t t u x f x u x f x x x − → + → = 5. Существует оптимальное движение для каждого начального G x ∈ 0 в некоторое состояние, удовлетворяющее усло- вию 0 ) , ( 1 1 = x q t , и причем такое, что траектория не выходит из G. 6. Каждая точка в G, не удовлетворяющая условию q(t, x) = 0, имеет окрестность, целиком лежащую в G. Тогда функция V(t, x) в области G удовлетворяет уравнению Гамильтона–Беллмана 0 )) ( ), ( , ( min 0 = + ∈ t t t f dt dV m U u x u u , (55) или 0 )) , ( , , ( ) , ( ) ), , ( , , ( min ) , ( ) , , ( ) , , ( ) , ( ) , ( min * 0 = + ∂ ∂ = = + ∂ ∂ = = + + ∂ ∂ ∈ ∈ x x x u x x x u x u x f x x x x u x u t V t H t t V t V t H t t V t f t t V t t V m m U U (55') с граничным условием ) , ( ) , ( x x t t V Φ = (55") на гиперповерхности q(t, x) = 0. Здесь обозначено ) ), , ( , , ( min )) , ( , , ( * u x x x x x u x t V t H t V t H m U ∈ = ; u dt dV – полная производная вдоль траектории, реализуемой под действием управления u. Так как при известной функции V(t, x) ) , ( * )) , ( , , ( min arg * * x v x x u u x u t t V t H m U = = = ∈ , то найденное решение V(t, x) уравнения (55) одновременно дает решение проблемы синтеза оптимального закона управле- ния. З а м е ч а н и я . 1. Требование 4 влечет за собой непрерывность функций u dt dV и V(t, x) по времени t. 2. Когда x V V t , и i f непрерывны по t и x, уравнение (55) представляет собой уравнение Гамильтона–Якоби. Общая последовательность действий, которой целесообразно придерживаться при решении задачи синтеза оптимально- го закона управления методом динамического программирования, представлена в табл. 2. 2. Последовательность действий при использовании метода динамического программирования Шаг Последовательность действий 1 Образуется функция H, в которой сопряженные перемен- ные i λ заменяются на компоненты вектора ∂ ∂ ∂ ∂ ∂ ∂ = = = n x x t V x t V x t V V t V d dV ) , ( ,..., ) , ( , ) , ( ) , ( grad 2 1 x x x x x x , т.е. ) , , ( ) , , ( ) , , , ( 0 u x u x f u x x x t f t V V t H + = 2 Минимизируется ) , , , ( x u x V t H по m U ∈ u и находится явная зависимость управления u * от компонент вектора x V : ) , , , ( min arg ) , , ( * * x u x u x x u u V t H t V m U ∈ = = 3 Находится минимальное значение H * путем подстановки в H значения ) , , ( * x x u V t : ) ), , , ( , , ( ) , , ( * * x x x x u x x V V t t H V t H = 4 Решается дифференциальное уравнение в частных производных Гамильтона–Беллмана 0 ) , , ( * = ∂ ∂ + t V V t H x x с соответствующим граничным условием для функции V(t, x) ) , ( ) , ( x x t t V Φ = на гиперповерхности q(t, x) = 0 5 Подставляя результаты шага 4 в выражение для ) , , ( * x x u V t , получаем закон управления с обратной связью ∂ ∂ = = x x x u x v u ) , ( , , ) , ( * * * t V t t 5.4. Сводка общих процедур метода динамического программирования для вычисления оптимального закона управления u * = v * (t, x) П р и м е р 2. Синтез оптимального закона управления для линейной системы с квадратичным критерием качества. Про- блема аналитического конструирования оптимальных автопилотов. Пусть нестационарная линейная система описывается векторным линейным дифференциальным уравнением ) ( ) ( ) ( t C t B t A f u x x + + = & (I) с начальным условием 1 0 0 ; ) ( t t t t ≤ ≤ = x x , (II) где 1 t – фиксировано; 0 0 , x t – известные величины (которые, однако, специально не выбираются), и пусть критерий качест- ва имеет вид ) III ( ) ) ( ) ( ) ( ) ( ( 2 1 ) ( ) ( ) ( 2 1 ] [ 1 0 1 1 1 1 1 ∫ + + + + + + + + + = t t T dt t P t N t N t Q t t t R J |