![]() Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
![]() Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
![]() |
Принцип оптимальности и рекуррентные соотношения Беллмана ⇐ ПредыдущаяСтр 7 из 7
Принцип оптимальности был сформулирован Беллманом в 1953г. Сформулируем его так, как было предложено Венцель (несколько отличным образом). Рассмотрим n-й последний шаг: Sn-1 состояние системы к началу n-ого шага, Sn – конечное состояние, Хn – управление на n-ом шаге, а fn (Sn-1, Xk) – целевая функция (или как еще говорят – выигрыш) n-ого шага. Согласно принципу оптимальности, Хn нужно выбирать так, чтобы для любых состояний Sn-1 получить максимум (или минимум – ограничимся задачей на максимум – это не принципиально) целевой функции на этом шаге. Каково бы ни было состояние S системы в результате какого-либо шагов, на ближайшем шаге нужно выбирать управление так, чтобы оно в совокупности с оптимальным управлением на всех последующих шагах приводило к оптимальному выигрышу на всех оставшихся шагах, включая данный. Принцип оптимальности утверждает, что для любого процесса без обратной связи оптимальное управление таково, что оно является оптимальным для любого подпроцесса по отношению к исходному состоянию этого процесса. Поэтому решение на каждом шагу оказывается наилучшим с точки зрения управления в целом. Рекуррентные соотношения Беллмана. Вместо исходной задачи с фиксированным числом шагов n и начальным состоянием S0 рассмотрим последовательность задач, полагая последовательно n = 1, 2, … при различных S – одношаговую, двухшаговую, и т.д. – используя принцип оптимизации. На каждом шаге для любого состояния системы Sk-1 решениеХk (управление) нужно выбирать «с оглядкой», так как этот выбор влияет на последующее состояние Sk и дальнейший процесс управления, зависящий от Sk. Но есть один шаг, последний, который может для любого состояния Sn-1 планировать локально-оптимально, исходя только из соображений этого последнего шага.
Обозначим через
![]()
Максимизация ведется по всем допустимым управлениям Хn. Решение Хn, при котором достигается Решив одномерную задачу локальной оптимизации по уравнению (1), найдем для всех возможных состояний Sn-1 две функции Рассмотрим теперь двух шаговую задачу: присоединим к n-ому шагу (n-1) ша. Для любых состояний Sn-2, произвольных уравнений Хn-1 и оптимальном уравнении на n-ом шаге значение целевой функции на двух последних шагах равно fn-1 (Sn-2, Xn-1) + согласно принципу оптимальности для любого Sn-2 решение нужно выбирать так, чтобы оно вместе с оптимальным управлением на последнем n-ом шаге приводило бы к максимуму целевой функции на двух последних шагах. Следовательно, нужно найти максимум выражения (2) по всем допустимым управлениям Xn-1. Максимум этой суммы зависит от Sn-2, обозначается
Соотношение управления Xn-1 на (n-1) – шаге обозначается
![]() ![]() Следует обратить внимание на то, что выражение в фигурных скобках зависит только от Sn-2 и Xn-1, т.к. Sn-1 можно найти из уравнения состояний при k=n-1 Sn-1 = φn-1 (Sn-2, Xn-1) В результате максимизации по переменной Xn-1 согласно уравнению (3) вновь получаем две функции:
Далее рассматривается трех шаговая задача: к двум последним шагам присоединяется (n-2) шаг и т.д. Выражение (3) можно обобщить следующим образом. Обозначим через 1. n-k+1 = n-n+1+1=2 – тогда 2. k=n-2 n-n+2+1 = 3 – на трех последних шагах 3. k=1 n-1+1 = n - на n последних шагах. Итак по аналогии: для любых состояний Sk-1, произвольном управлении Хk и оптимальном уравнении на последующих (n-k) – шагах значение целевой функции на последних (n-k+1) – шагах равно fk (Sk-1, Xk) + Максимум этой суммы зависит от Sk-1 и обозначается
![]() ![]()
k=n-1, n-2, ….., 2, 1 управление Xk на k-ом шаге, при котором достигается максимум (**) при k=n
![]()
k=n-1, n-2, ….., 2, 1 Управление Xk на k-ом шаге, при котором достигается максимум (4), обозначается Уравнения (4) называются рекуррентными соотношениями Беллмана. Эти соотношения позволяют найти предыдущее значение функции, зная последующее. Если из (1) найти Процесс решения уравнений (1) и (4) называется условной оптимизацией. В результате условной оптимизации получаются две последовательности
При этом набор значений для разных возможных значений Sn-1
Используя эти последовательности, можно найти решение задачи динамического программирования при данных n и S0. По определению Далее следует последовательность условных оптимальных управлений и уравнений состояний. При фиксированном S0 получаем Далее из уравнений состояний находим В последовательность условных оптимальных управлений
В результате получаем оптимальное решение задачи динамического программирования:
Date: 2016-02-19; view: 1102; Нарушение авторских прав |