Программа дисциплины (syllabus) (стр. 7 )

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

(1)

Равенства (16.1) получили название уравнений состояний.

Рисунок 1.

Варьируя управление U, получим различную эффективность процесса, которую будем оценивать количественно целевой функцией

. (2)

Показатель эффективности k-го шага процесса управления, который зависит от состояния в начале этого шага и управления , выбранного на этом шаге, обозначим через . В рассматриваемой задаче пошаговой оптимизации целевая функция (2) полагается аддитивной, т. е.

(3)

Обычно условиями процесса на управление на каждом шаге накладываются некоторые ограничения. Управления, удовлетворяющие этим ограничениям, называются допустимыми.

Задачу пошаговой оптимизации можно сформулировать следующим образом. Определить совокупность допустимых управлений , переводящих систему из начального состояния в конечное состояние и максимизирующих или минимизирующих показатель эффективности (3). В дальнейшем будем рассматривать задачу на максимум.

Начальное состояние и конечное состояние могут быть заданы однозначно или могут быть указаны множество начальных состояний и множество конечных состояний так, что , . В последнем случае в задаче пошаговой оптимизации требуется определить совокупность допустимых управлений, переводящих систему из начального состояния в конечное состояние и максимизирующих целевую функцию (3). Управление, при котором достигается максимум целевой функции (3), называется оптимальным управлением и обозначается через .

Принцип оптимальности. Уравнение Беллмана

Метод динамического программирования состоит в том, что оптимальное управление строится постепенно. На каждом шаге оптимизируется управление только этого шага. Вместе с тем на каждом шаге управление выбирается с учетом последствий, так как управление, оптимизирующее целевую функцию только для данного шага, может привести к неоптимальному эффекту всего процесса. Управление на каждом шаге должно быть оптимальным с точки зрения процесса в целом.

НЕ нашли? Не то? Что вы ищете?

Каково бы ни было начальное состояние системы перед очередным шагом, управление на этом этапе выбирается так, чтобы выигрыш на данном шаге плюс оптимальный выигрыш на всех последующих шагах был максимальным.

Так, если система в начале k-го шага находится в состоянии и мы выбираем произвольное управление , то она придет в новое состоя-

ние , и последующие управления должны выбираться оптимальными относительно состояния . Последнее означает, что при этих управлениях максимизируется величина , т. е. показатель эффективности на последующих до конца процесса шагах . Обозначим через .

Выбрав оптимальное управление на оставшихся шагах, получим величину , которая зависит только от , т. е.

Назовем величину условным максимумом. Если мы теперь выберем на k-м шаге некоторое произвольное управление , то система придет в состояние (рис. 2). Согласно принципу оптимальности, необходимо выбирать управление так, чтобы оно в совокупности с оптимальным управлением на последующих шагах (начиная с -го) приводило бы к общему показателю эффективности на шагах, начиная с k-го и до конца. Это положение в аналитической форме можно записать в виде следующего соотношения:

, (4)

получившего название основного функционального уравнения динамического программирования, или основного рекуррентного уравнения Беллмана.

Рисунок 2.

Из уравнения (16.4) может быть получена функция , если известна функция . Аналогично можно получить , если найдена и т. д., пока не будет определена величина , представляющая по определению максимальное значение показателя эффективности процесса в целом:

Решая уравнение (16.4) для определения условного максимума показателя эффективности за шагов, начиная с k-го, мы определяем соответствующее оптимальное управление , при котором этот максимум достигается. Это управление также зависит от ; будем обозначать его через и называть условным оптимальным управлением на k-м шаге. Основное значение уравнения (4), в котором реализована идея динамического программирования, заключается в том, что решение исходной задачи определения максимума функции (3) n переменных сводится к решению последовательности n задач, задаваемых соотношениями (4), каждое из которых является задачей максимизации функции одной переменной .

В результате последовательного решения n частных задач на условный максимум определяют две последовательности функций: – условные максимумы и соответствующие им – условные оптимальные управления. Указанные последовательности функций в дискретных задачах получают в табличной форме, а в непрерывных моделях – аналитически. После выполнения первого этапа (условной оптимизациии) приступают ко второму этапу – безусловной оптимизации.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13

НЕ нашли? Не то? Что вы ищете?

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Программа дисциплины (syllabus) (стр. 7 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Принцип оптимальности. Уравнение Беллмана

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы