Партнерка на США и Канаду по недвижимости, выплаты в крипто
- 30% recurring commission
- Выплаты в USDT
- Вывод каждую неделю
- Комиссия до 5 лет за каждого referral
И. Ю. ПОДОГОВ
Московский энергетический институт (технический университет)
МЕТОДЫ ПОДКРЕПЛЁННОГО ОБУЧЕНИЯ
ДЛЯ СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ РЕАЛЬНОГО ВРЕМЕНИ
В работе рассматриваются основные проблемы, связанные с использованием методов подкреплённого обучения в системах поддержки принятия решений реального времени, а также описываются подходы к решению этих проблем: приближение оценочной функции, использование памяти, иерархическое обучение и пассивное обучение.
Подкреплённое обучение (Reinforcement Learning, RL) представляет класс задач, в которых автономный агент, действуя в определенной среде, должен найти оптимальную стратегию (политику) взаимодействия с ней. Информация для обучения агента предоставляется в форме «награды» (простого скалярного платежа), имеющей определенное количественное значение для каждого перехода среды из одного состояния в другое. Никакой другой дополнительной информации для обучения агенту не предоставляется. Задача агента, таким образом, сводится к максимизации суммарного платежа (возможно, дисконтированного со временем).
Данная работа рассматривает основные подходы, позволяющие применять методы подкреплённого обучения в системах поддержки принятия решений реального времени (СППР РВ).
Базовая модель подкреплённого обучения предполагает, что мир может быть описано набором состояний S, что агент может выполнять фиксированный набор действий A, и что после выполнения действия в заданном состоянии среда предоставляет агенту выплату
. Эта выплата отражает, насколько хорошо, в весьма локальном смысле, выполнять это действие в данном состоянии. Агент делает наблюдения своих взаимодействий с миром в форме кортежей
, соответствующих состоянию, выбранному в нём действию, наблюдаемой выплате и результирующему состоянию агента.
При взаимодействии со средой агент пользуется некоторой внутренней стратегией, которая со временем может изменяться и адаптироваться, чтобы в конечном итоге для любого момента времени максимизировать, так называемый возврат среды, т. е. дисконтированную сумму платежей, получаемых агентом с текущего момента (при этом более далёкие в будущем выплаты включаются в эту сумму с меньшим весом).
Один из самых простых и популярных подходов к решению задач подкреплённого обучения заключается в нахождении и поддержании оценочной функции состояний и действий Q(s,a), которая приближает ожидаемый возврат для текущего состояния после выполнения каждого из действий. Как только оценочная функция получена, определяемая ей стратегия (известная как жадная стратегия) получается простым выбором действия с максимальной оценкой для данного состояния.
Такой подход, хотя и является простым и универсальным, а также доказано сходящимся к оптимальной стратегии при (в пределе) бесконечном повторении всех состояний среды, является, тем не менее, слабо применимым при использовании в системах реального времени.
Предлагаются следующие приёмы улучшения скорости и качества обучения:
· коннекционистское подкреплённое обучение (использование нейронной сети, для применимости в вещественных пространствах состояний);
· обучение на основе информации о предыстории процесса (методы для агента с кратковременной памятью, для учёта контекста состояния);
· иерархический подход, позволяющий использовать подкреплённое обучение в сложноструктурированных задачах большой размерности;
· двухфазное обучение для передачи агенту имеющейся информации и знаний эксперта на ранних стадиях обучения.
Все эти подходы были реализованы в рамках единого программного комплекса подкреплённого обучения. Такая система обладает достаточной вычислительной силой для решения в реальном времени сложных иерархичных задач подкреплённого обучения с (возможно непрерывным) пространством состояний и возможностью перенятия опыта эксперта.
Список литературы
1. , , Шутова принятия решений в условиях неопределённости на основе немарковской модели. Изв. РАН. Теория и система управления, 1999, №5. С. 87-93.
2. Hasinoff S. Reinforcement Learning for Problems with Hidden State, Technical Report, University of Toronto, Department of Computer Science. 2003.
tton R. and Barto A. Reinforcement Learning: An Introduction. MIT Press. 1998.
4. Hernandez-Gardiol N., Mahadevan S. Hierarchical memory-based reinforcement learning. Advances in Neural Information Processing Systems 13, 2000.


