Методы подкреплённого обучения для систем поддержки принятия решений реального времени

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

И. Ю. ПОДОГОВ

Московский энергетический институт (технический университет)

МЕТОДЫ ПОДКРЕПЛЁННОГО ОБУЧЕНИЯ

ДЛЯ СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ РЕАЛЬНОГО ВРЕМЕНИ

В работе рассматриваются основные проблемы, связанные с использованием методов подкреплённого обучения в системах поддержки принятия решений реального времени, а также описываются подходы к решению этих проблем: приближение оценочной функции, использование памяти, иерархическое обучение и пассивное обучение.

Подкреплённое обучение (Reinforcement Learning, RL) представляет класс задач, в которых автономный агент, действуя в определенной среде, должен найти оптимальную стратегию (политику) взаимодействия с ней. Информация для обучения агента предоставляется в форме «награды» (простого скалярного платежа), имеющей определенное количественное значение для каждого перехода среды из одного состояния в другое. Никакой другой дополнительной информации для обучения агенту не предоставляется. Задача агента, таким образом, сводится к максимизации суммарного платежа (возможно, дисконтированного со временем).

Данная работа рассматривает основные подходы, позволяющие применять методы подкреплённого обучения в системах поддержки принятия решений реального времени (СППР РВ).

Базовая модель подкреплённого обучения предполагает, что мир может быть описано набором состояний S, что агент может выполнять фиксированный набор действий A, и что после выполнения действия в заданном состоянии среда предоставляет агенту выплату . Эта выплата отражает, насколько хорошо, в весьма локальном смысле, выполнять это действие в данном состоянии. Агент делает наблюдения своих взаимодействий с миром в форме кортежей , соответствующих состоянию, выбранному в нём действию, наблюдаемой выплате и результирующему состоянию агента.

НЕ нашли? Не то? Что вы ищете?

При взаимодействии со средой агент пользуется некоторой внутренней стратегией, которая со временем может изменяться и адаптироваться, чтобы в конечном итоге для любого момента времени максимизировать, так называемый возврат среды, т. е. дисконтированную сумму платежей, получаемых агентом с текущего момента (при этом более далёкие в будущем выплаты включаются в эту сумму с меньшим весом).

Один из самых простых и популярных подходов к решению задач подкреплённого обучения заключается в нахождении и поддержании оценочной функции состояний и действий Q(s,a), которая приближает ожидаемый возврат для текущего состояния после выполнения каждого из действий. Как только оценочная функция получена, определяемая ей стратегия (известная как жадная стратегия) получается простым выбором действия с максимальной оценкой для данного состояния.

Такой подход, хотя и является простым и универсальным, а также доказано сходящимся к оптимальной стратегии при (в пределе) бесконечном повторении всех состояний среды, является, тем не менее, слабо применимым при использовании в системах реального времени.

Предлагаются следующие приёмы улучшения скорости и качества обучения:

· коннекционистское подкреплённое обучение (использование нейронной сети, для применимости в вещественных пространствах состояний);

· обучение на основе информации о предыстории процесса (методы для агента с кратковременной памятью, для учёта контекста состояния);

· иерархический подход, позволяющий использовать подкреплённое обучение в сложноструктурированных задачах большой размерности;

· двухфазное обучение для передачи агенту имеющейся информации и знаний эксперта на ранних стадиях обучения.

Все эти подходы были реализованы в рамках единого программного комплекса подкреплённого обучения. Такая система обладает достаточной вычислительной силой для решения в реальном времени сложных иерархичных задач подкреплённого обучения с (возможно непрерывным) пространством состояний и возможностью перенятия опыта эксперта.

Список литературы

1. , , Шутова принятия решений в условиях неопределённости на основе немарковской модели. Изв. РАН. Теория и система управления, 1999, №5. С. 87-93.

2. Hasinoff S. Reinforcement Learning for Problems with Hidden State, Technical Report, University of Toronto, Department of Computer Science. 2003.

tton R. and Barto A. Reinforcement Learning: An Introduction. MIT Press. 1998.

4. Hernandez-Gardiol N., Mahadevan S. Hierarchical memory-based reinforcement learning. Advances in Neural Information Processing Systems 13, 2000.

НЕ нашли? Не то? Что вы ищете?

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Методы подкреплённого обучения для систем поддержки принятия решений реального времени

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы