УДК 519.6
Построение наилучшей гарантирующей стратегии игрока в одной антагонистической игре
с недифференцируемой ценой
Пермский государственный национальный исследовательский университет
Россия, Пермь, ул. Букирева, 15
mpu@psu.ru.; (342)
Рассматривается дифференциальная игра "наведения–уклонения" на гладкой горизонтальной плоскости в классе позиционных стратегий. Показано, что не для всех позиций ее цена является непрерывно дифференцируемой функцией. Для реализации оптимальной стратегии первого игрока в работе строится стабильный мост этого игрока, сечение которого в финальный момент времени совпадает с целевым множеством. Оптимальное управление осуществляется игроком в форме экстремального прицеливания на построенный мост.
Ключевые слова: дифференциальная игра; стабильный мост; цена игры; экстремальное прицеливание.
Введение
Известно, что функция цены в антагонистических дифференциальных играх является непрерывной, но необязательно непрерывно дифференцируемой функцией. В случае ее дифференцируемости эффективным методом построения оптимальных стратегий игроков служит принцип перехода Р. Айзекса [1], реализация которого сводится к интегрированию дифференциального уравнение Беллмана – Айзекса. В противном случае строить допустимые (гладкие) позиционные стратегии игроков, обеспечивающие седловую точку в игре, не удается.
В книге [2] указанные стратегии реализуются в форме экстремального прицеливания на соответствующие стабильные мосты. В статье на примере конкретной дифференциальной игры с недифференцируемой ценой демонстрируется возможность применения данного подхода для ее решения
1. Постановка дифференциальной игры
Рассмотрим динамический конфликтно управляемый объект
(1.1)



,
.
Здесь
фазовый вектор игры,
текущее время,
векторы управляющих параметров первого и второго игроков соответственно,
функция платы, минимизируемая первым игроком и максимизируемая вторым игроком.
Описанная здесь конфликтная ситуация допускает следующую физическую интерпретацию. Материальная точка единичной массы, управляемая двумя игроками, движется по гладкой горизонтальной плоскости. Каждый игрок в любой момент времени может воздействовать на точку, прикладывая к ней силу, произвольную по направлению и ограниченную по величине. Цель первого игрока – минимизировать в конечный момент времени геометрическое расстояние от управляемой точки до начала координат, а второго игрока – максимизировать это расстояние.
2. Принцип перехода Р. Айзекса
Предполагая, что цена игры является дифференцируемой функцией позиции, будем искать ее как решение дифференциального уравнение Беллмана – Айзекса [1]

(2.1)
с граничными условиями
. (2.2)
Пусть
.
Преобразуем выражение


.
Последовательно вычисляем:


,


,

. (2.3)
Последовательность операций
и
в (2.1) допускает обратную замену, а управления, на которых указанные
и
достигаются, имеют вид
,
. (2.4)
Заметим, что равенство



имеет место и в случае, когда
.
Функцию
, являющуюся решением задачи (2.1), (2.2), будем искать в виде


,
где
– постоянные, подлежащие определению.
Построение функции
будем производить в области

.
Из граничных условий (2) следует, что
. Тогда
![]()

,
![]()
,
![]()
,
![]()
,
![]()
.
![]() |
Подставим найденные частные производные функции
.
Таким образом,


,


. (2.5)
В области
управления
, вычисленные по формулам (2.4) с учетом (2.5), допустимы и, следовательно, оптимальны. При этом


.
Пример 1. Полагаем ![]()
,
,
,
,
,
,
,
.
Рассмотрим три случая:
1) оба игрока действуют оптимально (выбирают свои стратегии в соответствии с формулами (2.5));
2) первый игрок действует оптимально, а второй придерживается произвольного допустимого программного управления, например управления
;
3) второй игрок действует оптимально, а первый придерживается произвольного допустимого программного управления, например, управления
.
Рис. 1
На рис. 1 показаны траектории движения управляемой точки на плоскости для всех трех случаев. При этом в случае 1) траектория обозначена пунктирной линией, в случае 2) – жирной линией и в случае 3) – обычной линией.
Тот факт, что пара стратегий
образует седловую точку в игре, подтверждается двойным неравенством

.
Функция
должна оставаться постоянной вдоль траектории движения для первого случая, монотонно убывать для второго случая и монотонно возрастать для третьего случая. Указанные зависимости функции
от времени приведены на рис. 2.
![]() |
Вне области
3. Стабильный мост и экстремальное прицеливание
Покажем, что для начальных позиций
первый игрок, применяя экстремальное прицеливание на подходящий стабильный мост, в состоянии привести управляемую точку в начало координат при любых противодействиях второго игрока, т. е. получить наилучшее для себя значение платы.
Полагаем
.
Очевидно, что множество
обладает следующими свойствами
1)
;
2) для любых 
существует решение дифференциального уравнения в контингенциях


такое, что
.
Таким образом, множество
представляет собой стабильный мост первого игрока, обрывающийся в финальный момент времени в начале координат.
Определим
стратегию первого игрока, осуществляющую экстремальное прицеливание на стабильный мост
.
Пусть
. Найдем вектор
из условия
.
Для этого решим задачу математического программирования на условный минимум с ограничением типа неравенства
,


Эта задача эквивалентна следующей задаче:

, (3.1)

. (3.2)
Составим для нее функцию Лагранжа





и выпишем необходимые условия экстремума
,
,
![]()
,
![]()
![]()
Добавляя к полученным уравнениям условие связи (3.2), получим систему из пяти уравнений относительно неизвестных
.
Ее решение
, полученное средствами пакета Mathematica, весьма громоздко и здесь не приводится.
Можно показать, что набор величин
действительно доставляет условный минимум в (3.1), (3.2).
Полагаем
,

.
Заметим, что

.
Окончательно устанавливаем, что

(3.3)
Управление точкой первый игрок осуществляет по следующей схеме. Интервал времени
разбивается на полуинтервалы
.
На каждом из таких полуинтервалов управление первого игрока считается постоянным и равным
, а управление второго игрока – произвольной допустимой реализацией вектора его управляющих параметров. Равномерный предел соответствующих ломаных Эйлера будет являться движением рассматриваемой точки, порожденным стратегией (3.3) первого игрока.
В книге [2] показано, что каждое такое движение будет оставаться на множестве
вплоть до момента времени
. Последнее обстоятельство обеспечивает наилучший результат в игре для первого игрока.
Пример 2. Пусть
,
,
,
,
,
,
,
. Заметим, что начальная позиция принадлежит множеству
. Тогда стратегия (3.3) обеспечивает значение платы в игре, равное нулю, т. е. переводит геометрические координаты точки в начало координат в конечный момент времени.
Движение точки, порожденное управлением (3.3) первого игрока, аппроксимируем ломаными Эйлера, построенными на разбиениях интервала времени
на 20, 50 и 80 частей.
Плата на каждой из этих аппроксимаций принимает соответственно значение

. (3.4)
На рис. 3 показана траектория движения точки, построенная на базе ломаной Эйлера для 80 разбиений.
![]() |
В отличие от предельного движения аппроксимирующая его ломаная Эйлера может в некоторые моменты времени покидать множество
На рис. 4 приведен график изменения функции
, вычисленной вдоль ломаной Эйлера, в зависимости от времени. В моменты времени, для которых
позиция выходит за пределы множества ![]()
Заключение
![]() |
Таким образом, в игре с недифференцируемой ценой построена наилучшая гарантирующая стратегия первого игрока в форме прицеливания на стабильный мост. При этом указанная стратегия оказалась разрывной по фазовому вектору игры. Применение пакета Mathematica позволило получить ее аналитическое выражение. Проведенные численные эксперименты подтвердили оптимальность построенной стратегии.
Список литературы
1. Дифференциальные игры. М.: Мир, 19с.
2. , И. Позиционные дифференциальные игры. М.: Наука, 19с.
Construction of the player’s best guaranteeing strategy in one antagonistic game with
non-differentiable value
S. V. Lutmanov
Perm State National Research University, Russia, Perm, Bukireva st., 15
mpu@psu.ru.; (342)
In this paper a differential “directing-evading” game on horizontal plane in the class of positional strategies is discussed. Its value is demonstrated to be a continuously differentiable function not for every position. In the paper, in order to implement an optimal strategy of the first player his stable bridge is constructed so that its section coincides with the target set at final instant of time. Optimal control is carried out by the player in the form of extremal targeting at the constructed bridge.
Key words: differential game; stable bridge; value of game; extremal targeting.
© , 2011






