Метод решения в целом состоит из последовательности шагов перечисленных двух типов. Поскольку на шаге В) число элементов в множестве I возрастает, то между двумя соседними шагами типа А) может располагаться лишь конечное число шагов типа В).

С другой стороны, для конечного шага типа А) значение функции в точке однозначно определяется множеством I , и если окажется, что от одного шага к другому функция строго убывает, то одно и то же множество I на шагах типа А) не может встретиться дважды, и окажется конечным.

Пусть выполняется следующее условие невырожденности: через точку функции на множестве решений конечной системы (7) не проходит граничных гиперплоскостей - ограничении с номерами . В этом случае вслед за конечным шагом типа А) должен следовать шаг типа В) с (поскольку все при ) и значение функции на этом шаге строго убывает (фактически смещаемся из точки ). Так как на остальных шагах значение функции не возрастает, то конечность метода обеспечена.

Пример: (13)

Начав с точки (0,0), что соответствует и системе мы совершаем шаг типа А), т. к. наша грань состоит из - той точки и в точке (0,0) тривиально достигается минимум функции . Так как в нашем случае

С=

то из (8), находим, что , так что оба индекса в I можно взять в качестве . Пусть =1 и переход к следующему шагу с =(0,0) и . Теперь система (7) будет состоять из уравнения и множество её решений будет совпадать с осью абсцисс. Минимум функции достигается в точке (3/4, 0), удовлетворяет системе ограничений. Поэтому в результате шага типа В) мы сместимся в эту точку, сохранив . В результате следующим снова оказывается шаг типа А), причём система (8) принимает вид

отсюда и следует положить

НЕ нашли? Не то? Что вы ищете?

К следующему шагу переходим с и Æ. В соответствии с этим минимум функции нужно искать на всей плоскости и поэтому (3/4,3/4) . Однако точка не удовлетворяет третьему ограничению. Поэтому двигаясь по направлению к ней, определим z=(0,3/4) и при =1/3 перейдём к точке (3/4,1/4) и множеству .

Снова должен совершить шаг типа В), поскольку точка =(1/2,1/2) на множестве решения уравнения не совпадает с . Поскольку, однако, эта точка является допустимой, то окажется, что =1 и мы получим решение задачи (1/2,1/2) .

Численные методы для задачи выпуклого программирования:

1) Метод условного градиента.

2) Метод проекции градиента.

3) Метод возможного направления.

Динамическое программирование.

В последующих двух параграфах рассматриваются задачи оптимального управления. Любая задача оптимального управления в соответствии с принятой математической моделью задается уравнениями состояния и предельными условиями, описывающими поведение объекта. При этом всегда в уравнениях задачи можно выделить группу зависимых переменных, описывающими состояние объекта и группу управляющих функций, которые доступны непосредственному изменению извне и имеют значения, принадлежащие заданному множеству допустимых управлений. Задача оптимального управления состоит в том, что требуется из множества допустимых управлений выбрать такие, которые придают заданному функционалу (зависящему в общем случае от решения уравнений и управлений) наименьшее возможное значение.

Будем рассматривать задачи оптимального управления на примере управляемого объекта, поведение которого описывается системой обыкновенных дифференциальных уравнений:

(5.1)

j (0) = j0 ,

где

j = {j1 , …,jn}, f = {f1 , …,fn}, u = {u1 , …,um}.

Допустимыми управлениями будем считать произвольные кусочно-непрерывные измеримые функции u = u(t), принимающие значения из замкнутой области UÌ Em.

В классе допустимых управлений требуется найти такое управление u(t) и соответствующее ему решение j(t) задачи (5.1), чтобы функционал

J[u]== (5.2)

При этом предполагается, что каждое допустимое управление определяет единственное решение задачи (5.1).

В основе метода динамического программирования лежит принцип оптимальности Р. Беллмана, который может быть сформулирован следующим образом.

Оптимальное управление в любой момент времени не зависит от предыстории системы и определяется только целью управления и состоянием системы в этот момент времени.

Если ввести обозначение

Q(j, t)=, (5.3)

То из принципа оптимальности имеем

Q(j(t), t)=, (5.4)

Второе слагаемое в скобках, по определению, есть , где .

Предполагая, что возможно разложение обоих членов в скобках по формуле Тейлора и устремляя затем ∆t→0, получим из (5.4) уравнение в частных производных (уравнение Беллмана):

(5.6)

Q(j,T)=0.

Пусть минимум в правой части (5.6) достигается лишь в единственной точке u*ÎU, тогда u*есть функция от j и :

u*= u*( j, ). (5.7)

Подставляя эту функцию в уравнение (5.6) будем иметь нелинейную систему уравнений

(5.8)

Если считать u* некоторой функцией j, t, то система (5.8) будет гиперболической системой уравнений, характеристики которой направлены от t=0 к t=Т. Строгое обоснование метода динамического программирования, применительны к непрерывным задачам оптимального управления, было дано , получившим необходимое и достаточное условие оптимальности в терминах Q(j, t).

В основе метода динамического программирования лежит идея погружения данной конкретной задачи в семейство более простых задач. Нагляднее всего это можно проиллюстрировать при выводе уравнений динамического программирования для процессов, описываемых системой разностных уравнений:

i=0,1,….,N-1 (5.9)

Здесь ji ÎЕnn-мерный вектор состояния, uiÎЕmm-мерный вектор управления.

Разностное уравнение (5.9) могут возникать из физического описания процесса, так и при дискретизации системы (5.1). На решениях системы требуется минимизировать функционал вида

J[u]= (5.10)

Из постановки задачи видно, что оптимальное значение функционала, если решение задачи (5.9), (5.10) существует, зависит от начального состояния j0 и числа шагов N. Обозначив это оптимальное значение через , запишем задачу минимизации следующим образом:

. (5.11)

Поскольку в силу структуры системы (5.9) изменения (u1,…,uN-1) не влияют на φ0 и выбор u0, то (5.11) можно переписать следующим образом:

(5.12)

По определению второй член в фигурных скобках есть и мы получаем

(5.13)

Рассуждая аналогичным образом, получаем следующие реккурентные соотношения:

j0 – задано,

(5.14)

(5.15)

Из системы (5.14), (5.15) следует, что, считая известной и решая относительно простую задачу минимизации функции m переменных, то можем из (5.14) последовательно найти

Но поскольку система (9) определяет последовательно j1, j2,…, jN-1 , то на самом деле получается типичная для оптимального управления двухточечная краевая задача. Уравнения (14)-(15), дающие необходимые и достаточные условия оптимальности управления (u1, u2,…, uN-1 ), являются следствиями структуры системы (9) (при известных jj, uj ), решение (9) не зависит от jj-1, uj-1,…(так называемые марковские системы) и аддитивности функционала (10).

Рассмотрим на простом примере использование динамического программирования. Процесс описывается одним уравнением (16)

И требуется минимизировать функционал . Уравнение Беллмана (16) запишется следующим образом (17)

Поскольку линейная функция достигает минимума на границе отрезка, то (18)

Дискретизируем задачу (16) следующим образом (T=5, N=5, τ=T/N=1): (19)

Выражение для Q1(φΝ-1) имеет вид

Введение в теорию игр

Жить в обществе и быть свободным от общества нельзя! Живя в обществе, мы неизбежно сталкиваемся с другими людьми, и интересы различных людей практически никогда не совпадают между собой. В обществе неизбежны столкновения интересов различных людей, противоречия между этими интересами.

В художественной литературе этому столкновению интересов уделялось не меньше внимания, чем любви и Богу. Это столкновение интересов является предметом целого ряда наук  психологии, социологии, политологии. Даже экономическая наука по большому счету изучает столкновение интересов, так как конкуренция является именно таким столкновением. Но лишь в 40-е годы двадцатого века это столкновение интересов стало предметом математического исследования, прежде всего в области экономики. Первая значительная книга по теории игр  книга Дж. фон Неймана и С. Моргенштерна, изданная в 1944 году так и называлась  “Теория игр и экономическое поведение”.

Предмет оказался чрезвычайно сложным, даже для математики. И сейчас, 60 лет спустя, успехи теории игр довольно ограничены. Тем не менее, она нашла своё применение особенно в военном деле, так как война  это столкновение интересов практически в чистом виде. Организация тыла, поиски подводных лодок, противовоздушная оборона, дуэль двух противников  всё это приложение теории игр в настоящее время. В экономике теория игр также находит своё применение.

Определение теории игр

От той теории, которая существует в настоящее время, не следует ждать чудодейственных рецептов. Она не предписывает поведение, ведущее к выигрышу. Она лишь указывает, чего может добиться игрок в наихудшей для него ситуации и как он должен действовать, чтобы в этой наихудшей ситуации добиться минимального проигрыша (или максимального выигрыша). Но и это, безусловно, полезно. А рекомендации по выигрышу  дело будущей теории игр.

1. Неформальное описание игры

Всякая игра предполагает следующее:

1. Наличие некоторого числа n участвующих в ней лиц (игроков). Могут быть игры с одним игроком (пасьянс), двумя игроками игрок получает доход (если  значит, игрок проиграл), зависящий от его поведения и поведения других игроков.

Наиболее изученным классом игр являются так называемые игры с нулевой суммой, когда в любой партии имеет место условие , то есть если кто-то выигрывает, то кто-то обязательно проигрывает. Это особенно проявляется в играх двух лиц с нулевой суммой, когда , то есть . В этом случае интересы игроков строго противоположны, так как выигрыш одного игрока является одновременно проигрышем другого. Такие игры называют антагонистическими.

Всякая игра состоит из партий, которые начинаются и заканчиваются, после чего игрокам выплачиваются их выигрыши. В свою очередь, каждая партия состоит из ходов, которые одновременно или последовательно делают игроки. Описание игры как последовательности ходов носит название позиционной формы игры. Теория игр в позиционной форме разработана очень слабо и ещё ждёт своих Эйлеров и Гауссов.

Основное содержание современной теории игр  это так называемая матричная форма игры. В этом случае считается, что каждый игрок делает всего лишь один ход, причем все ходы делаются одновременно. После этого каждому игроку выплачивается выигрыш (или берётся проигрыш) в зависимости от того, какие ходы были сделаны им и другими игроками.

Вообще говоря, игра в позиционной форме может быть сведена к игре в матричной форме, однако для реальных игр это сведение настолько сложно, что практически невыполнимо даже для современных ЭВМ. Однако вполне возможно, что в будущем такое сведение будет иметь и практический смысл 

2. Игры двух лиц с нулевой суммой

Игра двух лиц с нулевой суммой в матричной форме занимает центральное место в современной теории игр, так как теория таких игр разработана практически до конца.

Итак, пусть имеется два игрока. В распоряжении первого игрока имеется всего n возможных ходов i=1,2,3,...,n; в распоряжении второго игрока имеется m возможных ходов j=1,2,3,...,n. Эти возможные ходы называются чистыми стратегиями игроков.

Оба игрока делают одновременно по одному ходу, после чего партия считается законченной. Если первый игрок делает ход i, а второй  ход j, то первый игрок получает выигрыш, равный . Очевидно, что выигрыш второго игрока равен .

Эти данные можно записать в виде матрицы

,

в которой строки соответствуют ходу первого игрока, а столбцы  ходу второго игрока. Эта матрица носит название платёжной матрицы игры.

Как же должны действовать игроки в такой ситуации? Какие ходы они должны делать?

3. Игры с седловой точкой

Рассмотрим с этих позиций игру со следующей платёжной матрицей

.

Попробуем порассуждать с точки зрения

Аналогично, при i=3 он в наихудшем случае получит 4 (при j=2), при i=4  2 (при j=3 ) и, наконец, при i=5 он в наихудшем случае получит 0 (при j=3).

Стремясь сделать свой гарантированный выигрыш как можно больше, первый игрок должен выбрать ход i=3, так как в этом случае он гарантирует себе выигрыш, равный 4 (правда, и его максимальный выигрыш невелик  всего 5).

А теперь попробуем посмотреть на эту же матрицу с точки зрения второго игрока. Для него это  матрица его проигрыша.

Если он выберет ход j=1, то его максимальный проигрыш будет равен 18 (если первый игрок сделает ход i=1). Аналогично, при j=2 его максимальный проигрыш будет равен 4, при j=3 8, и, наконец, при j=4 его максимальный проигрыш будет равен 25. Стремясь сделать свой максимальный проигрыш как можно меньше, второй игрок должен выбрать ход j=2, так как в этом случае его максимальный проигрыш, равный 4, самый маленький.

Итак, мы пришли к выводу, что первый игрок должен ходить i=3, а второй j=2. Допустим теперь, что второй игрок, как говорят, “открывает карты” и заявляет первому игроку: “Я буду делать ход j=2”. Есть ли первому игроку необходимость менять свой ход? Нет, так как в этом случае его наилучший ход всё равно i=3.

Аналогично, если первый игрок заявит второму, что он будет ходить i=3, то второму игроку также нет смысла менять свой ход, так как наилучшим ответом будет всё равно j=2. Пара i=3, j=2 является, как говорят, уравновешенной парой, так как “открытие карт” игроками не даёт поводов противнику менять свою стратегию. Как говорят, пара i=3, j=2 есть решение игры, а величина выигрыша при этом первого игрока (и одновременно величина проигрыша второго)  4  это цена игры.

Оформим всё это математически. Итак, пусть первый игрок выбирает ход i. В наихудшей для него ситуации он выиграет .

Стремясь сделать свой минимальный выигрыш максимальным, он выбирает свой ход из условия . Такая стратегия называется максиминной.

Аналогично, второй игрок, выбирая ход j, в наихудшей для себя ситуации проигрывает . Стремясь сделать свой максимальный проигрыш минимальным, он должен выбирать свой ход из условия . Такая стратегия называется минимаксной. Каково же соотношение между и ?

Теорема 1. Пусть имеются два числовых множества и ; есть вещественная функция двух переменных при и . Тогда , если и существуют.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6