42

Ведь если в динамическом мире смена ситуаций про­исходит с большой частотой, то инерционность вряд ли может служить хорошим средством для существования в этом мире. В'едь в динамическом мире надо быстро, оперативно следить за возникающими изменениями среды. И для каждого динамического мира нужна своя наилучшая глубина памяти, выбранная в зави­симости от скорости изменения обстановки, а вовсе не по принципу «чем больше, тем лучше». Это озна­чает, что не приходится и мечтать о том, что рас­смотренные нами конст­рукции зверушек будут вести себя целесообразно во всех динамических средах. И эксперименты неумолимо свидетельст­вуют об этом. На рис. 2.8 можно увидеть результа­ты одного такого экспе­римента. Он проводился с помощью ЭВМ. Испы­тывались автоматы с ли­нейной тактикой, имею­щие различное число со­стояний в лепестках. Для простоты считалось, что автоматы могут выбирать

одно из двух действий. Переключающаяся среда была устроена тоже достаточно просто. Она состояла из двух стационарных сред, отличающихся друг от дру­га перестановкой вероятностей штрафов за действия (и этим она была похожа на пару сред в сказке об Иванушке-дурачке). В первой среде за первое действие вероятность штрафа была весьма велика, а за второе действие мала. В другой среде эти ве­роятности относились уже ко второму и первому действиям, т. е. ситуация была обратной. Обозначим через б вероятность смены сред (значения этого па­раметра надписаны над кривыми, показанными на рис. 2.8). По оси абсцисс отложена глубина памяти автомата, а по оси ординат — математическое ожи­дание накапливаемого штрафа.

НЕ нашли? Не то? Что вы ищете?

Результаты эксперимента ясно показывают, что для каждого значения б существует своя оптимальная глубина памяти автомата с линейной тактикой, при

43

которой накапливаемый штраф минимизируется. Аналогичную картину можно наблюдать и при ис­пользовании в переключающейся среде автоматов других конструкций, целесообразно ведущих себя в стационарных случайных средах.

Итак, в динамических средах найденные нами конструкции автоматов оказываются не самыми лучшими. И единственный выход из этого положе­ния — использовать какую-нибудь гибкую конструк­цию, которая изменяется вместе с тем миром, где она функционирует.

Ученики и продолжатели дела предложили несколько конструкций зверушек, спо­собных целесообразно функционировать в динами­ческих средах. Самой известной из них является предложенная одним из авторов этой книги модель автомата с переменной структурой.

Предположим, что вы на своей автомашине еже­дневно добираетесь из дома на работу. В вашем рас­поряжении есть два возможных маршрута, и вы вольны выбирать любой из них. Так как вы всегда выезжаете в одно и тоже время, то обстановка на каждом из маршрутов как бы стационарна. И, ана­лизируя эту обстановку, вы убедились, что один из маршрутов лучше другого: времени тратится мень­ше — движение здесь менее интенсивное, чем по другому маршруту, да и светофоров не так много. Но вот беда. Время от времени из-за каких-то стро­ительных работ движение здесь резко снижается, образуются пробки, и можно потерять много време­ни, пока они ликвидируются. В этих условиях данный маршрут становится намного хуже другого. Вы бы потеряли куда меньше времени и не опоздали бы на работу, выбрав в эти неудачные дни другой мар­шрут. Если нет никакой информации о частоте строительных работ на трассе первого маршрута, то при выезде из дома нет никаких шансов угадать, по какому маршруту лучше сегодня ехать. Однако день за днем вы накапливаете некоторую информа­цию. Учитесь на своем горьком опыте. Выясняется, что чаще всего пробки образуются в среду и пятни­цу и вероятность этих пробок достаточно велика. Тогда, выбирая в остальные дни недели первый маршрут, вы в среду и пятницу без колебаний вы­бираете менее хороший маршрут поездки.

44

Этот пример мы привели для того, чтобы у читателя возникли необходимые ассоциации с поведением автомата с переменной структурой в переключающейся среде. Опишем теперь его структуру и функционирование на более строгом уровне.


Вернемся снова к автомату с линейной тактикой показанному на рис. 2.3. Его структура может был задана в виде двух матриц, определяющих смену состояний при получении сигнала нештраф и при получении сигнала штраф. Каждая такая матрица содержит 12 строк и 12 столбцов по числу различных состояний автомата. И в каждой строке этих мат­риц имеется одна единица, показывающая, как осу­ществляется переход. Выписывание этих матриц слишком громоздко. По­этому вместо автомата с четырьмя состояниями в каждом лепестке и тре­мя действиями рассмот­рим автомат с линейной тактикой с двумя состояниями в лепестке и двумя действиями (рис. 2.9) Для такого автомата матрицы имеют вид

Эти матрицы определяют детерминированную струк­туру нашего автомата. Если автомат вероятностный (как, например, упоминавшийся нами автомат ), то вместо единиц и нулей в матри­цах П+ и П - будут стоять значения вероятностей смены состояний. Если, например, автомат с линей­ной тактикой, показанный на рис. 2.9, заменить ав­томатом , то соответствующие матрицы примут вид


В отличие от детерминированного и вероятностно­го автоматов, у которых матрицы П+ и П - в процес­се их функционирования остаются неизменными, для

45

автомата с переменной структурой П+ и П - не постоянны. В зависимости от результатов функцио­нирования (наказаний или поощрений, получаемых от среды) автомат меняет свою структуру.


В начальном периоде своей работы такой автомат находится в «безразличном» состоянии, когда вероят­ности всех переходов между состояниями для него абсолютно одинаковы. Для условий, показанных на рис. 2.9, это соответствует тому, что начальный вид матриц смены состояний для автомата с переменной структурой задается следующим образом:

Пусть для определенности начальным состоянием автомата было состояние с номером 1 и автомат, вы­полнив действие d1, соответствующее этому состоя­нию (см. рис. 2.9), с помощью равновероятного вы­бора по матрице П+ перешел в состояние 4. И пусть после этого он получил сигнал штраф. Получение подобного сигнала заставляет автомат считать свой переход 1-->4 при нештрафе за действие d1 ошиб­кой. Эта информация фиксируется следующим обра­зом. Вероятность П14+ уменьшается на некоторую ве­личину А. Но сумма вероятностей в любой строке матрицы должна быть равна 1, и поэтому уменьше­ние П14+ на Дельту должно привести к увеличению всех


остальных вероятностей в этой строке, например, на величину Дельта/3, что позволит сохранить нормировку строк. Если взять Дельта== 0,03, то после этого шага мат­рица П - останется прежней, а матрица П+ примет вид

На очередном шаге автомат делает действие d2, соответствующее состоянию 4, и выбирает очередное состояние на основании матрицы П - (так как в те­кущем акте общения со средой он находится в ус­ловиях последнего сигнала от среды—штрафа).

46

Пусть он выбрал переход 4—>4 и вновь получил штраф. Теперь уже меняется матрица П-, а матри­ца П+ остается неизменной. В матрице же П- четвертая строка приобретает вид (0,26 0,26 0,26 0,22). На очередном шаге взаимодействия автомат опять использует вероятностный переход по матрице П-, и в зависимости от оценочного сигнала меняют­ся значения вероятностей в четвертой строке матрицы и совершается очередной выбор либо по матрице П - (если последний пришедший оценочный сигнал был наказанием), либо по матрице П+.

Так постепенно происходит перестройка матриц П+ и П - в зависимости от сигналов, формируемых средой. Возникает вопрос: будут ли эти матрицы стремиться к какому-нибудь устойчивому значению, например к матрицам из нулей и единиц, соответст­вующих автомату с линейной тактикой, или какому-либо другому автомату, целесообразно ведущему себя в стационарных случайных средах? Если бы от­вет был положительным, то это означало бы, что из механизма случайного выбора мы могли бы. фор­мировать структуру зверушки, целесообразно функ­ционирующей в статических случайных средах. Ко­нечно, тот или иной ответ на поставленный нами вопрос зависит от тех законов изменения элемен­тов в П+ и П-, которые мы будем использовать.

Что же показали проведенные исследования? Ока­залось, что линейные законы изменения переходных вероятностей Пij в матрицах П+ и П-, описанных выше, не всегда приводят к оптимальным кон­струкциям, подобным автоматам или Г. Роббинса. Но если ввести нелинейное измене­ние элементов указанных матриц, то исходные «раз­мазанные» матрицы с одинаковыми значениями Пij сходятся к матрицам из нулей и единиц, соответствующих автоматам, наилучшим образом ведущих себя в стационарных случайных средах.

Но не это главное. В стационарных случайных средах нет нужды тратить время на обучение авто­мата с переменной структурой, ибо заранее известны конструкции, успешно решающие в этих средах поведенческие задачи. Главное — поведение в дина­мических и, в частности, в переключающихся средах. Что дает использование автоматов с переменной структурой здесь?

47

Вернемся к рис. 2.8. Как мы уже знаем, для авто--матов с линейной тактикой существует оптимальное значение глубины памяти, зависящее от скорости пе­реключения стационарных сред, при котором сум­марный штраф, накапливаемый автоматом, становит­ся минимальным. Но глубина памяти тесно связана с вероятностью пребывания автомата на том или ином лепестке и, следовательно, с вероятностью вы­полнения того или иного действия. Для автоматов с переменной структурой экспериментально (путем моделирования перестройки их структуры на ЭВМ) получен следующий фундаментальный результат:

с течением времени функционирование автомата с переменной структурой в переключающихся средах, в которых автомат с линейной тактикой действует целесообразно, неограниченно приближается к фун­кционированию автомата с линейной тактикой, обла­дающему оптимальной глубиной памяти. Другими словами, автомат с переменной структурой сам на­ходит эту оптимальную глубину памяти. Это весьма важно, так как значение qопт, показанное на рис. 2.8, нельзя априорно определять аналитическим путем, а оно должно подбираться в процессе фун­кционирования в среде, на что автомат с линейной тактикой просто неспособен.

И еще одно. Вспомним наш пример с Иванушкой-дурачком. Нетрудно подобрать многочисленные при­меры переключающихся сред, в которых эффект непрерывного битья все время будет преследовать автомат с линейной тактикой. Только он подстро­ится под определенную среду, как среда уже изме­нилась, и битье продолжается. Для этого достаточно условия, что среда переключается быстрее, чем ав­томат покидает свой лепесток и переходит на другой. Если бы заяц менял окраску шкурки в противофазе со сменой зимы и лета, затрачивая на это время, соизмеримое с полугодом, то он давно бы исчез с лица земли. Для автомата с переменной структу­рой подобного положения не существует. Как было сказано в одной из первых работ по таким автома­там, «миниальный штраф выплачивается в том слу­чае, когда за вчерашние грехи сегодня награждают и в том случае, когда грехи остаются грехами».

В заключение этого параграфа приведем резуль­тат одного эксперимента с автоматом с переменной

48

структурой, имеющим восемь состояний и моделирую­щим поведение в среде, в которой автомат с линей­ной тактикой имел бы оптимальную глубину памя­ти, равную двум. Этот результат приведен на рис. 2.10. По оси абсцисс на этом рисунке отложено число тактов взаимодействия автомата со средой, а по оси ординат — средняя величина штрафа в рас­чете на одно взаимодействие. Горизонтальная пунк­тирная прямая соответствует значению математи­ческого ожидания штрафа для автомата с линейной тактикой с глубиной памяти, равной двум. Как мы видим, автоматы с переменной структурой на началь­ном этапе весьма быстро приближаются к наилучше­му режиму работы автомата с линейной тактикой, а потом неуклонно асимптотически стремятся к этому оптимуму.

Такая явная связь между автоматами с линейной тактикой и с переменной структурой наводит на мысль о естественности этих конструкций, об их «эволю­ционной» связи.

И еще одно интересное наблюдение. Автомат с переменной структурой все время стремится уйти от штрафа, уйти в область благоприятных для себя действий. Это значит, что он чаще получает поощре­ния, а не наказания (если только среда не устроена так, что наказания в ней имеют значительно большую

49

вероятность, чем поощрения). А это в свою очередь означает, что матрица П+ изменяется сильнее, чем П-. Автомат как бы настраивается на хорошее функционирование в благоприятных мирах. К фун­кционированию в таких условиях он лучше адаптирован.

Поведение автоматов в стационарных средах мы сравнивали с результатами экспериментов по альтер­нативному выбору решений людьми. Аналогичные эксперименты были проведены теми же авторами (, , ) и в случае переключающихся сред. В процессе экспери­мента по нажатию кнопок без ведома испытуемого происходило переключение среды. Если в пред­шествующий период (75—100 нажатий кнопок) имела место среда с E1==(0,8, 0,2), то на следую­щий период нажатий она сменялась на среду с Е2==(0,2, 0,8). Каков же результат этого экспе­римента? Вывод, к которому пришли эксперимента­торы, оказался парадоксальным. Человек в среднем лучше решает задачу адаптации к переключающейся среде, чем задачу для стационарной среды. Вернем­ся снова к рис. 2.5. При решении задачи в случае стационарной среды человек время от времени отка­зывается от хорошего выбора и как бы пробует, что получится, если сменить стратегию. И это характерно для любого испытуемого. Что кроется за этим фено­меном? Наиболее ярко он проявляется, когда пред­почтительность того или иного выбора близка к предельной. При близких вероятностях штрафа за выбор кнопки уходы с предпочтительной страте­гии более редки. А чем яснее и проще решение, тем менее устойчиво поступает человек. Какая особен­ность его психики скрывается за этим? Почему в стационарной среде с Е = (0,8, 0,2) процент по­ощрений равен 62%, а в переключающейся среде, где E2 =(0,2, 0,8), он равен 72%? И это только на 1% ниже того, что достигает в данной динамической среде автомат с линейной тактикой с оптимальной глуби­ной памяти. Ответов на поставленные вопросы пока нет. Это еще один аргумент в пользу того, что поведение человека зачастую не только не опти­мально, но и нецелесообразно. В сложном мире от зверушки до человека огромная качественная дис­танция.

50

§ 2.6. «Доживем до понедельника»

Так назывался известный фильм из школьной жизни. Но то, о чем мы хотим поговорить здесь, ничем кроме названия не ассоциируется с этим дав­ним фильмом. У нас речь пойдет о возможности ор­ганизации зверушкой такого управления внешней средой или приспособления к ней, которое обеспе­чивает ей максимальный срок «жизни». Однако прежде нам нужно дать содержательную постанов­ку задачи, а уже затем ее формальное описание.

Биологами хорошо исследована модель охоты летучих мышей, в частности, охота на ночных бабо­чек, способных воспринимать локационный ультра­звуковой сигнал летучих мышей. Экспериментальный материал, относящийся к этой ситуации, можно сум­мировать следующим образом.

Летучая мышь испускает с помощью своего голо­сового аппарата направленный ультразвуковой сиг­нал. Встретив препятствие, сигнал отражается от него. Летучая мышь способна улавливать отражен­ный сигнал и с большой скоростью и точностью различать и идентифицировать его, что позволяет отличать неподвижные цели от подвижных, отра­жения от поверхности земли от отражений от воз­душных целей, большие размеры от малых (на­пример, отраженные сигналы от летящих птиц и комаров). Кроме того, отраженный сигнал позволяет летучей мыши с весьма большой точностью опреде­лять направления и расстояния до потенциальных целей.

Ночные бабочки в свою очередь способны принять локационный сигнал летучей мыши, определить местоположение источника, из которого был послан сигнал, а также определить интенсивность последне­го. Поведение ночной бабочки различно в зависи­мости от того, как далеко от нее находится летучая мышь и сколь интенсивен сигнал. Если расстояние достаточно велико или интенсивность мала, то ноч­ная бабочка производит маневр, направленный на уход от летучей мыши. В экспериментальных ситуа­циях наблюдалось три способа выполнения такого маневра. Либо бабочка разворачивалась и двигалась в сторону, противоположную своему предшествую­щему движению, либо она использовала маневр

51

в вертикальной плоскости, уходя со своего прежнего курса вверх или вниз. Если же расстояние до лету­чей мыши было мало или интенсивность локацион­ного сигнала была очень велика, то ночная бабочка переходила на хаотический полет. Это происходит потому, что органы слуха бабочки в таких условиях начинают работать в режиме насыщения, и бабочка уже не может определить положение летучей мыши и направление ее движения. Хаотический полет состо­ит из чередования пассивного падения со сложенны­ми крыльями, крутых поворотов, петель, пикирова­ния. Другими словами, бабочки переходили на такую траекторию полета, которая максимально затрудня­ла для нападающего предсказание последующей то­чки на этой траектории. Интересно, что, как показы­вают эксперименты, более чем в 70% случаев хаоти­ческое движение оказывалось для ночных бабочек спасительным.

Попробуем формализовать описанную ситуацию, несколько упростив ее. Это упрощение не является принципиальным. На основе той упрощенной модели, которую мы опишем, ряд исследователей построил совсем не игрушечные модели «преследуемый — преследователь», в том числе и для моделирования поведения ночной бабочки, спасающейся от летучей мыши.

Посмотрим на рис. 2.11. На нем изображен граф смены состояний некоторого вероятностного автома­та. Его особенность состоит в том, что для каждой группы состояний (на рисунке группы состояний оконтурены пунктирными линиями) имеется ненуле­вая вероятность перейти в особое состояние, в ко­тором автомат погибает (на рисунке оно заштрихо­вано). Состояния можно интерпретировать, например, следующим образом: 1 — летучая мышь производит поиск и с вероятностью 0,3 обнаруживает бабочку, а с вероятностью 0,7 пропускает ее (для первой группы состояний); 2—летучая мышь определяет направление своего движения и расстояние до жерт­вы, причем с вероятностью 0,8 цель при этом не теряется; 3 — летучая мышь настигает бабочку и уничтожает ее с вероятностью 0,95. Что же может противопоставить преследователю бабочка? В чем заключаются ее действия? Будем рассматривать каж­дую группу состояний автомата как определенную

52


среду, задаваемую той стратегией бабочки, которой она придерживается. Трем группам состояний, пока­занных на рис. 2.11, можно, например, соотнести следующие стратегии: прямой полет (E1), пикирова­ние или кабрирование (E2) и хаотическое движе­ние (Ез). Действия бабочки сводятся к смене сред, переключению их. При этом бабочка может реали­зовать действие лишь в состояниях 2 и 3. На рис. 2.11 эти действия показаны двойными стрелками

переходов. В остальных состояниях бабочка выдает в среду нейтральный сигнал (другими словами, не меняет своих действий). После ухода от летучей мыши бабочка опять возвращается к движению по горизонтальной траектории, обеспечивающей ей возможность выполнения ее жизненного назначе­ния — продолжения потомства. Эти переходы — действия на рисунке не показаны, чтобы не загромож­дать картину погони, которую мы анализируем.

В примере с ночной бабочкой и летучей мышью картина весьма прозрачна. Действия по переключе­нию сред, показанные на рис. 2.11, позволяют ба­бочке максимально увеличить вероятность своего спасения. Однако в общем случае выбор оптималь­ной последовательности переключении, максимизи­рующей время жизни автомата, далеко не тривиален.

53

Пусть, например, как и в нашем примере, имеется три случайных среды, которые автомат может переключать своими действиями. И пусть имеется три обычных состояния и три поглощающих (летальных), в которых автомат погибает. Первые три мы, как и ранее, будем обозначать цифрами 1, 2, 3, а погло­щающие состояния — цифрами 4, 5, 6. Вместо рисун­ка, подобного рис. 2.11, зададим три матрицы переходов автомата в трех возможных средах (табл 2.1)

Таблица 2.1

Состо

ЯНИЯ

Среда

Состояния

1

2

3

4

5

6

1

0,9

0,1

2

0,95

0,05

Е1

3 4

0,8

1

0,2

5

1

6

1

1

0,9

0,1

2

0,7

0,3

E2

3 4

0,95

1

0,05

5

1

6

1

1

0,9

0,1

2

0,92

0,08

E3

3 4

0,7

1

0,3

5

1

6

1


В табл. 2.1 указаны только ненулевые значения переходных вероятностей Пиij. Если начальное сос­тояние автомата есть i (i== 1, 2, 3), то время жизни автомата можно вычислить по формуле

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12