АГРЕСИВНОЕ И МИРНОЕ ПОВЕДЕНИЕ В МНОГОАГЕНТНЫХ СИСТЕМАХ В КЛЕТОЧНОЙ СРЕДЕ
УДК 518.58:519.2:504
ЗАВЕРТАНЫЙ ВАЛЕНТИН, АЛЕКСАНДР МАКАРЕНКО
Аннотация. Одной из основных тем в агентно-ориентированном подходе моделирования является консолидация большого разнообразия моделей. Многие исследователи занимаются разработкой своих собственных моделей, которые являются однотипными по основным признакам, однако в сфере сложных адаптивных систем таких как искусственные экологии незначительная разница в архитектуре или значениях параметров может иметь достаточно большое влияние на эмерджентные характеристики модели. Первооткрывателями агентного подхода в искусственных экосистемах Робертом Акстелом и Робертом Аксельродом было отмечено, что имеющееся множество многоагентных моделей требует внедрения техник и методик, которые позволят обобщить их результаты. В данной работе мы представляем модель, которая является репликацией уже существующей и подобна классическим моделям искусственной жизни в клеточном пространстве и исследуем зависимость агрессивного и мирного поведения в зависимости от количества ресурса поступающего в систему. Проводится сравнение результатов текущей модели-репликации и ее прототипа как это было предложено Акстелом и Аксельродом в методе «стыковки моделей.
Введение
Методология моделирования многоагентных систем широко используется в изучении экологической сложности. Популярность многоагентного подхода вытекает из ранних исследований таких как Bugs [2] и PolyWorld [3] модели Sugarspace [1]. В одной из первых моделей искусственной экологии – модели Bugs, которая была предложена Норманом Пакардом [2], отмечена важность перехода подходов моделирования эволюционных процессов от внешней к внутренней адаптации. Пакард предложил изменить угол зрения на понятие приспособленности в моделях биологических систем. Он утверждал, что подход определения меры адаптивности извне системы как предопределенной функции предполагает обобщение взаимодействий между средой и индивидуумами, что может повлечь за собой наложение ограничений на разнообразие поведения биосферы. Исходя из этого Пакард предложил понятие а posteriori функции приспособленности для внутренних эволюционных процессов и отобразил черты системы с ее помощью. Примерами таких значений может служить динамика изменения численности популяции во времени, устойчивость возникающих общественных групп к изменениям в окружающей среде или гонке вооружений и прочие характеристики системы.
Михаил Бурцев предложил модель, напоминающую пионерские модели Искусственной Жизни Polyworld [3] и Bugs [2]: агенты обладающие простым поведением взаимодействуют в простой окружающей среде. В работе [4] автор развивает предыдущие модели, внедряя родство и использую искусственную нейронную сеть как основу агентного поведения. В данной модели агенты не руководствовались какой-либо предопределенной стратегией поведения, взамен такие стратегии возникали как характеристика фенотипа, который состоит из действий агента, которые определяются искусственной нейронной сетью. Таким образом автор достиг большого разнообразия стратегий, которые могут учитывать родство объекта с которым взаимодействуют и составляются из элементарных действий в результате эволюционного процесса. Некоторые из стратегий продемонстрировали кооперативное поведение, было показано, что в модели возникают стратегии, которые можно сопоставить с общеизвестными стратегиям теории игр: голубь, орел, буржуа, и также были выделены две новые стратегии кооперативной агрессии и защиты [4]. Учитывая результаты моделирования искусственной жизни можно сделать заключение, что они не вступают в противоречие с теорией игр, а наоборот – являются расширением, которое может обеспечить новые исследовательские горизонты. Модель смогла отобразить тренд увеличения агрессии на фоне большей доступности ресурсов, который присущ примитивным обществам [5]. Корреляция между густотой популяции и частотой проявлении агрессии в случае большой обеспеченности ресурсами в модели соответствует аналогичной зависимости, полученной из этнографических данных [5].
Одним из главных достижений этого исследования можно назвать агентную специализацию т. е. возникновение фенотипических схожих групп и межгрупповых различий возникает без предопределенной функции приспособляемости [5]. Агенты заполняют эволюционные ниши, которые отвечают за поведение жертвы, хищника или даже более сложные паттерны поведения, без предрасположенности навязанной извне системы, но как результат эволюционного адаптационного процесса.
Исследуя свою модель, Бурцев предложил новую методологию категоризации поведения агентов по стратегиям и учета динамики генотипа популяции [7]. Такие модели имеют свое последующее развитие в классе новых моделей хищник-жертва [6], где агенты, например, управляются нечетким когнитивным отображением.
Задачи и описание моделиМного подобных моделей разработаны с целью исследования социальных, экологических, роевых задач, задач искусственной жизни и прочих. После многих лет плодотворного развития, необходим период объединения и обобщения результатов [8]. В текущей работе мы представляем репликацию существующей модели искусственной жизни, проводим сравнения полученных результатов и рассматриваем общие поведенческие паттерны.
Следует отметить, что тестирование и «стыковка» разных моделей, написанных в направлении искусственной жизни не новая, но все же довольно мало исследованная область. Потребность исследовать результаты схожих моделей на идентичность общепринятая задача, в особенности, если речь идет о моделях, где инструментом выступает математика [10]. «Стыковка» моделей, которые исследуют похожие объекты, созданы разными авторами и отличаются друг от друга, обычно требует существенных изменений. Например, первые модели, к которым была применена данная методика были модели распространения культуры Роберта Аксельрода [1] и Сахарный мир Джоршуа Эпштейна и Роберта Акстелла [10]. В данном исследовании модели не столь различны, хотя написаны разными авторами и на разных платформах программирования.
В работе предложена система агентов-собирателей на клеточной решетке с возможностью поведения хищник-жертва, такая модель напоминает классические модели искусственной жизни [2], [3], [4]. Ее можно рассматривать как продолжение или репликацию модели клеточных автоматов Бурцева [5], потому они имеют несколько различную архитектуру.
Поведение агента определяет искусственная нейронная сеть без скрытого слоя. Потомки агента наследуют матрицу связей сети, измененную мутациями. Каждому агенту присвоен маркер родственности: вектор размерности 3, координаты которого принимают целочисленные значение из интервала [-2, 2]. Агенты являются родственниками, если эвклидово расстояние между их маркерами менее чем порог в 0.2.

Fig. 1. Агент в клеточной среде и его окружение
Агент занимает одну клетку в клетчатом пространстве (Фиг. 1), агент может взаимодействовать с объектом в клетке напротив него, что определяется его вектором направления (heading). Агенты воспринимают следующие переменные среды:
Table 1. Входящие сигналы агента и значения, которые они принимают.
Входящий сигнал | Значение |
s0 – bias | rMax |
s1 – ресурс в текущей клетке | Значение ресурса |
s2 – ресурс впереди | Значение ресурса в клетке впереди |
s3 – ресурс в клетке справа | Значение ресурса в клетке справа |
s4 – ресурс в клетке слева | Значение ресурса в клетке слева |
s5 – агент впереди | rMax, если в клетке впереди находится неродственный агент |
s6 – агент справа | rMax, если в клетке справа находится неродственный агент |
s7 – агент слева | rMax, если в клетке слева находится неродственный агент |
s8 – текущее значение ресурса (r) | текущее значение ресурса (r) |
s9 – (rMax - r) | (rMax - r) |
s10– агента позади | rMax, если в клетке позади находится неродственный агент |
s11– родственник впереди | rMax, если в клетке впереди находится агент-родственник |
s12 – родственник справа | rMax, если родственник находится справа |
s13 – родственник слева | rMax, если родственник находится слева |
В ответ на внешние сигналы агент производит следующие действия: «отдыхать», «передвигаться», «напасть», «убежать», он платит определенную пеню за каждое из этих действий. Максимальное количество энергии, которое может аккумулировать агент - rMax, оно равно 5000. Вероятность успеха при нападении равно отношению между накопленными энергиями жертвы и хищника. Если агент подвергся нападению, он может попросить помощи у окружающих родственников. Если жертва находит родственников рядом, она может добавить в защитному порогу отношение их энергии к энергии хищника умноженное на коэффициент (0.3 для всех экспериментов). Если агент побеждает жертву, то он поглощает ее и получает всю ее энергию. Когда агент хочет родить отпрыска, он помещает его в соседнюю клетку и отдает ему половину своей энергии.
Действия агента присвоены категории и создан вектор стратегий с использованием методологии изначально представленной в работе [4]: для отображения фенотипического поведения, каждый агент помещается в гипотетическую ситуацию, как если бы он взаимодействовал с другим агентом при разных условиях, а именно имея разное количество внутренней энергии и разные показатели родственности между агентами. Таким образом агента подвергают воздействию шести разных входящих векторов и в результате формируют вектор стратегий в соответствии с его реакцией (таблица 3). Например, стратегия «020202» также именуемая стратегией ворона [4]: в не зависимости от внутреннего уровня энергии агента он будет нападать на не родственных агентов и не причинит вреда родственнику.
Таблица 3. Вектор стратегий агентов. Где A {0: “отдых”; 1: “побег”; 2: “нападение”; 3: “делиться”}, i = 1,2,3,4.
Мало ресурса, r = 0,02rmax | Половину ресурса, r = 0,5rmax | Много ресурсов, r = 0,98rmax | |||
Родственник рядом | Неродственник рядом | Родственник рядом | Неродственник рядом | Родственник рядом | Неродственник рядом |
ai | ai | ai | ai | ai | ai |
Эксперименты, которые проводились над моделью характеризуются разным количеством входящего в среду ресурса. Цель этих запусков провести валидацию модели и обнаружить связь между результатами схожих по поведению моделей [4], в соответствии с методом «стыковки моделей» упомянутым ранее.
Ключевая разница между текущей моделью и прототипом, что в одной клетке может находиться только один агент в отличии от неограниченного количества в прототипе, также в текущей модели отсутствует вектор хромосом – битовый вектор, которые кодирует наличие или отсутствие восприятия тех или иных входящих сигналов или возможности совершать действия. Таким образом мы можем рассмотреть возможность успешной репликации прототипа в текущую модель и обнаружить общие и различные поведенческие паттерны и характеристики.

Fig. 2. Зависимость количества агентов от входящего ресурса в оригинальной модели (график взят из работы [3]).
Зависимость динамки популяции агентов от входящего ресурса в модели [4] изображена на графике фиг. 2. Она имеет различные конфигурации запуска которые определяют возможность различать родственников и иметь возможность нападать на других агентов. В текущей модели мы рассматриваем аналогичные конфигурации:
Агрессивное поведение невозможно, агенты не различают родственников. Агенты могут нападать друг на друга, агенты не различают родственников. Агенты могут нападать друг на друга, агенты различают родственников.На фиг. 2 первый типа конфигурации соответствует тому, который обозначен “◊”, “o” отвечает второму случаю, для “+” аналогичного режима не было предложено. Значения “x” могут быть рассмотрены как третий случай конфигурации. На фиг. 2 можно наблюдать, что количество агентов прямо пропорционально входящему ресурсу, это случай отсутствия агрессивного поведения. Для экспериментов во втором режиме, график разделяется на области, когда агент не может прокормить себя оставаясь в одной клетке и бездействуя постоянно, и когда агенты заполняют собой все пространство после увеличения ресурса (Nc – количество клеток в среде), но не могут поделить ресурсы из-за чего завязывается борьба. Для результатов третьего режима конфигурации динамика популяции вначале сходна со вторым режимом с последующим переходом к первой конфигурации [3].

Fig. 3. Plot of population size on the number of resource input.
На фиг. 3 изображена динамика популяции для модели исследуемой в этой работе. Можно заметить, что результаты для первого типа экспериментов также лежат на прямой линии, обозначая пропорциональную зависимость между ресурсом и количеством агентов. Во втором и третьем случаем конфигураций динамика популяций также согласуется с прототипом. До некоторого значения ресурса второй и третий случаи одинаковы, а после динамика для третьего случая повторяет динамику для первого случая.
Рассматривая результаты сравнения результатов моделирования обоих моделей можно утверждать о схожести паттернов зависимости динамики популяции от ресурса. Следуя понятию o posteriori функции приспособленности для внутреннего адаптационного процесса впервые введенному Пакардом [2], мы хотели бы подчеркнуть, что размер популяции также может быть использован как показатель такой функции приспособленности.
Агрессивное и мирное поведениеМодели - это удобная площадка для изучения зависимости агрессивного и мирного поведения от количества наличного в системе ресурса и типов взаимодействия между группами связанных агентом. Мы предлагаем рассмотреть результаты работы модели для третьего случая моделирования: агенты могут нападать друг на друга, агенты различают родственников, и найти ссылки на случаи появления агрессивного поведения между текущей моделью и ее прототипом. Для всех рассмотренных случаев возможность кооперативной защиты была отключена.

Fig. 4. Пример графика стратегий для симуляции со входящим ресурсом 1000.
Фиг. 4 показывает количество агентов, которые в текущий момент времени придерживаются той или иной стратегии. Если в стратегии присутствует действия «нападать», то ее цветовая гамма сдвигается в черный спектр, для остальных действий – серый цвет. Кривая отмеченная треугольником отображает размер популяции.
Так, мы можем увидеть, что значительное время мирные стратегии, суть которых поиск и потребление ресурса, доминируют. Поведение популяции в течении времени можно разделить на 2 условных этапа: мирный этап (до 7,4 млн. тактов) и агрессивный (после 7,4 млн. тактов). Такие переходы характерны для малого количества ресурса, который поступает в систему.
Поэтому при небольшом количестве ресурса одной из наиболее эффективных стратегий является мирная стратегия, когда агенты не различают родственников и предпочитают отдыхать (например, стратегия 000000), либо убегают от родственников, с целью избежать конкуренции за ресурсы (например, стратегия 000010) или же убегают от чужаков чувствуя угрозу. Частоты стратегий, которые не различают родственников и учитывают родственные отличия отличаются несущественно в сторону преобладания более кооперативных стратегий. Под понятием кооперативные следует подразумевать такие стратегии, которые различают родственников и корректируют своё поведение, чтобы получить выгоду от этого, например, нивелировать агрессивные действия в окружении родственников. Так агенты получают быть в безопасности в компании родственников либо покидают область, наполненную родственниками, чтобы уменьшить конкуренцию за ресурсы.
Для малого количества ресурсов мирные стратегии играют важную роль. С увеличением количества ресурсов, почти все стратегии, используемые в популяции агентов, показывают агрессивное поведение и волатильность. Мирные стратегии больше не могут длиться значительной период времени, как в случае с малым ресурсом. Следует отметить, что большая часть агентов теперь различает родственников хотя бы в одном случае уровня входящего ресурса. Увеличенные значения популяции, которую может прокормить среда, как, например, интервал времени от 600 до 800 тыс. итераций (фиг. 5), обычно вызвано доминированием полностью кооперативных стратегий, то есть таких, которые различают родственников во всех трех случаях обеспеченности внутренним ресурсом в тестовом векторе: 020202 (стратегия известная как «ворон» [4]), 020213 («убегать» от родственников, чтобы уменьшить конкуренцию за ресурсы, когда значение своего ресурса близко к максимуму), 020203 (выполнять действие «делиться», чтобы окружить себя родственниками и обезопасить).

Fig. 5. Стратегии для популяции в среде со средним значением входящего ресурса.
В случае большого количества входящих ресурсов агенты имеют возможность полностью заполнить клеточное пространство и не умирают от голода, не занимаясь поиском пищи. Конкуренция между стратегиями становится вялотекущей. Таким образом, когда все клетки заполнены агентами агрессивные и мирные стратегии редко сменяют друг друга (фиг. 6).

Fig. 6. Стратегии агентов для большого количества ресурсов.
Рассматривая зависимость агрессивного поведения от количества входящего ресурса, мы можем сравнить модели, выбрав аналогичный паттерн в модели-прототипе. Такими значениями являются динамика частоты агрессивных стратегий для обоих моделей. Стратегия считается агрессивной если в ней присутствует хотя бы одно действие «нападать».

а)

b)
Fig. 7. Зависимость мирного и агрессивного поведения от входящего ресурса. а) – частота мирных (Peaceful Strategies) и агрессивных (Aggressive Strategies) стратегий для текущей модели. b) – частота агрессивных стратегий (Aggressive agents) в модели-прототипе. Графики взяты из работы [4].
ВыводыДанная работа в большинстве своём посвящена опыту репликации модели и сравнения поведенческих патеров между прототипом и репликацией. Мы можем утверждать об успешной репликации существующей модели в такую, которая немного отличается от неё. Мы смогли наблюдать схожие характеристики моделей и расширить горизонт исследований над моделью. Интенсивность мирных и агрессивных стратегий была проверена на зависимость от наличного ресурса в многоагетной системе. Была продемонстрирована зависимость конкуренции агрессивных и мирных стратегий от количества входящего ресурса. Результаты симуляций текущей модели и модели-прототипа оказались схожи.
Продолжением развития текущей модели и исследования моделей искусственной жизни мы рассматриваем решение таких задач: преодоление большой вычислительной сложности проведения экспериментов, улучшение и большую детализацию взаимодействия между агентом и средой, замена дискретного клеточного пространства непрерывным, внедрение новых типов взаимодействий между агентами и построение новых методой анализа популяций агентов.
Программные улучшения реализации модели, которые позволяют запускать ее в среде с высокой вычислительной производительностью даст возможность наблюдения долгосрочных трендов и может внести ясность в понимание моделей такого типа.
Следует отметить важность внедрения и использования новых методов анализа сложных адаптивных систем. Например, Бурцевым было предложено многообещающую методологию, которая рассматривает эволюционирующую популяцию агентов как динамическую систему [7]. Открытыми остаются вопросы протекания конкуренции агентных групп и установление значения влияния на успешность в этой конкуренции таких разных факторов как агрессия и изменения фенотипа, генотипические переходы.


