Анализ устойчивости кластеров в данных «Политического Атласа Современности»:
Андрей Зиновьев и Валерий Кижнер
Резюме
В данном отчете приводятся предварительные результаты по исследованию устойчивости некоторых кластеров стран, возникающих в анализе статических данных «Политического Атласа Современности» собранных на состояние 2005г. и сведенных в пять интегральных индексов (Качества жизни, Государственности, Демократии, Угроз, Международного влияния). Для верификации устойчивости кластера применяется процедура, разработанная Валерием Кижнером (Университет Хайфа, Израель), ранее опробованная для биологических данных [1], основанная на варианте метода бутстрапа.
В результате применения метода, в данных Атласа обнаружены несколько устойчивых кластеров, в которых страны характеризуются определенными соотношениями индексов. Так, например, устойчивы кластеры, которые можно охарактеризовать как «арабский» и «кластер влияния».
Описание работы метода в случае данных Политологического Атласа
Применяемый метод позволяет ответить на следующие вопросы для выделенной группы стран:
Образует ли группа устойчивой схожестью между ее членами? Какие из стран в группе образуют кластер и какие выпадают из группы? Какие из стран вне группы должны быть включены в группу «по схожести»?Метод требует следующих входных данных:
Матрица расстояний между точками данных Dij Исходное определение кластера (набор стран) для тестирования A Значение уровня вхождения группы в кластер UЭтапы работы метода следующие

Рис. 1. Пример анализа дендрограммы иерархической кластеризации (сплошная черная линия). Набор кластеров определяется разрезанием дендрограммы на определенном уровне (прерывистая линия). Этот уровень определяется из условия образования кластера, который включает в себя определенный процент объектов (стран) из группы A (пример положения объектов в группе А показано красными штрихами под дендрограммой). В данном примере в группе А содержится 15 стран, уровень вхождения определен в U = 9 объектов. Дендрограмма обрезана на таком уровне, при котором образуется U-кластер (крайний справа), в котором оказалось 9 объектов из группы А.
Результаты применения метода к статическим данным Политологического Атласа
Для пробного испытания метода были выбраны данные по 5 политологическим индексам. Параметры метода выбирались следующие M=100, K=100. Для вычисления расстояния между странами, каждый индекс в шкале (0-10) был нормирован на его среднее значение, и в качестве расстояния использовалось значение единица минус коэффициент корреляции между значениями индексов.
В качестве пробного определения групп стран, использовались 1) группы стран по географическому положению, 2) группа «некоторые арабские страны» (не все, для того, чтобы верифицировать метод), 3) группа постсоветских стран.
«Арабский кластер»
В качестве группы А взяты 13 стран: Oman, Tunisia, United_Arab_Emirates, Bahrain, Kuwait, Qatar, Jordan, Iraq, Lebanon, Morocco, Egypt, Syrian_Arab_Republic, Saudi_Arabia. Рассмотрим уровень вхождения U = 6 (то есть будем требовать, чтобы не менее шести стран из 13ти входили в один и тот же кластер). 100 случайных выборок дают следующий результат (Табл.1, показана часть полной таблицы с нормализованной принадлежностью к кластеру не менее15%). Видно, что из 13 стран в группе, 7 членов стабильно собираются в кластер (Oman, Tunisia, United_Arab_Emirates, Bahrain, Kuwait, Qatar, Jordan) и «притягивают» ряд стран, не принадлежащих изначально группе (Cuba, Kazakhstan, Belarus, Brunei_Darussalam, Monaco, Singapore, Tonga, Libyan). Следующая по нормированной принадлежности страна (Туркменистан) уже обладает гораздо меньшей принадлежностью (32.5%) по сравнению с предыдущим Libyan (77%), что позволяет не включать его в кластер. Общее распределение по принадлежности к этому кластеру показано на рис. 1, из которого видна четкая граница найденного кластера.
Интресно заметить, что Ливия, не выбранная изначально в группу А, оказывается ассоциирована с кластером. В то же время, принадлежность Кубы, Казахстана, Сингапура, Беларуси и особенно Монако к «арабскому кластеру» вызывает вопросы о причинах такой ассоциации. Однако, обращаясь к ранее выполненному кластерному анализу в рамках проекта, можно найти подтверждение (и частичное объяснение) такой связи. В частности, на уровне 10-кластерного масштаба был найден кластер из 15 стран, расположенных на нижней (недемократической) дуге на плоскости первых двух главных компонент (ОАЭ, Бахрейн, Белоруссия, Бруней, Куба, Казахстан, Кувейт, Ливия, Монако, Малайзия, Оман, Катар, Саудовская Аравия, Сингапур, Тунис), который пересекается с найденным кластером (13 стран в пересечении), а также кластер из 2 стран на этой же дуге (Иордания и Тонга).
Таким образом, анализ стабильности подтверждает и уточняет ранее проведенный кластерный анализ. Например, показывается, что включение Саудовской Аравии и Малайзии в него носит нестабильный (невоспроизводимый при случайном выборе точек) характер. Действительно, среди остальных стран кластера Саудовская Аравия отличается значительно большим потенциалом международного влияния. С другой стороны, проведенный анализ предлагает присоединение кластера (Иордания, Тонга) к «арабскому кластеру».
Таблица 1. Анализ «Арабского кластера»
Страна | В группе А? | Число попаданий в выборку | Число попаданий в U-кластер | Нормализованная принадлежность к кластеру, % |
Cuba | 0 | 45 | 45 | 100 |
Kazakhstan | 0 | 51 | 51 | 100 |
Oman | 1 | 100 | 99 | 99 |
Tunisia | 1 | 100 | 99 | 99 |
Belarus | 0 | 52 | 51 | 98.08 |
United_Arab_Emirates | 1 | 100 | 97 | 97 |
Bahrain | 1 | 100 | 97 | 97 |
Kuwait | 1 | 100 | 97 | 97 |
Qatar | 1 | 100 | 97 | 97 |
Brunei_Darussalam | 0 | 49 | 47 | 95.92 |
Monaco | 0 | 45 | 43 | 95.56 |
Jordan | 1 | 100 | 95 | 95 |
Singapore | 0 | 40 | 38 | 95 |
Tonga | 0 | 58 | 54 | 93.1 |
Libyan | 0 | 48 | 37 | 77.08 |
Turkmenistan | 0 | 40 | 13 | 32.5 |
Maldives | 0 | 40 | 9 | 22.5 |
Luxembourg | 0 | 40 | 8 | 20 |
Uzbekistan | 0 | 46 | 8 | 17.39 |
Анализ «арабского кластера» может быть продолжен и уточнен. Так, например, положив U = 4 можно выделить «ядро кластера», состоящее из 4 арабских (ОАЭ, Бахрейн, Кувейт и Катар) стран. В дальнейшем их можно исключить из группы А и повторить анализ. Это дает кластер Morocco, VietNam, Syrian_Arab_Republic, Egypt, Algeria, Iran, который также пересекается с одним из ранее описанных 10 кластеров Атласа.

Рис. 1. Распределение нормализованных принадлежностей к «арабскому кластеру». Арабские страны, не вошедшие в кластер, показаны стрелками.
Группа «постсоветских стран»
Теперь возьмем в качестве группы А группу из 15 постсоветских стран. Результат приведен в Табл. 2. На этот раз границы кластера гораздо более размыты, и из группы кластер образуют только подгруппа Киргизстан, Грузия, Таджикистан, Азейбарджан. В целом, можно сделать вывод о том, что группа постсоветских стран не представляет из себя консолидированного кластера в индексах Атласа.
Таблица 2. Анализ «постсоветской группы»
Страна | В группе А? | Число попаданий в выборку | Число попаданий в U-кластер |
Нормализованная принадлежность к кластеру, % |
Bhutan | 0 | 49 | 49 | 100 |
Georgia | 1 | 100 | 100 | 100 |
Kyrgyzstan | 1 | 100 | 100 | 100 |
Mauritania | 0 | 42 | 42 | 100 |
Nepal | 0 | 41 | 41 | 100 |
Tajikistan | 1 | 100 | 100 | 100 |
Azerbaijan | 1 | 100 | 98 | 98 |
Haiti | 0 | 40 | 39 | 97.5 |
Equatorial_Guinea | 0 | 38 | 37 | 97.37 |
Somalia | 0 | 45 | 41 | 91.11 |
Laos | 0 | 52 | 47 | 90.38 |
Uganda | 0 | 41 | 36 | 87.8 |
Congo | 0 | 39 | 34 | 87.18 |
Togo | 0 | 48 | 41 | 85.42 |
Sierra_Leone | 0 | 44 | 37 | 84.09 |
Rwanda | 0 | 48 | 40 | 83.33 |
Djibouti | 0 | 39 | 31 | 79.49 |
Burundi | 0 | 48 | 38 | 79.17 |
Iraq | 0 | 49 | 38 | 77.55 |
Ethiopia | 0 | 49 | 37 | 75.51 |
Sri_Lanka | 0 | 48 | 36 | 75 |
Sudan | 0 | 44 | 33 | 75 |
Группы по географическому признаку
В следующем анализе были взяты группы стран по географическому положению, с тем, чтобы обнаружить на их основе когерентные кластера стран. Результаты приведены в таблице П3 Приложения. Анализ таблицы позволяет сделать следующие заключения.
Использование групп стран по географическому признаку позволяет обнаружить несколько компактных кластеров стран, с четко очерченной границей (принадлежностью к кластеру), таких как East Asia, East Europe, Middle East, North Africa, North Europe, Western Africa.
Интересен кластер, полученный с помощью группы стран East Asia (Восточная Азия). Китай и Япония стабильно входят в него и принадлежат исходной группе. Однако эта группа стабильно «затягивает» в кластер США, Россию, Турцию (с частотой вхождения 100%), а также Саудовскую Аравию (97%), Индию (94%), Германию (85%), Венесуэлу (82%), Францию (73%). Для того, чтобы интерпретировать принадлежность к этому кластеру, необходимо проанализировать индивидуальные значения индексов (см. рис. 2). Как видно, характерной особенностью этих стран являются высокие значения индексов государственности и влиятельности, что позволяет охарактеризовать этот кластер как «кластер влияния».


Рис. 2. Распределение значений индексов по странам, входящим в «кластер влияния».
Литература
Kirzhner V., Bolshoy A., Volkovich Z., Korol A., Nevo E. Large-scale genome clustering across life based on a linguistic approach. Biosystems 81 (2005) 208-222.Приложение Таблица П1
Группа А | Распределение принадлежности, % | Страны из А, образующие кластер в группе | Страны не из А, ассоциированные с кластером | ||||||||||||||||||||||||||
Western Europe |
|
|
| ||||||||||||||||||||||||||
East Asia |
|
|
| ||||||||||||||||||||||||||
East Europe |
|
|
| ||||||||||||||||||||||||||
Middle East |
|
|
| ||||||||||||||||||||||||||
North Africa |
|
|
| ||||||||||||||||||||||||||
North Europe |
|
|
| ||||||||||||||||||||||||||
North America |
|
|
| ||||||||||||||||||||||||||
Oceania |
|
|
| ||||||||||||||||||||||||||
South Africa |
|
|
| ||||||||||||||||||||||||||
South America |
|
|
| ||||||||||||||||||||||||||
South Central Asia |
|
|
| ||||||||||||||||||||||||||
South East Asia |
|
|
| ||||||||||||||||||||||||||
South Europe |
|
|
| ||||||||||||||||||||||||||
Western Africa |
|
|
| ||||||||||||||||||||||||||
Western Asia |
|
| … |

































