Анализ устойчивости кластеров в данных «Политического Атласа Современности»:

Андрей Зиновьев и Валерий Кижнер

Резюме

В данном отчете приводятся предварительные результаты по исследованию устойчивости некоторых кластеров стран, возникающих в анализе статических данных «Политического Атласа Современности» собранных на состояние 2005г. и сведенных в пять интегральных индексов (Качества жизни, Государственности, Демократии, Угроз, Международного влияния). Для верификации устойчивости кластера применяется процедура, разработанная Валерием Кижнером (Университет Хайфа, Израель), ранее опробованная для биологических данных [1], основанная на варианте метода бутстрапа.

В результате применения метода, в данных Атласа обнаружены несколько устойчивых кластеров, в которых страны характеризуются определенными соотношениями индексов. Так, например, устойчивы кластеры, которые можно охарактеризовать как «арабский» и «кластер влияния».

Описание работы метода в случае данных Политологического Атласа

Применяемый метод позволяет ответить на следующие вопросы для выделенной группы стран:

Образует ли группа устойчивой схожестью между ее членами? Какие из стран в группе образуют кластер и какие выпадают из группы? Какие из стран вне группы должны быть включены в группу «по схожести»?

Метод требует следующих входных данных:

Матрица расстояний между точками данных Dij Исходное определение кластера (набор стран) для тестирования A Значение уровня вхождения группы в кластер U

Этапы работы метода следующие

НЕ нашли? Не то? Что вы ищете?
Производится случайная выборка M стран (из N=192), включая все страны из группы A Используя матрицу расстояний D, производится иерархическая кластеризация данных Полученная дендрограмма анализируется стандарным способом и ищется такой уровень разрезания дендрограммы, чтобы образовался кластер, в котором содержится как минимум U стран из группы А (U-кластер), см. Рис. 1. Шаги 1-3 повторяются K раз, в результате чего подсчитываются статистики попадания той или иной страны 1) в выборку и 2) в U-кластер, после чего частота попадания в U-кластер нормализуется на частоту попадания в выборку. Заметим, что для стран из группы А, согласно шагу 1, частота попадания в выборку равна 100%.

Рис. 1. Пример анализа дендрограммы иерархической кластеризации (сплошная черная линия). Набор кластеров определяется разрезанием дендрограммы на определенном уровне (прерывистая линия). Этот уровень определяется из условия образования кластера, который включает в себя определенный процент объектов (стран) из группы A (пример положения объектов в группе А показано красными штрихами под дендрограммой). В данном примере в группе А содержится 15 стран, уровень вхождения определен в U = 9 объектов. Дендрограмма обрезана на таком уровне, при котором образуется U-кластер (крайний справа), в котором оказалось 9 объектов из группы А.

Результаты применения метода к статическим данным Политологического Атласа

Для пробного испытания метода были выбраны данные по 5 политологическим индексам. Параметры метода выбирались следующие M=100, K=100. Для вычисления расстояния между странами, каждый индекс в шкале (0-10) был нормирован на его среднее значение, и в качестве расстояния использовалось значение единица минус коэффициент корреляции между значениями индексов.

В качестве пробного определения групп стран, использовались 1) группы стран по географическому положению, 2) группа «некоторые арабские страны» (не все, для того, чтобы верифицировать метод), 3) группа постсоветских стран.

«Арабский кластер»

В качестве группы А взяты 13 стран: Oman, Tunisia, United_Arab_Emirates, Bahrain, Kuwait, Qatar, Jordan, Iraq, Lebanon, Morocco, Egypt, Syrian_Arab_Republic, Saudi_Arabia. Рассмотрим уровень вхождения U = 6 (то есть будем требовать, чтобы не менее шести стран из 13ти входили в один и тот же кластер). 100 случайных выборок дают следующий результат (Табл.1, показана часть полной таблицы с нормализованной принадлежностью к кластеру не менее15%). Видно, что из 13 стран в группе, 7 членов стабильно собираются в кластер (Oman, Tunisia, United_Arab_Emirates, Bahrain, Kuwait, Qatar, Jordan) и «притягивают» ряд стран, не принадлежащих изначально группе (Cuba, Kazakhstan, Belarus, Brunei_Darussalam, Monaco, Singapore, Tonga, Libyan). Следующая по нормированной принадлежности страна (Туркменистан) уже обладает гораздо меньшей принадлежностью (32.5%) по сравнению с предыдущим Libyan (77%), что позволяет не включать его в кластер. Общее распределение по принадлежности к этому кластеру показано на рис. 1, из которого видна четкая граница найденного кластера.

Интресно заметить, что Ливия, не выбранная изначально в группу А, оказывается ассоциирована с кластером. В то же время, принадлежность Кубы, Казахстана, Сингапура, Беларуси и особенно Монако к «арабскому кластеру» вызывает вопросы о причинах такой ассоциации. Однако, обращаясь к ранее выполненному кластерному анализу в рамках проекта, можно найти подтверждение (и частичное объяснение) такой связи. В частности, на уровне 10-кластерного масштаба был найден кластер из 15 стран, расположенных на нижней (недемократической) дуге на плоскости первых двух главных компонент (ОАЭ, Бахрейн, Белоруссия, Бруней, Куба, Казахстан, Кувейт, Ливия, Монако, Малайзия, Оман, Катар, Саудовская Аравия, Сингапур, Тунис), который пересекается с найденным кластером (13 стран в пересечении), а также кластер из 2 стран на этой же дуге (Иордания и Тонга).

Таким образом, анализ стабильности подтверждает и уточняет ранее проведенный кластерный анализ. Например, показывается, что включение Саудовской Аравии и Малайзии в него носит нестабильный (невоспроизводимый при случайном выборе точек) характер. Действительно, среди остальных стран кластера Саудовская Аравия отличается значительно большим потенциалом международного влияния. С другой стороны, проведенный анализ предлагает присоединение кластера (Иордания, Тонга) к «арабскому кластеру».

Таблица 1. Анализ «Арабского кластера»

Страна

В группе А?

Число попаданий в выборку

Число попаданий в U-кластер

Нормализованная принадлежность к кластеру, %

Cuba

0

45

45

100

Kazakhstan

0

51

51

100

Oman

1

100

99

99

Tunisia

1

100

99

99

Belarus

0

52

51

98.08

United_Arab_Emirates

1

100

97

97

Bahrain

1

100

97

97

Kuwait

1

100

97

97

Qatar

1

100

97

97

Brunei_Darussalam

0

49

47

95.92

Monaco

0

45

43

95.56

Jordan

1

100

95

95

Singapore

0

40

38

95

Tonga

0

58

54

93.1

Libyan

0

48

37

77.08

Turkmenistan

0

40

13

32.5

Maldives

0

40

9

22.5

Luxembourg

0

40

8

20

Uzbekistan

0

46

8

17.39


Анализ «арабского кластера» может быть продолжен и уточнен. Так, например, положив U = 4 можно выделить «ядро кластера», состоящее из 4 арабских (ОАЭ, Бахрейн, Кувейт и Катар) стран. В дальнейшем их можно исключить из группы А и повторить анализ. Это дает кластер Morocco, VietNam, Syrian_Arab_Republic, Egypt, Algeria, Iran, который также пересекается с одним из ранее описанных 10 кластеров Атласа.

Рис. 1. Распределение нормализованных принадлежностей к «арабскому кластеру». Арабские страны, не вошедшие в кластер, показаны стрелками.

Группа «постсоветских стран»

Теперь возьмем в качестве группы А группу из 15 постсоветских стран. Результат приведен в Табл. 2. На этот раз границы кластера гораздо более размыты, и из группы кластер образуют только подгруппа Киргизстан, Грузия, Таджикистан, Азейбарджан. В целом, можно сделать вывод о том, что группа постсоветских стран не представляет из себя консолидированного кластера в индексах Атласа.

Таблица 2. Анализ «постсоветской группы»

Страна

В группе А?

Число попаданий в выборку

Число попаданий в U-кластер


Нормализованная принадлежность к кластеру, %

Bhutan

0

49

49

100

Georgia

1

100

100

100

Kyrgyzstan

1

100

100

100

Mauritania

0

42

42

100

Nepal

0

41

41

100

Tajikistan

1

100

100

100

Azerbaijan

1

100

98

98

Haiti

0

40

39

97.5

Equatorial_Guinea

0

38

37

97.37

Somalia

0

45

41

91.11

Laos

0

52

47

90.38

Uganda

0

41

36

87.8

Congo

0

39

34

87.18

Togo

0

48

41

85.42

Sierra_Leone

0

44

37

84.09

Rwanda

0

48

40

83.33

Djibouti

0

39

31

79.49

Burundi

0

48

38

79.17

Iraq

0

49

38

77.55

Ethiopia

0

49

37

75.51

Sri_Lanka

0

48

36

75

Sudan

0

44

33

75


Группы по географическому признаку

В следующем анализе были взяты группы стран по географическому положению, с тем, чтобы обнаружить на их основе когерентные кластера стран. Результаты приведены в таблице П3 Приложения. Анализ таблицы позволяет сделать следующие заключения.

Использование групп стран по географическому признаку позволяет обнаружить несколько компактных кластеров стран, с четко очерченной границей (принадлежностью к кластеру), таких как East Asia, East Europe, Middle East, North Africa, North Europe, Western Africa.

Интересен кластер, полученный с помощью группы стран East Asia (Восточная Азия). Китай и Япония стабильно входят в него и принадлежат исходной группе. Однако эта группа стабильно «затягивает» в кластер США, Россию, Турцию (с частотой вхождения 100%), а также Саудовскую Аравию (97%), Индию (94%), Германию (85%), Венесуэлу (82%), Францию (73%). Для того, чтобы интерпретировать принадлежность к этому кластеру, необходимо проанализировать индивидуальные значения индексов (см. рис. 2). Как видно, характерной особенностью этих стран являются высокие значения индексов государственности и влиятельности, что позволяет охарактеризовать этот кластер как «кластер влияния».

Рис. 2. Распределение значений индексов по странам, входящим в «кластер влияния».

Литература

Kirzhner V., Bolshoy A., Volkovich Z., Korol A., Nevo E. Large-scale genome clustering across life based on a linguistic approach. Biosystems 81 (2005) 208-222.

Приложение Таблица П1

Группа А

Распределение принадлежности, %

Страны из А, образующие кластер в группе

Страны не из А, ассоциированные с кластером

Western Europe


Belgium

Netherlands

Austria

Switzerland

Australia

Brazil

Canada

Denmark

Finland

Greece

Malaysia

Mexico

Norway

Spain

Sweden

Ukraine

East

Asia



Japan

China

USA

Russia

Turkey

Saudi_Arabia

India

Germany

Venezuela

France

East

Europe



Bulgaria

Hungary

Romania

Poland

Argentina

Chile

Middle

East



Jordan

United_Arab_Emirates

Kuwait

Oman

Libyan

Tonga

Bahrain

Brunei_Darussalam

Cuba

Tunisia

Monaco

Singapore

Qatar

Belarus

Kazakhstan

North

Africa



Morocco

Algeria

Egypt

Libyan

Syrian_Arab_Republic

VietNam

Iran

Myanmar

North

Europe



Norway

Denmark

Finland

Sweden

Ireland

Czech_Republic

Greece

Austria

Portugal

North

America



Canada

USA

Japan

Germany

Turkey

France

Netherlands

Italy

United_Kingdom

China

Russia

Belgium

Saudi_Arabia

Brazil

Korea

Oceania


Micronesia

Marshall_Islands

Tuvalu

Kiribati

Vanuatu

Palau

Solomon_Islands

Nauru

Samoa

Papua_New_Guinea

Fiji

Cape_Verde

Sao_Tome_and_Principe

Bolivia

Guyana

Comoros

Macedonia

Lebanon

Mongolia

Moldava

Armenia

Grenada

Dominica

Honduras

South

Africa


Lesotho

Namibia

Madagascar

Malawi

Salvador

Kenya

Tanzania

Ghana

Nicaragua

Mali

Colombia

Papua_New_Guinea

Mozambique

South

America



Paraguay

Suriname

Ecuador

Jamaica

Botswana

Dominican_Republic

Honduras

Guatemala

Albania

Saint_Vincent_Grenadines

Gabon

Saint_Lucia

Belize

Fiji

Trinidad_and_Tobago

Panama

South

Central

Asia



Bhutan

Nepal

Sri_Lanka

Kyrgyzstan

Georgia

Laos

Equatorial_Guinea

Togo

Tajikistan

Rwanda

Azerbaijan

Mauritania

Sierra_Leone

Ethiopia

Uganda

Somalia

Chad

Congo

Benin

Djibouti

Burundi

Haiti

Afghanistan

Central_African_Republic

Guinea_Bissau

East_Timor

South

East

Asia




Laos

East_Timor

Cambodia

Philippines

Chad

Guinea_Bissau

Burundi

Senegal

Somalia

Sierra_Leone

Uganda

Rwanda

Bhutan

Togo

Mozambique

Central_African_Republic

Benin

Liberia

Gambia

Sri_Lanka

Burkina_Faso

Haiti

Congo

Cameroon

Zimbabwe

South

Europe



Andorra

Malta

Slovenia

Cyprus

San_Marino

Portugal

Greece

Slovakia

Iceland

Liechtenstein

New_Zealand

Ireland

Taiwan

Denmark

Norway

Luxembourg

Czech_Republic

Western

Africa



Liberia

Niger

Senegal

Guinea_Bissau

Cote_DIvoire

Sierra_Leone

Togo

Benin

Burkina_Faso

Gambia

Mali

Bangladesh

Sri_Lanka

East_Timor

Philippines

Central_African_Republic

Cambodia

Afghanistan

Western

Asia



Bahrain

Qatar

Turkey