Текстовая аналитика в антикоррупционной деятельности
к. т.н. 1, 1,
1, к. э.н. Просянкина-2
1 Институт прикладного системного анализа НТУУ “КПИ”,
03056 Киев, пр-т Победы 37.
2 Национальный университет биоресурсов и природопользования
Украины, 03041 Киев, .
o. *****@***com
Актуальность проблемы борьбы с коррупцией. Борьба с коррупцией на сегодняшний день является одной из важнейших задач стран постсоветского пространства, потому что напрямую связана со многими производными от нее проблемами государства в общем и социума в частности.
Метрики измерения коррупции. К наиболее популярным формальным показателям измеряющим коррупцию в государстве можно отнести следующие:
1) Индекс восприятия коррупции (Corruption Perceptions Index, CPI) – уровень восприятия коррупции аналитиками и предпринимателями по десятибалльной шкале.
2) Коррупционный опыт (Bribe Payers Index, BPI) – мера готовности бизнеса давать взятки за рубежом.
3) Уровень доверия к госучреждениям (связан со степенью их коррумпированности).
4) Расходы на получение государственных услуг.
5) Разного рода социальные показатели, такие как уровень сокрытия информации о преступлениях, контрабанды, уклонения от налогов и т. п.
В свою очередь реакцию социума и населения можно описать следующими мерами измерения коррупции:
1) Реакция населения: (a) критика; (b) злость; (c) готовность дать взятку; (d) злорадство; (e) слухи.
2) Реакция и заявления локальных экспертов и политиков.
3) Реакция и заявления иностранных экспертов и политиков.
Методы текстовой аналитики в антикоррупционной деятельности. Текстовая аналитика в антикоррупционной деятельности включается в себя решение следующих задач:
1) Мониторинг новостей и блогов с целью:
- классификации сообщений по видам коррупционной или антикоррупционной деятельности; идентификации видов экономической деятельности при выявлении субъектов и объектов, имеющих отношение к бюджету или государственной деятельности; обработки текстов при идентификации объекта или субъекта из заранее определенного перечня.
2) Мониторинг сообщений с деятельностью в наиболее уязвимых отраслях:
- государственные закупки; операции с земельными участками; сбор налогов; назначение на ответственные посты в органах государственной власти; местное самоуправление.
3) Мониторинг комментариев к новостям и блогам, социальных сетей с целью анализа:
- реакции социума; мониторинг слухов; идентификации подозрительных ситуаций за счет краудсорсинга.
4) Мониторинг социальных сетей и форумов с целью:
- поиска рекомендаций по созданию условий коррупционной деятельности (советов где и как дать взятку, сумм и способов) поиска сообщений с подозрениями на коррупционную деятельность анализа социальных связей.
5) Поиск проявлений коррупции по направлениям
- непосредственное участие должностных лиц и государственных служащих, депутатов в коммерческой деятельности для извлечения личной или корпоративной прибыли; использование служебного положения для “перекачки” государственных денежных средств в целях их “обналичивания” и похищения в коммерческие структуры; предоставление льгот для своей корпоративной группы (политической, религиозной, национальной, клановой и т. п.) с отвлечением государственных ресурсов; использование служебного положения для воздействия на СМИ для получения личной и корпоративной выгоды; использование должностными лицами и государственными служащими подставных лиц и родственников в коммерческих структурах в целях личного обогащения; использование служебного положения для манипулирования информацией (искажение, не предоставление, затягивание сроков выдачи и т. п.) в целях извлечения личной и корпоративной выгоды; лоббирование решений о принятии нормативных актов в узкогрупповых интересах; предоставление государственных финансовых и материальных ресурсов в избирательные фонды отдельных претендентов.
Международный опыт борьбы с коррупцией. Для пресечения и раскрытия коррупционных преступлений в таких странах как США, Франция, Сингапур, Израиль, Индия, Польша существует отдельный правоохранительный орган с широкими силовыми полномочиями – Национальное антикоррупционное бюро (НАБ).
Ни для кого не секрет, что для сбора, хранения и обработки информации соответствующие службы используют специализированное программное обеспечение, позволяющее максимально автоматизировать процессы и использовать высвобождаемые человеческие ресурсы для аналитической работы.
Среди вендоров, предоставляющих современные высокопродуктивные аналитические комплексы, можно выделить компанию SAS Institute, как мирового лидера в области аналитики [1]. Модульная схема специализированного аналитического программного обеспечения представлена на рис. 1.

Рис. 1. Классификация методов текстовой аналитики и соответствующих программных средств.
SAS Crawler, SAS Search and Indexing используется для извлечения контента из интернета или документов, хранящихся на локальных устройствах.
SAS Ontology Management используется для интеграции уже существующих репозитариев документов на предприятии и поиске взаимосвязей между ними. Данный инструмент помогает управлять знаниями – строить онтологии и иерархии семантических взаимосвязей.
SAS Content Categorization используется для представления коллекции документов в виде структурированной иерархии категорий и подкатегори, называемых таксономией. С помощью этого инструмента извлекаюи информацию (события, места, имена людей, денежные суммы).
SAS Text Miner используется для извлечения ключевых тем в текстовых документах. Этот инструмент позволяет сгруппировать схожие документы в кластеры на основе частоты встречаемости терминов в корпусе документов. Это позволяет выявлять концептуальные связи (концепт-картирование) для анализа характера и силы связи межу терминами [1].

Рис. 2. Анализ данных тематик новостей о коррупции в Украине
Примеры использования инструментария текстовой аналитики.
14 октября 2014 года был принят закон “О Национальном антикоррупционном бюро Украины”, который вступил в силу 25 января 2015 года, а 1 декабря 2015 года был назначен первый директор НАБ . В рамках проекта NUKR. SFPP G4877 для аналитической службы МВД, которая использует программное обеспечение SAS с 2012 года, был выполнен анализ данных по тематикам новостей о коррупции в Украине.
Кластеризация документов. Анализ открытых источников в сети Интернет позволили выделить в автоматическом режиме тридцать кластеров, на основании заложенных в систему статистических алгоритмов кластеризации, с использованием собственных чисел термов соответствующих каждому анализируемому документу. На основании экспертных оценок полученные кластеры были укрупнены до пяти групп, как показано на рис. 2.
Анализ эмоциональной окраски. В качестве еще одного примера использования возможностей текстовой аналитики рассмотрим анализ серии заказных публикаций украинского олигарха среднего эшелона Константина Григоришина от 29 сентября 2015 года [2] и от 1 октября 2015 года [3] На рис. 3 показан пример выявленной концептуальной связи. Подобные концептуальные схемы позволяют выстраивать причинно-следственные логические цепочки, например:
1) Коломойский -> влияние –> Кононенко, может иметь вербальное описание – Коломойский и Кононенко являются конкурентами за влияние в Украине.
2) Коломойский -> деолигерхатизация –> Ахметов, может иметь вербальное описание – необходимость провести деолигерхатизацию, в первую очередь по отношению к Коломойскому и Ахметову.

Рис. 3. Пример концептуальной связи между ключевым термом “Коломойский” и словами, которые связны с ним, с точки зрения максимально частоты совместного употребления в статьях [2, 3].
На основе применения инструментария для анализа эмоциональной окраски текста, разработанного авторами, были получены следующие результаты:
1) Объекты беспокойства в тексте интервью [2-3]: 1) эффективное руководство (уровень беспокойства 0,45); 2) свое будущее (0,4); 3) политическое будущее (0,3); 4) политическая воля (0,25); 5) журналисты (0,18); 6) личный карман (0,15); 7) независимые СМИ (0,13); 8) политическая партия “Народный фронт” (0,12); 9) украинское правительство (0,1).
2) Объекты неприязни в тексте интервью [2-3]: 1) инвестиционная потребность (уровень неприязни 0,42); 2) западная Европа (0,4); 3) восточная Европа (0,3); 4) украинское правительство (0,25); 5) моральный принцип (0,2); 6) кадровая политика (0,1).
Значения эмоциональных уровней изменяются в диапазоне от нуля до единицы, чем сильнее эмоция, тем ближе значение к единице.
Выводы. Использование открытых источников и документов специализированными средствами текстовой аналитики, на сегодняшний день позволяет выявлять информацию, скрытую в огромных массивах данных, для решения задач выявления коррупционных явлений. Грамотное использование инструментария текстового анализа данных позволяет проводить не только статистический анализ текста, но и более сложные подходы, основанные на особенностях природных языков, например, анализ эмоциональной окраски информации, что в свою очередь позволяет создавать эмоциональные профили субъектов, а также отслеживать пиар эффект антикоррупционных мероприятий.
Список литературы:
1. Text analytics using SAS Text Miner: course notes. – NC.: SAS Institute, 2014. – 218 p.
2. С. Мусаева-Боровик, П. Шеремет. Константин Григоришин: правительство Яценюка возглавляет коррупцию / Украинская правда, 29 сентября 2015 [Электронный ресурс]. – Доступ: http://www. pravda. /rus/articles/2015/09/29/7082971/
3. С. Мусаева-Боровик, П. Шеремет. Константин Григоришин: когда Ложкин занимается кадровой политикой с рестораторами, лузерами и мошенниками – это ошибка, 1 октября 2015 [Электронный ресурс]. – Доступ: http://www. pravda. /rus/articles/2015/10/1/7083240/


