А. А. АЛЕШИНА
Научный руководитель – М. М. РОВНЯГИН, ассистент
Национальный исследовательский ядерный университет «МИФИ»
РАЗРАБОТКА СИСТЕМЫ АНАЛИЗА ПОДОЗРИТЕЛЬНОЙ АКТИВНОСТИ ПОЛЬЗОВАТЕЛЕЙ НА ОСНОВЕ ДАННЫХ ИЗ ОТКРЫТЫХ ИСТОЧНИКОВ
Представлена разработанная система, позволяющая анализировать большой поток данных из открытых источников по некоторым кодовым словам.
Одной из главных задач для общества всегда было обеспечение безопасности человека, а в наше время эта проблема с каждым днем все более актуальна. Нынешнее поколение активно пользуется социальными сетями для рассказа о своей личной жизни, высказывания своего мнения, но самое главное – для обмена свежими новостями. Анализируя полученную из сообщений информацию, возможно определить уровень безопасности места, откуда оно было отправлено.
Чтобы реализовать возникшую идею, необходимо использовать технологии, позволяющие эффективно обрабатывать большие объемы данных. Для решения этой задачи предлагается воспользоваться открытой программной платформой Apache Hadoop, основным свойством которой является возможность распределенной обработки больших массивов данных с использованием программной модели MapReduce [1]. Получение потока сообщений осуществляется с использованием Twitter Streaming API, который используется также и для получения информации о пользователе, его местоположения, отправляемого текста [2]. Для более продуктивной загрузки потока сообщений предлагается разделить его части между потоками программы, т. е. осуществлять загрузку в многопоточном режиме.
На рисунке 1 представлена схема разработанной подсистемы, на которой можно увидеть:
· главный поток - управляет остальными потоками, копирует созданные файлы в один, помещает в очередь;
· список потоков - каждый загружает свою часть большого потока сообщений из Твиттера в отдельный файл;
· пул потоков - периодически проверяет очередь файлов, готовых для обработки, отправляет эти файлы для обработки на Hadoop, а после завершения загружает полученные результаты в базу данных;
· базу данных - хранит информацию о запуске, стране, регионе, пользователе, степени опасности сообщения;
· JSP-интерфейс - отображает результаты анализа для конкретного пользователя, региона или страны;

Рис.1 – Схема анализирующей системы
Таким образом, была разработана система для обработки потока сообщений по кодовым словам, которая может оказаться полезной для контроля подозрительной активности пользователей.
Список литературы
1. Платформа Hadoop. Обзор (Платформа Hadoop. Часть 1): [Электронный ресурс] URL: http://www. codeinstinct. pro/2012/08/hadoop-overview. html. (Дата обращения: 30.11.2015)
2. The Streaming APIs. Overview: [Электронный ресурс] URL: https://dev. /streaming/overview. (Дата обращения: 30.11.2015)


