Информационно - аналитическаясистема "АСТАРТА"

Краткое описание и стоимость внедрения

Оглавление:

Введение................................................................................................................................... 3

1.Назначение системы.............................................................................................. 3

1.1. Пользователи................................................................................................................... 3

1.2. Решаемые задачи............................................................................................................ 3

1.3. Эффект от внедрения...................................................................................................... 4

2. Характеристики......................................................................................................... 5

2.1. Краткое описание работы ИАС Астарта..................................................................... 5

2.2. Конфигурация и состав системы................................................................................ 6

2.3. Параметры работы и требования к аппаратному обеспечению........................ 7

2.4. Интеллектуальные технологии в ИАС Астарте......................................................... 8

2.5. Проекты, награды и отзывы......................................................................................... 8

3.Стоимость внедрения ИАС Астарта........................................................ 9

НЕ нашли? Не то? Что вы ищете?

3.1. Стоимость базовой поставки...................................................................................... 9

3.2. Стоимость услуг по внедрению.................................................................................. 9

Приложение: Описание работы ИАС Астарта................................. 10

Администрирование.................................................................................................................. 10

Работа с рубрикатором............................................................................................................ 11

Работа пользователя............................................................................................................... 12

Ввод документов....................................................................................................................... 12

Поиск документов..................................................................................................................... 12

Формирование дайджестов.................................................................................................... 13

Построение статистических сводок.................................................................................... 14

Заключение................................................................................................................................. 15

Введение.

Деятельность любого, успешно развивающегося предприятия, неразрывно связана с решением задач стратегического планирования и анализа внешней среды. Для компаний, работающих в условиях жесткой конкуренции, организация эффективной аналитической службы и подразделения, занимающегося стратегическим планированием, порой является вопросом выживания.

На рынке ПО в настоящее время имеется достаточное количество аналитических систем, ориентированных на математический и статистический анализ различных количественных, цифровых показателей, однако огромный объем текстовой информации, содержащийся в печатных изданиях, новостных лентах информационных агентств, тематических сайтах в Интернет не имеет качественного инструментария для анализа.

Именно этот пробел призвана заполнить Информационно-аналитическая система Астарта – интеллектуальная система анализа текстов.

1.Назначение системы.

 

1.1.  Пользователи

ИАС Астарта предназначена, прежде всего, для подразделений компаний, чья деятельность связана со стратегическим планированием, маркетингом, обработкой и анализом большого объема текстовой информации. Это аналитические службы компаний и государственных структур, издательства и информационные агентства, правоохранительные органы и службы безопасности. В современном бизнесе Астарта применяется в качестве аналитической системы поддержки принятия решений и мониторинга информации.

1.2.  Решаемые задачи

Программный комплекс ИАС Астарта успешно решает следующие задачи:

·  Непрерывный информационный мониторинг внешней среды предприятия. Анализируется, систематизируется и аккумулируется текущая и архивная информация по актуальным для компании темам (например рынки сырья и комплектующих, развитие технологий и продуктов в отрасли, информация о конкурентах, информация о потребителях, отраслевая законодательная информация) тематика и состав рубрик формируется пользователем;

·  Тематическая фильтрация информации. Такие задачи возникают в случае необходимости построения подборок на заданную тему.

Система имеет следующие функции:

·  Получение информации из большого числа разнородных источников (бумажные периодические издания и e-газеты, Интернет ресурсы, IP каналы, ftp каналы, электронная почта);

·  Автоматическая систематизация данных при помощи рубрикатора, обученного экспертом;

·  Тематическая фильтрация потока текстовых сообщений;

·  Полнотекстовая индексация рубрицированных материалов, размещение информации в базе данных, обеспечивающей быстрый и удобный поиск;

·  Автоматическое составление дайджестов, с возможностью автоаннотирования материалов;

·  Статистический анализ по времени и по тематике информации, находящейся в базе данных.

1.3.  Эффект от внедрения

Эффективность внедрения системы обеспечивается следующими факторами:

·  Кардинальные изменения качества обработки информации. Имеется возможность охватить все доступные источники информации и вести обработку в круглосуточном режиме. За счет этого снижается до минимума вероятность пропуска важной информации. Использование системы опровергает расхожее мнение «за всем не уследишь». Автоматизированный рубрикатор, настраиваемый и обучаемый экспертом, легко адаптирует Астарту к решению задач в любой организации. Мощная система поиска исключает потери времени на изучение архивов. Статистическая обработка данных и модуль генерирования отчетов позволяют решать аналитические задачи любого уровня сложности.

·  Снижение расходов на персонал. Производительность системы такова, что позволяет небольшому отделу с персоналом 2-3 человека выполнять работу аналитического подразделения численностью 15-20 человек, работающих в три смены.

2.  Характеристики

 

2.1.  Краткое описание работы ИАС Астарта

В зависимости от задач пользователя, система имеет один или несколько каналов получения информации разного типа. Если предполагается работа с печатными периодическими изданиями, то производится сканирование получаемых газет или журналов. Изображения страниц поступают на вход модуля распознавания, который преобразует графические образы в текст, который при помощи специалиста разбивается на отдельные статьи (требуется всего несколько нажатий кнопок мыши).

Модуль Web мониторинга позволяет обходить указанные пользователем сайты и производить загрузку обновлений web страниц.

Данные, поступающие по IP каналам и по электронной почте, извлекаются специальными модулями, ориентированными на прием информации данного типа.

После получения и предварительной обработки все материалы обрабатываются модулем рубрикации, который работает следующим образом.

Первоначально требуется построение и обучение рубрикатора экспертом. Суть обучения в экспертном анализе обучающих материалов с отнесением их к той или иной рубрике. Причем эксперт указывает степень отношения данного текста к той или иной теме в диапазоне от 0 до 100.

На основании экспертных оценок модуль рубрикации производит морфологический и семантический анализ текстов, выделяя основные тематические понятия и анализируя структуру их размещения в тексте. После обучения каждой рубрики на 100-200 сообщениях, модуль формирует достаточный понятийный и семантический ряды, достаточные для работы в автоматическом режиме.

Систематизация данных в автоматическом режиме ведется на основании результатов обучения. Поступающий текст относится к одной или нескольким рубрикам с простановкой степени отношения.

После распределения по рубрикам материалы проходят индексацию по всем словам своего содержания и требуемым реквизитам. Эта процедура обеспечивает гибкие возможности поиска, как по признакам материалов, так и по их содержанию.

Результаты работы системы могут быть представлены в виде тематических дайджестов, которые создаются автоматически в формате Microsoft Word. Модуль статистики позволяет анализировать сообщения по рубрикам и по датам. На основании анализа выявляются наиболее насыщенные информацией темы, что говорит о значимых изменениях в той или иной сфере, которые могут повлиять на деятельность компании.

2.2.  Конфигурация и состав системы

ИАС Астарта, ориентированная на решение широкого спектра задач, связанных с мониторингом и анализом новостей имеет в своем составе следующие компоненты:

·  Станция сканирования (устанавливается модуль сканирования и подключается сканер, используется для получения изображений текстов);

·  Станция распознавания (устанавливается модуль распознавания, используется для преобразования изображений в текст);

·  Станция мониторинга WWW (устанавливается модуль Web мониторинга, используется для загрузки информации из Интернет);

·  Станция получения IP данных (устанавливаются модули получения данных по IP каналам, используется для получения данных в специальных форматах);

·  Сервер рубрикации и индексации (устанавливаются модули рубрикации и индексации, выполняет систематизацию данных, полнотекстовую индексацию и индексацию по реквизитам);

·  Сервер базы данных (устанавливается база данных и модуль администрирования базы данных, на сервере хранятся архивы данных);

·  Локальные рабочие места (имеют локальный интерфейс, расширенные функции поиска, могут комплектоваться модулями составления дайджестов и статистического анализа);

·  Удаленные*) рабочие места (имеют Web интерфейс, расширенные функции поиска, могут комплектоваться модулями составления дайджестов и статистического анализа);

*)Данный тип рабочих мест реализуется в проектном варианте поставки системы.

 

2.3.  Параметры работы и требования к аппаратному обеспечению

·  Система обладает удобным локальным или Web интерфейсом с расширенными возможностями полнотекстового поиска информации;

·  Суточный входной трафик на один модуль рубрикации может достигать 50 Мб текста (5000 – 10000 сообщений);

·  Время обработки полученной информации 0,1 - 3 мин. Время поиска информации в базе данных – до 5 сек;

·  Система способна обслуживать не менее 5000 пользователей, при этом одновременно могут работать до 500 пользователей;

·  Режим работы – круглосуточный.

Аппаратное обеспечение:

·  Станции сканирования, Web мониторинга, IP данных (Pentium II – III от 300 MHz, RAM 64-128 Mb, HDD 4 – 6 Gb);

·  Станция распознавания, сервер рубрикации и индексации (Pentium II – III от 450 MHz, RAM 128 Mb, HDD 4 – 6 Gb);

·  Сервер базы данных (Pentium II – III от 450 MHz, RAMMb, HDD 10-20 Gb);

·  Рабочие места (Intell совместимые PC от 133 MHz, RAM от 32 Mb);

·  Сканер (планшетный или потоковый).

2.4.  Интеллектуальные технологии в ИАС Астарте

ИАС Астарта по праву считается продуктом высоких технологий. В ходе разработки системы получен целый ряд выдающихся научных достижений и открытий.

Были открыты и разработаны: метод аналогий и отношения влияния в дереве решений, вероятностный подход к определению глубины перебора, открыт новый подход к определению похожести, названный Аксиоматическим.

Ряд высоких результатов был получен в области семантического анализа. Разработан метод Семантической АппроксимацииТМ. Получены алгоритмы извлечения данных в слабоструктурированных текстах, методы распознавания и идентификации данных абстрактных типов в слабоструктурированных информационных средах.

В ИАС Астарта используются методы морфологического анализа. Была решена задача поиска в неструктурированном тексте вхождений одного или нескольких слов, вне зависимости от формы, в которой они стоят в тексте.

2.5.  Проекты, награды и отзывы

В настоящее время Астарта введена в эксплуатацию в АКБ Газпромбанк, Центральном банке РФ. Работа системы прошла тестирование в ряде государственных учреждений, бизнес изданий, научных организаций. Астарта отмечена дипломами еженедельника «Экономика и жизнь» и журнала «Connect». Получены положительные отзывы от Академии наук РФ и Института системного анализа РАН РФ.

3.Стоимость внедрения ИАС Астарта

 

3.1.  Стоимость базовой поставки

Базовая версия ИАС Астарта может быть поставлена в локальном или сетевом варианте.

Стоимость локальная версии – $7000.

Стоимость сетевой версии складывается из стоимости локальной плюс $1800 за каждое дополнительное рабочее место.

В комплект поставки входит СУБД НИКА.

3.2.  Стоимость услуг по внедрению

Вместе с услугами по поставке ИАС Астарта специалисты Сервисного центра Cognitive Technologies Ltd. готовы оказать следующие услуги по внедрению системы:

1.  установку и настройку системы на сервере организации и рабочих местах пользователей;

2.  обучение пользователей работе с программой;

3.  настройку системы на обработку интересующих новостных лент, сайтов Интренет, формирование интересующих статистических отчетов;

4.  модификацию системы в соответствии с требованиями ТЗ.

Стоимость указанных услуг зависит от объема работ и уточняется в ходе переговоров.

Приложение: Описание работы ИАС Астарта

 

Система предназначена для сбора, обработки и анализа неструктурированной информации, получаемой из Интернет, печатных материалов, СМИ и других источников.

Система имеет клиент - серверную архитектуру с возможностью публикации на сервере документов, предназначенных для общего пользования, и форматов новостных лент.

Технологически в системе предусмотрено три разнотипных рабочих места и, соответственно, три типа пользователей системы: администратор, эксперт и пользователь.

Администрирование

Помимо стандартных функций по управлению правами доступа к системе и проведению регламентных работ, на администраторе ИАС Астарта лежат функции публикации на сервере системных реквизитов, общих форматов для новостных лент и рубрикаторов. При создании и корректировке списка пользователей системы, а также установке их прав на работу с ее компонентами, имеется возможность учитывать структуру предприятия, классификатор должностей, а также связи, характерные для взаимодействия между подразделениями. Все эти компоненты формируются и корректируются администратором из интерфейса системы (см. рис.1).

Назначение прав доступа предусмотрено как каждому пользователю системы отдельно, так и группе пользователей. В последнем случае всем пользователям группы автоматически устанавливаются права данной группы. При этом если пользователь состоит в нескольких группах, то его права расширяются в соответствии с правами, которые он имеет в каждой группе.

Выделенным пользователем системы является администратор, который не должен иметь прав на выполнение пользовательских функций.

Рис.1 Окно администратора системы

Работа с рубрикатором

Формирование рубрикатора является одним из самых важных шагов при подготовке системы к работе, поскольку именно им определяется тематика, по которой будет разбираться входящая информация.

Система поддерживает работу с иерархическим рубрикатором неограниченной глубины. Рубрикатор может быть создан непосредственно из интерфейса системы или подготовлен заранее в произвольном текстовом редакторе и импортирован в систему. При этом при подготовке текста рубрикатора разрешено использовать произвольные разделители уровней иерархии.

Подбор обучающей выборки производится либо экспертом системы, либо специалистом, выполняющим его функции. Обучающая выборка может состоять как из набора файлов, распределенных по рубрикам, так и из документов, ранее введенных в ИАС Астарта. При этом имеется возможность выбора уровня оценки релевантности принадлежности данной рубрике, установленной при вводе документа в систему. Возможность участия документов системы в формировании обучающей выборки особенно удобна при построении уточняющей выборки.

Качество работы построенного авторубрикатора системы определяется по результатам автоматического определения тематики поступающей информации. Авторубрикация документов производится на этапе ввода информации в БД. При этом документам присваивается оценка релевантности, характеризующая принадлежность той или иной рубрике (или нескольким рубрикам). Документы, тематика которых не была установлена, относятся к последней по порядку рубрике рубрикатора (например, «Разное»). При неудовлетворительном качестве определения тематики авторубрикатор следует переобучить, уточнив состав обучающей выборки, и перерубрицировать тот же набор документов.

Результат работы программы обучения (набор характеристических терминов) доступен для просмотра и корректировки. Эксперту предоставляется возможность откорректировать вес того или иного термина, добавить новый термин или удалить ненужный.

Подготовленный и обученный рубрикатор публикуется на сервере системы или сразу становится доступен для дальнейшей работы (в случае использования локальной версии системы).

Работа пользователя

Работа пользователя системы начинается с определения списка источников информации, задания расписания работы программы, обрабатывающей интернет-СМИ, и указания списка директорий, в которых будут скапливаться поступающие новостные ленты. Кроме того, необходимо выбрать рубрикатор, с которым будет проводиться работа. В системе разрешена работа с несколькими рубрикаторами, т. е. любой документ может быть прорубрицирован по нескольким рубрикаторам, однако текущим в каждый момент времени должен быть один рубрикатор.

По умолчанию система настроена так, что один документ может одновременно прорубрицирован по нескольким рубрикам, однако существует возможность, и это удобно при составлении статистических отчетов, настроить авторубрицирование по принадлежности документа только одной рубрике.

Ввод документов

Система ввода ИАС Астарта поддерживает автоматический просмотр новостных страниц заранее указанных сайтов с заданной периодичностью и в соответствии с составленным расписанием. Применение системы расписаний позволяет распределить работу по вводу новостей, используя, например, ночное или обеденное время.

Предварительная обработка новостной Интернет-страницы заключается в выделении отдельных новостей из новостного блока и разбора структуры каждой новости, т. е. выделении текстового фрагмента и списка реквизитов, его сопровождающих. Подготовленные таким образом новости передаются системе ввода, в процессе работы которой производится проверка на дублирование информации, а затем авторубрикация ее текста. Повторные документы в систему не вводятся. Вся информация о работе с интернет-СМИ отражается в специальном протоколе.

При обработке новостных лент различных форматов в первую очередь определяется формат данной новостной ленты. Заметим, что в одном потоке могут находиться новостные ленты различных форматов. Затем из новостной ленты выделяются отдельные новости, которые передаются системе ввода. Новостные ленты, формат которых системе не удалось определить автоматически, собираются в заранее описанном месте. В дальнейшем можно вручную указать формат, по которому их следует вводить. Кроме того предусмотрена возможность ввода в ИАС Астарта так называемых «неформатных» документов, т. е. документов, формат которых в системе не описан. Указание, что сейчас будет вводиться поток неформатных документов, производится вручную.

Для обработки бумажных документов в системе имеется возможность запустить программу сканирования и указать в ее интерфейсе место расположения полученных графических образов документов. Последующий ввод таких документов в систему производится вручную, с использованием дополнительной возможности распознавания текста документа «на лету» (drag&recog) при заполнении реквизитов документа. Возможна также автоматическая полнотекстовая индексация графического документа путем «слепого» распознавания всего графического образа и передачи распознанного текста модулю полнотекстовой индексации.

Поиск документов

Разветвленная поисковая система ИАС Астарта обеспечивает возможность составления сложных запросов, поддерживая организацию полнотекстового, контекстного и реквизитного поиска документов, как по локальному, так и по серверному хранилищу данных.

При организации поиска используются методы морфологического анализа, позволяющие находить в тексте документа не только точно указанное слово (или словосочетания), но и все его словоформы. Поиск с учетом морфологии может производиться как по тексту документа, так и по его реквизитам.

Интерфейс системы позволяет формировать запросы с использованием логических операций И, ИЛИ, НЕ, обеспечивая тем самым возможность указания более точного условия на поиск информации.

В поисковой системе имеется ряд инструментов, позволяющих упростить работу по формированию запроса на поиск документов:

-  наличие словарей при реквизитах системы позволяет упростить выбор необходимого значения;

-  возможность указания даты на «естественном» языке (например, выбор даты «март 2003 г.» равносилен указанию интервала с 1.03.03 по 31.03.03);

-  формирование запроса по результатам поиска;

-  хранение предопределенных запросов.

Формирование дайджестов

Формирование сводных отчетов (дайджестов), сгруппированных по различным информационным срезам, является неотъемлемой частью функциональных возможностей системы. Для реализации этой возможности в ИАС Астарта имеется компонента, позволяющая создавать различные шаблоны представления информации в отчетах, в которых задаются стили и структура всех составных частей отчета, и указывается способ сортировки документов. Имеющиеся настройки позволяют составить дайджест только по аннотации документов или сформировать полнотекстовый дайджест. При больших объемах информации можно сформировать многотомный документ или же, наоборот, сформировать только оглавление для него.

По умолчанию итоговый документ формируется в формате Word, однако имеется возможность выбрать другой формат представления данных на этапе заполнения шаблона.

Построение статистических сводок

Основной задачей статистического анализа является определение тенденции развития исследуемой проблемы. Наиболее наглядными, с точки зрения представления результатов, являются временной ряд, показывающий развитие исследуемой величины с течением времени, и диаграмма, показывающая долю исследуемой величины относительно других величин. Если для решения задач прогнозирования требуется применение различных статистических пакетов, использующих специальные алгоритмы, например, алгоритм авторегрессии и интегрального скользящего среднего АРИСС – ARIMA, то качественную оценку, полученную на основании построенных временных рядов, можно получить с помощью стандартного пакета Excel.

В ИАС Астарта реализовано оба способа построения различных статистических сводок: с использованием возможностей пакета Statistica 5.5 и стандартного пакета Excel. При экспорте в Excel из интерфейса ИАС Астарта можно указать вид представления информации: график, круговая диаграмма или таблица. Пример временного ряда, построенного с использованием пакета Excel для рубрикатора сайта ***** приведен ниже.

Заключение

Использование описанной технологии обработки и анализа информации, поступающей из разнородных источников, в ИАС Астарта, показало, что кардинально изменяется взгляд на возможность «охвата невозможного». Возможность охватить все доступные источники информации и вести их обработку в круглосуточном режиме с автоматической группировкой по тематическим признакам позволяет свести до минимума вероятность пропустить необходимую информацию. При этом автоматическая фильтрация потоков позволяет оперативно получать интегральную информационную картину, а для детального изучения поступающей информации может использоваться мощный поисковый механизм с построением сложных запросов.

В работе информационных и аналитических служб предприятий приходится сталкиваться с большим разнообразием источников информации. Это и бумажные периодические издания, электронные газеты, другие Интернет-ресурсы, электронная почта, передача новостных потоков по IP и ftp каналам и т. п. Опыт внедрения ИАС Астарта» в различных организациях показал высокую эффективность и простоту адаптации системы к «местным» условиям, благодаря разработанному универсальному инструменту автоматизированной загрузки больших разнородных по структуре потоков текстовой информации. Универсальный разборщик форматов позволяет полностью автоматизировать ввод электронных информационных потоков из гетерогенных источников с приведением информации к единому внутреннему представлению, а так же свести к минимуму рутинную работу по вводу нерегулярных текстовых данных, таких как ввод текстов с бумажных носителей (распознавание статей из печатных СМИ). Встроенная система автоматического слежения за публикацией «свежих» новостей на информационных сайтах в Internet позволяет автоматизировать и эту часть деятельности информационных и аналитических служб предприятий.

Важным обстоятельством является гибкость предложенной технологии авторубрикации (тематической фильтрации). Построение списка рубрик и обучение системы может производиться экспертом – специалистом информационно-аналитической службы конкретного предприятия для нужд специализированного информационно-аналитического обслуживания. Диапазоны достоверных оценок релевантности документов заданным рубрикам также должны являться доступным параметром для использования экспертом в качестве инструмента анализа или самообучения системы на свежих данных.

Аналитический блок служит для автоматизации процесса подготовки отчетов и дайджестов, а так же позволяет аналитику отслеживать и осуществлять прогноз отражения в публичном информационном пространстве (СМИ, Интернет) различных тенденции развития конкретной предметной области.

Перечисленные выше функциональные возможности и особенности реализации позволяют сделать следующие выводы:

o  кардинально изменяется качество обработки больших потоков текстовой информации;

o  автоматический мониторинг может вестись в круглосуточном режиме;

o  снижается до минимума вероятность пропустить важную информацию;

o  автоматизированный рубрикатор, настраиваемый и обучаемый экспертом, легко адаптирует систему к решению задач в любой организации;

o  мощная система поиска минимизирует временные затраты на изучение архивов;

o  статистическая обработка данных и модуль генерирования отчетов позволяют решать аналитические задачи любого уровня сложности.