Технологические особенности программной системы построения цепочек лексических единиц
Четвериков Григорий Григорьевич,
,
,
Харьковский национальный университет радиоэлектроники, ЦМПЛ,
Харьков, Украина,
сhetvergg@gmail.com, ivechir@gmail.com
Программная система разрабатывается для описания семантических отношений между лексическими единицами естественного языка. Целью разработки является предоставление пользователю возможностей для редактирования и анализа словарных связей, характеризующихся отношением «толкуется через». Данная система основана на возможностях виртуальной лексикографической лаборатории (ВЛЛ) «СУМ» и может быть использована для проверки замкнутости и полноты словарных статей данной системы.
Таким образом построение цепочек лексических единиц используется для построения систем, которые позволят находить в тексте или фрагменте текста не только конкретно заданное слово, но и находить это слово по его содержанию, описанию.
Для построения цепочек лексических единиц необходим механизм, который позволил бы обрабатывать словарные статьи, выделяя семантически связанные конструкции. Любая словарная статья состоит из набора слов, передающих его толкование. При этом сами слова могут быть как имеющими значение, так и вспомогательными. При обработке статьи необходимо выделить значащие слова. На данный момент программа является автоматизированным средством для сбора, разбиения и сохранения словарных статей, при котором лексикограф имеет возможность редактирования отношения между лексическими единицами при построении цепочек.
Разработанная программная система имеет сервис-ориентированную архитектуру и разделена на две основные части: клиентскую и серверную. Она основана на технологии WCF и реализована на языке программирования C#. Данный выбор технологии разработки обусловлен следующими соображениями:
а) облегчение дальнейшей интеграциии с системой ВЛЛ «СУМ», основанной на предложенных технологиях;
б) технология WCF и С# предоставляют богатый функционал как для работы с веб-сервисами, так и для работы с интерфейсом пользователя.
Клиентская часть предоставляет лексикографу возможность по сбору и редактированию информации о связях между словами электронного толкового словаря, позволяет визуализировать процесс построения гиперцепочек.
Для сбора информации клиентская часть обращается к веб-сервисам «СУМ». Веб-сервис толкового словаря предоставляет информацию о словах, включая омонимы, их толкования. Веб-сервис словоформ позволяет найти исходные, каноничные формы слов, на основании которых можно делать допущения о соответствии связи.
Алгоритм сбора информации состоит из следующих шагов:
а) задаются настройки поиска;
б) слово, для которого производится поиск, выбирается из списка слов в толковом словаре и для него запрашивается нужная словарная статья;
в) проверяется, есть ли необработанные слова в словарной статье;
г) если таких слов нет, то поиск прекращается, если да, то выбирается следующее слово из словарной статьи;
д) проверяется, есть ли выбранное слово уже в базе данных;
е) если слово уже обработано при обработке другой словарной статьи, то возврат к пункту в), если нет, то проверяется наличие слова в списке игнорируемых слов;
ж) при наличии слова в списке игнорированных слов - возврат в пункт в), в противном случае запрашивается исходная форма слова;
з) для исходных форм делается проверка, является ли слово существительным;
и) если да, то слово помечается, как нормальный потомок, если нет – то, как игнорируемый;
к) найденное слово добавляется в базу данных;
л) возврат к пункту в).
Собранная информация хранится в локальной базе данных MS SQL CE 4.0. На данном этапе эта база данных предоставляет достаточные возможности для использования на клиентской части.
Серверная часть будет предоставлять возможность, для синхронизации данных, полученных от нескольких клиентов. Она является аналогом центрального хранилища, где сохраняются данные, обработанные различными клиентами. Благодаря этому появляется возможность сравнения результатов работы, сделанной разными лексикографами, и предотвращается повторная обработка статей уже обработанных другими лексикографами.


