Технологические особенности программной системы построения цепочек лексических единиц

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Технологические особенности программной системы построения цепочек лексических единиц

Четвериков Григорий Григорьевич,

Харьковский национальный университет радиоэлектроники, ЦМПЛ,

Харьков, Украина,

сhetvergg@gmail.com, ivechir@gmail.com

Программная система разрабатывается для описания семантических отношений между лексическими единицами естественного языка. Целью разработки является предоставление пользователю возможностей для редактирования и анализа словарных связей, характеризующихся отношением «толкуется через». Данная система основана на возможностях виртуальной лексикографической лаборатории (ВЛЛ) «СУМ» и может быть использована для проверки замкнутости и полноты словарных статей данной системы.

Таким образом построение цепочек лексических единиц используется для построения систем, которые позволят находить в тексте или фрагменте текста не только конкретно заданное слово, но и находить это слово по его содержанию, описанию.

Для построения цепочек лексических единиц необходим механизм, который позволил бы обрабатывать словарные статьи, выделяя семантически связанные конструкции. Любая словарная статья состоит из набора слов, передающих его толкование. При этом сами слова могут быть как имеющими значение, так и вспомогательными. При обработке статьи необходимо выделить значащие слова. На данный момент программа является автоматизированным средством для сбора, разбиения и сохранения словарных статей, при котором лексикограф имеет возможность редактирования отношения между лексическими единицами при построении цепочек.

НЕ нашли? Не то? Что вы ищете?

Разработанная программная система имеет сервис-ориентированную архитектуру и разделена на две основные части: клиентскую и серверную. Она основана на технологии WCF и реализована на языке программирования C#. Данный выбор технологии разработки обусловлен следующими соображениями:

а) облегчение дальнейшей интеграциии с системой ВЛЛ «СУМ», основанной на предложенных технологиях;

б) технология WCF и С# предоставляют богатый функционал как для работы с веб-сервисами, так и для работы с интерфейсом пользователя.

Клиентская часть предоставляет лексикографу возможность по сбору и редактированию информации о связях между словами электронного толкового словаря, позволяет визуализировать процесс построения гиперцепочек.

Для сбора информации клиентская часть обращается к веб-сервисам «СУМ». Веб-сервис толкового словаря предоставляет информацию о словах, включая омонимы, их толкования. Веб-сервис словоформ позволяет найти исходные, каноничные формы слов, на основании которых можно делать допущения о соответствии связи.

Алгоритм сбора информации состоит из следующих шагов:

а) задаются настройки поиска;

б) слово, для которого производится поиск, выбирается из списка слов в толковом словаре и для него запрашивается нужная словарная статья;

в) проверяется, есть ли необработанные слова в словарной статье;

г) если таких слов нет, то поиск прекращается, если да, то выбирается следующее слово из словарной статьи;

д) проверяется, есть ли выбранное слово уже в базе данных;

е) если слово уже обработано при обработке другой словарной статьи, то возврат к пункту в), если нет, то проверяется наличие слова в списке игнорируемых слов;

ж) при наличии слова в списке игнорированных слов - возврат в пункт в), в противном случае запрашивается исходная форма слова;

з) для исходных форм делается проверка, является ли слово существительным;

и) если да, то слово помечается, как нормальный потомок, если нет – то, как игнорируемый;

к) найденное слово добавляется в базу данных;

л) возврат к пункту в).

Собранная информация хранится в локальной базе данных MS SQL CE 4.0. На данном этапе эта база данных предоставляет достаточные возможности для использования на клиентской части.

Серверная часть будет предоставлять возможность, для синхронизации данных, полученных от нескольких клиентов. Она является аналогом центрального хранилища, где сохраняются данные, обработанные различными клиентами. Благодаря этому появляется возможность сравнения результатов работы, сделанной разными лексикографами, и предотвращается повторная обработка статей уже обработанных другими лексикографами.

НЕ нашли? Не то? Что вы ищете?

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Технологические особенности программной системы построения цепочек лексических единиц

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Технологические особенности программной системы построения цепочек лексических единиц

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы