УДК 025.4

ЛИНГВИСТИЧЕСКАЯ МИКРОФОРМАТНАЯ РАЗМЕТКА

БРГУ имени

В использовании вычислительных методов для лингвистического анализа электронного текста эффективным инструментом является язык разметки ‑ набор инструкций (управляющих дескрипторов, тегов), предназначенных для формирования в документах определенной структуры и определения отношений между элементами этой структуры. Метаразметку можно условно подразделить на внешнюю, структурную и техническую разметки. Внешняя разметка содержит сведения об авторе и сведения о тексте (автор, название, год и место издания, жанр и тематика). Структурная разметка маркирует главы, абзацы, предложения и словоформы. Техническая разметка отмечает кодировку, даты обработки, исполнителей и источник электронной версии. Метаразметка эффективна в исследовании условий существования языка, выявления в нём взаимосвязей и для изучения отдельных подмножеств языка. Стандартом для семантического описания стал XML (Extensible Markup Language), привносящий в электронную информационную среду метаданные, описывающие структуру, свойства и семантику информационных ресурсов.

Особое значение для автоматического анализа текста имеет собственно лингвистическая разметка, которая заключается в приписывании текстам (их компонентам) специальных меток, обеспечивающих возможность автоматически идентифицировать тексты по различным параметрам, осуществлять их синтаксический и семантический анализы.

Традиционный подход к лингвистической разметке реализуется в рамках проекта TEI (Text Encoding Initiative) [1] и стандарта XCES (Corpus Encoding Standard for XML) [2]. Преимуществами разметки в стандарте TEI являются ее полнота, основанная на тщательно разработанной теории структуры текста и документа, легкость персонализации и адаптации к конкретному материалу за счет модульной организации и механизма спецификации, независимость от конкретной платформы или программного продукта [3].

НЕ нашли? Не то? Что вы ищете?

Вместе с тем избыточность TEI для решения практических задач создает существенные трудности для разработки программных средств обработки, анализа и публикации текстов, размеченных в этом стандарте. Глубокую филологическую разметку, учитывающую разночтения и варианты интерпретации фрагментов текста на разных уровнях иерархии языковых структур, очень трудно совместить с использованием инструментов автоматической лингвистической разметки (токенизации, лемматизации, морфологической категоризации и т. п.). TEI, концептуально разработанная еще в 80-х годах 20 века, настолько же трудна в реальном практическом применении, как и используемый ею для стандартизации обработки электронных источников SGML, от которого произошли HTML и XML.

Другой подход к организации структурно-семантической разметки, предложенный в 2004 году Ч. Тантеком, основан на практическом опыте работе с сетевой электронной средой и предлагает решить проблему внедрения новых элементов в язык гипертекстовой разметки на основе микроформатов. В 2011 году создатели крупнейших поисковых систем объединились в проекте Schema. org [4] – инициативе по разработке единой схемы для семантической разметки на основе эффективной структуризации поставляемых информационных ресурсов и их семантической разметки микроформатами. Метаданные на ресурсах, использующие предлагаемые Schema. org схемы, представляют собой семантическую разметку, предназначенную для поисковых роботов, и могут быть непосредственно проанализированы ими с целью извлечения и обработки информации о содержимом веб-ресурсов.

В качестве основного формата разметки веб-страницы метаданными Schema. org предлагаются microdata (микроданные) – теги и атрибуты для разметки структурированной информации на веб-страницах.

Микроформаты – это сущности поверх HTML, с помощью которых можно описывать любую информацию на Web-страницах. Спецификация микроформатов представляет собой способ разметки содержания для определения таких специальных типов информации, как отзывы, информация о человеке, мероприятии. Стандарт представляет собой набор классов, описывающих всевозможные сущности и их свойства. Сейчас их уже несколько сотен [5].

Наиболее обобщенный тип сущности – это Thing (нечто), у которого есть свойства: name (название), description (описание), url (ссылка) и image. Частные типы имеют общие свойства с более универсальными. Каждый тип информации описывает определенный тип элемента (субъект, событие, отзыв. Например, человек имеет такие свойства, как имя, место жительства, место работы, занимаемая должность и т. д. Стандарт schema. org предусматривает возможность добавлять свойства и дочерние типы для имеющихся типов сущностей. В настоящее время поисковые системы поддерживают микроформатную разметку веб-страниц в результатах поиска людей, событий, обзоров, товаров, кулинарных рецептов и многжества других онтологий.

Разметка микроформатами не требует создания отдельных экспортных файлов и происходит непосредственно в HTML-коде страниц оборачиванием описания определенного типа в контейнер и указанием схемы разметки отдельных свойств с помощью специальных атрибутов. Код микроформатов прост для написания в любом текстовом редакторе. Разметку Schema. org можно использовать на веб-страницах на любом языке. Извлечение данных поисковыми роботами из микроформатной разметки осуществляется одновременно с проводимой им индексацией сайта. Микроформаты рассчитаны на работу с HTML, поэтому их синтаксический анализ, в отличие от XML-парсинга, рассчитан на работу с HTML, для которого не обязательно документ должен быть корректно сформирован (допускается отсутствие закрывающих тегов и т. п.).

Эффективность новой поисковой технологии в автоматическом анализе текстовых ресурсов Интернета на основе их структурно-семантической разметки и ее быстро растущая популярность может и должна быть использована для собственно лингвистической разметки электронных документов. Это возможно благодаря тому, что микроформаты – полностью открытый формат. Данные, размеченные по стандарту семантической разметки schema. org, становятся общедоступными и могут быть извлечены и использованы любыми сервисами.

Микроформаты применялись исключительно для экстралингвистической разметки, для обозначения неязыковых сведений о данных. Предлагается на основе микроформатов определить новую онтологическую сущность для описания собственно лингвистической составляющей электронного текста.

Таким микроформатом может быть объявлен XLD (XHTML Linguistic Data) – микроформат для пометки лингвистических метаданных. XLD можно использовать как на лингвистических интернет-ресурсах, так и для разметки любого текстового контента/ Необходимо сообщить браузерам и поисковикам что страница поддерживает XLD. Для этого в теге <head> веб-страницы надо добавить атрибут profile:

<head profile="http://gmpg. org/xld/17">

Для каждой гиперссылки на странице нужно добавить атрибут rel. Пример:

<a href="http://" rel="text thesis">...</a>

Значений атрибута rel может быть несколько, в таком случае они перечисляются через пробел.

Далее должен быть приведен список допустимых категорий атрибута rel с указанием их значений. Такие категории могут включать лингвистическую информацию о тексте и его элементах с любой желаемой полнотой. Например, они могут содержать метаданные различных уровней: морфологического (выделение аффиксов, сложных слов и т. п.); морфолого-синтаксического (выделение основ, определение части речи и признаков грамматических категорий); синтаксического (синтаксические связи, типы и члены предложений и т. п.); семантического (снятие семантической омонимии, разрешение анафоры и кореферентности, фиксирование информационной структуры и т. п.); дискурсивного (реплики, коммуникативные акты и т. п.) и лемматизацию (указание для каждой словоформы из текста ее исходной формы) [6], обеспечивая простую, изящную и очень гибкую лингвистическую метаразметку.

Список литературы:


Text Encoding Initiative [Электронный ресурс]. – Режим доступа: http://www. tei-c. org Дата доступа: 15.03.2014. Corpus Encoding Standard for XML [Электронный ресурс]. – Режим доступа: http://xml. coverpages. org/xces. html Дата доступа: 15.03.2014. , Концевая, семантический анализ XML-реализации гипертекста / , // Гипертекст как объект лингвистического исследования : материалы Всероссийской научно-практической конференции, 15 марта 2010 г., Самара, РФ. – Самара : ПГСГА, 2010. – С. 61 – 66. Schema. org [Электронный ресурс]. –ABC?0: 15.03.2014.">http://schema.org/. 0B0 4>ABC?0: 15.03.2014. Расширенные описания веб-страниц (микроданные, микроформаты RDFa) [Электронный ресурс]. –ABC?0: 15.03.2014.">http://support.google.com/webmasters/bin/topic.py?hl=ru&topic=21997 0B0 4>ABC?0: 15.03.2014. Разметка лингвистическая [Электронный ресурс]. – Режим доступа: http://www. lomonosov-fund. ru/enc/ru/encyclopedia:0127221#r1_1. Дата доступа: 15.03.2014.