Информационные системы и технологии в дистанционном образовании
УДК 004.42
, канд. техн. наук, доц.,
, аспирант
Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. (Ленина) (СПбГЭТУ «ЛЭТИ»)
автоматизированная разработка учебных онтологий в системах электронного обучения
Аннотация. Значительное число существующих систем электронного обучения представляют наборы слабо связанных семантически учебных модулей, которые включают ограниченный объем материала предметных знаний. В статье рассматривается методология автоматизированного построения учебных онтологий областей знаний на основе многоуровневой модели, которая позволяет включить модули расширения онтологии на базе тезаурусов областей знаний с учетом мнений экспертов.
Ключевые слова. Системы электронного обучения, многоуровневые модели, онтологии, тезаурус, области знаний, облака тегов.
Abstract. A significant number of existing e-learning systems represent sets of loosely coupled semantic learning modules that include a limited amount of subject matter material. The article examines the methodology for the automated construction of ontology learning areas of knowledge based on a multi-level model that allows the inclusion of ontology extension modules based on thesauri of knowledge areas, taking into account the opinions of experts.
Keywords. E-learning systems, multilevel models, ontologies, thesaurus, knowledge areas, tag clouds.
Введение. Содержание образовательного контента учебного процесса формально определяется федеральными государственными образовательными стандартами высшего образования, учебными планами университетов и рабочими программами дисциплин. При реализации образовательных программ используются различные образовательные технологии, в том числе дистанционные образовательные технологии, электронное обучение (п. 25, Приказ Минобрнауки № 000).
Ввиду динамики изменения экономики знаний в настоящее время резко возрастает потребность в представлении, визуализации, формализации, интеграции, хранении, использовании больших объемов информации в различных областях деятельности. Не является исключением как преподавательская, так и учебная деятельность. Основная проблема заключается в том, что знания, на основе которых формируется учебный контент, могут быть представлены в разных форматах, а также могут быть разнородными, многосвязными, неполными, содержать некорректную информацию и др. Решение вопросов формализации знаний в сложных информационных системах основывается на онтологическом подходе, методах инженерии знаний и агентных технологиях.
Активно развивающиеся методы автоматического обнаружения и извлечения актуальной информации из множества источников основаны на технологиях и инструментальных средствах автоматизированного построения онтологий областей знаний.
Основная часть. Онтологии областей знаний пространства учебных дисциплин подразделяются на три уровня – верхний уровень, уровень предметных областей и уровень прикладных онтологий. Процесс создания онтологии предметной области включает ряд необходимых этапов:
- составление словаря терминов, которые характеризуют объекты и процессы изучаемой области знаний;
- формирование системы дефиниций терминов;
- формальное описание логических взаимосвязей между терминами.
Разработка онтологии является чрезвычайно трудоемким процессом. С одной стороны, изначально методы работы по созданию онтологий основывались на работе высококвалифицированных специалистов – экспертов предметной области. С другой стороны, активно развиваются методы автоматического создания онтологий. Однако на современном этапе развития методов и технологий пока еще недостижимо полностью автоматическое формирование онтологий, что говорит о том, что требуется участие эксперта. В связи с этим предлагается методология автоматизированного создания онтологий на основе методов: 1) выборки текстов (ontology learning from texts); 2) модификация (дополнения) онтологии из машинно-читаемых словарей (ontology learning from machine readable dictionaries) [1 – 4].
Целью работы является разработка методики и средств автоматизированной поддержки проектирования онтологических моделей областей знаний с учётом динамики их изменения. Необходимо решить задачи разработки алгоритмов и методов обработки динамических областей знаний, разработки методов построения трендов их изменений в сложных информационно системах, средств визуализации и реализации адаптивных интерфейсов пользователей с применением методов семантических Web-технологий.
Основная часть. Современные специализированные форматы семантического Web (RDF, RDFS, OWL, SWRL) были разработаны для использования профессиональными разработчиками программных систем, что создавало определенные трудности при использовании рядовыми пользователями. Ввиду этого разработка средств, позволяющих пользователю, не являющемуся программистом (например, студенту) использовать возможности Web-технологий без изучения специальных языков программирования, является актуальной задачей.
Методика автоматизированного проектирования онтологий основана на алгоритме, который включает:
- определение целей, масштаба и ограничений онтологии;
- формирование корпуса специальных текстов, относящихся к предметной области знаний;
- определение формата базового тезауруса по анализу запросов пользователей;
- автоматическое формирование частотного словаря терминов из сформированного корпуса текстов;
- удаление из словаря незначимых для предметной области слов;
- пополнение онтологии терминами из машинно-читаемых словарей (WordNet, OxfordDictionary, Wikipedia и др.);
- редактирование экспертами прототипа онтологии.
Алгоритм предварительного формирования корпуса тематических научных текстов на русском и английском языках включает:
- процедуру тематической рассылки с использованием портала «Google Академия» (http://scholar. );
- пополнение информационной базы новыми материалами;
- анализ полученных файлов с применением технологии оптического распознавания символов (Optical Character Recognition) и метода обработки с использованием сервиса http://www. /;
- перевод текстов;
- извлечение лексем из полученных текстовых файлов;
- лемматизацию полученных лексем;
- частотный анализ полученных лексем;
- формирование облака тегов ключевых понятий.
Реализация методики. Методика автоматизированного проектирования онтологий отличается возможностью параллельного формирование онтологий на русском и английском языках (соответственно по корпусам русскоязычных и англоязычных текстов), проведением сравнительного анализа включенных терминов, выявлением пресекающихся областей по частотному анализу [5]. Такой анализ важен при проведении научных исследований для получения актуальной информации о развитии той или иной области знаний, в том числе узкоспециализированной.
Примеры визуализации результатов поиска и анализа статей по тематике «онтологический инжиниринг», опубликованных в 2000 – 2016 г. г. в виде облаков тегов приведены на рисунке 1 (анализ публикаций 2000 года), рисунке 2 (анализ публикаций 2016 года).

Рис. 1. Облако тегов в корпусе текстов публикаций в 2000 году на английском языке

Рис. 2. Облако тегов в корпусе текстов публикаций в 2016 году на английском языке
На рисунке 3 изображено облако тегов двухсловных терминов.
Облака тегов отличаются возможностью расшифровки терминов и включением ссылок на источники информации.
Разработанный авторами инструментарий ОнтоМАСТЕР на основе графического web-редактора [5] поддерживает формирование онтологий на русском и английском языках. Пример построения онтологии изучаемых понятий в области интеллектуальных технологий и инженерии знаний изображен на рис. 4. Предусмотрен вызов в отдельном окне справочной информации в виде определений, относящейся к понятиям (расшифровка в виде определений).

Рис. 3. Облако тегов двухсловных терминов в корпусе текстов публикаций
в 2016 году на английском языке


Рис. 4. Пример построения онтологии изучаемых понятий (англоязычный вариант)
Выводы. Анализ работ показывает, что онтологические исследования находятся в постоянном развитии. Применение онтологий осуществляется в направлениях машинного перевода, вопросно-ответных системах, системах информационного поиска, извлечения знаний, системы ведения диалога между компьютером и человеком, системах понимания языка (автоматического реферирования текста, рубрикаций), системах обучения и др.
Наиболее перспективным направлением является автоматизированное создание онтологий, которое требует разработки эффективных человеко-машинных процедур обработки больших корпусов текстов на естественных языках, формального описания, редактирования и верификации.
Библиографический список
1. Aussenac-Gilles N., Despres S., Szulman S. The terminae method and platform for ontology engineering from texts // Bridging the Gap between Text and Knowledge-Selected Contributions to Ontology Learning and Population from Text. Amsterdam: IOS Press, 2008. P. 199–223.
2. Building up a class hierarchy with properties by refining and integrating Japanese Wikipedia Ontology and Japanese WordNet / T. Morita, Y. Sekimoto, S. Tamagawa, T. Yamaguchi // Web Intelligence and Agent Systems. 2014. Vol. 12, № 2. P. 211–233.
3. , Булатова построение онтологий // Науч.-техн. ведомости СПбГПУ. 2007. № 4. С. 22–26.
4. Рубашкин семантика. Знания. Онтологии. Онтологически ориентированные методы информационного анализа текстов. М.: Физматлит, 2012.
5. , Писарев тематических онтологий с применением метода автоматизированной разработки тезаурусов. // Известия СПбГЭТУ «ЛЭТИ». 2016. № 3. С. 37-47.


