УДК 004.8
, к. т.н.
Институт автоматики и процессов управления ДВО РАН, г. Владивосток
Метод оценивания структуры онтологий
для реализации редакторов знаний и данных[1]
Аннотация
Качество и сложность реализации интеллектуальной программной системы зависит от характеристик используемой онтологии и от методов реализации редактора знаний и других компонентов системы. Предлагается метод оценивания структуры онтологии, который позволяет на ранних этапах разработки интеллектуальной программной системы сделать важные оценки, связанные с качеством и сложностью ее реализации. Метод позволяет выявлять неполноту модели предметной области, несогласованность определений терминов, предвидеть объем реализации некоторых компонентов программной системы, оценить трудоемкость проведения испытаний проектируемой системы.
Shalfeeva E. A. (The Institute of Automation and Control Processes)
Quality and complexity of realization of any artificial intelligence system depend on its ontology's characteristics and the system components’ realization methods. Here structure method of evaluation of ontology is proposed. This method allows early in the development of intelligence system to make estimations concerned with its quality and complexity of its realization. This method of evaluation allows to find out an incompleteness of domain model, the disagreement between the concept definitions, to predict size of realization of some components in intelligence system, to get the information that helps to simplify user’s interface, to develop test cases and to estimate labor-intensiveness of intelligence system’s testing.
Ключевые слова
система, основанная на знаниях, онтология знаний, онтология действительности, оценивание структуры, редактор знаний
Key words
knowledge-based system, knowledge ontology, facts ontology, structure evaluation, knowledge editor
Введение
В настоящее время прогресс в создании информационных и интеллектуальных систем в большой степени связывается с разработкой и эффективным использованием онтологий. Важнейшими представителями интеллектуальных систем являются системы, основанные на знаниях. Они основаны на использовании отдельно хранимой, пополняемой базы знаний о предметной области, и играют «роль эксперта», умеющего решать некоторый круг задач (диагностики, планирования, прогнозирования и др.) [1]. Были разработаны и внедрены тысячи реально работающих экспертных систем, многие из них являются автоматическими консультирующими системами при постановке диагнозов, расшифровке данных спектрографического анализа, диагностировании неисправностей и др. Известны основанные на онтологиях системы в области молекулярной биологии, обеспечивающие возможность биологам посылать запросы к многочисленным внешним базам данных, хранящим описания ресурсов био-информатики [2]. Практика их внедрения показала, что нет чудодейственных рецептов - нужна кропотливая работа по вводу в ЭВМ опыта и знаний специалистов всех областей науки [1].
Опыт использования специальных компьютерных методов приобретения знаний и построения баз знаний показывает необходимость проверки и подтверждения накапливаемых и формализуемых знаний [3]. В литературе недостаточно информации о методах, позволяющих проводить более тщательные испытания систем, основанных на редактируемых знаниях. Признается, что тестирование экспертных систем отличается от тестирования обычных систем, нередко макетирование признается единственным эффективным способом тестирования экспертной системы, а использование эксперта является ключевым фактором проблемы оценки качества интеллектуальной системы [4]. При испытаниях экспертных систем нередко выявляются дефекты выдаваемых заключений и объяснений: отсутствие учета взаимозависимости сформированных правил, ошибочность, противоречивость и неполнота используемых правил. Эти причины, по сути – свойства формируемых знаний. Причинами неудовлетворительности знаний признаются и особенности процесса редактирования знаний: заданы не все (или неправильные) вопросы, вопросы трудны для понимания, многозначны. Эти особенности процесса редактирования знаний сильно связаны со свойствами онтологии, лежащей в основе знаний.
Свойства формируемых знаний требуют своевременного оценивания, один из путей здесь - анализ и оценивание онтологий, лежащих в основе разработки редакторов знаний. К сожалению, известные методы оценивания онтологий [5] - малоприменимы для исследования свойств онтологий в таких случаях. Методом, обеспечивающим более широкий спектр измеряемых свойств, является единый подход к оцениванию структурных свойств онтологий [6]. Этот метод позволяет определить возможные пути обеспечения качества создаваемой интеллектуальной системы на ранних этапах ее создания, соответствующих анализу предметной области, специфицированию требований и проектированию «верхнего уровня» системы.
Цель работы: установить связи структурных свойств онтологии со свойствами редактора знаний, пользовательского интерфейса и с трудоемкостью их разработки.
В работе сначала приводятся графовые модели, предназначенные для оценивания структуры онтологии, затем схематически представляется зависимость свойств редакторов знаний и данных от характеристик онтологии. Далее эта зависимость описывается подробно в виде зависимости конкретных этапов разработки редакторов от конкретных структурных свойств онтологий. Изложение этого материала сгруппировано по трем группам графовых моделей в подразделах 3,4 и 5.
1. Графовые модели для оценивания структуры онтологии
В рамках единого подхода к оцениванию структурных свойств для произвольной онтологии предложены[2] графовые модели, отражающие различные структурные свойства онтологии. Все графовые модели являются ориентированными размеченными мультиграфами: и вершины и дуги в общем случае имеют имя, метку и принадлежат к одному из задаваемых типов. Свойства структуры онтологии определяются в терминах соответствующих графов через подсчет числа вершин или дуг, числа одноименных дуг, разветвлений, числа и доли дуг с определенными метками и т. д. Предлагаемые в рамках единого подхода модели онтологий разбиты на группы графов синтаксических связей, стандартных связей, концептуальных связей и графов проблемно-ориентированных связей [6,7,8]. Для каждой из множества графовых моделей описан способ ее построения по формализованному тексту онтологии (для языков owl и oil, для kif, для языка прикладной логики (ЯПЛ) [9] и других.
Наиболее важные свойства онтологий с точки зрения оценивания влияния онтологий на особенности основанных на онтологиях систем определятся по следующим графам:
граф зависимости терминов, граф связи предложений и граф структуры предложения (из группы графов синтаксических связей), которые применимы независимо от языка формализации онтологии;
граф таксономии сущностей или граф «теоретико-множественных» связей или граф стандартной партономии (из группы графов стандартных связей) - в зависимости от языка формализации онтологии обычно используется тот или иной граф;
граф предметно-ориентированных связей или модель атрибутных связей онтологии (из группы графов концептуальных связей), применимых в зависимости от языка формализации онтологии (kif, ЯПЛ или owl, oil).
Сформированный каталог свойств онтологий [7,8] содержит наборы однозначных определений свойств в терминах соответствующих графов.
2. Зависимость свойств редакторов знаний и данных от характеристик онтологии
Для систем, архитектура которых предусматривает редактор знаний, основанный на онтологии, следует, прежде всего, анализировать ту часть онтологии, которая описывает терминологию знаний требуемой предметной области. Другими словами, необходимо «отделить» так называемую онтологию знаний от онтологии действительности (часто их тексты размещены в разных «модулях» онтологии предметной области). Например, для решения задачи медицинской диагностики используются: онтология действительности (или онтология данных) «онтология истории болезни» с такими терминами, как дневник осмотра, результат наблюдения, предварительный диагноз, выписной эпикриз, жалобы при поступлении, факт истории настоящего заболевания и т. д. и онтология знаний о медицинской диагностике с терминами: нормальная реакция, клиническое проявление, реакция на воздействие события, главные жалобы, наружный осмотр и т. д. [11]. Для приложения, предназначенного для построения характеристического рентгеновского спектра по известным составу пробы, ее геометрическим свойствам и параметрам спектрометра, терминами онтологии действительности являются: источник возбуждающего излучения, активность источника, относительная эффективность регистрации, угол падения первичного излучения, коэффициенты калибровки, плотность пробы и др. А онтология знаний включает: характеристические линии элемента, энергия характеристического излучения, энергии линий изотопа, сечение возбуждения и др. [10].
При разработке редактора знаний (для систем, основанных на знаниях) трудозатраты на его проектирование, реализацию и проведение испытаний существенно зависят от характеристик онтологии знаний предметной области. Проектирование интерфейса с пользователем, предназначенного для ввода исходных данных для решаемых задач и отображения результатов, зависит от свойств другой составляющей онтологии предметной области - онтологии действительности. Наиболее заметными являются следующие зависимости этапов разработки от характеристик онтологии.
Проектирование сценария диалога как с пользователем, решающим задачи, так и с пользователем-экспертом, редактирующим знания, зависит от сложности связей между терминами предметной области, наличии отношения частичного порядка между терминами, облегчающего проектирование.
Проектирование схемы базы данных для размещения базы знаний (для хранения знаний в табличном виде) и реализация функций редактирования базы знаний связаны с числом терминов-сущностей (для размещения всех экземпляров каждой сущности потребуется отдельная таблица), с числом терминов - атрибутов / связей / функций (для представления которых может понадобиться либо дополнительный столбец в таблице, либо отдельная таблица или совокупность таблиц, в зависимости от кардинальности определяемых отношений 1:1, 1-к многим, многие–ко-многим). Обеспечение проверки вводимых фрагментов знаний, их согласованности, корректности зависит от содержания онтологических соглашений (аксиом онтологии).
3. Метод оценивания онтологий по графам структуры синтаксических связей
В графах синтаксических связей вершины соответствуют некоторым синтаксическим компонентам текста, а направленные дуги - «синтаксическим» связям между такими компонентами. Рассматриваемые синтаксические компоненты могут быть как одного, так и разных «уровней рассмотрения» (например, используемые функции, их аргументы, отдельные операнды в выражении для аргумента функции). Рассмотрим два примера определений графов синтаксических связей и определений структурных свойств в их терминах.
Граф связей определяемых понятий – графовая модель <В, Д>, где вершины В = {в-i}, в-i – вершина, соответствующая понятию онтологии, характеризующаяся типом, принимающим одно из значений {сущность, связь} и меткой – именем понятия (возможно, пустым), частью которого может быть префикс, содержащий ссылку на другую онтологию, в которой определено это понятие; а дуги Д = {д-j}, д-j – связь использования от вершины-определяемого-понятия к вершине, соответствующей понятию, используемому при определении.
Пример определения свойства по этому графу (в каталоге свойств):
Число неиспользуемых понятий - число «корневых» вершин в графе связей определяемых понятий.
Область значений: целое неотрицательное число.
Возможное практическое применение: наличие сущности, которая никак не используется в рассматриваемой онтологии, - повод убедиться, что такая сущность востребована в других онтологиях.
Граф связей предложений – графовая модель <В, Д>, где вершины В = {в-i}, в-i – вершина, соответствующая предложению онтологии, характеризующаяся типом, принимающим одно из значений {«определение сущности», «определение экземпляра», «определение связи», «соглашение»} и меткой – именем определяемого понятия или номером соглашения или именем используемого понятия (если оно в тексте другой онтологии, то метка, как правило, с префиксом); а дуги Д = {д-j}, д-j – связь использования от вершин-соглашений к вершинам-понятиям и между вершинами-понятиями (от предложения, в котором использовано имя понятия, определяемого в другом предложении, к вершине-используемому-понятию).
Пример определения свойства по этому графу (в каталоге свойств):
Число терминов, не связанных с другими - число вершин, не имеющих никаких входящих дуг и выходящих дуг из вершин.
Область значений: целые неотрицательные.
Возможное практическое применение: значение свойства можно использовать для анализа разумности модуляризации: термин определен в данном модуле, но не использован в нем.
3.1. Этап проектирования сценария диалога с экспертом
Обеспечение качества знаний в первую очередь включает продуманность сценария диалога с экспертом. Граф связей определяемых понятий позволяет установить частичные отношения порядка между терминами, а такой порядок важен при организации диалога, направленного на последовательное извлечение всех знаний.
Для обнаружения множества элементов знаний (или данных), при вводе которых допускаются произвольные значения, эффективно использовать свойство (Здесь и далее используется слово "свойство". Нельзя ли его заменить на "характеристика"? - Нет, это термин в нашей области знаний!):
число/ множество неопределяемых терминов (т. е. термины, для которых не описаны правила задания значений).
Свойство показывает потенциальное число вводимых значений, требующих проверки (при вводе или перед использованием).
С удобством редактирования знаний, с минимизацией двусмысленности, трудностью при анализе/чтении онтологии, с выбором подходящего термина для обозначения некоторой сущности в диалоге с экспертом связаны свойства:
число терминов, имеющих синонимы (или наличие переопределений терминов),
«неоднозначность имен».
В том случае, когда значение свойства число терминов, имеющих синонимы ненулевое (если есть переопределения), важно сопоставить множество терминов, зависящих от переопределяемого и от переопределяющего терминов, поэтому становятся важны свойства:
Наличие/число обращений к переопределяемому термину;
Наличие/число обращений к переопределяющему термину.
На практике, при обеспечении качества редакторов знаний и данных, такие свойства позволяют на ранних этапах обнаруживать потенциальные проблемы. В частности, при разработке редактора для системы, решающей задачу построения характеристического рентгеновского спектра термин «характеристические линии» определен в онтологии как новое название для термина «радиационные переходы». При этом наличие трех обращений к переопределяющему термину «радиационные переходы» (для терминов-сортов «начальное положение электрона при радиационном переходе», «конечное положение электрона…», «относительная интенсивность») и двух – к переопределяемому термину «характеристические линии» (для терминов-сортов сечение возбуждения и вероятность излучения) свидетельствует о неочевидном выборе термина для проектирования сценария и может стать поводом изменить саму онтологию («спрятать» синоним в комментарий).
«Неоднозначность имен» (разные вершины онтологии названы одинаково) может иметь более серьезные последствия. Пример выявления этого факта: наличие термина-множества «качественные значения» и термина-объекта «качественные значения» с различной структурой создает трудность при анализе/чтении онтологии заболеваний.
3.2. Этап обеспечения контроля вводимой информации
Для всех обнаруженных неопределяемых терминов становится важным такое свойство как наличие соглашений, ограничивающих значения этих терминов либо их атрибутов и функций над ними. Их наличие обязывает реализовать проверку соответствующих соотношений между вводимыми значениями в самом редакторе, а их отсутствие – повод для повторной проверки онтологии: действительно ли произвольны значения таких элементов знаний. Поэтому важны свойства, определяемые по графу связей предложений:
число терминов, не связанных с другими;
связанные соглашениями понятия (наличие плотно связанных совокупностей понятий в логических соотношениях одного модуля).
Важно также установить те неопределяемые термины, значения которых сравниваются друг с другом (или найти соглашения, в которых сравниваются на совпадение друг с другом экземпляры (указанного) понятия) и значения которых сравниваются с константами. Для этого требуются значения свойств (определяемых по графам структуры предложения): число вершин, значения которых сравниваются друг с другом и
число вершин, значения которых сравниваются с константами.
Далее требуется принять меры, обеспечивающие контроль вводимых знаний, относящихся к таким терминам. Один из вариантов обеспечения контроля включает такие шаги.
1) Получить значения свойства число/множество вершин, значения которых сравниваются друг с другом; выбрать среди них те, которые входят в множество неопределяемых терминов.
2) Для каждого такого термина (элемента входных данных) следует обеспечить либо проверку значений в редакторе, либо возможность проверки экспертом до окончания редактирования, либо реализовывать выбор из списка допустимых значений.
3) При создании контрольного списка для проведения технической экспертизы требуется для каждого элемента входных данных включить «контрольную точку» – проверку наличия соответствующего контроля вводимых значений.
4) Для проведения испытаний редактора (для функции ввода) генерировать тесты на различную длину вводимых названий, на число разных названий, на наличие и отсутствие совпадений в названиях.
Нулевое значение свойства связанные соглашениями понятия может рассматриваться как признак неполноты онтологии и послужить поводом для проверки самой онтологии.
3.3. Этап проверки полноты и корректности знаний экспертом
Свойства онтологии знаний мало связаны с полнотой знаний, но влияют на возможность и удобство деятельности эксперта, проверяющего полноту знаний. Существенными свойствами, определяемыми по графу связей определяемых понятий онтологии, являются
глубина зависимости терминов,
число вершин,
число дуг.
Чем больше значения каждого из этих свойств, тем, очевидно, выше трудозатраты на обеспечение проверки полноты и корректности знаний.
При использовании в некоторой онтологии знаний терминов другой онтологии важно значение глубины зависимости терминов, измеряемое для используемых моделей. Связь между онтологиями определяют по графам межмодульных связей [6], также относящимся к графам синтаксической структуры. При изменении знаний или онтологии знаний обеспечение проверки корректности вводимых изменений напрямую зависит от числа связей между понятиями. Например, в историю болезни и в базу заболеваний вставляется термин из базы наблюдений. Если термин определен многократно через другие термины и значение глубины зависимости терминов для него больше трех, то увеличивается глубина структуры, хранящей информацию. А это увеличивает количество переходов от наблюдения к его характеристикам при редактировании и затрудняет проверку знаний и архивов данных.
4. Метод оценивания онтологий по графам структуры стандартных связей
Для графов стандартных связей характерно, что их вершины соответствуют терминам онтологии (их имена становятся метками вершин), а направленные дуги - стандартным видам связей (типично употребляемым при формализации онтологий). Названия связей составляют конечное множество уточняющих «подвидов» стандартных связей (они могут рассматриваться как метки для дуг).
Граф таксономии сущностей онтологии – графовая модель <В, Д>, где вершины В = {в-i}, в-i соответствует сущности онтологии или конкретному экземпляру некоторой сущности (индивиду), а дуги Д = {д-j}, д-j – связь одного из двух видов: «является представителем» и «является потомком». Дуги с типом «является представителем» выходят из вершины-экземпляра и входят в вершину-класс. Дуги с типом «является потомком» выходят из вершины-класса и входят в вершину-класс.
Пример определения свойства по этому графу (в каталоге свойств):
Число листов - число вершин с полустепенью захода дуг «является потомком», равной нулю.
Область значений: целое неотрицательное число.
Возможное практическое применение: позволяет понять структуру онтологии, оценить стоимость ее создания и стоимость жизненного цикла основанного на такой онтологии программного обеспечения.
Граф стандартной партономии онтологии – графовая модель <В, Д>, где вершины В = {в-i}, в-i – составные и простые сущности (в том числе строковые константы) онтологии, а дуги Д = {д-j}, д-j – связи сущностей следующих видов: «состоит из» (разнотипных терминов), включает часть, является последовательностью, включает подпоследовательность, является множеством, включает подмножество, представлено альтернативным понятием.
Пример определения свойства по этому графу (в каталоге свойств):
Глубина партономии - максимальная длина цепочки дуг от корневой вершины к листовой.
Область значений: целое неотрицательное число.
Возможное практическое применение: характеризует сложность моделируемой области знаний.
4.1. Этап проектирования сценария диалога с экспертом
Сложность редактирования знаний зависит, в частности, от глубины иерархии терминов (по графу таксономии, а иногда и партономии). При вводе значений терминов переход от одного термина к другому включает в себя последовательность шагов «подъема» до некоторого термина-предка в их иерархии и последовательность шагов «спуска».
Глубина иерархии терминов может быть оценена на основе одного из вышеупомянутых графов. Значения, превышающие 10, обычно означают, что ожидается относительно высокая трудоемкость редактирования знаний и проверки таких знаний. Пример - глубина партономии = 16 для онтологии заболеваний в медицинской диагностике (рис.1). Это означает, что при редактировании базы знаний (рис. 2), формируемой в терминах такой онтологии, для задания конкретного значения некоторой подхарактеристики заболевания может понадобиться до 16-ти шагов перехода от корневого понятия [11, 12]. В частности, от «заболевания» (например, «пневмококковый конъюктевит») к его клинической картине, далее к характеризующим ее лабораторным исследованиям, далее – к множеству их клинических проявлений (например, «бактериологические исследования - мазок из конъюктивальной полости»), далее – к соответствующему «признаку» и «выбору типа значений» для него например, «составные значения», составленные из характеристик (например, «результаты»), представленных «качественными значениями» (например, «патологической микрофлоры не обнаружено»).
На рисунке 1 встречаются сокращения для терминов предметной области КП (клиническое проявление), ПСО (причинно-следственное отношение), а также автоматически формируемые графопостроителем спецификаторы отношений, например, плюсы для обозначения множественности, знаки восклицания – для обозначения связи с единственным термином, квадратные скобки – для необязательной связи и т. п.
Уточните, пожалуйста, как правильно - "причины-события" Именно так! Это не альтернатива, а уточнение вида причины. или "причины/события"?
Это означает, что для каждого компонента диагностических знаний (здесь – для каждого заболевания) для указания требуемых значений признаков может понадобиться до 16 шагов перехода от термина к термину. При формировании «базы заболеваний в области офтальмологии» (в соответствующем редакторе) «путь» от названия заболевания к заданию значений нетривиальных признаков довольно длинный (рис.2) [11,12].
Связывание нужного наблюдения с его характеристиками и их значениями, которые лежат глубоко, отражается на скорости редактирования знаний.
Сложность редактирования знаний зависит от числа вершин, числа дуг, числа листов в рассматриваемой модели. Чем больше эти значения, тем больше затраты на редактирование и проверку, а в последнем случае - тем больше компонентов знаний (в примере: для каждого заболевания) должны быть описаны при редактировании.
Большие значения ширины иерархии понятий (измеряемой как ширина таксономии либо как ширина партономии) свидетельствуют о проработанности предметной области, о ее тщательной структурированности, о потенциальной возможности адекватно представить знания. С другой стороны, они свидетельствуют о сложности знаний (сложнее разобраться, дольше проверять, тщательнее тестировать). Ширина партономии без учета дуг-альтернатив характеризует минимум ширины партономии знаний, которые могут быть созданы в рамках рассматриваемой онтологии. Полустепень исхода для дуг-компонентов характеризует число компонентов знаний, которые должны быть описаны при редактировании. А чем больше полустепень исхода для дуг-альтернатив, тем чаще пользователю предоставлен выбор типов данных (или значений) при редактировании знаний.
Число циклов характеризует «потенциал» для увеличения глубины партономии знаний. Если нет циклов, то глубина партономии базы знаний соответствует глубине партономии онтологии. В другом случае использование цикличной связи терминов приводит к углублению партономических связей в модели знаний. В банке медицинских знаний многоцелевого банка знаний [12] хранится онтология наблюдений (всего 19 терминов), в ее партономическом графе есть три цикла, за счет циклов между этими терминами определяемая и редактируемая в этих терминах «база наблюдений в области офтальмологии» гораздо сложнее, она имеет большую глубину партономического дерева.
4.2. Этап проверки полноты и корректности знаний экспертом
Иерархичность знаний и показатели размера иерархии отражают возможность полноценной проверки введенных знаний. Эффективными свойствами таксономической структуры, позволяющими эксперту убеждаться в полноте и корректности онтологии, лежащей в основе знаний, являются:
Число прямых потомков (рассматриваемой сущности),
Число прямых предков (рассматриваемой сущности),
Множество «собратьев» (рассматриваемой сущности).
Эти и другие свойства (например, учитывающее структуру концептуальных связей свойство множество унаследованных связей) позволили выявить много особенностей онтологии TAMBIS[3] [2], которые следует учесть перед реализацией систем на основе этой онтологии.
По графу партономии возможно выявление «неоднозначности имен» как наличие вершин с одинаковыми именами, но имеющие разные части-«потомки». Как отмечено выше, значение такого свойства чрезвычайно важно.
5. Метод оценивания онтологий по графам структуры концептуальных связей
Для графов концептуальных связей характерно, что их вершины соответствуют сущностям онтологии (их имена становятся метками вершин), а направленные дуги - бинарным связям одного типа, для которых предусмотрено произвольное множество названий (названия могут рассматриваться как метки для дуг).
Граф предметно-ориентированных связей онтологии (простой) – графовая модель <В, Д>, где вершины В = {в-i}, в-i - сущности онтологии, конкретные экземпляры (представители) сущностей, или фиктивные (подразумеваемые сущности) без имени, а дуги Д = {д-j}, д-j – бинарные связи (отношения, функции, предикаты), определяемые в онтологии с некоторыми предметно-ориентированными названиями, дуги имеют метку с названием связи.
Максимальное сцепление пары сущностей (Что это? как связано с предыдущим абзацем? В предыдущем абзаце определен граф предметно-ориентированных связей, а здесь определено свойство (метрика) в терминах этого графа!)
Максимальное число дуг между парой вершин в графе предметно-ориентированных связей,
Область значений: целые неотрицательные.
Возможное практическое применение: Значение свойства может влиять на размещение определений сущностей по модулям онтологии
5.1. Этап проектирования сценария диалога с экспертом
Планирование требуемых для заполнения форм, списков и таблиц (и для хранения знаний в таблицах баз данных) связано с характеристиками онтологии по числу сущностей, по числу бинарных (в том числе атрибутов сущностей, функций от одной переменной) и не-бинарных связей, по кардинальности этих связей (один-ко-многим, многие-ко-многим). Такие показатели устанавливаются преимущественно на основе измерения графа предметно-ориентированных связей (графа атрибутных связей).
Определяемое в терминах этого графа свойство число простых атрибутов показывает, потребуется ли для хранения соответствующих значений атрибута таблица с двумя столбцами либо дополнительный столбец к существующей таблице.
А значение свойства наличие нескольких простых атрибутов одной сущности, равное «да», означает, что для хранения значений всех атрибутов одного термина-аргумента можно обойтись одной таблицей с несколькими столбцами. Пример определения двух атрибутов одной сущности на языке ЯПЛ: «сорт главное квантовое число энергетического уровня: (энергетические уровни ® i[1; +∞) ); сорт орбитальное квантовое число: ( энергетические уровни ® i[0; +∞) )».
Проектирование редактора, способного обеспечить произвольное число таблиц, представляющих один и тот же набор атрибутов для сущностей, число экземпляров которых произвольно, связано со значениями свойства:
наличие связи или атрибута сущности с кардинальностью один-ко-многим (Число функций от одной переменной с результатом-множеством). Например, в онтологии термин «энергетические уровни оболочки» сопоставляет каждой электронной оболочке множество ее энергетических уровней. В редакторе знаний каждой известной оболочке сопоставляется отдельная табличка для представления знаний о ее уровнях. Потенциальная трудоемкость работы эксперта может быть велика, она зависит от числа разных значений аргумента функции.
Примеры других зависимостей при разработке редакторов знаний по ЯПЛ-онтологии:
1) для определения термина как пары (составленной из двух других терминов) формируется таблица для такого термина с двумя атрибутами;
2) для каждой функции над некоторым термином с областью значений–термином формируется связь 1:1» между двумя соответствующими таблицами;
3) для каждой функции над некоторым термином с областью значений–множеством терминов формируется новая таблица с названием этой функции и двумя атрибутами-внешними ключами к соответствующим таблицам;
4) для функции над двумя аргументами-терминами, оба из которых являются внешними ключами в одной таблице, создается еще один атрибут в этой таблице (соответствующий области значений функции) [10].
5.2. Этап обеспечения контроля вводимой информации
Для каждого вводимого пользователем набора экземпляров сущностей, наборов значений их атрибутов или связей между разными экземплярами разных или однотипных сущностей важно наличие своевременной проверки соответствия таких значений, если они явно существуют и описаны в соглашениях онтологии. Помимо выявления по графу зависимости терминов свойства число/множество неопределяемых терминов для дифференцированного анализа важно еще установить по графу предметно-ориентированных связей, какие из неопределяемых терминов не являются результатами каких-либо функций. Становятся важны следующие свойства:
Число/множество вершин, которые являются только «отправителями» связей;
Число/множество связей с неопределенным «получателем».
На основе измерения этих свойств можно установить те термины-сущности, при вводе названий которых (т. е. при формировании знаний о существовании которых) эксперт может вносить опечатки, вводить списки не полностью или создавать избыточность). Достоверность вводимых значений повлияет на результаты решения задачи с использованием введенных знаний.
Так, на практике, при обеспечении качества редакторов знаний и данных системы, решающей задачу медицинской диагностики было обнаружено, что в онтологии действительности связи наблюдение, характеристика, качественное значение результата наблюдения определены без указания «получателя» связи. Поэтому при вводе/описании данных (в архив истории болезней) не только имя жалобы может быть указано в произвольной форме, но и название наблюдения может быть дано не из хранимого списка наблюдений, а также выбор типа значений может быть сделан несоответствующий (например, вместо качественных может быть назначено целое значение).
Поэтому при реализации есть необходимость контроля следующей информации: соответствует ли вводимые характеристики и значениями характеристик тем характеристикам и допускаемым значениям характеристик, которые предусмотрены в базе наблюдений. Например, важно своевременно обнаруживать, не введены ли пользователем в качестве жалоб новые виды наблюдений, если они не совпадают с описанными в базе наблюдений, то для них нет информации в знаниях о заболевании).
Отдельного внимания заслуживают неопределяемые термины, которые являются результатами каких-либо функций. Например, «сорт энергетические уровни: {}n; сорт энергетические уровни оболочки: оболочки ® {}энергетические уровни )». Для такого анализа дополнительно используется свойство число/множество понятий-получателей связей.
Здесь возможна следующая последовательность действий, обеспечивающих контроль за вводимыми знаниями по каждому такому термину:
1) Найти соглашения, ограничивающие значение терминов-результатов функций («получателей» в связях) некоторыми фиксированными значениями, для этого используется вышеупомянутое свойство число/множество вершин, значения которых сравниваются с константами.
2) Для каждого такого термина следует обеспечить либо проверку значений в редакторе, либо возможность проверки экспертом до окончания редактирования.
3) При создании тестовых ситуаций (или элемента контрольного списка для проведения технической экспертизы): для каждого вводимого результата функции надо проверить – реализован ли контроль вводимых значений и для проведения испытаний редактора генерировать соответствующие тесты. Важно обеспечить подфункцию для проверки заполняемых пользователем наборов значений до того, как делается окончание работы в редакторе, еще лучше - по мере заполнения с учетом зависимости терминов, выявляемой по графу связей определяемых понятий.
5.3. Этап проверки полноты и корректности знаний экспертом
Как отмечено выше, свойства редактора знаний связаны с затратами на возможность и удобство деятельности эксперта, проверяющего полноту и корректность знаний. Они зависят от свойств онтологии, определяемым по графу предметно-ориентированных связей, таким как
«насыщенные связями» совокупности вершин,
максимальное сцепление пары сущностей,
число/множество пар вершин, связанных разными дугам,
число/множество связей с неопределенным «отправителем».
6. Заключение
Основными результатами проведенного исследования является набор графовых моделей онтологий и подмножества соответствующих структурных свойств, существенных для обеспечения качества систем, основанных на знаниях, архитектура которых включает редакторы знаний. Выявлены те структурные свойства, которые эффективны при обнаружении показателей сложности реализации некоторых компонентов системы, показателей дополнительных затрат на обеспечение контроля вводимой информации (для тех случаев, в которых достоверность знаний в модели знаний сильно зависит от внимательности и других качеств эксперта, а адекватность принимаемых системой решений – от внимательности пользователя, формирующего исходные данные), при создании тестовых ситуаций и контрольных списков для проведения экспертиз. Таким образом, установлена зависимость некоторых внешних свойств онтологии (свойств, проявляющихся при использовании онтологии в системе, основанной на знаниях) от внутренних (структурных) свойств.
Наличие точных определений свойств в терминах графовых моделей и метода построения графовых моделей для онтологий, написанных на различных языках, позволяет применять такой подход для широкого диапазона интеллектуальных систем. Метод был опробован для оценивания требуемых свойств kif-, owl - и oil - онтологий, для обеспечения качества систем, основанных на ЯПЛ онтологиях и онтологиях многоцелевого банка знаний. Оценивание структурных свойств онтологий на основе единого подхода является наиболее «экономически целесообразным» подходом к анализу онтологий, поскольку на ранних стадиях разработки дает объективные показатели. Если утверждена используемая онтология знаний, то анализ ее свойств является источником для деятельности по обеспечению качества разрабатываемой интеллектуальной системы, а также является источником информации для планирования затрат на разработку. Кроме того, измерение используемых онтологий предметных областей дает возможность улучшить их до того, как на их основе будут построены редакторы знаний.
Список литературы.
1. Исторический обзор работ в области ИИ // Интернет-Университет Информационных Технологий.[интернет-издание].[]. URL: http://www. *****/department/human/isrob/1/2.html. (дата обращения: 18.11.2009)
2. Stevens R__ _ , Goble C. et. plex Query Formulation Over Diverse Information Sources Using an Ontology // The University of Manchester.[интернет-издание].[2002]. URL: http://www. cs. man. ac. uk/~stevensr/papers/eml99.pdf. (дата обращения: 18.11.2009)
3. Рыбина Г. В., Душкин Р. В. И др. Вопросы извлечения и представления неточных и недоопределенных знаний при автоматизированном построении баз знаний для интегрированных экспертных систем. В кн.: Третья международная летняя школа-семинар по искусственному интеллекту для студентов и аспирантов (Браславская школа — 1999). Сборник научных трудов. Мн.: БГУИР, 1999, с. 191-198.
4. Григорьев качества интеллектуальных систем, оперирующих неформальными понятиями // Наука и образование: электронное научно-техническое издание.[интернет-издание].[]. URL: http://www. techno. *****:16001/db/msg/15175.html. (дата обращения: 18.11.2009)
5. Brank J., Grobelnik M., Mladenic D. A survey of ontology evaluation techniques // Department of knowledge technologies of Jožef Stefan Institute. [2005] URL: http://kt. ijs. si/dunja/sikdd2005/Papers/BrankEvaluationSiKDD2005.pdf. (дата обращения: 18.11.2009)
6. , Шалфеева структурных свойств онтологий // Изв. РАН. Теория и системы управления 2008. №2. С. 69–78.
7. Каталог структурных свойств онтологий. Свойства синтаксической структуры // Владивосток: ИАПУ ДВО РАН. 2007. С. 28.
8. Каталог структурных свойств онтологий. Свойства структуры стандартных связей // Владивосток: ИАПУ ДВО РАН. 2007. С. 38.
9. , , Необогащенные системы логических соотношений // НТИ. Сер. 2, 2000, № 7 - 8: № 7 с.18-28, № 8 с. 8-18.
10. , Спивачук онтологии предметной области «построение характеристического рентгеновского спектра» // Информатика и системы управления, 2007. № 2. С.120-131
11. С., , Черняховская онтологии предметной области "медицинская диагностика". Часть 2. Формальное описание причинно-следственных связей, причин значений признаков и причин заболеваний // НТИ. Сер.№.2. - С.19-30.
12. Список банков знаний Многоцелевого банка знаний // Лаборатория интеллектуальных систем Института автоматики и процессов управления ДВО РАН. [раздел сайта]. [2003]. URL: http://*****/mpkbank/index. php? page=banks.(дата обращения: 18.11.2009.)
[1] Работа выполнена при финансовой поддержке РФФИ, проект "Исследование возможностей коллективного управления в семантическом вебе информационными ресурсами различных уровней общности", и ДВО РАН в рамках Программы №15 ОЭММПУ РАН, проект "Синтез интеллектуальных систем управления базами знаний и базами данных при управлении сложными объектами в условиях неопределённости".
[2] Единый подход с использованием графовых моделей к анализу структурных свойств онтологий разработан и исследуется в отделе интеллектуальных систем ИАПУ ДВО РАН (г. Владивосток) [6].
[3] new TAMBIS ontology 0.1, автор: Robert Stevens, предметная область: «bioinformatics, molecular biology», доступна по адресу: WWW.cs.man.ac.uk.


