Использование VTF-логики для определения
формальных контекстов и построения
онтологий предметных областей
1, 2,3
1Московский городской педагогический университет
Москва, 2-й Тульский переулок, 4, Россия
*****@***ru
тел: +7 (4
2Поволжский государственный университет телекоммуникаций и информатики
Самара, ул. Л. Толстого, 23, Россия
*****@***ru
тел: +7 (8
3Институт проблем управления сложными системами РАН
Самара, ул. Садовая, 61, Россия
*****@***ru
тел: +7 (8, факс: +7 (8
Ключевые слова: онтология, анализ формальных понятий, формальный контекст, многозначная логика, нестрогие множества, a-сечение
Abstract
The paper investigates the problem of the automatic creation of ontological specifications for conceptually structuring domains of interest on the basis of ontological data analysis. In particular, sources, description and processing of nonstrict formal contexts in the construction of ontologies by the Formal Concept Analysis are being analyzed. It is shown that some reasons of this uncertainty are immanent to the technology of formal context generation from experimental data. For work with the uncertain and inconsistent data multiple-valued logic VTF is used.
Введение
Формальные онтологии сегодня являются подлинным аттрактором интересов специалистов по прикладной информатике и интеллектуальным информационным технологиям. Проектирование онтологии некоторой предметной области (ПрО) – сложная когнитивная задача, которая, как правило, осуществляется «вручную» высококвалифицированными аналитиками, опирающимися на доступное им «поле знаний» в виде разнообразных «протоколов извлечения знаний», документации, текстов, связанных с ПрО [1]. Существенную поддержку аналитику способны оказать средства онтологического инжиниринга – языки и системы онтологического моделирования [1-3]. Вместе с тем построение онтологий может быть автоматизировано в гораздо большей степени при применении относительно новой ветви теории решеток – анализа формальных понятий (АФП) [4].
Построение онтологии с помощью АФП имеет характер автоматического вывода понятийной структуры ПрО из частично структурированного в семантическом смысле источника, именуемого в АФП формальным контекстом (ФК) [4]. Основу ФК ПрО составляет матрица инцидентности, которая описывает соответствие «объекты-свойства» и может быть получена в результате обработки общепризнанного протокола для представления эмпирических данных о ПрО - таблицы «объекты-свойства» (ТОС) [5, 6].
Изначально АФП признавался пригодным лишь для формирования «скелета» формальной онтологии – решетки формальных понятий (т. е. множества понятий ПрО с выявленным на этом множестве отношением обобщения, или таксономии) - см., например, [7, 8]. Позднее были найдены эффективные способы использования АФП и для построения полноценных онтологических моделей – понятийных структур, включающих описания произвольных отношений между объектами ПрО – см., например, [6, 9]. Однако в последнем случае при формировании первичного ФК из ТОС не исключается возникновение своеобразной «методически обусловленной» нехватки информации о ПрО, что выдвинуло проблему построения более адекватной основы ФК, чем обычная матрица инцидентности «объекты-свойства» [10].
В [11] проведен морфологический анализ составляющих ТОС, позволивший установить различные потенциальные источники подобной неполноты данных о ПрО, и предложен метод построения онтологий исходя из нечеткого ФК.
Задача данной статьи – указать генезис и использование еще более «тонкой» модели ФК, когда истинность базового семантического суждения (БСС) онтологического анализа ПрО - bij = «объекту gi присуще свойство mj» - оценивается вектором áИстина, Ложьñ (многозначная логика класса VTF [12]):
(1) `bij = áb+ij, b-ijñ; b+ij, b-ij Î [0, 1].
Здесь компонент (аспект истинности) b+ij Истина формируется свидетельствами, подтверждающими БСС, а компонент (аспект) b-ij Ложь - отрицающими БСС.
Соответствие «объекты-свойства», описываемое матрицей с элементами-векторами`bij, следуя риторике [12] будем называть нестрогим. Бóльшая адекватность нестрого соответствия как основы ФК объясняется тем, что Истина и Ложь БСС bij на практике зачастую определяется независимым комплексом свидетельств так, что Ложь не выводима из отсутствия (дефицита) Истины, а Истина – из отсутствия (недостачи) Лжи.
1 Обобщенная таблица «объекты-свойства»
как первичный источник данных о предметной области
В стандартной ТОС строки соответствуют объектам, которые составляют эмпирическую выборку объектов G* исследуемой ПрО: G* Í G, |G*| = r > 0, G – множество всех объектов ПрО. А состав столбцов ТОС отражает априорную оснащенность аналитика измерительными процедурами:
(2) {mpj: G ® Sstj}j = 1,…, s,
где Sstj - априори известные непустые множества «стандартных» символов, составляющее диапазон измерений свойства mj Î M, |M| = s > 0.
В результате морфологического анализа этой модели в [11] при формировании ФК было предложено рассматривать более сложную структуру первичных данных - обобщенную ТОС, которая глубже отвечает реалиям накопления эмпирической информации о ПрО и учитывает:
· информацию о многократных измерениях[1] одного и того же свойства объекта ПрО, попавшего в поле зрения аналитика (т. е. сведения о многократной проверке БСС);
· дифференциацию доверия аналитика к различным измерительным процедурам (разницу в доверии к различным источникам сведений об истинности БСС);
· использование нескольких различных процедур измерения одного и того же свойства (содержательную эквивалентность части источников сведений об истинности БСС).
Согласно этим положениям обобщенная ТОС представляет собой гиперматрицу «объекты-свойства» A = (`aij )i=1,…,r; j=1,…,s, где`aij = ( )k=1,…,
- вектор значений, протоколирующий kij повторных измерений j‑го свойства у i‑го объекта. Дополнительно столбцы гиперматрицы, во-первых, помечены некоторой оценкой доверия к соответствующей измерительной процедуре, а, во-вторых, разделены на подмножества, каждое из которых представляет собой группу измерительных процедур, направленных на измерение одного и того же свойства у объектов ПрО.
Опишем методику обработки обобщенной ТОС в рамках парадигмы VTF-логики.
2 Построение нестрого формального контекста
на основе обобщенной таблицы «объекты-свойства»
Для начала отметим, что измерительные процедуры определяются формулой (2) лишь частично.
Во-первых, любая такая процедура может дать специальный результат None, который может свидетельствовать, например, о том, что анализируемый объект и измерительная процедура семантически не сочетаются, либо о том, что измеряемая величина лежит за порогами чувствительности, вне динамического диапазона измерительного прибора [6].
Во-вторых, на практике приходится сталкиваться еще с одной разновидностью неопределенности результата работы измерительных процедур - Failure, свидетельствующего о фактическом невыполнении задачи измерений (отказе, сбое средства измерений, воздержании при голосовании и т. п.).
Таким образом, реалистичным является следующее определение арсенала измерительных процедур:
(3) {mpj: G ® Sstj È None È Failure}j = 1,…, s,
причем None, Failure Ï Èj = 1,…, s Sstj.
Задачей первичной обработки ТОС в онтологическом анализе ПрО является истолкование результатов выполнения процедур (3) для объектов из множества G* применительно к проблеме оценки истинности всех эмпирически индуцируемых БСС, т. е. формирование матрицы B = (||bij||)i=1,…,r; j=1,…,s, где ||bij|| оценка истинности БСС bij. В исследуемом нами случае ||bij|| есть вектор (1).
2.1 Интерпретация сведений об одно - и многократных измерениях свойства объекта
Согласно ранее проведенным исследованиям [6, 10, 11] признается, что результат None выполнения процедуры mpj для gi Î G* сопоставляется для БСС bij = «объекту gi присуще свойство mj» с истинностным значением Ложь, а результат из множества Sstj – со значением Истина. В VTF-логике этому отвечают вектора «ложь» Л = á0, 1ñ и «истина» И = á1, 0ñ соответственно.
Сложнее обстоит дело с интерпретацией результата Failure.
Если исходные данные свидетельствуют о том, что для объекта gi измерение свойства mj выполнено всего один раз (однократно), и его результатом было значение Failure, то разумно оценить такую ситуацию крайней неопределенностью истинности соответствующего БСС. В VTF-логике для описания подобных предельных значений истинности суждений используется вектор «неопределенность» Н = á0, 0ñ.
По смыслу ничего не меняется и при наличии сведений о многократных измерениях свойства mj у объекта gi, если все они дали результат Failure, т. е. и в этом случае в качестве оценки истинности БСС bij резонно использовать вектор Н.
Семантически ситуация кардинально меняется, если результат хотя бы одного из многократных измерений свойства mj у объекта gi отличен от Failure. Такой результат свидетельствует, что «успешное», определяющее строгое значение истинности БСС измерение возможно, БСС в действительности истинно или ложно (и здесь неважно какой силой обладают имеющиеся свидетельства в пользу того или другого), и лишь внутренние причины в работе проверочной процедуры не позволили получить соответствующую информацию в актах измерений, завершившихся результатом Failure. Поэтому об истинности БСС в случае такого отдельно взятого Failure-результата можно сказать, что она «равноудалена» от «истины» И = á1, 0ñ и «лжи» Л = á0, 1ñ. С другой стороны, она в нашем понимании отличается и от «неопределенности» Н = á0, 0ñ, но одновременно нет оснований считать ее ближе к «противоречию» П = á1, 1ñ, чем к «неопределенности». В итоге в проанализированной ситуации результату Failure правомерно сопоставить векторное значение истинности БСС равное á0.5, 0.5ñ[2].
Итак, при однократном измерении свойства mj у объекта gi, когда элемент гиперматрицы A суть скаляр`aij = ( )k=1 = (aij), имеем
(4) 
Случай многократных измерений требует совмещения (объединения, накопления) kij > 1 свидетельств для БСС bij с разными значениями истинности
: á0, 1ñ, á0.5, 0.5ñ, á1, 0ñ, - для , равных соответственно None, Failure и любому значению из множества Sstj.
Различные варианты правила совмещения свидетельств для векторных логик предложены в [12]. Для правдоподобной оценки истинности БСС bij среди известных вариантов этого правила естественно принять схему усиления свидетельств при их совмещении и конкретно их усреднение (это частный случай так называемого «11-композиционного совмещения» на основе композиционного сложения согласно триангулированной s-нормы x Å y = min(1, x + y) [12]). Тогда истинность БСС bij при обработке многократных измерений свойства mj у объекта gi определит вектор
(5)
.
2.2 Простейшая модель учета меры доверия к источнику информации
Рассматривая приложение VTF-логики, естественно в качестве модели меры доверия к измерительной процедуре – отдельно взятому независимому источнику информации о ПрО - использовать вектор истинности`tj = át+j, t-jñ суждения tj = «j‑я измерительная процедура принадлежит множеству достоверных источников». Тогда в качестве итоговой оценки истинности БСС bij разумно признать вектор, получаемый как результат моделирования в VTF-логике естественно-языковой связки «И» векторов`tj и `bij.
Однако формализация в векторной логике типичных в логических приложениях естественно-языковых конструкций со связками «И», «ИЛИ», «НЕ» требует довольно скрупулезного сопоставления информационной подкрепленности связываемых суждений [12]. Оставляя заинтересованному читателю возможность самостоятельно освоить эту методику, рассмотрим более простую модель доверия к источнику информации.
Свяжем с каждой измерительной процедурой скалярную меру доверия к ее работе Tj Î [0, 1] и воспользуемся простейшей гипотезой о линейном изменении аспектов истинности БСС в зависимости от меры доверия к измерительной процедуре. Тогда получаем элементарную формулу для пересчета вектора истинности БСС bij:
(6) `bij = Tj ×`bij.
2.3 Обработка информации из содержательно эквивалентных источников
На практике весьма распространен прием использования одновременно нескольких источников информации для оценки одного и того же фактора. Применительно к обобщенной ТОС можно предложить следующую модель этой ситуации[3].
Пусть J1,…,Jl – множества индексов конгруэнтных столбцов ТОС, Jn Ç Jm = Æ при m ≠ n, m, n = 1,…, l; |Jm| ³ 2. Каждое множество Jm указывает группу независимых друг от друга измерительных процедур, которые направлены на измерение одного и того же (Jm)-го свойства у объектов ПрО.
Если при обработке ТОС вычислены вектора истинности `bij, i = 1,…, r, j Î Jm, то следует произвести «свертку» информации из конгруэнтных столбцов ТОС по уже упоминавшемуся правилу совмещения свидетельств – схеме усиления-усреднения – см. подраздел 2.1. Имеем
(7)
.
2.4 Определение нестрого формального контекста
В результате последовательного разворачивания вычислений с помощью формул (4)-(7) формируется матрица B векторных оценок истинности всех эмпирически индуцируемых БСС, размерность которой в общем случае составит r ´ s0, где s0 = |M0| =
- число различных измеряемых свойств объектов ПрО (см. предыдущий подраздел). Матрица B устанавливает нестрогое соответствие между эмпирической выборкой объектов ПрО G* и множеством M0: B Í G* ´ M0.
Кортеж
(8) (G*, M0, B)
определяет нестрогий ФК исследуемой ПрО.
3 Построение онтологии предметной области
по её нестрогому формальному контексту
Нетрудно видеть, что вектор истинности`bij БСС «объекту gi присуще свойство mj» можно рассматривать как векторный показатель принадлежности свойства mj априори неизвестному множеству Mi свойств объекта gi. Это означает, что Mi – нестрогое подмножество [12] универсального множества U, корректным определением которого в нашем случае будет
U = M0 È {mU},
где mU – искусственно вводимое в онтологическом анализе свойство «объект неопознан имеющимися измерительными процедурами», M0 Ç {mU} = Æ [6].
В узком смысле целью обработки ФК ПрО методом АФП является построение множества формальных понятий и идентификация на этом множестве отношения порядка. Эта задача в настоящее время содержательно интерпретирована и решена как для полностью определенных так и нечетких соответствий «объекты-свойства» (см., например, [4, 6-8] и [15, 16] соответственно). Однако, повторяя высказанную в [10] точку зрения, считаем, что лишь в первом случае возможно получение конструктивной онтологической спецификации ПрО с богатыми прикладными возможностями. Поэтому в [10, 11] исследовались условия a‑аппроксимации (a‑сечения) нечеткого соответствия «объекты-свойства» и возникающие при этом эффекты при построении онтологий.
Для нестрогих множеств также развита теория разложений на обычные множества уровня, только в несколько усложненном виде [12].
Так в случае использования VTF-логик для нестрого множества A множеством уровня a (или a‑сечением, обозначаемого как A(a)) является множество в обычном смысле такое, что
" u Î A(a) ® u+ ³ a+, u- £ a -,
где (u+, u-) = ||u|| - вектор истинности суждения о принадлежности элемента u универсума множеству A, а a = (a+, a -) - векторный порог доверия к свидетельствам: a+ - о принадлежности элемента u множеству A; a - - о противоположном суждении. Разумеется, u+, u-, a+, a ‑ Î [0, 1].
Таким образом, устанавливая порог a = (a+, a -), из нестрого ФК (8) путем замены матрицы векторов B матрицей инцидентности B(a):

получаем обычный ФК, который может быть обработан стандартными алгоритмами онтологического анализа с применением АФП [6].
Следуя методике, изложенной в [11], можно показать, что из данного нестрого ФК при варьировании вектором порога a может быть получено конечное число различных онтологических спецификаций ПрО. Наблюдается при этом (в более сглаженной форме) и обнаруженный в [10, 11] эффект обеднения этих спецификаций как с ужесточением требований к истинности БСС ПрО, так и их значительном смягчении (разумеется, при более сложной трактовке такого «ужесточения» и «смягчения» в духе VTF-логик).
Заключение
В статье предложена методика работы с неопределенными и противоречивыми данными, характерными для эмпирического исследования предметной области с задачей построения онтологической спецификации. Для моделирования истинности базовых семантических суждений, т. е. суждений о наличии у объектов тех или иных априори зафиксированных свойств, использована векторная логика с двумя аспектами: Истина и Ложь.
При обработке исходных данных о предметной области, представляемых обобщенной таблицей «объекты-свойства», предложена интерпретация реально наблюдаемого поведения измерительных процедур (независимость друг от друга актов измерения, ограниченность динамических диапазонов, возможность отказа от измерения), использована теория объединения свидетельств и другие формализмы VTF-логик.
Получение промежуточного результата онтологического анализа предметной области в форме нестрого формального контекста не влечет пересмотр собственно метода построения онтологических спецификаций, опирающегося на принципы анализа формальных понятий, но дополнительно требует принятия решения о величине порога доверия к исходным данным, задаваемого в рамках парадигмы многозначных векторных логик.
Список литературы
[1] Гаврилова, Т. А. Интеллектуальные технологии в менеджменте: инструменты и системы / , . – СПб.: Изд-во «Высшая школа менеджмента»; Изд. дом СПбГУ, 2008. – 488 с.
[2] Смирнов, С. В. Среда моделирования для построения инженерных теорий / // Известия Самарского научного центра РАНТ. 1. № 2. - С. 277-285.
[3] Скобелев, П. О. Онтологии деятельности для ситуационного управления предприятиями в реальном времени / // Онтология проектирования. – 2012. - №1(3). - C. 6-38.
[4] Ganter, B. Formal Concept Analysis. Mathematical foundations / B. Ganter, R. Wille. - Berlin-Heidelberg: Springer-Verlag, 199 p.
[5] Барсегян, А. А. Анализ данных и процессов / , , . - 3-е изд., перераб. и доп. – СПб.: БХВ-Петербург, 2009. – 512 с.
[6] Смирнов, С. В. Онтологический анализ: определения и алгоритмы / // Проблемы управления и моделирования в сложных системах: Труды III международной конф. (4-9 сентября 2001 г., Самара, Россия). – Самара: СамНЦ РАН, 2001. - С. 137‑146.
[7] Godin, R. Ontology Design with Formal Concept Analysis / R. Godin, H. Mili, G. W. Mineau, R. Missaoui, A. Arfi, T.-T. Chau // Theory and Application of Object Systems (TAPOS). 1998. Vol. 4. N. 2, 117-134.
[8] Obitko, M. Ontology Design with Formal Concept Analysis / M. Obitko, V. Snasel, J. Smid // Proc. of the CLA 2004 International Workshop on Concept Lattices and their Applications (Ostrava, Czech Republic, September 23-24, 2004). V. Snasel, R. Belohlavek (Eds.), 111-119.
[9] Ferre, S. Arbitrary Relations in Formal Concept Analysis and Logical Information Systems / S. Ferre , O. Ridoux, B. Sigonneau // Conceptual Structures: Common Semantics for Sharing Knowledge. Proc.13th Int. Conf. on Conceptual Structures ICCS-2005 (Kassel, Germany, July 17-22, 2005). Eds.: F. Dau, M.-L. Mugnier, G. Stumme). – Springer, LNCS-3596, 2005, 166-180.
[10] Смирнов, С.В. Генезис и отражение нечеткости объектно-признаковых моделей в онтологическом анализе данных / // Проблемы управления и моделирования в сложных системах: Труды IX международной конф. (22-28 июня 2007 г., Самара, Россия). – Самара: СамНЦ РАН, 2007. - С. 174‑179.
[11] Смирнов, С. В. Нечеткие формальные контексты при построении онтологий на основе анализа формальных понятий: происхождение и использование / // Знания – Онтологии – Теории: Труды Всероссийской конф. с международным участием (14‑16 сентября 2007 г., Новосибирск, Россия). Т. 2. – Новосибирск: Институт математики СО РАН, 2007. - С. 17‑25.
[12] Аршинский, Л. В. Векторные логики: основания, концепции, модели / . - Иркутск: Иркут. гос. ун-т, 2007. – 228 с.
[13] Зверев, Г. Н. Неклассические логики в задачах идентификации / // Идентификация систем и задачи управления: Труды международной конф. SICHRO’2сентября 2000 г., Москва, Россия). – М.: ИПУ РАН, 2000. – С. .
[14] Петровский, А. Б. Основные понятия теории мультимножеств / . - М.: Едиториал УРСС, 20 с.
[15] Pollandt, S. Fuzzy-Begriffe: Formale Begriffsanalyse unscharfer Daten / S. Pollandt. - Berlin-Heidelberg: Springer-Verlag, 1997. – 146 S.
[16] Yang, K. M. Fuzzy Concept Mining based on Formal Concept Analysis / K. M. Yang, E. H. Kim, S. H. Hwang, S. H. Choi // Int. J. of Computers. – 2008. - Issue 3., V.2. – Р. 279-290.
[1] Здесь и далее считаем отдельные измерения независимыми.
[2] Заметна известная корреляция наших рассуждений о двух вариантах интерпретации результата измерения Failure с трактовкой смысла дополнительных значений истинности (кроме Истины и Лжи) в работах , посвященным многозначным логикам в теории управления. Так значение Квин – «квадратный информационный ноль», свидетельство «внешней неопределенности» переменной - отражает «фатальные ошибки информационно-логического процесса»; значение Крин – «круглый информационный ноль», свидетельство «внутренней неопределенности» - обозначает ситуацию, когда априори известно, что суждение либо истинно, либо ложно, но выбор неоднозначен [13].
[3] В этом случае множество M измеряемых свойств объектов ПрО суть мультимножество (комплект, обобщенное множество) [14], а его основа M0 – множество различных измеряемых свойств объектов ПрО.


