На правах рукописи
_________________
ХА ТИ ЧУНГ
РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ПОСТРОЕНИЯ АТРИБУТНОГО ТЕМАТИЧЕСКОГО КЛАССИФИКАТОРА ДОКУМЕНТОВ
Специальность: 05.13.17 — Теоретические основы информатики.
АВТОРЕФЕРАТ
диссертации на соискание учёной степени
кандидата технических наук
Таганрог – 2009
Работа выполнена в Технологическом институте Южного федерального университета в г. Таганроге.
НАУЧНЫЙ РУКОВОДИТЕЛЬ:
доктор технических наук, профессор
ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:
доктор технических наук, профессор,
;
кандидат технических наук,
.
ВЕДУЩАЯ ОРГАНИЗАЦИЯ:
им. » г. Таганрог.
Защита диссертации состоится « 26 » июня 2009 г. в 14-20 на заседании диссертационного совета (Д 212.208.21) при Южном федеральном университете по адресу: 347928 г. Таганрог, пер. Некрасовский, 44, ауд. Д-406.
С диссертацией можно ознакомиться в Зональной научной библиотеке ЮФУ по адресу: г. Ростов-на-Дону, ул. Пушкинская, 148.
Автореферат разослан «___» мая 2009г.
Ученый секретарь
диссертационного совета Д 212.208.21,
доктор технических наук, профессор
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время объем электронных изданий и документов в интернет, локальных сетях, электронных библиотеках, электронных каталогах и др. по некоторым оценкам удваивается каждый год. Однако ограниченные возможности инструментариев поиска и классифицирования информации существенно затрудняют пользователю доступ к релевантной его запросам информации. Проблема разработки эффективных подходов тематической классификации документов стала сегодня объектом серьезных исследований. Для решения этой проблемы были разработаны и предложены ряд подходов, связанных с выделением и извлечением информационных объектов, определением их статистических, лингвистических и семантических характеристик, построением семантико-тематической структуры документов и тематик, тематической фильтрацией и пр. Этой проблеме также посвящен ряд международных научных конференций и семинаров.
Как показывает анализ подходов в области классификации документов, каждый из них обладает определенными достоинствами и недостатками, а также областью эффективного использования. Однако, ни в одном из этих методов для повышения эффективности классификации не используется явное выделение функциональных областей в документах. В то же время, использование разнородной информации из данных областей может существенно улучшить результаты классификации документов. Поэтому, несмотря на то, что существует много работ по тематической классификации, на сегодня в общем виде данная проблема до сих пор еще не решена. Таким образом, разработка методов и систем автоматической тематической классификации документов остается одной из актуальных проблем в области информатики и имеет как теоретическую, так и практическую значимость.
Настоящее диссертационное исследование выполнено в рамках данной проблематики и направлено на разработку и исследование моделей и методов атрибутной тематической классификации документов.
Объект исследований. Методы построения атрибутного тематического классификатора документов.
Цели и задачи работы. Разработка и исследование методов построения атрибутного тематического классификатора документов.
Для достижения поставленной цели исследования были решены следующие основные задачи:
1. Построение и исследование моделей атрибутного описания документов и тематик, отличающихся от известных моделей тем, что традиционная совокупность классификационных признаков дополнена атрибутными функциональными характеристиками.
2. Разработка способов построения классифицирующей функции на основе частичных функций близости атрибутных множеств документов и тематик.
3. Разработка методов построения обучающих выборок, методов обучения и настройки атрибутного классификатора для тематической классификации документов.
4. Построение программной модели для экспериментального исследования атрибутного классификатора и апробации теоретических выводов результатов.
5. Проведение экспериментального моделирования и исследования разработанного атрибутного классификатора.
Методы исследования. Для решения выше перечисленных задач использованы методы математического и комбинаторного анализов, методы нечеткой логики, методы оптимизации, методы статистического анализа, методы лингвистического анализа, технология программирования.
Научная новизна работы. Состоит в следующем:
1. Разработана модифицированная модель описания документа, которая отличаются от известных моделей тем, что наряду с описанием основного текста содержит ряд дополнительных атрибутов, таких как описания названия, авторов, аннотации, глоссарии и пр., а также таких атрибутов, как УДК, ISBN и пр., которые соответствуют данному типу документов.
2. Разработана модифицированная модель описания тематики, атрибутивно согласованная с предложенной моделью описания документа, что позволяет устанавливать между документами и тематиками степень близости по однотипным атрибутам описаний.
3. Разработана классифицирующая функция на основе частичных функций близости по типу “текст”↔“текст”, “текст”↔“экспертное знание”, “экспертное знание”↔“экспертное знание”, “описательные атрибуты”↔“описательные атрибуты”, которая в отличие от известных позволяет учитывать информацию из дополнительных атрибутов документов и тематик.
4. Сформулированы в виде лемм требования к структуре правильно построенной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи и разработаны методики коррекции обучающей выборки, что позволяет организовать обучение и настройку разработанного атрибутного классификатора.
5. Предложено представлять классифицирующую функцию в виде лингвистической переменной, а построенные правила нечеткого логического вывода использовать для классификации, что позволяет существенно упростить переобучение атрибутного классификатора путем коррекции нечетких переменных и/или правил логического вывода.
Основные положения, выносимые на защиту. На защиту выносятся следующие научные положения и результаты, полученные в диссертационном исследовании:
1. Атрибутные модели описания документа и тематики.
2. Классифицирующая функция на основе частичных функций близости по типу “текст”↔“текст”, “текст”↔“экспертное знание”, “экспертное знание”↔“экспертное знание” и “описательные атрибуты”↔“описательные атрибуты”.
3. Методы построения правильной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи, методика коррекции обучающей выборки на основе решения оптимизационной задачи.
4. Представление классифицирующей функции в виде лингвистической переменной и системы правил нечеткого логического вывода.
Теоретическая и практическая значимость результатов исследования.
1. Разработанная модифицированная модель описания документа позволяет наряду с характеристиками основного текста включить в описание документа информацию из дополнительных функциональных областей (атрибутов) таких, как названия, авторы, аннотация, глоссарий, УДК, ISBN и пр., которые соответствуют данному типу документов.
2. Разработанная модифицированная модель описания тематики атрибутивно согласована с предложенной моделью описания документа и позволяет устанавливать между документами и тематиками степень близости по однотипным атрибутам описаний.
3. Разработанная классифицирующая функция на основе частичных функций близости по типу “текст”↔“текст”, “текст”↔“экспертное знание”, “экспертное знание”↔“экспертное знание”, “описательные атрибуты”↔“описательные атрибуты” позволяет интегрально учитывать информацию из дополнительных атрибутов документов и тематик.
4. Сформулированные в виде лемм требования к структуре правильно построенной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи, а также разработанные методики коррекции обучающей выборки позволяют организовать обучение и настройку разработанного атрибутного классификатора.
5. Разработанное представление классифицирующей функции в виде лингвистической переменной и построенные правила нечеткого логического вывода позволяют существенно упростить переобучение атрибутного классификатора путем коррекции нечетких переменных и/или правил логического вывода.
Разработанные методы, способы и алгоритмы дополняют существующие теоретические разработки в данной области и подтверждают их теоретическую значимость, а их практическая значимость подтверждается результатами экспериментального моделирования и возможностью их применения в системах информационного поиска документов, электронных библиотеках и библиотеках различных учреждений.
Достоверность результатов. Вытекает из их математического обоснования, корректного использования методов математического и комбинаторного анализов, нечеткой логики, оптимизации, статистического и лингвистического анализов, технологии программирования, а также подтверждается результатами проведенных модельных экспериментов.
Использование результатов работы. Результаты диссертационного исследования используются в ряде работ, выполненных в международной лаборатории ELDIC, и в учебном процессе, что подтверждается актами о внедрении результатов исследования в рамках работ по госбюджетной НИР № 000 “Исследование и разработка гибридных логико-математических и нечетко-лингвистических моделей задач искусственного интеллекта, информационного поиска и распознавания образов” и учебном процессе по дисциплине “Организация электронных архивов данных” магистерской программы “Интеллектуальные системы” по направлению 230100 “Информатика и вычислительная техника” факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Апробация результатов работы. Основные результаты работы неоднократно докладывались и обсуждались на конференциях и семинарах различного уровня, в том числе:
- VIII Всероссийской научной конференции студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления (КРЭС'06)" (Таганрог, ТРТУ, 2006г);
- Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2007г);
- Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2008г);
- VI Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системы анализ и управление" (Таганрог, ТТИ ЮФУ, 04-05 декабря 2008г).
Публикации. По материалам диссертации автором опубликовано 7 печатных работ, в том числе одна статья в издании из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и приложений. Текст изложен на 136 страницах, содержит 24 рисунков, 13 таблицы, список литературы из 75 наименований.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ.
Во введении показана и обоснована актуальность темы диссертационного исследования, показана существующая степень разработки проблемы, сформулированы цель и задачи исследования, сформулированы положения и результаты, выносимые на защиту, определены научная новизна и практическая значимость результатов исследования, приведены данные об апробации и использовании научных результатов, о публикациях и структуре диссертационной работы.
В первой главе определены основные понятия и терминология, используемая в диссертационном исследовании, проведен анализ существующих подходов в области классификации, таких как вероятностный, векторный, и комбинированный. Рассмотрены и проанализированы такие методы тематической классификации как статистические Байесовские, k-ближайших соседей, центроидные, нейронные сети, логические, гибридные и пр., а также проанализированы используемые в них математические модели описания документов, тематик, классифицирующих функций. В результате этого анализа определено место атрибутной классификации среди этих методов и отобран математический инструментарий для целей диссертационного исследования.
Во второй главе разрабатываются модели описания документов и тематик, которые учитывают не только основное текстовое содержания документа, но и ряд его дополнительных атрибутов, характерных для данного рода документов.
Документ представляется в виде основного текста, составляющего его семантическую сущность, а также некоторой дополнительной информации, которая определяет стандартизированный формат, способ составления и оформления документов данного вида. Например, книга кроме основного текста содержит название, описание авторов, оглавление, аннотацию, список литературы и пр., а также такие атрибуты как ISBN, УДК и пр. Также свои форматы имеют научные статьи, научно-технические отчеты и т. п. Учитывая все это, модель описания документа представляется в виде:
, где
,
и
- атрибутные множества. Здесь множество
создается на основе термов тела документа (
- терм,
- встречаемость терма,
- важность терма). Множество
представляет термы
из дополнительных областей и их важность
для данного документа. Множество
представляет индивидуализированные атрибуты, где
- тип,
- значение ,
- важность соответственно.
Описание тематики
атрибутивно согласовано с описаниями документов, формируется на основе обучающей выборки (ОВ) и экспертного знания. Множество
формируется классификатором из термов
текстов документов вместе с характеристиками встречаемости
и
- степени важности
для тематики. Множество
формируется классификатором и уточняется экспертами. Здесь
- характеристические термы тематики,
- важность терма
в тематике
. Множество
представляет характерные описательные атрибуты тематики, аналогичные документам.
- пороговое значение атрибутной классифицирующей функции (АКФ). Если значение АКФ больше
, то документ относится к тематике
, в противном случае - нет.
Процедура формирования описания тематики имеет следующий вид:
1. Эксперты формируют наименование тематики;
2. Эксперты формируют часть элементов множества
.
3. Эксперты формируют часть
;
4. Эксперты формируют ОВ;
5. Классификатор по ОВ строит множества
и доопределяет множество
;
6. В процессе настройки и обучения классификатор определяет
для АКФ.
В третьей главе разработаны модели атрибутной классифицирующей функции, проведен их анализ, а также сконструированы алгоритмы настройки и обучения атрибутного классификатора.
Построение АКФ связано с определением для каждой пары
функции вида
, где
- частичная функция близости (ЧФБ) документа тематике. Здесь
имеет тип “текст”↔“текст”;
- “текст”↔“экспертное знание”;
- “экспертное знание”↔“экспертное знание”;
- “описательные атрибуты”↔“описательные атрибуты”. Таким образом, АКФ учитывает все атрибутные множества документов и тематик.
Конструкцию
АКФ определим в виде линейной суммы частичных функций близости и учтем роли каждой из них коэффициентами доверия
,
,
,
. Тогда данное представление АКФ
имеет вид:
(1)
Значение правильно настроенной АКФ имеет максимум только на соответствующей документу тематике, при этом значение АКФ должно превысить порог
.
Определение 1. Классификатор, для которого установлены пороги
, назовем базовым классификатором (БК).
Лемма 1. Для правильно построенного классификатора, если для документа
и тематики
существует классифицирующая функция вида
, то всегда для данного документа любая другая классифицирующая функция
для всех
.
Доказательство данной леммы вытекает из определения базового классификатора.
Лемма 2. В правильно построенной обучающей выборке
для каждого документа
всегда существует одна и только одна классифицирующая функция вида
.
Доказательство данной леммы базируется на определении ОВ.
Данные леммы положены в основу процедуры построения обучающей выборки
. Так, если лемма 1 не выполняется, то в ОВ некоторые документы относятся классификатором более чем к одной тематике. В этом случае необходимо уточнить описания документов и соответствующих тематик. Если не выполняется лемма 2, то ОВ содержит документы, термы которых не учтены в описаниях тематик. Коррекция: термы из документов либо учесть в описаниях тематик, либо документы удалить из ОВ.
Пусть для документа
и тематики
построены описания по рассмотренным атрибутным моделям. Тогда ЧФБ
представим в виде:
(2)
Здесь числитель представляет сумму произведений важностей общих для документа и тематики термов (
), а знаменатель - сумму квадратов важностей всех термов (
и
) атрибутных множеств
и
соответственно.
По аналогии сформируем ЧБФ
,
,
:
(3)
(4)
(5)
В диссертации показывается, что значения ЧБФ
,
,
,
нормализованы на интервале
.
Для формирования описаний документов, используя алгоритмы извлечения термов, определяются множества
,
и
. Далее для каждого терма определяется его важность. Так, для множества
важность представляется в виде:
(6)
и учитывает количество слов
в терме, среднюю длину
термов по данному документу, определяемую формулой
. Здесь
- количество документов обучающей выборки с учетом размера текста документов,
- размер текста документа в числе термов,
- количество термов в обучающих документах, в тексте которых встречается терм
.
Если использовать однословные термы и не учитывать размера текста документа в числе термов, то важность терма для документа приводится к известному в тематической классификации выражению
.
В дальнейшем важность термов всегда будем нормализовать по типу
, где
. Сокращение размерности множества
осуществляется за счет удаления не характерных для данного документа слов и словосочетаний (стоп-термов, термов общего назначения и т. д.).
Важность термов атрибутного множества
определим через настраиваемый параметр
, который соответствует средней важности термов множества
. Пусть вначале
, где
- средняя длина термов множества U, а
- число слов в терме
. Если терм
встречается в
(
), то повысить его важность
и удалить кортеж
из множества
, в противном случае, снизить его важность
. После вычисления важностей всех термов множества U необходимо провести их нормализацию по типу
, где
максимальное значение из всех
(
).
При сравнении термов использован знак
(
), что означает идентичность термов
и
. Понятие идентичности может быть расширено до термов-синонимов. В этом случае алгоритм также сохраняет работоспособность, однако необходимо включить в базу данных классификатора тематические словари и тезаурусы синонимов.
Определение важности описательных атрибутов множества
документа выполняется экспертами и служит для более тонкой настройки классификатора.
Формирование атрибутных множеств тематик классификатора выполняется по обучающей выборке и экспертной информации в соответствии с моделью описания тематики. Для этого вначале необходимо распределить документы по тематикам и построить ОВ вида
, где
- множество всех тематик. Далее задать экспертным путем степени близости документов тематикам
. Из практики желательно выполнение условие
.
Алгоритм подготовки атрибутных множеств термов
,
и
для тематики имеет вид:
1. Для каждого обучающего документа
определить множества
,
,
, Данные процедуры выполняются по аналогии формирования описания документа.
2. Для обучающей выборки тематики
сформировать множество
по следующей формуле
.
3. Для обучающей выборки тематики
сформировать множество
по следующей формуле
.
4. Предъявить экспертам для коррекции и пополнения множества
и
.
5. Сформировать объединенное множество
, взяв для каждой пары
из всех множеств
, для которых
, а параметр
в паре определить по формуле
. Здесь под знаком суммы представлено произведение встречаемости терма
в документе
и важности
документа
для тематики
.
Определение важности термов для атрибутного множества
выполняется по аналогии с документами. Определение важности термов для множества
не должно зависеть от частоты их встречаемости в тексте документов ОВ. Если важность не задана явно экспертами, то она определяется следующим образом.
Пусть
- множество термов, заданных экспертами, с их важностям. Если
, то
определяется как
. Если
, то
определяет среднюю важность термов множества
.
Пусть в начале
, где
средняя длина термов множества U. Если терм
встречается в
, то повысить его важность по формуле и удалить кортеж из , иначе снизить его важность по формуле . После того как важности всех термов множества U определены, необходимо провести нормализацию по типу , где - максимальное значение из всех
(
).
Определение важности описательных атрибутов множества
выполняется только экспертным путем.
После определения всех атрибутных множеств документов ОВ и тематик, выполняется настройка АКФ с целью максимизации порога
путем подбора коэффициентов доверия
. Сформулированные правила регулирования коэффициентов доверия имеют следующий вид:
Правило 1. Если близость типа “экспертное знание”↔“экспертное знание” “высокая”, то повысить коэффициент доверия
к ЧФБ
и снизить коэффициенты доверия
к ЧФБ
и
.
Правило 2. Если близость типа “экспертное знание”↔“экспертное знание” “средняя”, а близость типа “текст”↔“текст” “высокая”, то повысить коэффициенты доверия
к ЧФБ по типу близости “текст”↔“текст” и “текст”↔“экспертное знание”.
Правило 3. Если близость типа “экспертное знание”↔“экспертное знание” меньше “средняя”, то повысить коэффициент доверия
к ЧФБ
и
.
Правило 4. Если близости типов “текст”↔“текст” и “текст”↔“экспертное знание” “низкая”, то увеличить коэффициенты доверия
к ЧФБ
.
Правило 5. При высоком значении близости типа “текст”↔“текст” увеличить коэффициент доверия
к ЧФБ
.
Пусть
прямо пропорционально зависят от ЧФБ, тогда
, а АКФ имеет вид
Из анализа следует, что значение АКФ сдвигается в ту сторону, где одна из ЧФБ принимает значение большее, чем другие ЧФБ. Цель – максимизация АКФ, т. е.
.
Достижение данной цели сформулируем в виде оптимизационной задачи. Для этого вычислим значения всех ЧФБ документов ОВ и сформируем линейную систему уравнений, представленную ниже в векторной форме:
. (7)
Наложим на (7) в соответствии с леммой 1 ограничения вида:
(8)
После введения
дополнительных переменных
и
получим следующие соотношения:

(9)
Решение (9) является правильным только тогда, когда введенная переменная
. Приведем (9) к следующему виду:
(10)
где
,
и
- матрица размерности
, элементы которой представляют коэффициенты из равенств (9), а
представляет вектор столбцов левой части всех равенств системы (9). Виды матриц
и
представлены ниже.
,
.
Из анализа матриц
и
видно, что оптимизационная задача (10) является разрешимой, поскольку имеет
линейно независимых столбцов. Для нее всегда найдется допустимое решение
, т. е.
,
,
. Также можно доказать, что
, поскольку
. Поставленная оптимизационная задача (10) является одним из видов задач линейного программирования и представлена в канонической форме. Ее можно решать, например, с помощью симплекс-метода.
При анализе результатов решения оптимизационной задачи возможны следующие случаи:
Случай 1 (
). Нарушение требования леммы 1. Провести коррекцию обучающей выборки.
Случай 2. Нарушение доверие к ЧФБ вследствие не выполнения правил регулирования коэффициентов доверия. Провести коррекцию обучающей выборки.
Теперь рассмотрим представление АКФ в виде лингвистической переменной. Для этого зададим для каждой из ЧФБ лингвистические значения вида: {“высокая”, “средняя”, “низкая”, “близка к нулю”}. Очевидно, каждое из этих лингвистических значений можно рассматривать как нечеткую переменную и представлять одним из следующих способов: ступенчатым, трапециевидным, треугольным, гауссовым и т. п.
Исходя из этого, сформируем АКФ в виде лингвистической переменной <LV, T, U>, где LV=“принадлежность” - имя лингвистической переменной; T(LV)={“принадлежит”, “вероятно принадлежит”, “вероятно не принадлежит”, “не принадлежит”} – множество лингвистических значений; U=[0,1] – область определения LV.
Зададим правила нечеткого вывода в виде:
: если принимает значение
, -
, -
и -
, то LV принимает значение
.
Здесь
{“высокая”, “средняя”, “низкая”, “близка к нулю”} и
{“принадлежит”, “вероятно принадлежит”, “вероятно не принадлежит”, “не принадлежит”}.
Обозначим лингвистические значения “высокая”, “средняя”, “низкая” и “близка к нулю” через 1, 2, 3 и 4 соответственно, тогда нечеткую систему вывода атрибутного классификатора можно задать таблицей вида:
|
|
|
| LV |
1 | 1 | 1 | - | принадлежит |
2 | 1 | принадлежит | ||
- | вероятно принадлежит | |||
3 | 1 | вероятно принадлежит | ||
- | вероятно не принадлежит | |||
4 | 1 | вероятно не принадлежит | ||
- | вероятно не принадлежит | |||
2 | 1 | - | принадлежит | |
2 | 1 | принадлежит | ||
- | вероятно принадлежит | |||
4 | вероятно не принадлежит | |||
3 | 1 | принадлежит | ||
2, 3 | вероятно принадлежит | |||
4 | вероятно не принадлежит | |||
4 | 1, 2 | вероятно принадлежит | ||
3, 4 | вероятно не принадлежит | |||
3 | 1 | 1, 2 | принадлежит | |
- | вероятно принадлежит | |||
2 | 1 | принадлежит | ||
- | вероятно принадлежит | |||
3 | 1 | вероятно принадлежит | ||
- | вероятно не принадлежит | |||
4 | - | не принадлежит | ||
4 | 1 | 1, 2 | вероятно принадлежит | |
- | вероятно не принадлежит | |||
2 | 1, 2 | вероятно принадлежит | ||
- | вероятно не принадлежит | |||
3-4 | - | не принадлежит |
В четвертой главе обсуждаются вопросы экспериментального моделирования атрибутной классификации, приводится структура программной модели (ПМ) и результаты анализа проведенных на ней экспериментов.
ПМ включает базу данных, хранилище документов, хранилище текстов, подсистему распознавания и преобразования документов. В ней организуется пакетный режим конвертирования документов в текстовые форматы, выделение термов, определение дополнительной информации о документах. Взаимодействие ПМ с пользователями осуществляется через специальный интерфейс. Сама ПМ реализована в виде библиотеки на языке C# в платформе.NET.
Каждый документ, введенный в ПМ, сохраняется в хранилище документов, распознается и после этого в документе определяются функциональные области, термы и их встречаемость. Далее информация о документе сохраняется в базе данных. После моделирования близости документа тематикам принимается решение о классификации документа.
Для проведения экспериментов были составлены 14 тематик, обучающая и тестовая выборки, включающие научные статьи, книги и др. документы, представляющие область информатики. Суммарный объем выборок составил около 2000 документов, занимающих 20Gb памяти.
Эксперимент 1. Настройка классификатора - определение порогов классификации для тематик. В первичной ОВ всем тематикам приписано по 11 обучающих документов. При прогоне классификатора по ОВ для 8 из 14 тематик пороговое значение АКФ оказалось меньше 0.5. Поэтому проведена коррекция ОВ путем добавления в 5 из 14 тематик по 3 документа. Кроме того, в описания всех тематик добавлены термы из предметных указателей и глоссариев книг. После коррекции результаты классификации стали удовлетворительными. Результат настройки классификатора показан ниже на рисунке 1.

Рисунок 1. Настройка порогов классификации.
Здесь пунктирной линией обозначены пороги классификации тематик до коррекции, а сплошной линией – после коррекции.
Эксперимент 2. Оценка полноты и точности классификации по тестовой выборке.
Пусть
- тестовая выборка, а
- экспертные оценки близостей
документов тематикам,
- множество документов из ТВ, соответствующих тематике с по мнению экспертов,
- множество документов, отнесенных в тематику с классификатором и
- множество документов, правильно отнесенных к тематике с. Пусть
- объем документа
в числе термов. С учетом выше изложенного характеристики качества классификации сформируем следующим образом:
a) полнота для одной тематики
;
b) полнота для классификатора
;
c) точность для одной тематики
;
d) точность работы классификатора
.
Определение качества классифицирования проводилось отдельно для однословных и многословных термов. Многословные термы состояли от 1 до 3 слов. Результат классификации на тестовой выборке, составленной из 187 книг, представлен на рисунке 2.

Рисунок 2. Оценка качества атрибутной классификации.
Среднее значение полноты классификации в случае использования однословных термов (полнота 1) составил 61%, в случае использования многословных термов (полнота%. Среднее значение точности классификации при использовании однословных термов (точность 1) составило 64%, в случае многословных термов (точность%. Таким образом, точность классификации на прямую связана с возможностями выделения термов лингвистическим обеспечением классификатора.
В заключении приводятся основные научные результаты, полученные в диссертационной работе, и формулируются выводы.
1. Проведено исследование существующего состояния теоретических и практических исследований в области классификации, которое показало, что при анализе документов не в полной мере интегрально учитываются атрибутные составляющие документов для построения классифицирующей функции. Сделан вывод о том, что учет информации из атрибутных характеристик документов мог бы существенно повысить точность классифицировании в условиях неполной информации по основному содержанию документов.
2. Для цели диссертационного исследования сформулированы основные терминологические понятия из области классификации, дана их содержательная и математическая интерпретация, выбран основной математический инструментарий, который учитывает модели представления документов и методы их анализа.
3. Предложена модифицированная модель описания документа, которая наряду с описанием основного текста содержит ряд дополнительных атрибутов, таких как описания названия, авторов, аннотации, глоссариев и пр., а также таких атрибутов как УДК, ISBN и пр., которые соответствуют данному типу документов.
4. Предложена модифицированная модель описания тематики, атрибутивно согласованная с предложенной моделью описания документа, что позволяет устанавливать между ними степени близости по однотипным атрибутам описаний.
5. Разработана конструкция классифицирующей функции
, аргументами которой являются частичные функции близости
,
,
,
. Предложено функцию
представлять в виде линейной комбинации частичных функций близости, нормализованной на интервале [0,1]. Каждая такая функция отражает частичную близость документа тематике на основе типов: “текст”↔“текст”, “текст”↔“экспертное знание”, “экспертное знание”↔“экспертное знание” и дополнительных атрибутов множеств описания. Введено понятие базового классификатора, обладающего минимальной точностью, а также сформулированы требования в виде лемм к структуре правильно построенной обучающей выборки.
6. Сконструирована обобщенная функция важности термов и предложено формировать атрибутные множества на основе разработанного в диссертации алгоритма извлечения термов.
7. Сформулированы правила и построена процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции. Настройка коэффициентов доверия и порогов классифицирующей функции сформулирована в виде оптимизационной задачи.
8. На основе решения данной оптимизационной задачи разработана методика коррекции обучающей выборки.
9. Предложено представление классифицирующей функции в виде лингвистической переменной и построены правила нечеткого логического вывода, позволяющие существенно упростить переобучение классификатора путем коррекции нечетких переменных и/или правил логического вывода.
10. Разработана программная модель для моделирования разработанного атрибутного классификатора и на ней поставлены ряд экспериментов. Результаты экспериментов подтвердили полученные в диссертации теоретические выводы.
ПУБЛИКАЦИИ ПО ТЕМЕ РАБОТЫ
1. Ха алгоритма сбора и классификации документов в поисковой машине на основе нечеткой логики // Сборник трудов VIII Всероссийской научной конференции студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления (КРЭС'06)" - Таганрог: Изд-во ТРТУ, 2006г. - с. 253-254.
2. Ха системы обработки текстовой информации на основе алгебраических методов с учетом семантических характеристик текста. // Сборник трудов Всероссийской научной школы - семинара молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки". - Таганрог: Изд-во ТТИ ЮФУ, 2007г. - с. 61-65.
3. Ха особенностей вьетнамского языка в системе русско-вьетнамского (вьетнамско-русского) машинного перевода. // Известия ЮФУ. Технические науки. Тематический выпуск «Интеллектуальные САПР».- Таганрог: Изд-во ТТИ ЮФУ. № 2 (7–с. 206-210.
4. Ха автоматизированной модели каталогизации документов в информационной образовательной системе. // Сборник трудов V Всероссийской конференции студентов, аспирантов и молодых ученых “Технология Microsoft в теории и практике программирования”. –Таганрог: Изд-во ТТИ ЮФУ, 2008г. - с. 122-125.
5. Ха Т. Ч., , Создание текстовой выборки на основе электронного архива данных лаборатории ELDIC для исследования задач автоматической обработки текстов на естественном языке. // Сборник трудов всероссийской научной школы-семинара молодых ученых, аспирантов и студентов: "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки". –Таганрог: Изд-во ТТИ ЮФУ, 2008г. –с. 82-86.
6. Ха моделей представления документов и классификатора на основе нечеткой логики. // Известия ЮФУ. Технические науки. Тематический выпуск “Интеллектуальный САПР”.–Таганрог: Изд-во ТТИ ЮФУ, 2008. –№9(86). –с.139-144.
7. Ха Т. Ч. О проблеме извлечение термов из текста в задаче автоматизированной классификации документов. // Сборник трудов VI Всероссийской научной конференции молодых ученых, аспирантов и студентов “Информационные технологии, системный анализ и управление”. Таганрог: Изд-во ТТИ ЮФУ, 2008г. ‑с. 30-33.
В работе [5], написанной в соавторстве, программная модель интегрирования с известными решениями для распознавания текстов является личным вкладом автора.
Технологический институт Южного федерального университета в г. Таганроге
г. Таганрог, пер. Некрасовский 44.


