ОТЗЫВ

на автореферат диссертации "Разработка и исследование метода классификации библиографической текстовой информации", представленной на со­искание ученой степени кандидата технических наук

Данная работа посвящена активно разрабатываемой в современных публикациях проблеме поиска, обработки и анализа текстовой информации. Предлагаемые в рамках данных исследований теоретические решения находят широкое практическое применение.

В первой главе проведен обзор методов наиболее часто используемых для классификации текстовых данных. Выделен метод k-ближайших соседей, обладающий малой ошибкой классификации, простотой обучения и рядом дополнительных преимуществ, по сравнению с другими методами.

Во второй главе на основе метода k-ближайших соседей разработан модифицированный метод ближайшего соседа, устраняющий основной недостаток метода k-ближайших соседей – большое время классификации. На разных выборках показано, что при сопоставимой ошибке классификации время классификации модифицированного метода ближайшего соседа примерно в 91 раз меньше времени классификации метода k-ближайших соседей.

В третей главе проводятся исследования влияния длины обучающей выборки, количества классов, метода взвешивания и метрики определения расстояния между документами на ошибку и время классификации модифицированного метода ближайшего соседа, сравниваются ошибка и время классификации разработанного метода с ошибками и временем классификации других широко использующихся методов: метода центроидов, наивного байесовского метода и метода k-ближайших соседей.

Четвертая глава посвящена разработке программного комплекса “СКАТ”, позволяющего автоматизировать процесс получения из сети Internet статей научно-технических журналов по заданным пользователем предметным областям.

В рассматриваемой работе можно отметить следующие недостатки:

·  исследования проводятся с использованием документов из библиографической базы данных COMPENDEX, в то время как большинство зарубежных исследователей используют для этих целей базу данных новостей агентства “Рейтер”;

·  из текста автореферата неясно, можно ли применять разработанный метод в других областях классификации, например при распознавании графических объектов и группировке фактографических данных.

Указанные недостатки не снижают достоинств диссертации, кото­рая, судя по автореферату, представляет собой законченную научно-исследовательскую работу, удовлетворяющую требованиям, предъявляемым к кандидатским диссертациям. Полагаю, что заслуживает присвоения ему ученой степени кандидата технических наук по специальности 05.13.01.

ОТЗЫВ

на автореферат диссертации "Разработка и исследование метода классификации библиографической текстовой информации", представленной на со­искание ученой степени кандидата технических наук

Тема диссертационной работы, связанная с теоретическими иссле­дованиями в области классификации текстовых документов и разработкой программного комплекса для автоматизации процесса отслеживания публикаций на Internet-сайтах научно-технических журналов, представляется актуальной.

В диссертации проводится обзор методов классификации текстовой информации, их сравнительный анализ. Показывается, что ни один из разработанных методов не обеспечивает высокое быстродействие и малую ошибку классификации, простоту обучения и легкость интерпретации результатов.

В работе разрабатывается модификация метода k-ближайших соседей, сокращающая время классификации без существенного увеличения ошибки классификации с помощью введения опорных точек и упорядочивания документов обучающей выборки по отношению к опорным точкам. На ряде выборок показано, что предложенный модифицированный метод ближайшего соседа показывает ошибку классификации, сопоставимую с ошибкой классификации метода k-ближайших соседей, при этом время классификации разработанного в среднем в 91 раз меньше. Разработанный метод, вместе с другими широко использующимися методами – k-ближайших соседей, наивным байесовским и центроидным методом, реализован в программном комплексе, позволяющим автоматизировать процесс получения статей научно-технических журналов с серверов сети Internet.

В тоже время по автореферату можно сделать следующее замечание:

·  из текста не ясно, использовались ли в работе специальные алгоритмы выделения информативных признаков и визуализации данных;

·  проводились ли исследования ошибки классификации разработанного метода для классификации полнотекстовых данных.

Несмотря на отмеченные недостатки дис­сертация представляет собой законченную НИР, удовлетворявшую требо­ваниям, предъявляемым к кандидатским диссертациям, и соискатель, , заслуживает присвоения ему ученой степени кандидата технических наук.

ОТЗЫВ

на автореферат диссертации "Разработка и исследование метода классификации библиографической текстовой информации", представленной на со­искание ученой степени кандидата технических наук

В диссертации рассматривается решение значимой практической задачи – автоматизации процесса получения статей с Internet-сайтов научно-технических журналов по заданным пользователем предметным областям. Важной особенностью данной задачи является необходимость разработки такого метода классификации, который обеспечивает малую ошибку и малое время классификации.

НЕ нашли? Не то? Что вы ищете?

Автором разработан модифицированный метод ближайшего соседа с использованием опорных точек, который является модификацией широко известного метода ближайшего соседа и устраняет его основной недостаток – малое быстродействие. В разработанном методе предлагается простой подход по сокращению операций определения расстояния от исследуемого документа до документов обучающей выборки, который основан на введении специальных опорных точек. Даны рекомендации по выбору опорных точек и других настраиваемых параметров модифицированного метода ближайшего соседа. В диссертации показано, что модифицированный метод ближайшего соседа использует для классификации примерно в 91 раз меньше времени, чем метод k-ближайших соседей, при этом ошибка классификации этих методов примерно одинакова. Оба выше указанных метода, а также наивный байесовский метод и метод центроидов реализованы в программном комплексе “СКАТ”, который предназначен для автоматизации процесса отслеживания публикаций на Internet-сайтах научно-технических журналов по заданным пользователем предметным областям. Работоспособность программного комплекса проверена на нескольких группах выборок.

По автореферату можно сделать следующие замечания:

·  эксперимент было бы целесообразно представить не в главе 2, в которой идет теоретическое описание разработанного метода, а в главе 3, посвященной исследованию разработанного метода на различных выборках;

·  из текста автореферата неясно, внедрен ли программный комплекс в учебный процесс.

Судя по автореферату, диссертация является законченной научно-исследовательской работой, удовлетворяет требованиям, предъявляемым к кандидатским диссертациям по специальности 05.13.01, а ее автор, заслуживает присвоения ему ученой степени кандидата тех­нических наук.

ОТЗЫВ

на автореферат диссертации "Разработка и исследование метода классификации библиографической текстовой информации", представленной на со­искание ученой степени кандидата технических наук

Работа посвящена исследованию проблемы автоматизированного получения научно-технических статей с сайтов Internet-журналов по заданным пользователем тематикам. Актуальность темы определяется тем, что на сегодняшний день перед исследователями остро стоит задача своевременного получения информации об изменениях в интересующих их предметных областях.

Для автоматизации процесса отслеживания научно-технических статей с сайтов Internet-журналов по заданным пользователем тематикам необходимо применять специализированные программные комплексы, которые способны получать и классифицировать документы из сети Internet. Задача осложняется тем, что на сайтах Internet-журналов в бесплатном доступе представлены только библиографические описания статей, состоящие из названия, описания, ключевых слов и фамилий авторов, и на сегодняшний день не существует программных комплексов ориентированных на обработку библиографических научно-технических документов.

Известные методы классификации не способны обеспечить одновременно малое время и малую ошибку классификации, в своем большинстве не обладают простотой обучения и интерпретации результатов. Проведенный в работе обзор методов позволил выделить метод k-ближайших соседей (kБС), как наиболее эффективный для решения практических задач классификации текстовых документов. Однако его основным недостатком является большое время классификации. Разработанный в работе модифицированный метод ближайшего соседа (ммБС) с помощью введения опорных точек позволяет существенно сократить количество операций определения расстояния от классифицируемого документа до документов обучающей выборки и тем самым увеличить быстродействие метода ммБС по сравнению с kБС.

В работе разработан программный комплекс “СКАТ”, реализующий модифицированный метод ближайшего соседа, метод k-ближайших соседей, наивный байесовский метод и метод центроидов. В ПК “СКАТ” реализованы модули, позволяющие провести настройку параметров методов по обучающей выборке и применить эти методы для автоматизации процесса получения библиографических научно-технических документов с сайтов Internet-журналов по заданным пользователем предметным областям.

В качестве замечаний следует отметить:

·  из текста автореферата не ясно, может ли разработанный программный комплекс работать с другими Internet-сайтами научно-технической библиографической информации, в частности с русскоязычными журналами;

·  как часто необходимо проводить настройку программного комплекса и дообучение метода для эффективной работы исследователя.

В целом, судя по автореферату, диссертация выполнена на высо­ком уровне, имеет большую практическую значимость и отвечает требо­ваниям, предъявляемым к кандидатским диссертациям, а ее автор, , достоин присвоения ему ученой степени кандидата техни­ческих наук.

ОТЗЫВ

на автореферат диссертации "Разработка и исследование метода классификации библиографической текстовой информации", представленной на со­искание ученой степени кандидата технических наук

В диссертации рассматривается решение практической задачи автоматизации процесса получения и обработки научно-технических библиографических документов с Internet-сайтов научно-технических журналов. Для решения этой задачи в работе предложен модифицированный метод ближайшего соседа (ммБС), использующий опорные точки для сокращения количества операций определения расстояния от нового документа до документов обучающей выборки. В случае применения ммБС время классификации значительно сокращается по сравнению с классическим методом ближайшего соседа (k-ближайших соседей). На ряде выборок показано, что время классификации модифицированного метода ближайшего соседа в среднем в 91 раз меньше, чем у классического метода k-ближайших соседей, при этом ошибка классификации и время обучения увеличиваются несущественно.

Большое внимание в работе уделено разработке программного комплекса “СКАТ”, реализующего модифицированный метод ближайшего соседа, метод k-ближайших соседей, наивный байесовский метод и метод центроидов, что позволяет сравнивать эти алгоритмы по времени и ошибке классификации, а также по времени обучения и дообучения. Модуль обновления базы данных статей позволяет использовать программный комплекс для автоматизации процесса отслеживания публикаций на Internet-сайтах научно-технических журналов по заданным пользователем тематикам.

По автореферату можно сделать следующие замечания:

·  не ясно, имеется ли в ПК “СКАТ” возможность формировать обучающую выборку в виде дерева классов;

·  не ясно, имеется ли в ПК “СКАТ” возможность присвоения документа одновременно к нескольким классам.

По содержанию автореферата можно сделать выводы о том, что дис­сертация выполнена на высоком научно-техническом уровне, имеет новые теоретические решения и удовлетворяет требованиям, предъявляемым к кандидатским диссертациям, а ее автор, , заслуживает присвоения ему ученой степени кандидата технических наук.