С. А. БУТЕНКОВ

Технологический институт Южного федерального университета, Таганрог

*****@***ru

компоненты гибридных нейросетевых

интеллектуальных систем, использующие

метод информационной грануляции

Работа посвящена разработке нового компонента гибридных искусственных нейронных сетей (ИНС) – гранулирующих ИНС, реализующих принципы теории информационной грануляции (ТИГ) L. Zadeh. В работе рассматриваются подходы к математической формализации структуры и функций подобной сети, разрабатываются основы теории гранулирующих ИНС. Предлагается структура гибридного гранулирующего персептрона и приводятся результаты его опытного исследования.

Введение

Опыт исследований последних лет показал, что применение в обработке и анализе данных однородных методов (т. е. методов, основанных на одной научной парадигме) не всегда позволяет эффективно решать сложные проблемы. За счет использования гибридных архитектур, использующих несколько парадигм, удается компенсировать недостатки одного подхода за счет преимуществ другого. Комбинируя различные подходы, можно обойти недостатки, присущие каждому из них в отдельности [1-3]. Интегрированность как фундаментальное свойство сложной системы предполагает не просто объединение, но взаимную адаптацию и совместную эволюцию ее компонентов, что обеспечивает появление новых качеств, не свойственных отдельным компонентам [3].

Гибридная интеллектуальная система (ГИС) определяется в [2] как система, состоящая из двух или более подсистем, объединенных общей целю или совместными действиями. Эти подсистемы могут иметь различные математические модели и различную физическую природу. Согласно классификации [4], простейшей гибридной структурой ГИС является цепочечная структура, состоящая по крайней мере из двух компонент, одна из которых является главным процессором, а другие – пре - или пост-процессорами [5]. Преимуществом таких слабо связанных ГИС [3] являются простота проектирования и возможность частичного использования готовых решения для отдельных подсистем.

НЕ нашли? Не то? Что вы ищете?

Бурно развивавшаяся в конце XX века теория ИНС [6-8] в настоящее время столкнулась с трудностями принципиального характера, требующими пересмотра и дальнейшего развития базовых парадигм теории ИНС. Во многих задачах и приложениях аппроксимационный подход к построению функции суммарной ошибки ИНС приводит к значительным размерам сети, а также к усложнению алгоритмов ее обучения (и, соответственно, к значительному росту ресурсов, потребных для реализации сети и времени ее обучения) [9]. При этом в значительной степени снижается устойчивость процессов, протекающих в ИНС [10]. Требуются радикальные решения, которые позволили бы строить эффективные сети умеренного размера, имеющие достаточно быстрые и устойчивые алгоритмы обучения [11].

Одним из возможных решений, направленных на преодоление этих сложностей, является использование новой парадигмы обработки информации в условиях неопределенности, основы которой заложены в работах L. Zadeh и др. [10-12]. Общим «зонтичным» термином для обозначения этой парадигмы и ее теоретического и практического окружения является термин теория информационной грануляции (ТИГ) [1, 12]. Эта теория обобщает известные подходы к представлению данных в виде некоторых «гранул» (дискретизация, кластеризация и т. п.) а также намечает новые направления использования таких представлений [13, 14]. Применительно к ИНС теория ИГ приводит к необходимости введения нейронов высокого порядка [6], широкое распространение и систематизация которых еще впереди [11] и построению на таких нейронах гранулирующих ИНС [15, 6].

Постановка задачи

Ключом к решению проблемы формализации новых типов ИНС является разработка метода формализации ее выходной ошибки [9]. Как правило, для этого используется некоторая норма ошибки аппроксимации входных данных ИНС [8, 9]. Однако аппроксимация сопряжена со многими типичными для нее проблемами (некорректностью (в смысле Тихонова) основной задачи, степенным ростом размерности аппроксимирующей ИНС и т. п. [6]). В наших работах был предложен информационный подход к оценке качества представления данных при грануляции и энтропийная оценка, сходная с оценками De Luca и Termini [15, 16]. Этот подход в перспективе позволяет получить критерии для оптимального гранулирования данных слоями гибридной ИНС.

В рамках настоящей работы предполагается развитие методов информационной грануляции на область многомерных данных путем алгебраизации математических моделей гранул [1]. Для разработанных моделей следует формализовать критерий оптимального гранулирования и предложить общую структуру гибридной гранулирующей сети. В сочетании с полученным критерием мы сможем построить алгоритм обучения спроектированной сети.

Грассмановы элементы в теории информационной грануляции

Фундаментальным понятием ТИГ применительно к многомерным данным является понятие инкапсулирующей гранулы [12]. С понятием инкапсулирующей гранулы тесно связано фундаментальное понятие аппроксимирующего графика отношения. График подмножества плоского множества задается как

,

где операция ”+” означает дизъюнкцию в широком смысле слова [1]. Отметим, что в настоящей работе речь идет о декартовых координатах (в отличие от лингвистических переменных). В ряде наших работ были введены алгебраические модели декартовых гранул, позволяющие компактно кодировать геометрическую информацию в виде матриц специального вида, которые F. Klein назвал «грассмановыми примитивными элементами» [14]. Например, базовый элемент для плоскости можно записать в виде

. (1)

Аналогичным образом записываются базовые элементы для пространства произвольной размерности. На основе таких элементов F. Klein построил полную геометрическую теорию для плоскости и пространства [13]. В настоящей работе мы распространяем принцип грассмановых примитивных элементов на локально-ортогональные системы координат.

Локально ортогональные грассмановы элементы

Введенные ранее в работах грассманновы модели гранул в ортогональных координатах допускают нечеткую интерпретацию в духе нечетких геометрических объектов, введенных A. Rosenfeld [11]. Параметры таких базовых элементов, покрывающих множества гранул, являются нечеткими значениями, определяющими выпуклые нечеткие множества, подобно тому, как в [13] это было сделано для плоских геометрических объектов. Для случая инкапсуляции двух произвольных непересекающихся грассманновских гранул и (1) по результатам [17] можно записать min-max оценки параметров инкапсулирующей гранулы в виде

. (2)

Исходя из (2), мы можем получить аналогичные выражения и для криволинейных гранул (в полярных координатах):

. (3)

Для цилиндрической системы координат, используя (2) и (3), получаем выражение для инкапсулирующей гранулы в виде

. (4)

В конических координатах выражение для инкапсулирующей гранулы, полученное из (3) и (4), будет выглядеть как

. (5)

Min-max оценки (2)-(5) могут использоваться для построения систем покрытий -мерных отношений [1] и их аппроксимации нечетким графиком [12]. На следующих этапах на инкапсулирующих гранулах строятся нечеткие отношения, введенные в [13] для решения задач интеллектуального анализа многомерных данных. Это дает возможность строить гранулирующие ИНС, например, в перцептуальном цветовом пространстве HSV и использовать основные преимущества ТИГ в этих гранулирующих ИНС.

При использовании для отдельных нейронов моделей (2)-(5) процесс получения информации о грануле (площадь, периметр и т. п.) всегда остается одним и тем же, меняется только смысл термов, входящих в грассманнов элемент. Это модель нейрона высокого уровня согласно [6].

Структура гранулирующих ИНС

Для реализации гранулирующих ИНС была предложена гибридная цепочечная структура, сходная со структурой ИНС, использующих карту Кохонена [18]. В структуре гибридной сети, представленной на рис. 1, входной слой грассманновых нейронов обеспечивает гранулирование исходных данных (в данном примере – на плоскости), а рабочий слой решает задачу классификации и строится на базе традиционной структуры перцептрона [8].

Предложенная гибридная архитектура в полной мере реализует преимущества гибридных сетей на основе РБФ, предложенных T. Poggio [9]. Гранулирующий слой решает задачу моделирования входных данных (в стандартных РБФ сетях эту задачу обычно решает самоорганизующийся слой Кохонена), а рабочий слой решает основную задачу обработки (в приведенном примере – классификации гранулированных данных).

За счет гранулирования входных данных путем покрытия грассмановыми элементами удается значительно понизить размерность сети и улучшить эффект генерализации, особенно для зашумленных данных.

Рис. 1. Нормированный гранулирующий гибридный персептрон

Отметим, что в традиционных РБФ-сетях для анализа изображений [9] Т. Poggio выбирал число нейронов скрытого слоя по числу образцов в базе обучающих выборок(!), в то время как в предложенной сети число гранулирующих нейронов выбирается по результатам, полученным в следующем разделе и является существенно меньшим [17].

Энтропийный подход к обучению гранулирующих ИНС

В работах [6-8] рассматривались вопросы оптимизации параметров ИНС с точки зрения аппроксимации ею некоторой функции многих переменных, заданной выборкой своих значений [9]. В соответствии с парадигмой ТИГ [1], нами было введено понятие канонической формы представления многомерных данных [11]. Для данных, приведенных к канонической форме, введена оценка их энтропийной функции, подобной введенным De Luca и Termini, однако, с учетом грануляции данных [14]. Показано, что при увеличении характерного размера покрывающих грассмановых элементов информативность представления падает (растет энтропия представления) практически по линейному закону. Эти результаты позволяют обоснованно выбирать оптимальные параметры грануляции. Поясним применение информационного подхода к оптимальному гранулированию многомерных данных на примере полутоновых изображений (трехмерные данные).

Обозначим вероятности наличия уровней яркостей полутонового изображения как, где – максимальная яркость изображения. Обозначим также уровень яркости, разделяющий объект интереса и фон изображения как, (. Тогда вероятности принадлежности пиксела объекту или фону запишем как

, , (6)

Для полного изображения:

,. (7)

Запишем зависимость энтропии системы «объект-фон» от параметра разделения объекта и фона в виде:

,. (8)

Полная энтропия данных, используемая для оценки качества гранулирования, представляется как

. (9)

Для канонического (бинарного) представления данных и . Для дискретного изображения размера обозначим количество пикселов, принадлежащих объекту, как и вычислим вероятности (6) как

,. (10)

Используя (10), мы можем вычислить энтропию покрытия изображения с помощью грассмановых гранул размерами и [10, 11] в виде

. (11)

Очевидно, что , и при . В предельном случае каждая гранула покрывает один пиксел, тогда .

Таким образом, потеря информации, неизбежная при гранулировании, оценивается с помощью критерия

. (12)

Отметим, что поведение функции по (12) не существенно зависит от исходных геометрических характеристик данных (изображения), что показало проведенное в ряде работ экспериментальное изучение различных подходов к минимизации (13).

Использование оптимальных в смысле (13) покрытий многомерных данных грассмановыми гранулами позволяет решить ряд важных практических задач построения ИНС – значительное снизить объем данных (число нейронов) и получить простые локально-независисмые алгоритмы обучения гранулирующего слоя [11]. Важнейшим свойством предлагаемых гранулирующих ИНС является способность к обработке наборов входных данных различного размера без переобучения рабочего слоя, что выгодно отличает их от сетей типа [9].

Результаты исследования гранулирующей гибридной ИНС

Для исследования представленных теоретических преимуществ гранулирующих гибридных ИНС были разработаны модели грассмановых нейронов в пакете MATLAB. Была создана база изображений символов, значительно отличающихся размерами и качеством (см. рис. 2). К этим изображениям были применены различные виды искажений и шумов [16], как аддитивные (размытие и добавление шумовых пикселов), так и структурные, связанные со значительным искажением видимой формы символов. В качестве рабочего слоя ИНС (см. рис. 1) использовался стандартный персептрон из пакета MATLAB, обученный для минимального размера символов в условиях отсутствия искажений формы символов [3].

В качестве гранулирующего слоя использовался слой, включающий нейроны, реализующие основные операции с грассманновыми элементами [15]. Использовался предложенный в работах [15, 17] алгоритм обучения гранулирующего слоя, включающий 4 шага для каждого нейрона входного слоя.

На следующем рисунке приведены примеры символов из базы данных зашумленных и искаженных изображений символов, использованных для сравнения качества распознавания разработанного гранулирующего перцептрона и популярной программы Fine Reader, v.8.

Рис. 2. Образцы символов, распознаваемых гранулирующим персептроном

Отметим, что при распознавании символов различных размеров (см. рис. 2) не выполнялось переобучение перцептрона, ранее обученного на выборке из незашумленных изображений символов малого размера. При предъявлении очередного символа выполнялось только переобучение гранулирующего слоя, размеры которого не изменялись при значительном увеличении размера символов (в 5 раз). Существенные искажения структуры символов (см. рис. 2) также практически не влияли на качество распознавания. Ни один из символов базы не был распознан Fine Reader в силу особенностей применяемого в нем (и в других популярных программах распознавания текстов [19]) алгоритма распознавания по остовам символов.

Выводы

В работе намечены и экспериментально исследованы базовые понятия парадигмы построения гранулирующих ИНС. Она отличается двумя особенностями:

1.  Использование универсальных нейронов высокого порядка (могущих представлять элементы пространства сколь угодно высокой размерности) и аппроксимация путем покрытия регулярными элементами в духе ТИГ.

2.  Использование при обучении рабочего слоя вместо аппроксимационного подхода, при котором минимизируется суммарная ошибка аппроксимации или интерполяции, предложенного нами информационного подхода к описанию ИНС с использованием энтропийных мер De Luca и Termini [15].

В результате достигается полная стандартность и определенность структуры и размера сети при довольно широко изменяющихся параметрах входных данных (изображений). Для работы в различных системах координат могут использоваться одни и те же базовые алгоритмы работы нейроподобных элементов, в которых меняется только смысл хранимых параметров. Это обещает значительное преимущество подобных гибридных структур при аппаратной реализации на ПЛИС.

Список литературы

1.  Zadeh L. A. Towards a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic, Fuzzy Sets and Systems, 4, 1997, 103-111.

2.  , , Ярушкина гибридные системы. Теория и практика / под ред. . – М.: Физматлит, 2007.

3.  Тарасов проблемы в искусственном интеллекте // Труды Международной научно-практической конференции «Знание-диалог-решение», т.2, Санкт-Петербург, 19-22 июня 2001 г. – СПб:Лань, 2001.

4.  Ярушкина теории нечетких и гибридных систем. – М.: Финансы и статистика, 2004.

5.  Бутенков парадигмы интеллектуального анализа многомерной информации применительно к теории информационной грануляции // Труды IV Международного научно-практического семинара «Интегрированные модели и мягкие вычисления в искусственном интеллекте», Коломна, 28-30 мая 2007 г., т.1, с. 188-194.

6.  Горбань .– Новосибирск: Наука, 1992.

7.  Галушкин нейронных сетей. – М.:ИПРЖР, 2000.

8.  Нейронные сети для обработки информации. – М.: Финансы и статистика, 2002.

9.  Poggio T., Girosi works for approximation and learning // Proceedings of the IEEE, 78(9), September, 1990.

10. Yao Y. Granular Computing: basic issues and possible solutions // Proceedings of the 5th Joint Conference on Information Sciences, p. 186-189, 2000.

11. Butenkov S. Granular Computing in Image Processing and Understanding // Proceedings of Int. Conf. on Artificial Intelligence AIA-2004, Innsbruk, 2004, p. 811-816.

12. Zadeh L. A. Fuzzy sets and information granularity // Advances in Fuzzy Set Theory and Applications, Gupta, N., Ragade, R. and Yager, R. (Eds.), North - Holland, Amsterdam, 1979, p. 3-18.

13. , Кривша представления и обработки плохо структурированных изображений методами гранулированных вычислений // Труды Международной научно-технической конференции „Интеллектуальные системы” (IEEE AIS’04), Москва, Физматлит, 2004, т.2, с. 104-113.

14. , , “Гранулированные вычисления в системах интеллектуального анализа пространственных данных”. В сб. трудов Междунар. Конференции “ИАИ-2005”, Киев, 2005, с. 108-117.

15. , Аль-С. Применение нейронных сетей в задачах гранулированной обработки многомерной информации // Труды Всероссийской научной конференции “Нечеткие системы и мягкие вычисления”, НСМВ-2006, Тверь, 20-22 сентября 2006 г., с. 216-230.

16. Аль-С., О принципах построения оптимальных нечетких нейронных сетей // Труды Научной сессии МИФИ-2006, Москва, 23-27 января 2006, т. 3, с. 78-79.

17. , Аль-С., Бутенков анализ изображений с помощью нечетких отношений на инкапсулирующих гранулах // Труды Десятой национальной конференции по искусственному интеллекту с международным участием КИИ-2006, Обнинск 25-28 сентября 2006 г., с. 256-265.

18. Горбань нейронных сетей. – М.: СП ParaGraph, 1990.

19. Ясницкий в искусственный интеллект.- М.:ACADEMIA, 2005.