Одной из целей исследования, был анализ возможности обобщений понятия кластера с помощью объединяющих вложений. Соответственно общему подходу и в этом случае осуществлено стремление к строгому развитию результатов на базе ряда хорошо определенных задач, а не к изучению свойств эвристических формул объединения.

Общие цели, от которых обычно зависит подходящее направле­ние обобщения, состояли в следующем:

1. С использованием понятия «склеивание» предполагалось по отношению подобия r, определенному на X, найти обобщение r*,

определенное на F(X2). Другими словами, нечеткие подмножест­ва X желательно рассматривать как возможные объединения, и соответствующие обобщения r искать так, чтобы получить разум­ное отношение подобия между нечеткими множествами.

2. Выражение для оценки подобия между двумя нечеткими подмножествами f и g должно зависеть от значений функций принадлежности f и g и от степеней подобия r(х, у), таких, что или

или но не от каких других значений r.

Заметим, что в результате склеивания получают нечеткие множества обще­го вида (с непустыми ядрами) и не ограничиваются нечеткими кластерами.

3. Сужение расширения r* на прямое произведение X2 (при естественном вложении элементов X как одноэлементных четких подмножеств X и, следовательно, как нечетких подмножеств мно­жества X) должно быть эквивалентно r. Это условие гарантиру­ет, что r* есть расширение r.

4. Если r — отношение похожести в X, то расширение r* дол­жно быть отношением похожести в F (X).

Интерполяция по прототипам

НЕ нашли? Не то? Что вы ищете?

Определение расширения функции подобия r на F(X) может рассматриваться как эквивалент определению подобия между во­ображаемыми центрами тяжести каждой нечеткой склейки. Каж­дая такая функция подобия будет определять подобие между не­четкими объединениями как взвешенное среднее степеней подобия между точками х, причем весовые значения определяются степенью принадлежности каждой точки соответствующим склейкам. Это — основная идея, обосновывающая представления для четкого случая. Для того чтобы получить при­водимые далее формулы, в настоящем исследовании выдвигается дополнительное условие «евклидовой согласованности».

Для характеристики понятия «евклидовой согласованности» нужно дать следующее определение.

Определение. Центроидом нечеткого подмножества f евклидо­ва пространства Rn называется точка xf, определенная выраже­нием

где суммирование проводится по точкам носителя f.

Условие «евклидовой согласованности» можно сформулиро­вать в следующем виде.

Определение (евклидовой согласованности). Пусть X — под­множество евклидова пространства Rn и пусть функция подобия r есть дополнение евклидова расстояния d в X. Тогда расширение r до r*, равное дополнению к евклидову расстоянию между центроидами нечетких подмножеств из R (при котором предполагается переход от нечеткого множества к центроидному отобра­жению и к евклидову расстоянию в выпуклой оболочке множе­ства X), называется расширением (и единственным) R до X, удо­влетворяющим условию евклидовой согласованности.

Введение понятия евклидовой согласованности гарантирует, что в евклидовом случае расширение будет согласовано с нашим соб­ственным интуитивным представлением о расстоянии между цен­троидами в евклидовых пространствах. Кроме того, важность включения евклидовой согласованности как одного из условий подтверждается следующими результатами, которые связывают его с отношением похожести и, следовательно, с проблемой суще­ствования нечетких кластеров.

Теорема. Пусть r — отношение подобия в Если r есть

дополнение евклидова расстояния d в X, то его однозначное рас­ширение r* удовлетворяет свойству евклидовой согласованности и определяется выражением

(*)

где

и где все суммы берутся по теоретико-множественному объедине­нию носителей f u g.

Теорема. Пусть f и g — нечеткие подмножества исходного ко­нечного множества X. Пусть r — отношение подобия в X и Q*(f, g) определяется выражением

где φ и γ те же, что и в (*); d=1—r, и все суммы берутся по те­оретико-множественному объединению носителей f и g.

Чтобы величина Q*(f, g) была неотрицательной для всех пар (непустых ядер) нечетких подмножеств f и g в F(X), необходимо и достаточно, чтобы r было отношением похожести. Если r — от­ношение похожести, то Q* определяет отношение подобия r* в F(X):

К тому же r* само есть отношение похожести в F(X).

Таким образом, отношения похожести не только гарантируют существования кластеров в X, но и могут быть расширены до от­ношения похожести на множество F (X) всех нечетких множеств X с непустыми ядрами. Расширение r* можно использовать (фор­мируя нечеткое фактор-множество множества F(X) по r*) для определения нечетких кластеров, имеющих нечеткие подмножест­ва X в качестве типичных элементов (т. е. обобщенных «центро­идов»).

Иерархические кластеры и геодезические пути

Теперь, используя представленные ранее теоретические ре­зультаты, можно рассмотреть формально заложенную в процеду­ры объединения эвристическую идею получения иерархической таксономии выборочных данных.

Процесс, с помощью которого (в традиционном контексте) к растущим кластерам добавляются точки до тех пор, пока не закончится классификация всей выборки (т. е. пока не будет до­стигнут корень дерева), можно рассматривать как процесс нахо­ждения пути, который начинается в одноэлементном подмноже­стве {х} множества X и проходит по возрастающим по мощности элементам множества Р(Х) всех подмножеств множества X, пока не достигнет всего выборочного множества X.

Аналогично этому в нечетком случае путь склеивания можно рассматривать как непрерывную кривую, проходимую процес­сом склеивания во множестве F(X) всех нечетких подмножеств X с непустыми ядрами. Этот путь опять начинается в соответствующем нечетком подмножестве выборочного множества, проходит по все большим и большим нечетким подмножествам X (бóльшим — в смысле включения нечетких множеств), пока, наконец, не до­стигнет полного множества f выборочных данных. Однако в отли­чие от обычного случая проходимые на пути склеивания нечеткие подмножества становятся не кластерными компонентами таксоно­мии, а скорее, как это обсуждалось, их прототипными элемен­тами.

Поскольку в нечетком случае путь, который объединяет не­четкие подмножества f с полным выборочным множеством f непрерывный, то для анализа вопросов, связанных с задачей оп­ределения их путей, можно применять все методы непрерывного анализа.

Так как в силу рассмотренного обобщения понятия кластера множество F(X) представляет собой непрерывное метрическое пространство, то свойства путей склеивания можно описать в терминах структуры расстояния. Из всех возможных свойств, которыми должен обладать путь склеивания, особенно привлека­тельно, чтобы он был минимальным или геодезическим путем. Это условие интересно по крайней мере, с двух точек зрения.

1. Длина пути между двумя нечеткими подмножествами f и g представляет собой предел суммы расстояний (т. е. криволиней­ный интеграл) вдоль пути. Каждый член в этих суммах есть рас­стояние между двумя последовательными элементами ломаной, которая аппроксимирует криволинейный путь. Таким образом, кривая, колеблющаяся между различными нечеткими множества­ми (в ранее обсуждавшемся смысле) будет иметь бóльшую дли­ну, чем кривая, соединяющая данные конечные точки и проходя­щая через «близкие» элементы F(X). Поэтому общая длина пути представляет собой адекватную классификационную характеристику пути, рассматриваемого как способ организации подмножсств множества X в иерархическую структуру, наилучшим обра­зом отображающую существующую метрическую структуру мно­жества X. Следовательно, определение геодезических путей экви­валентно оптимизации этой меры адекватности.

2. Принцип оптимальности Беллмана гарантирует, что дуги оп­тимального пути будут также оптимальными частями пути меж­ду конечными точками.

Следовательно, два оптимальных пути, исходящих из нечет­ких подмножеств g1 и g2 и пересекающихся в общей для них точке могут быть оптимально продолжены от h до f. Получающе­еся в результате семейство оптимальных путей образует иерархи­ческую структуру, имеющую своим корнем выборочное множест­во f.

Если предположить, что X содержит конечное число N точек и если нечеткие множества в X представлены векторами, имею­щими N действительных компонент (каждая из которых при­надлежит [0, 1]), то проблему определения оптимального пути склеивания можно формально описать следующим образом ( обычных производных и общих дифференциальных выражениях употреб­ляется буква δ во избежание путаницы с функцией расстояния d):

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106