При таком подходе проблема состояла в получении классификации, содержащей как хорошие, так и посредственные кластеры, на которой достигалось бы составное экстремальное значение функционала, определяющего качество классификации. Проблему можно довести до основной черты предлагаемого подхода, когда каждое нечеткое подмножество выборочных данных дозволяется рассматривать как потенциальный кластер. Осознание этой проблемы определило основную методологическую установку работы настоящего раздела: строгое использование аксиоматической формулировки для определения кластеров как особых подмножеств исходного множества, удовлетворяющих определенным условиям. По сравнению с предыдущим случаем выявляется дополнительное преимущество: априори не требуется никаких предположений о числе кластеров.
Кластеры и кластеризация
Главное, что характерно для результатов, представленных в этом разделе, заключается в формальном различении понятий кластер и кластеризация.
Понятие кластера опирается на структуру подобия (по предположению, определенную на выборочном множестве) и не зависит ни от каких соображений относительно природы классифицируемого множества.
Понятие кластеризации, с другой стороны, связано с проблемами представления выборочного множества с помощью кластеров экономным образом.
Необходимость в нечетких кластерах
Решение проблемы автоматической классификации можно считать эквивалентным идентификации функции, которая отображает структуру подобия, определенную на выборочном множестве, в разбиение этого выборочного множества так, чтобы достигалась указанная неформальная цель классификации.
Рассмотрение вопроса в такой (эквивалентной) формулировке показывает, что всякий раз, когда классификация строится с использованием четких множеств, проблема оказывается неразрешимой, так как она равносильна определению изоморфизма между двумя неизоморфными структурами.
С одной стороны, имеется структура, порожденная отношением подобия, которое, в общем случае, представляет собой нетранзитивное бинарное отношение. Другими словами, из «А подобно В» и «В подобно С» не следует, что «А подобно С».
С другой стороны, структура, обусловленная двузначной функцией принадлежности четких множеств, определяет транзитивное отношение между парами точек следующим образом: из «А принадлежит тому же кластеру, что и В» и «В принадлежит тому же кластеру, что и С» следует «А принадлежит тому же кластеру, что и С».
По этой причине решение проблемы кластеризации в общепринятых терминах невозможно или выполнимо только после некоторого подходящего ослабления постановки задачи. Эта основная проблема будет строго сформулирована с позиций общепринятого подхода в следующем пункте настоящего раздела, где будет показано, что переход от соответствующего традиционного определения к нечеткой области обеспечивает основу для содержательного определения кластера.
3.10.3. Понятие кластера
Общепринятая формализация
Ниже будет дана формальная характеристика общепринятой (т. е. не нечеткой) проблемы кластеризации. Несмотря на то, что эти результаты совершенно очевидны и полностью согласуются с неформальными комментариями предыдущего пункта настоящего раздела, они обеспечивают формальную основу для аксиоматического определения нечеткого кластера и оказываются полезными для лучшего понимания целесообразности такого определения.
Введем необходимые обозначения:
A. X — множество элементарных исходов.
Б. F — подмножество X, называемое выборочным множеством.
B. R — бинарное отношение на X, называемое отношением подобия.
Если (х, y) R, то будем говорить, что х подобен у. В остальных случаях будем говорить, что х неподобен у или отличен от у. Предполагается, что отношение R:
1) рефлексивно, т. е. (х, x) R, если х
Х,
2) симметрично, т. е. ![]()
Дополнение
отношения R будет называться отношением различия.
Г.
— дополнение подмножества А множества X.
Д. Р(х) —множество всех подмножеств множества X.
Е. R(A) —множество

Аналогично,

Определение. Подмножество А множества X называется R-кластером (или, для краткости, кластером) тогда и только тогда,, когда
![]()
Примечание. Это определение просто формализует неформальное определение кластера, конкретизируя требование, согласно которому все точки, близкие А (т. е. точки R(A)) должны относиться к А, в то время как все точки, отличные от А (т. е. точки
, не должны относиться к А. Следующие, приводимые без доказательства результаты просты и представляют формализацию сделанных комментариев относительно невозможности решений общепринятой проблемы кластеризации.
Утверждение. Пусть А — подмножество множества X. Тогда А — кластер в том и только в том случае, если
а)
для всех х
А,
б)
для всех х
А.
Следствие. Если А и В — кластеры, то они либо тождественны, либо не пересекаются.
Определение. Пусть С — семейство непустых подмножеств, множества X. Тогда С называют покрытием X тогда и только тогда, когда объединение всех элементов С совпадает с X.
Теорема существования. Пусть С — покрытие множества X. Для того чтобы каждый элемент С был кластером, необходимо в достаточно, чтобы:
а) отношение R было транзитивно,
б) C=X/R.
Последний результат можно перефразировать следующим образом: «Необходимое и достаточное условие существования покрытия из кластеров состоит в том, чтобы R было отношением эквивалентности».
Таким образом, общепринятая кластеризация требует, чтобы отношение подобия было транзитивным. Поскольку в большинстве практических задач это требование не выполняется, то в общем случае решение проблемы кластеризации в традиционных терминах невозможно. Кроме того, процедуры, разработанные для преодоления этого недостатка, отображают числовую меру подобия на бинарное отношение эквивалентности (например, односвязность) и деформируют природу исходной структуры, приводя к нежелательным результатам (например, к образованию цепей).
Определение нечеткого кластера
Используя в качестве основы данное здесь формальное определение четкого кластера, представим формальное определение нечеткого кластера. Допущения, принимаемые при введении понятия подобия, гарантирующие существование покрытия из нечетких кластеров, слабее, чем в случае обычного множества. Кроме того, представления нечеткими кластерами по самой своей сути намного богаче из-за возросшей способности указывать отношения между кластерами и точками.
Введем необходимые обозначения:
A. X — обычное множество, называемое множеством элемен-тарных исходов или выборочным пространством.
Б. f — нечеткое подмножество X, называемое выборочным множеством.
B. r — рефлексивное, симметричное (нечеткое) отношение в X, называемое отношением подобия. Его дополнение d = 1—r называется отношением различия.
Г. F(х) — множество всех нечетких подмножеств X, имеющих непустое ядро (т. е. если f F(x), то существует некоторое х X, для которого f(x) = 1).
Д. Ω (f) — мощность нечеткого множества f.
Определение. Пусть g — нечеткое множество в X. Тогда g на-зывается нечетким r-кластером (или, для краткости, кластером) в том и только в том случае, когда
![]()
Примечание. Условие а) последнего определения обобщает оба условия определения обычного кластера.
Условие б) — это, по существу, условие непрерывности, не имеющее прототипа в обычном случае. Оно представляет собой простейшую формализацию утверждения о том, что нечеткие классификации подобных точек должны быть подобны. Заметим, что никакое другое значение, кроме 1, не должно быть использовано в качестве множителя при разности в правой части, так как желательно, чтобы всякий раз, когда r(х, у) =0 на связь между классификациями х и у не накладывалось никакого ограничения.
Из определения нечеткого кластера легко вывести следующие утверждения.
Утверждение. Если g и h — нечеткие кластеры, то они либо тождественны, либо их ядра не пересекаются.
Определение. Пусть С — семейство нечетких подмножеств множества X, такое, что:
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 |


