Партнерка на США и Канаду по недвижимости, выплаты в крипто
- 30% recurring commission
- Выплаты в USDT
- Вывод каждую неделю
- Комиссия до 5 лет за каждого referral
В. С. КИРЕЕВ, С. В. СИНИЦЫН
Московский инженерно-физический институт (государственный университет)
ДВУХЭТАПНЫЙ АЛГОРИТМ КЛАСТЕРИЗАЦИИ ДАННЫХ
Задачи группировки данных или задачи кластерного анализа очень часто встречаются в различных прикладных областях науки и производства, например, группировки респондентов в маркетинговом исследовании – сегментации. Поэтому особой актуальностью обладает разработка новых методов кластеризации, с минимальным числом параметров и наиболее универсальных в смысле границ применимости.
Рассмотрим задачу кластерного анализа следующего вида: разбиение достаточно большого числа наблюдений ( N ~ 102-103 ) на некоторое число групп (априори неизвестное), причём расстояние (в смысле выбранной меры близости) между наблюдениями внутри группы - невелико. Для решения задач такого рода обычно используются итеративные методы, и число групп или кластеров определяется в ходе работы метода по достижении некоторым критерием заранее заданного порога [1].
Для решения этой задачи кластеризации автором предлагается метод, сочетающий качества итеративного и агломеративного подходов, последний подробно описан в [2]. Агломеративный подход позволяет построить дерево объединения данных в кластеры и затем выбрать наиболее подходящее число кластеров, но для большого объёма данных вычислительная сложность этой процедуры значительно увеличивается, поэтому предлагается двухшаговая схема расчёта:
1. Построение начального кластерного решения.
2. Построение дерева агломерации и выбор подходящего числа кластеров.
На первом шаге исходная выборка разбивается на подвыборки, и для заранее заданного числа кластеров в них применяется метод К – средних. В ходе работы метода рассчитываются центры кластеров E и веса центров W - равные количеству элементов в кластерах:
(1)
Эти центры кластеров считаются объектами на следующем шаге – в агломеративной процедуре, и при слиянии ближайших кластеров используются те же операции, что и в (1). При резком скачке расстояния объединения процедуру агломерации можно прекратить и в результате будут рассчитаны окончательные центры кластеров, и известна их мощность. Этих данных достаточно для расчёта значений критериев оптимальности решения – межкластерной и внутрикластерной дисперсий. Проведённые эксперименты (7 выборок по 200 наблюдений – результатов маркетинговых исследований) показывают, что в результате работы алгоритма получается оптимальное решение в смысле этих критериев.
Список литературы
1. , Мхитарян статистика. Основы эконометрики: Учебник для вузов: В 2 т.– Т. 1:. Теория вероятностей и прикладная статистика. – М.: ЮНИТИА-ДАНА, 2001. – 656 с.
2. , , Трошин статистические методы: Учебник. – М.: Финансы и статистика, 2003. – 352 с.


