Классификация (стр. 2 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Одной из первых 9 публикаций согласно этой теме является статья польского антрополога Яна Чекановского, которую он написал в 1911 году. В своей работе он показывает идею «структурной классификации», содержащую главную мысль кластерного анализа – выделение компактных групп близких объектов, а так же некоторые методы выделения таких групп, которые лежат в основе более последних алгоритмов. Этот способ предполагает собой обработку информаций, вплоть до формирования машин, однако частично формирует основу с целью последующего формирования данного течения.

Следующим значительным шагом в формировании кластерного анализа стал «метод корреляционных плеяд», созданный советским гидробиологом в 1925 году. Однако издан он был лишь через много лет в 1959. Этот способ поначалу предназначался только лишь для кластерного анализа признаков, а не объектов. Сам термин «кластерный анализ» был впервые введен и использован только в 1939 году английским ученым Р. Трионом.

На сегодняшний день кластерный анализ является одним из наиболее результативных инструментов обработки больших объемов информации и используется везде, где применяется вычислительная техника.

В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). При этом нужно не забывать, что переменные должны измеряться в сравнимых шкалах.

НЕ нашли? Не то? Что вы ищете?

Кластерный анализ дает возможность уменьшать размер информации, делать ее наглядной. Он может применяться к совокупностям временных рядов, здесь могут выделяться периоды сходства некоторых характеристик и определяться группы временных рядов со схожей динамикой.

Кластерный анализ одновременно развивался в нескольких направлениях, таких как биология, психология, др., поэтому у многих методов существуют по два и более наименований [3]. Это значительно усложняет работу при использовании кластерного анализа.

Кластерный анализ – это комплекс точных математических методов, специализированных на формировании "отдаленных" друг от друга групп «близких» между собой объектов по информации о расстояниях или связях (мерах близости) между ними. Но одного общего определения этой дисциплины на нынешний день не существует. Это связано с тем, что кластеризация используется во многочисленных сферах человеческой жизнедеятельности, и в каждой отдельной задаче ее применение имеет свои характерные черты. Совокупность похожих объектов принято называть кластерами (от англ. cluster – гроздь, группа, скопление). Кластером считают объединение нескольких однородных элементов, которое может рассматриваться как независимая единица, имеющая свои определенные характеристики. Характеристика элементов, уровень их подобия и прочие характеристики, влияющие на их объединение, переходят от задачи к задаче, что не позволяет дать одно единое определение кластера.

Основные задачи которые выполняет кластерный анализ:

- разработка классификации или типологии.

- исследование полезных концептуальных схем группирования объектов.

- порождение гипотез на основе исследования данных.

- проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Самостоятельно от предмета изучения применение кластерного анализа предполагает следующие этапы:

- отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные.

- определение множества переменных, по которым будут оцениваться объекты в выборке, то есть признакового пространства.

- вычисление значений той или иной меры сходства (или различия) между объектами.

- применение метода кластерного анализа для создания групп сходных объектов.

- проверка достоверности результатов кластерного решения [4].

Цели кластеризации имеют все шансы быть разными, однако среди их числа можем отметить 3 главных направления.

Первое – это данное представление информации – подразумевает разделение подборки в категории сходных предметов, то что дает возможность облегчить последующее обрабатывание информации и реализовать заключение, применяя к любому кластеру свой собственный способ рассмотрения. В качестве образца возможно просмотреть био систематику – научную дисциплину, в задачи которой входит создание основ систематизации живых существ фактическое дополнение данных принципов к построению системы.

Второе течение – сокращение информации – предназначается для сокращения размеров информации с наименьшими утратами данных. В случае если начальная выборка чрезмерно огромна, то возможно уменьшить ее, оставив по одному наиболее обычному представителю от любого кластера. Нередко рассмотрение единственного предмета может быть достаточной ради нахождения черт абсолютно всех сходных объектов с значительной возможностью. К примеру, доказав теорему о площади любого прямоугольника, мы можем так же отметить, что она правдива для всех прямоугольников на плоскости.

Третье течение – выявление новизны – направлено на выявление новейших или мало встречающихся объектов в некоторых выборках. При этом выделяются нетипичные объекты, которые никак не получается добавить ни к одному из кластеров. Кластерный анализ имеет ряд достоинств перед другими методами классификации данных. В первую очередь, это связано с тем, что он дает возможность осуществлять разделение объектов не по одному, а по целому комплекту свойств. К тому же, давление любого из характеристик может быть достаточно просто усилено или ослаблено путем внесения в математические формулы определенных коэффициентов.

Помимо этого, кластерный анализ не накладывает ограничений на вид группируемых объектов, и дает возможность рассматривать множество исходных данных практически произвольной природы. Еще одной характерной чертой кластеризации считается то, что многие алгоритмы способны самостоятельно определить число кластеров, на которое следует разбить данные, а так же отметить характеристики этих кластеров без участия человека только при помощи применяемого метода.

Для проведения анализа данных используют меры сходства [4]. Выделяют четыре меры сходства: 1. Коэффициент корреляции – это показатель характера взаимного влияния изменения двух случайных величин. Коэффициент корреляции обозначается латинской буквой K и может принимать значения от -1 до +1. Если значение по модулю находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0 – связь отсутствует или является существенно нелинейной. При коэффициенте корреляции равном по модулю единице говорят о функциональной связи (а именно линейной зависимости), то есть изменения двух величин можно описать линейной функцией [5]. 2. Мера расстояния устанавливает сходство или различие между объектами. Два объекта идентичны, если описывающие их переменные принимают одинаковые значения.

В этом случае расстояние между ними равно нулю. Меры расстояния обычно не ограничены сверху и зависят от 7 выбора шкалы (масштаба) измерений. Существует много различных мер расстояния, но наиболее часто используется евклидово расстояние [6]. 3. Коэффициенты ассоциативности применяются, когда необходимо установить сходство между объектами, описываемыми бинарными переменными, причем 1 указывает на наличие переменной, а 0 – на ее отсутствие. 4. Вероятностные коэффициенты сходства – при образовании кластеров по этим мерам вычисляется информационный выигрыш от объединения двух объектов, а затем объекты с минимальным выигрышем рассматриваются как один. Кластеры могут состоять из различных объектов, но все они обладают некоторыми свойствами, наиболее важными из которых являются плотность, дисперсия, размеры, форма и отделимость.

Основные понятия и сведения кластерного анализа.

Введем первоначально такие понятия, как объект и признак. Объект - от латинского objectum - предмет. Применительно к химии и биологии под объектами мы будем подразумевать конкретные предметы исследования, которые изучаются с помощью физических, химических и иных методик. Такими объектами могут быть, например, пробы, растения, животные и т. д. Некоторую совокупность объектов, доступную исследователю для изучения, называют выборкой, или выборочной совокупностью. Количество объектов в такой совокупности принято называть объемом выборки. Обычно объем выборки обозначают латинской буквой "n" или "N" .

Признак (синонимы - свойство, переменная, характеристика; англ. - variable - переменная.) - представляет собой конкретное свойство объекта [7]. Эти свойства могут выражаться как числовыми, так и не числовыми значениями. Например, артериальное давление (систолическое или диастолическое) измеряют в миллиметрах ртутного столба, вес - в килограммах, рост в сантиметрах и т. д. Такие признаки являются количественными. В отличие от этих непрерывных числовых характеристик (шкал), ряд признаков может иметь дискретные, прерывистые значения. В свою очередь такие дискретные признаки принято делить на две группы.

1) Первая группа - ранговые, или как их еще называют порядковые переменные (шкалы). Таким признакам присуще свойство упорядоченности этих значений. К ним можно отнести стадии того или иного заболевания, возрастные группы, балльные оценки знаний учащихся, 12-балльную шкалу магнитуд землетрясений по Рихтеру и т. д.

2) Вторая же группа дискретных признаков не имеет такой упорядоченности и носит название номинальных (от слова "номинал" - образец ) или классификационных признаков. Примером таких признаков может быть состояние пациента - "здоров" или "болен", пол пациента, период наблюдения - "до лечения" и "после лечения" и т. д. В этих случаях принято говорить, что такие признаки относятся к шкале наименований.

Понятия объекта и признака, принято называть матрицей "Объект-свойство" или "Объект-признак". Матрицей будет прямоугольная таблица, состоящая из значений признаков описывающих свойства исследуемой выборки наблюдений. В данном контексте одно наблюдение будет записываться в виде отдельной строки состоящей из значений используемых признаков. Отдельный же признак в такой матрице данных будет представлен столбцом, состоящим из значений этого признака по всем объектам выборки [8].

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы