Урок 9. Обнаружение логических закономерностей в данных
Рассмотрим рис. 9. 1. На нем схематично изображены лица людей. Эти лица по каким‑то причинам, может быть важным, разделены на два класса. Ставится задача найти закономерности проведенного разделения.

Рис.Изображения лиц людей
Попробуйте визуально определить, чем лица разных классов отличаются друг от друга и что объединяет лица одного класса. Сразу заметим — решение существует. Но ваш визуальный анализ скорее всего не даст ответа на поставленный вопрос. Обычный человеческий разум не в состоянии решить даже такую, на первый взгляд простую задачу обнаружения скрытых закономерностей. Здесь необходимо применение компьютерных методов анализа данных.
Можно ли решить задачу обнаружения знаний с помощью классических многомерных методов?
Попытаемся решить поставленную задачу с помощью одного из классических многомерных методов — дискриминантного анализа, содержащегося во всех статистическоих пакетах. Мы будем здесь использовать пакет STATGRAPHICS Plus for Windows.
Прежде всего, выделим признаки, характеризующие изображенные лица. Это следующие характеристики:
x1 (голова) – круглая – 1, овальная – 0;
x2 (уши) – оттопыренные – 1, прижатые – 0;
x3 (нос) – круглый – 1, длинный – 0;
x4 (глаза) – круглые – 1, узкие – 0;
x5 (лоб) – с морщинами – 1, без морщин – 0;
x6 (складка) – носогубная складка есть – 1, носогубной складки нет – 0;
x7 (губы) – толстые – 1, тонкие – 0;
x8 (волосы) – есть – 1, нет – 0;
x9 (усы) – есть – 1, нет – 0;
x10 (борода) – есть – 1, нет – 0;
x11 (очки) – есть – 1, нет – 0;
x12 (родинка) – родинка на щеке есть – 1, родинки на щеке нет – 0;
x13 (бабочка) – есть – 1, нет – 0;
x14 (брови) – подняты кверху – 1, опущены книзу – 0;
x15 (серьга) – есть – 1, нет – 0;
x16 (трубка) – курительная трубка есть – 1, нет – 0.
Исходная матрица данных, соответствующая изображенным лицам, представлена в табл. 9. 1. Строки соответствуют объектам (N = 16), столбцы – выделенным бинарным признакам (p = 16). Объекты с номерами 1—8 относятся к классу
, а с номерами 9—16 — к классу
.
ТаблицаИсходная матрица данных
№ п/п | Голова | Уши | Нос | Глаза | Лоб | Складка | Губы | Волосы | Усы | Борода | Очки | Родинка | Бабочка | Брови | Серьга | Трубка | Class |
x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | x10 | x11 | x12 | x13 | x14 | x15 | x16 | ||
1 | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 |
2 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0 | 0 | 1 | 0 | 1 |
3 | 0 | 0 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0 | 0 | 1 | 1 |
4 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 1 |
5 | 1 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 0 | 1 |
6 | 0 | 0 | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 1 |
7 | 1 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 |
8 | 0 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 0 | 1 | 0 | 1 |
9 | 0 | 0 | 1 | 1 | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 2 |
10 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0 | 2 |
11 | 1 | 1 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 2 |
12 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 2 |
13 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 2 |
14 | 0 | 1 | 1 | 1 | 0 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 1 | 1 | 1 | 2 |
15 | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 1 | 2 |
16 | 0 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 2 |
Вводим данные табл. 9. 1 в электронную таблицу STATGRAPHICS. Сохраняем их в файле под именем face.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 |


