Партнерка на США и Канаду по недвижимости, выплаты в крипто
- 30% recurring commission
- Выплаты в USDT
- Вывод каждую неделю
- Комиссия до 5 лет за каждого referral
Многомерная визуализация
Основные (базовые) графики и диаграммы передают более богатую информацию с помощью таких характеристик, как цвет, размер, и наличие нескольких панелей, а также с помощью использования таких операций, как масштабирование, агрегирование и интерактивность. Эти дополнения позволяют рассмотреть более двух переменных одновременно. Главным преимуществом является их эффективность при отображении сложной информации в легко доступной форме. Цель состоит в том, чтобы сделать информацию более понятной, а не только в представлении данных в более крупных величинах и измерениях.
Добавление дополнительных характеристик: цвет, размер, фигура, несколько панелей, и анимация
Для того, чтобы включить дополнительную визуальную характеристику в график, необходимо учесть тип переменной. Если речь идет о соотнесении данных к определенной категории, то лучший способ отображения таких данных заключается в использовании нескольких цветов, фигур или визуализации в виде нескольких панелей. Для демонстрации дополнительной цифровой информации лучше поработать с интенсивностью цвета или размерами. Непостоянные данные лучше изображать в виде анимации.
Назначим и проверим рабочий директорий:
setwd("//Mac/Home/Desktop/1")
getwd()
Будет рассмотрен пакет ggplot2, который значительно расширяет и без того богатые возможности R по визуализации данных. Преимуществами данного пакета являются эстетическая привлекательность и пригодное для публикации качество получаемых с его помощью графиков, возможность создавать пользовательские типы диаграмм, а также широкий набор инструментов для настройки внешнего вида графиков.
Инсталляция пакета ggplot2
Для инсталляци необходимо удостовериться в наличии последней версии R и подключении к сети Интернет.
Далее необходимо выполнить команду:
install. packages("ggplot2")
Перед использованием ggplot2 необходимо загрузить его при помощи команды:
library(ggplot2)
Описание данных
Возможности данного пакета будут продемонстрированы на примере набора данных, описывающих классы ирисов. Данная информация была взята из репозитория данных http://archive. ics. uci. edu/ml/index. php. В данном файле хранятся данные об ирисах:
Длина наружной доли околоцветника (sepallength) Ширина наружной доли околоцветника (sepallwidth) Длина внутренней доли околоцветника (petallength) Ширина внутренней доли околоцветника (petalwidth) Класс, к которому относится ирисПрочтем данные из файлов:
iris <- read. table(file = "Iris. txt", header = TRUE, sep = ",")
Со структурой этих данных можно ознакомиться при помощи стандартной команды str():

Построение различных графиков
Начнем с построения графика рассеяния с помощью функции qplot():
# x и y — значения на координатных осях, data-таблица с данными
qplot (x=sepallength, y=petallength, data=iris)
|
Рис.1. График рассеяния |
К графику зависимости между двумя количественными переменными можно добавить информацию о третьей - качественной переменной, изменяя цвет точек (аргумент colour) или
их форму (аргумент shape).
qplot(sepallength, petallength, data = iris, colour = class)
qplot(sepallength, petallength, data = iris, shape = class)
|
Рис.2.Изменение цвета точек на графике рассеяния |
|
Рис.3.Изменение формы точек на графике рассеяния |
Обычно при работе с данными большого объема точки на диаграммах рассеяния накладываются друг на друга, что затрудняет выявление заключенных в данных закономерностей. Полезным приемом для облегчения восприятия таких графиков является использование полупрозрачного цвета. Этот прием можно реализовать при помощи аргумента alpha, который принимает значения от 0 (полная прозрачность) до 1 (полная непрозрачность).
qplot(sepallength, petallength, alpha = I(1/2), data = iris)
qplot(sepallength, petallength, alpha = I(1/4), data = iris)
qplot(sepallength, petallength, alpha = I(1/8), data = iris)
|
|
|
Рис.4. Использование прозрачности точек на графике рассеяния |
Далее будет рассмотрено построение вертикальной столбиковой диаграммы, для этого будет использована функция barplot():
iris2<-iris[,-c(2:4)] # оставляем 2 столбца(длина внешнего лепестка и класс ириса)
Means <- tapply(iris2$sepallength, iris2$class, mean) #находим среднее значение длины внешнего лепестка по каждому классу
barplot(Means, col = "steelblue",xlab = "class",ylab = "sepallength") #строим столбиковую диаграмму

Рис.5. Вертикальная столбиковая диаграмма Также возможен вариант построения горизонтальной столбиковой диаграммы: barplot(Means, density = 20, angle = -45, col = "red", horiz = TRUE, xlab = "sepallength",ylab = "class") |
|
Рис.6.Горизонтальная столбиковая диаграмма |
Также имеется возможность построения матричных диаграмм рассеяния в R с помощью функции pairs(), входящей в базовую версию R:
pairs(iris) # функция изобразит диаграммы рассеяния для всех возможных пар переменных из iris
|
Рис.7. Матричная диаграмма рассеяния |
Функция pairs() имеет ряд аргументов для тонкой настройки графика. Например, для облегчения интерпретации характера связи между анализируемыми переменными мы можем добавить сглаживающую кривую к каждой диаграмме рассеяния, с помощью который хорошо виден общий тренд (аргумент panel со значением panel. smooth):
pairs(iris, panel = panel. smooth)
|
Рис.8.Добавление сглаживающей прямой в матричную диаграмму рассеяния |
Наконец, стоит отметить функцию ggpairs() из пакета GGally, служащего дополнением к одному из лучших графических пакетов для R - ggplot2. Функция ggpairs() также позволяет строить матричные диаграммы рассеяния:
ggpairs(iris)
|
Рис.9.Матричная диаграмма рассеяния с помощью пакета GGally, |
Литературные источники:
«Data Mining for Business Analytics: Concepts, Techniques, and Applications in R», Galit Shmueli, Peter C. Bruce, Inbal Yahav, Nitin R. Patel, Kenneth C. Lichtendahl Jr. «Визуализация данных с помощью ggplot2», .











