Партнерка на США и Канаду по недвижимости, выплаты в крипто

  • 30% recurring commission
  • Выплаты в USDT
  • Вывод каждую неделю
  • Комиссия до 5 лет за каждого referral


Многомерная визуализация

Основные (базовые) графики и диаграммы передают более богатую информацию с помощью таких характеристик, как цвет, размер, и наличие нескольких панелей, а также с помощью использования таких операций, как масштабирование, агрегирование и интерактивность. Эти дополнения позволяют рассмотреть более двух переменных одновременно. Главным преимуществом является их эффективность при отображении сложной информации в легко доступной форме. Цель состоит в том, чтобы сделать информацию более понятной, а не только в представлении данных в более крупных величинах и измерениях.

Добавление дополнительных характеристик: цвет, размер, фигура, несколько панелей, и анимация

Для того, чтобы включить дополнительную визуальную характеристику в график, необходимо учесть тип переменной. Если речь идет о соотнесении данных к определенной категории, то лучший способ отображения таких данных заключается в использовании нескольких цветов, фигур или визуализации в виде нескольких панелей. Для демонстрации дополнительной цифровой информации лучше поработать с интенсивностью цвета или размерами. Непостоянные данные лучше изображать в виде анимации.

Назначим и проверим рабочий директорий:

setwd("//Mac/Home/Desktop/1")

getwd()

Будет рассмотрен пакет ggplot2, который значительно расширяет и без того богатые возможности R по визуализации данных. Преимуществами данного пакета являются эстетическая привлекательность и пригодное для публикации качество получаемых с его помощью графиков, возможность создавать пользовательские типы диаграмм, а также широкий набор инструментов для настройки внешнего вида графиков.

НЕ нашли? Не то? Что вы ищете?

Инсталляция пакета ggplot2

Для инсталляци необходимо удостовериться в наличии последней версии R и подключении к сети Интернет.

Далее необходимо выполнить команду:

install. packages("ggplot2")

Перед использованием ggplot2 необходимо загрузить его при помощи команды:

library(ggplot2)

Описание данных

Возможности данного пакета будут продемонстрированы на примере набора данных, описывающих классы ирисов. Данная информация была взята из репозитория данных http://archive. ics. uci. edu/ml/index. php. В данном файле хранятся данные об ирисах:

Длина наружной доли околоцветника (sepallength) Ширина наружной доли околоцветника (sepallwidth) Длина внутренней доли околоцветника (petallength) Ширина внутренней доли околоцветника (petalwidth) Класс, к которому относится ирис

Прочтем данные из файлов:

iris <- read. table(file = "Iris. txt", header = TRUE, sep = ",")

Со структурой этих данных можно ознакомиться при помощи стандартной команды str():

Построение различных графиков

Начнем с построения графика рассеяния с помощью функции qplot():

# x и y — значения на координатных осях, data-таблица с данными

qplot (x=sepallength, y=petallength, data=iris)

 

Рис.1. График рассеяния


К графику зависимости между двумя количественными переменными можно добавить информацию о третьей - качественной переменной, изменяя цвет точек (аргумент colour) или

их форму (аргумент shape).

qplot(sepallength, petallength, data = iris, colour = class)

qplot(sepallength, petallength, data = iris, shape = class)

 

Рис.2.Изменение цвета точек на графике рассеяния

 

Рис.3.Изменение формы точек на графике рассеяния

Обычно при работе с данными большого объема точки на диаграммах рассеяния накладываются друг на друга, что затрудняет выявление заключенных в данных закономерностей. Полезным приемом для облегчения восприятия таких графиков является использование полупрозрачного цвета. Этот прием можно реализовать при помощи аргумента alpha, который принимает значения от 0 (полная прозрачность) до 1 (полная непрозрачность).

qplot(sepallength, petallength, alpha = I(1/2), data = iris)

qplot(sepallength, petallength, alpha = I(1/4), data = iris)

qplot(sepallength, petallength, alpha = I(1/8), data = iris)

Рис.4. Использование прозрачности точек на графике рассеяния

Далее будет рассмотрено построение вертикальной столбиковой диаграммы, для этого будет использована функция barplot():

iris2<-iris[,-c(2:4)] # оставляем 2 столбца(длина внешнего лепестка и класс ириса)

Means <- tapply(iris2$sepallength, iris2$class, mean) #находим среднее значение длины внешнего лепестка по каждому классу

barplot(Means, col = "steelblue",xlab = "class",ylab = "sepallength") #строим столбиковую диаграмму


Рис.5. Вертикальная столбиковая диаграмма

Также возможен вариант построения горизонтальной столбиковой диаграммы:

barplot(Means, density = 20, angle = -45, col = "red", horiz = TRUE, xlab = "sepallength",ylab = "class")

Рис.6.Горизонтальная столбиковая диаграмма


Также имеется возможность построения матричных диаграмм рассеяния в R с помощью функции pairs(), входящей в базовую версию R:

pairs(iris) # функция изобразит диаграммы рассеяния для всех возможных пар переменных из iris

Рис.7. Матричная диаграмма рассеяния

Функция pairs() имеет ряд аргументов для тонкой настройки графика. Например, для облегчения интерпретации характера связи между анализируемыми переменными мы можем добавить сглаживающую кривую к каждой диаграмме рассеяния, с помощью который хорошо виден общий тренд (аргумент panel со значением panel. smooth):

pairs(iris, panel = panel. smooth)

Рис.8.Добавление сглаживающей прямой в матричную диаграмму рассеяния

Наконец, стоит отметить функцию ggpairs() из пакета GGally, служащего дополнением к одному из лучших графических пакетов для R - ggplot2. Функция ggpairs() также позволяет строить матричные диаграммы рассеяния:

ggpairs(iris)

Рис.9.Матричная диаграмма рассеяния с помощью пакета GGally,

Литературные  источники:

«Data Mining for Business Analytics: Concepts, Techniques, and Applications in R», Galit Shmueli, Peter C. Bruce, Inbal Yahav, Nitin R. Patel, Kenneth C. Lichtendahl Jr. «Визуализация данных с помощью ggplot2», .