Пример выполнения контрольных работ

Общая постановка задачи

Продемонстрировать навык владения основными инструментами регрессионного анализа и интерпретации результатов их использования в процессе построения линейной регрессионной модели. Проверка значимости полученных оценок осуществляется на 5% уровне, т. е. р-уровень для значимой оценки должен быть не менее 0.05

Описание данных в примере.

В данной работе собраны данные по цифровым фотоаппаратам с сайта интернет магазина http://*****/index. html? p=23 цены указаны в у. е.=$ по курсу ЦБ.

Представлены 152 данных по цифровым фотокамерам различных производителей.

Описание переменных.

MODEL - каждому производителю присвоен индикатор 1-2 в зависимости от фирмы производителя. Первая категория - это самые известные бренды, которые специализируются на фотоаппаратах, тем самым не вызывая никаких сомнений в их качестве. К ним можно отнести: Nikon, Canon, Olympus.

Вторая категория - это не менее известные фирмы, но не специализирующиеся на фототехнике или же просто не очень известные, но достаточно качественные: Kodak, Casio, Fujifilm, Sony, , Samsung, Minolta, Pentax, , Minolta, HP. Данная переменная является номинальной.

MPIX - мегапиксели цифровой камеры - инетрвальная переменная

OPTZOOM - x-кратное оптическое увеличение, которым обладает данная модель - инетрвальная переменная

CIFRZOOM - x-кратное цифровое увеличение, которым обладает данная модель - инетрвальная переменная

MEMORYMB - встроенный или поставляемый в комплекте объем памяти - инетрвальная переменная

PRICE- предлагаемая цена данной модели - зависимая переменная

Предварительные гипотезы:

Между переменными Цена (PRICE) и Модель (MODEL) существует связь. Итак, что можно сказать о категориях, 1-ая по качеству фотоаппаратов почти ничем не отличается от 2-ой, только в первом случае вам придётся отдать чуть больше денег только за имя компании. Многие фирмы из второй категории при производстве своих фотоаппаратов прибегают к помощи сторонних фирм, производящих оптику и электронику.

1.Также между переменными Цена (PRICE) и мегаписксели (MPIX) существует связь, чем больше мегапикселей, тем выше цена. Но количество мегапикселей в фотоаппарате влияет только на максимальный размер снимка.

2.Также между переменными Цена (PRICE) и оптический зум(OPTZOOM) существует связь, чем больше оптический зум, тем выше цена. Такие фирмы как Canon, Nikon и Olympus используют свою оптику, но т. к. их наработки в фототехнике очень велики, то и оптику они ставят отменную. В недорогих моделях (до 200$) и моделях не известных брендов на дорогую оптику можно не рассчитывать.

3.Зависимости между переменными Цена (PRICE) и цифровой зум (CIFRZOOM) практически нет, поскольку данный параметр в основном у всех камер одинаков и не зависит от «начинки» аппарата.

4.Обьем памяти (MEMORYMB) влияет на цену (PRICE) порядка 50-70 у. е. в случае его значения больше 100мб.

Теоретические обоснования.

Предполагается, что каждый элемент выборки получен случайным образом, и выборка удовлетворяет условию репрезентативности (от фр., то есть в ней пропорционально представлена генеральная совокупность.

Разведочный анализ данных начинается с визуального анализа собранной информации методом построения диаграмм рассеивания. По расположению точек на диаграмме можно сделать предположения как о возможной зависимости между переменными, так и о характере этой зависимости. Если между переменными имеется зависимость, то ее можно увидеть по расположению точек на диаграмме. В случае линейной зависимости между переменными Х и У точки на диаграмме будут сгущаться около некоторой гипотетической прямой.

Мерой линейной зависимости между двумя случайными величинами служит коэффициент корреляции Пирсона ρ. Выборочным аналогом коэффициента корреляции Пирсона является выборочный коэффициент корреляции r, который вычисляется следующим образом:

Пусть есть набор из 2-ух переменных Х=(Х1...Хт) У=(У1...Ут).

и , соответственно выборочные средние, тогда выборочный коэффициент корреляции Пирсона вычисляется: .

Анализ диаграмм рассеивания:

Для каждого сочетания переменной Цена с переменными Мегапиксили, Оптический зум, Цифровой зум, Объем памяти построим диаграмму рассеивания, учитывая индикатор модели.

* Диаграмма рассеивания строится следующим образом: выбираются два столбца(наример, цена и мегапиксели. Далее упорядочиваются по возрастанию мегапикселей. Затем строится график ЦЕНЫ, а по оси Х подписываются значения мегапикселей. Рассматриваются три графика: Зависимость цены от мегапикселей по всей выборке, потом по модели один и по модели два). Для каждой пары зависимости надо каждый раз упорядочивать столбцы заново по возрастанию параметра.

1.  Зависимость Цены от Мегапиксилей

Сначала скопируем два столбца с этими данными на другой лист. После этого упорядочим их по возрастанию Мегапикселей.

Выделяются ряды, начиная с ряда с параметром MPIX

 

Затем строится график цены (Price). А в качестве подписей под Х используются значения параметра.

Затем в качестве подписей под Х указываем ячейки, содержащие значение параметра.

В качестве подписей под Х указываем ячейки с MPIX

 

В качестве значений указываем ячейки с ценой

 

Выбираем закладку – Ряд

 

Получаем следующий график для цены:

Можно сказать, что точки наблюдения довольно сильно разбросаны, но зависимость в расположении точек можно показать. Связь не столь заметна, хотя для 4 и 5 мегапиксильных камер происходит рост цены около 100 у. е. Стоит также отметить, что среди этих моделей, есть те цена которых мало зависит от Мегапикселей, это характерно для 2-3 мегапиксильных камер, цена которых выше, чем у 4-5-ых.