Партнерка на США и Канаду по недвижимости, выплаты в крипто

  • 30% recurring commission
  • Выплаты в USDT
  • Вывод каждую неделю
  • Комиссия до 5 лет за каждого referral

ПРИКЛАДНОЙ АНАЛИЗ ДАННЫХ

ФГОУВПО «Чувашский государственный университет им. И. Н.УЛЬЯНОВА», г. Чебоксары, *****@***ru

Любое компьютерное моделирование, дает возможность проводить вычислительные эксперименты с еще только проектируемыми системами и изучать системы, натурные эксперименты с которыми, из-за соображений безопасности или дороговизны, не целесообразны. В тоже время, благодаря своей близости по форме к физическому моделированию, это метод исследования доступен более широкому кругу пользователей.

В настоящее время, когда компьютерная промышленность, предлагает разнообразнейшие средства моделирования, любой квалифицированный инженер, технолог или менеджер должен уметь уже не просто моделировать сложные объекты, а моделировать их с помощью современных технологий, реализованных в форме графических сред или пакетов визуального моделирования.

В последние годы наблюдается обширное проникновение современных информационных технологий во все сферы человеческой деятельности. На вооружении исследователей оказались многочисленные пакеты прикладных программ, средствами которых решаются практически все поставленные задачи.

При планировании и подведении результатов эксперимента существенную роль играют статистические методы, которые дают возможность:

·  компактно и информативно описывать результаты эксперимента;

·  устанавливать степень достоверности, сходства и различия исследуемых объектов на основании результатов измерений и показателей;

·  анализировать наличие или отсутствие зависимости между различными показателями (явлениями);

НЕ нашли? Не то? Что вы ищете?

·  количественно описывать эти зависимости;

·  выявлять информативные показатели;

·  классифицировать изучаемые объекты и прогнозировать значения их показателей и характеристик, и др.

Владение методами статистики дает возможность превращать безликую и разрозненную массу числовых данных в стройную систему знаний, основываясь на которых можно принимать эффективные управленческие решения.

Сейчас на рынке имеется большое количество компьютерных программ, которые позволяют проводить статистический анализ данных. Обилие систем, создатели которых утверждают, что их программа является наилучшей для обработки данных, приводит к усложнению процесса выбора. Вот несколько из них, доступные в России, работающие под управлением ОС Windows, такие как SAS for Windows (SAS Institute Inc.), SPSS (SPSS Inc.), S-Plus (Mathworks), Systat (SPSS Inc.), NCSS (NCSS), STATA (Stata corp.), Statistica (Statsoft Inc.) и Statgraphics Plus (Ma nguistics, Inc).

Кроме того, распространенные математические пакеты – Excel, MatLab, Mathematica, MathCad – способны обрабатывать большие массивы данных, но обладают узким спектром статистических процедур.

Statistica. Данная система задумывалась как полная статистическая система для пользователей персональных компьютеров. С самого начала эта программа обладала развитым графическим интерфейсом и опиралась на поддержку высококачественной графики для анализа данных. Система состоит из ряда модулей, работающих независимо. Каждый модуль включает определенный класс процедур. Графики в данной системе строятся как из общего меню, так и из подменю процедур, что очень облегчает начинающим выбор адекватного графического представления данных. Почти все процедуры являются интерактивными. Это очень удобно для начинающего пользователя, однако резко замедляет деятельность опытного и не позволяет эффективно повторять одну и ту же процедуру несколько раз.

SPSS является одной из старейших систем статистического анализа данных. Сейчас SPSS включает большое количество статистических процедур, возможности по манипуляции данными и создания графиков. Проработка статистических алгоритмов чрезвычайно тщательная и позволяет хорошо контролировать процесс обработки данных. Большинство опций доступна из меню и диалоговых окон, что выгодно отличает SPSS от других программ.

В целом SPSS может быть рекомендована пользователям, которые хотят иметь систему с простым, интуитивным интерфейсом, относительно развитой графикой и периодически использующих язык программирования для автоматизации более сложных заданий.

Если же речь заходит о начинающих пользователях, то им следует обратить свое внимание на Statistica или Statgraphics+. Для людей, относительно ориентирующихся в статистических методиках или начинающих изучение статистики наиболее адекватной будет использование системы Statistica. Дружелюбный интерфейс, развитая система подсказки и полнота представленных статистических процедур позволяют рекомендовать эту систему начинающим пользователям и непрофессионалам, часто использующим в своей работе статистические методы анализа.

В настоящее время в прикладной статистике всё большей популярностью пользуются методы так называемой непараметрической статистики − когда вопрос о принадлежности распределения вероятностей данной величины к тому или иному классу вообще не поднимается, но, конечно же, задача оценки самой случайной величины, получение информации о ней остаётся.

Использование классических распределений случайных величин не всегда бывает возможно, причин тому чаще всего две:

·  некоторые случайные величины просто не имеют количественного описания, обоснованных единиц измерения (уровень знаний, качество продукции и т. п.);

·  наблюдение над величинами возможно, но их количество слишком мало для проверки предположения (гипотезы) о типе распределения.

При исследовании зависимостей одной из наиболее простых является ситуация, когда можно указать только один фактор, влияющий на конечный результат, и этот фактор может принимать лишь конечное число значений. Такие задачи ( называемые задачами однофакторного анализа ) весьма часто встречаются на практике, рассмотрим одну из них.

Для сравнения влияния факторов (возраста) на результат (образование) исследуем статистический материал, представленный таблицей 1.

Уровень образования населения по возрастным группам (перепись 2002 г. на 1000 человек в каждой группе)

Имеющие образование

Не имеющие начального общего образования

Профессиональное

Общее

Высшее (включая послевузовское)

Неполное высшее

Среднее

Начальное

Среднее (полное)

Основное

Начальное

15-17

0

0

7

13

224

688

64

3

18-19

0

71

129

117

566

106

6

3

20-24

122

134

263

183

222

65

5

3

25-29

200

38

300

205

185

59

5

4

30-34

179

22

350

218

181

38

5

3

35-39

175

15

353

211

205

31

4

3

40-44

168

12

335

206

229

41

4

2

45-49

166

10

322

199

220

70

8

2

50-54

161

8

309

184

197

121

16

2

55-59

169

9

264

160

167

174

51

2

60-64

117

6

191

119

128

275

157

4

65-69

89

4

137

78

77

274

323

16

>70

59

7

100

45

49

220

454

64

Данные принадлежат одному и тому же распределению, это предположение обычно называется нулевой гипотезой . Если оно оказывается справедливо, то анализ заканчивается. В противном случае возникает задача оценки величины эффектов обработки и выяснения качества полученных оценок.

Если мы ничего не знаем о распределении наблюдений, то непосредственно использовать для проверки нулевой гипотезы количественные значения наблюдений становиться затруднительно. В этом случае проще опираться в своих выводах только на отношение «больше – меньше» между наблюдениями, так как они не зависят от распределения наблюдений. При этом вся информация, которую мы используем из таблицы 1, содержится в тех рангах, что получают числа при упорядочении всей их совокупности. В связи с наличием в таблице 1 совпадений мы вынуждены воспользоваться средними рангами. В результате ранжирования получим таблицу (рисунок 1).

Общая методика проверки статистических гипотез рекомендует нам сконструировать некоторую статистику, т. е в данном случае функцию от рангов , которая бы легла в основу критерия проверки гипотезы, воспользуемся для её проверки свободным от распределения критерием Краскела – Уоллиса, хотя при переходе от величины к их рангам уже происходит определённая потеря информации. Однако часто подобная потеря информации, во-первых, не столь значительна, а во-вторых, компенсируется тем, что от неизвестного закона распределения величин мы переходим к величинам , распределение которых при гипотезе известно.

Медианный тест – это «грубая» версия критерия Краскела – Уоллиса. Statistica просто подсчитывает число наблюдений каждой выборки, которые попадают выше или ниже общей медианы выборок, и вычисляет затем значение .

Проверим гипотезу об отсутствии влияния возрастного показателя на уровень образования.

Результаты рангового дисперсионного анализа Краскела – Уоллиса и медианного теста для группы «Высшее» показаны на рисунке 2:

Как видно из рисунка 2 и критерий Краскела – Уоллиса (р=0,4457) и медианный тест (р=0,3690) не значимы. Таким образом, мы отвергаем влияние возраста на уровень образования населения.

График по умолчанию для этих тестов – диаграмма размаха. На диаграмме размаха для каждой переменной (район) показаны: медиана, квартильный размах (25%, 75% прцентили), размах (минимум, максимум). На рисунке 3 представлена диаграмма размаха для уже выполненных расчётов группы «высшее».

Указанные выше моменты приводят к различным постановкам задач однофакторного анализа, однако общая стратегия анализа во всех случаях примерно одинакова.

Результатом появления мощных и удобных пакетов для анализа данных на персональных компьютерах стало резкое расширение и изменение круга потребителей методов анализа данных. Таким образом, методы анализа данных и статистические пакеты для компьютеров стали типичным и общеупотребительным инструментом плановых, аналитических, маркетинговых отделов производственных и торговых корпораций, банков и страховых компаний, правительственных и медицинских учреждений.