Планирование самостоятельной работы студентов очной формы обучения
№ | Модули и темы | Виды СРС | Неделя семестра | Объем часов | Кол-во баллов | |
обязательные | дополнительные | |||||
Модуль 1 | ||||||
1 | Введение в анализ данных, этапы и основные проблемы анализа многомерных данных
| Выполнение практического задания, изучение литературы по теме | Подбор и изучение дополнительных литературных источников, индивидуальные задания | 1,2 | 6 | 0-10 |
2 | Классификация данных. Типы шкал. Подготовка макета и ввод данных для анализа. | Выполнение практического задания, изучение литературы по теме | Подбор и изучение дополнительных литературных источников, индивидуальные задания | 3,4 | 6 | 0-10 |
3 | Первичный анализ данных. Частотные таблицы. Вычисление мер среднего и мер разброса. Анализ множественных ответов. | Выполнение практического задания, изучение литературы по теме, подготовка отчета по описательному анализу данных | Подбор и изучение дополнительных литературных источников, индивидуальные задания. Подготовка презентации к отчету | 5,6 | 6 | 0-10 |
4 | Изменение, преобразование, разделение, отбор, взвешивание данных при анализе | Выполнение практического задания, изучение литературы по теме, подготовка к контрольной работе | Подбор и изучение дополнительных литературных источников, индивидуальные задания | 7,8 | 7 | 0-10 |
Всего по модулю 1: | 25 | 0-40 | ||||
Модуль 2 | ||||||
5 | Анализ таблиц сопряженности. Принцип практической уверенности. Проверка статистических гипотез. | Выполнение практического задания, изучение литературы по теме, подготовка аналитического отчета | Подбор и изучение дополнительных литературных источников, индивидуальные задания. Подготовка презентации к отчету | 9,10 | 6 | 0-10 |
6 | Поиск зависимостей между анализируемыми показателями. Корреляционный анализ. Меры связи между переменными разных типов шкал. | Выполнение практического задания, изучение литературы по теме | Подбор и изучение дополнительных литературных источников, индивидуальные задания | 11,12 | 6 | 0-10 |
7 | Построение прогнозных моделей. Регрессионный анализ. | Выполнение практического задания, изучение литературы по теме, подготовка отчета по регрессионному анализу | Подбор и изучение дополнительных литературных источников, индивидуальные задания. Подготовка презентации к отчету | 13,14 | 6 | 0-10 |
8 | Классификация объектов и признаков при анализе данных. Кластерный и дискриминантный анализ. | Выполнение практического задания, изучение литературы по теме, подготовка отчета по кластерному анализу | Подбор и изучение дополнительных литературных источников, индивидуальные задания. Подготовка презентации к отчету | 15,16 | 6 | 0-15 |
9 | Снижение размерности данных при анализе. Факторный анализ. | Выполнение практического задания, изучение литературы по теме, подготовка к контрольной работе | Подбор и изучение дополнительных литературных источников, индивидуальные задания | 17,18 | 6 | 0-15 |
Всего по модулю 2: | 30 | 0-60 | ||||
ИТОГО: | 55 | 0-100 |
3. Содержание дисциплины.
ТЕМА 1. ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ, ЭТАПЫ И ОСНОВНЫЕ ПРОБЛЕМЫ АНАЛИЗА МНОГОМЕРНЫХ ДАННЫХ
Задачи анализа данных и знаний. Сходства и отличия. Закономерности. Теория измерений. Классификация задач анализа данных. Куб данных.
Базовые гипотезы, лежащие в основе методов анализа данных. Гипотеза компактности. Задачи таксономии.
Эмпирическая и математическая системы. Кодирование данных и кодировочная таблица. Обзор интерфейса статистического пакета SPSS.
ТЕМА 2. КЛАССИФИКАЦИЯ ДАННЫХ. ТИПЫ ШКАЛ. ПОДГОТОВКА МАКЕТА И ВВОД ДАННЫХ ДЛЯ АНАЛИЗА
Виды данных. Форматы данных. Основные шкалы измерения. Типы переменных и способы их задания.
Структура базы данных статистического пакета. Переменные, метки переменных и значений. Коды пропущенных ответов. Подготовка макета и ввод данных на примере реального социологического исследования.
ТЕМА 3. ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ. ЧАСТОТНЫЕ ТАБЛИЦЫ. ВЫЧИСЛЕНИЕ МЕР СРЕДНЕГО И МЕР РАЗБРОСА. АНАЛИЗ МНОЖЕСТВЕННЫХ ОТВЕТОВ.
Схема обработки данных социологического опроса с применением статистического пакета. Частотный анализ. Проверка репрезентативности. Общее представление о параметрах распределений. Изучение случайных величин путем выборочных оценок параметров их распределений и переноса результатов с выборки на генеральную совокупность. Равномерное распределение. Нормальное распределение. Асимметрия и эксцесс. Распределения, основанные на нормальном (Хи-квадрат, Стьюдента, Фишера). Получение круговых и столбчатых диаграмм, а также гистограмм при анализе частотных таблиц в статистическом пакете. Аппроксимация кривой нормального распределения.
Два вида оценивания: точечное и интервальное. Свойства точечных оценок (несмещенность, эффективность, состоятельность). Представление о мерах средней тенденции. Их содержательный смысл. Меры средней тенденции и их точечные оценки (математическое ожидание, квантили, мода). Необходимость учитывать не только среднее, но и величину разброса значений признака. Меры разброса и их точечные оценки (дисперсия, среднее квадратичное отклонение, среднее абсолютное отклонение, квантильный размах, коэффициент качественной вариации, энтропия). Возможность расчета мер средней тенденции, мер разброса для признаков, измеренных по разным шкалам.
Принципы построения интервальных оценок. Понятие средней ошибки выборки. Оценки для математического ожидания, дисперсии, доли. Оценка доли как частный случай математического ожидания для специальным образом организованных дихотомических переменных.
Вопросы с возможностью выбора нескольких вариантов ответа как сумма нескольких простых вопросов. Способы записи результатов множественного вопроса в статистическом пакете. Создание множественной переменной. Получение частотных таблиц для множественной переменной и их интерпретация.
ТЕМА 4. ИЗМЕНЕНИЕ, ПРЕОБРАЗОВАНИЕ, РАЗДЕЛЕНИЕ, ОТБОР, ВЗВЕШИВАНИЕ ДАННЫХ ПРИ АНАЛИЗЕ
Модификация данных. Вычисление значений новой переменной на основе имеющихся данных. Перекодирование переменной. Ранжирование выборки. Отбор данных. Подсчет числа определенных ответов респондента в списке из нескольких переменных. Создание нормированной переменной. Выбор респондентов по условию. Случайная выборка определенного процента наблюдений. Режимы исключения и удаления не выбранных ответов. Назначение взвешивания. Определение весовых коэффициентов. Методика проведения взвешивания в статистическом пакете. Создание столбца весовых коэффициентов. Включение и отмена взвешивания. Проверка правильности весовых коэффициентов.
ТЕМА 5. АНАЛИЗ ТАБЛИЦ СОПРЯЖЕННОСТИ. ПРИНЦИП ПРАКТИЧЕСКОЙ УВЕРЕННОСТИ. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
Создание и анализ таблиц сопряженности. Подготовка данных к вторичному анализу.
Общие принципы статистической проверки гипотез. Уровень значимости гипотезы и его интерпретация. Непараметрические оценки плотности. Методы оценивания параметров. Одношаговые оценки. Асимптотика решений экстремальных статистических задач. Робастность статистических процедур. Метод моментов проверки гипотез. Неустойчивость параметрических методов отбраковки выбросов. Предельная теория непараметрических критериев. Метод проверки гипотез по совокупности малых выборок. Проблема множественных проверок статистических гипотез.
Логика проверки статистической гипотезы. Использование принципа невозможности реализации маловероятных событий. Правило трех сигм, уровень значимости и их использование. Ошибки первого и второго рода. Проверка гипотезы о нормальности генерального распределения с помощью критерия Хи-квадрат.
ТЕМА 6. ПОИСК ЗАВИСИМОСТЕЙ МЕЖДУ АНАЛИЗИРУЕМЫМИ ПОКАЗАТЕЛЯМИ. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ. МЕРЫ СВЯЗИ МЕЖДУ ПЕРЕМЕННЫМИ РАЗНЫХ ТИПОВ ШКАЛ
Коэффициент корреляции. Общие понятия и определения. Понятие корреляции. Количественные критерии оценки тесноты связи. Значимость результатов или статистическая достоверность. Меры связанности для переменных с порядковой шкалой. Коэффициент ранговой корреляции Спирмена или
Кендала. Коэффициент конкордации оценивает согласованность ранжировок всей выборочной совокупности. Меры связанности для переменных с номинальной шкалой. Коэффициент сопряженности Пирсона. Коэффициент Крамера (V). Критерий Фишера. Коэффициент Юла. Тау (г) Гудмена-Крускала. Коэффициент неопределенности.
ТЕМА 7. ПОСТРОЕНИЕ ПРОГНОЗНЫХ МОДЕЛЕЙ. РЕГРЕССИОННЫЙ АНАЛИЗ
Задачами регрессионного анализа являются установление формы зависимости между признаками, оценка функции регрессии, оценка неизвестных значений (прогноз значений) зависимого признака. В регрессионном анализе рассматривается односторонняя зависимость случайного зависимого признака Y от одного (или нескольких) неслучайных независимых признаков X, называемых часто объясняющими переменными. Простой анализ (один независимый признак). Линейная регрессия. Множественная линейная регрессия.
ТЕМА 8. КЛАССИФИКАЦИЯ ОБЪЕКТОВ И ПРИЗНАКОВ ПРИ АНАЛИЗЕ ДАННЫХ. КЛАСТЕРНЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ
Кластерный анализ наиболее ярко отражает черты многомерного анализа в классификации. Этапы кластерного анализа. Выбор переменных-критериев для кластеризации. Выбор способа измерения расстояния между объектами, или кластерами. Формирование кластеров. Иерархический кластерный анализ. Кластерный анализ методом К - средних. Двухэтапный кластер-анализ.
Дискриминантный анализ позволяет предсказать принадлежность объектов к двум или более непересекающимся группам. Задачами дискриминантного анализа является определение: решающих правил, позволяющих по значениям дискриминантных переменных (предикторов) отнести каждый объект (в том числе и «неизвестный») к одной из известных групп; «веса» каждой дискриминантной переменной для разделения объектов на группы. Ядром дискриминантного анализа является построение так называемой дискриминантной функции. Классификации. Вывод групп и статистик.
ТЕМА 9. СНИЖЕНИЕ РАЗМЕРНОСТИ ДАННЫХ ПРИ АНАЛИЗЕ. ФАКТОРНЫЙ АНАЛИЗ
Модели факторного анализа. Основные гипотезы и основания применения методов и алгоритмов факторного анализа. Ограничения факторного анализа. Алгоритм факторного анализа. Maximum likehood (Метод максимального правдоподобия). Principal-axis factoring (Метод главных факторов). Alpha-factoring (Альфа-факторный анализ). Image factoring (Факторный анализ образов). Вывод результатов факторного анализа. Интерпретация результатов факторного анализа.
4. Планы семинарских занятий по курсу «Анализ данных в социологии»
ТЕМА 1. ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ, ЭТАПЫ И ОСНОВНЫЕ ПРОБЛЕМЫ АНАЛИЗА МНОГОМЕРНЫХ ДАННЫХ
1. Эмпирическая и математическая системы
2. Кодирование данных и кодировочная таблица
3. Знакомство с интерфейсом SPSS
Выполнение практических заданий.
ТЕМА 2. КЛАССИФИКАЦИЯ ДАННЫХ. ТИПЫ ШКАЛ. ПОДГОТОВКА МАКЕТА И ВВОД ДАННЫХ ДЛЯ АНАЛИЗА
1. Создание матрицы ввода данных: обозначение переменных, метки переменных и значения
2. Определение типов шкал
3. Коды пропущенных ответов
4. Ввод данных в матрицу
Выполнение практических заданий.
ТЕМА 3. ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ. ЧАСТОТНЫЕ ТАБЛИЦЫ. ВЫЧИСЛЕНИЕ МЕР СРЕДНЕГО И МЕР РАЗБРОСА. АНАЛИЗ МНОЖЕСТВЕННЫХ ОТВЕТОВ.
1. Построение частотных таблиц
2. Графическое представление данных
3. Меры средней тенденции.
4. Меры разброса
5. Оценки параметров распределений (асимметрия и эксцесс).
6. Построение частотных таблиц для множественной переменной
Выполнение практических заданий.
Подготовка отчета по описательному анализу данных прикладного социологического исследования.
ТЕМА 4. ИЗМЕНЕНИЕ, ПРЕОБРАЗОВАНИЕ, РАЗДЕЛЕНИЕ, ОТБОР, ВЗВЕШИВАНИЕ ДАННЫХ ПРИ АНАЛИЗЕ
1. Вычисление значений новой переменной
2. Перекодирование переменной
3. Постановка фильтра на данные
4. Разделение выборки на группы, анализ по группам
5. Определение весовых коэффициентов и создание столбца весовых коэффициентов.
Выполнение практических заданий.
ТЕМА 5. АНАЛИЗ ТАБЛИЦ СОПРЯЖЕННОСТИ. ПРИНЦИП ПРАКТИЧЕСКОЙ УВЕРЕННОСТИ. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
1. Создание таблиц сопряженности
2. Определение процентов по столбцам, по строкам, по итогу
3. Проверка на значимость различий подвыборок (критерий хи-квадрат)
4. Проверка на наличие связи между переменными
5. Проверка гипотез. Интерпретация уровня значимости.
6. Сравнение средних
7. Непараметрические тесты
Выполнение практических заданий.
Подготовка отчета по анализу взаимосвязей между переменными и проверке гипотез по данным прикладного социологического исследования.
ТЕМА 6. ПОИСК ЗАВИСИМОСТЕЙ МЕЖДУ АНАЛИЗИРУЕМЫМИ ПОКАЗАТЕЛЯМИ. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ. МЕРЫ СВЯЗИ МЕЖДУ ПЕРЕМЕННЫМИ РАЗНЫХ ТИПОВ ШКАЛ
1. Парные корреляции
2. Расчет коэффициента корреляции для переменных с интервальной шкалой
3. Расчет коэффициентов корреляции для переменных с порядковой шкалой
4. Определение мер связи для переменных с порядковой шкалой
5. Определение мер связи для переменных с номинальной шкалой
Выполнение практических заданий.
ТЕМА 7. ПОСТРОЕНИЕ ПРОГНОЗНЫХ МОДЕЛЕЙ. РЕГРЕССИОННЫЙ АНАЛИЗ
1. Построение модели простой линейной регрессии
2. Построение модели множественной линейной регрессии
Выполнение практических заданий.
Подготовка отчета по регрессионному анализу данных прикладного социологического исследования.
ТЕМА 8. КЛАССИФИКАЦИЯ ОБЪЕКТОВ И ПРИЗНАКОВ ПРИ АНАЛИЗЕ ДАННЫХ. КЛАСТЕРНЫЙ И ДИСКРИМИНАНТНЫЙ АНАЛИЗ
1. Иерархический кластерный анализ
2. Кластерный анализ методом К-средних
3. Двухэтапный кластер-анализ
4. Дискриминантный анализ
Выполнение практических заданий.
Подготовка отчета по кластерному анализу данных прикладного социологического исследования.
ТЕМА 9. СНИЖЕНИЕ РАЗМЕРНОСТИ ДАННЫХ ПРИ АНАЛИЗЕ. ФАКТОРНЫЙ АНАЛИЗ
1. Рассмотрение алгоритма факторного анализа
2. Вывод результатов факторного анализа
3. Матрица факторных нагрузок
4. Интерпретация результатов факторного анализа
Выполнение практических заданий.
Выполнение итоговой контрольной работы:
В имеющейся базе данных (предоставляется преподавателем) представлены следующие показатели производственно-хозяйственной деятельности для 53 предприятий машиностроения: Y1 - производительность труда; Y2 - индекс снижения себестоимости продукции; Y3 - рентабельность; X4 - трудоемкость единицы продукции; X5 - удельный вес рабочих в составе ППП; X6 - удельный вес покупных изделий; X7 - коэффициент сменности оборудования; X8 - премии и вознаграждения на одного работника; X9 - удельный вес потерь от брака; X10 - фондоотдача; X11 - среднегодовая численность ППП; X12 - среднегодовая стоимость ОПФ; X13 - среднегодовой фонд заработной платы ППП; X14 - фондовооруженность труда; X15 - оборачиваемость нормируемых оборотных средств; X16 - оборачиваемость ненормируемых оборотных средств; X17 - непроизводственные расходы.
На основе имеющихся данных:
1) Построить корреляционную матрицу между такими показателями, как производительность труда, удельный вес рабочих в составе ППП, премии и вознаграждения на одного работника, среднегодовая стоимость ОПФ и оборачиваемость нормируемых оборотных средств. Провести анализ. Выводы.
2) Построить уравнение регрессии, где рентабельность – это независимая переменная, а производительность труда, среднегодовая стоимость ОПФ, оборачиваемость нормируемых и ненормируемых средств являются регрессорами. По уровню аппроксимации оценить достоверность построенной модели.
3) Провести кластеризацию данных предприятий на группы по таким показателям как производительность труда, индекс снижения себестоимости продукции и рентабельность.
4) По показателям с Х4 по Х17 провести факторный анализ. Сколько показателей целесообразно оставить для адекватной характеристики предприятия?
5) Выбрать предприятия со среднегодовой стоимостью ОПФ более 100 и проверить значимо ли отличается их производительность от установленного стандарта в 8 ед.
5. Задания для практической работы
Практические занятия состоят из двух частей. На первой части студенты выполняют отработку изучаемых разделов статистического пакета под руководством преподавателя. Для этого чаще всего используются учебные данные. Вторая часть практической работы – контрольная. Студент получает задания от преподавателя, в котором сказано, что требуется получить и по каким данным, Как правило, задания этой части основаны на файлах данных реальных социологических исследований. Выполнив задания самостоятельно, студент показывает готовый результат преподавателю и получает за него оценку. Все практические занятия проводятся в компьютерных классах.
К теме 1.
1) Внимательно изучить базу имеющихся данных (предоставляется преподавателем).
2) Используя формулу Паниотто определить ошибку выборки представленного исследования (генеральная совокупность составляет 990271 человек – население региона в возрасте от 14 до 70 лет). Сделать вывод о репрезентативности имеющихся данных.
3) Тщательно проверить базу на наличие ошибок ввода данных (их заложено не менее 10) и отредактировать ее.
К теме 2.
1. На основе полученной анкеты (предоставляются преподавателем) определить по вопросам переменные ввода, типы шкал переменных.
2. Разработать макет для ввода данных.
3. Для порядковых и номинальных шкал определить значения ввода.
4. Задать коды пропущенных ответов.
5. Ввести данные в матрицу.
К теме 3.
1. По имеющейся базе данных (предоставляется преподавателем) построить частотные таблицы (переменные для анализа указывает преподаватель).
2. Построить гистограммы частот по указанным переменным.
3. По асимметрии и эксцессу определить тип распределения переменных.
4. Построить частотную таблицу для множественной переменной (переменную для анализа указывает преподаватель).
К теме 4.
1) В имеющейся базе данных (предоставляется преподавателем) создать дополнительную переменную «GV», в которой сгруппировать наблюдения во возрасту: 1- от 14 до 17 лет, 2 – от 18 до 22 лет, 3 – от 23 до 27 лет, 4 – от 28 до 34 лет, 5 – от 35 до 44 лет, 6 – от 45 до 54 лет, 7 – 55 лет и старше.
2) Создать дополнительную переменную «NP», в которой сгруппировать наблюдения по населенным пунктам: 1 – городское население, 2 – сельское население.
3) Преобразовать шкалу доверие из 5 значений (1 – не доверяю, 2 – скорее не доверяю, 3 – сложно сказать, 4 – скорее доверяю, 5 – не доверяю) в шкалу с 3 делениями (1 – не доверяю, 2 – сложно сказать, 3 – доверяю).
4) Перекодируйте по указанным переменным значения «затрудняюсь ответить» и «нет ответа» в пропущенные переменные.
5) На основе анализа распределения в базе указанной преподавателем переменной и желаемым распределением данной переменной определите значения весовых коэффициентов. Создайте новую переменную VES и вычислите ее значения.
К теме 5.
1. В предоставляемой преподавателем базе имеются две выборки с данными о размере заработных плат (в тыс. руб.) на двух предприятиях А и В. Можно ли объединить эти данные в единую выборку? Проверить гипотезу об однородности функций распределения.
2. Можно ли считать, что на предприятии А уровень зарплат статистически значимо выше, чем на предприятии В?
3. В данном регионе, по данной отрасли средний уровень зарплат сложился на уровне 35 тыс. руб. Определите, отличается ли уровень зарплат на предприятиях А и В от среднего или же различие может быть объяснено случайными отклонениями значений признаков? Если имеется отличие, то в какую сторону?
4. В предоставляемой преподавателем базе для каждого из N = 150 объектов (предприятий) даны значения Xj и Yj, j = 1,2,…,N, результатов наблюдений двух признаков (Xj – выручка предприятия после внедрения рекомендаций бизнесконсультанта и Yj – выручка до внедрения рекомендаций). Необходимо проверить, есть ли значимое различие между значениями двух признаков или же это различие может быть объяснено случайными отклонениям значений признаков. Другими словами, требуется проверить, есть ли смысл приглашать для работы бизнесконсультанта, чтобы значимо повысить выручку предприятия.
К теме 6.
1. В имеющейся базе данных даны результаты выполнения нескольких заданий по математике и физике, которые оцениваются баллами 1-5. Вычислите средний балл для каждого школьника по каждому предмету: по математике, по физике. Определите, существует ли связь между этими оценками (рассчитать корреляцию).
2. Найдите с какими еще переменными, имеющимися в базе, связаны результаты выполнения заданий.
К теме 7.
1. Имеются данные за несколько лет о торговом обороте Y западногерманского предприятия и его расходах на рекламу X. Вычислите линейный коэффициент корреляции между случайными величинами X и Y. Определите коэффициенты линейной регрессии Y = aX + b. Постройте график. Сделайте точечный и интервальный прогноз для торгового оборота при расходах на рекламу, равных 15 (тыс. марок ФРГ).
2. Аналогичным образом изучите зависимости расходах на рекламу X и торгового оборота Y от времени t (за начало отсчета целесообразно взять 1971 год).
3. По имеющейся базе данных постройте модель множественной регрессии (зависимую и независимые переменные для анализа определяет преподаватель). Оцените параметры множественной линейной зависимости. Выпишите восстановленную зависимость. Вычислите восстановленные значения зависимой переменной, сравните их с исходными значениями (найдите разности). Рассчитайте прогнозное значение для момента t = 12.
К теме 8.
1. По имеющейся базе данных выбрать переменные-критерии для кластеризации. Определить способ измерения расстояния между объектами, или кластерами.
2. Провести кластеризацию клиентов методом иерархической кластеризации.
3. Провести дискриминантный анализ клиентов. Построение дискриминантной функции.
К теме 9.
1. По имеющимся данным провести факторный анализ. Проинтерпретировать полученные результаты.
6. Задание по подготовке отчетов
1) По имеющимся данным (базу предоставляет преподаватель и определяет переменные для анализа) провести полный описательный анализ и подготовить отчет для заказчика.
2) По имеющимся данным (базу предоставляет преподаватель и определяет переменные для анализа) провести корреляционный анализ и подготовить отчет для заказчика.
3) По имеющимся данным (базу предоставляет преподаватель и определяет переменные для анализа) провести регрессионный анализ и подготовить отчет для заказчика.
4) По имеющимся данным (базу предоставляет преподаватель и определяет переменные для анализа) провести кластерный анализ и подготовить отчет для заказчика.
В результате работы, по каждому виду анализа студент должен написать отчет в стиле ответа заказчику и прислать его по электронной почте на адрес (преподаватель указывает адрес). Студент должен самостоятельно решить, какие таблицы, значения и графики имеет смысл получить с помощью SPSS и привести в отчете.
Правила оформления отчета:
А. Отчет должен быть представлен в формате, который откроется на компьютере заказчика. Это значит, что формат SPSS Output не подходит. Лучше всего отчет написать в MicrosoftWord (если требуется текст), либо в PowerPoint, если требуется презентация.
Б. В отчете все должно быть по-русски. Никаких выдержек из SPSS на английском языке быть не должно!
В. Желательно не приводить избыточного количества цифр, не относящихся к делу.
Г. В начале отчета имеет смысл сказать несколько слов о полученной выборке (сколько анкет, сколько мужчин-женщин, сколько % людей знают о выборах, и т. п.)
Д. В начале отчета не забудьте ОБЯЗАТЕЛЬНО указать, кто выполнял лабораторную работу (фамилия, номер группы), а также привести уточненный текст выбранного Вами варианта задания.
Рекомендуется копию отчета сохранить в личной папке или на внешнем носителе.
7. Задания для самостоятельной работы
1. Структура данных в пакете SPSS. Переменные и комментарии к ним. Коды значений переменных. Формат данных. Шкалы.
2. Подготовка шаблона для ввода данных в SPSS.
3. Работа с кодами пропущенных значений.
4. Выбор данных для анализа.
5. Частотная таблица. Процедура Frequencies. Виды процентов, вычисляемых в частотных таблицах.
6. Вычисление статистических параметров одной переменной (меры среднего, меры разброса и т. п.) с помощью SPSS.
7. Меры среднего: мода, медиана, среднее арифметическое значение.
8. Меры разброса: дисперсия, стандартное отклонение, квартильный размах.
9. Построение гистограмм, столбчатых и круговых диаграмм.
10. Вычисление мер среднего и мер разброса в группах, определенных по значениям «группирующей» переменной. Процедура Means.
11. Обработка вопросов, в которых респонденты имеют право выбрать одновременно несколько вариантов ответа. Получение частотных таблиц и таблиц сопряженности для совместных вопросов.
12. Создание и вычисление новой переменной на основании данных из других переменных. Раздел Compute.
13. Перекодирование переменных. Раздел Recode.
14. Как найти, сколько раз при ответе на несколько вопросов респонденты выбирали определенный вариант? Раздел Count.
15. Ранги. Ранжирование выборки в SPSS. Раздел Rank cases.
16. Взвешивание выборки. Вычисление весовых коэффициентов.
17. Создание нормированной переменной.
18. Таблицы сопряженности. Виды процентов, вычисляемых с помощью таблиц сопряженности.
19. Общие принципы проверки статистических гипотез. Рассказать на примере одного их статистических методов, реализованных в SPSS. Уровень значимости.
20. Проверка наличия связи между двумя признаками с помощью критерия хи-квадрат для таблицы сопряженности. Ожидаемые и экспериментальные частоты.
21. Сравнение средних значений в группах. Т-тест по независимым выборкам.
22. Проверка того, вызвало ли некоторое событие изменение средних показателей исследуемой группы. Парныйт-тест.
23. Сравнение средних показателей группы и тестовым значением.
24. Работа с файлами. Объединение файлов данных. Сортировка. Транспонирование. Агрегирование.
25. Построение диаграмм и графиков в SPSS. Двумерная и трехмерная графика. Построение с усреднением значений. Боксы ошибок.
26. Виды вторичного анализа данных в SPSS. Корреляционный анализ.
27. Виды вторичного анализа данных в SPSS. Регрессионный анализ.
28. Виды вторичного анализа данных в SPSS. Дисперсионный анализ.
29. Виды вторичного анализа данных в SPSS. Факторный анализ.
30. Виды вторичного анализа данных в SPSS. Кластерный анализ.
31. Виды вторичного анализа данных в SPSS. Анализ временных рядов.
32. Основные параметры одномерных распределений. Выполнение и защита задания по теме.
33. Основные параметры двумерного распределения. Выполнение и защита задания по теме.
34. Проверка нормального распределения. Выполнение и защита задания по теме.
35. Однофакторный и многофакторный дисперсионный анализ. Сравнение двух зависимых или независимых выборок. Выполнение и защита задания по теме.
36. Корреляционный анализ. Обоснование связи между переменными, интерпретация результатов. Обоснование выводов.
37. Регрессионный анализ. Интерпретация результатов. Обоснование выводов.
38. Факторный анализ. Выполнение и защита задания по теме.
39. Кластерный анализ. Выполнение и защита задания по теме.
8. Примерная тематика контрольных работ:
1. Нечисловые данные.
2. Проблемы построения выборочных совокупностей.
3. Классификация методов анализа данных.
4. Методики обнаружения нового знания в хранилищах данных (KDD).
5. Регрессионные методы интеллектуального анализа данных и их отличия от статистических.
6. Временные последовательности и особенности их обработки.
7. Нейронные сети.
8. Метод ближайших соседей.
9. Классификация на основе нечеткой логики.
10. Дерево решений, леса решений.
11. Критерии эффективности применения методов интеллектуального анализа данных.
12. Практическая реализация методов интеллектуального анализа данных с применением программного пакета SPSS.
13. Принцип дискретности в математике, его приложение в социологии.
14. Контент-анализ и его реализация на примере.
15. Факторный анализ Задача о сегментации рынка.
16. Кластерный анализ. Задача о сегментации рынка.
17. Кластеризация ценностных ориентаций. Пример реализации.
18. Программирование в SPSS.
19. Математические методы изучения конфликтных ситуаций.
20. Обзор пакетов статистического анализа.
9. Тест по курсу «Анализ данных в социологии»
1. Анализ данных в социологии начинается с
А) подготовки рабочей программы исследования;
Б) разработки матрицы ввода данных;
В) определения частотных распределений;
Г) проверки статистических гипотез.
2. В социологических исследованиях чаще встречаются номинальные или интервальные шкалы?
А) интервальные шкалы;
Б) номинальные шкалы;
В) и те и другие в равной мере;
Г) таких типов шкал в социологических исследованиях не бывает.
3. Кодирование пола респондента (1-мужской, 2-женский) – это …
А) интервальная шкала;
Б) порядковая шкала;
В) номинальная, дихотомическая шкала
Г) нет правильного ответа.
4. Если при ответе на вопрос, респондент может выбрать несколько вариантов ответа, то сколько переменных необходимо для его кодирования?
А) только одна переменная;
Б) Столько переменных, сколько вариантов ответа можно было выбрать респонденту.
В) Столько переменных, сколько вариантов ответа вообще было предложено респонденту.
Г) В зависимости от способа ввода данных, могут быть правильными ответы В и Б.
5. С помощью каких параметров можно проверить нормальность распределения выборки?
А) С помощью мер средней тенденции;
Б) Мер разброса;
В) Асимметрии и эксцесса;
Г) С помощью теста Хи-квадрат.
6. Какие меры средней тенденции применимы для номинальных шкал?
А) среднее арифметическое;
Б) медиана;
В) медиана для концентрированных данных;
Г) мода.
7. Для анализа переменных не относящихся к интервальной шкале или не подчиняющихся нормальному распределению применимы
А) только параметрические тесты;
Б) только непараметрические тесты;
В) применимы и те и другие;
Г) не применимы ни те, не другие
8. Какие меры связи могут быть использованы для порядковых шкал?
А) Коэффициент корреляции Пирсона
Б) Коэффициент корреляции Спимана
В) Коэффициент корреляции Кендала
Г) Коэффициент корреляции для порядковых шкал рассчитать нельзя.
9. Если коэффициент корреляции оказался -0,8, то можно его интерпретировать как…
А) Имеется сильная обратная связь;
Б) Имеется сильная прямая связь;
В) Очень слабая обратная связь;
Г) Очень слабая прямая связь.
10. Факторный анализ проводится для:
А) построения прогнозных моделей;
Б) снижения размерности исследуемого пространства;
В) оценки значимости различий между исследуемыми выборками;
Г) количественной оценки тесноты связи между переменными.
10. Примерный перечень вопросов к зачету по курсу «Анализ данных в социологии»
1. Задачи анализа данных и знаний.
2. Различные виды статистических данных. Основные шкалы измерения.
3. Базовые гипотезы, лежащие в основе методов анализа данных.
4. Статистическая устойчивость как основное условие применение вероятно-статистических методов.
5. Законы больших чисел. Принцип инвариантности.
6. Описание данных, оценивание и проверка гипотез.
7. Классификация данных. Статистический анализ числовых величин.
8. Понятие о моделях поиска новых знаний.
9. Корреляции. Меры связанности.
10. Классификация при наличии обучающих выборок (дискриминантный анализ).
11. Сравнение средних.
12. Классификация без обучения, непараметрический случай. Кластер-анализ.
13. Дисперсионный анализ.
14. Метод главных компонент.
15. Факторный анализ.
16. Модели регрессии.
17. Анализ уравнения регрессии.
18. Анализ временных рядов. Подбор модели и прогнозирование.
40. Меры связанности для переменных с номинальной шкалой.
41. Меры связанности для переменных с порядковой шкалой.
42. Анализ множественных ответов. Дихотомный метод.
43. Анализ множественных ответов. Категориальный метод.
44. Сравнение средних для двух независимых выборок.
45. Сравнение средних для двух зависимых выборок.
46. Сравнение более двух независимых выборок.
47. Сравнение более двух зависимых выборок.
48. Сравнение средних, t – тест одной выборки.
49. Коэффициент корреляции Пирсона.
50. Ранговые коэффициенты корреляции по Спирману и Кендалу.
51. Частичная корреляция.
52. Дистанционная мера и мера подобия.
53. Простая линейная регрессия.
54. Множественная линейная регрессия.
55. Одномерный дисперсионный анализ.
56. Многомерный дисперсионный анализ.
57. Дискриминантный анализ.
58. Факторный анализ.
59. Кластерный анализ.
60. Структура данных в пакете SPSS. Переменные и комментарии к ним. Коды значений переменных. Формат данных. Шкалы.
11. Список литературы к курсу «Анализ данных в социологии»
11.1. Основная литература:
1. Добреньков, В. И. Методология и методика социологического исследования [Электронный ресурс] : учебник / В. И. Добреньков. - М.: Академический проект, 20с151-9. Режим доступа: http://*****/index. php? page=book&id=137353 (дата обращения 11.02.2011).
2. SPSS в социологических исследованиях. - Тюмень: Изд-во ТюмГУ, 2009. ГРИФ: Рекомендовано методсоветом по направлению Мельник и методика социологического исследования. – Тюмень: Изд-во ТюмГУ,2009
11.2. Дополнительная литература:
1. Крыштановский, Александр Олегович (). Анализ социологических данных с помощью пакета SPSS: учеб. пособие для студ. вузов, обуч. по напр. подгот. "Социология" / . - Москва: Изд-во ГУ ВШЭ, 20с. ; 21 см. - (Учебники Высшей школы экономики). - ISBN -5 (в пер.): 231.00 р. ГРИФ: Рекомендовано МО
2. Мельник, Владимир Владимирович. Методы прикладного социологического исследования: учеб.-метод. пособие / , , ; Тюм. гос. ун-т. - Тюмень: Изд-во ТюмГУ, 20с.
3. Ядов социологического исследования: описание, объяснение, понимание социальной реальности. – М.: Омега-Л, 2009.
11.3 Периодические издания:
1. Журнал «Экономический анализ: теория и практика».
2. Журнал «Эксперт».
3. Аналитический банковский журнал.
4. Журнал «Консультант».
5. Журнал «КомпьютерПресс»
6. Журнал «Менеджмент сегодня». - М.: дом «Гребенникова».
7. Журнал «Менеджмент: горизонты ИСО».
8. Научно-техническая информация: научно-технический сборник. Серия 1: Организация и методика информационной работы. Серия 2: Информационные процессы и системы.
11.4. Интернет-ресурсы:
1. EEGweb (http://www. *****/)
2. ILO Database (База данных МОТ) (http://www. ilo. org/public/english/suppor)
3. Интернет-библиотека (http://www. *****/library)
4. Информационно-аналитический портал "Наследие" (http://www. *****/)
5. Образовательный портал «Экономика, социология и менеджмент» (www. ecsocman. *****)
6. Сайт содержащий интерактивный учебник по SPSS, а также форум, коллекцию ссылок и другие полезные сведения по SPSS (http://www. *****/)
7. Сайт посвященный программе Statistica, а также использованным в этой программе математическим методам (http://www. *****)
8. Сайт разработчика программы SPSS (http://)
9. Статистическая база данных по российской экономике (Государственный Университет - Высшая Школа Экономики) (http://stat. *****/)
10. Форум Министерства труда и социального развития Российской Федерации (http://www. *****/connect/?open=foru)
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 |


