Варианты №1 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)
ФИО ____________________________________________ группа ____________________
1. Дан код:
%let a=10;
data test;
r= 0;
run;
Измените эту программу при помощи только макроинструкций, чтобы вывести "а" раз одно и то же наблюдение (где r=0) в набор данных test
2. Дан шаг data, создающий таблицу test:
data test;
do i=1 to 50;
j=i**2;
output;
end;
run;
В другом шаге data нужно дописать код. Вот его заготовка:
data test2;
set test test;
...
run;
Нужно создать такие новые переменные числового типа:
признак принадлежности наблюдения к первому или второму набору данных test (содержит 1 или 2). признак, является ли значение переменной j четным (1) или нечётным (0) признак последнего наблюдения, прочитанного из первого или второго набора даннаых (1 если последнее, 0 если не последнее) сквозная нумерация наблюдений в новом наборе данных (от 1 до 100)3. Не является предположением Cox Proportional Hazards Model следующее утверждение:
уровни конкурирующих рисков пропорциональны в каждый момент времени линейная зависимость между коваариатами и логарифмом функции риска должна быть рассчитана базовая функция рисков для корректной оценки влияния ковариантов на функцию выживаемости суммарный эффект от изменения ковариатов равен сумме их отдельных эффектов4. Основные этапы двухшаговой кластеризации сводятся к применению следующих процедур:
PROC VARCLUS и PROC CLUSTER PROC FASTCLUS и PROC TREE PROC CLUSTER и PROC FASTCLUS PROC TREE и PROC CLUSTERФИО ____________________________________________ группа ____________________
5. Результаты дисперсионного анализа приведены ниже. Какие утверждения верны (используя б=0.05)?
|
ФИО ____________________________________________ группа ____________________
Гипотеза H0 дисперсионного анализа принята: p-value = 0.1686 > 0.05. Осталось провести (например) попарные сравнения и выяснить какие Area отличаются. Среди средних переменной Rate в группах Area нет значимых различий. В наборе не было пропущенных значений. Гипотеза H0 дисперсионного анализа отклонена: p-value = 0.1686 > 0.05, средние переменой Rate в группах по переменной Area отличаются. На этом наборе данных нельзя проводить анализ, т. к. предположения не выполнены: тест на однородность дисперсии не пройден. Данные результаты ошибочны: неверно рассчитано число степеней свободы для SSM. Среднее в группе Area = 1 больше среднего в группе Area = 2.
6. Какие операции можно производить с набором данных SAS внутри процедуры языка SAS/IML? Варианты ответов (выбрать 1 или несколько вариантов):
Считать весь набор данных, записать результаты расчётов в уже готовый или новый набор данных Считать часть строк из набора данных Считать часть столбцов из набора данных Удалить строки или столбцы Заменить значение строк или столбцов Всё вышеперечисленное7. Не используя proc sql напишите код, который реализует подсчет агрегата - суммы по столбцу B по группам, которые задаются переменной А.
a | b -> a | b
-------- -------
A | 1 A | 4
B | 2 B | 8
A | 3
B | 6
Варианты №2 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)
ФИО ____________________________________________ группа ____________________
1. Дан код:
%let a=10;
data test;
r= 0;
run;
Измените эту программу не используя макроинструкций, чтобы вывести "а" раз одно и то же наблюдение (где r=0) в набор данных test
2. Дан шаг data, создающий таблицу test:
data test;
do i=1 to 50;
j=i**2;
output;
end;
run;
С помощью другого шага data выведите в новый набор данных каждое четное наблюдение, причем переменная j должна содержать сумму текущего значения j и значения j, стоящего в предыдущем (нечетном) наблюдении.
3. Следующее утверждение о методе частичного правдоподобия корректно:
для его расчета требуется знание распределения времен выживания метод требует знания не точных времен выживания, а лишь их порядка в конкретный момент времени в расчетах используются данные о всех известных объектах исследования ни одно из указанного4. Выбирая значимые переменные перед проведением кластеризации с помощью процедуры PROC VARCLUS, исследователи ориентируются на критерий 1-R^2, потому что он позволяет:
выбрать предикторы, сильнее всего связанные с целевой переменной оценить оптимальное количество кластеров сгруппировать в один кластер несколько коррелирующих переменных выбрать наиболее репрезентативный предиктор из группы коррелирующих признаков5. Какие типы данных языка R не поддерживаются в SAS? Варианты ответов (выбрать 1 или несколько вариантов):
А. Комплексные (complex) В. Логические (logical) С. Двоичные данные (raw) D. Дата и время (date and time)ФИО ____________________________________________ группа ____________________
6. Результаты регрессионного анализа приведены ниже. Какие утверждения верны (используя б=0.05)?
|
ФИО ____________________________________________ группа ____________________
Мы использовали процедуру GENMOD, т. к. какие-то предположения обычного регрессионного анализа (PROC REG) были нарушены. Мы использовали процедуру GENMOD, т. к. целевая переменная представляет собой количество наступлений интересующего события. Мы учли, что количество наступлений целевого события больше в городах где население больше. При кодировании классовой переменной AGE в качестве референсного уровня (опция ref=) было выбрано значение 85+. Во время прошлой попытки построить модель мы увидели, что статистика AIC была равна 110.0882 – та модель была «хуже», чем приведенная. Явление сверхдисперсии (overdispersion) не наблюдается. Переменные AGE и City значимы. Параметр Scale был оценен методом максимального правдоподобия. Использовать гамма-распределение могло бы быть хорошей идеей.
7. Даны два набора данных со схожими структурами.
T1 | Т2 | Т3 T1 | Т2 | Т9
------------- --------------
11 | A | B 12 | Z | 999
21 | C | D 22 | X | 888
Как можно их объединить по вертикали, чтобы сделать таблицу, где появляются все столбцы из исходных таблиц?
T1 | Т2 | Т3 | Т9
------------------
11 | A | B | .
21 | C | D | .
12 | Z | | 999
22 | X | | 888
Как можно сделать это объединение, если из первой таблицы нужны все столбцы, а из второй - только Т1 и Т2?


