Варианты №1 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)


ФИО ____________________________________________  группа ____________________

1. Дан код:

%let a=10;

data test;

r= 0;

run;

Измените эту программу при помощи только макроинструкций, чтобы вывести "а" раз одно и то же наблюдение (где r=0) в набор данных test

2. Дан шаг data, создающий таблицу test:

data test;

do i=1 to 50;

j=i**2;

output;

end;

run;

В другом шаге data нужно дописать код. Вот его заготовка:

data test2;

       set test test;

...

run;

Нужно создать такие новые переменные числового типа:

признак принадлежности наблюдения к первому или второму набору данных test (содержит 1 или 2). признак, является ли значение переменной j четным (1) или нечётным (0) признак последнего наблюдения, прочитанного из первого или второго набора даннаых (1 если последнее, 0 если не последнее) сквозная нумерация наблюдений в новом наборе данных (от 1 до 100)

3. Не является предположением Cox Proportional Hazards Model следующее утверждение:

уровни конкурирующих рисков пропорциональны в каждый момент времени линейная зависимость между коваариатами и логарифмом функции риска должна быть рассчитана базовая функция рисков для корректной оценки влияния ковариантов на функцию выживаемости суммарный эффект от изменения ковариатов равен сумме их отдельных эффектов

4. Основные этапы двухшаговой кластеризации сводятся к применению следующих процедур:

PROC VARCLUS и PROC CLUSTER PROC FASTCLUS и PROC TREE PROC CLUSTER и PROC FASTCLUS PROC TREE и PROC CLUSTER

ФИО ____________________________________________  группа ____________________

НЕ нашли? Не то? Что вы ищете?

5. Результаты дисперсионного анализа приведены ниже. Какие утверждения верны (используя б=0.05)?

Garlic Data: Multiple Comparisons

The GLM Procedure

Class Level Information

Class

Levels

Values

Area

4

1 2 3

Number of Observations Read

372

Number of Observations Used

372

Garlic Data: Multiple Comparisons

The GLM Procedure

Dependent Variable: Rate

Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

3

0.00508

0.00169

1.81

0.1686

Error

28

0.02625

0.00093

Corrected Total

31

0.03134

R-Square

Coeff Var

Root MSE

Rate Mean

0.162294

14.02

0.030

0.218

Source

DF

Type I SS

Mean Square

F Value

Pr > F

Area

3

0.005086

0.00169

1.81

0.1686

Source

DF

Type III SS

Mean Square

F Value

Pr > F

Area

3

0.00508

0.00169

1.81

0.1686

Garlic Data: Multiple Comparisons

The GLM Procedure

Levene's Test for Homogeneity of Rate Variance
ANOVA of Squared Deviations from Group Means

Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Area

3

4.526E-6

1.509E-6

2.35

0.0934

Error

28

0.000018

6.408E-7

Welch's ANOVA for Rate

Source

DF

F Value

Pr > F

Area

3.0000

2.54

0.0975

Error

14.3554

Garlic Data: Multiple Comparisons

The GLM Procedure

Level of
Area

N

Rate

Mean

Std Dev

1

8

0.23625000

0.03212743

2

8

0.21115125

0.03729208

3

8

0.22330125

0.03311747


ФИО ____________________________________________  группа ____________________



Гипотеза H0 дисперсионного анализа принята: p-value = 0.1686 > 0.05. Осталось провести (например) попарные сравнения и выяснить какие Area отличаются. Среди средних переменной Rate в группах Area нет значимых различий. В наборе не было пропущенных значений. Гипотеза H0 дисперсионного анализа отклонена: p-value = 0.1686 > 0.05, средние переменой Rate в группах по переменной Area отличаются. На этом наборе данных нельзя проводить анализ, т. к. предположения не выполнены: тест на однородность дисперсии не пройден. Данные результаты ошибочны: неверно рассчитано число степеней свободы для SSM. Среднее в группе Area = 1 больше среднего в группе Area = 2.

6. Какие операции можно производить с набором данных SAS внутри процедуры языка SAS/IML? Варианты ответов (выбрать 1 или несколько вариантов):

Считать весь набор данных, записать результаты расчётов в уже готовый или новый набор данных Считать часть строк из набора данных Считать часть столбцов из набора данных Удалить строки или столбцы Заменить значение строк или столбцов Всё вышеперечисленное

7. Не используя proc sql напишите код, который реализует подсчет агрегата - суммы по столбцу B по группам, которые задаются переменной А.

a | b -> a | b

-------- -------

A | 1 A | 4

B | 2 B | 8

A | 3

B | 6

Варианты №2 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)


ФИО ____________________________________________  группа ____________________

1.  Дан код:

%let a=10;

data test;

r= 0;

run;

Измените эту программу не используя макроинструкций, чтобы вывести "а" раз одно и то же наблюдение (где r=0) в набор данных test

2. Дан шаг data, создающий таблицу test:

data test;

do i=1 to 50;

               j=i**2;

       output;

end;

run;

С помощью другого шага data выведите в новый набор данных каждое четное наблюдение, причем переменная j должна содержать сумму текущего значения j и значения j, стоящего в предыдущем (нечетном) наблюдении.

3. Следующее утверждение о методе частичного правдоподобия корректно:

для его расчета требуется знание распределения времен выживания метод требует знания не точных времен выживания, а лишь их порядка в конкретный момент времени в расчетах используются данные о всех известных объектах исследования ни одно из указанного

4. Выбирая значимые переменные перед проведением кластеризации с помощью процедуры PROC VARCLUS, исследователи ориентируются на критерий 1-R^2, потому что он позволяет:

выбрать предикторы, сильнее всего связанные с целевой переменной оценить оптимальное количество кластеров сгруппировать в один кластер несколько коррелирующих переменных выбрать наиболее репрезентативный предиктор из группы коррелирующих признаков

5. Какие типы данных языка R не поддерживаются в SAS? Варианты ответов (выбрать 1 или несколько вариантов):

А. Комплексные (complex) В. Логические (logical) С. Двоичные данные (raw) D. Дата и время (date and time)

ФИО ____________________________________________  группа ____________________

6. Результаты регрессионного анализа приведены ниже. Какие утверждения верны (используя б=0.05)?

The GENMOD Procedure

Model Information

Data Set

SASUSER. SKIN

Distribution

Poisson

Link Function

Log

Dependent Variable

Cases

Offset Variable

Log_Pop


Number of Observations Read

16

Number of Observations Used

16

Class Level Information

Class

Value

Design Variables

City

DFW

1

MSP

0

Age

15-24

1

0

0

0

0

0

0

25-34

0

1

0

0

0

0

0

35-44

0

0

1

0

0

0

0

45-54

0

0

0

1

0

0

0

55-64

0

0

0

0

1

0

0

65-74

0

0

0

0

0

1

0

75-84

0

0

0

0

0

0

1

85+

0

0

0

0

0

0

0


Criteria For Assessing Goodness Of Fit

Criterion

DF

Value

Value/DF

Deviance

7

7.4808

1.0687

Scaled Deviance

7

7.4808

1.0687

Pearson Chi-Square

7

7.3536

1.0505

Scaled Pearson X2

7

7.3536

1.0505

Log Likelihood

7585.8374

Full Log Likelihood

-50.9961

AIC

119.9922

AICC

149.9922

BIC

126.9455


Analysis Of Maximum Likelihood Parameter Estimates

Parameter

DF

Estimate

Standard Error

Wald 95% Confidence Limits

Wald Chi-Square

Pr > ChiSq

Intercept

1

-5.4869

0.1036

-5.6900

-5.2839

2805.29

<.0001

City

DFW

1

0.8091

0.0518

0.7077

0.9106

244.40

<.0001

Age

15-24

1

-6.1743

0.4577

-7.0715

-5.2772

181.95

<.0001

Age

25-34

1

-3.5443

0.1675

-3.8725

-3.2160

447.83

<.0001

Age

35-44

1

-2.3272

0.1275

-2.5770

-2.0773

333.33

<.0001

Age

45-54

1

-1.5793

0.1138

-1.8024

-1.3562

192.48

<.0001

Age

55-64

1

-1.0872

0.1109

-1.3045

-0.8698

96.09

<.0001

Age

65-74

1

-0.5289

0.1086

-0.7418

-0.3160

23.71

<.0001

Age

75-84

1

-0.0997

0.1089

-0.3132

0.1138

0.84

0.3602

Scale

0

1.0000

0.0000

1.0000

1.0000


LR Statistics For Type 3 Analysis

Source

DF

Chi-Square

Pr > ChiSq

City

1

268.36

<.0001

Age

7

2678.94

<.0001

ФИО ____________________________________________  группа ____________________


Мы использовали процедуру GENMOD, т. к. какие-то предположения обычного регрессионного анализа (PROC REG) были нарушены. Мы использовали процедуру GENMOD, т. к. целевая переменная представляет собой количество наступлений интересующего события. Мы учли, что количество наступлений целевого события больше в городах где население больше. При кодировании классовой переменной AGE в качестве референсного уровня (опция ref=) было выбрано значение 85+. Во время прошлой попытки построить модель мы увидели, что статистика AIC была равна 110.0882 – та модель была «хуже», чем приведенная. Явление сверхдисперсии (overdispersion) не наблюдается. Переменные AGE и City значимы. Параметр Scale был оценен методом максимального правдоподобия. Использовать гамма-распределение могло бы быть хорошей идеей.

7. Даны два набора данных со схожими структурами.
T1 | Т2 | Т3 T1 | Т2 | Т9

------------- --------------

11 | A | B 12 | Z | 999

21 | C | D 22 | X | 888

Как можно их объединить по вертикали, чтобы сделать таблицу, где появляются все столбцы из исходных таблиц?

T1 | Т2 | Т3 | Т9

------------------

11 | A | B | .

21 | C | D | .

12 | Z | | 999

22 | X | | 888

Как можно сделать это объединение, если из первой таблицы нужны все столбцы, а из второй - только Т1 и Т2?