Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Варианты №1 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)

ФИО ____________________________________________ группа ____________________

1. Дан код:

%let a=10;

data test;

r= 0;

run;

Измените эту программу при помощи только макроинструкций, чтобы вывести "а" раз одно и то же наблюдение (где r=0) в набор данных test

2. Дан шаг data, создающий таблицу test:

data test;

do i=1 to 50;

j=i**2;

output;

end;

run;

В другом шаге data нужно дописать код. Вот его заготовка:

data test2;

set test test;

...

run;

Нужно создать такие новые переменные числового типа:

признак принадлежности наблюдения к первому или второму набору данных test (содержит 1 или 2). признак, является ли значение переменной j четным (1) или нечётным (0) признак последнего наблюдения, прочитанного из первого или второго набора даннаых (1 если последнее, 0 если не последнее) сквозная нумерация наблюдений в новом наборе данных (от 1 до 100)

3. Не является предположением Cox Proportional Hazards Model следующее утверждение:

уровни конкурирующих рисков пропорциональны в каждый момент времени линейная зависимость между коваариатами и логарифмом функции риска должна быть рассчитана базовая функция рисков для корректной оценки влияния ковариантов на функцию выживаемости суммарный эффект от изменения ковариатов равен сумме их отдельных эффектов

4. Основные этапы двухшаговой кластеризации сводятся к применению следующих процедур:

PROC VARCLUS и PROC CLUSTER PROC FASTCLUS и PROC TREE PROC CLUSTER и PROC FASTCLUS PROC TREE и PROC CLUSTER

ФИО ____________________________________________ группа ____________________

НЕ нашли? Не то? Что вы ищете?

5. Результаты дисперсионного анализа приведены ниже. Какие утверждения верны (используя б=0.05)?

Garlic Data: Multiple Comparisons

The GLM Procedure

Class Level Information
Class	Levels	Values
Area	4	1 2 3

Number of Observations Read	372
Number of Observations Used	372

Garlic Data: Multiple Comparisons

The GLM Procedure

Dependent Variable: Rate

Source	DF	Sum of Squares	Mean Square	F Value	Pr > F
Model	3	0.00508	0.00169	1.81	0.1686
Error	28	0.02625	0.00093
Corrected Total	31	0.03134

R-Square	Coeff Var	Root MSE	Rate Mean
0.162294	14.02	0.030	0.218

Source	DF	Type I SS	Mean Square	F Value	Pr > F
Area	3	0.005086	0.00169	1.81	0.1686

Source	DF	Type III SS	Mean Square	F Value	Pr > F
Area	3	0.00508	0.00169	1.81	0.1686

Garlic Data: Multiple Comparisons

The GLM Procedure

Levene's Test for Homogeneity of Rate Variance ANOVA of Squared Deviations from Group Means
Source	DF	Sum of Squares	Mean Square	F Value	Pr > F
Area	3	4.526E-6	1.509E-6	2.35	0.0934
Error	28	0.000018	6.408E-7

Welch's ANOVA for Rate
Source	DF	F Value	Pr > F
Area	3.0000	2.54	0.0975
Error	14.3554

Garlic Data: Multiple Comparisons

The GLM Procedure

Level of Area	N	Rate
Mean	Std Dev
1	8	0.23625000	0.03212743
2	8	0.21115125	0.03729208
3	8	0.22330125	0.03311747

ФИО ____________________________________________ группа ____________________

Гипотеза H0 дисперсионного анализа принята: p-value = 0.1686 > 0.05. Осталось провести (например) попарные сравнения и выяснить какие Area отличаются. Среди средних переменной Rate в группах Area нет значимых различий. В наборе не было пропущенных значений. Гипотеза H0 дисперсионного анализа отклонена: p-value = 0.1686 > 0.05, средние переменой Rate в группах по переменной Area отличаются. На этом наборе данных нельзя проводить анализ, т. к. предположения не выполнены: тест на однородность дисперсии не пройден. Данные результаты ошибочны: неверно рассчитано число степеней свободы для SSM. Среднее в группе Area = 1 больше среднего в группе Area = 2.

6. Какие операции можно производить с набором данных SAS внутри процедуры языка SAS/IML? Варианты ответов (выбрать 1 или несколько вариантов):

Считать весь набор данных, записать результаты расчётов в уже готовый или новый набор данных Считать часть строк из набора данных Считать часть столбцов из набора данных Удалить строки или столбцы Заменить значение строк или столбцов Всё вышеперечисленное

7. Не используя proc sql напишите код, который реализует подсчет агрегата - суммы по столбцу B по группам, которые задаются переменной А.

a | b -> a | b

-------- -------

A | 1 A | 4

B | 2 B | 8

A | 3

B | 6

Варианты №2 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)

ФИО ____________________________________________ группа ____________________

1. Дан код:

%let a=10;

data test;

r= 0;

run;

Измените эту программу не используя макроинструкций, чтобы вывести "а" раз одно и то же наблюдение (где r=0) в набор данных test

2. Дан шаг data, создающий таблицу test:

data test;

do i=1 to 50;

j=i**2;

output;

end;

run;

С помощью другого шага data выведите в новый набор данных каждое четное наблюдение, причем переменная j должна содержать сумму текущего значения j и значения j, стоящего в предыдущем (нечетном) наблюдении.

3. Следующее утверждение о методе частичного правдоподобия корректно:

для его расчета требуется знание распределения времен выживания метод требует знания не точных времен выживания, а лишь их порядка в конкретный момент времени в расчетах используются данные о всех известных объектах исследования ни одно из указанного

4. Выбирая значимые переменные перед проведением кластеризации с помощью процедуры PROC VARCLUS, исследователи ориентируются на критерий 1-R^2, потому что он позволяет:

выбрать предикторы, сильнее всего связанные с целевой переменной оценить оптимальное количество кластеров сгруппировать в один кластер несколько коррелирующих переменных выбрать наиболее репрезентативный предиктор из группы коррелирующих признаков

5. Какие типы данных языка R не поддерживаются в SAS? Варианты ответов (выбрать 1 или несколько вариантов):

А. Комплексные (complex) В. Логические (logical) С. Двоичные данные (raw) D. Дата и время (date and time)

ФИО ____________________________________________ группа ____________________

6. Результаты регрессионного анализа приведены ниже. Какие утверждения верны (используя б=0.05)?

The GENMOD Procedure
Model Information
Data Set	SASUSER. SKIN
Distribution	Poisson
Link Function	Log
Dependent Variable	Cases
Offset Variable	Log_Pop

Number of Observations Read	16
Number of Observations Used	16
Class Level Information
Class	Value	Design Variables
City	DFW	1
	MSP	0
Age	15-24	1	0	0	0	0	0	0
	25-34	0	1	0	0	0	0	0
	35-44	0	0	1	0	0	0	0
	45-54	0	0	0	1	0	0	0
	55-64	0	0	0	0	1	0	0
	65-74	0	0	0	0	0	1	0
	75-84	0	0	0	0	0	0	1
	85+	0	0	0	0	0	0	0

Criteria For Assessing Goodness Of Fit
Criterion	DF	Value	Value/DF
Deviance	7	7.4808	1.0687
Scaled Deviance	7	7.4808	1.0687
Pearson Chi-Square	7	7.3536	1.0505
Scaled Pearson X2	7	7.3536	1.0505
Log Likelihood		7585.8374
Full Log Likelihood		-50.9961
AIC		119.9922
AICC		149.9922
BIC		126.9455

Analysis Of Maximum Likelihood Parameter Estimates
Parameter		DF	Estimate	Standard Error	Wald 95% Confidence Limits	Wald Chi-Square	Pr > ChiSq
Intercept		1	-5.4869	0.1036	-5.6900	-5.2839	2805.29	<.0001
City	DFW	1	0.8091	0.0518	0.7077	0.9106	244.40	<.0001
Age	15-24	1	-6.1743	0.4577	-7.0715	-5.2772	181.95	<.0001
Age	25-34	1	-3.5443	0.1675	-3.8725	-3.2160	447.83	<.0001
Age	35-44	1	-2.3272	0.1275	-2.5770	-2.0773	333.33	<.0001
Age	45-54	1	-1.5793	0.1138	-1.8024	-1.3562	192.48	<.0001
Age	55-64	1	-1.0872	0.1109	-1.3045	-0.8698	96.09	<.0001
Age	65-74	1	-0.5289	0.1086	-0.7418	-0.3160	23.71	<.0001
Age	75-84	1	-0.0997	0.1089	-0.3132	0.1138	0.84	0.3602
Scale		0	1.0000	0.0000	1.0000	1.0000

LR Statistics For Type 3 Analysis
Source	DF	Chi-Square	Pr > ChiSq
City	1	268.36	<.0001
Age	7	2678.94	<.0001

ФИО ____________________________________________ группа ____________________

Мы использовали процедуру GENMOD, т. к. какие-то предположения обычного регрессионного анализа (PROC REG) были нарушены. Мы использовали процедуру GENMOD, т. к. целевая переменная представляет собой количество наступлений интересующего события. Мы учли, что количество наступлений целевого события больше в городах где население больше. При кодировании классовой переменной AGE в качестве референсного уровня (опция ref=) было выбрано значение 85+. Во время прошлой попытки построить модель мы увидели, что статистика AIC была равна 110.0882 – та модель была «хуже», чем приведенная. Явление сверхдисперсии (overdispersion) не наблюдается. Переменные AGE и City значимы. Параметр Scale был оценен методом максимального правдоподобия. Использовать гамма-распределение могло бы быть хорошей идеей.

7. Даны два набора данных со схожими структурами.
T1 | Т2 | Т3 T1 | Т2 | Т9

------------- --------------

11 | A | B 12 | Z | 999

21 | C | D 22 | X | 888

Как можно их объединить по вертикали, чтобы сделать таблицу, где появляются все столбцы из исходных таблиц?

T1 | Т2 | Т3 | Т9

------------------

11 | A | B | .

21 | C | D | .

12 | Z | | 999

22 | X | | 888

Как можно сделать это объединение, если из первой таблицы нужны все столбцы, а из второй - только Т1 и Т2?

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Варианты №1 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Варианты №1 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)

1. Дан код:

2. Дан шаг data, создающий таблицу test:

3. Не является предположением Cox Proportional Hazards Model следующее утверждение:

4. Основные этапы двухшаговой кластеризации сводятся к применению следующих процедур:

5. Результаты дисперсионного анализа приведены ниже. Какие утверждения верны (используя б=0.05)?

6. Какие операции можно производить с набором данных SAS внутри процедуры языка SAS/IML? Варианты ответов (выбрать 1 или несколько вариантов):

7. Не используя proc sql напишите код, который реализует подсчет агрегата - суммы по столбцу B по группам, которые задаются переменной А.

Варианты №2 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)

1. Дан код:

2. Дан шаг data, создающий таблицу test:

3. Следующее утверждение о методе частичного правдоподобия корректно:

4. Выбирая значимые переменные перед проведением кластеризации с помощью процедуры PROC VARCLUS, исследователи ориентируются на критерий 1-R^2, потому что он позволяет:

5. Какие типы данных языка R не поддерживаются в SAS? Варианты ответов (выбрать 1 или несколько вариантов):

6. Результаты регрессионного анализа приведены ниже. Какие утверждения верны (используя б=0.05)?

7. Даны два набора данных со схожими структурами.
T1 | Т2 | Т3 T1 | Т2 | Т9

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы

Варианты №1 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Варианты №1 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)

1. Дан код:

2. Дан шаг data, создающий таблицу test:

3. Не является предположением Cox Proportional Hazards Model следующее утверждение:

4. Основные этапы двухшаговой кластеризации сводятся к применению следующих процедур:

5. Результаты дисперсионного анализа приведены ниже. Какие утверждения верны (используя б=0.05)?

6. Какие операции можно производить с набором данных SAS внутри процедуры языка SAS/IML? Варианты ответов (выбрать 1 или несколько вариантов):

7. Не используя proc sql напишите код, который реализует подсчет агрегата - суммы по столбцу B по группам, которые задаются переменной А.

Варианты №2 письменного экзамена спецкурса «Технологии прикладного анализа данных SAS» (ВМК МГУ)

1. Дан код:

2. Дан шаг data, создающий таблицу test:

3. Следующее утверждение о методе частичного правдоподобия корректно:

4. Выбирая значимые переменные перед проведением кластеризации с помощью процедуры PROC VARCLUS, исследователи ориентируются на критерий 1-R^2, потому что он позволяет:

5. Какие типы данных языка R не поддерживаются в SAS? Варианты ответов (выбрать 1 или несколько вариантов):

6. Результаты регрессионного анализа приведены ниже. Какие утверждения верны (используя б=0.05)?

7. Даны два набора данных со схожими структурами.T1 | Т2 | Т3 T1 | Т2 | Т9

7. Даны два набора данных со схожими структурами.
T1 | Т2 | Т3 T1 | Т2 | Т9