P1 – выпускник не соответствует требуемому уровню квалификации;
Пусть Хi означает результат проверки i-гo задания.
Обозначим Xi=1, если задание выполнено неправильно, Xi=0, если задание выполнено правильно.
Тогда, если R – относительное число невыполненных заданий, то функция правдоподобия определяется зависимостью

где dm – число невыполненных заданий; m – число заданий, выданных тестируемому.
Для гипотезы Р0

Для гипотезы Р1

Процедура последовательного анализа при вышеизложенной постановке задачи реализуется следующим образом.
После проверки каждого текущего m-гo задания вычисляется функция отношения правдоподобия:

На основании сформулированных правил принятия решений (116) после логарифмирования (121) получаем следующие зависимости для реализации последовательного критерия отношения вероятностей (ПКОВ):

качества выполнения еще одного задания.
Неравенства (122)-(124) заменим эквивалентными неравенствами, решенными относительно dm -числа невыполненных заданий. Тогда,


то (1перепишутся в виде:
если dm ≤ a +km – то принимается гипотеза P0; (131)
если dm ≥ b + km – то принимается гипотеза P1; (132)
если а + km < dm < b + km – то принимается решение о проверке
у тестируемого еще одного задания. (133)
Обозначим

Эти числа зависят только от величин Р0, P1, α и β . Поэтому они рассчитываются или табулируются заранее до начала процесса тестирования. Если am – не целое число, то его заменяют целым – < am, если bт – не целое число, то его тоже заменяют целым – > bm.
Теперь процесс принятия решения можно представить графически. Границы принятия гипотез обозначены на рис. 15. На рис. 16 рассмотрен пример решения задачи тестирования на основе последовательного анализа.
По оси абсцисс откладывается число наблюдений т, по оси ординат dm – количество невыполненных заданий.
Если точка (m, dm) выходит за пределы прямых

то наблюдения прекращаются. В соответствии с правилами процедуры последовательного анализа выносится решение: о гипотезе Р0 или о гипотезе P1.
Определение оперативной характеристики последовательного критерия отношения вероятностей реализуется следующим образом. Оперативная характеристика последовательного критерия отношения вероятностей устанавливает связь между вероятностью правильных решений и произвольным значении параметра X, принимающего значения 0 или 1 с вероятностью Р.
Согласно работе Вальда [7] для нашей задачи

Если пороги принятая решений А и В неравенств Вальда определяются зависимостями (117), то выражение для оперативной характеристики запишется как

Параметр h в (137) и (138) меняется от – ∞ дo +∞. Для любого произвольного h значения P и L(P) можно получить на основе (137) и (138), а также построить график оперативной характеристики.
Пример решения задачи тестирования на основе последовательного анализа для двух гипотез Po и P1
po := 0.25 – доля невыполненных заданий аттестуемым
p1 := 0.75 – доля невыполненных заданий неаттестуемым
Определение параметров границ принятия решений по формулам (136) при заданных ошибках первого и второго родов

Определение количества невыполненных заданий при последовательной их проверке

Рис. 16
На рис.17 определены исходные данные поставленной задачи, в среде MathCAD записаны уравнения (137) и (138) и получен график оперативной характеристики.
Определение оперативной характеристики, связывающей вероятность правильных решений с произвольной вероятностью гипотезы Pi

Рис.17
Теперь найдем среднее число наблюдений, которое необходимо для принятия решения о наличии гипотезы на основании анализа результатов проверок заданий. Согласно работе Вальда [7] приближенная формула для определения минимального среднего числа наблюдений для биномиального закона распределения выборки случайной величины может быть представлена для любого P как

В зависимости от истинности гипотез Р0 или Pt среднее число наблюдений для принятия решения будет различным.
В [7] показано, что при Р=Р1 оперативная характеристика L(P) = 1 — α. Тогда (139) перепишется в виде

Для P = P1 L(P) = β и из выражения (139) находим

По зависимостям (140) и (141) были сделаны расчеты в среде MathCAD для примера, представленного на рис.16. Ниже показано, что для нашей задачи необходимо проверить в среднем:
(m) заданий для принятия решения об уровне выпускника при наличии гипотезы Р0;
(m) заданий при наличии гипотезы Р1, чтобы принять решение с заданными вероятностями ошибок а и β .
Пример определения среднего числа наблюдений для принятия решения

Алгоритм классификации для M гипотез
Рассмотрим алгоритм последовательного анализа в случае трех гипотез, когда тестируемых, прошедших первый уровень аттестации (они все аттестованы положительно) необходимо, как и в предыдущем разделе разбить на три группы:
I группа – аттестуется «отлично»;
II группа – аттестуется «хорошо»;
III группа – аттестуется «удовлетворительно».
Так же, как и в предыдущей задаче, решаемой на основе последовательного анализа для двуальтернативного случая, определим для каждой группы допустимую долю брака, т. е. назначим вероятности невыполнения задания:
для I группы – P1;
для II группы – Р2;
для III группы – Ρ3.
Тогда аналогично (121) можно записать две функции отношения правдоподобия:

Последние определяются как

Воспользовавшись правилами принятия решений (116), после логарифмирования (143), получаем следующие правила для реализации ПКОВ для трех гипотез.

Выражения (144-(149) заменим эквивалентными неравенствами, определив dm как число невыполненных заданий.
Тогда, если

Введем обозначения как в зависимостях (128)-(130). Тогда выражения (153)-(155) будут определять границы соответствующих областей принятия решений гипотез P1,P2, P3:
dm ≤ α1 + kml – область гипотезы P1;
dm ≥ b1 +k1m – область гипотезы Р2, P3;
dm ≤ a2 +k1m – область гипотезы P3;
dm ≥ b2 + k1m – область гипотезы Р2, P1.
Процесс принятия решений представим графически, где рассмотрим пример построения границ решения и разбиения пространства решений на области P1, Р2 и P3.
На рис. 18 и 19 представлены границы принятия решений предполагаемых гипотез с заданными вероятностями невыполнения заданий:
P1 : = 0,09 – гипотеза об аттестации тестируемого на «отлично»;
P2 : = 0,25 – гипотеза об аттестации тестируемого на «хорошо»;
P3 : = 0,41 – гипотеза об аттестации тестируемого на «удовлетворительно».
Из графика на рис. 19 видим, что если тестируемый выполнил положительно подряд 5 заданий, то его можно аттестовать «отлично» при заданных α = 0,05 и β = 0,01.
Оценка эффективности алгоритмов последовательного анализа
Чтобы определить эффективность алгоритмов последовательного анализа при решении задачи о классификации выпускников, рассмотрим ее как классическую задачу выбора между двумя гипотезами на основе критерия Байеса, полагая, что эти гипотезы представлены функциями распределения дискретных случайных величин, как это встречалось при решении задачи на основе последовательного анализа.
Согласно (41) и (42) функция правдоподобия для гипотезы Р0 запишется как

для гипотезы P1

Тогда функция отношения правдоподобия имеет вид

Для N >> 50 биноминальное распределение можно с большой точностью аппроксимировать нормальным распределением. Вследствие чего оперативная характеристика для классической процедуры определения гипотез будет иметь вид (см. [18]):

Откуда

Из этих зависимостей находим

Тогда

или

При близких гипотезах приведенные неравенства обращаются в приближенные равенства, вследствие чего

Согласно таблицам обратных функций для F-нормального распределения составим табл. 4 наиболее часто употребляемых значений вероятностей для а и β .
Таблица 4
|
P = l – α = l – β |
0,9 |
0,95 |
0,99 |
0.995 |
0,999 |
0,9995 |
0.9999 |
0,99995 |
|
UP |
1,3 |
1,65 |
2,32 |
2,56 |
3,1 |
3,3 |
3,7 |
3,9 |
Определим необходимый объем ПДТЗ N1, чтобы при
P0 = 0,25, P1 = 0,75 – вероятности ошибок – α = 0.05, β = 0,01 – или
1 – α = 0,95, 1 – β = 0,99.
Тогда, из приведенных выше соотношений число N для обеспечения заданных ошибок первого и второго родов будет определяться следующей зависимостью:

Порог принятия решения по числу нерешенных заданий dт будет равен

Т. к. NP0 =12 – 0,25 = 4>>1, то аппроксимация биноминального закона нормальным законом допустима.
Из этих равенств следует, что для оценки знаний выпускника на основе алгоритма, разработанного на основе критерия Байеса, с заданными ошибками а и β требуется 12 ПДТЗ.
Если из 12 заданий студент не выполнил 7 и более ПДТЗ, то он не аттестуется, а если не выполнил менее 7 заданий, то аттестуется положительно. В итоге, по сравнению с процедурой последовательного анализа число заданий для тестирования выпускников на основе критерия Байеса требуется вдвое больше.
Пример решения задачи тестирования на основе последовательного анализа для трех гипотез P1, P2 и P3
p1 := 0.09 – доля невыполнненых заданий аттестуемым для гипотезы P1
p2 := 0.25 – доля невыполнненых заданий аттестуемым для гипотезы P2
р3 := 0 41 – доля невыполнненых заданий аттестуемым для гипотезы P3
Определение параметров границ принятия решений по формулам ( 51)-(53) при заданных ошибках первого и второго родов

Рис.18
Определение параметров границ принятия решений при заданных ошибках первого и второго родов для гипотез Р2и P3

Рис .19
Многообразие статистик, применяемых для решения задач оценки УУД объектов нечисловой природы, объясняется не только тем, что заданное разбиение поведения эмпирических объектов может быть неоднозначно, но и тем, что одно и тоже распределение может быть описано несколькими способами. Следовательно, задача оценки УУД тестируемых может быть рассмотрена как задача классификации, решаемая методами теории различения гипотез на основе научных наблюдений результатов тестирования.
Очевидно, чем больше априорной информации при параметрической процедуре оценивания, тем выше верность принимаемых решений. Поэтому баесовские процедуры, применяемые при решении рассмотренных задач, дают наилучшие оценки. Наиболее эффективные процедуры вычисления оценок строятся на методах последовательного анализа научных наблюдений результатов тестирования.
Однако при оценке достижений эмпирических объектов математические модели, взятые из классического построения теории вероятностей и математической статистики, часто оказываются неприемлемыми из-за попытки представления разнообразных причинно-следственных связей. В этом случае методы параметрической статистики – абстрактно построенные конструкты – не могут работать при описании поведения объектов нечисловой природы. Так, например, одному из основных понятий математической статистики «генеральная совокупность» невозможно поставить в соответствие количество тестируемых (группа студентов, класс учащихся) или конечное число ПДТЗ, хранящихся в банке данных.
Более того, существует необходимость установления степени обученности тестируемого при условии отсутствия информации о виде распределения. Решение таких задач в рамках параметрической статистики может быть осуществлено методом минимакса. Однако этот класс задач решается только для определенных расширений начальных условий и не дает гарантий, что истинная модель распределения находится в рассматриваемом классе. Тогда, по высказыванию из [12], « ничего неизвестно о том, что будет, если распределение выйдет из этого класса». Эта неопределенность основных представлений в соответствии их с реальными процессами при компьютерном оценивании достижений тестируемых является поводом для построения качественно новой статистики. Для этого надо ограничения, сформулированные на формальном языке, перевести на язык научных наблюдений за поведением целеустремленного объекта.
В непараметрической постановке задачи оценки УУД тестируемых обычно задается в настолько общем виде, что допускает неоднозначное толкование при формулировке количественной меры различия, что приводит к возможности построения методики оценки степени обученности индивидов, основанной на категории качества. Непараметрическая и интервальная статистика позволяют ввести в изучение процесса оценки УУД респондентов качественные методы, что открывает принципиально новые возможности в исследовании и проектировании систем установления степени обученности телеологических объектов нечисловой природы.
СПИСОК СОКРАЩЕНИЙ
ПДТЗ – программно-дидактическое тестовое задание; синоним –
ЭФТК – элементарный феномен тестовой культуры;
ПДТ – программно-дидактический тест; синоним –
КФТ – культурная форма теста;
БТЗ – банк тестовых заданий; синоним –
KCT3 – культурная система тестовых заданий;
КАТ – компьютерное адаптивное тестирование;
СКДО – стандартизированная компьютерная дидактическая оценка;
УУД – уровень учебных достижений.
KT – компьютерное тестирование
θ — степень обученности тестируемого
β – категория трудности тестового задания
Литература
1. Агафонов B. H. Спецификация программ. Новосибирск. Наука, 1987.
2. Аванесов B. C. Научные проблемы тестового контроля знаний. M., Учебный центр при исследовательском центре проблем качества подготовки специалистов, 1994
3. Аванесов B. C. Теоретические основы разработки заданий в тестовой форме. M. МГТА, 1995.
4. Айвазян C. A., Мешалкин статистика: основы моделирования и первичная обработка данных. M. Финансы и статистика, 1985.
5. Батаршева . M. «Дело», 1999.
6. , Смирнов H. B. Таблицы математической статистики. M. Наука, 1983.
7. Последовательный анализ. M. Физматгиз, 1960.
8. Васильев системы. Киев. Наукова думка, 1971.
9. Васильев адаптивного тестирования. М. МГУП, 2002
10. , Тягунова и практика формирования программно-дидактических тестов. M. МЭСИ, 2001
11. , Тягунова сущность шкалы оценивания. M. Дистанционное образование, №6, 2000
12. , Глухов B. B., Тягунова оценка уровня учебных достижений тестируемых. M. МГУП, 2002.
13. Вентцель E. C. Теория вероятности. M. Физматгиз, 1962.
14. , Варшавский теста «Математика-2» Тезисы докладов Всероссийской конференции «Развитие системы тестирования в России» 25 – 26ноября, М.1999.
15. ГОСТ – Прикладная статистика. Правила определения оценок и доверительных интервалов для биномиального и отрицательного биномиального распределений, M.1981.
16. Зайцев B. H. Практическая дидактика. M. Народное образование, 2000
17. Статистическое оценивание. M. Статистика, 1976.
18. Калинина B. H., Панкин статистика. M. Высшая школа, 1998.
19. Кармин . С. Петербург, 2000
20. Кендал M Дж., Теория распределений. M. Наука, 1966.
21. Дж., Статистические выводы и связи. M. Наука, 1973.
22. Кригер C. A., Косолапов M. C., Толстова при сборе и анализе социологической информации. M. Наука, 1978
23. Костылев A. A., Миляев Π.Β., и др. Статистическая обработка результатов экспериментов на микро ЭВМ и программируемых калькуляторах. Л. Энергоатомиздат, 1991.
24. Кравченко . M. Академический проект, M. 2000.
25. Красильников B. B. Статистика объектов нечисловой природы. Набережные Челны, 2001.
26. Майоров A. H. Теория и практика создания тестов для системы образования. M. Интеллект-центр, 2001.
27. , Хлебников B. A. Введение в теорию моделирования и параметризации педагогических тестов. M.2000.
28. Нейман и практика шкалирования. Вопросы тестирования в образо-вании,№1, M.2001
29. Орлов многомерный статистический анализ. M. Наука, 1978.
30. Орлов множества: законы больших чисел, проверка статистических гипотез. Теория вероятностей и ее применения, 1978, вып.2
31. Петров мышления. МГУ, M. 1990.
32. , Давидович оценивание и проверка гипотез на ЭВМ. M. Финансы и статистика. 1989.
33. Математика и правдоподобные рассуждения. M. Наука, 1975.
34. , Татур A. O. Стандарты и тесты в образовании. M. МИФИ, 1995.
35. Ракитов компьютерной революции. M. Политическая литература, 1991.
36. Рывкин A. A. и др. Справочник по математике. M. Энергия, 1975.
37. Сергеев M. B. Сертификация. M. «Логос», 2001.
38. Справочник. Искусственный интеллект. Часть 3. M. Радиосвязь, 1990.
39. и др. Теоретические основы информационной техники. M. Энергия, 1971.
40. Челышкова дидактических тестов на основе современных математических моделей. M. Исследовательский центр проблем качества подготовки специалистов, 1995.
Приложения
Основные понятия и определения
В настоящей книге используются следующие понятия, их определения и сокращения, учитывающие специфику программно-дидактических тестовых материалов и технологий компьютерного адаптивного тестирования.
Банк тестовых заданий (БТЗ) – логически упорядоченная структура конечного числа программно-дидактических тестовых заданий, позволяющая автоматически генерировать множество культурных форм тестов.
Дидактическая единица оценки – фрагмент содержания учебной дисциплины, предназначенный для включения в отдельное программно-дидактическое тестовое задание, имеющее заданный смысл и конкретную меру трудности.
Инструментальная среда тестирования – комплекс программных, информационных, методических и технических средств, обеспечивающих создание и сопровождение банков ПДТЗ, проведение тестовых испытаний и обработку их результатов в реальном режиме времени.
Критериально-ориентированный программно-дидактический тест – система тестовых суждений, позволяющих сопоставить уровень учебных достижений тестируемых с заданным критерием качества их обученности.
Личностно-ориентированный ПДТ – система тестовых суждений одной категории трудности, позволяющих различить поведение тестируемых из одного класса обученности.
Нормативно-ориентированный ПДТ – система тестовых суждений различной категории трудности, позволяющих разделить поведение тестируемых на классы по степени их обученности.
Операционная деятельность тестируемого – совокупность действий, выполняемых в ходе формирования следствий на требования тестовых заданий.
Поведение – качество заключений тестируемого на требования ПДТЗ, отображаемое в его модели.
Программно-дидактическое тестовое задание (ПДТЗ) – это свернутое краткое суждение стандартизированной форме и известной меры трудности, включающее в себя посылки и требования, составленное по правилам практической или теоретической логики, отвечающее условию предметной чистоты содержания и позволяющее тестируемому с фиксированной степенью обученности установить собственный уровень учебных достижений в течение ограниченного промежутка времени, а также являющееся единицей оценочного материала для синтеза теста.
Программно-дидактический тест (ПДТ – выборка) – это целостная система стандартизированных по форме программно-дидактических тестовых заданий определенного смысла и заданной меры трудности, ориентированная на конкретный результат, позволяющая с требуемой верностью и объективностью оценить степень обученности эмпирического объекта путем обработки качества его заключений в течение ограниченного интервала времени.
Проектирование ПДТ – синтез структуры и содержания программно-дидактического теста в соответствии с заданным результатом процесса тестовых проверок.
Проектирование (разработка) ПДТЗ – дидактически, логически и методически обоснованный синтез формы, содержания, знаковых средств предъявления задания тестируемому
Результат тестирования – фактически установленный уровень учебных достижений (знаний, интеллектуальных умений и практических навыков) тестируемого.
Спецификации БТЗ – это документы, которые служат основой для разработки ПДТ с заданными показателями качества. Их качественная разработка значительно уменьшает вероятность того, что будет создана БТЗ с низкими показателями валидности ПДТ.
Функция (функциональное свойство ПДТ) – назначение ПДТ как средства получения результата, характеризующего степень обученности тестируемого лицом, принимающим управленческое решение, а также являющегося основанием для оценки качества усвоения испытуемыми содержания отдельных разделов учебной дисциплины.
ВИДЕОграммы ТЕСТОВЫХ ЗАДАНИЙ, РЕАЛИЗОВАННЫХ В СРЕДЕ ACT.



Содержание
ВВЕДЕНИЕ........................................................................................................................................................... 2
СТАНОВЛЕНИЕ КУЛЬТУРЫ ИЗМЕРЕНИЙ ПАРАМЕТРОВ ЛИЧНОСТИ.............................................. 6
КЛАССИФИКАЦИЯ ТЕСТОВ ДОСТИЖЕНИЙ.......................................................................................... 16
I. ФИЛОСОФИЯ КУЛЬТУРЫ ТЕСТОВЫХ ПРОВЕРОК............................................................................ 20
Функции философии КАТ............................................................................................................................. 33
Мировоззренческая......................................................................................................................................... 34
Методологическая.......................................................................................................................................... 44
Эпистемологическая...................................................................................................................................... 56
Информационно-эпистемологическая......................................................................................................... 63
Социально-коммуникативная....................................................................................................................... 71
II. КУЛЬТУРОЛОГИЧЕСКИЕ АСПЕКТЫ АДАПТИВНОГО ТЕСТИРОВАНИЯ................................... 89
III. ПРОГРАММНО-ДИДАКТИЧЕСКОЕ ТЕСТОВОЕ ЗАДАНИЕ.......................................................
Формы мышления......................................................................................................................................
Конструирование тестового суждения...................................................................................................
Оценка качества тестовых утверждений................................................................................................
Алгоритм оценки качества работы экспертов.......................................................................................
Установление меры трудности................................................................................................................
IV. СОДЕРЖАНИЕ, СОДЕРЖАТЕЛЬНОСТЬ, ЛОГИЧНОСТЬ.............................................................
Логичность тестовых суждений..............................................................................................................
Культура концептов и заключения..........................................................................................................
Триадная сущность оценки.......................................................................................................................
Шкалирование при анализе дидактической информации....................................................................
V. ФОРМА ТЕСТОВОЙ СИТУАЦИИ.......................................................................................................
Тестовые задания закрытой формы.........................................................................................................
Тестовые задания открытой формы.........................................................................................................
Тестовые задания на установление правильной последовательности................................................
Тестовые задания на установление соответствия..................................................................................
Задания на конструирование....................................................................................................................
VI. ФОРМИРОВАНИЕ БТЗ.........................................................................................................................
Структуризация и спецификация бтз.....................................................................................................
Требования к банку тестовых заданий (БТЗ)..........................................................................................
Требования к технологии компьютерного тестирования.....................................................................
Композиции пдт......................................................................................................................................
VII. ОПТИМАЛЬНАЯ ОЦЕНКА ДОСТИЖЕНИЙ..................................................................................
Постановка задачи оптимальной оценки достижений..........................................................................
Оценка на основе биноминального закона............................................................................................
Точечная оценка.....................................................................................................................................
Интервальная оценка............................................................................................................................
Определение минимального объема заданий для оценки параметра биномиального закона......
Оценка на основе нормального закона...................................................................................................
Точечное оценивание............................................................................................................................
Интервальное оценивание....................................................................................................................
Определение минимального объема заданий.....................................................................................
Оценка на основе проверки статистических гипотез...........................................................................
Этапы проверки гипотезы об оценке уровня достижений...............................................................
Алгоритмы оценки................................................................................................................................
Минимаксный критерий.......................................................................................................................
Критерий Неймана-Пирсона................................................................................................................
Алгоритмы классификации тестируемых относительно M гипотез...............................................
Определение гипотезы по количеству положительно выполненных заданий..............................
Алгоритм классификации достижений на основе последовательного анализа.................................
Алгоритм классификации для двух гипотез......................................................................................
Алгоритм классификации для M гипотез...........................................................................................
Оценка эффективности алгоритмов последовательного анализа....................................................
СПИСОК СОКРАЩЕНИЙ..........................................................................................................................
Литература......................................................................................................................................................
Приложения...................................................................................................................................................
Основные понятия и определения.......................................................................................................
ВИДЕОграммы ТЕСТОВЫХ ЗАДАНИЙ, РЕАЛИЗОВАННЫХ В СРЕДЕ ACT.........................
|
Из за большого объема эта статья размещена на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 |


