P1 – выпускник не соответствует требуемому уровню квалификации;

Пусть Хi означает результат проверки i-гo задания.

Обозначим Xi=1, если задание выполнено неправильно, Xi=0, если задание выпол­нено правильно.

Тогда, если R – относительное число невыполненных заданий, то функция правдопо­добия определяется зависимостью

где dm – число невыполненных заданий; m – число заданий, выданных тестируемому.

Для гипотезы Р0

Для гипотезы Р1

Процедура последовательного анализа при вышеизложенной постановке задачи реали­зуется следующим образом.

После проверки каждого текущего m-гo задания вычисляется функция отношения правдоподобия:

На основании сформулированных правил принятия решений (116) после логарифми­рования (121) получаем следующие зависимости для реализации последовательного кри­терия отношения вероятностей (ПКОВ):

качества выполнения еще одного задания.

Неравенства (122)-(124) заменим эквивалентными неравенствами, решенными относи­тельно dm -числа невыполненных заданий. Тогда,

то (1перепишутся в виде:

если dma +km – то принимается гипотеза P0; (131)

если dm b + km – то принимается гипотеза P1; (132)

если а + km < dm < b + km – то принимается решение о проверке

у тестируемого еще одного задания. (133)

Обозначим

Эти числа зависят только от величин Р0, P1, α и β . Поэтому они рассчитываются или табулируются заранее до начала процесса тестирования. Если am – не целое число, то его заменяют целым – < am, если – не целое число, то его тоже заменяют целым – > bm.

НЕ нашли? Не то? Что вы ищете?

Теперь процесс принятия решения можно представить графически. Границы принятия гипотез обозначены на рис. 15. На рис. 16 рассмотрен пример решения задачи тестирова­ния на основе последовательного анализа.

По оси абсцисс откладывается число наблюдений т, по оси ординат dm – количество невыполненных заданий.

Если точка (m, dm) выходит за пределы прямых

то наблюдения прекращаются. В соответствии с правилами процедуры последовательного анализа выносится решение: о гипотезе Р0 или о гипотезе P1.

Определение оперативной характеристики последовательного критерия отношения вероятностей реализуется следующим образом. Оперативная характеристика последова­тельного критерия отношения вероятностей устанавливает связь между вероятностью правильных решений и произвольным значении параметра X, принимающего значения 0 или 1 с вероятностью Р.

Согласно работе Вальда [7] для нашей задачи

Если пороги принятая решений А и В неравенств Вальда определяются зависимостями (117), то выражение для оперативной характеристики запишется как

Параметр h в (137) и (138) меняется от – ∞ дo +∞. Для любого произвольного h значения P и L(P) можно получить на основе (137) и (138), а также построить график опе­ративной характеристики.

Пример решения задачи тестирования на основе последовательного анализа для двух гипотез Po и P1

po := 0.25 – доля невыполненных заданий аттестуемым

p1 := 0.75 – доля невыполненных заданий неаттестуемым

Определение параметров границ принятия решений по формулам (136) при заданных ошибках первого и второго родов

Определение количества невыполненных заданий при последовательной их проверке

Рис. 16

На рис.17 определены исходные данные поставленной задачи, в среде MathCAD запи­саны уравнения (137) и (138) и получен график оперативной характеристики.

Определение оперативной характеристики, связывающей вероятность правильных решений с произвольной вероятностью гипотезы Pi

Рис.17

Теперь найдем среднее число наблюдений, которое необходимо для принятия решения о наличии гипотезы на основании анализа результатов проверок заданий. Согласно рабо­те Вальда [7] приближенная формула для определения минимального среднего числа на­блюдений для биномиального закона распределения выборки случайной величины может быть представлена для любого P как

В зависимости от истинности гипотез Р0 или Pt среднее число наблюдений для приня­тия решения будет различным.

В [7] показано, что при Р=Р1 оперативная характеристика L(P) = 1 — α. Тогда (139) перепишется в виде

Для P = P1 L(P) = β и из выражения (139) находим

По зависимостям (140) и (141) были сделаны расчеты в среде MathCAD для примера, представленного на рис.16. Ниже показано, что для нашей задачи необходимо проверить в среднем:

(m) заданий для принятия решения об уровне выпускника при наличии гипо­тезы Р0;

(m) заданий при наличии гипотезы Р1, чтобы принять решение с заданными вероятностями ошибок а и β .

Пример определения среднего числа наблюдений для принятия решения

Алгоритм классификации для M гипотез

Рассмотрим алгоритм последовательного анализа в случае трех гипотез, когда тести­руемых, прошедших первый уровень аттестации (они все аттестованы положительно) не­обходимо, как и в предыдущем разделе разбить на три группы:

I группа – аттестуется «отлично»;

II группа – аттестуется «хорошо»;

III группа – аттестуется «удовлетворительно».

Так же, как и в предыдущей задаче, решаемой на основе последовательного анализа для двуальтернативного случая, определим для каждой группы допустимую долю брака, т. е. назначим вероятности невыполнения задания:

для I группы – P1;

для II группы – Р2;

для III группы – Ρ3.

Тогда аналогично (121) можно записать две функции отношения правдоподобия:

Последние определяются как

Воспользовавшись правилами принятия решений (116), после логарифмирования (143), получаем следующие правила для реализации ПКОВ для трех гипотез.

Выражения (144-(149) заменим эквивалентными неравенствами, определив dm как число невыполненных заданий.

Тогда, если

Введем обозначения как в зависимостях (128)-(130). Тогда выражения (153)-(155) бу­дут определять границы соответствующих областей принятия решений гипотез P1,P2, P3:

dm α1 + kml – область гипотезы P1;

dm ≥ b1 +k1m – область гипотезы Р2, P3;

dm a2 +k1m – область гипотезы P3;

dm ≥ b2 + k1m – область гипотезы Р2, P1.

Процесс принятия решений представим графически, где рассмотрим пример построе­ния границ решения и разбиения пространства решений на области P1, Р2 и P3.

На рис. 18 и 19 представлены границы принятия решений предполагаемых гипотез с заданными вероятностями невыполнения заданий:

P1 : = 0,09 – гипотеза об аттестации тестируемого на «отлично»;

P2 : = 0,25 – гипотеза об аттестации тестируемого на «хорошо»;

P3 : = 0,41 – гипотеза об аттестации тестируемого на «удовлетворительно».

Из графика на рис. 19 видим, что если тестируемый выполнил положительно подряд 5 заданий, то его можно аттестовать «отлично» при заданных α = 0,05 и β = 0,01.

Оценка эффективности алгоритмов последовательного анализа

Чтобы определить эффективность алгоритмов последовательного анализа при решении задачи о классификации выпускников, рассмотрим ее как классическую задачу выбора между двумя гипотезами на основе критерия Байеса, полагая, что эти гипотезы представ­лены функциями распределения дискретных случайных величин, как это встречалось при решении задачи на основе последовательного анализа.

Согласно (41) и (42) функция правдоподобия для гипотезы Р0 запишется как

для гипотезы P1

Тогда функция отношения правдоподобия имеет вид

Для N >> 50 биноминальное распределение можно с большой точностью аппроксими­ровать нормальным распределением. Вследствие чего оперативная характеристика для классической процедуры определения гипотез будет иметь вид (см. [18]):

Откуда

Из этих зависимостей находим

Тогда

или

При близких гипотезах приведенные неравенства обращаются в приближенные равен­ства, вследствие чего

Согласно таблицам обратных функций для F-нормального распределения составим табл. 4 наиболее часто употребляемых значений вероятностей для а и β .

Таблица 4

P = l – α = l – β

0,9

0,95

0,99

0.995

0,999

0,9995

0.9999

0,99995

UP

1,3

1,65

2,32

2,56

3,1

3,3

3,7

3,9

Определим необходимый объем ПДТЗ N1, чтобы при

P0 = 0,25, P1 = 0,75 – вероятности ошибок α = 0.05, β = 0,01 – или

1 – α = 0,95, 1 – β = 0,99.

Тогда, из приведенных выше соотношений число N для обеспечения заданных ошибок первого и второго родов будет определяться следующей зависимостью:

Порог принятия решения по числу нерешенных заданий dт будет равен

Т. к. NP0 =12 – 0,25 = 4>>1, то аппроксимация биноминального закона нормальным за­коном допустима.

Из этих равенств следует, что для оценки знаний выпускника на основе алгоритма, разработанного на основе критерия Байеса, с заданными ошибками а и β требуется 12 ПДТЗ.

Если из 12 заданий студент не выполнил 7 и более ПДТЗ, то он не аттестуется, а если не выполнил менее 7 заданий, то аттестуется положительно. В итоге, по сравнению с про­цедурой последовательного анализа число заданий для тестирования выпускников на ос­нове критерия Байеса требуется вдвое больше.

Пример решения задачи тестирования на основе последовательного анализа для трех гипотез P1, P2 и P3

p1 := 0.09 – доля невыполнненых заданий аттестуемым для гипотезы P1

p2 := 0.25 – доля невыполнненых заданий аттестуемым для гипотезы P2

р3 := 0 41 – доля невыполнненых заданий аттестуемым для гипотезы P3

Определение параметров границ принятия решений по формулам ( 51)-(53) при заданных ошибках первого и второго родов

Рис.18

Определение параметров границ принятия решений при заданных ошибках первого и второго родов для гипотез Р2и P3

Рис .19

Многообразие статистик, применяемых для решения задач оценки УУД объектов не­числовой природы, объясняется не только тем, что заданное разбиение поведения эмпи­рических объектов может быть неоднозначно, но и тем, что одно и тоже распределение может быть описано несколькими способами. Следовательно, задача оценки УУД тести­руемых может быть рассмотрена как задача классификации, решаемая методами теории различения гипотез на основе научных наблюдений результатов тестирования.

Очевидно, чем больше априорной информации при параметрической процедуре оце­нивания, тем выше верность принимаемых решений. Поэтому баесовские процедуры, применяемые при решении рассмотренных задач, дают наилучшие оценки. Наиболее эф­фективные процедуры вычисления оценок строятся на методах последовательного анали­за научных наблюдений результатов тестирования.

Однако при оценке достижений эмпирических объектов математические модели, взя­тые из классического построения теории вероятностей и математической статистики, час­то оказываются неприемлемыми из-за попытки представления разнообразных причинно-следственных связей. В этом случае методы параметрической статистики – абстрактно по­строенные конструкты – не могут работать при описании поведения объектов нечисловой природы. Так, например, одному из основных понятий математической статистики «гене­ральная совокупность» невозможно поставить в соответствие количество тестируемых (группа студентов, класс учащихся) или конечное число ПДТЗ, хранящихся в банке дан­ных.

Более того, существует необходимость установления степени обученности тестируе­мого при условии отсутствия информации о виде распределения. Решение таких задач в рамках параметрической статистики может быть осуществлено методом минимакса. Од­нако этот класс задач решается только для определенных расширений начальных условий и не дает гарантий, что истинная модель распределения находится в рассматриваемом классе. Тогда, по высказыванию из [12], « ничего неизвестно о том, что будет, если рас­пределение выйдет из этого класса». Эта неопределенность основных представлений в со­ответствии их с реальными процессами при компьютерном оценивании достижений тес­тируемых является поводом для построения качественно новой статистики. Для этого на­до ограничения, сформулированные на формальном языке, перевести на язык научных наблюдений за поведением целеустремленного объекта.

В непараметрической постановке задачи оценки УУД тестируемых обычно задается в настолько общем виде, что допускает неоднозначное толкование при формулировке коли­чественной меры различия, что приводит к возможности построения методики оценки степени обученности индивидов, основанной на категории качества. Непараметрическая и интервальная статистика позволяют ввести в изучение процесса оценки УУД респон­дентов качественные методы, что открывает принципиально новые возможности в иссле­довании и проектировании систем установления степени обученности телеологических объектов нечисловой природы.

СПИСОК СОКРАЩЕНИЙ

ПДТЗ – программно-дидактическое тестовое задание; синоним –

ЭФТК – элементарный феномен тестовой культуры;

ПДТ – программно-дидактический тест; синоним –

КФТ – культурная форма теста;

БТЗ – банк тестовых заданий; синоним –

KCT3 – культурная система тестовых заданий;

КАТ – компьютерное адаптивное тестирование;

СКДО – стандартизированная компьютерная дидактическая оценка;

УУД – уровень учебных достижений.

KT – компьютерное тестирование

θ — степень обученности тестируемого

β – категория трудности тестового задания

Литература

1.  Агафонов B. H. Спецификация программ. Новосибирск. Наука, 1987.

2.  Аванесов B. C. Научные проблемы тестового контроля знаний. M., Учебный центр при исследовательском центре проблем качества подготовки специалистов, 1994

3.  Аванесов B. C. Теоретические основы разработки заданий в тестовой форме. M. МГТА, 1995.

4.  Айвазян C. A., Мешалкин статистика: основы моделирования и первичная обработка данных. M. Финансы и статистика, 1985.

5.  Батаршева . M. «Дело», 1999.

6.  , Смирнов H. B. Таблицы математической статистики. M. Наука, 1983.

7.  Последовательный анализ. M. Физматгиз, 1960.

8.  Васильев системы. Киев. Наукова думка, 1971.

9.  Васильев адаптивного тестирования. М. МГУП, 2002

10.  , Тягунова и практика формирования программно-дидактических тестов. M. МЭСИ, 2001

11.  , Тягунова сущность шкалы оценивания. M. Дистан­ционное образование, №6, 2000

12.  , Глухов B. B., Тягунова оценка уровня учебных достижений тестируемых. M. МГУП, 2002.

13.  Вентцель E. C. Теория вероятности. M. Физматгиз, 1962.

14.  , Варшавский теста «Математика-2» Тезисы док­ладов Всероссийской конференции «Развитие системы тестирования в России» 25 – 26ноября, М.1999.

15.  ГОСТ – Прикладная статистика. Правила определения оценок и довери­тельных интервалов для биномиального и отрицательного биномиального распре­делений, M.1981.

16.  Зайцев B. H. Практическая дидактика. M. Народное образование, 2000

17.  Статистическое оценивание. M. Статистика, 1976.

18.  Калинина B. H., Панкин статистика. M. Высшая школа, 1998.

19.  Кармин . С. Петербург, 2000

20.  Кендал M Дж., Теория распределений. M. Наука, 1966.

21.  Дж., Статистические выводы и связи. M. Наука, 1973.

22.  Кригер C. A., Косолапов M. C., Толстова при сборе и анализе социологической информации. M. Наука, 1978

23.  Костылев A. A., Миляев Π.Β., и др. Статистическая обработка ре­зультатов экспериментов на микро ЭВМ и программируемых калькуляторах. Л. Энергоатомиздат, 1991.

24.  Кравченко . M. Академический проект, M. 2000.

25.  Красильников B. B. Статистика объектов нечисловой природы. Набережные Челны, 2001.

26.  Майоров A. H. Теория и практика создания тестов для системы образования. M. Интеллект-центр, 2001.

27.  , Хлебников B. A. Введение в теорию моделирования и параметриза­ции педагогических тестов. M.2000.

28.  Нейман и практика шкалирования. Вопросы тестирования в образо-вании,№1, M.2001

29.  Орлов многомерный статистический анализ. M. Наука, 1978.

30.  Орлов множества: законы больших чисел, проверка статистиче­ских гипотез. Теория вероятностей и ее применения, 1978, вып.2

31.  Петров мышления. МГУ, M. 1990.

32.  , Давидович оценивание и проверка гипотез на ЭВМ. M. Финансы и статистика. 1989.

33.  Математика и правдоподобные рассуждения. M. Наука, 1975.

34.  , Татур A. O. Стандарты и тесты в образовании. M. МИФИ, 1995.

35.  Ракитов компьютерной революции. M. Политическая литература, 1991.

36.  Рывкин A. A. и др. Справочник по математике. M. Энергия, 1975.

37.  Сергеев M. B. Сертификация. M. «Логос», 2001.

38.  Справочник. Искусственный интеллект. Часть 3. M. Радиосвязь, 1990.

39.  и др. Теоретические основы информационной техники. M. Энергия, 1971.

40.  Челышкова дидактических тестов на основе современных мате­матических моделей. M. Исследовательский центр проблем качества подготовки специалистов, 1995.

Приложения

Основные понятия и определения

В настоящей книге используются следующие понятия, их определения и сокращения, учитывающие специфику программно-дидактических тестовых материалов и технологий компьютерного адаптивного тестирования.

Банк тестовых заданий (БТЗ) – логически упорядоченная структура конечного числа программно-дидактических тестовых заданий, позволяющая автоматически генерировать множество культурных форм тестов.

Дидактическая единица оценки – фрагмент содержания учебной дисциплины, пред­назначенный для включения в отдельное программно-дидактическое тестовое задание, имеющее заданный смысл и конкретную меру трудности.

Инструментальная среда тестирования – комплекс программных, информационных, методических и технических средств, обеспечивающих создание и сопровождение банков ПДТЗ, проведение тестовых испытаний и обработку их результатов в реальном режиме времени.

Критериально-ориентированный программно-дидактический тест – система тес­товых суждений, позволяющих сопоставить уровень учебных достижений тестируемых с заданным критерием качества их обученности.

Личностно-ориентированный ПДТ – система тестовых суждений одной категории трудности, позволяющих различить поведение тестируемых из одного класса обученно­сти.

Нормативно-ориентированный ПДТ – система тестовых суждений различной кате­гории трудности, позволяющих разделить поведение тестируемых на классы по степени их обученности.

Операционная деятельность тестируемого – совокупность действий, выполняемых в ходе формирования следствий на требования тестовых заданий.

Поведение – качество заключений тестируемого на требования ПДТЗ, отображаемое в его модели.

Программно-дидактическое тестовое задание (ПДТЗ) – это свернутое краткое суж­дение стандартизированной форме и известной меры трудности, включающее в себя по­сылки и требования, составленное по правилам практической или теоретической логики, отвечающее условию предметной чистоты содержания и позволяющее тестируемому с фиксированной степенью обученности установить собственный уровень учебных дости­жений в течение ограниченного промежутка времени, а также являющееся единицей оце­ночного материала для синтеза теста.

Программно-дидактический тест (ПДТ выборка) – это целостная система стан­дартизированных по форме программно-дидактических тестовых заданий определенного смысла и заданной меры трудности, ориентированная на конкретный результат, позво­ляющая с требуемой верностью и объективностью оценить степень обученности эмпири­ческого объекта путем обработки качества его заключений в течение ограниченного ин­тервала времени.

Проектирование ПДТ – синтез структуры и содержания программно-дидактического теста в соответствии с заданным результатом процесса тестовых проверок.

Проектирование (разработка) ПДТЗ – дидактически, логически и методически обос­нованный синтез формы, содержания, знаковых средств предъявления задания тестируе­мому

Результат тестирования – фактически установленный уровень учебных достижений (знаний, интеллектуальных умений и практических навыков) тестируемого.

Спецификации БТЗ – это документы, которые служат основой для разработки ПДТ с заданными показателями качества. Их качественная разработка значительно уменьшает вероятность того, что будет создана БТЗ с низкими показателями валидности ПДТ.

Функция (функциональное свойство ПДТ) – назначение ПДТ как средства получе­ния результата, характеризующего степень обученности тестируемого лицом, прини­мающим управленческое решение, а также являющегося основанием для оценки качества усвоения испытуемыми содержания отдельных разделов учебной дисциплины.

ВИДЕОграммы ТЕСТОВЫХ ЗАДАНИЙ, РЕАЛИЗОВАННЫХ В СРЕДЕ ACT.

Содержание

ВВЕДЕНИЕ........................................................................................................................................................... 2

СТАНОВЛЕНИЕ КУЛЬТУРЫ ИЗМЕРЕНИЙ ПАРАМЕТРОВ ЛИЧНОСТИ.............................................. 6

КЛАССИФИКАЦИЯ ТЕСТОВ ДОСТИЖЕНИЙ.......................................................................................... 16

I. ФИЛОСОФИЯ КУЛЬТУРЫ ТЕСТОВЫХ ПРОВЕРОК............................................................................ 20

Функции философии КАТ............................................................................................................................. 33

Мировоззренческая......................................................................................................................................... 34

Методологическая.......................................................................................................................................... 44

Эпистемологическая...................................................................................................................................... 56

Информационно-эпистемологическая......................................................................................................... 63

Социально-коммуникативная....................................................................................................................... 71

II. КУЛЬТУРОЛОГИЧЕСКИЕ АСПЕКТЫ АДАПТИВНОГО ТЕСТИРОВАНИЯ................................... 89

III. ПРОГРАММНО-ДИДАКТИЧЕСКОЕ ТЕСТОВОЕ ЗАДАНИЕ.......................................................

Формы мышления......................................................................................................................................

Конструирование тестового суждения...................................................................................................

Оценка качества тестовых утверждений................................................................................................

Алгоритм оценки качества работы экспертов.......................................................................................

Установление меры трудности................................................................................................................

IV. СОДЕРЖАНИЕ, СОДЕРЖАТЕЛЬНОСТЬ, ЛОГИЧНОСТЬ.............................................................

Логичность тестовых суждений..............................................................................................................

Культура концептов и заключения..........................................................................................................

Триадная сущность оценки.......................................................................................................................

Шкалирование при анализе дидактической информации....................................................................

V. ФОРМА ТЕСТОВОЙ СИТУАЦИИ.......................................................................................................

Тестовые задания закрытой формы.........................................................................................................

Тестовые задания открытой формы.........................................................................................................

Тестовые задания на установление правильной последовательности................................................

Тестовые задания на установление соответствия..................................................................................

Задания на конструирование....................................................................................................................

VI. ФОРМИРОВАНИЕ БТЗ.........................................................................................................................

Структуризация и спецификация бтз.....................................................................................................

Требования к банку тестовых заданий (БТЗ)..........................................................................................

Требования к технологии компьютерного тестирования.....................................................................

Композиции пдт......................................................................................................................................

VII. ОПТИМАЛЬНАЯ ОЦЕНКА ДОСТИЖЕНИЙ..................................................................................

Постановка задачи оптимальной оценки достижений..........................................................................

Оценка на основе биноминального закона............................................................................................

Точечная оценка.....................................................................................................................................

Интервальная оценка............................................................................................................................

Определение минимального объема заданий для оценки параметра биномиального закона......

Оценка на основе нормального закона...................................................................................................

Точечное оценивание............................................................................................................................

Интервальное оценивание....................................................................................................................

Определение минимального объема заданий.....................................................................................

Оценка на основе проверки статистических гипотез...........................................................................

Этапы проверки гипотезы об оценке уровня достижений...............................................................

Алгоритмы оценки................................................................................................................................

Минимаксный критерий.......................................................................................................................

Критерий Неймана-Пирсона................................................................................................................

Алгоритмы классификации тестируемых относительно M гипотез...............................................

Определение гипотезы по количеству положительно выполненных заданий..............................

Алгоритм классификации достижений на основе последовательного анализа.................................

Алгоритм классификации для двух гипотез......................................................................................

Алгоритм классификации для M гипотез...........................................................................................

Оценка эффективности алгоритмов последовательного анализа....................................................

СПИСОК СОКРАЩЕНИЙ..........................................................................................................................

Литература......................................................................................................................................................

Приложения...................................................................................................................................................

Основные понятия и определения.......................................................................................................

ВИДЕОграммы ТЕСТОВЫХ ЗАДАНИЙ, РЕАЛИЗОВАННЫХ В СРЕДЕ ACT.........................

Из за большого объема эта статья размещена на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12