Генерация искусственных результатов педагогического

тестирования на основе параметрических моделей IRT

Аннотация.

Статья содержит краткое описание созданной автором программы «Test’s parameter generator» для генерации результатов педагогических измерений в рамках современной теории тестирования IRT. Приведены основные положения теории IRT, применяемый математический аппарат, а также описание данных, выдаваемых программой.

The article briefly describes author’s program «Test’s parameter generator» designed for generating test results in accordance with Item Response Theory. Basic theses, mathematical model and program’s data are also given.

В настоящее время в отечественном образовании преобладает традиционный подход к оценке знаний студентов, при котором оценки результатов работы студентов определяются субъективной точкой зрения преподавателя. Одной из альтернативных форм оценивания уровня учебных достижений является педагогическое тестирование. При разработке тестов вначале необходимо определить объективные характеристики заданий теста, для чего следует произвести математико-статистическую обработку результатов тестирования на достаточно большой группе учащихся. Разработанная на Западе в середине прошлого века теория создания тестов (Item Response Theory) предназначена для оценки латентных (скрытых) параметров испытуемых и заданий теста. Более подробно о IRT можно узнать из литературы, приведенной в конце текста, в рамках же данной статьи рассмотрим только общие принципы данной теории.

НЕ нашли? Не то? Что вы ищете?

В основе IRT лежит предположение о наличии вероятностной связи между наблюдаемыми результатами тестирования и латентными характеристиками испытуемого и заданий теста, которую можно записать в виде:

, где

- элемент матрицы ответов, равный 1, если ответ i-го испытуемого на j–е задание верный, 0 – в противном случае;

- значение параметра уровня подготовленности i-го испытуемого, i = 1..N;

- значение параметра трудности j–го задания, j=1..n;

* - логистическая функция, зависящая от выбранной модели IRT (см. ниже).

Важно отметить, что измерения параметров и производятся в одной и той же шкале - шкале логитов, а конечный результат зависит только от разницы параметров (). Среди моделей IRT различают:

однопараметрическую модель Раша

двухпараметрическую модель Бирнбаума

трехпараметрическую модель Бирнбаума

.

- условная вероятность правильного выполнения i-м испытуемым с уровнем подготовки различных по трудности заданий теста. - условная вероятность правильного выполнения j-го задания трудностью различными испытуемыми. Графики функций и называются индивидуальной кривой испытуемого и характеристической кривой задания соответственно. В последних двух случаях параметр характеризует дифференцирующую способность задания, а параметр указывает на меру структурированности знаний ученика. Параметр в трехпараметрической модели является характеристикой вероятности правильного ответа на задание j в том случае, если этот параметр угадан, а не основан на знаниях ученика.

Для двухпараметрической модели графики характеристических кривых заданий будут иметь следующий вид:


Рис. 1. Графики характеристических кривых заданий

Визуально параметры заданий означают следующее:

·  параметр трудности задания отвечает за смещение графика по горизонтальной оси;

·  параметр дифференцирующей силы задания характеризует угол наклона графика: чем лучше задание способно разделить испытуемых с близким уровнем подготовленности, тем более отвесно расположена кривая;

·  параметр угадывания правильного ответа предполагает наличие горизонтальной асимптоты на .

При разработке программного обеспечения для калибровки заданий и нахождения оценок параметра уровня подготовленности испытуемых удобно располагать модельными наборами данных, имитирующие результат проведения теста с заданиями с известными характеристиками для оценки точности получаемых параметров. В среде Borland Delphi 6.0 автором была разработана программа, позволяющая построить плотности распределения каждого параметра (трудность и дифференцирующая сила задания и уровень подготовленности испытуемого), после чего сгенерировать матрицу результатов {} из «0» и «1».

Ввиду того, что стандартный генератор псевдослучайных чисел, использующийся в Delphi, мало подходит для генерации данных, используемых в статистическом анализе, из-за наличия в нем нежелательных корреляций, при генерации модельных наборов данных применялся генератор псевдослучайных чисел, имеющих равномерное распределение, по версии Парка-Миллера ([4]).

В программе предусмотрено визуальное построение графиков плотности распределения: по указываемым пользователем точкам сплайнами интерполируется общий график функции, причем по умолчанию всегда существуют 2 точки на концах отрезка числовой оси, который является областью определения функции, обращающие ее значения в 0. После нормализации площади под графиком можно считать, что построенная таким образом функция является плотностью распределения некоторой случайной величины, в данном случае – значений параметров трудности и дифференцирующей силы задания и параметра уровня подготовленности испытуемого.

Вид главного окна программы «Test’s parameter generator» приведен на рис. 2.

Рис.2. Вид главного окна программы «Test’s parameter generator»

Краткое описание полей ввода параметров и результирующих данных:

·  область с графиком служит для графического способа задания плотности распределения значений генерируемого параметра: с помощью мышки можно создать и перемещать по области необходимое количество точек, на основе которых кубическими сплайнами интерполируется график плотности распределения. Функция плотности распределения значений параметра получается из данной путем деления каждого ее значений на площадь под графиком;

·  «Кол-во параметров» - количество генерируемых значений;

·  «Точность параметров» - точность нахождения корней уравнения F(Y) = X в методе Монте-Карло, где F(Y) – функция распределения значений параметра, получаемая численным интегрированием плотности распределения, заданной графически, а X – случайная величина, имеющая равномерное распределение на [0;1] (генерируется алгоритмом псевдослучайных чисел Парка-Миллера). Получаемые таким образом значения Y имеют заданную плотность распределения;

·  после заполнения полей «Уровень подготовленности», «Трудность заданий» и, при необходимости, «Дифференцирующая сила заданий», выбора типа модели («Однопараметрическая» или «Двухпараметрическая») по нажатию кнопки «Сгенерировать матрицу ответов >>» в поле «Матрица ответов» будет выведена матрица из «0» и «1», имитирующая результаты проведения теста. Элементы «0» и «1» также генерируются методом Монте-Карло на основе сравнения значений Х и , где X – случайная величина, имеющая равномерное распределение на [0;1], а – значение однопараметрической логистической функции Раша или двухпараметрической логистической функции Бирнбаума для сгенерированных значений параметров и (для двухпараметрической модели) .

Для проверки корректности работы программы «Test’s parameter generator» были сгенерированы 3 набора данных (матрицы из «0» и «1») размерностью 40х10000:

Таблица 1.

Характеристики сгенерированных наборов данных

Распределение значений параметра уровня подготовленности испытуемых

Распределение значений параметра трудности заданий

Распределение значений параметра дифференцирующий силы заданий

Набор №1

Унимодальное, смещенное в сторону низкого уровня подготовленности, с максимумом в точке –1.4 в шкале логитов

Унимодальное, смещенное в сторону высокой трудности, с максимумом в точке 1.4 в шкале логитов

Нормальное ~N(0, 1)

Набор №2

Нормальное ~N(0, 1)

Нормальное ~N(0, 1)

Нормальное ~N(0, 1)

Набор №3

Равномерное на отрезке [-2; 2] в шкале логитов

Нормальное ~N(0, 1)

Нормальное ~N(0, 1)

В программе «Test’s parameter generator» графики плотностей распределения для наборов №1 и №3 имели следующий вид:

Рис. 3. Плотность распределения значений параметра уровня

подготовленности испытуемых, набор №1

Рис. 4. Плотность распределения значений

параметра трудности заданий, набор №1

Рис. 5. Плотность распределения значений параметра

уровня подготовленности испытуемых, набор №3

Таким образом, сгенерированные данные описывают 3 наиболее часто встречающиеся ситуации:

·  набор №1: тест составлен из заданий, несоответствующих по трудности целевой группе испытуемых (в данном случае – слабой группе испытуемых выданы слишком сложные задания, возможна и обратная ситуация);

·  набор №2: трудности заданий соответствуют целевой группе испытуемых, уровень подготовленности имеет нормальное распределение;

·  набор №3: трудности заданий соответствуют целевой группе испытуемых, уровень подготовленности имеет равномерное распределение – такое может быть, например, в случае массового тестирования.

Следует отметить, что в случае небольшой длины теста (20-40 заданий) говорить о плотности распределения трудности значений параметра трудности заданий, вообще говоря, нет смысла. Задания должны иметь в основной своей массе сопоставимую трудность с уровнем подготовленности большинства испытуемых и лишь часть – для оценки самых слабых и самых подготовленных испытуемых. Остальные сочетания видов распределений, как правило, являются следствием неправильно составленных тестов. В лучшем случае, после удаления из матрицы результатов большого количества профилей заданий и испытуемых, можно получить данные, теоретически пригодные для обработки теми или иными методами, однако качество данных оценок будет оставлять желать лучшего. Информацию о построении репрезентативных выборок можно найти в литературе ([2]).

Ниже приведены гистограммы индивидуальных баллов испытуемых (на том же графике построена нормальная кривая, описывающая данное распределение) и значения параметра трудности задания и параметра уровня подготовленности в единой шкале логитов для сгенерированных наборов данных. Гистограммы построены в пакете статистического анализа SPSS 11.0 for Windows, значения параметра трудности задания и параметра уровня подготовленности построены в табличном процессоре Microsoft Excel 2000.

Набор №1.

Рис. 6. Гистограмма индивидуальных баллов испытуемых набора №1

Рис. 7
. Значения параметров трудности и подготовленности набора №1

Полученные результаты вполне закономерны, если принять во внимание условия генерации данных набора №1: повышенная трудность заданий, слабый уровень подготовленности.

Набор №2.

Рис. 8. Гистограмма индивидуальных баллов испытуемых набора №2

Рис.
9. Значения параметров трудности и подготовленности набора №2

Несмотря на то, что в данном случае распределения являются нормальными, однако при сопоставлении трудностей заданий и уровня подготовленности видно, что самые слабые и самые подготовленные испытуемые будут оценены с большой ошибкой измерения, т. к. в данном тесте нет заданий, способных адекватно оценить их уровень подготовленности.

Набор №3.

Рис. 10. Гистограмма индивидуальных баллов испытуемых набора №3

Рис. 1
1. Значения параметров трудности и подготовленности набора №3

В данном наборе наблюдается картина, аналогичная набору №2. Следует заметить, что хотя значения параметра уровня подготовленности генерировались исходя из равномерного закона распределения, распределение индивидуальных баллов имеет нормальный закон распределения, что объясняется «сжатием» частот к центру за счет нормальности распределения значений параметра трудности заданий.

При нахождении оценок максимального правдоподобия на сгенерированных модельных данных были получены результаты, согласующиеся с выводами по каждому из наборов, из чего можно сделать вывод о применимости получаемых описанным образом данных в разработке и тестировании соответствующего программного обеспечения.

Литература.

1) , Челышкова конструирование педагогических тестов на основе параметрической модели IRT. // Качество, инновации, образование. – 2005. -№1. – С.58-60.

2) Найденова репрезентативной выборки: Учеб. пособие. - М.: Логос, 2003.

3) Челышкова и практика конструирования педагогических тестов. М.: ИЦПКПС, 2001.

4) William H. Press, Saul A. Teukolsky, William T. Vetterling, Brian P. Flannery. Numerical Recipes in C. The Art of Scientific Computing. Second Edition. Cambridge University Press, 1992.

5) Wright B. D., Stone M. H. Best Test Design. Mesa Press, 1979.

6) Материалы сайта http://www. rasch. org/