УДК 519.85:004.421
,
Ростовский технологический институт сервиса и туризма (филиал) ФГОУ ВПО Южно-Российский государственный университет экономики и сервиса», г. Ростов-на-Дону
Проблема определения трудности тестовых заданий
Несмотря на то, что в современной педагогической практике применяются различные формы тестирования, основной задачей тестирования по-прежнему остается контроль уровня знаний студентов. Наиболее естественной основой определения уровня знаний (рейтинга) испытуемых является суммарная трудность верно решенных заданий. Но для этого необходимо иметь возможность по данным тестирования надежно оценивать трудность тестовых заданий (ТЗ). В х годах появилась теория IRT и параметрические модели тестирования Раша и Бирнбаума [1-3], по замыслу их авторов призванные решить эту задачу. Однако, как станет ясно из дальнейшего, проблема определения трудности ТЗ вообще не может быть корректно решена в рамках параметрических моделей тестирования.
При любом подходе трудность ТЗ должна удовлетворять требованию аддитивности, согласно которому трудность составного ТЗ складывается из трудностей составляющих его частей:
(1)
Если трудность ТЗ связывать с вероятностью верного решения, то существует единственный способ сделать это, не нарушая требование аддитивности:
(2)
Определенная в рамках теории IRT трудность ТЗ не обладает свойством аддитивности и может принимать отрицательные значения, что вряд ли согласуется с интуитивными представлениями о трудности:
(3)
Параметрические модели, реализующие принципы IRT, получают в наследство от этой теории внутренне противоречивое определение трудности ТЗ.
В модели Раша вероятность решения ТЗ зависит от двух параметров – уровня подготовленности испытуемого 𝛳 и трудности тестового задания α, при этом для трудности ТЗ справедливо выражение, сходное с (3):
(4)
В модели Бирнбаума появляется еще один параметр – дифференцирующая способность ТЗ, который появляется в выражении для трудности ТЗ в качестве множителя перед логарифмической функцией:
(5)
Как уже отмечалось, определенная в рамках параметрических моделей трудность ТЗ не удовлетворяет требованию аддитивности. Кроме того, как показано в [4], основанная на принципе максимального правдоподобия оценка уровня подготовленности испытуемого в модели Раша определяется общим числом верно решенных заданий вне всякой зависимо от их трудности. Аналогичное противоречие присуще и модели Бирнбаума, где оценка уровня подготовленности испытуемого зависит лишь от суммарной дифференцирующей способности верно решенных заданий, но никак не связана с их трудностью.
В [5] описана новая модель тестирования, где предполагается, что поиск решения тестовых заданий является однородным во времени стохастическим процессом, откуда следует, что время поиска решения тестовых заданий является случайной величиной, подчиняющейся гамма распределению:
(6)
Входящие в формулу (6) параметры α и λ интерпретируются как трудность задания и уровень подготовленности испытуемого.
Новая модель тестирования прошла всестороннюю проверку, подтвердившую ее адекватность. Приведем результаты обработки данных тестирования по математике студентов факультета МИиФ ПИ ЮФУ. Индивидуальные тесты случайно выбирались из базы ТЗ, и содержали 20 заданий. На рис. 1 показаны гистограммы эмпирического распределения времени поиска верного решения вместе с графиками теоретической зависимости (7).


Рис. 1. Распределение времени поиска верного решения тестовых заданий.
Для проверки аддитивности трудности тестовых заданий был создан метод виртуального тестирования [6], использующий результаты реального тестирования. Для каждой пары тестовых заданий составляется виртуальное сложное задание: оно считается выполненным, если выполнены оба составляющих его простых задания, а время выполнения равно суммарному времени решения простых заданий. Трудность составных заданий оценивается двумя способами:1) непосредственным суммированием трудности составляющих их простых заданий; 2) путем обработки данных виртуального тестирования.
Вновь воспользуемся данными тестирования по математике студентов факультета МИиФ ПИ ЮФУ. Полученное в результате обработки каноническое уравнение регрессии двух оценок трудности составных тестовых заданий имеет следующий вид:
(7)
|
Рис. 2. Регрессионная зависимость двух оценок составных тестовых заданий.
Стандартными методами математической статистики можно показать, что гипотезу об аддитивности трудности ТЗ в данном случае можно принять с надежностью не ниже
. На рис. 2 показан не только график регрессионной зависимости двух оценок трудности составных ТЗ, но и ее теоретические границы, отвечающие уровню надежности
.
Литература
1. Lord F. M. Applications of item response theory to practical testing problems. Hillsdale. 19p.
2. Wright B. D., Masters G. N. Rating scale analysis: Rasch measurements. Chicago. 19p.
3. Stocking M. L., Lord F. M. Developing a common metric in item response theory // Applied Psychological Measurement, 1983, v. 7, P. 201.
4. О параметрических моделях тестирования // Материалы 6-й НМК ИМСОКО. Москва, 24 апреля 2008 г. М., 2008. С. 122-128.
5. Попов направление в теории тестирования // Известия ЮФУ. Педагогические науки. 2008. № 1-2. С.24.
6. О возможности создания единой системы компьютерного тестирования в России // Вестник Марийского государственного университета. 2010. №5. С. 164.



