Здесь:
- среднее квадратическое отклонение тестовых баллов;
- надежность теста.
Полученное значение
используется для построения доверительного интервала, в пределах которого, вероятнее всего, находится истинное значение тестового балла испытуемого. Для построения доверительного интервала первоначально выбирается уровень ошибки. Обычно в педагогике используется 5 –процентный уровень:
(вероятность ошибки в 5 случаях из 100). Для построения интервала используется критерий Стьюдента, при этом значению соответствует табличное значение t - распределения Стьюдента, которое приближенно можно принять равным 2. Тогда доверительный интервал имеет вид:
.
13. Валидность теста.
Под валидностью понимают характеристику качества теста, ориентированную на оценку адекватности теста поставленной цели его создания. Т. е. валидность – это характеристика пригодности тестовых результатов для определенной цели, т. е. соответствия теста своему назначению.
По своей сути, валидность – комплексная характеристика: с одной стороны, пригодности теста для измерения того, для чего он был создан (теоретическая валидность), и, с другой стороны, действенности, эффективности данной методики (прагматическая валидность). Другими словами, понятие валидности объединяет различные ее виды, имеющие свой особый смысл.
Различают различные виды валидности: содержательная, валидность конструкта, валидность конструкта, прогностическая и др.
1). Содержательная валидность – характеристика адекватности содержания теста поставленной цели его создания, способности теста диагностировать уровень подготовки студентов. Для оценки содержательной валидности используются экспертные методы, а также анализ корреляционных связей между заданиями.
2) Валидность конструкта – характеристика способности теста измерять то, для чего он предназначен.
2). Прогностическая валидность – характеристика способности теста прогнозировать успешность дальнейшего обучения. Высокую прогностическую валидность должны иметь итоговые аттестационные тесты выпускников, направленные на проверку профессиональной пригодности выпускников.
3). Валидность соответствия – характеристика соответствия результатов, полученных разными методами педагогического контроля и результатов тестирования.
Некоторые виды валидности могут быть оценены статистически, другие требуют привлечения экспертов.
14. Анализ правдоподобности дистракторов (для заданий закрытой формы).
Тестовые задания закрытого типа сопровождаются несколькими вариантами ответов, из которых верным, как правило, является только один. Неверные варианты ответов – дистракторы – должны выглядеть вполне правдоподобными и быть одинаково привлекательными для незнающих учеников. Оценка правдоподобности дистракторов основана на подсчете числа испытуемых, выбравших каждый неправильный ответ. Например, пусть группа из 200 испытуемых выполнила j-ое задание теста с пятью вариантами ответов, из которых один верный, и 120 испытуемых выполнили задание верно. Тогда оставшиеся 80 испытуемых должны распределиться равномерно между четырьмя дистракторами, т. е. каждый дистрактор должны выбрать 20 испытуемых. Распределение ответов на задание в данном задании будет выглядеть следующим образом (звездочкой помечен верный ответ):
Номер задания | 1-ый ответ | 2-ой ответ | 3-ий ответ | 4-ый ответ | 5-ый ответ | |||||
j | Кол | % | Кол | % | Кол | % | Кол | % | Кол | % |
20 | 10 | 20 | 10 | 120 | 60 | 20 | 10 | 20 | 10 |
Реальные результаты на практике редко представляют такую идеальную ситуацию. Дистракторы, которые выбирают менее 5% неверно выполнивших задание испытуемых, считаются неработающими и должны быть изменены или удалены из теста.
Более глубокий анализ правдоподобности дистракторов предполагает расчет значений коэффициентов корреляции для каждого дистрактора в заданиях теста. Можно также использовать методику статистической проверки гипотезы о равномерном распределении частот выбора различных дистракторов.
Рассмотрим пример анализа дистракторов по конкретному заданию. Это задание – закрытого типа, с выбором одного правильного ответа из 4-х. Правильный ответ – вариант «в». Задание оценивалось дихотомически, причем испытуемый получал 1 балл, если он выбирал только один вариант ответа, и причем правильный. 123 человека имеют за это задание 1 балл и 72 – 0 баллов. В табл.1 представлены данные по вариантам ответа этого задания.
Табл.1
Дистракторы | ||||
а | б | в+ | г | |
Эмпирическая частота выбора дистрактора | 24 12% | 37 19% | 123 64% | 10 5% |
Заметим, что дистракторы распределены неравномерно, дистрактор «б» явно более привлекателен. Однако все дистракторы работают. Для проверки гипотезы о равномерном распределении дистракторов иногда применяют критерий хи-вадрат, однако, как правило, неравномерность распределения дистракторов видна сразу.
Дополнительно можно провести анализ дистракторов с точки зрения их функционирования. С этой целью можно вычислить коэффициенты корреляции между дистракторами и общим баллом по тесту. Очевидно, что дистрактор функционирует правильно, если испытуемые с высоким уровнем подготовки его не выбирают в качестве правильного ответа. В этом случае коэффициент корреляции будет отрицательным (желательно, чтобы он был меньше -0,2). И, наоборот, коэффициент корреляции для правильного варианта ответа должен быть положительным (желательно, чтобы он был больше 0,4). В табл. 2 приведены значения корреляции для рассматриваемого задания.
Табл.2
Варианты ответов | ||||
а | б | в+ | г | |
Коэффициенты корреляции | -0,27 | -0,31 | 0,46 | -0,18 |
Таким образом, данное задание функционирует правильно: правильный ответ выбирают сильные ученики, а слабые выбирают неправильные варианты ответов.
Рассмотрим еще один пример – задание, в котором всего 4 варианта ответов, из которых 2 правильные (варианты «в» и «г»). Задание оценивалось политомически, участник мог получить до двух баллов. 6 человек имеют 2 балла за это задание, 42 человека –1 балл и 156 – 0 баллов. В табл. 1.16 представлены данные по дистракторам этого задания.
В данном случае также не требуется статистического анализа: дистракторы распределены не равномерно.
Табл.3
Частоты | Правильные варианты | Дистракторы | ||
в | г | а | б | |
Эмпирическая частота выбора варианта ответа | 70 | 102 | 153 | 40 |
Табл.4
Варианты ответов | ||||
а | б | в* | г* | |
Коэффициенты корреляции | 0,12 | -0,3 | 0,01 | -0,32 |
Мы видим, что в задании наблюдается полный разброд в функционировании дистракторов.
15. Проверка параллельности вариантов теста.
В тестологии два варианта называются параллельными, если они имеют одинаковое количество заданий и структуру, разработаны на основе одной спецификации и отличаются лишь конкретным содержанием своих заданий, а основные статистические характеристики близки настолько, что эти варианты способны заменить друг друга. Очевидно, что на практике полного совпадения характеристик различных вариантов достичь невозможно. Поэтому необходимо определить, значимы или незначимы расхождения между ними.
Рассмотрим алгоритм статистической проверки гипотезы об однородности одноименных заданий различных вариантов одного и того же теста. Составим таблицу сопряженности размером , где k – число вариантов теста, m- число заданий в каждом варианте.
Здесь
(i=1,…,k; j=1,…,m) – количество участников тестирования, которые выполнили верно j-ое задание i-го варианта. В последнем столбце и последней строке таблицы представлены так называемые маргинальные суммы.
Для проверки гипотезы об однородности результатов тестирования по всем вариантам можно воспользоваться критерием согласия хи-квадрат (
) Пирсона. Формула для вычисления коэффициента
распределения Пирсона в данном случае имеет вид:

№ задания № варианта | 1 | 2 | … | m |
|
1 |
|
|
|
|
|
2 |
|
| … |
|
|
… | … | … | … | … | … |
k |
|
| … |
|
|
|
Табл.5
Вычислив коэффициент
, необходимо сравнить полученное число с критическим значением
, которое выбирается из специальной таблицы по заданному уровню значимости
и числу степеней свободы
. Если выполняется неравенство
, то гипотезу об однородности результатов тестирования по всем вариантам можно принять. Под уровнем значимости
понимается вероятность отвергнуть верную гипотезу. В педагогике принят уровень значимости
=0,05.
Иногда применяют другие процедуры для обоснования гипотезы о параллельности вариантов теста. Например, можно проверить гипотезу о равной трудности одноименных заданий различных вариантов одного и того же теста. Другой способ – проверить гипотезу об одинаковых распределениях тестовых баллов испытуемых.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 |


