2. ОЦЕНКА КАЧЕСТВА ТЕСТА (по математике, 4 этап)

Качество теста по обществознанию оценивалось по современной методике, с использованием Item Response Theory (IRT).

Объективность результатов тестирования во многом зависит от качества тестовых материалов. Поэтому вопрос о качестве тестов является одним из главных в тестовых технологиях.

Для оценки качества тестов предлагается алгоритм, в основе которого лежит «методика измерения на линейной шкале латентных переменных» [3,4].

Важными достоинствами этой методики являются следующие.

1. Отсутствует фактор субъективности, поскольку нет необходимости в использовании экспертных оценок.

2. Необходимой процедурой этой методики является оценка совместимости используемых показателей, т. е. действительно ли все показатели измеряют одну и ту же латентную переменную - эффективность деятельности объекта.

3. Латентные переменные (уровень подготовленности учащихся и уровень трудности тестовых заданий) измеряется на линейной шкале, что позволяет использовать широкий класс статистических процедур для решения задач исследования качества измерительных материалов.

Данная методика использует однопараметрическую модель Раша.

Обработка матрицы результатов тестирования для совокупности объектов ведется с использованием диалоговой системы RUMM (Rasch Unidimensional Measurement Model), разработанной под руководством профессора Мердокского университета (Австралия) Дэвида Эндрича [3].

Предварительное тестирование проходили 5839 человек из различных школ города Курска и области. Рассмотрим общие результаты оценки качества измерительных материалов.

НЕ нашли? Не то? Что вы ищете?

Анализ качества заданий проводился по следующим аспектам:

· выявление и исключение из теста экстремальных заданий;

· совместимость набора тестовых заданий;

· оценка дифференцирующей способности теста;

· соответствие трудности предложенного теста уровню подготовленности студентов;

· равномерность распределения заданий по трудности;

· диапазоны варьирования уровня подготовленности учащихся и трудности тестовых заданий;

· соответствие тестового задания модели измерения;

В исследуемом случае среди 18 заданий экстремальных не оказалось: нет заданий, которые решили бы все школьники, и нет заданий, которые не решили все школьники.

Совместимость данных тестирования модели Раша определяется по критерию Пирсона. Результаты анализа, полученные с помощью диалоговой системы RUMM, показали удовлетворительную совместимость результатов тестирования модели измерения. Это позволяет использовать результаты тестирования как для измерения уровня подготовленности учащихся, так и для измерения уровня трудности заданий.

С точки зрения дифференцирующей способности вся система заданий как измеритель уровня подготовленности оценивается на Good – хорошо по пятибалльной шкале (Excellent – превосходно, Good – хорошо, Reasonable ‑ разумно, Low ‑ плохо, Too Low – очень плохо).

Заметим, что индекс сепарабельности (Separation Index), который характеризует степень дифференцирования школьников достаточно высокий, он равен 0,81.

Определим соответствие трудности измерительных материалов уровню подготовленности школьников.

На рис.2.1 представлены распределения уровня подготовленности школьников (вверху) и оценок трудности заданий (внизу) по результатам 4 этапа.

Рис.2.1. Соответствие между уровнем подготовленности школьников и трудностью тестовых заданий (шаг 0,25 логит) (4 этап)

На рис.2.2 представлены распределения уровня подготовленности школьников (вверху) и оценок трудности заданий (внизу) по результатам 3 этапа.

Рис.2.2. Соответствие между уровнем подготовленности школьников и трудностью тестовых заданий (шаг 0,5 логит) (3 этап)

На рис.2.1 по оси абсцисс откладываются значения латентных переменных (в логитах) уровня подготовленности школьников и уровня трудности тестовых заданий, т. е. на одной и той же шкале откладываются значения двух латентных переменных. В этом состоит особенность использования модели Раша. По оси ординат с левой стороны указывается число испытуемых (вверху) и число заданий (внизу). С правой стороны – соответствующие величины в процентах.

В идеальном случае гистограмма распределения трудностей заданий должна быть близка к равномерному закону распределения. Это обозначает, что представленный набор тестовых заданий с одинаковой точность позволяет оценить уровень подготовленности школьников на всем диапазоне изменения трудностей тестовых заданий. В нашем случае можно считать, что распределение трудностей заданий близко к равномерному закону. Однако, отметим тот факт, что значения трудностей заполняют весь диапазон их изменений. Средняя трудность заданий не должна отличаться от среднего уровня подготовленности школьников более чем на 0,5 логит. В нашем случае средний уровень подготовленности школьников на 0,133 логит выше среднего уровня трудности заданий., т. е. в четвертом этапе результаты несколько улучшились. С этой точки зрения, что трудность теста хорошо соответствует уровню подготовленности учащихся.

Диапазон изменения уровня подготовленности школьников составил: от ‑4,5 до 3,0 логит. Таким образом, длина всего интервала составила 7,5 логит. Этот факт еще раз подтверждает высокую дифференцирующую способность теста.

Уровень трудности заданий изменяется от –3,0 до 3,0. Таким образом, длина всего интервала составила 6,0 логит. Исходя из гистограммы, для улучшения характеристик теста, можно было бы рекомендовать несколько скорректировать тест, добавив задания с трудностью, лежащее в диапазоне от 2,0 до 2,5 логит. Распределение трудности заданий для четвертого этапа такое же, как и для третьего этапа.

На рис.2.3 и рис.2.4 показаны примеры анализа совместимости тестовых заданий №3 №11 со всем набором тестовых заданий. Точками на графике показаны результаты школьников, которые разделены на пять категорий по уровню подготовленности. Очевидно, что результаты всех категорий школьников практически лежат на теоретической кривой (на характеристической кривой для тестового задания №3). С этой позиции данное тестовое задание является достаточно хорошим.

Рис.2.3. Характеристическая кривая для тестового задания №3 ( 4 этап)

Рис.2.4. Характеристическая кривая для тестового задания №3 ( 3 этап)

Анализируя графики рис.2.3 и 2.4., отметим, что характеристические кривые для задания №3 в третьем и четвертом этапе практически совпадают. Кроме того, и трудность их практически одинакова. Это характеризует надежность (воспроизводимость) тестов.

На рис.2.5 и 2.6 показаны характеристические кривые для заданий №11 для четвертого и третьего этапа.

Рис.2.5. Характеристическая кривая для тестового задания №11 (4 этап)

Рис.2.6. Характеристическая кривая для тестового задания №11 (3 этап)

Задания №11 являются более сложными по сравнению с заданиями №3 и в меньшей степени соответствует общему набору тестовых заданий. Отметим, что самые слабые учащиеся отвечают с вероятностью меньшей теоретической, в то время как, самые сильные – с вероятностью большей теоретически ожидаемой. Аналогичным образом проанализированы все остальные тестовые задания.

Замечание. Таким образом, тест по математике четвертого этапа имеет достаточно высокие статистические характеристики и, тем не менее, его можно было бы еще совершенствовать.

Задания части "С" проверялись учителями предметниками и, невзирая на соответствующие критерии по оценки заданий "С", баллы за задания "С" оказались в большинстве случаев завышены. Это подтверждается и тем фактом, что во многих случаях корреляционная связь между общим тестовым баллом и баллами за задания "С" не высокая R =0,49. Т. е. при низких результатах за задания частей "В", за задания "С" результаты высокие!

!

Ранжирование заданий по трудности

Ниже приведена таблица, в которой тестовые задания ранжированы по трудности, рассчитанной в логитах (в порядке уменьшения трудности)

Номер

задания

задания

логит

Ср. кв.

Отклон.

3

B3

-3,084

0,121

1

B1

-1,886

0,086

5

B5

-1,773

0,084

6

B6

-1,67

0,082

7

B7

-1,267

0,076

4

B4

-1,196

0,075

2

B2

-0,703

0,071

8

B8

-0,657

0,071

9

B9

-0,469

0,069

11

B11

-0,417

0,069

12

B12

-0,058

0,068

10

B10

0,396

0,068

13

C1

0,797

0,045

14

C2

1,721

0,05

15

C3

2,004

0,044

18

C6

2,562

0,054

16

C4

2,813

0,074

17

C5

2,888

0,082

Таким образом, задания С5, С4, С6, С3, С2, С1 являются самыми трудными, а задания В3, В1, В5, В6, В7, В4 – самыми легкими.

Литература

1. , , и др. Практическая квалиметрия в управлении качеством образования. Оценка эффективности образовательных инноваций и технологий. Пятая всероссийская научно-практическая конференция. Славянск-на-Кубани. 2003. -с.107-112.

2. , , . Входной уровень подготовленности студентов первого курса по результатам ЕГЭ-2008 (портрет первокурсника - 2008) / Курск. гос. техн. ун-т. Курск, 20с.

3. Getting Started RUMM 2010. Rasch Unidimensional Measurement Models.- Pert: RUMM Laboratory Ltd. 20p.

4. , Маслак качества тестов по математике Интернет-экзамена в сфере профессионального образования. Курск. гос. техн. ун-т. Курск, 20с.

5. Челышкова и практика конструирования педагогических тестов. Учебное пособие. –М.: Логос, 20с.:ил.

6. http://www1.ege.edu.ru/content/yien/431/166.

Директор

Центра тестовых технологий КурскГТУ, проф.