Составление и оценка качества педагогических ритериально–ориентированных тестов (стр. 2 )

Одно касается испытуемых. В первой строке представлены баллы самого успешного испытуемого, во второй менее, и т. д., по нисходящей сумме баллов, если ее посчитать для каждого испытуемого.

Другое упорядочение проведено для заданий. На первом месте стоит самое легкое задание, по которому имеется наибольшее число правильных ответов, на втором - меньшее, и т. д., до последнего, у которого имеется всего один правильный ответ.

В таблице приводятся и основные статистические данные, принимаемые во внимание на первом этапе эмпирической проверки качества заданий.

Вначале определяется мера трудности заданий. Известную трудность заданий, как первое требование к тестовым заданиям, можно образно сравнить с разновысокими барьерами на беговой дорожке стадиона, где каждый последующий барьер чуть выше предыдущего. Успешно преодолеть все барьеры сможет только тот, кто лучше подготовлен.

Трудность задания может определяться двояко:

- умозрительно, на основе предполагаемого числа и характера умственных операций, необходимых для успешного выполнения задания;

- эмпирически, путем опробования задания, с подсчетом доли неправильных ответов по каждому из них.

Эмпирически трудность заданий определяется сложением элементов матрицы по столбцам, что указывает на число правильных ответов, полученных по каждому заданию (Rj). Чем больше правильных ответов на задание, тем оно легче для данной группы испытуемых.

Больше правильных ответов оказалось в первом задании (Rj = 12), что означает, что оно самое легкое в матрице.

В классической теории тестов многие годы рассматривались только эмпирические показатели трудности. В новых вариантах психологических и педагогических теорий тестов больше внимание стало уделяться также и характеру умственной деятельности учащихся в процессе выполнения тестовых заданий различных форм.

В силу простоты показатель R, удобен, но до тех пор, пока не появляются другие группы испытуемых, с разным числом испытуемых (N). Поэтому для получения сопоставительных характеристик R, делят на число испытуемых в каждой группе.

pj= Rj / N

В результате получается нормированный (числом испытуемых) статистический показатель - доля правильных ответов, pj.

Значения pj приводятся в третьей строке нижней части таблицы. Статистика pj долго использовалась в качестве показателя трудности в так называемой классической теории тестов. Позже была осознана содержащаяся в ней смысловая неточность: ведь увеличение значения pj указывает не на возрастание трудности, а наоборот, на возрастание легкости, если можно применить такое слово.

Поэтому в последние годы с показателем трудности заданий стали ассоциировать противоположную статистику - долю неправильных ответов (qj). Эта доля вычисляется из отношения числa неправильных ответов (Wj - вторая строка нижней части таблицы) к числу испытуемых (N):

qj = Wj / N

Значения qj представлены в четвертой строке нижней части таблицы. Естественным образом принимается, что

pj + qj = l

Результаты сложения по строкам представлены в последнем столбце таблицы. Из последнего, одиннадцатого столбца таблицы видно, что больше правильных ответов у первого испытуемого, а меньше - у последнего. Это столбец представляет собой числовой вектор тестовых баллов испытуемых. Суммирование баллов всех испытуемых, представленных в таблице, дает число 65. Полезно посчитать средний арифметический тестовый балл в данной группе испытуемых

М = 65 / 13 = 5.0

Это равенство отражает сумму всех элементов матрицы тестовых заданий, но только для случаев, когда для получения Yi используются одинаковые весовые коэффициенты значимости заданий в тесте, все равные, например, единице.

Вариация, дисперсия баллов и дифференцирующая способность.

Вариация баллов является еще одним требованием к тестовым заданиям. Если на какое-то задание правильно отвечают все тестируемые, то такое задание становится не тестовым. Испытуемые отвечали на него одинаково; между ними нет вариации. Соответственно, по данному заданию в матрице будут стоять одни единички.

Не тестовым надо считать и то задание, на которое нет ни одного правильного ответа; в матрице по нему ставят, соответственно, одни нули. Вариация по нему также равна нулю. Нулевая вариация означает практическую необходимость удаления задания из проектируемого теста. Оно, для данной группы, не тестовое. Возможно, в другой группе это задание заработает, но это будет задание уже другого, а не данного теста, если под тестом понимать метод и результат измерения знаний.

Удобной мерой вариации является значение дисперсии баллов, обозначаемой символом sj2. Для заданий, в которых используется только дихотомическая оценка (1 или 0), мера вариации определяется по сравнительно простой формуле:

sj2 = pj qj

Значения дисперсии по каждому заданию, рассчитанные по этой формуле, представлены в пятой строке нижней части таблицы.

Помимо вариации баллов в каждом задании считается вариация тестовых баллов испытуемых, набранных ими в тесте, по всем заданиям. Расчет показателей вариации тестовых баллов начинается с определения суммы квадратов отклонений значений баллов от среднего арифметического тестового балла (SSy), по формуле:

НЕ нашли? Не то? Что вы ищете?

SSy= å(Yi - M)2

Для данных таблицы:

SSy = [(+++++++++++ (2-5)2+ (l-5)2= 42+ 32+ 22+ 12+ l2+ 02+ 02+ 02+ (-l)2+ (-l)2 + (-2)2+ (-3)2+ (-4)2= 62

У показателя SSy тоже есть недостаток, который заключается в его зависимости от числа испытуемых: при прочих равных условиях, чем больше группа, тем большей оказывается å(Yi - M)2, что делает этот показатель несопоставимым для групп с разным числом испытуемых. Поэтому для исправления отмеченного недостатка используют второй прием - делят SSj на число испытуемых в группе. В результате получается стандартный показатель вариации тестовых баллов, называемый дисперсией sy2.

Для тестовых баллов в столбце Yi таблицы дисперсия вычисляется по формуле и при N, равном тринадцати испытуемым, дисперсия равна:

Для удобства в интерпретации тестовых результатов вместо дисперсии часто используется стандартное отклонение тестовых баллов от средней арифметической. Оно обозначается символом Sy и вычисляется как корень квадратный из значения sy2.

Расчет Point-biserial коэффициента корреляции.

Далее рассчитывается коэффициент корреляции Пирсона, который называется, point-biserial коэффициентом корреляции

где

M1- среднее арифметическое по всему тесту для испытуемых, получивших по данному заданию один балл;

M0- среднее арифметическое по всему тесту для испытуемых, получивших по данному заданию ноль баллов;

n1 - число испытуемых, получивших в задании один балл;

n0 - число испытуемых, получивших в задании ноль баллов.

При использовании данной формулы из таблицы используются следующие данные (например, для 7-го задания):

один балл по седьмому заданию получили 1, 2, 3, 6 и 7 испытуемые. Сложение полученных ими баллов по Y дает

9+ 8+ 7+ 5+ 5= 34;

среднее арифметическое M1 = 34 / 5 = 6,800.

Ноль баллов по этому же заданию получили 4, 5, 8, 9, 10, 11, 12, и 13 испытуемые. Сложение полученных ими баллов по Y дает

6+ 6+ 5+ 4+ 4+ 3+ 2+ 1= 31;

среднее арифметическое Мо = 31/8 = 3,875,

При n1= 5, n0= 8; n= 13, подстановка полученных данных в формулу даёт

Коэффициент корреляции Пирсона нужно рассчитать для всех заданий (далее его нужно занести во вспомогательную таблицу для всех заданий).

Чем выше значения r, тем больше вероятность превращения задания в тестовой форме в тестовое задание, то есть быть включенным в тест. Особенно заметно эта вероятность повышается при г > 0,4.

Если взять значение r2 * 100%, то получим значение так называемого коэффициента детерминации, выраженного в удобной для интерпретации процентной мере связи задания с суммой баллов.

Для взятого примера коэффициент детерминации у седьмого задания равен

0,6512 * 100% = 42,4 %,

что можно интерпретировать так: 42,4% вариации суммы тестовых баллов испытуемых по всем заданиям связано с вариацией баллов по одному только седьмому заданию, что указывает на очень высокий потенциальный вклад седьмого задания в общую дисперсию теста. Нулевая корреляция свидетельствует об отсутствии у задания системных свойств, присущих тесту. Такие задания устраняются из тестовых материалов, как не выдержавшие эмпирической проверки.

Наконец, можно рассчитать коэффициент надежности теста (он используется только для гомогенных тестов). Напомним, что гомогенный тест измеряет знания по одной учебной дисциплине, одной теме, по одной части какой - либо изучаемой науки. Если предположение о гомогенности заданий теста находит подтверждение, то надежность теста теоретически обоснованно считать по формуле Кьюдера-Ричардсона , названной так по фамилии авторов:

где,

r - коэффициент надежности теста;

rpbj2 - квадрат коэффициентов корреляции каждого задания (коэф. Пирсона);

åpjqj, - сумма дисперсий заданий теста;

Sy2 - общая дисперсия тестовых баллов испытуемых по всему тесту.

В первой части этой формулы Sy2 представляет значение дисперсии тестовых баллов. åpjqj - это сумма дисперсий всех заданий.

Вторая часть этой формулы, взятая в квадратные скобки, состоит из квадрата отношения, представленного в первой части и отношения, в котором определению подлежит только rpbj2* pjqj значения квадратов коэффициентов корреляции каждого задания с суммой баллов; индекс j означает номера заданий с первого по десятого. Значение суммы представлено в последней ячейке вспомогательной таблицы, приводимой ниже.

Вспомогательная таблица

№ №	1	2	3	4	5	6	7	8	9	10	å
rpbj	0.132	0.488	0.305	0.494	0.494	0.706	*0.651*	0.534	0.757	0.293
r2pbj	0.017	0.238	0.093	0.244	0.244	0.498	*0.424*	0.285	0.565	0.086
pjqj	0.071	0.130	0.213	0.248	0.248	0.248	*0.236*	0.213	0.178	0.130	1.915
r2pbj pjqj	0.001	0.031	0.020	0.060	0.060	0.123	*0.100*	0.061	0.100	0.011	0.567

Подстановка полученных данных в формулу даёт результат:

Сравнивая полученный результат с таблицей коэффициентов надежности, можно оценить разработанный тест:

Значение коэффициента надежности

Качество теста

0,,599

0,,699

0,,799

0,,899

0,,949

0,950 - выше

Плохое

Неудовлетворительное

Удовлетворительное

Хорошее

Очень хорошее

Отличное

Полученное значение надежности теста используется далее для расчета так называемой стандартной ошибки измерения тестовых баллов (в данном методическом пособии этот расчет не рассматривается).

Построение гистограммы тестовых результатов

Результаты таблицы баллов можно представить в виде гистограммы. Идеальное распределение тестовых результатов представляется кривая нормального распределения. Чем лучше сделан тест и чем больше испытуемых, тем больше реальное распределение баллов, представляемое гистограммой, начинает приобретать форму нормального распределения.

Для построения гистограммы исходные тестовые баллы полезно сгруппировать:

Набранные баллы	Частоты
1	1
2	1
3	1
4	2
5	3
6	2
7	1
8	1
9	1

Для данных приведенного примера, чаще других повторяется балл 5 (его набрали трое испытуемых).

По данным таблицы можно построить гистограмму тестовых результатов:

3.2 Оценка валидности теста

Существуют несколько подходов к валидизации тестов, различающихся в зависимости от используемых критериев. В педагогической практике наибольшее распространение в последние годы получили такие тесты, валидность которых не требуется доказывать эмпирически: в таких тестах критерием их пригодности является само содержание теста, одобренное опытными преподавателями - экспертами. При этом у преподавателя должна быть уверенность в том, что задания теста находятся в соответствии с программой; задания теста корректно сформулированы; высока вероятность того, что студент, успешно ответивший на задания теста, знает дисциплину в соответствии с полученной оценкой. Перечисленные пункты объединяются общей идеей: содержит ли тест задания, пригодные для оценки знаний по конкретной дисциплине? Например, если в результате статистической проверки выявляется, что ответы на вопросы теста вполне позволяют обоснованно судить о знаниях студентов, то считается, что тест содержит валидные вопросы, а, следовательно, он валиден по содержанию.

3.2.1 Пригодность теста для достижения поставленной цели

Как и обоснование любой деятельности, процесс валидизации начинается с уточнения цели и конкретных задач педагогического контроля. Если ставится цель проверить знания студентов по какой-либо дисциплине и при этом не важно, каким методом это надо будет сделать, то легко понять, что эта цель может быть достигнута посредством использования зачетов, экзаменов, курсовых и дипломных работ. Эти и другие методы неравноценны с точки зрения объективности и качества оценки, и потому вопрос о валидности легко переводится в прагматическую плоскость оценки сравнительной пригодности того или иного метода для достижения поставленной цели.

Использование тестовых заданий способствует объективной оценке знаний студентов, поставленных в одинаковые условия и позволяет контролировать не только конечный результат, но и сам процесс обучения. Повышается степень мотивации студентов и их самоконтроль. Немаловажно, что тестирование позволяет за небольшое количество времени проверить уровень знаний достаточно большого количества учащихся.

Вероятно, и сам преподаватель имеет возможность оценить свои способности. Ведь если средний балл за тестирование нынешнего курса выше, чем предыдущего, возможно, в этом есть заслуга и преподавателя?

Если тест создан с целью проверки знаний по одной учебной дисциплине и все вопросы теста связаны именно с ней, то такой тест считается валидным для этой частной цели.

3.2.2 Соответствие по форме подачи материала

Эффективность тестов может зависеть и от формы. Нарушение тестовой формы всегда приводит к худшему выражению содержания и к худшему пониманию смысла задания испытуемыми. Таким образом, форма подачи каждого тестового задания должна быть обоснована составителем теста.

3.2.3 Соответствие по уровню трудности

Тест считается валидным по уровню трудности, если он соответствует уровню подготовленности тестируемых в данный момент. Легко понять практическую бесполезность того, чтобы давать слабым испытуемым трудные задания: большинство испытуемых, вероятнее всего, не сумеют правильно на них ответить. Так же обстоит дело и с легким тестом: его бесполезно (неэффективно) давать знающим испытуемым, потому что и здесь высока вероятность, но теперь уже правильных ответов, и потому практически все испытуемые получат по тесту одинаково высокий балл. И в том, и в другом случаях испытуемые не будут различаться между собой. Измерение, таким образом, не состоится по причине несоответствия уровня трудности теста уровню подготовленности. Из этих соображений легко вывести, что самый эффективный тест - это тест, точно соответствующий по трудности заданий уровню подготовленности испытуемых.

Для определения трудности тестовых заданий можно использовать полученную статистику результатов их выполнения:

i – номер студента

j – номер задания

х – выполняемое задание j –е задание i –м студентом

Зная уровень трудности каждого тестового задания, можно установить уровень сложности всего теста.

3.2.4 Соответствие по содержанию

Определить коэффициент валидности теста по содержанию – значит определить, как выполнение теста соотносится с другими независимо сделанными оценками знаний испытуемых. Для определения валидности требуется независимый внешний критерий, то есть оценка группы преподавателей - экспертов.

За коэффициент валидности принимают коэффициент корреляции результатов тестовых измерений и критерия и рассчитывают по формуле:

где,

n – количество испытуемых

Y1,Y2, …, Yn - экспертная оценка знаний испытуемых (представлена числовой последовательностью), полученная независимо от процедуры тестирования;

средняя арифметическая экспертных оценок;

sY - стандартное отклонение экспертных оценок.

yn – оценки по тесту.

Для промежуточных расчетов потребуются формулы:

Пример расчета:

Экспертная оценка

Ср. оц = 3,8

Ст. откл = 0.83

Оценка теста

Ср. оц = 3,6

Ст. откл = 0.54

V=0,9

Теперь можно составить экспертное заключение по тесту (Приложение 2) и спецификацию теста (Приложение 3).

ЗАКЛЮЧЕНИЕ

Если значение коэффициента надежности попадает в интервал 0,80-0,89, то говорят, что тест обладает хорошей надежностью, а если этот коэффициент не меньше 0,90, то надежность можно назвать очень высокой. Обоснованная валидность теста, которую не требуется доказывать эмпирически, также подтверждает пригодность составленного теста для проверки знаний студентов.

Если основные показатели теста оказались не совсем удовлетворительными, то кроме указанных рекомендаций к составлению тестов, можно обратить внимание на длину теста и время тестирования, которые напрямую влияют на надежность и валидность теста.

Длина теста - под длиной теста понимается количество заданий, входящих в тест. Классическая теория тестов утверждает: чем длиннее тест, тем он надежнее. Но практика аудиторного тестирования показывает, что если тест очень длинный, то ухудшается мотивация и внимание. Оптимальная длина теста – 30-60 заданий.

Время тестирования - каждый тест имеет оптимальное время тестирования - время от начала процедуры тестирования до момента наступления утомления. Разброс по характеристикам порога наступления утомления довольно большой - от 20 до 100 минут в одной возрастной группе. Основные причины утомления: возраст, мотивация, монотонность выполняемой работы, индивидуальные особенности испытуемых. Минимальная продолжительность тестирования зависит от форм, количества и трудности заданий. Например, для выполнения простого тестового задания закрытой формы с выбором одного элемента из предложенных достаточно 10-15 секунд до 1 минуты и от 2 минут на открытую форму. Естественно, что подобные критерии определяются экспериментальным путем и не носят характера нерушимых стандартов.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3

Составление и оценка качества педагогических ритериально–ориентированных тестов (стр. 2 )

3.2 Оценка валидности теста

3.2.1 Пригодность теста для достижения поставленной цели

3.2.2 Соответствие по форме подачи материала

3.2.3 Соответствие по уровню трудности

3.2.4 Соответствие по содержанию

ЗАКЛЮЧЕНИЕ

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы