Партнерка на США и Канаду по недвижимости, выплаты в крипто
- 30% recurring commission
- Выплаты в USDT
- Вывод каждую неделю
- Комиссия до 5 лет за каждого referral
Многие преподаватели, никогда не принимавшие участия в процессе создания теста и не имеющие специальной подготовки по теории педагогических измерений, путают тесты с наборами контрольных заданий, необоснованно полагая, что достаточно последние представить в форме с выбором ответа, как сразу получится педагогический тест. Однако узнать тест это или набор обычных контрольных заданий в специфической форме можно только после анализа результатов их апробации на представительной выборке обучающихся, завершающейся оценкой надежности и валидности полученных результатов измерения. Таким образом, радикальное отличие теста от обычных заданий состоит вовсе не в форме представления вопросов и ответов, а в опоре на теорию педагогических измерений и статистические методы анализа качества полученной информации по результатам измерения.
2.2. Надежность педагогических тестов, ее виды и оценка
Надежностью называется характеристика точности тестовых результатов и их устойчивости к действию случайных факторов. Термин «надежность» часто по сложившейся традиции, хотя и не вполне верно, используют по отношению к тесту. Некорректность состоит в том, что надежность самого теста условие необходимое, но не достаточное для получения высокой точности измерений. В случае нарушений требований к стандартизации условий проведения тестирования можно с помощью очень надежного измерителя получить результаты со значительным ошибочным компонентом. Поэтому более правильно говорить о точности и устойчивости результатов измерений, и только иногда использовать словосочетание «надежность теста».
Ошибка измерения определяется как статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла испытуемого. Ошибки измерения происходят по различным как контролируемым, так и неконтролируемым причинам и дифференцируются в зависимости от источника происхождения на систематические и случайные. Источниками систематических ошибок являются недостатки тестов или процедур их применения, снижающие точность измерений. Случайные ошибки происходят в силу особенностей поведения испытуемых, которые могут плохо себя почувствовать в процессе выполнения теста. В целом ошибки измерения влияют в ту или иную сторону на результаты тестирования, снижая надежность теста, которую рассматривают только в контексте случайных ошибок измерения.
Поиск путей повышения надежности результатов педагогических измерений должен опираться на анализ причини их снижения. К числу таких наиболее часто встречающихся причин, часть из которых неизбежна, а другая часть может быть минимизирована в процессе измерений, можно отнести:
1. Субъективизм при оценке результатов выполнения заданий теста. Отход от жесткой стандартизации форм тестовых заданий, наблюдающийся в настоящее время в образовании в связи с появлением компетентностного подхода, включение заданий со свободно конструируемым ответом неизбежно снижают объективность оценок учебных достижений обучающихся. При анализе результатов выполнения заданий со свободно конструируемыми ответами всегда наблюдаются различия между подходами различных экспертов несмотря на стандартизацию оценочных рубрик, разрабатываемых к заданиям теста. Очевидным следствием этих различий является снижение надежности результатов измерения.
2. Угадывание. Как показывают специальные исследования, угадывание существенно снижает надежность результатов измерений, особенно в группах испытуемых со слабой подготовкой при ответах на наиболее трудные задания теста.
3. Двусмысленность формулировок заданий, логические просчеты, наличие не работающих дистракторов в заданиях с выбором ответа и другие недоработки приводят к тому, что некорректные задания пропускают наиболее сильные испытуемые, что в целом негативно отражается на надежности результатов тестирования.
4. Недостаточная длина теста. Излишняя минимизация длины теста приводит к снижению его надежности.
5. Отсутствие понятной, однозначно интерпретируемой испытуемыми, стандартной инструкции к тесту. Инструкции к тесту должны быть предельно стандартизованы и точны. Любые неоднозначности, двусмысленности и отступления от требований стандартизации в инструкции ведут к снижению надежности измерений.
В целом все перечисленные факторы приводят к снижению качества педагогических измерений, поэтому их влияние стараются нивелировать как в процессе создания, так и при применении теста. Можно получить ряд рекомендаций по повышению надежности теста:
1. Первым фактором, влияющим на надежность, является внутренняя согласованность теста, обеспечиваемая высокой однородностью содержания заданий при их отборе в тесте. Поэтому для обеспечения высокой надежности желательно разрабатывать одномерные компетентностные тесты, а это означает, что их число для итоговой аттестации обучающихся должно быть равно числу компетенций во ФГОС, что не реально в силу ограничений по времени на оценочные процедуры в учебном процессе.
2. Второй фактор, влияющий на надежность теста – его длина. Надежность повышается с увеличением длины теста. Этот формальный вывод не всегда согласуется рассогласование с реальными возможностями обучающихся. По мере роста длины теста увеличивается утомляемость и снижается мотивация к выполнению заданий теста, что в совокупности ведет к росту ошибки измерения. Поэтому при выборе оптимальной длины теста разработчики руководствуются группой факторов, среди которых: высокая дисперсия тестовых баллов, нормальный характер их распределения, форма используемых заданий, возраст испытуемых и определенное в соответствии с их физиологическими возможностями оптимальное время выполнения теста.
Для приближенного оценивания надежности можно использовать расчет коэффициентов корреляции в рамках программного обеспечения SPSS. Приемлемые оценки традиционной надежности измерений варьируют в довольно небольшом диапазоне и зависят от целей использования результатов измерений. В текущем учебном процессе вполне достаточно, чтобы оценки надежности колебались на уровне 0,7. При использовании тестов в рубежной или итоговой аттестации обучающихся желательно, чтобы оценки надежности были выше и достигали, хотя бы, 0,8. Если тест разрабатывают профессионалы для внешних оценок при комплексной проверке деятельности вуза, то к нему предъявляют более жесткие требования и значения коэффициента надежности должны превышать 0,85. Как правило, на практике надежность стандартизированных тестов в центрах тестирования колеблется в интервале (0,8; 0,9).
В целом, при оценке надежности нельзя полагаться лишь на один показатель, поскольку каждый из них имеет свои ограничения, смещающие оценки надежности теста в сторону завышения или занижения. Для достоверной проверки качества теста следует учитывать несколько показателей надежности
2.3. Валидность педагогических тестов, ее виды и оценка
Как отмечалось выше, валидность — это характеристика способности теста служить поставленной цели измерения. Обычно постановка целей создания теста носит комплексный характер, поэтому часто стараются проверить валидность с разных позиций сообразно различным направлениям использования теста. Например, тест для приема абитуриентов в вузы должен служить цели дифференциации испытуемых и прогностическим целям, так как мало выделить лучших абитуриентов в момент приема, нужно также осуществить спрогнозировать успешность дальнейшего обучения зачисленных в вузы абитуриентов. Компетентностный тест должен быть валиден по содержанию (содержательная валидность), по измеряемой переменной (конструктная валидность) и по способности прогнозировать успехи в профессиональной деятельности выпускников учебных заведений (прогностическая валидность).
Оценку валидности всегда получают путем соотнесения характеристик результатов измерения с внешними критериями. В качестве таких критериев могут выступать оценки экспертов при анализе содержания теста и его адекватности целям измерения (содержательная валидность), результатов по другим тестам (конструктная валидность), успешности дальнейшего обучения или работы (прогностическая валидность). Высокая корреляция между анализируемыми результатами испытуемых и внешними критериями подтверждает высокую валидность теста. Основная трудность при такой валидизации носит не практический, а методологический характер, поскольку она состоит в выборе значимого внешнего критерия.
При разработке педагогических тестов, конечно, на первом плане находится содержательная валидность, которая определяется как характеристика репрезентативности содержания теста по отношению к запланированным для проверки знаниям и умениям. Если тест позволяет проверить все то, что задумано авторами в спецификации, он считается валидным. Представление о содержательной валидности не следует связывать только с полнотой отображения в тесте содержания проверяемого курса, необходимы также правильные пропорции содержательных элементов. Конечно, во всех случаях справедлив общий вывод — чем глубже и полнее отображение, тем выше уверенность в содержательной валидности теста.
В табл. 2.3.1 представлены различные виды вопросов, которые должен ставить перед собой создатель теста в процессе его валидизации.
Таблица 2.3.1
Виды вопросов для валидизации теста
Виды валидности | Вопрос | Способ получения ответа |
Содержательная валидность | Соответствует ли содержания тестовых заданий целям измерения? | Экспертиза и данные факторного анализа говорят о соответствии содержания тестовых заданий целям измерения |
Конструктная валидность | Насколько сильно результаты выполнения нового теста связаны с результатами выполнения признанного теста той же выборкой обучающихся? | Результаты корреляционного анализа данных тестирования по новому и признанному тестам показали, что они измеряют одну и ту же переменную |
Прогностическая валидность | Может ли тест предсказать успехи или неудачу на последующей ступени обучения или работы? | Результаты корреляционного анализа данных тестирования с оценками обучающихся на последующей ступени обучения или профессиональной деятельности выпускников показали его высокую прогностическую способность |
При количественных оценках валидности для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний обучающихся без использования тестов. Процесс валидизации осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех человек.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |


