Технология тестирования как метод диагностики уровня знаний учащихся

В России наряду с традиционной системой оценки и контроля качества обучения учащихся и студентов начинает складываться новая система - тестирование, в которой тесты выступают в качестве средства педагогического измерения учебных достижений обучающихся. Это вы­звано теми изменениями в обществе, которые произошли за последние годы. Новые социальные требования обусловили потребность общества в получении независимой, объективной информации о качестве получаемо­го и предоставляемого образования.

Технологией составления тестов занимается наука тестология. Тестология (от англ. test — проба, греч. logos — знание) — междисциплинарная наука о создании качественных и научно обоснованных измерительных диагностических методик. Они широко применяются в разных отраслях науки и практики — в психологии, педагогике, медицине, технике, менеджменте. В каждой из этих отраслей методы тестологии имеют общие черты, связанные с обеспечением таких свойств тестовых методик, как валидность, надежность, эффективность и т. п. Но есть и отличительные особенности, связанные со спецификой предмета тестирования и условиями сбора эмпирической информации. Мы хотели бы рассмотреть технологию составления педагогических тестов по иностранному языку, которые по назначению и своим характери­стикам являются измерителями знаний, умений и навыков обучающихся, предусмотренных учебной программой.

Впервые тесты начали применяться в 1864 году Дж. Фишером в Великобритании для проверки знаний учащихся. Теоретические основы тестирования были разработаны английским психологом Ф. Гальтоном, который разработал основные принципы применения серии одинаковых испытаний к большому числу индивидов, условия статистической обработки результатов и исходные положения выделения эталонов оценки. Термин "тест" ввёл американский психолог Дж. Кеттел в 1890 году. Дж. Кеттел считал тест средством для проведения научного эксперимента с соответствующими требованиями к чистоте эксперимента. Такими требованиями он определял:

НЕ нашли? Не то? Что вы ищете?

одинаковость условий для всех испытуемых;

ограничение времени тестирования приблизительно одним часом;

в лаборатории, где проводится эксперимент, не должно быть зрителей;

оборудование должно быть хорошим и располагать людей к тестированию;

одинаковые инструкции и четкое понимание испытуемыми, что нужно делать;

результаты тестирования подвергаются статистическому анализу, находят минимальный, максимальный и средний результат, рассчитывают среднее арифметическое и среднее отклонение.

Одной из причин развитие тестирования было проникновение в психологию и педагогику математических методов. Американский психолог (1863-1945) разработал основные методы корреляционного анализа для стандартизации тестов и объективного измерения тестологических исследований. Статистические методы Спирмена — применение факторного анализа — сыграли большую роль в дальнейшем развитии тестирования.

В России - минимальный опыт составления тестов, первый центр по тестологии был открыт в 1998 году, но, несмотря на то, что в Европе и Америке накоплен большой опыт в этой области, отечественные и зарубежные специалисты согласны в том, что переносить этот опыт целиком без внесения коррективов нельзя из-за самой специфики образования в России, отличного менталитета.

Сегодня мы находимся в начале пути по созданию отечественной индустрии разработки и использования качественных стандартизированных и сертифицированных тестовых материалов, при­годных для проведения независимой оценки качества знаний обучающих­ся, качества образования на разных образовательных ступенях в стране и на отдельных ее территориях, а также для аттестации образовательных учреждений. Это направлено на обеспечение в нашей стране высокого качества образования.

Педагогические тесты называются также тестами достижений студентов – это тесты успеваемости, тесты творческих возможностей и т. д. Такие тесты выполняют несколько функций:

выступают как средство оценки знаний,

выявляют недостатки обучения,

подсказывают направление последующего обучения,

обеспечивают мотивацию учащегося,

помогают приспособить обучение к потребностям индивида,

дают информацию об уровне знаний, усвоенных учащимися.

В классической - отечественной и зарубежной - теории тестов существует общепринятая классификация тестовых заданий:

задания закрытой формы, ЗЗФ (multiple-choice item) (тест множественного выбора, задания с выбором правильного/правильных ответа/ответов, избирательные тесты);

задания открытой формы, ЗОФ (free response item, recall-tupe ts.) (открытые задания, задания на дополнение, задания со свободно конструируемым ответом, тест по методике дополнения, методика восстановления);

задания на установление соответствия, ЗУС (matching item) (задания на соответствие, тест перекрестного выбора);

задания на установление правильной последовательности, ЗЗУП (тест на систематизацию, тест на группировку).

Тест может состоять как из заданий одного типа (например, множественный выбор), так из заданий разного типа. Тест с заданиями разного типа позволяет избежать однообразия, которое вызывает утомляемость студентов.

Согласно теории тестирования тест может быть охарактеризован как эффективный, если он удовлетворяет следующим требованиям:

Валидность

Надежность

Дискриминативность

Обоснованный выбор шкалы оценивания результатов тестирования.

Словари раскрывают понятие валидности как степени соответствия теста своему назначению измерять то, для чего он создан; действительной способности теста измерять тот объем знаний, для диагностики которого он заявлен.

Оценка валидности включает следующие этапы:

определение очевидной валидности (face validity). Такую валидность видно, что говорится, «невооруженным глазом» - оценивается общее соответствие теста его назначению.

определение концептуальной валидности (construct validity). Степень соответствия теста, измеряющего какое-либо свойство, имеющимся теоретическим представлениям об этом свойстве – оценивается по соответствию вопроса действительно верному и единственно возможному, соответствующему современным научным представлениям ответу из представленной выборки. (Понятно, что в случае, когда в задании предлагается выбрать 2-3 правильных варианта именно эти 2-3 ответа должны соответствовать представленным выше требованиям). Как правило, эта валидность оценивается экспертами.

определение содержательной валидности (content validity). Разработанный тест должен включать вопросы для оценки максимально возможного числа параметров того свойства, которое этот тест измеряет. Но также нужно учитывать основной принцип конструирования теста — максимальное отражение всех параметров свойства через минимальное количество заданий. Ничего лишнего. Оценка тестовых заданий по этому признаку призвана выяснить насколько полно в них отражен изученный материал и для устранения "сорняков" (например необоснованное дублирование заданий на проверку одного и того же знания). Эта валидность также оценивается с помощью экспертных оценок.

Вышеприведенные методы оценки эффективности теста помогают педагогу не только самому конструировать инструменты для измерения усвоенных знаний, умений и навыков, но и выбирать из уже разработанных тестов наиболее качественные.

Следующим важным требованием к эффективному тесту является – надежность. Под надежностью понимают согласованность результатов, полученных при каждом повторном выполнении теста одним и тем же испытуемым, с результатами его первого тестирования. Требование надежности заключается в обеспечении устойчивости результатов многократного тестирования одного и того же испытуемого. При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований не должны существенно различаться между собой.

Абсолютной тестовой надежности не существует, погрешности допускаются, однако чем они выше, тем ниже тестовая эффективность. Надежность можно проверить следующими методами:

тест-ретестовая надежность - повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал колеблется от 2 недель до 1 месяца. Однако в реальной ситуации провести повторное тестирование с соблюдением одинаковых условий не всегда представляется возможным.

эквивалентная надежность выявляется путем предъявления испытуемому теста и через некоторый интервал времени его альтернативного варианта. Полученные результаты также сравниваются между собой. Недостатком выявления эквивалентной надежности является то, что на практике сложно доказать параллельность двух форм (вариантов) теста.

разделенная надежность определяется при делении теста на две части и сравнение результатов выполнения двух частей по отдельности. Тест можно также разделить не на две части, а использовать схему «чет-нечет». Надежность расщепленных частей теста исследуется путем анализа устойчивости результатов отдельных совокупностей тестовых заданий при однократном тестировании. По сути, данный способ является некоторой модификацией способа исследования надежности параллельных форм, однако он более технологичен и поэтому получил более широкое распространение.

Проверить надежность теста можно по формуле .

После проведения первого теста заполняем таблицу

Таблица 1

C:\Documents and Settings\123\Рабочий стол\календарно-тематическое планирование\рисунки\1.bmp

После проведения второго теста (минимум через 2 недели) заполняем следующую таблицу:

Таблица 2

C:\Documents and Settings\123\Рабочий стол\календарно-тематическое планирование\рисунки\2.bmp

По следующей формуле высчитываем полученные результаты

C:\Documents and Settings\123\Рабочий стол\календарно-тематическое планирование\рисунки\3.bmp

n – количество человек

d – все сложенные разницы рангов

Надежным считается тест, в котором R = 0,7 (в пределах)

Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.

Дискриминативность теста характеризуется способностью отдельных заданий и теста в целом дифференцировать тестируемых относительно максимального и минимального результатов теста. Например, задания, на которые правильно отвечают все студенты, не имеют никакой практической ценности.

Шкалирование результатов тестирования – это способ их оценивания и упорядочивания в определенную числовую систему. Шкалирование результатов и группировка их по интервалам необходимы для проведения ряда статистических процедур, которые должны сопутствовать валидизации теста. Применительно к педагогическим тестам речь идет о шкале достижений, в соответствии с которой за правильное решение тестового задания студенту начисляются баллы, которые затем суммируются. Выполненные задания учитываются в процентном отношении: 0-10 % - «5»; 11-25% - «4»; 26-50% - «3», менее 50% - «2». Так как в нашей стране оценивание результатов осуществляется по пятибалльной системе, то в любом случае проценты придется переводить в баллы.

Тест, состоящий из 100 заданий, шкалировать легче. Но чаще тесты состоят из меньшего количества заданий и тогда все задания условно принимаются за 100% и, исходя из этого, высчитывается количество правильно выполненных заданий в процентном отношении.

Кроме того, шкала может быть обоснованным образом разбита на интервалы, в зависимости от сложности заданий. В идеале желательно, чтобы в каждый интервал попало одинаковое количество суммарных результатов. Но тест может быть разбит на задания разного уровня сложности, и тогда за более трудные задания будут начисляться более высокие баллы, в любом случае требуется, чтобы ни в один интервал не попала большая часть результатов. Так скажем, тест состоит из 5 блоков, каждый из которых включает 10 заданий, за выполнение 8 из 10 заданий начисляется 1 балл за блок, за меньшее количество 0. Тогда соответственно за выполнение 3 блоков выставляется оценка «3», 4 – «4», 5 – «5».

Кроме стандартной системы перевода процентов баллы может использоваться норма шкалирования по большинству.

Теперь, когда мы изложили базовые требования, предъявляемые к тестам, перейдем непосредственно к описанию методических рекомендаций по их составлению. При составлении тестовых заданий необходимо соблюдать следующие правила:

задание должно быть записано настолько просто, насколько это возможно для его точного понимания. Нежелательно, чтобы на результаты оказывали влияние общие способности испытуемого. В формулировке задания не следует использовать отрицания (тестироваться должны только позитивные знания!). Например не корректным считается вопрос «Какой город не находится в Великобритании?». Исключением являются задания на проверку знаний грамматического материала.

следует избегать такие слова как «все», «каждый», «всегда», «никогда», «иногда», «часто», в которых обычно содержатся двусмысленность или противоречие. Все говорят, что …;

все неверные варианты ответа, называемые дистракторами, должны быть такими, чтобы привлечь внимание отвечающего, чем больше будет неэффективных (неприемлемых) дистракторов тем проще становится тест. Варианты ответов на каждое задание должны подбираться таким образом, чтобы исключались возможности простой догадки или отбрасывания заведомо неподходящего ответа. Очень эффективный метод поисков дистракторов состоит в том, чтобы в процессе обучения записывать ошибки студентов, которые впоследствии и могут стать ложными формами.

ответ на один вопрос не должен давать ключа к остальным;

не использовать в тестах по иностранному языку неверных не существующих в языке грамматических форм (влияет на зрительную память студентов);

при подборе заданий необходимо одновременно продумать и их последовательность расположения с таким расчетом, чтобы они в целом образовывали обоснованную систему, обеспечивающую конструктивную целостность;

тест должен включать не менее 20 заданий;

оптимальное количество ответов 4-6. Допускается и иное количество вариантов (в случае необходимости) Однако надо иметь в виду, что систематическое использование большого количества вариантов утомляет тестируемого и усложняет задачу разработчика тестовых заданий. Меньшее количество вариантов упрощает задачу отвечающего, повышая вероятность угадывания верного ответа;

при проверки знаний наша задача - установить знает ли студент правильный ответ, поэтому неэффективными заданиями считаются те, в которых нет ни одного правильного ответа;

к тесту всегда должна быть приложена инструкция по выполнению заданий;

тесты должны быть составлены минимум на два варианта, чтобы минимизировать возможность списывания;

задания должны быть расположены по мере возрастания трудности. Это предотвратит случаи, когда слишком старательный студент потратит много времени и сил на задания, которые он не сможет решить и, таким образом, лишит себя возможности попытаться выполнить другие задания, по которым он мог бы получить баллы.

предварительно нужно выверить время на написание теста, рассчитывая на среднего студента и вычитая время, которое уйдет на раздачу материалов и объяснение инструкции, сдачу выполненных работ.

Таким образом, как показывает опыт, причиной неудачного написания тестов, зачастую является, незнание составителем основ технологий разработки тестов, нечеткие инструкции.