Статистический подход к оцениванию знаний учащихся

Цейтлин «CuBe Matrix GbR», ФРГ: *****@***net

Повышение эффективности обучения учащихся возможно с использованием системного подхода на стыке таких дисциплин, как педагогика, психология, метрология, квалиметрия, прикладная математическая статистика, теория планирования эксперимента и информатика на базе современной вычислительной техники.

Определим уровень знаний учащихся как относительное количество усвоенных учащимся знаний, или как долю объёма знаний, определённого учебной программой в регламентированный период времени.

Статистический подход к оцениванию уровня знаний учащихся предполагает расчёт функции распределения средневзвешенного значения обобщённой медианы тестовых и экзаменационных оценок уровня знаний. Это позволяет корректно решать следующие задачи:

(а) сравнивать индивидуальные и групповые уровни знаний учащихся;

(б) выбирать отличников, середняков и отстающих;

(в) сравнивать методики преподавания и квалификацию педагогов по успеваемости учащихся;

(г) принимать решения о приёме учащихся в ВУЗ и переводе на следующий курс;

(д) определять места в конкурсах.

Статистическая оценка – это приближённое выборочное значение оцениваемого параметра распределения случайной величины; функция от выборки (наблюдаемых значений) из генеральной совокупности (обычно - гипотетически бесконечной) значений случайной величины. Уровень знаний является случайной величиной.

Термин «оценка» в педагогике характеризует уровень знаний учащегося, а в прикладной статистике это - статистическая оценка. Здесь эти термины используем – или раздельно (уровень знаний или статистическая оценка), или совместно: статистическая оценка уровня знаний учащегося.

НЕ нашли? Не то? Что вы ищете?

Занятие - урок, лекция, семинар, лабораторная практика и т. п. в течение одного академического часа (45 мин) или двух (90 мин) в аудитории учебного заведения.

Рутинное компьютерное тестирование – краткая проверка уровня знаний, полученных учащимися на предыдущем занятии, производимая в начале следующего занятия или (и) полученных учащимися на данном занятии, производимая в конце этого же занятия на базе современной вычислительной техники.

В качестве устойчивой меры положения случайной величины уровня знаний используется статистическая оценка уровня знаний - медиана: её точечная (однозначная) статистическая оценка и её двусторонние доверительные интервалы.

Двусторонние доверительные интервалы медианы уровня знаний – интервалы, которые покрывают неизвестную медиану генерального распределения уровня знаний с заданными доверительными вероятностями.

Оценки уровня знаний учащихся условно разделим на объективные, получаемые с помощью рутинного компьютерного тестирования и субъективные численные экспертные оценки, даваемые экзаменаторами учащимся на итоговых экзаменах.

Традиционным численные экспертные оценки уровня знаний (2, 3, 4, 5), присущи такие недостатки: (а) числа и действия над ними не интерпретируются (например, знания «на 4» не превышают в два раза знания «на 2»); (б) для точного статистического оценивания и сравнения ряда оценок уровня знаний приходится использовать специальный метод расчёта среднемедианных показателей [1]; (в) объективность оценок уровня знаний не обеспечивается формальными методами рутинного компьютерного тестирования.

Оценки уровня знаний «в процентах» обладают следующими достоинствами: (а) числа и действия над ними интерпретируются (они относятся к метрической шкале отношений: уровни знаний учащихся относятся как их оценки; 0% означает отсутствие знаний); (б) широкий диапазон уровня знаний от 0% до 100% облегчает статистическое сравнение уровней знаний (например, с помощью медиан); (в) объективность и точность оценок уровня знаний обеспечиваются формальными методами рутинного компьютерного тестирования.

Уместно пересчитывать оценки уровня знаний из одной шкалы в другую. Если отсутствие знаний Y = 2 балла принять за Х = 0% уровня знаний, а Y = 5 баллов - за Х = 100% уровня знаний, то формулы соответствия:

Х% ≈ 33,33Y – 66,67 и Y = Е[2 + 0,03Х%], (1)

где Е[•] – оператор округления до целого числа, или – с помощью таблицы:

Х Î (0; 17; 33; 50; 67; 83; 100) % и Y Î (2; 2,5; 3; 3,5; 4; 4,5; 5) баллов.

Совершенствование педагогической технологии предполагает стимулирование учащихся с помощью рутинного компьютерного тестирования к равномерной работе над изучаемой дисциплиной в течение учебного цикла; экзаменаторы получают более полное представление об успехах учащихся, и могут тестировать их по тем темам, которые учащиеся освоили хуже. Это позволяет учащимся на экзамене улучшать плохие объективные оценки, полученные при рутинном компьютерном тестировании, и получать повышенные итоговые статистические оценки уровня знаний за весь курс.

Экзаменаторы ставят численные экспертные оценки уровня знаний учащихся, пользуясь своими субъективными представлениями об отношении того количества знаний, которое учащиеся усвоили, ко всему объёму необходимых знаний. Из объективных статистических оценок уровня знаний, полученных в процессе рутинного компьютерного тестирования и субъективных статистических оценок уровня знаний рассчитывается (с учётом весовых коэффициентов важности) итоговая статистическая оценка уровня знаний учащихся.

Традиционно при педагогических измерениях рассматривают лишь точечные (однозначные) статистические оценки уровня знаний (обычно – средние арифметические значения, редко – медианы [2]); вопросы о построении эмпирических функций распределения оценок уровня знаний и представления статистических оценок уровня знаний в виде двусторонних доверительных интервалов медиан не поднимаются. Однако в настоящее время такие задачи легко решают численными методами: строят кусочно-линейные аппроксимации эмпирических функций распределения уровня знаний учащихся, точечные статистические оценки и двусторонние доверительные интервалы медиан уровня знаний бутстреп-методом [2]. Расчёты выполняются по мере поступления данных в базу данных после каждого рутинного компьютерного тестирования, так что статистические оценки уровня знаний учащихся периодически уточняются в течение учебного цикла.

Объективные статистические оценки уровня знаний учащихся

Тест рутинного компьютерного тестирования состоит из N заданий; каждому заданию ставятся в соответствие n ответов (n = 0, 1, 2, …). Если n = 0 (тестовые задания открытой формы, когда ответа нет), то учащийся должен получить ответ сам.

Если n > 0 (тестовые задания закрытой формы, когда ответы есть), то учащийся должен выделить среди ответов правильные. Если количество ответов n во всех N заданиях одинаково, то из n ответов могут быть m – правильных (m £ n) и (n - m) – неправильных. Учащийся должен указать все m правильных ответов.

Каждой i – й задаче (= 1, 2, …, N) тестового задания открытой формы можно придать «вес» Vi (численные экспертные оценки степени трудности), Vi  Ζ [Vi = 1 - для самых лёгких задач; Vi Î (2, 3, …) – для более трудных]. Оценка W уровня знаний учащегося вычисляется по формуле

W = 100%/ , (2)

где индикатор ki = 1, если ответ правильный и ki = 0, если ответ неправильный.

Погрешность статистической оценки уровня знаний учащихся тем меньше, чем больше количество N заданий в каждом рутинном компьютерном тестировании. Однако число N не должно быть слишком большим, чтобы учащийся мог выполнить все задания за небольшое время. Поэтому в рутинное компьютерное тестирование отбирают минимум валидных заданий.

Пусть к каждому вопросу тестовых заданий равной степени трудности закрытой формы придаётся n ответов, среди которых один – правильный (m = 1) и n – 1 неправильных [3]. Каждый ответ на каждое из N заданий составляется так, чтобы вероятность угадать правильный ответ была равной 1/n. Вероятное число u ответов, которое можно угадать, ничего не зная, вычитается из набираемой суммы баллов. Тогда оценка W уровня знаний учащегося:

W = [100(Х - u)/(N - u)]%, (3)

где Х – общее количество правильных ответов из N возможных.

При малой степени строгости тестов допустимо случайно угадывать максимальное количество правильных ответов, и ограничение u минимально: u = u-; при средней степени строгости даётся возможность угадать около половины правильных ответов, u = u0; при высокой степени строгости возможности угадывать правильные ответы практически нет, и u максимально: u = u+; значения ограничений u-, u0 и u+ в зависимости от n Î (2, …, 8) и N Î (30, 50, 100) приведены в статье [3] (рис. 1).

Рис. 1. Точечные u0 и интервальные u-, и u+ оценки количества угадываемых ответов (графики доц. ).

Тестовые задания закрытой формы более эффективны как средство обучения и менее - как средство оценивания уровня знаний.

Расчёт двусторонних доверительных интервалов медиан бутстреп-методом [2]

Исходные данные: N - объём выборки; W = F-1(P) - аппроксимация обратной эмпирической функции распределения случайной величины W; j = j{Wi} - вид заданной статистики (по умолчанию j(·) – медиана); B - доверительная вероятность, В Î (68; 83; 95; 99; 99,7)%. Избранные значения величины В обоснованы так. Если распределение имитируемой статистики j будет неотличимо от нормального, то значения В Î {68; 95; 99.7}% приблизительно отражают «правила одной, двух и трёх сигм» [2] соответственно; значение В = 83% полезно в случае сравнения двух параметров на критическим уровне значимости αк = 5% методом доверительные интервалы (доказано [2]: если два 83%-ных двусторонних доверительных интервалов параметров перекрываются, то гипотеза о равенстве сравниваемых параметров не отклоняется и – наоборот); значения В Î {90; 99}% – промежуточные, общепринятые при табулировании разных эмпирических функций распределения [2].

Результатами расчёта являются графики эмпирических функций распределения оценок уровня знаний учащихся, обратной эмпирических функций распределения статистики j (медианы) и таблицы её двусторонних доверительных интервалов (которые могут быть выведены на экран дисплея).

В бумажном отчёте об успеваемости учащихся достаточно приводить 95-процентные итоговые статистические оценки уровня знаний учащихся (В = 95%) – двусторонние доверительные интервалы медиан (которые могут быть распечатаны).

Пример

Дано: В качестве частных показателей качества уровня знаний учащихся на экзамене приняты «степень освоения теории» и «умение решать практические задачи». Четверо экспертов присвоили этим частным показателям качества оценки важности (%): V1i = (80; 60; 100; 100) – для степени освоения теории и V2i = (99; 70; 100; 100) – для умения решать практические задачи. Три экзаменатора поставили численные экспертные оценки уровня знаний двум учащимся (%): 1-му: по степени освоения теории – W11i = (100; 83; 93); по умению решать практические задачи – W12i = (0; 92; 75) и 2-му: по степени освоения теории: W21i = (100; 77; 97); по умению решать практические задачи: W22i = (0; 67; 85).

Необходимо: (а) рассчитать 83-х-процентные двусторонние доверительные интервалы обобщённых медиан численных экспертных оценок уровня знаний учащихся; (б) проверить гипотезу о равенстве обобщённых медиан численных экспертных оценок уровня знаний против альтернативной гипотезы об их неравенстве методом доверительных интервалов [2].

Решение. 1. Расчёт точечных статистических оценок обобщённых медиан численных экспертных оценок уровня знаний учащихся.

Вариационный ряд численных экспертных оценок важности степени освоения теории (%): V1i = {60, 80, 100, 100}%. С помощью кусочно-линейной аппроксимации эмпирической функции распределения (рис. 2.) находим медиану важности степени освоения теории: V1m = 87% (см. [2] и стрелки на рис. 2).

Рис. 2. Определение медианы численных экспертных оценок для степени освоения теории с помощью кусочно-линейной аппроксимации эмпирической функции распределения: V – численные экспертные оценки степени освоения теории; F(V) – вероятность; 1 – ступенчатый график эмпирических функций распределения; 2 – ступенчатый график обратной эмпирических функций распределения; 3 – кусочно-линейная аппроксимация эмпирической функции распределения Р = F(V) и одновременно - обратной эмпирической функции распределения V = F-1(Р) [2] (графика студентки 4-го курса Мех.-мат. фак. ХНУ ).

.

Аналогично находим медиану V2m = 99.5% важности умения решать практические задачи.

Вариационный ряд численных экспертных оценок уровня знаний, данные 3-мя экзаменаторами учащемуся 1 по степени освоения теории: W11i = {83, 93, 100}%; медиана W11m = 93%. Аналогично находим: медиану численных экспертных оценок уровня знаний по умению решать практические задачи W12m = 75%; медиану численных экспертных оценок уровня знаний по степени освоения теории учащегося 2, W21m = 97%; медиану численных экспертных оценок уровня знаний по умению решать практические задачи, W22m = 67%.

Получили медианы W1im численных экспертных оценок уровня знаний учащегося 1 с весами Vim: {(W1im, Vim)} = {(93 87), (75, 99.5)};

вариационный ряд: {(W1im, Vim)} = {(75, 99.5), (93, 87)}.

Нормируем веса: Vнi = 100Vim/(V1m + V2m), i = (1, 2).

Получаем медианы W1im численных экспертных оценок уровня знаний учащегося 1 с нормированными весами Vнi: {(W1im, Vнi)} = {(75, (99.5×100)/(99.5 + 87)), (93, (87×100)/(99.5 + 87))} = {(75, 53), (93, 47)}.

По этим данным с помощью кусочно-линейной аппроксимации эмпирической функции распределения находим итоговую статистическую оценку уровня знаний учащегося 1 - медиану W1m = 83%.

Аналогично - медианы W2im численных экспертных оценок уровня знаний учащегося 2 с весами Vim: {(W2im, Vim)} = {(97, 87), (67, 99.5)}; вариационный ряд {(W2im, Vim)} = {(67, 99.5), (97, 87)}; второй вариационный ряд медиан W2im численных экспертных оценок уровня знаний учащегося 2 с весами Vнi: {(W2im, Vнi)} = {(67, 53), (97, 47)}; отсюда - итоговая статистическая оценка уровня знаний учащегося 2 - медиана W2m = 81%.

2. Проверка гипотез. Гипотезы Hс, с Î (0, 1) обычно [2] формулируют априори -

нулевую H0: |М{W1m} - М{W2m}| = 0% (4)

против двусторонней альтернативы H1: |М{W1m} - М{W2m}| ≠ 0%, (5)

где М{•} – оператор математического ожидания. Проверка гипотезы H0 (4) осуществляется методом «бутстреп». Этот метод предполагает многократное (Nu) порядка Nu Î (103 – 106) раз имитирование (на ЭВМ) данной экспертизы в предположении, что «теоретические» эмпирические функции распределения численных экспертных оценок частных показателей качества и уровня знаний будут совпадать с кусочно-линейными аппроксимациями наблюдённых эмпирических функций распределения с теми же объёмами выборок.

Каждая имитация начинается с такого же, как в настоящем примере, раздела «Дано», и оканчивается расчётом итоговых медиан Wimj, где i Î (1, 2) – номер экзаменуемого; j Î (1, 2, …, Nu) - номер имитации. В-процентные двусторонние доверительные интервалы строят путём отсечения с двух сторон (100 - В)/2 % долей Nu имитированных j-статистик (в примере – медиан). Исходные данные для каждого j-го расчёта имитируются с помощью генератора случайных чисел по следующей схеме (продолжим решение примера).

Имитация j = 1. Для имитации степени освоения теории генерируем четыре случайных числа, равномерно распределенных на отрезке [0; 1], округлив их до 3-х значащих цифр: 0,713; 0,461; 0,250; 0,750. С помощью кусочно-линейной аппроксимации обратной эмпирической функции распределения V = F-1(Р) (см. рис. 2) отображаем эти точки с оси ординат F (рис. 3) на ось абсцисс - V. Получаем четыре имитированных

Рис. 3. Имитация весов степени освоения теории: V – степень освоения теории; F - вероятность; 1 - кусочно-линейная аппроксимация обратной эмпирической функции распределения V = F-1(Р) [она же – кусочно-линейная аппроксимация эмпирической функции распределения Р = F(V) на рис. 2] (графика студентки 4-го курса Мех.-мат. фак. ХНУ ).

значения численных экспертных оценок степени освоения теории V1j = {97, 84, 69, 100}%, распределенных по заданному «закону» V = F-1(Р) распределения случайной величины V на отрезке [0; 100]. Затем повторяем все действия, изложенные в п. 1 решения задачи, и получаем два имитированных значения медиан (%) W1mj = 84,16 и W2mj = 80,04 (на итерации j = 1). Остальные Nu – 1 значений этих медиан (Nu = 104) рассчитываем аналогично. Отсекая с двух сторон ((100 - 83)/2)Nu% = 8,5Nu% = 850 значений этих медиан (с округлением до целых чисел), получаем их 83-х-процентные двусторонние доверительные интервалы: для 1-го учащегося (81; 85)% и для 2-го - (79; 83)%.

Поскольку эти доверительные интервалы перекрываются, гипотеза (4) Н0 о равенстве обобщённых медиан численных экспертных оценок уровня знаний этих учащихся не отклоняется на уровне значимости, превышающем критический уровень αк = 5%.

3. Другое решение. Более точная (но менее наглядная) и общая (для проверки ряда подобных гипотез) проверка гипотезы H0 (4) заключается в расчёте уровня значимости α - вероятности ошибочного отклонения гипотезы H0, если она верна, и его сравнении с априори заданным критическим значением αк (гипотеза H0 отклоняется, если α < αк и не отклоняется, если α ≥ αк) [2]:

α = 2min{[]; [Nu -]}/Nu, (6)

где K(m) – индикаторная функция: K(m) = 1, если m > 0 и K(m) = 0, если m £ 0; значения медиан W1mj и W2mj многократно (Nu раз) вычисляются так же, как и в п. 1 решения примера. В примере получили α = 2min{[6275]; [104 - 6275]}/104 = 2Í3725/104 = 0,745. Поскольку α ≈ 0,7 ≥ αк = 0,05, гипотеза H0 (4) не отклоняется.

Задачи дальнейших исследований

Совершенствование педагогической технологии требует изменения существующих в педагогике традиций оценивания уровня знаний учащихся. Для её широкого внедрения педагогами-энтузиастами должен быть проведен ряд экспериментальных исследований в различных учебных заведениях.

Цель исследований - сравнение гипотез о равенстве статистических оценок уровня знаний W (обобщённых медиан численных экспертных оценок уровня знаний) в контрольных Wк и экспериментальных Wэ группах учащихся против односторонней альтернативы о превышении статистической оценки уровня знаний в экспериментальных группах.

Основываясь на нашем опыте планирования подобных экспериментов [2], приведём сначала самые общие рекомендации.

Необходимо: (а) к существующим в ВУЗах базах данных создать модули подпрограмм (а1) рутинного компьютерного тестирования, (а2) интервального оценивания обобщённых медиан и (а3) проверки статистических гипотез бутстреп-методом; (б) при планировании эксперимента использовать некомпозиционные ортогональные факторные планы.

В опытах достаточно варьировать только два фактора - место рутинного компьютерного тестирования - в начале следующего занятия (Х1) или в конце каждого занятия (Х2). Значения факторов Хi, i Î (1, 2) должны варьироваться на двух уровнях – минимальном (Хi0), означающем отсутствие данного вида рутинного компьютерного тестирования и максимальном (Хi+) - наличие данного вида рутинного компьютерного тестирования. В течение учебного цикла (семестра) тестируются 4 группы учащихся, изучающих одну дисциплину, имеющих априори приблизительно равную успеваемость. Ортогональный план имеет вид (Х10; Х20) – для контрольной группы (обычная технология обучения и экзамен); (Х1+; Х20); (Х10; Х2+) и (Х1+; Х2+) – для трёх экспериментальных групп (эффективная технология обучения - рутинное компьютерное тестирование и экзамен). Обобщение данных заключается в расчёте интерпретируемой [1] эмпирической функции регрессии

W = b0 + b1Х1 + b2Х2 + b12Х1Х2, (7)

где bi и b12 - коэффициенты регрессии, значения которых ожидаются положительными, значимо (по одностороннему t–критерию Стьюдента [2]) отличными от нуля.

Более точное (и более трудоёмкое) исследование заключается в формировании контрольной и опытных групп такими учащимися, которые имеют статистически неразличимые возможности в освоении изучаемой дисциплины.

Допустим, к примеру, в исследование принимается «поток», состоящий из 100 учащихся, которым предстоит выслушать лекции по одному предмету, и необходимо создать 4 группы по 20 человек в каждой, такие, чтобы в контрольной группе были учащиеся, имеющие приблизительно равные возможности в освоении изучаемой дисциплины с учащимися в трёх экспериментальных группах.

Для этого необходимо построить эмпирическую функцию регрессии, учитывающую влияние значимых факторов на успеваемость учащегося, и методом кластерного анализа в пространстве этих факторов выделить искомые кластеры. Ели таких кластеров (С) будет немного, например, С £ 4, то из каждого кластера можно будет взять часть учащихся и из них сформировать контрольную группу; остальных учащихся распределить по трём экспериментальным группам.

В качестве дополнительных откликов примем априорные (до экспериментов) показатели успеваемости учащихся (медианы Wа статистических оценок уровня знаний по дисциплинам, близким изучаемой), а также - предположительно значимые пассивно наблюдаемые факторыi) - объективные (пол, возраст, семейное положение) и субъективные (путём анкетирования учащихся) - эмоциональное состояние до и после экзамена; мотивация учёбы – отношение к будущей профессии, стремление к приобретению знаний, любознательность, стремление приобрести диплом, а знания усвоить формально; мысли перед экзаменом - мнение о важности дисциплины для будущей специальности, расчёт на везение, подсказки, шпаргалки, божью помощь и действие примет, а также - на поблажки ввиду заинтересованности руководства оставлять в стенах ВУЗа студентов, которые платят за учёбу; недостаток времени на домашнюю подготовку к занятиям - наличие в семье детей, больных, долгой дороги, слабого здоровья, посторонних занятий и стимуляции к учёбе.

Перечисленные факторы (Хi) позволят построить приближённо интерпретируемую [1] эмпирическую функцию регрессии, учитывающую влияние этих факторов на успеваемость учащегося:

Wа = b0 ++, G: 1 £ i < j £ n, (8)

где Wа - статистическая оценка уровня знаний учащегося за предыдущий период обучения; bi и bij – значимые (по двустороннему t–критерию Стьюдента [2]) коэффициенты регрессии.

Затем методом кластерного анализа [1] в пространстве значимых факторов Хi можно будет выделить С кластеров учащихся, находящихся в приблизительно равных априорных условиях в отношении предстоящего педагогического эксперимента.

Теперь статистическое сравнение апостериорных статистическая оценка уровня знаний учащихся в опытной и контрольной группах (см. п. 3 примера) из всех С выявленных кластеров становится более точной. Разность статистических оценок уровня знаний учащихся ∆W «попавших» в одинаковые кластеры, но принадлежащие разным группам - опытный и контрольной, может служить откликом при построении итоговых эмпирических функций регрессии вида (7).

Выводы

Повышение эффективности обучения учащихся возможно с использованием системного подхода – путём объективной оценки в процентах уровня знаний с помощью технологии рутинного компьютерного тестирования на каждом занятии, субъективной оценки уровня знаний в процентах на итоговом экзамене и расчёта средневзвешенной обобщённой медианы всех оценок численным бутстреп-методом.

Для широкого внедрения предложенной технологии необходимо проведение ряда экспериментальных исследований в различных учебных заведениях.

Литература

1. , Цейтлин поведение: анализ спонтанных последовательностей и регрессионных моделей в маркетинговых исследованиях. - Киев: Освіта України, 2011. - 192 с.

2. Из опыта аналитического статистика. - М.: Солар, 2007. - 906 с.

3. Цейтлин экспертная оценка знаний учащихся. - Зав. лаб. - 2010. Т. 76, № 11. - С. 70 - 72.