Материалы, размещенные в телекоммуникационной библиотеке и представленные в виде цитат,

допускается использовать исключительно в образовательных целях.

Запрещается тиражирование информационных ресурсов с целью извлечения коммерческой выгоды, а также иное их использование в нарушение соответствующих положений действующего законодательства по защите авторских прав.

ISBN-5

ББК 74.202.вб

Основы культуры адаптивного тестирования. – M.:

Национальный институт бизнеса, 2003. – 370c.

Авторы данной книги поставили цель – дать полное представление о высоких технологиях стандартизированной компьютерной дидактической оценки уровня знаний, интеллектуальных умений и практических навыков объектов нечисловой природы. В ней рассматриваются основные проблемы создания культурного пространства для проведения тестовых испытаний, описаны функции этого комплекса. Обсуждаются культурологические аспекты адаптивного тестирования, оценивания и классификации уровня учебных достижений целеустремленных объектов. Представлены классификация тестов учебных достижений, методологические правила конструирования и методика экспертной оценки качества программно-дидактических тестовых материалов. Изучаются вопросы спецификации банков тестовых заданий, проектирования культурных форм тестов и методы оценки поведения тестируемых.

Книга написана образно и будет одинаково полезна как философу, интересующемуся проблемами создания культурного пространства адаптивного тестирования, так и преподавателям, учителям и тестологам, желающим познакомиться с нетрадиционными взглядами на предмет своих занятий.

НЕ нашли? Не то? Что вы ищете?

ББК 74.202.вб

ВВЕДЕНИЕ

Поскольку субъективное не может быть выражено в объективном, то в попытке охарактеризовать символической формулой все, что превышает рассуждения на эмпирическом уровне и часто значительно превосходит наш рассудок, необходимо выйти за пределы этого рассудка в той или иной форме.

(А. Евдокимов)

О словосочетании «Культура компьютерного тестирования» в системе научного знания не сложилось еще единого мнения. Можно утверждать: культуры компьютерного тестирования, обладающей собственным научным статусом, признанным среди других областей знаний своим объектом и предметом исследования, своей историей и традицией, пока нет. По существу, мы имеем дело с молодой, хотя и активно развивающейся областью знания, о которой впервые было заявлено авторами данной книги в начале 2000-гo года.

История эмпирического естествознания есть, прежде всего, генезис открытия, систематизации, классификации поистине необозримого многообразия состояний объектов произвольной природы. Чтобы описать эти феномены культуры, идентифицировать и классифицировать поведение целеустремленного (телеологического) объекта нечисловой природы, зафиксировать с заданной верностью степень его обученности, необходим специальный понятийный аппарат. Этот лексикон понятий выражает наличие в компьютерной тестологии и тестометрии специализированного знания, и обладание этим словарем является необходимым условием эмпирического исследования даже на описательном уровне (приложение). Едва ли могут быть сомнения в том, что система понятийных обобщений для представления поведения и описания свойств объектов произвольной природы может быть получена, в основном, с помощью индуктивного метода, несмотря на присущую ему ограниченность.

Культура компьютерного тестирования не является монодисциплиной в том смысле, что ее содержание охватывает несколько областей знаний. Такие науки, как управление, тестология, статистика, тестометрия, культурология, и не только они, «активно питают ее своими методами, теоретическими и эмпирическими достижениями». Полное знание культуры компьютерного тестирования (KT) образуется на пересечении антропологических, философских, социологических и технических наук. Проблема актуализации культуры KT может быть сформулирована следующим образом.

Имеется возможность создания информационного пространства тестовых проверок, которое можно представить как совокупность позиционеров (разработчиков, экспертов, тестируемых и т. п.), единой информационной сети, обеспечивающей объединение телекоммуникационных ресурсов, локальных компьютерных сетей и персональных компьютеров пользователей, средств коммуникаций и связи в целостную систему тестовых испытаний. Разработана также инструментальная среда для проведения стандартизированной компьютерной дидактической оценки (СКДО) уровня учебных достижений (УУД) – знаний, интеллектуальных умений и практических навыков – респондентов; имеются банки программно-дидактических тестовых заданий различной категории трудности и нормы деятельности позиционеров, которые построены на основе смысловых, ценностных, количественных и качественных категорий.

На конечном интервале (фиксированном или случайном) времени в этом пространстве изучается поведение тестируемого. Под поведением понимается целенаправленная деятельность целеустремленного объекта – тестируемого, направленная на получение оценки, которую индивид может ожидать после формирования им заключений на требования программно – дидактических тестовых заданий (ПДЗТ). Нормативное поведение респондента определятся набором предписаний, характерных для всех телеологических объектов, участвующих в процессе тестовых испытаний. Ситуационное поведение определяется той реальностью, с которой сталкивается тестируемый при выполнении конкретного ПДЗТ. Оба типа поведения должны быть рациональными, поскольку определяются осознанными целями и планами их достижения. Наблюдателем за поведением целеустремленного объекта является квазисубъект (тестирующая система), в котором персонифицируются духовные знания и социальные нормы деятельности, применяемые в культурном пространстве тестовых проверок. Духовная компонента культуры образует банк тестовых утверждений, на котором планируется и строится поведение объектов нечисловой природы. Тестовые ситуации определённым образом выбираются компьютерной программой из банка тестовых заданий (БТЗ) и предъявляются респондентам на экране дисплея в дискретные моменты времени, а заключения тестируемых на требования этих заданий используются для установления степени их обученности. Установление значения латентного (скрытого) параметра объекта нечисловой природы по своей сущности – это процесс перехода от действительного состояния обученности тестируемого к модели его поведения и работе с моделью. Из общих соображений о процессе научных наблюдений за поведением эмпирического объекта может быть высказана гипотеза о том, что результат тестовых испытаний зависит от качества заключений респондента на требования ПДТЗ различной меры трудности.

Научно-технический прогресс в области компьютерного адаптивного тестирования (КАТ) был бы невозможен без достижений эмпирического естествознания. Постсовременной теории адаптивного тестирования известны многие достижения, полученные эмпирическим путем. Сюда можно отнести классификацию программно-дидактических тестов (ПДТ) по результатам тестовых проверок, выбор механизмов шкалирования, создание методов экспертной оценки качества тестовых материалов на основе принципов непараметрической статистики, построение концептуальной модели поведения объекта нечисловой природы и т. д.[8 – 12].

Авторы данной книги не разделяют фальсифиционизм Поппера, который, в принципе, опровергает эмпирическое исследование, отрицает его фактическую обоснованность. Но ведь фактами являются не только единичные явления, но и события, которые доступны лишь косвенному наблюдению и восприятию. Последнее также сопровождается эмпирическими представлениями в системе КАТ, правда в единстве с теоретическим мышлением, которое формирует гипотезы, высказывает идеи и догадки, определяет возможности выхода за границы наличного опыта с тем, чтобы установить факты, описание которых станет возможным благодаря возможностям теории адаптивного тестирования, с одной стороны, и инструментальным средством познания – с другой. И в этом смысле логичное (правдоподобное) мышление говорит не меньше о поведении или состоянии объектов произвольной природы, чем теоретическое. «Чисто логическое мышление само по себе не может дать никаких знаний о мире, все познание реального мира исходит из опыта и завершается им. Полученные чисто логическим путем положения ничего не говорят о действительности» (А. Эйнштейн).

Эмпирическое исследование систем КАТ складывается из научных наблюдений, оценок и экспериментов; эти процедуры базируются на операциях сравнения и являются основой для обобщений и их последующей проверки. Научные наблюдения за поведением тестируемых или действиями экспертов имеют своей целью выявление априорно неизвестных особенностей объектов произвольной природы или установление изучаемых значений параметров, уровень которых определяется. Позиционер, ведущий наблюдение, имеет четкое представление о результатах предшествующих опытов, умеет идентифицировать поведение объектов, без чего невозможно обнаружить искомое качество того или иного значения признака. Научное наблюдение направлено на подтверждение (или опровержение) конкретной гипотезы и базируется на уже имеющихся знаниях, а также истинных теоретических предпосылках. Здесь исследователь призван четко обосновывать исходные посылки и учитывать то положение, что наблюдаемая система является эмпирической и его внимание должно быть привлечено прежде всего к этому факту. Такой подход к научному наблюдению, как и к познанию вообще, когда изучается лишь приближенное отражение объективной действительности, позволяет изменить первоначальное предположение (например, о правомочности применения для исследования поведения объектов нечисловой природы только методов количественной статистики) или даже заменить его новой гипотезой. При этом следует иметь в виду, что отдельные наблюдения как единичные факты заключений объектов нечисловой природы на требования ПДТЗ подвержены воздействию различного рода неопределенностей, таких, например, как состояния респондента, изменения параметров инструментальной среды и т. п. Существенным является и то, что наблюдение предполагает невмешательство исследователя в течение сеанса KT.

Одним из важнейших понятий эмпирического исследования является оценка, т. е. познание количественных и качественных атрибутов наблюдаемых явлений. В философских категориях классификация и оценивание поведения тестируемого выражают различные характеристики степени его обученности. Верность эмпирической оценки (классификации и оценивания) подтверждается их многократным повторением в сходных условиях проведения компьютерных проверок. Расхождения между числовыми данными оценки качества выводов респондента и действительной степенью его обученности (которая определена формулой закона) в известной мере неизбежны. Однако, при наличии повторяющегося существенного несоответствия между эмпирически установленными величинами и законом, естественно, возникает вопрос: насколько верно сформулирован закон, не подлежит ли он определенному ограничению в части его применения для модели поведения объекта нечисловой природы?

Оценка всегда предполагает соглашение относительно единицы знания, с которой соотносятся исследуемые заключения целеустремленного объекта или мнения экспертов о качестве тестовых материалов. Минимальное значение меры трудности ЭФТК – единица оценки конкретного вывода респондента. Условный характер единицы категории трудности тестовой ситуации очевиден в тестологии, что ни в малейшей степени не мешает установлению исходного и реального УУД индивида.

Безусловно, оценки действительного состояния обученности тестируемого или определения экспертами меры трудности ПДТЗ, как результаты познания, носят приблизительный характер. Верность оценки УУД тестируемых или качества тестовых материалов зависит от применяемых алгоритмов шкалирования, условий их применения, объема выборок и используемого метода прикладной статистики. Здесь эмпирическая процедура оценки, выполняемая научными средствами, предполагает постепенный переход к теоретическому знанию. Таким образом, установление оценки поведения объектов нечисловой природы или качества тестовых материалов выявляет не только переход от эмпирического к теоретическому (и обратно), но и постоянно наличествующее единство этих форм познавательной деятельности.

Уже в классической теории тестов результаты наблюдения за поведением респондентов, выполнявшиеся с помощью методов теории вероятностей и количественной статистики, применялись для измерения УУД тестируемых. Традиционная прикладная статистика лежит в основе построения математических моделей и в современной теории тестовых испытаний. В обоих случаях тестологи исходили из ошибочной гипотезы, предполагая, что ошибки измерений распределяются по нормальному закону, а испытуемые и тесты считаются однородными генеральными совокупностями. Тот факт, что это заблуждение не отразилось на результатах эмпирических научных наблюдений, дает основание предположить существование эпистемологической асимметрии между научными наблюдениями и теоретическими представлениями классической статистики. Из этого следует, что связь между ними не образует отношение двусторонней детерминации, когда эмпирические наблюдения могут быть независимы от теоретических абстракций.

Безусловно, что при корректно выбранных ограничениях и условиях проведения тестовых испытаний они становятся взаимно зависимыми или, напротив, в значительной степени определяют содержание процесса КАТ. Взаимодействие между этими категориями эмпирического и теоретического знания с замечательной проницательностью сформулировано в методологическом импиритиве : «Из наблюдений установить теорию, через теорию исправить наблюдения есть лучший всех способ к отысканию правды».

Прогностическая оценка степени обученности целеутстремленного объекта нечисловой природы не всегда совпадает с апостериорной оценкой квазисубъекта. Последняя устанавливается путём анализа траектории поведения тестируемого, под которой будем понимать упорядоченную последовательность заключений, выполняемых индивидом в процессе сеанса тестовых испытаний. Характер траектории в значительной степени определяется уровнем обученности респондента, мерой трудности предъявляемых ему ПДТЗ и ресурсом времени, выделяемого на проведение KT.

Использование компьютерных программ для установления степени обученности тестируемого имеет ряд очевидных преимуществ:

· позволяет регулярно пополнять и модифицировать банк БТЗ;

· позволяет генерировать индивидуальные тесты для каждого респондента непосредственно в процессе тестирования; вариабельность тестов при достаточном объёме БТЗ практически не ограничена;

· даёт возможность формировать различные квоты на ПДТЗ по разным разделам учебной дисциплины в зависимости от целей KT;

· позволяет вводить ПДТЗ, представленные в различных формах;

· обеспечивает автоматическую проверку правильности заключений объектов нечисловой природы, избавляет коллектив преподавателей от необходимости ручной проверки, повышает объективность оценки и технологичность процедуры испытания;

· студент имеет возможность сразу после сеанса компьютерного тестирования узнать количество баллов, набранное им в процессе испытаний;

· даёт возможность моделировать многоуровневые ситуационные проблемы, когда тестируемый должен продемонстрировать знание предмета, умение мыслить и владение практическими навыками;

· позволяет анализировать меру трудности и корректность заданий;

· даёт возможность всесторонней статистической обработки результатов тестирования и проведения сравнительного анализа степени обученности студентов по разным дисциплинам, в разных группах и учебных заведениях с коррекцией в дальнейшем методик обучения;

· избавляет от необходимости распечатывать тесты и поэтому значительно сокращает затраты на бумагу и непроизводительные потери времени;

· обеспечивает доступ к территориально распределенным БТЗ позиционеров различной категории;

· обеспечивает коммуникативное общение разработчиков ПДТ.

Авторами учтены приоритетные направления актуализации культурного пространства KT:

· установлены компоненты этого комплекса;

· создана методология КАТ и разработана концептуальная модель описания поведения объекта нечисловой природы:

· разработаны стандарты и методологические правила конструирования ПДТЗ и формирования ПДТ;

· разработаны методы анализа качества программано-дидактических тестовых материалов;

· реализована инструментальная среда для ввода хранения, модификации и предъявления ПДТЗ, а также обработки результатов КАТ;

· описаны процессы адаптации тестирующих воздействий;

· представлены механизмы оценивания и классификации УУД тестируемых; Материал книги разделен на семь взаимосвязанных разделов, каждый из которых в определенной мере соответствует указанным направлениям.

В первом разделе книги представлены результаты анализа проблем, связанных с выбором основных компонент культурного комплекса тестовых проверок. Обрисованы контуры этого пространства, анализируются философские проблемы КАТ, возникающие на стыке праксиологии, культуры мышления, психологии, тестологии и тестометрии.

Цель второго раздела – представить в рамках философии культуры различные компоненты пространства КАТ, введенное в предыдущем разделе.

В третьем разделе книги разработана система методологических правил для конструирования ПДТЗ. Эти правила образуют кодекс установившейся практики проектирования программно-дидактических тестовых материалов и более всего нуждаются в изучении с целью их корректного применения в тестологии.

В четвертом разделе книги дается подробное описание процессов конструирования валидных тестовых ситуаций. Представлен метод оценки логичности тестовых утверждений для целеустремленных объектов с различной степенью обученности.

В пятом разделе книги представлен опыт использования методологических правил, международных стандартов (в частности IMS) и требований при выборе структур представления конкретных тестовых ситуаций. Рассмотрены методы структуризации и спецификации программно-дидактических тестовых материалов, а также способы оценки их качества.

Шестой раздел книги включает в себя материал, связанный в изложением методов структуризации и спецификации банков тестовых заданий и культурных форм тестов.

В седьмом разделе книги излагается приложение методов параметрической статистики, обеспечивающих минимальные риски принятия ошибочных решений об УУД индивидов. Приведены конкретные расчеты и графические зависимости, которые облегчают читателям понимание механизма вычисления наилучших для конкретных случаев оценок.

Приложение к книге содержит перечень основных сокращений, терминов и определений, а также видеограмм ПДТЗ в среде ACT, c которыми желательно ознакомиться до начала чтения изложенного здесь материала.

Предлагаемая книга будет полезна тем, кто занимается проблемами конструирования и экспертизы профессиональных компьютерных тестов, а также созданием инструментальных средств адаптивного тестирования с моделью поведения объекта нечисловой природы. Мы надеемся, что создание банков ПДТЗ явится основой для формирования культурного пространства адаптивного тестирования и положит начало распространению контркультуры проведения тестовых испытаний, где главной целью СКДО УУД является установление реальной (сколь угодно близкой к действительной) степени обученности каждого конкретного телеологического объекта. Приписывание смыслам и значениям ценностей компонентов культурного пространства тестовых проверок наделяет их новыми качественными признаками, когда единый комплекс тестирования предстает перед нами как осмысленное описание теории КАТ. В тексте основные понятия, суждения и правила выделены специальным шрифтом, что акцентирует внимание читателя и облегчает поиск необходимой информации.

Книга направлена на формирование и развитие у участников пространства КАТ культуры логичного и логического мышления. Хорошо известно, что искушенный читатель просматривает содержание книги и переходит к интересующим его разделам. Поэтому отдельные разделы могут изучаться самостоятельно с учетом склонностей и профессиональных интересов читателей. Для облегчения понимания содержания материала авторы решили прибегнуть к повторам тех положений культуры адаптивного тестирования, которые излагаются впервые.

Авторы данной книги считают, что логичное и логическое мышление являются одинаково значимыми, а их взаимное проникновение в проблемы СКДО УУД целеустремленных объектов способно привести к новым интересным результатам. Эта книга устремлена в будущее, ее задача – возбудить мысли путём убедительных обобщений и сопоставлений, возникающих при количественных и качественных подходах к анализу и синтезу компонентов культурного пространства КАТ. В ней авторы впервые предложили подход к описанию и объяснению человеческого поведения как к системе телеологических событий. Такая точка зрения более плодотворна при изучении объектов нечисловой природы, чем механистическая – количественная.

СТАНОВЛЕНИЕ КУЛЬТУРЫ ИЗМЕРЕНИЙ ПАРАМЕТРОВ ЛИЧНОСТИ

Предыстория тестов как древняя культура возникновения и развития методов измерения параметров личности уходит в далекое прошлое. Еще в античности софисты, проводившие линию принципиального различия между природой и человеком, озвучили идею самоопределения личности на основе индивидуализации воспитания. Эта концепция в этике воспитания софистов основывалась на механистической передаче и проверке усвоения учениками собственных убеждений, расширением области применения познания по аналогии. Противопоставление природного и социокультурного уровня подготовки учеников приобретает свое дальнейшее развитие и спецификацию в этике киников.

Конфуций (Кун Фу-цы, 551 до н. э.) разделение общества на верхи и низы проводил с учетом уровня достижений испытуемых. За плату он обучал учеников грамотности, основу которой составляло знание ими содержания иероглифов. Проверкам подвергались также знания сочинений древних авторов, умения творчески пересказывать сюжеты из истории и сочинять стихи. Им была введена трехступенчатая система сдачи экзаменов. Лучшие из учеников (3-5% от числа обучающихся) получали право сдавать на вторую ступень, а обладатели первых двух ступеней – на третью. Только после сдачи трех экзаменов можно было получить высшую ученую степень и надеяться на должность правительственного чиновника.

В начале династии Чана в программу процедуры испытаний входили арифметика, стрельба из лука, искусство верховой езды, музыка, письменность, навыки в обрядах и церемониях общественной и социальной жизни. Для объективности оценок поведения учащихся экзамен принимался комиссией из трех специалистов, а условия его проведения были сходными для всех.

В Древней Греции и в Риме культура оценивания совокупности знаний, умений и навыков, а также результатов человеческой деятельности была выделена в качестве предмета осмысления. Древнегреческий философ Протагор считал, что возникновением культуры люди обязаны богу. Культура этого периода, базировавшаяся на геометрии Евклида и логике Аристотеля, вместо запоминаний прошлого опыта ориентировалась на непосредственное общение с учениками и состязание умов. В конце V века до н. э. участники диалога обучались задавать друг другу вопросы и отстаивать собственные позиции. Образцом письменных диалогов являются знаменитые рассуждения Сократа (около 470 – 399 до н. э.) с учениками в изложении Платона, когда для установления истины «учитель и ученик спрашивают друг друга и отвечают друг другу».

Первые шаги проведения педагогических испытаний писцов появились в середине III тысячелетия до н. э. в Вавилоне. В Древней Индии обучение сводилось к изложению исторически сложившихся и передаваемых из поколения в поколение порядков и обычаев. Трансляция культуры заключалась в передаче традиций от наставника ученику, а уровень обученности последнего определялся тем содержанием, которое формировалось у слушателя под воздействием конкретного учителя.

Английский монах Алкуин (около 735-804) – учитель в школе при дворе Карла Великого – составил несколько учебников, материал в которых излагался преимущественно в форме вопросов и ответов (катехизический период). Французский философ П. Абеляр () свое сочинение «Да и нет» построил как систему «вопрос – ответ», в которой искусство диалога основывалось на опровержении неверных рассуждений учеников.

В середине классического средневековья (XII – XIV) появилась первая базовая модель университета во Франции, который пользовался известной автономией по отношению к церкви, феодалам и городским магистрам. Средневековый «университет» – корпорация преподавателей и студентов – представлял собой систему гильдий. Студенты группировались вокруг ученых мужей, а их аттестация проводилась в форме диалога (бесед). Французская модель ставила в центр университетской культуры преподавателя и возводила принцип автономии университета до уровня важнейшей компоненты академического этноса. Устные экзамены в европейских университетах появились в начале XII века (Булодна, 1219; Сорбона, 1257).

В XV-XVI веках большое внимание отводилось оценкам УУД по результатам письменных работ на латинском и греческом языках, что рассматривалось в качестве средства проверки умственного развития экзаменуемых. М. Мон– 1592) – выдающийся французский мыслитель эпохи Возрождения (Ренессанса) – являлся ярким сторонником развивающего образования. H. Макиавели (1469 – 1527) подготовил первые учебные пособия «Государь» и «Рассуждения на Тита Ливия» в форме задачника с решениями, при работе с которым учащиеся принимали решения за исторических деятелей. Решение подобных задач подводило учеников к моделированию исторических событий и тренировало их ум. В 1599 году была разработана система правил для проведения экзаменов.

Индивид эпохи Возрождения склонялся приписывать свои успехи в обучении собственным талантам. Проблема элиты была поставлена Ф. Петраркой как благородство по интеллекту, а не по рождению. Идея человека – творца, вставшего на место бога, выходит на первое место, поощряются установки культивирования мастерства и предприимчивости отдельных личностей. Здесь культура оценивания поведения испытуемого подразумевалась не только как преобразованная человеком природа, но и как образованность конкретного индивида. В этот период восстанавливаются забытые в средневековье античные формы общения, формируется идеал энциклопедически развитой личности, который явился предпосылкой к дисциплинарной организации науки и техники, заложил основы для разработки гуманистической сущности человека.

В Европе XV – первой трети XVI столетия была создана ренессансная культура, провозглашавшая элитарное духовное образование «бесконечным многообразием многогранно одаренных личностей». () в «Великой дидактике» указывал, что «... в обучении юношества большей частью применялся столь суровый метод, что школы превращались в пугало для детей и в места истязания умов». Общественными почетными должностями в Академии он предлагал награждать только тех, кто успешно достиг намеченных результатов, «стал достоин и способен к тому, чтобы ему можно было вверять управление человеческими душами». Он впервые ввел в практику обучения систему уроков с четким контролем качества подготовки учащихся.

В русско-украинском высшем учебном заведении университетского типа – Киево-Могилянской коллегии (1631) – проверка качества усвоения лекций учащимися младших классов (с 1-го по 6-ой) осуществлялась инспекторами или учителями еженедельно. Плохо успевающие ученики наказывались. В старших классах (7 и 8) вместо испытаний каждую субботу проводились диспуты. Испытания в форме экзаменов проводились и в Славяно-греко-латинской академии (1685).

В эпоху Просвещения формируется новая модель культуры, которая тесно сплетается с историческим развитием человеческого общества. И. Кант () провозглашает личность абсолютной ценностью, возвел разум Homo Sapiens в ранг фундаментальной силы становления цивилизации. На первое место было поставлено преобразование мира за счет деятельности человека. Он отстаивает фундаментальную позицию асимметричного диалога, когда моральный авторитет спрашивающего (учителя) выше морального уровня ученика, фиксирует понятие «деятельность» через «образную ипостась». Одновременно с Кантом (1762 – 1814) утверждал неразделимость двух моментов сознания: «мыслящего и мыслимого, субъективного и объективного».

С целью усиления дифференциации степени обученности учеников в Царскосельском лицее была разработана тринадцати балльная система оценивания. В гг. в России был принят Устав университета, в котором отражена его автономия, введены экзамены и представлены направления перестройки учебной работы в соответствии с потребностями капиталистического развития общества. Экзамен (от латинского examen – взвешивание, испытание) представлял собой контроль не только уровня знаний воспитанников, но и способности их в музыке, фехтовании и танцах.

Основная проблема, связанная с пониманием закономерностей этапа становления культуры измерений, определялась уровнем развития производства и характером социально-экономических отношений. Сознание Homo Sapiens этого периода было направлено не только на оценку знаний и умений респондентов, но и на измерение других параметров личности. Так в 1810 году Ф. Видок предложил использовать антропологические измерения для идентификации личности. Используя этот подход, А. Бертильон разработал систему классификации «бертильонаж», основанную на установлении отдельных неизмененных частей человеческого тела. Подвергая тестам посетителей он мог по результатам измерений роста, веса, размера рук и т. п. идентифицировать конкретную личность.

В середине XVIII в. А. Дистервет (1790 – 1866) выдвинул гипотезу о том, что до начала обучения ученика необходимо выявить уровень его подготовки. Ему же принадлежит идея о том, что «сообщаемое должно вполне соответствовать уровню развития ученика». Вслед за Платоном, который делил познание на знания и умения, Дистервер впервые предположил измерять не только «знание предмета как такового, но и умения его применять». На этой основе в XVIII в. вводится предметная форма контроля над процессом обучения, которая в то время носила прогрессивный характер.

Первый президент Московского математического общества (1837 – 1903), развивая концепции (1821 – 91) и Лейбница (1646 – 1716), подчеркивал, что индивидуальное, уникальное, неповторимое тем заметнее, чем больше в испытуемом творческого, либерально-духовного, информационного. Поэтому для измерения достижений каждой личности требуется учет его специфического критического мышления в процессе сдачи экзаменов. Дж. Фишер в 1864 году впервые применил метод тестовых проверок для оценки индивидуальных достижений школьников в Великобритании.

Выдающаяся роль в развитии и применении приложений теории вероятностей к анализу ошибок научных наблюдений и измерений принадлежит французскому математику (1749 – 1827), автору одной из предельных теорем теории вероятностей. Первые исследования в области измерения индивидуальных различий между людьми в области физиологических возможностей организма и психических свойств личности были выполнены английским психологом Ф. Гальтоном (1822 – 1911), который определил три принципа установления качества умственных тестов:

· применение серии одинаковых научных наблюдений к большой выборке тестируемых;

· статистическую обработку результатов научных наблюдений за поведением респондентов;

· установление этапов оценки УУД испытуемых.

Гальтону принадлежат заслуги введения коэффициента корреляции и построения линий регрессии одной переменной на другую. Продолжая исследования Ф. Гальтона, американский психолог Дж. Катограничил время тестирования одним часом и разработал ряд требований, которые составляют основу современной тестологии. Опубликованные им в 1890 г. «Умственные тесты и измерения» широко применялись в определении «интеллектуальной физиологии» человека.

В 1885 году в США был создан экзаменационный совет, который начал проводить целенаправленную работу по созданию системы объективного контроля знаний абитуриентов колледжей. За период с 1895 г. по 1896 г. в Америке были созданы два национальных комитета, целью которых являлось координация деятельности тестологов в области создания качественных тестовых материалов, а в 1900 году был учрежден Совет по вступительным экзаменам.

Крупный шаг вперед в развитии теории тестов был сделан французским психологом А. Бине (1857 – 1911), который в 1905 г. разработал серию тестов по экспериментальному изучению особенностей мышления, диагностике умственного развития детей и распределению людей по степени их умственной одаренности. Он впервые выдвинул гипотезу установления интеллектуального развития детей, сделал первую попытку стандартизации шкалы оценивания и определения ее валидности.

Начиная с 1900 г. под влиянием работ К. Пирсона формируется прикладная статистика. В первой трети XX в. создается теория параметрической статистики, которая была положена в основу построения классической теории тестов.

Отличительной характеристикой направления учебных проверок в век Просвещения явилось то, что внимание субъектов было направлено не на контроль усвоения суммы знаний экзаменуемых, а на проверку усвоения ими усредненного набора дисциплинарных сведений и умений работы с ними. Яркие представители этого периода, такие как , A. H. Радищев, Дж. Локк, и др., уделяли большое внимание проведению учебных проверок с целью определения уровня усвоения ядра знаний канонического ряда историко-философских дисциплин, а также контролю за умением работать с античными текстами. В педагогических системах этой эпохи испытуемый как субъект растворен в объекте, когда экзаменационная отметка моделировала только универсальную среднестатистическую оценку УУД личности.

В поисках разрешения этого противоречия 12 июня 1906 г. была проведена кардинальная реформа высшей школы России, сопровождаемая изменениями содержания учебного процесса на основе введения правил о предметной системе обучения и контроля уровня усвоения знаний. Были изданы «Общие правила» о семестровом зачете достижений для получения учащимися переходного свидетельства на факультетах. Студент, который успешно сдавал зачеты по 8-ми полугодиям, получал выпускное свидетельство. Оценка результатов испытаний проводилась комиссиями и выражалась отметками: весьма удовлетворительно, удовлетворительно и неудовлетворительно. Экзамены проводились в начале или конце семестра, причем в некоторых университетах допускалась их сдача в течение всего учебного года. Испытуемый, сдавший государственные экзамены, получал диплом 1-ой степени. Если % оценок в дипломе были «весьма удовлетворительно», то выпускник мог занимать чин X класса. Право на чин XII класса и диплом II-ой степени получали специалисты, имеющие только удовлетворительные оценки.

К середине XIX века с целью психологической диагностики и профессионального отбора респондентов немецкий психолог В. Штерн, развивая положение А. Бине об измерении параметров личности, предложил пользоваться для установления результатов интеллектуальных способностей коэффициентами умственного развития индивидов.

По мере развития познания и практики с конца XIX века формируется новый способ измерения УУД. Он заключался в построении схем предметных отношений путем переноса созданных идеальных моделей из математической статистики для обоснования таких показателей, как валидность и надежность тестов. Таким путем К. Спирману удалось построить гипотетические схемы предметных связей между психологическими измерениями и корреляционными методами. Постепенно понимание дидактических тестовых измерений освобождалось от жесткой связи с наличной практикой, что явилось началом создания классической теории тестов. Становление этой теории связано с применением математических методов для обработки результатов тестовых испытаний, унификацией и нормализацией тестовых материалов, что в свою очередь привело сначала к уменьшению, а потом и к ограничению номенклатуры форм представления тестовых заданий.

В 1917 – 18 гг. в США появились два набора тестов A. C. Отиса (1866 – 1963) для установления уровня владения учащимися английским языком. Основные положения, используемые при конструировании этих тестов, позволили сформулировать принципы:

· ограничения во времени;

· детализированной инструкции как в отношении процесса тестовых испытаний, так и в отношении установления оценки;

· конструирования тестов с учетом статистической обработки результатов и экспериментальной проверки валидности тестовых заданий и теста в целом.

В начале 20 века B. A. Макколл ввел разделение тестов на педагогические и психологические. Он определил целью применения тестов учебных достижений (педагогических) группирование в классы детей с близкими показателями уровня обученности.

Первый педагогический тест был создан Э. Торндайком (1874 – 1949), автором книги «Введение в теорию психологии и социальных измерений» (1904). Примерно в это же время Йеркс предложил систему подсчета баллов, которые получал респондент за каждый правильно решенный тест. На основании этой системы оценивания Совет колледжей (США, 1926) принял тест SAT и утвердил наборы заданий для оценки деятельности педагогов. Внедряются в практику проверок тесты О. Стоуна по арифметике и Б. Зекингема для оценки правильности правописания. В 1934 году профессор Колумбийского университета Б. Буд совместно с представителями фирмы IBM приступили к разработке проекта механического устройства, ведущего подсчет качества ответов тестируемых. В течение 1916 – 30 г. г. XX столетия формируется классическая теория тестов, создаются коллективы по конструированию тестовых материалов и обработке результатов испытаний.

После утверждения Тестовой комиссии (1925) при педагогическом отделе Института методов школьной работы активизировалась деятельность педагогов и психологов по конструированию тестов для советской средней школы. Центральная педагогическая лаборатория MOHO разработала шкалу для измерения умственного развития детей, а также тесты для учета навыков в чтении, письме, счете и оценке умственной одаренности учащихся. Однако принятие в 1936 году постановления ЦК ВКП (б) «О педагогических извращениях в системе Наркомпросов» привело к полному исключению тестовых материалов из педагогической практики советских образовательных учреждений. Этот документ фактически прекращал педологические исследования, закладывающиеся в 20-30-е годы (1896 – 1934), (1889 – 1960) и (1903 – 1979) – основоположниками социокультурной теории образования. Отметим, что в работе «Проблема обучения и умственного развития в школьном возрасте» (1956) обозначил метод определения зоны ближайшего развития, где впервые предложил осуществлять оценку умственной одаренности ребенка на основе двухэтапных испытаний.

В начале 70-х годов XX в. Д. Рэск предложил вероятностную модель установления правильного вывода тестируемого

Здесь ξθ относится к степени обученности индивида θ, ξβ – к мере трудности задания.

Он изучал случай, когда тестовым испытаниям подвергались респонденты с близкими уровнями обученности. В результате было получено утверждение, что «вероятность корректного ответа на вопрос или совокупность ответов на множество вопросов не зависят от ответов, которые даны на другие вопросы».

В середине 70-х годов XX века выработаны новые критерии оценки качества индивидуальных испытаний:

· адаптивность систем тестирования к качеству выводов испытуемых;

· объективность педагогических измерений;

· экономия ресурсов и времени проверок;

· ограничение на место для записи тестируемыми заключений;

· возможность применения различных форм представления тестовых заданий.

Новации редко приемлются сразу, а такие серьезные новшества как массовый переход к новым методам измерения одного из параметров личности, как правило, сначала вызывают весьма настороженное отношение у многих преподавателей. Так в книге B. A. Kpyтевского «Основы педагогической психологии» (1972) указывается, что «в 20-х начале 30-x годов советская педагогическая психология, зараженная идеями педологии, некритически использовала заимствованные из за рубежа тесты и системы тестов». Авторы учебника для высших учебных заведений «Основы современной философии» (Издательство «Лань», 1999) утверждают, что «Разного рода «тесты интеллектуальности» подвергают дискриминации людей, способности которых, тем не менее, важны для выживания общества. Все это заставляет пересмотреть сложившиеся представления о рациональности».

Можно ли сегодня утверждать, что теория тестовых испытаний в системе российского образования нашла выход из тупика? И да, и нет. Те, кто осознал, что сделано в классической теории тестов, вернулся назад и вышел к истокам современной теории тестирования, могут быть отнесены к числу «продвинутых». Поскольку в системе образования представлена и другая точка зрения, которую отстаивают противники широкомасштабного применения тестов для проверки УУД учащихся, студентов и специалистов, то можно утверждать, что среди администрации, преподавателей и учителей представлены две точки зрения на культуру тестирования.

Серьезные исследования по разработке систем адаптивного тестирования были начаты в 1980 году. Основы этих работ составляли математические модели поведения объектов (модели Г. Раша и А. Бернбаума) и алгоритмы тестирования, базирующиеся на современной теории тестов Item Response Theory (IRT) – разновидности методологии латентного – структурного анализа (ЛСА), известного из научной литературы как метод . Различия теории IRT с методом ЛСА состоят в алгебраической трактовке последнего, не требующей нормального закона распределения для плотности вероятности ошибки вычисления УУД тестируемых в любой точке латентного континуума, а также в возможности применения функции распределения вероятности получения корректного заключения на требование ПДТЗ различной формы.

В этот период теория тестов из описательной науки, занятой собиранием и систематизацией фактического материала, начинает превращаться в науку об отношениях о законах функционирования и оценивания поведения тестируемых. Ценность моделей Раша и Бернбаума состоит в том, что они вскрывают главную «линию поведения» индивида при заданных условиях проведения тестовых испытаний. Это позволяет, исходя из фиксированной степени обученности респондента, предсказать качество его заключения на требование ПДТЗ той или иной меры трудности. Именно поэтому формулы Раша и Бернбаума выполняют в тестометрии экономизирующие функции.

Существенным отличием современной теории тестов от классической является различие методов познавательной деятельности. В современной теории тестовых испытаний наряду с существованием реального объекта изучается и его копия (модель), учитывающая посредством косвенных научных наблюдений состояния обученности оригинала.

Объективной основой такого способа исследования является формальное воспроизведение в структуре и алгоритмах оценивания основных черт исторической эволюции теории косвенных измерений. Эта особенность дала впечатляющие результаты в модели Г. Раша, где вероятность правильного заключения испытуемого на требование j-го задания и латентная переменная его обученности связаны функцией вида

Здесь θ – степень обученноститестируемого; β – мера трудности ПДТЗ.

Идеализированная модель Раша явилась плодом теоретических исследований и предполагает рассмотрение отношения между индивидом с заданным уровнем обученности и категорией трудности тестового утверждения. Эта математическая модель получена на основе гипотетико-дедуктивного метода и в соответствии с концепцией культурологического развертывания является непротиворечивой.

В современной теории тестирования дидактическая система гипотез образует иерархическое строение, на верхнем ярусе которой находится приведенная выше модель Раша, Математическая модель А. Бернбаума, разработанная также дедуктивным методом, дополнила результаты исследования Раша новой гипотезой, содержащей сведения о крутизне характеристической кривой тестового задания λj. Полученная при этом двухпараметрическая модель имеет вид [27]:

Дальнейшее развитие этой дедуктивной системы привело к появлению трехпараметрической модели

Здесь С – параметр, учитывающий вероятность угадывания тестируемым правильного заключения в тестовых заданиях закрытой формы.

У. Гибсон обобщил латентно-структурную схему Лазерсфельда для анализа латентного профиля при изучении соотношений между количественными данными. Он утверждал, что класс тестируемых является однородным относительно любых латентных величин, которые необходимы для объяснения научных наблюдений. Полная однородность поведения объектов здесь не требуется, поскольку отклонения от среднего значения (образца уровня обученности) в классе случайны. Основным требованием остается лишь сходство между поведением респондентов, образующий данный класс. В статистике дихотомических значений признака, такими как качество заключений тестируемых, внутриклассовая независимость поведения эмпирических объектов является принципиальной и распространяется на всех тестируемых, участвующих в сеансе тестовых проверок.

Большой вклад в развитие теории тестов внес B. C. Аванесов, труды которого сыграли решающую роль в развитии классической теории тестовых испытаний и ее практических приложений. Он дал наиболее совершенное описание формы тестовых заданий, связав ее с содержанием предъявляемого учебного материала [2,3].

К началу 1990 года стало очевидно, что обработка данных тестовых испытаний, осуществляемая в различных странах с применением аппарата теории вероятностей и традиционной статистики, привела к возникновению противоречий при сличении результатов измерений. Это было связано с тем, что модели погрешностей измерений, значения доверительных вероятностей и формирование доверительных интервалов тестологами различных университетов и центров тестирования отличались друг от друга. Для устранения этого недостатка международные организации – МОЗМ, МБМВ, MKMB, МЭК, ИСО – предложили новую концепцию описания результатов измерений. Основными положениями этого документа явились отказ от использования таких понятий, как истинное и действительное значение измеряемой величины, точность и погрешность измерения, случайная и систематическая погрешности. Документом был введен новый термин – «неопределенность» параметра, связанный с результатом измерения и характеризующий рассеяние значений, которые следует приписывать искомой величине.

В современной теории тестов на первый план выходит описание поведения тестируемого методами теории вероятностей и количественной статистики. Однако представление состояния обученности объекта нечисловой природы только в рамках дедуктивной теории не столь очевидно. Последнее связано с тем, что при изучении свойств объекта произвольной природы, как правило, трудности возникают именно при формировании его модели. Это объясняется существенным недостатком знаний о его внутренних функциональных взаимосвязях.

Поэтому в постсовременной теории КАТ для оценки поведения и состояния объектов произвольной природы (например, степени обученности тестируемого или категории трудности ПДТЗ) наряду с теорией вероятностей применяются методы непараметрической и интервальной статистики. Формальное моделирование процесса тестовых испытаний дополняется здесь созданием концептуальной модели поведения респондента, в которой на содержательном уровне выделяются проверяемые атрибуты целеустремленного объекта из учебной среды. Процедура моделирования качества заключений индивида на требования ПДТЗ различной меры трудности строится в данном случае с использованием приема обобщения, благодаря которому устанавлиаются значения латентного признака обученности объекта нечисловой природы.

Операция обобщения рассматривается как переход от пошагового «переключения» ПДТЗ к более общему принятию решения на основе эмпирических наблюдений. Например, такое понятие, как «отличник», является первичным обобщением более общего класса респондентов с превосходными, отличными или почти отличными достижениями. Расширяя класс отличников и выделяя общие свойства этого образа, можно постоянно добиваться повышения качества дидактических оценок. Здесь в основе описания характера процедур оценивания и классификации лежит сравнение поведения тестируемых по качеству их заключений на ПДТЗ различной меры трудности. Чтобы осуществить такое сравнение, необходимо иметь банк тестовых заданий, категория трудности которых установлена заранее экспертами, а также выбрать определенные единицы оценивания, наличие которых позволяет выразить действия тестируемых со стороны их УУД.

Процесс целенаправленного анализа заключений объекта на ПДТЗ, в ходе которого используется прием обобщения и установления сходства поведения респондентов, основывается на применении метода ситуационного управления. В основе ситуационного управления лежит гипотеза о том, что приспособление тестирующих воздействий к поведению объекта нечисловой природы может быть получено из непосредственного наблюдения за качеством его заключений на требования ППТЗ. Процесс научного наблюдения является особого рода деятельностью, которая включает объект тестирования и инструментальные средства. К последним относятся феномены КАТ, с помощью которых передаются и обрабатываются данные о поведении индивидов и осуществляются действия тестирующих систем.

Важнейшей особенностью эмпирической системы КАТ является целенаправленный характер процесса тестирования, в результате которого может быть построена концептуальная модель поведения каждого конкретного респондента, отражающая с заданной верностью состояние его обученности, но в то же время не учитывающая ряд других параметров объекта нечисловой природы. Это делает модель поведения тестируемого удобной и практически реализуемой для исследования только интересующего нас параметра (уровня учебных достижений). Компьютерная модель поведения целеустремленного объекта представляет собой идеальное образование, зафиксированное в соответствующей знаковой форме и функционирующее по законам ситуационного управления.

Модель ситуационного управления может быть построена, если на множестве решений R(t) удастся найти такое же разбиение ситуаций {S(t)} на k классов (образов), при котором все обобщенные (сходные) ситуации S(t) окажутся отнесенными к какому-нибудь заданному заранее образу ki. Это разбиение обладает тем свойством, что для поведения объектов, отнесенных к ki, решение Ri, действительно полезно с точки зрения целей КАТ.

Основное внимание в системе КАТ уделяется изучению условий логичного равновесия, под которым понимается такое описание ее состояния, для которого характерно удержание близости меры трудности ПДТЗ к фиксированной степени обученности эмпирического объекта. Это свойство в значительной степени способствует упорядочению и формализации качественных идей и понятий, присущих тестометрии, а также оказывает влияние на развитие методологии СКДО достижений респондентов.

Современные информационные и коммуникационные системы радикально технологизируют интеллектуальную деятельность позиционеров. Уже сейчас их значение кардинально влияют на все компоненты сферы образования. Что же касается эпистемологических функций, т. е. совокупности осуществляемых с помощью компьютерных программ, локальных и информационно – вычислительных сетей методов познания, влияющих на создание, наполнение и модификацию ППТЗ, то она развивается чрезвычайно быстро, особенно в связи и реализацией программ «интеллектуальных инструментальных средств» адаптивного тестирования.

Культурологический подход к становлению постсовременной теории КАТ учитывает не только исторически сложившиеся средства классической и современной теории тестов, но и предполагает выдвижение собственной системы ценностных ориентацией и целевых установок, специфических для анализа состояния и поведения телеологических объектов. Здесь культура тестовых испытаний органично связана со своим временем в том смысле, что в ней выражаются потребности и противоречия конкретной эпохи, что именно ею стимулируется создание культурного пространства СКДО УУД испытуемых.

Философия культуры КАТ понимается как наука об общих закономерностях творческой деятельности позиционеров, созидания и реализация ими символически обозначаемых и значимых ценностей, разработки требований к инструментальным средствам тестовых проверок и технологиям KT. Этим подчеркивается необходимость применения:

· эмпирического и теоретического подходов к оценке УУД тестируемых;

· методологических правил конструирования программно-дидактических тестовых материалов;

· концептуальной и математической моделей описания поведения объекта нечисловой природы;

· аналитического анализа верности типологической классификации и рациональной аттестации тестируемых на основе статистических методов обработки результатов КАТ;

· методов адаптации и новых способов оценки УУД эмпирических объектов.

Разработчики системы КАТ и эксперты тестовых материалов (ПДТЗ, ПДТ, БТЗ) не принимают участия в работе алгоритма управления процессом КАТ, классификация производится машинным способом. Однако отсутствие человека понимается здесь в узком смысле: исследователь формирует БТЗ, исходные данные для механизмов оценивания, выбирает расстояние между классами, задает границы сходства образов и ограничения при адаптации. Компьютерная программа устанавливает не собственно классификацию тестируемых, а информацию на основании которой участники пространства КАТ принимают решения о разделении поведения индивидов на образы. Такие процедуры дают максимально полезные содержательные результаты, не смотря на свою «нестрогость» и «человеческий фактор».

Процедуры классификации относятся к эвристическим и для проведения классификации требуют:

· обосновать тип и количество значений параметров;

· выбрать способ задания образцовых множеств;

· найти метод корректировки образов и стабилизации результата классификации в целом.

Поэтому правильный отбор и упорядочение признаков объектов произвольной природы, используемых для установления УУД тестируемых, приобретают исключительное значение. Эта проблема по существу является нетривиальной и не может быть сведена только к методам количественного анализа. Если удается правильно выбрать множество разнотипных признаков, участвующих в описании поведения телеологических объектов, позволяющее принципиально разделять и различать качество заключений индивидов, то решение задач классификации и рациональной аттестации в формальном плане осуществимо теми или иными алгоритмами распознавания поведения респондентов по эмпирически заданным образцам [8].

Фундаментальным принципом постсовременной теории тестовых проверок является то, что в соответствии с философией КАТ, она ориентирована на личность испытуемого и базируется на концептуальной модели тестируемого. Главными критериями положенными в основу этой теории, является открытость, объективность оценки достижений целеустремленного объекта и технологичность проведения компьютерных тестовых испытаний. Первый показатель характеризует то, что результатом тестовых проверок является установление исходного и реального УУД эмпирического объекта, которые не зависят от квазисубъекта, а определяются только поведением тестируемого. Технологичность подразумевает применение методов, средств и форм с целью создания использования в практической деятельности эффективных и экономичных методов оценивания и классификации учебных достижений тестируемых, базирующихся на концепции банка тестовых заданий. Выработка нового взгляда на реальность, ее критического осмысления должны привести к формированию нового взгляда на процесс установления УУД испытуемых. Это можно достигнуть путем исследования статуса и проблематики философии КАТ, которая указывает на объективные закономерности развития теории СКДО достижений тестируемых с учетом синтеза качественных и количественных категорий.

Философия КАТ определяет познание процесса СКДО УУД объектов эмпирической системы в двух направлениях: тестологии и тестометрии. Тестология исследует программно – дидактические материалы (ПДТЗ, ПДТ, БТЗ) с точки зрения их: функционального назначения (результата тестовых испытаний); показателей качества; строения (формы); структуризации, понятийной и технологической спецификации. Тестометрия изучает методы и средства отображения значения латентного состояния обученности тестируемого в оценку уровня его учебных достижений. Вопрос о технологии целенаправленного преобразования степени обученности элемента эмпирической системы для решения задачи оценивания и классификации его УУД – это есть развитие генезиса теории КАТ как метода. Предметом тестометрии является извлечение с заданной верностью количественной и качественной информации об УУД объектов нечисловой природы.

Подводя итого этого раздела, отметим следующее. Наука о «человеческих» измерениях с известной долей условности прошла три этапа развития – аристотелевский, галилеевский и боровский. На первом этапе своего развития она была направлена на тот слой реальности, который «непосредственно» открывался человеку, благодаря механизмам восприятия и способам наблюдения за простейшими эмпирическими связями на уровне «здравого смысла». Принцип объективности как важнейшее требование научной рациональности базировался в аристотелевскую эпоху на допущениях «очевидности» обыденного опыта и культуры мышления своего времени. Сюда относятся: убеждение о том, что реально существующий предмет тождественен по своему содержанию с тем, что эмпирически дано в акте восприятия; представление о том, что научная теория непосредственно абстрагируется от действительности, отождествляемой с чувственным опытом. Выдвижимостью научного знания из опыта обладает и традиционная система отметок УУД экзаменуемых, которая определяется субъектом.

Галилеевский этап в развитии теории педагогических измерений связан с перестройкой методологии тестовых испытаний. Применяется специализированный понятийный аппарат с жесткой семантикой. В сознании тестологов формируется мир идеализированных объектов, представленных методами количественной статистики. Эмпирические данные, с которыми имеют дело тестологи, образуются в результате использования теоретических положений и предполагают определённые теоретические абстракции. Сюда относятся понятия генеральных совокупностей тестируемых и тестовых заданий, математического ожидания результата проверок и т. п. Научные наблюдения и эксперимент служат лишь средством проверки классической теории тестов. Для сопряжения статистических гипотез и опыта, совершенствования методик измерения значения латентного параметра обученности тестируемого используется расширение метрического пространства тестовых проверок, а данные наблюдений представляются в виде чисел (количества).

С появлением математических моделей Раша и Бернбаума наступил боровский период развития современной теории тестов, когда для описания поведения индивидов стали применяться абстракции более высокого порядка. Коммуникации между тестируемым и программными средствами стали изучаться как единое целое процесса тестирования. В результате перехода к идеализированной модели поведения объекта из исходного математического знания удалось выделить лишь логический остов теории, а развертывание современной теории тестов свести к манипулированию формальными правилами. Тем caмым произошло абстрагирование от того познавательного содержания, которое выражается культурой оценки поведения целеустремленных индивидов, подвергшейся формализации.

Безусловно, на всех этапах развития теории тестов действия по формальным правилам позволяют устанавливать научную истину. Однако область применения логических высказываний для описания функционирования эмпирических систем КАТ весьма ограничена, поскольку разработчики и эксперты тестовых материалов, а также технологий адаптивного тестирования вынуждены обращаться к содержательным правилам. Именно поэтому предел применимости формальных методов выражается Христофором Цангемайстером в следующем утверждении: «Субстанциальная рациональность относится к лежащим в основе решения ценностям... Формальная рациональность, напротив, принципиально независима от лежащих в основе решения ценностных суждений». Субстанциальная рациональность, основанная на «ценностях», по существу оборачивается иррациональностью, если смысл изучаемого объекта, процесса или суждения выхолощен.

Гипотетическими (правдоподобными, логичными, содержательными) являются правила неполной индукции, аналогии, выдвижения гипотез, корректной постановки тестовых утверждений, выбора качественных уровней-интервалов обученности и т. д. Во всех этих случаях правила не могут применяться к суждениям, содержания которых мы не знаем. Чисто формальное описание поведения объектов нечисловой природы в эмпирической системе КАТ в определённые моменты неизбежно наталкивается на «сопротивление содержания», которое обладает своей внутренней имманентной формой. А эту форму раскрывает не традиционная (количественная) прикладная статистика, а иная – качественная статистика поведения целеустремленных объектов [25,29,30]. Четкое понимание границ применимости логичного и логического мышления при создании теории КАТ позволяет успешно совершенствовать методы проектирования качественных систем для осуществления тестовых испытаний. Сегодня, стало ясно, что в исследовании структуры и динамики эмпирических систем КАТ нужна новая гипотетико-теоретическая ориентация, связанная с установлением взаимосвязи количественного и качественного знания, с критико-рефлексивной направленностью научного познания на рациональные допущения и предпосылки.

Основание философии КАТ – это способ, представляющий как логичное, так и логическое начала, исходный пункт описания эмпирической системы адаптивного тестирования, который фиксируется в явной и ясной форме, задается в качестве основоположения системы, её объективного обоснования. Описание свойств и поведения объектов произвольной природы не может быть выбрано случайным, произвольным по отношению к содержанию элементов эмпирической системы. «Начало...ничем не должно быть опосредовано и не должно иметь какое-либо основание; оно само, наоборот, должно быть основанием всей науки» (Г. В.Ф. Гегель. Наука логики, T. l.M., 1970).

Таким понятием в философии КАТ является понятие объекта произвольной природы. Сюда относятся математические структуры, которые нецелесообразно описывать конкретными величинами. Термин «нечисловой» подчеркивает, что «структура пространства, в котором лежат результаты наблюдений, не является структурой действительных чисел, векторов или функций, она вообще не является структурой линейного (векторного) пространства» (А. Орлов). Конечно, в процессе вычислений поведение или свойство элементов нечисловой природы изображаются с помощью чисел. Примерами подобных объектов являются бинарные отношения (ранжировки, толерантности и т. п.), нечеткие множества, оценки в шкалах, отличных от абсолютных.

Действительно, не все содержащие числа суждения относятся к количественным. Числа в высказываниях могут служить для:

· обозначения категории трудности ПДТЗ: это тестовое утверждение является легким;

· установления степени обученности тестируемого: поведение этого индивида можно отнести к классу отличников;

· указания количества тестируемых;

· идентификации респондента по номеру его зачетной книжки;

· идентификации числа баллов некоторой шкалы.

Только в трех последних случаях речь идет об измерениии, когда между системой символов (цифр) установлены определенные отношения (например, упорядочения).

КЛАССИФИКАЦИЯ ТЕСТОВ ДОСТИЖЕНИЙ

В соответствии с ГОСТ 17369 – 85, классификация «представляет собой разделение множества объектов на подмножества по их сходству или различию» на основании принятых методов и правил». Однако в практической деятельности классификацию ПДТ учебных достижений часто подменяют перечислением некоторых видов тестов, не указывая основания классификации. Например, некоторые авторы приводят классификационную структуру тестов, в которой специальные виды тестов (гомогенный, гетерогенный, моноформный, полиформный) рассматриваются как критерии их деления. В действительности же простое перечисление некоторых понятий теории тестов не является классификацией. Иногда тесты классифицируют, перечисляя направления групп различных наук (психологические, педагогические и т. п.). Подобный подход также неправомерен, поскольку среди этих наук нет общего основания классификации. Говоря о подобной псевдоклассификации, подчеркивает, что «все это похоже на то, как если бы просто перечислил известные в его время классы химических элементов (металлы, газы и т. д.) и сказал бы, что он сделал классификацию».

Это утверждение достаточно поучительно. Действительно, логическая схема таблицы элементов, расположенных в соответствии с их атомными весами, была до Менделеева составлена в 1864 году немецким физиком (). Однако Майер не увидел в этом расположении элементов никакого закона, поскольку предложенный им числовой ряд атомных весов был составлен без раскрытия его физического смысла. первым увидел и понял рациональный смысл – эмпирический закон размещения элементов, который позволил предсказать свойства еще не открытых элементов и осуществить «исправление атомных весов многих, мало в то время обследованных элементов». Сущность периодического закона была объяснена автором основ радиоактивного распада Ф. Содди (1877 – 1956).

Культура классификации ПДТ состоит в том, что она, с одной стороны, служит ориентиром для конструирования, выбора и оценки качества тестов, а с другой – облегчает их комплектование, сертификацию, применение, каталогизацию и хранение. Сущностью классификации является применение операции деления термина, под которой подразумевается разбиение объема понятия по определенному основанию на непересекающиеся подмножества. Поэтому первой задачей деления термина (понятия) является четкое и ясное указание основания деления (признака), по которому классифицируемые культурные формы тестов (КФТ) подразделяются на непересекающиеся классы. Если не указано основание деления понятия, то классификация не может быть корректно осуществлена.

Основанием для классификации КФТ служит наличие у них внешних и внутренних признаков, таких как результат, содержание, форма и т. д. Поскольку каждый ПДТ является носителем не одного, а нескольких признаков, то в зависимости от выбранного основания он может принадлежать к различным классам. Отсюда следует, что основная сложность в разработке корректного разделения ПДТ состоит в выявлении признаков, адекватных конкретной классификации.

Для проведения классификации КФТ применяют правило П1.

Π1: классификация тестов должна производиться только по одному основанию (признаку).

При этом:

· основание классификации должно быть существенным;

· число ступеней (шагов) деления должно быть логично оправданным и отражать последовательность развития форм духовной реальности в доступной нам части содержательной направленности тестовых испытаний;

· каждая последующая ступень деления должна порождаться и обосновываться другими, уже существующими формами реальности;

· подмножества, на которые разбивается множество тестов, не должны пересекаться;

· объем делимого понятия должен быть равен объединению частей деления.

Применяя правила П1, выполним классификацию ПДТ достижений с учетом интерпретации результатов КАТ. Существенным основанием классификации КФТ будет признан «результат», который определяет не только цели и содержание тестов (валидность), но и технологию компьютерного адаптивного тестирования. В данном случае результат представляет собой классификационное основание, по которому КФТ, обладающие данным признаком, отделяются от тестов, не обладающих им. Результат тестовых испытаний можно принять за определяющий признак, и в этом смысле последний равноценен основанию классификации (рис.1).

Рис.1. Классификация ПДТ достижений по результату

Согласно классификации (рис.1) культурные формы стандартизированных дидактических тестов подразделяются на два подкласса: тесты, применяемые для организации учебных проверок, и тесты, обеспечивающие проведение конкурсных испытаний. Различия между этими подклассами весьма существенны: первые применяют непосредственно для оценки уровня обученности тестируемых и диагностики процесса обучения, вторые – для отбора или отсева индивидов.

В подклассе группируются КФТ, близкие между собой по основному результату, но все же имеющие значительные различия. Например, в одной подгруппе объединены ПДТ, которые используются для локальных и глобальных проверок. Локальные проверки (текущая аттестация) нацелены на непрерывную оценку уровня обученности тестируемых и совершенствование по их результатам содержания отдельных тем или разделов учебных дисциплин, а глобальные – на оценку уровня достижений индивидов в дискретные моменты времени н прогнозирование содержания обучения.

Текущая аттестация (рубежный контроль) осуществляется в течение учебных семестров, в результате чего выявляется степень усвоения тестируемыми отдельных разделов из конкретных областей знаний. Эта форма проверки обеспечивает диффенцированный подход к установлению классов обученности респондентов и существенно мотивирует процесс обучения. От результатов локальных тестовых испытаний зависит исходный уровень учебных достижений (УУД) каждого образа.

К глобальным проверкам относятся промежуточная и итоговая аттестации. Промежуточная аттестация — экзамен по пройденному материалу – осуществляется после изучения основной части или учебной дисциплины в целом. В ходе проведения такой формы проверки определяется реальный (сколько угодно близкий к действительной степени обученности) УУД испытуемого. Итоговая аттестация обеспечивает принятие окончательного решения о соответствии или несоответствии усвоения студентами учебных заведений знаний, умений и навыков целям и задачам государственных образовательных стандартов.

Нормативно-ориентированный тест – система тестовых суждений различной категории трудности, позволяющих разделить поведение тестируемых на классы по степени их обученности. Эти ПДТ нацелены на разделение объектов на классы по уровням их обученности. Такие КФТ включают в себя набор ПДТЗ (феноменов культуры СКДО) различной степени трудности. На этом этапе тестовых проверок система КАТ обеспечивает формирование адекватных реакций на типичные тестовые ситуации, приспособление тестирующих воздействий к качеству заключений телеологических объектов. На первый план здесь выходит принцип индивидуальной мобильности, равенства возможностей установления собственных достижений для любого индивида. Результат проведения нормативно-ориентированного тестового контроля выражается в вычислении исходного УУД респондентов и разделении их на образы по уровню обученности. Объект тестовых проверок, не прошедший нормативно-ориентированный ПДТ, все равно, что индивид без образа. Предполагается, что априорно преподавателями-экспертами заданы некоторые базовые стандарты «действия» индивидов в процессе адаптивных тестовых проверок. Принадлежность к тому или иному образу обученности диктует свои требования и к ранжированию меры трудности ПДТЗ, образцы которых хранятся в банке тестовых заданий.

Нормативно-ориентированные ПДТ могут применяться в технологическом процессе самотестирования (классификации образов) – текущей аттестации – с целью установления уровня предварительных успехов целеустремленных объектов и сопоставления индивидуальных результатов тестовых проверок с результатами, полученными тестируемыми из других классов обученности. Здесь исходный ранг определяет класс обученности респондента, причем каждый участник классификации имеет равные возможности при старте и обязан своими достижениями только личным заслугам. Чем большую дисперсию обеспечивает нормативно-ориентированный ПДТ, тем качественнее разбиение объектов (стратификация) на образы учебных достижений. Тестируемый преобразует собственный уровень обученности в процессе рефлексии, устанавливая надындивидуальную заданность культурных координат собственных достижений. Отчасти поэтому основная функция применения нормативно-ориентированных ПДТ в системе КАТ связывается в функциональной традиции с индивидуальной мобильностью объектов, равенством их возможностей в соревновании и близкими исходными состояниями обученности. Процесс тестирования в рассматриваемом случае осуществляется на базе ПК, локальных вычислительных сетей или с применением Интернет-технологий и позволяет упорядочить участников СКДО УУД с учетом соответствующих им латентным параметрам на шкале оценки. При этом степень трудности ПДТЗ в выборке должна быть различной, а тестирующая система должна приспосабливать генерируемые воздействия к качеству выводов объектов на требования ЭФТК.

Личностно-ориентировочный тест – система тестовых суждений с заданной категорией трудности, позволяющих различить поведение тестируемых из одного класса обученности. Эти ПДТ направлены на оценку учебных достижений каждого конкретного испытуемого (субъекта). Предполагается, что до начала тестирования индивид точно знает, к какому классу обученности (образу) он принадлежит. Результат применения личностно-ориентированного ПДТ выражается в виде вычисления адаптивной системой КАТ реального, близкого к действительному, УУД объекта нечисловой природы. Мера трудности ПДТЗ личностно-ориентированного ПДТ должна соответствовать степени обученности (классу) образа. Технологический процесс вычисления реального балла может проводится на ПК или в локальной сети с применением инструментальной среды ACT. Подобного рода аттестация соответствует проведению межсеместрового или итогового государственного экзаменов и требует обязательной регистрации личности образа до начала промежуточной или итоговой проверок. Результаты заключений испытуемых на данном этапе КАТ накапливаются и используются для коррекции степени трудности ЭФТК.

Цель личностно-ориентированной ПДТ – максимально раскрыть субъективный уровень достижений каждого испытуемого, входящего в конкретный образ. Организация такого теста предполагает разработку компьютерных дидактических технологий, направленных на формирование механизма самоорганизации и самореализации достижений и интересов личности каждого испытуемого, моделирование его поведения через активное отношение к ПДТЗ фиксированной меры трудности. Система ЭФТК выступает при этом как средство познания конкретной области знаний, когда испытуемый формирует собственные эмоционально-целостные отношения к ПДТ. Однако она не навязывает индивиду путь к оцениванию собственных достижений, а создает свободные условия, предоставляя испытуемому возможность самому определять траекторию индивидуального тестирования с учетом ранее выявленного субъективного опыта.

Классификация и рациональная аттестация выступают как специально организуемые по научно-теоретическому типу этапы СКДО. Структура деятельности тестируемых является в нашем случае специальным объектом изучения, когда исходное значение уровня обученности (классификация) образа совпадает с нормой трудности тестовых проблемных ситуаций (аттестация), предъявляемых ему системой КАТ. Испытуемый как субъект, как личность выступает в концепции КАТ в виде продукта рационально организованного процесса тестовых проверок. Рациональная аттестация как бы «окультуривает» субъективный опыт, считается с изначальным уровнем обученности тестируемого по конкретному учебному предмету. Постоянное согласование двух этапов тестовых проверок позволяет выявлять различные индивидуальные семантики, выбирать оптимальные траектории тестовых испытаний, подкреплять их, соответственно оценивать. Данный подход согласуется с принципом свободы выбора последующих решений (по Д. Габору) и является основой для проектирования самоорганизующихся систем СКДО. При этом на втором этапе принятия решений (оценивания) испытуемые привносят в содержание БТЗ такие признаки, которые помогают правильно корректировать меру трудности ЭФТК (параметрическая адаптация).

В процессе рациональной аттестации достижение успеха так же не отделимо от испытуемого, как и испытуемый от собственных притязаний. Здесь качество поведения тестируемого становится социальным феноменом, а идея достижения соответствующего состоянию обученности реального балла детрадиционализируется и приобретает контуры неповторимой индивидуальности. Происходит культурный переход от «стандартной среднестатической личности» к «рефлексивной личности» конкретного испытуемого. Автономный образ рационализирует свое социальное поведение согласно свободно выбранной траектории КАТ и свойственных ему этическим принципам. Выбирая КФТ той или иной степени трудности, испытуемый становится ответственным перед самим собой, перед собственной совестью за значение своей проверки, за реализацию собственных смыслов.

Следует особо подчеркнуть, что в действительности реальный УУД объекта нечисловой природы может быть получен только при предъявлении ему бесконечно большого числа (конечной совокупности) элементарных феноменов культуры. Поскольку в реальной практике компьютерной дидактической оценки этого не происходит, будем полагать, что в процессе рациональной аттестации конкретному образу системой КАТ генерируется ПДТЗ, мера трудности которых соответствует уровню обученности этого испытуемого, а число таких заданий определенным образом ограничено объемом выборки (ПДТ).

На каждом из двух этапов тестовых проверок индивиды включены в диалоговое взаимодействие с культурными формами тестов и участвуют в выполнении различных по смыслу и значимости ЭФТК. Они имеют возможность судить об их содержании и весе по тому, как эти задания представимы в тестовых испытаниях. Кант называл это «явлениями», свойства которых познаются тестируемыми в форме «субъективных образов объективного мира». Установление качественных границ лежит в основе классификации образов, а вычисление реального уровня учебных достижений испытуемого базируется на процедуре рациональной аттестации испытуемых.

КФТ для проведения итоговой аттестации относятся к гетерогенным тестам и предназначены для оценки уровня культуры специального мышления студентов учебных заведений. В процессе оценки учебных достижений выпускника компьютерным проверкам подлежат наиболее существенные атрибуты культуры его мышления. Сюда следует отнести: уважительное отношение к наследию прошлого, способность к творческому восприятию профессиональной деятельности и т. п. Культура (техническая, математическая, гуманитарная, правовая, художественная и т. п.) определяется на данном этапе обучения как высшее проявление профессиональной компетентности и выражает человеческую индивидуальность. Высшей ценностью этой индивидуальности выступает менталитет, в котором воплощаются глубинные основания мировосприятия, мировоззрения и поведения человека.

Сложность педагогической оценки ментальных приобретений личности очевидна. По-видимому, на данном этапе развития методов СКДО целесообразно провести исследования по созданию модели выпускника, отражающей результаты прогностического междисциплинарного мониторинга с учетом его умений вычислять (алгоритмизировать), конструировать и проектировать в конкретных ситуациях. Такая модель объекта нечисловой природы должна отражать системность и рациональность мышления будущего специалиста и базироваться на деловой игре в сочетании с ситуационным анализом.

Если БТЗ для проведения итоговой аттестации содержит ЭФТК, образующие ядро знаний по базовой подготовке специалиста, то формируемые системой КАТ тесты позволяют осуществить разбиение студентов на две категории: аттестованные и не аттестованные. В случае, когда БТЗ включает в себя ЭФТК различной меры трудности по базовым учебным дисциплинам, установленным ГОСТом, появляется возможность оценить качество обученности студентов из различных учебных заведений на основании полученных ими баллов. Такая процедура КАТ обеспечивает разделение студентов учебных заведений на классы в соответствии с вычисляемым рейтингом тестируемых.

Учитывая современное состояние теории тестирования, процесс итоговой аттестации можно разделить на две части:

· качественную оценку уровня учебных достижений выпускников образовательных организаций с целью установления соответствия их степени обученности требованиям Государственных образовательных стандартов (ГОС);

· количественную оценку классов учебных достижений выпускников с целью мониторинга усвоения ими Федеральной составляющей ГОС. На этой основе Министерство образования может издавать бюллетень с указанием рейтингов качества обученности выпускников по различным специальностям.

Критериально-ориентированный тест – система тестовых суждений, позволяющих сопоставить уровни учебных достижений тестируемых с заданным критерием качества их обученности. Эти ПДТ позволяют оценить уровень усвоения разделов или тем относительно полного объема содержания учебной дисциплины, которые должны быть усвоены тестируемыми. Валидность этих тестов определяется соответствием содержания КФТ coдержанию учебной программы по каждой дисциплине. Содержательная валидность критериально-ориентированных тестов устанавливается преподавателями – экспертами. Критериально-оценочные культурные формы тестов используются при проверке достижений любого индивида, желающего подвергнуться этой процедуре с целью установления своей степени обученности и сравнения этого уровня с заданным критерием (стандартом). Эти тесты могут успешно применяться при проведении зачетов, отборе или отсеве тестируемых. Следует помнить, что ПДТ ориентированный на отбор (например, при проведении олимпиад), включает в себя ПДТЗ с высокой мерой трудности и имеет вогнутую форму характеристической кривой.

Отбор в условиях конкурсных проверок имеет целью определение пригодности тестируемых к обучению и последующей профессиональной деятельности. ПДТ, предназначенные для отсева наиболее слабо подготовленных индивидов, содержат феномены культуры с низкой категорией трудности и имеет выпуклую форму характеристической кривой. ПДТ, ориентированные на отсев, обеспечивают получение множества объектов, удовлетворяющих заданному критерию обученности. В практической деятельности степень обученности задается некоторым дескриптором, а операция отсева производится фильтрацией отношения тестируемых к КФТ с низким уровнем трудности с помощью принятого дескриптора. Критериально-ориентированный подход можно применять в процессе установления соответствия между требованиями ГОС и уровнем достижений выпускников высших учебных заведений. В этом случае оцениванию подлежат достижения тестируемых в области усвоения ими ядра знаний конкретной специальности.

Выборочно-ориентированные ПДТ используются для оценки доли от полного материала, который усвоил испытуемый. Такие тесты находят применение в процессе предварительного тестирования слушателей повышения квалификации с целью выявления «пробелов» в их знаниях и с целью коррекции разделов образовательных программ для каждого слушателя.

Социально-ориентированные КФТ применяются для анализа меры соответствия квалификации выпускников учебных заведений требованиям, предъявляемым сферой конкретной производственной или научной деятельности. Сюда следует отнести культурные формы тестов для:

· установления соответствия содержания учебного плана требованиям практической деятельности;

· анализа уровня достижений работников при продвижении их по «служебной лестнице»;

· установления «пробелов» в подготовке специалиста в связи с необходимостью повышения квалификации непосредственно после окончания учебного заведения или в процессе переподготовки.

Социально-ориентированные ПДТ могут применяться тестируемыми в процессе выбора ими соответствующих профессий, специальностей и рабочих мест. Конечная цель этой группы тестов – оптимизация выбора индивидом сферы приложения своих трудовых способностей и квалификации. В настоящее время психологами создается целостная система социально–ориентированных професиограмм, которые должны явиться основой для создания проблемных тестовых ситуаций.

Настоящая классификация КФТ имеет четко выраженную дидактическую направленность, так как на любом уровне группировки позволяет установить, для достижения какого результата должны быть разработаны и применяться те или иные тесты.

I. ФИЛОСОФИЯ КУЛЬТУРЫ ТЕСТОВЫХ ПРОВЕРОК

Становление теории СКДО УУД тестируемых может быть понято, если ее рассматривать с точки зрения развития философии культуры КАТ. Здесь можно выделить три группы средств повышения эффективности определения степени обученности целеустремленного объекта нечисловой природы (рис.1).

Рис. l. Зависимость эффективности проверок от времени

1. Выявление и использование имеющихся резервов за счет формирования заинтересованности проверяющих и проверяемых в совершенствовании качества проведения испытаний. Основным средством здесь является создание механизма быстрореализуемых управленческих решений, который должен включать мотивацию, активизацию и стимулирование контроля УУД, технологию управления по конечным результатом, повышение профессионального уровня преподавателей и т. п. Эта группа средств может дать быстрое улучшение качества оценки достижений (кривая l). В системе образования такой подход применяется путем приема экзамена несколькими преподавателями. Технологичность данного способа очень низкая и в условиях массовых проверок практически нереализуема. Более того, субъективный подход каждого преподавателя к смыслу и мере трудности вопросов препятствует объективной оценке УУД экзаменуемых. Недостатком здесь является и то, что число вопросов, предъявляемых испытуемому, остается ограниченным. Результатом контроля достижений в этом случае является традиционная отметка.

2. Структурные изменения за счет уменьшения доли неэффективных технологий при проведении экзаменов. Основным средством реализации подобных нововведений является фиксирование ответов испытуемых на специальных бланках, которые содержат вопросы или тестовые задания, с последующей обработкой ответов компьютерной программой. Эта группа мер более эффективна, чем в первом случае (кривая 2). Недостатком такого подхода является то, что экзаменуемые получают вопросы, мера трудности которых может не соответствовать латентному параметру их обученности. Ясно, что простые вопросы бессодержательны и нелогичны для хорошистов и отличников, а трудные – для троечников. Отсюда объективная оценка знаний о степени обученности индивида в виде количественных баллов и при данном способе достигнута быть не может. Кроме того, метод полуавтоматизированного опроса при помощи бланков с последующим вводом ответов сканером в компьютер, также является нетехнологичным. Оба рассмотренных выше способа являются экстенсивными.

3. Третий метод повышения эффективности проверки УУД связан с созданием и рациональным применением высоких технологий за счет активизации инновационных процессов. Основным средством здесь является применение инструментальных средств, обеспечивающих управление тестовыми проверками (кривая 3). Главное отличие третьей группы средств, основанных на использовании автоматизированных информационных систем оценки УУД, – это постоянно растущие со временем возможности повышения эффективности оценки. Здесь управление предполагает: автоматическую подстройку меры трудности ПДТЗ к поведению тестируемых; синтез оценивания (количества) и классификации (качества) поведения тестируемых. Это интенсивный путь совершенствования процесса СКДО УУД испытуемых, когда феномены культуры – артефакты, – несут в себе смыслы и значения.

Совокупность знаний об установлении УУД телеологического объекта может называться наукой в том случае, когда существует определенный предмет исследования, система отношений, касающихся этого предмета, а также категориальный аппарат, описывающий сущностные основы предмета изучения. Говоря о становлении постсовременной теории КАТ, следует помнить, что ее составляющие (тестология и тестометрия) представляют собой систему внутренне организованного и проверенного знания о фактах, основанных на методологических рассуждениях и научных наблюдениях за деятельностью всех участников пространства тестовых проверок.

Основной вопрос философии компьютерных тестовых проверок имеет две фундаментальные стороны. Первая сторона – это проблема сущности дидактической оценки значения латентного параметра обученности эмпирического объекта, вторая проблема о возможности познаваемости этого феномена. Рассмотрим первую проблему философского мировоззрения, в которой находит свое продолжение информационно-семиотическая парадигма культуры. В этой концепции культура понимается как социально значимая духовная информация, которая сохраняется, накапливается, модифицируется и передается в пространстве компьютерного тестирования с помощью создаваемых позиционерами артефактов и знаковых средств.

В 1949г. американский исследователь Э. Хобель предложил выделить для изучения элемент культуры, считающийся неделимой единицей «поведенческого образца или материального продукта» [Hoebel E. Man in the primitive world. N. Y. 1949]. Очевидно, что культурное пространство компьютерного тестирования включает в себя целостную совокупность таких элементов. Элементами культуры могут быть ПДТЗ, описание поведения отдельного индивида, нормы и правила поведения, алгоритмы шкалирования и т. д. Здесь взаимосвязанные единичные феномены комбинируются в культурный комплекс и несут определенную содержательную нагрузку.

Участник культурного пространства KT осуществляет в нем различные виды совместной деятельности. При таком подходе предметом исследования культурного пространства КАТ являются человеческие знания, умения и навыки, общие культурные нормы поведения и взаимопонимания между позиционерами, которые необходимы для упорядочения отношений в этом комплексе.

С точки зрения философии объектами исследования пространства адаптивного тестирования являются феномены материального и нематериального мира. Это могут быть позиционеры (разработчики, эксперты, тестируемые), взаимодействующие друг с другом; банки программно-дидактических тестовых заданий; правила конструирования тестовых материалов (ПДТЗ, ПДТ И KCTЗ) и т. п.

Предмет исследования комплекса адаптивного тестирования существует только в мышлении позиционера, зависит от самого знания и является его частью. Определяя этот предмет, проектант абстрактно выделяет одну или несколько существенных для изучения сторон объекта. Например, состояние тестируемого интересует проверяющего (экзаменатора или компьютерную программу) только с точки зрения степени его обученности. По этому поводу писал, что предмет исследования «может быть выделен как особое содержание посредством практических и познавательных действий с объектом». Выделение предмета изучения путем его идеализации от других признаков объекта представляет собой необходимый этап в процессе научного описания одной из ментальных характеристик индивида. Для понимания существа предмета изучения культурного пространства КАТ важно представить этот комплекс как целостную структуру, состоящую из упорядоченных частей, взаимодействующих между собой в строго определенных границах. Эти части включают в себя как простейшие элементы культуры, так и совокупность этих феноменов, объединенных по заданным признакам.

Изучение феноменов и артефактов пространства адаптивного тестирования сопряжено с решением ряда проблем, которые являются специфичными для поведенческих наук. Сюда входят:

· выделение предмета тестирования из объекта тестовых проверок;

· разработка концептуальной и математической моделей поведения эмпирического объекта;

· разработка методологических правил конструирования ЭФТК и КФТ;

· создание методик экспертной оценки тестовых материалов;

· выбор целей функционирования системы КАТ и установление ограничений;

· проектирование алгоритмов адаптации с учетом всевозможного рода усреднений и неопределенностей учебной среды;

· построение алгоритма шкалирования, учитывающего как содержательную, так и формальную интерпретацию результатов КАТ.

Из этого перечня проблем видно, что культурное пространство адаптивного тестирования содержит множество объектов произвольной природы. К ним относятся: совокупность тестируемых с различными значениями латентного параметра обученности; множество образцовых ПДТЗ, хранящихся в банке данных; совокупность действительных чисел; множество уровней-интервалов обученности и т. д.

Основным феноменом пространства адаптивного тестирования являются индивиды, предметом изучения которых служит степень их обученности, т. е. нас интересуют не сами элементы множества тестируемых, а лишь некоторые отношения между их поведением. Эти отношения выражаются множеством действительных чисел (баллов, полученных респондентами), а также качественными уровнями-интервалами, к которым относятся эти числа. Отношения между элементами количественных множеств называют числовыми, а отношения между элементами качественных совокупностей – эмпирическими.

Формирование значения латентного параметра обученности целеустремленного объекта предполагает усвоение им знаний, приобретение интеллектуальных умений и практических навыков в процессе обучения и собственной деятельности. Определим степень обученности индивида как психологическое свойство эмпирического объекта, регулирующее качество его заключений на требования ЭФТК и служащее условием для формирования дидактической модели его поведения. Потенциально латентный параметр обученности представлен организацией морфологических структур, приспособленных для коммуникации проверяемого и квазисубъекта. Результатом этой коммуникации является установление обученности респондента путем анализа научных наблюдений за качеством его заключений на проверочные воздействия различного содержания (смысла и меры трудности). Под научным наблюдением будем понимать целенаправленное и организованное изучение поведения тестируемого, доставляющее первичный материал для формирования оценки его УУД. Полученная таким образом величина определяет УУД конкретного телеологического объекта эмпирической системы КАТ.

Предметом нашего исследования является система адаптивного тестирования с отношениями, носителями которых служат качественные и количественные множества. Такую систему КАТ будем относить к эмпирической, а количественные и качественные отношения между элементами культурного пространства тестовых проверок, в которые отображается поведение целеустремленных объектов, будем рассматривать как поведенческие модели последних. По такой логике приписывание поведению объекта нечисловой природы шкальных значений (баллов и уровней-интервалов) осуществляется с помощью оценок. Ясно, что определение оценок связано со статистической обработкой заключений тестируемых на ПДТЗ различной меры трудности.

Основу содержания компьютерного тестирования определяет феномен управления. В исследуемом нами случае этот феномен устанавливает процедуры выбора алгоритма шкалирования – оценки поведения респондента и рациональной организации тестовых испытаний – структурной и параметрической самоорганизации системы KT. В последнем случае эмпирическая система KT считается адаптивной.

В зависимости от философских категорий количества и качества УУД тестируемого может быть представлен тремя видами оценок. Традиционная система контроля знаний оперирует с качественными представлениями оценки, которая выражается понятием «отметка», включающей в себя четырехбалльную систему оценок: «неудовлетворительно», «удовлетворительно», «хорошо» и «отлично». В этой системе отметка доминирует ситуационный тип поведения экзаменуемого. Здесь контроль сводится к подчинению его деятельности внешним обстоятельствам, как бы вынуждаюших проверяемого в каждом конкретном случае поступать определенным образом. Одним из показателей проявления подобной тенденции является толкование процедуры сдачи экзамена в терминах «повезло – не повезло», «так сложились обстоятельства», «удалось списать ответы на вопросы экзаменационного билета» и т. п.

Классическая и современная теория тестов базируется на методах теории вероятностей и количественной статистики, когда УУД респондента определяется числом баллов и коэффициентом доверия к этой оценке. Постсовременная теория КАТ для установления оценки достижений эмпирического объекта применяет методы непараметрической и интервальной статистики. В этом случае для определения достижений тестируемого используется синтез философских категорий количества (баллов) и качества (уровней-интервалов обученности). Такое представление качества заключений телеологических объектов позволяет представить оценку в виде двух составляющих: оценивания – числа полученных индивидом баллов; классификации – содержательного уровня-интервала, к которому относится количество этих баллов.

Отображая элементы эмпирической системы КАТ в числа и интервалы обученности, мы предполагаем, что известных математических свойств чисел и качественных уровней-интервалов достаточно для того, чтобы адекватно описать поведение предмета исследования. Применение математики будет эффективным в том случае, если, во-первых, количественные модели соответствуют реальности; во-вторых, применение методов статистики адекватно решаемой тестометрической задаче. Это значит, что необходимо доказать, что результаты КАТ, которые мы получаем, применив тот или иной аппарат и обращаясь со шкальными значениями, как с числами и уровнями-интервалами, можно интерпретировать в соответствии с качественными признаками объектов нечисловой природы.

Задание эмпирической системы КАТ предполагает установление составляющих ее элементов и фиксацию определенных отношений между ними. Относительно выбора множеств – носителей культурного пространства тестирования заметим следующее. Разработчик имеет дело с ограниченной совокупностью объектов, определяемой количественным и качественным характером задачи. Чтобы избежать неверных оценочных решений, необходимо использовать те алгоритмы шкалирования, которые рассчитаны на достаточно полные множества объектов культурного комплекса тестовых испытаний, а, следовательно, учитывают их количественные и качественные атрибуты. Для того чтобы применение каких бы то ни было математических методов к шкальным значениям было рациональным, разработчик должен выделить, какие отношения он отображает в количественные, а какие – в качественные. Отношения, которые проектант считает нужными учесть при сопоставлении чисел и интервалов обученности с рассматриваемым поведением целеустремленных объектов, должны входить в определение системы КАТ. Строя их, он устанавливает те моменты действительности, которые желает моделировать. Эмпирическая система выступает таким образом как моделируемый фрагмент процесса адаптивного тестирования.

Из за большого объема эта статья размещена на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12

, Тягунова культуры адаптивного тестирования. – M.: Национальный институт бизнеса, 2003. – 370c (стр. 1 )

ВВЕДЕНИЕ

СТАНОВЛЕНИЕ КУЛЬТУРЫ ИЗМЕРЕНИЙ ПАРАМЕТРОВ ЛИЧНОСТИ

КЛАССИФИКАЦИЯ ТЕСТОВ ДОСТИЖЕНИЙ

I. ФИЛОСОФИЯ КУЛЬТУРЫ ТЕСТОВЫХ ПРОВЕРОК

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы