· отсутствие возможностей для планирования эксперимента не позволяет математически определенно вскрыть характер взаимосвязей получаемых показателей объектов нечисловой природы, чтобы затем отразить его в модели тестируемого;
· испытуемые образуют неоднородные телеологические объекты эмпирических систем с различными значениями латентного параметра обученности, строят свои отношения с ПДТЗ различной меры трудности.
В дополнение к изложенному приведем несколько цитат из литературных источников.
в книге «Теории вероятностей. Исследование оснований», Нью-Йорк-Лондон, 1973, пишет; «Классическая вероятность... оказывается двусмысленной, выступая в качестве, как основ, так и методов оценки вероятностей. Она включает в себя элементы логической и субъективной концепций, хотя и остается менее ясной, чем логическая теория, в отношении того, как достигнуть вероятностных оценок... При отсутствии ясной интерпретации классической вероятности мы не можем дать оправдательное определение ее роли...Аксиоматическая переформулировка устраняет некоторые двусмысленности в измерении, но мало продвигает вперед проблему правомерности применения».
Алгоритмическое определение категории случайности заключений тестируемого (как сложного сообщения) может быть интерпретировано как поведенческое описание. Если мы имеем дело с последовательностью чисел, состоящих из нулей и единиц, то, грубо говоря, качество результата испытаний будет определяться видом этой последовательности. Однако в действительности матрица заключений тестируемых может состоять из единиц и нулей только в том случае, когда испытаниям подвергаются однородные не только по степени обученности испытуемые, которым предъявляются также однородные по категории трудности ПДТЗ.
При частотной интерпретации вероятности возникает проблема устойчивости, введенная в рассмотрение еще Р. Мизесом. Эта задача есть камень преткновения при обсуждении вопросов, связанных с применимостью вероятностных представлений для описания поведения тестируемых. B. H. Тутубалин приводит по этому поводу следующее высказывание* : «По современным представлениям, область применения теоретико-вероятностных методов ограничена явлениями, которым присуща статистическая устойчивость. Однако проверка статистической устойчивости трудна и всегда неполна; к тому же она часто дает отрицательные выводы. В результате в целых областях знаний... нормой стал такой подход, при котором статистическая устойчивость вовсе не проверяется, что неизбежно приводит к серьезным ошибкам».
* . Теория вероятностей. M., МГУ, 1972
По своей сути утверждение об устойчивости частот – это просто проявление закона больших чисел. Этот закон позволяет понять, почему мы можем применять методы теории вероятностей и традиционной статистики к описанию наблюдений, но он не может служить достаточным основанием для оправдания широкого применения классических теоретико-вероятностных методов, ибо трудно дать безупречное физическое толкование условиям, которым должны удовлетворять результаты КАТ, чтобы имел место закон больших чисел. Скажем, в педагогических измерениях применяют дисперсионный анализ для того, чтобы выявить рассеяние результатов однотипных измерений. Однако, сама возможность применения дисперсионного анализа основана на некоторых практически непроверяемых предпосылках. Информацию о постоянстве частот в будущем мы принципиально не можем получить из нашего прошлого опыта, а однородности степени обученности эмпирических объектов в реальном процессе тестовых испытаний просто нет.
В свое время Аристотель относил случай к чему-то, что «нарушает порядок и остается вне понимания». Попытки справиться со случаем предпринимал и Фома Аквинский, утверждая, что «случайные и возможные явления – это такие события, которые связаны со своими причинами в наименьшем числе случаев и совершенно не изучены» [O. B. Sheynin On the Prehistory of the Theory of Probability – Arch/ for the History of Exast sci.,v.12, №2, 1978]. Теория вероятностей, наложив существенные ограничения на проявление случая, создала язык, позволяющий описать случайность в рамках строго логических построений.
Математическая статистика – это язык для построения высказываний над реально наблюдаемыми случайными величинам, которые мы хотим рассматривать как случайные. Для того, чтобы ввести случайность в систему логических суждений, приходится создавать систему теоретических построений, порождающих понятия «генеральная совокупность», «выборка», «функция распределения», «независимые наблюдения» и т. п.
Эти четко определенные понятия и логические высказывания, построенные над ними, лишены противоречий. Собственно случайность из системы логических построений оказалась исключенной. Она проявляется лишь при интерпретации этих построений на языке наблюдений, когда отдельным понятиям, скажем математическому ожиданию, оцененному по выборке, приписывается различное числовое значение, и эта размытость как-то ограничивается с помощью другого понятия – доверительных границ. Однако следует отдавать себе отчет в том, что понятия традиционной статистики – это некоторые абстрактно построенные конструкты, а отнюдь не зеркальные отображения реального поведения телеологических объектов нечисловой природы. И совсем непросто показать, как эти понятия соотносятся с тем, что мы наблюдаем в процессе КАТ. Понятию «генеральная совокупность» – одному из основных терминов математической статистики – в реальной эмпирической системе тестирования просто ничего не соотносится; это понятие – продукт глубокой абстракции.
Понятие статистической независимости наблюдений трудно обеспечить в практической деятельности, т. к. невозможно рассказать каждому тестируемому, как надо ставить наблюдения, чтобы их результаты оказались статистически независимыми, а об отсутствии взаимосвязей между случайно предъявляемыми ЭФТК мы также ничего утверждать не можем. Трудность, связанная с интерпретацией понятия «выборка», может быть охарактеризована софизмом : «Мы говорим, что выборку образуют результаты нескольких независимых измерений, производимых в одинаковых условиях. Однако, если мы контролируем все условия опыта, то у нас будет получаться одно и то же число (не будет никакой неопределенности), а если мы контролируем не все условия опыта, то откуда мы знаем, что они остаются одинаковыми».
В дополнении к этому высказыванию добавим, что параметрические модели почти всегда предполагают, что извлекаемая случайная выборка состоит из индивидуально известных наблюдений. Однако в практической деятельности оценка поведения конкретной эмпирической системы всегда группируется около среднего значения конкретного интервала. Условие независимости выборки от степени обученности тестируемого представляет собой приближение, которое часто приводит к значительным систематическим ошибкам. Такая ситуация оказывается неудовлетворительной, когда имеет место выполнение одного или нескольких следующих обстоятельств:
· количество интервалов оценивания мало, т. е. имеет место слабое группирование оценок;
· интервалы группирования не равны между собой;
· функция плотности распределения не подходит близко к оси абсцисс с одного или с обоих концов распределения.
Эмпирические законы распределения значений параметра объектов нечисловой природы, как правило, значительно отличаются от теоретических. Это затрудняет идентификацию формы распределения данных научных наблюдений и связано, в первую очередь, со следующими факторами: во-первых, с ограниченностью выборки и, во-вторых, с разбиением интервала значений случайной величины на интервалы, в пределах которых плотность вероятности представляется постоянной или линейной функцией. Увеличение длительности сеанса тестовых испытаний связано с существенным ростом затрат, а при апостериорной обработке данных и просто невозможно.
Отметим, что даже при использовании критериев согласия о виде закона распределения данных наблюдений, положительное решение «нельзя рассматривать как утверждение о правильности выработанной модели закона распределения: оно лишь говорит о том, что экспериментальные данные не противоречат этому предположению» [, и др. Статистическая обработка эксперимента. Л.: Энергоиздат 1991,стр. 80].
В связи с этим предположение о гауссовском законе распределения данных наблюдений, часто применяемого без серьезной критической проверки многими исследователями считается неправомерным [25,29,30]. Заметим, что качество интервального оценивания гарантируется только при гауссовском распределении и резко падает при отклонении от него.
Рассматривая приближенность соотношения
![]()
тестологи считают, что реальные наблюдения абсолютно независимы и остаются постоянными при большом n. Чтобы грамотно пользоваться этой формулой, надо уметь перечисленные выше ограничения, сформулированные на математическом языке, перевести в язык наблюдений. Но правил перевода, строго говоря, никто не знает. Поэтому требования, которые накладываются на поведение тестируемых при использовании методов традиционной количественной статистики, оказываются весьма жесткими.
Применение робастных оценок – один из путей повышения качества оценки в реальных условиях. Робастность подразумевает слабую чувствительность к отклонениям от стандартных условий и высокую эффективность для широкого класса распределений [Айвазян C. A., , Мешалкин статистика. M.: Финансы и статистика, 1983r.]. Наиболее известной из робастных (устойчивых) оценок параметра сдвига распределения неопределенной величины является выборочная медиана, которая относится к классу взвешенных порядковых статистик. Кроме медианы используются цензурированные оценки. В последнем случае основная проблема связана с выбором числа ПДТЗ в тесте.
При оценивании параметров распределения по выборкам введение робастных оценок, т. е. оценок, нечувствительных к исходным предпосылкам, вместо эффективных оценок Р. Фишера – это смягчение требований, налагаемых на поведение случайных величин. Но и здесь грамматика робастных оценок не может быть построена теоретически – при выборе рекомендаций приходится прибегать к моделированию задач на ЭВМ. Правда и то, что при описании случайных испытаний считают, что процесс наблюдений является стационарным, в то время реально наблюдаемые процессы адаптивного управления нестационарны. Но случайность этого типа описывать никто не умеет.
B. B. Налимов подчеркивает, что «... 80% применения статистики неверно, т. к. ее пытаются применять там, где нет случайных величин». В разряд неслучайных величин попадают результаты такого эксперимента, «для которого не выполняется требование статистической устойчивости» /Тутубалин/. «Если уж быть очень педантичным, то, наверное, придется ограничить применение математической статистики экспериментом с бросанием монеты, а теорию вероятностей – моделями с шарами в урнах» ( «Язык вероятностных предсказаний», АН СССР, M., 1976).
и в книге «Системотехника», Советская радио, M., 1962r., пишут: «Теория вероятностей является дедуктивной наукой о случае; она предусматривает результаты, вытекающие из некоторого набора предположений. Математическая статистика является индуктивной наукой о случае; она позволяет делать выводы о характере исходного распределения и оценивать его параметры на основе нашего знания исходов эксперимента. Как и во всякой индуктивной науке, здесь никогда нельзя быть абсолютно уверенным, что в основе наблюдаемого эффекта лежит та или иная определенная причина. Однако математическая статистика допускает численные выводы или оценки и указывает при этом каждый раз число, характеризующее степень неопределенности полученного результата».
Эти же авторы, приводя теорему Байеса, высказывают опасения относительно ее применения: « Теорема, конечно, строго верна. Если только дано распределение вероятностей исходного параметра (т. е. априорные и производящие вероятности), существует способ найти вероятности того, что выборка была взята из определенной генеральной совокупности. Вся трудность в том, что мы почти никогда не знаем необходимого распределения. В большинстве случаев исходный параметр даже не подчиняется законам теории вероятностей».
В этой же работе утверждается, что «к сожалению, проблема измерения субъективной вероятности чрезвычайно сложна и представляется неразрешенной... Конфликт между человеческими возможностями и нормами субъективной вероятности часто делает измерение субъективной вероятности очень трудным».
В действительности, все, что мы получаем в тестологии с помощью классической теории вероятностей и количественной статистики, – это не более чем грубое описание поведения тестируемых. Строго говоря, мы никогда не знаем точно начальные данные. Единственно, чем мы располагаем – это априорное знание об их неопределенности; далее – в процессе тестирования – на систему могут действовать непредсказуемые воздействия; и, наконец, ниоткуда не следует, что изучаемая система за время сеанса тестовых испытаний будет оставаться изолированной. Более того, нам никогда не удается с абсолютной верностью судить о мере трудности ПДТЗ, хранящихся в базе данных. Здесь, видимо, следует говорить скорее о парадигме (по Т. Куну, 1962) своего времени, чем о четко сформулированных логических основаниях применения методов параметрической статистики.
Для нас приведенные выше цитаты интересны тем, как математики, глубоко верившие в силу логики, пытаются справиться с неопределенностью оценки состояния или поведения объекта нечисловой природы. Мы не будем здесь прослеживать развитие вероятностных представлений в тестологии. Ранний период развития классической и современной теории тестов подробно освещен в работах . Позднейшая история достаточно хорошо известна тем, кто знаком со становлением ЖТ теории тестов.
Ограничимся лишь одним кратким замечанием. Вероятностные методы в тестологии стали применяться, исходя не из каких-то общих представлений о недостаточности детерминистических методов для представления поведения тестируемых, а из попытки описания и осмысления теории ошибок, развитие которой связано с использованием методов параметрической статистики. Мы говорим, что случайная величина задана, если известна ее функция распределения. А это значит, что мы вполне сознательно отказываемся в рамках этого описания от причинно-следственной трактовки наблюдаемых ситуаций. Нас удовлетворяет чисто поведенческое описание событий. Функция распределения – это описание случайной величины, без всякой аппеляции к тому, чем это поведение вызвано. И здесь следует говорить лишь о вероятности попадания значения случайной величины в некоторый доверительный интервал.
Оставаясь на вероятностных позициях, тестологи допускают, что в каждом отдельном наблюдении эмпирический объект может дать правильное или ошибочное заключение, т. е. мы приписываем заключениям индивида свободную волю, хотя и накладываем ограничение статистического характера на результаты массовых испытаний. Но ведь вероятность – эта «числовая характеристика степени возможности появления какого-либо случайного события при тех или иных определенных, могущих повторяться неограниченное число раз условий». Как эту меру можно использовать в тестометрии, если в реальных условиях проведения тестовых испытаний условия проверок в различных учебных заведениях не могут быть одинаковыми, а интервал сеанса тестирования (количество предъявляемых индивиду ПДТЗ) всегда ограничен?
Принцип спецификации модели в виде постулирования математической теории и прообраза объекта принят во многих науках. Однако такой подход является действенным приемом познания только в том случае, если, во-первых, есть гарантия, что среди постулируемых математических теорий и моделей находятся истинные, соответствующие данному объекту исследования, а это гарантировать в традиционной тестометрии никто не может. Во-вторых, если среди постулированных и были построены корректные математические теории и модели эмпирических систем, то, чтобы выявить их, необходимо располагать надежными методами проверки (на истинность) оцененных приближений. Но и здесь процедуру планирования эксперимента также осуществлять нельзя.
Все усилия современной теории тестов сосредоточены на конструктивном определении статистических характеристик случайной компоненты – математического ожидания, дисперсии и коэффициента корреляции. Знаний, позволяющих определить столь полную характеристику случайной компоненты как и вид ее закона распределения в реальных условиях проведения КАТ, заведомо не хватает.
Большинство специалистов по математической статистике проводят дисперсионный анализ, который позволяет строить статистические модели экспериментальных данных. При проведении этого анализа основываются на следующих правдоподобных допущениях о случайных величинах и параметрах.
1. Математическое ожидание каждой неопределенной величины равно нулю. Это значит, что значение математического ожидания результата тестирования зависит только от степени обученности индивида. Выполнение этого условия при описании научных наблюдений за поведением тестируемого в большинстве известных нам случаев является неприемлемым, поскольку оценка достижений тестируемого зависит и от меры трудности ПДТЗ.
2. Неопределенные величины взаимно независимы. Данное допущение совсем не очевидно. Смысл его состоит в том, что между различными заключениями тестируемого не существует какой-либо связи. Однако при КАТ возможны ситуации, когда какое-либо одно наблюдение может влиять на последующие наблюдения. Например, в случае структурной адаптации тестирующая программа изменяет меру трудности ПДТЗ, а это, в свою очередь, оказывает влияние на качество последующих выводов конкретного объекта.
3. Все неопределенные величины имеют одинаковое среднее квадратическое отклонение. Это допущение об однородности дисперсий является центральным и требует наиболее тщательного анализа. Справедливость данного допущения менее вероятна с точки зрения теории тестометрии, чем предположений 1 и 2. Действительно, при анализе наблюдений часто большим значениям математического ожидания соответствует большая величина среднего квадратического отклонения, т. е. значения этого отклонения являются неодинаковыми.
4. Каждая неопределенность распределена по нормальному закону. Справедливость данного предположения наименее вероятна, чем трех остальных.
5. Исследуемые телеологические объекты однородны по степени обученности. Это условие просто невыполнимо при массовом тестировании.
В практической деятельности данные научных наблюдений (исходов) почти никогда не имеют «чисто» гауссовского распределения. Основными причинами негауссовости измерений являются как «внутренний» характер механизма формирования дискретных заключений, так и существование нерегулярных аномальных ошибок. Последнее обстоятельство препятствует использованию параметрических методов, которые резко теряют свои замечательные свойства (несмещенность, эффективность) даже при незначительных отклонениях от стандартных условий.
Итак, в настоящее время создается любопытная ситуация. С одной стороны, происходит широкое применение методов параметрической статистики в современной теории тестов, с другой стороны – появляются предостережения со стороны ряда математиков о нецелесообразности такой абсолютизации методов традиционной статистики и необходимости вычисления оценок достижений с применением методов непараметрической и интервальной статистики [25].
Подводя итоги о применимости параметрических оценок характеристик no наблюдениям за поведением эмпирических систем, отметим следующее: классический подход определения УУД респондентов, как объектов нечисловой природы, требует в максимальной степени использования информации о законе распределения качества заключений тестируемых. Только при соблюдении этого условия обеспечиваются оптимальные свойства параметрических оценок (состоятельность, несмещенность, эффективность). Однако столь жесткая и сильная «привязанность» оценок к законам распределения в практической деятельности может обернуться существенным снижением вероятности правильной оценки, если реальные условия научных наблюдений будут отличаться от стандартных.
В отличие от физических и технических процессов с их возможностями планирования эксперимента тестометрические процессы принципиально неповторимы, а соответствующие им научные наблюдения представляют собой единственные реализации заключений на требования конкретных тестовых заданий. В этих условиях нельзя оценить не только такие характеристики тестометрических процессов, как законы распределения вероятностей, но и важнейшие параметры этих распределений – математические ожидания, дисперсии и коэффициенты коррекции. Если отсутствует возможность оценки математических ожиданий, то мы не вправе считать, что располагаем научно обоснованной, проверяемой по результатам научных наблюдений за поведением тестируемых, математической теорией тестов. Это не единственный вопрос к методологии современной теории тестов.
Чтобы дать ей оценку в целом, необходимо провести специальный анализ и изложить основания новой методологии КАТ.
Новая парадигма СКДО УУД тестируемых связана с переходом от количественных методов статистики к качественным способам оценки. При построении модели для процесса КАТ будем опираться на известную к данному моменту исследования содержательную теорию этого процесса и на математические свойства последовательности неоднородных заключений тестируемого. В основе этого подхода лежит гипотеза о том, что состояние обученности эмпирического объекта является нефизической величиной и по своей сути относится к изучению поведения субстанции нечисловой природы.
Рассматриваемая нами методология представляет собой упорядоченную совокупность средств и способов преобразования исходных данных и знаний об объекте в новые знания. Средствами получения новых знаний являются гипотезы о свойствах объектов произвольной природы, и прежде всего, предположения о виде и атрибутах их статистических моделей. Понятно, что более корректной исходной модели будут отвечать и более правильные новые знания о значении латентного параметра обученности объекта нечисловой природы. И здесь не поможет замена одних традиционных статистических моделей на другие: в условиях реальных, а не постулируемых свойств тестометрических данных, гипотеза о нормальности ошибки модели, лежащая в основе всех известных методов проверки оцененных решений, является непроверяемой, а, следовательно, по существу ненадежной основой для практических предложений.
Чтобы устранить этот главный недостаток методологии традиционной теории тестов, предлагается изучать не «общий объект» (с множеством постулированных в отношении него математических теорий и моделей), а условно конкретный, заданный целевым образом – под ракурсом того или иного вопроса к элементам эмпирической системы КАТ. Что касается математической модели индивида, то она строится на основе анализа статистических свойств информации о его предполагаемом поведении. Это позволяет еще до этапа оценки качества моделей проверить, согласованы ли тестологические и математические свойства поведения объекта, связывающие эти модели с предлагаемыми методами оценки параметра (принцип согласования).
Процесс инкультуризации связан с разработкой методологических правил конструирования ПДТЗ, созданием понятийной и технологической спецификаций KCT3. Правила выступают здесь как универсальные нормативы деятельности, которые необходимо использовать при создании тестовых материалов. Методологические правила – основа культуры логичного мышления преподавателей, учителей и тестологов – обеспечивают целостный системообразующий подход к созданию рациональных и качественных ПДТЗ, а также профессиональных БТЗ.
Методологические правила создания ЭФТК, стандартные формы представления тестовых ситуаций и нормы деятельности участников культурного пространства тестирования подробно отражены в раздел II данной книги. Здесь мы только укажем, что эти правила:
· правдоподобны, потому что описывают регулярно повторяющиеся случаи;
· реальны, так как наделены атрибутами реальности;
· абстрактны, поскольку применимы к конструированию ПДТЗ из различных областей знаний.
Понятийная спецификация KCT3 создается разработчиком и определяет степень ва-лидности генерируемых ПДТ и БТЗ в целом. Представить такую спецификацию – значит подобрать тестовые ситуации из конкретной области знания, адекватные результату КАТ. Опыт и культура декомпозиции фрагмента учебного материала применимы в разработке понятийной спецификации в большей мере, чем в создании технологической спецификации. Последняя представляет собой описание тестовых материалов на «языке БТЗ».
Особенностью методологического подхода к проблеме КАТ является выбор цели тестовых проверок и построение концептуальной (содержательной) модели поведения объекта нечисловой природы. Важно то, что об эмпирическом объекте, о его состоянии обученности и об учебной среде мы должны говорить содержательно, то есть рассматривать их с учетом философских категорий количества и качества.
Говоря об управлении как о целенаправленном процессе, нельзя забывать о том, чьи цели реализуются в процессе управления. Поэтому необходимо ввести в рассмотрение квазисубъект (компьютерную программу), который является источником целей, реализуемых управлением. Квазисубъект находится в той же учебной среде, что и изучаемый эмпирический объект, т. е. воспринимает состояние этой среды и поведение тестируемого.
Цель – идеальное предвосхищение сознательно заданного результата адаптивного тестирования. Проверить выполнение цели в установлении степени обученности тестируемого можно только по его состоянию, для чего необходимо последнее выразить на языке целей квазисубъекта. Тестирующая программа должна формировать цель, реализация которой, по «мнению» квазисубъекта, приведет к рациональному в заданном смысле поведению респондента. Такая цель представляется набором требований, предъявляемых тестирующей программой к поведению телеологического объекта.
Для реализации цели создаются специальные каналы управления тестирующими воздействиями и параметрами KCT3. Очевидно, что в этом случае поведение эмпирического объекта будет зависеть от двух факторов: причин изменения траектории тестовых испытаний – состояния обученности индивида и меры трудности, предъявляемых ему ПДТЗ (состояния управления).
Теперь можно говорить о создании системы управления, под которой следует понимать алгоритмы обработки информации и артефакты, объединенные для достижения заданных целей управления в поведении эмпирических объектов. Будем считать, что управление реализует тестирующая программа, а систему правил управления называть стратегией (алгоритмом). Появление «стратегии» связано с приданием поведению и состоянию элементов некоторой эмпирической системы желательных свойств. Выдвигаемые нами цели управления объединяет общая черта: они относятся к приспособлению параметров тестирующих воздействий к значению латентного параметра обученности каждого конкретного объекта эмпирической системы. Иными словами, система компьютерного тестирования должна приспосабливать свои действия к поведению каждого целеустремленного респондента, т. е. должна быть адаптивной.
Цель управления рассматривается в этом контексте как установление в эмпирической системе КАТ некоторых желательных свойств ЭФТК, когда траектория процесса тестовых испытаний удовлетворяет четко сформулированному заранее критерию оптимизации и заданным ограничениям.
Мы будем различать адаптацию тестирующей системы (инструментальной среды) к поведению индивида и процедуру социального приспособления участников процесса испытаний к культурному пространству тестирования. Адаптация предполагает, что существуют какие-то новые ситуации, к которым среда или позиционер должны со временем приспособить свои действия. В первом из этих случаев процесс адаптации связан с изменением значений тестирующих воздействий и приспособлению их меры трудности к поведению каждого тестируемого. Этот случай будет нами рассматриваться при дальнейшем изложении материала.
Тестируемый как элемент эмпирической системы занимает одно из центральных мест в культурном пространстве КАТ, поскольку он становится фактором управляемости этого комплекса, причем последнее направляется в сторону непрерывного повышения качества установления степени обученности индивида (например, с дальнейшим увеличением этапов тестовых испытаний и повышением однородности степени обученности в классах). Таким образом, с методологической точки зрения процесс КАТ является результатом коммуникации объектов и субъектов с тестирующей системой, и поэтому в культурном пространстве КАТ всегда содержатся как минимум два этапа: выделение однородных образов из объектов и различение испытуемых среди конкретных классов обученности. Это взаимодействие устанавливается в процессе:
· научных наблюдений за поведением тестируемых;
· систематизации и классификации полученных эмпирических данных;
· эмпирического обобщения результатов тестовых проверок;
· получения эмпирических фактов;
· вычисления баллов, определяющих отношение респондента к KCT3;
· отнесение полученных баллов к заданным уровням-интервалам обученности.
Основной проблемой создания теории КАТ является разработка концептуальной модели поведения объекта нечисловой природы, определяющей конструктивный принцип различных видов деятельности, которые соответствуют цели исследования и одновременно могут быть отражены в гипотезе о характере изучения латентного параметра тестируемого. С точки зрения методологического подхода удобно трактовку этой проблемы рассматривать независимо от синтеза цели адаптивного управления, хотя в действительности цели и объект связаны друг с другом и активно взаимодействуют.
Чтобы не возникали трудности описания поведения телеологического объекта из-за чрезмерной общности eгo концептуальной модели, необходимо разделить этот феномен в соответствии с возможными различиями в характере его поведения на отдельные компоненты, т. е. установить границы объекта выделить поведение целеустремленного объекта нечисловой природы из учебной среды. Такое расчленение поведения индивида должно продолжаться до тех пор, пока не будут достигнуты заданные цели управления ею поведением. B[9] приведено разбиение процесса исследования состояния обученности тестируемого на два этапа, которые позволяют достигнуть максимальной управляемости процедур типологической классификации объектов и рациональной аттестации образов. Разработка концептуальной модели поведения объекта позволяет перейти к теоретическому уровню научного познания, когда раскрываются законы функционирования инструментария, связываются знания об отдельных сторонах компонентов культурного пространства тестовых проверок в единую, целостную систему.
Затем на основе изучения заданного объема данных и знаний, имеющихся в отношении поведения телеологического объекта, выявляются его наиболее существенные свойства и закономерности, разрабатываются:
· математическая модель поведения объекта нечисловой природы;
· правила конструирования KCT3, стандарты и нормы деятельности участников культурного пространства КАТ;
· алгоритмы адаптации;
· механизмы установления оценки УУД респондента;
· методы интерпретации полученных результатов.
Далее выбираются способы и средства моделирования, создаются программные модели эмпирической системы КАТ, осуществляется проверка адекватности и корректировка моделей, проводится апробация процедуры тестирования, осуществляется анализ результатов моделирования и модификация (при необходимости) целей, ограничений, информационного и программного обеспечения системы в целом.
Следующая проблема связана с принятием решения о том, каким должно быть управление V, чтобы при конкретном поведении тестируемого и имеющемся ресурсе R достигнуть заданной цели в управлении поведением индивида. Это решение базируется на имеющейся модели поведения объекта F, цели Z*, имеющейся информации о состоянии учебной среды и поведении тестируемого Y, а также ресурсах R управления, которые представляют собой ограничения, накладываемые на V в связи со спецификой элементов эмпирической системы и возможностями системы в целом. Полученный при этом результат должен быть оптимальным с точки зрения выбранных ранее целей КАТ.
Специфика поведения каждого конкретного тестируемого требует приспособления Действий тестирующей системы (меры трудности ПДТЗ) к качеству его заключений. Указанное обстоятельство заставляет обращаться к адаптации структуры модели тестирующих воздействий. Благодаря этому достигается приближение меры трудности тестовых ситуаций βj к степени обученности респондента θi.
Важно то, что об этом мы будем знать еще до оценки качества модели поведения объекта нечисловой природы, и не просто знать, что соответствующая данной цели модель не может быть корректно оценена, но и определять конкретную причину этого. Заметим, что традиционные методы тестологии не позволяют выявить такие причины. Они не связывают концептуальные описания модели поведения объекта с неопределенностью оценки, не указывают причину этого несоответствия.
Непараметрическая и интервальная статистика порождают качественно новую парадигму, позволяющую описывать процесс КАТ на языке «более мягком», чем традиционно принятый в тестологии язык параметрических представлений. Интервальная статистика исследует ситуации, когда данные научных наблюдений – не числа, а интервалы, в частности порожденные наложением неопределенностей на значения выводов эмпирических объектов. Отказ от принципа постулирования математической модели описания поведения объекта нечисловой природы, переход к целевой методологии исследования означают перевод теоретической тестологии на позиции согласования тестометрических данных и статистического анализа результатов оценки. Отражающая качественные свойства степени обученности элементов эмпирической системы теория непараметрической и интервальной статистики оказывает самое непосредственное воздействие на все тестометрические этапы исследования. Поэтому центральной проблемой методологии КАТ является разработка теории, согласующей качественные и количественные свойства телеологических объектов нечисловой природы и одновременно способной разрешить с помощью компромиссов возникающие между этими категориями противоречия.
Под воздействием этих компромиссов видоизменяется основное требование к модели: она должна сочетать в себе функцию анализатора тех тестометрических свойств целеустремленною объекта, которые отвечают цели исследования, позволять правильно статистически оценивать качественные характеристики этих свойств. Обращение теоретической тестометрии к целенаправленному исследованию свойств обученности объекта позволяет не только более глубоко и адекватно отразить его поведение в модели, но и в существенной степени конкретизировать требования к предмету моделирования.
Под предметом моделирования мы понимаем некоторый условный процесс КАТ, качественные свойства которого отражены в тестометрической теории, а количественные — во временном ряде значений его показателей, устанавливаемых в процессе сеанса тестовых испытаний. Целью моделирования является получение новых знаний об УУД телеологического объекта.
Непосредственный метод определения количества баллов тестируемого – косвенное оценивание с помощью инструментальной среды КАТ. Оценивание (вычисление) лежит в основе количественного предсказания латентного параметра обученности объекта нечисловой природы. Качественное определение степени обученности индивида есть узнавание, типологическая классификация уровня его учебных достижений. В процессе классификации поведение респондента относится к какому-либо образу (классу отличников, хорошистов и т. п.). Это отнесение к тому или иному таксону есть аналог отображения качества заключений тестируемого к какому-то уровню-интервалу (отрезку) шкалы. Отсюда следует, что шкалирование есть частный случай классификации поведения тестируемых. Система образов играет в качественных методах ту же роль, что деление шкалы (например, стобалльной) в количественных. Эти деления организованы в иерархическую систему и могут быть сколь угодно малой величины.
Аналогичным образом и качественная классификация носит иерархический характер, и, следовательно, можно говорить о более точном и менее точном качественном определении степени обученности тестируемого. Например, в культурной среде компьютерного адаптивного тестирования (ACT) количество качественных уровней-интервалов равно 12-ти. Ясно, что более точно установить оценку УУД индивида – в качественном ли, в количественном ли смысле – значит увеличивать объем выборки (длину теста). На рис.6 и 7 изображена процедура шкалирования и шкала оценки в инструментальной среде ACT.
ШКАЛИРОВАНИЕ

Рис.6. Процедура шкалирования

Рис.7. Шкала оценки в ACT
Будем исходить из того, что изменение параметра обученности эмпирического объекта носит эволюционный характер. Это говорит о возможности выбрать такой период анализа, на котором процесс типологической классификации и оценивания можно изучать с помощью одной и той же модели. Стремление обеспечить неизменность отражаемых в модели тестометрических испытаний степени обученности телеологического объекта заставляют сокращать период тестирования, а стремление сохранить для анализа весь зарегистрированный за сеанс тестовых испытаний диапазон вариации заключений – увеличивать указанный период.
Предпочтение более качественной модели становится возможным благодаря изменению состава и порядка, в котором новые средства и способы преобразования исходных данных в новые знания об объекте входят в предлагаемую методологию. А именно: первая их совокупность определяет начальную стадию методологии – исследование статистической природы поведения целеустремленного объекта, выбор и обоснование наиболее корректной модели – гипотезы (концептуальной модели), отражающей тестометрические свойства обученности тестируемого, согласование математических свойств выбранной модели и метода оценки с действительным значением латентного параметра. На долю второй совокупности средств и способов преобразования приходятся указанные выше проверка наблюденной верности модели и учет воздействия последней на статистические характеристики оценок параметров модели.
Во втором случае адаптация характеризует процесс взаимодействия позиционеров с социальной, духовной и инструментальной средой, когда участники тестовых испытаний применяют правила, нормы, предписания и стандарты деятельности в культурном пространстве КАТ. Если речь идет об усвоении позиционером не частных (субкультурных), а общих (культурных) ценностей, характеризующих его поведение в пространстве КАТ в целом, то говорят не об адаптации, а о социализации. Адаптация позиционеров происходит при глубоком приобщенииих к нормам деятельности в культурном комплексе КАТ. В этом случае говорят об инкультуризации, когда участники процесса тестовых проверок полностью ориентированы на деятельность в интегрированном пространстве КАТ. Социализация разработчиков материальных или нематериальных феноменов тестирующей системы идет по линии профессиональной специализации (например, тестолог, спецификатор и т. п.). Специализация тестируемых – трансформация их базовых ценностей (по отношению к КАТ), когда индивидом усвоены некоторые обязательные элементы минимального культурного мышления. Конечным процессом специализации респондента является превращение его в зрелую и активную личность.
Что же общего между материальными и нематериальными феноменами культуры? Только информация! Информация не как надстройка над неоднородностями энергии и массы в культурном пространстве КАТ, а как ведущий фактор в каждой из этих компонент. О «проблеме преодоления разрыва между видимой протяженностью и невидимой информативностью» говорил еще Лейбниц. И в этом смысле культурное пространство СКДО понимается не на бытовом, а на научно-рациональном и творчески духовном уровнях, когда каждый элемент этого пространства «ощущает» на себе силу информативной целостности. Безусловно, здесь невозможно отличить сигнал от информации, движение – от движущегося, оцениваемое – от оценивающего. Возможна лишь иерархия уровней управления пространством, которая устанавливает зависимости между ними и определяет координируемость, когда определяющим является тезаурус конкретного участника процесса адаптивного тестирования, (т. е. некоторый уровень его информированности о реальных возможностях культурного пространства КАТ). Именно поэтому комплекс КАТ изучается нами как «объективная реальность, существующая в виде движения материи и материального движения не геометрического, а функционального» (по ).
Возможность и действительность, активная стандартная форма представления ПДТЗ и инертное содержание, объект и образ, фрагмент и целое понимаются в функциональном пространстве КАТ не в духе механицизма, а как взаимообусловленность неустойчивости и устойчивости (по ). Закон сохранения информации в культурном пространстве адаптивного тестирования указывает на то, что здесь целое работает для информационного обслуживания каждой конкретной частной ситуации.
Информационное единство компонентов культуры (артефактов, знаковых систем, ценностей и норм деятельности) составляет основу культурной интеграции эмпирическихи систем, средств коммуникации и связи. Подобная интеграция (единство культуры КАТ) создается благодаря наличию нормативной системы правил, стандартов, предписаний и моделей поведения позиционеров, информационного взаимодействия адаптивных алгоритмов тестирования и оптимальной оценки поведения респондентов. В нормативной системе культуры адаптивной СКДО УУД объектов нечисловой природы все главные компоненты должны быть согласованы, составлять логически связанное, целостное объединение. Стандарты и правила выступают в интегрированном пространстве как феномены социальных и духовных норм, а предписания устанавливают культурные нормы поведения участников процесса тестовых испытаний, присущие конкретным условиям проведения тестовых испытаний. Единство базисных функций культуры КАТ обнаруживается в выполнении принципа сохранения информации и установлении в интеллектуальной системе СКДО примата сигнификативной функции культуры – значений и ценностей КФТ для каждого конкретного испытуемого.
Если посмотреть на проблему КАТ, возникновение и развитие интеллектуальной технологии тестовых проверок и особенно создание операционального наполнения, становится ясным, что все сводится к разработке системы правил спецификации и формирования тестовых материалов, выбору алгоритмов адаптации, проектированию механизма классификации и оценивания УУД тестируемых, т. е. последовательностей разнородных, взаимосвязанных правил и методов деятельности, и, наконец, к инструментальным средствам реализующим эти правила и способы. Тестологи и тестируемые оказываются погруженными в системы правил. Культурное пространство КАТ в этом смысле состоит из правил, которые дополняют или исключают друг друга, выполняются в детерминированном или в произвольном порядке, последовательно или параллельно.
Эпистемологическая
Классическая теория познания (гносеология) изучает «вопрос об источнике и значении всякого человеческого знания вообще» (). Поскольку мы рассматриваем процессы познания применительно к тестологии и тестометии, то с точки зрения философии уместно сузить область исследования и обратиться к понятию «эпистемология». Эпистемология – это раздел философии, в котором изучаются процессы и закономерности, специфические для конкретного научного знания. Обобщая методы и приемы, используемые научными наблюдениями, анализом и синтезом, моделированием и т. д., эпистемология выступает в качестве философско-методологической основы теории развития познания и функционирования готовых правил и знаний применительно к процессу СКДО УУД целеустремленных объектов нечисловой природы.
Индивид многомерен и нет таких его параметров, которые не стоили бы внимания. Один из таких латентных (скрытых) параметров – степень обученности респондента – заметен лишь в той мере, в какой он «материализован» (точнее, институционализирован) в наборе социально значимых наблюдений за его поведением. Проблема состоит в том, как построить эти наблюдения, чтобы полученные результаты отражали с заданной верностью и объективностью состояние обученности теструемых? Эта проблема известна в философии как проблема истины.
Размышляя о возможности получения истинных знаний, И. Кант (1724 – 1804) утверждал: «Априорные формы принадлежат субъекту и характеризуют соответственно структуру чувственного восприятия и рассудочного мышления, которые не присущи вещам самим по себе. Актом познания субъекта, таким образом, является действие, активность его». Главным здесь остается вопрос: можем ли мы выделить в процессе научных наблюдений за поведением индивида в процессе КАТ значения латентного параметра его обученности и если можем, то каким образом и в какой степени значение этого параметра будет соответствовать объективной реальности?
Истинная степень обученности испытуемого – это соответствие, адекватность знаний полученных в процессе КАТ его действительного уровня обученности. Для этого соответствия характерно:
· объективность степени обученности телеологического объекта, значение которой не зависит от процедуры оценки его поведения;
· субъективность описания истины, которая проявляется в зависимости от того, какие знаковые системы используются и при каких условиях неопределенности проводятся тестовые испытания;
· абсолютность истинного состояния обученности объекта нечисловой природы, которое не может быть достигнуто при дальнейшем развитии теории тестирования, а существует «как тот предел, к которому стремится наше знание»;
· относительность оценки степени обученности тестируемого как приблизительное, верное лишь в вероятностном смысле наше знание.
Поскольку истинное значение искомого параметра остается неизвестным вследствие отсутствия «идеальных» методов и средств измерения, в тестометрии верность оценки определяют приближенно, используя вместо истинной величины полученные с помощью специальных статистических методов обработки результатов тестовых проверок исходное или реальное (сколь угодно близкое к действительному) значение УУД респондента. Это возможно не с абсолютной, а с некоторой априорно заданной мерой верности, которую определяют, пользуясь законами теории вероятностей, методов непараметрической и интервальной статистики.
Основным критерием установления истинности являются научные наблюдение за качеством заключений индивида на требования ПДТЗ различной меры трудности. Эти наблюдения основаны на познании теоретических и эмпирических законов, которые закрепляют повторяемость и регулярность определенных процессов или явлений. Следовательно, эпистемология раскрывает закономерности и пути развития научного знания в области описания и совершенствования теории КАТ. В связи с этим приобретают первостепенное значение вопросы научного познания процессов компьютерного тестирования.
Дедуктивные системы подразделяются на аксиоматические и конструктивные. Аксиоматическая теория рассматривается как формализованная система, устанавливающая соотношения между ее знаками и описывающая множества объектов, которые ей удовлетворяют. В теории КАТ аксиоматизация осуществляется после того, как содержательная теория в достаточной мере построена и проверена. Такой подход применяется в процессе выбора способа установления УУД, когда для оценки состояния обученности тестируемого выбираются точечные или векторные (оптимальные) статистики. В обоих случаях предполагается, что результаты дидактической оценки достижений основываются на нормальном распределении научных наблюдений. К аксиоматическому способу построения научных теорий относятся математические модели Раша и Бернбаума. Эти математические модели выражают глубже и полнее соответствующие объективные закономерности, нежели эмпирические, и, следовательно, обладают большей прогностической силой. Примерами таких предсказаний являются взаимосвязь между мерой трудности заданий и степенью обученности тестируемого, зависимость энтропии заданий и вероятности формирования на них правильных заключений респондентами и т. п.
Эпистемологическая функция философии КАТ состоит в разработке по правилам и стандартам баз ПДТЗ и адекватного воспроизведения реального процесса компьютерных тестовых испытаний, без которых невозможна ориентация позиционеров в культурном пространстве СКДО УУД и успешное развитие этого комплекса. Она концентрируется на процессе дескрипции, с логической точки зрения – на высказывании, а с методологической — на использовании правил для получения знаний. Это воздействие может быть представлено как включение духовных, социальных и технических компонентов культуры в процесс порождения нового научного знания о формировании и описании культурного пространства КАТ.
С методологической точки зрения процесс научного познания является двуединым и включает в себя теоретическую и эвристическую компоненты (рис. 8). Для теоретического знания характерно то, что при наличии истинных посылок мы всегда получаем истинное знание. Здесь эпистемология концентрирует свое внимание на использовании теоретических положений и правил для получения нового знания.
Эпистемология выступает как теоретическое основание различных форм методологического анализа, тех его уровней, где исследование методов, средств и форм СКДО УУД тестируемых осуществляется нефилософскими средствами. Она показывают, что, изучая познание как формирование и развитие идеального плана человеческой практико-преобразующей деятельности, можно анализировать сущность КАТ. И здесь главную роль занимают проблемы установления корректного соотношения между категориями эмпирического и теоретического уровня знания. Эта функция философии акцентирует внимание исследователей на процедуре создания языковых конструкций, заменяющих собственное или нарицательное имя предмета. Знания, получаемые на основе этого подхода, относятся в большей части к тестометрии и поддаются довольно четкой дедуктивной переработке. Сюда следует отнести, например, математические модели Раша и Бернбаума, методы параметрической статистики и т. п.

Рис.8. Методология научного познания.
Теоретическое знание является основой построения идеализированных объектов – моделей, – выражающих существенные отношения реально наблюдаемых ситуаций. Например, основой для выбора алгоритмов ситуационного управления действиями тестирующей системы являются базовые отношения, характерные для математических моделей Раша и Бернбаума, параметрической и непараметрической процедур оценок и т. п.
Второй тип законов параметрической статистики обнаруживаем при изучении источников, в которых производится оценка результатов научных наблюдений поведенческих систем. Эти законы относятся к совокупности объектов произвольной природы и описывают поведение этого множества как целого. Здесь поведение отдельных индивидов по отношению к множеству как целому определяется статистическим законом только с определенной вероятностью, а статистическая закономерность выступает как определенная повторяемость в поведении ансамбля однородных явлений. Причем законы параметрической статистики применимы лишь в том случае, когда единичные явления, образующие совокупность, происходят независимо друг от друга и, следовательно, случайно по отношению к исходному множеству как целому.
В пределах эпистемологии необходимо, во-первых, установить специфику процесса тестирования и применения конструктов теории КАТ и, во-вторых, учитывать, что развитие методов тестологии и тестометрии – это особая деятельность, цель которой — создание нового знания, то есть формирование и изменение понятий, взглядов и теоретических концепций на процесс СКДО. Следовательно, становление теории КАТ, как новый вид деятельности, связан с задачей практического описания степени обученности объектов эмпирической системы, когда главной и непосредственной целью становится производство теоретического знания.
Несмотря на достаточно длительную предысторию и активную разработку теории тестов как в нашей стране, так и за рубежом, проблема качества дидактической оценки УУД эмпирических объектов является относительно новой. По существу сфера проверки степени обученности индивидов в классической теории тестов сводится к вычислению точечной оценки достижений. Основным объектом исследования в данном случае являются выборки (числа) из нормального или биноминального законов распределений, описываемых математическим ожиданием, дисперсией и коэффициентом корреляции [13].
В классической и современной теории тестов научные наблюдения изучаются как совокупности заключений (данных), образующих выборку. Поскольку качество отдельных заключений индивида на требования ПДТЗ различной категории трудности априори является непредсказуемым, то искомое значение латентного параметра его обученности θ есть случайная величина, имеющая свой закон распределения
. Величина
, реализация которой φ(y) принимается за искомые значения скрытого параметра обученности тестируемого θ, называется оценкой. Наиболее распространенными требованиями к оценкам в классической теории тестов считаются ее состоятельность, несмещенность и эффективность.
Исчерпывающей вероятностной характеристикой, наблюдаемой в ходе тестирования поведения респондента, является априорно заданный закон распределения вероятностей качества его заключений – правило, позволяющее установить вероятность попадания
в любую конкретную область ее значений. Однако, при обработке наблюдений, которые производятся параллельно с процессом тестовых испытаний в режиме on-line по выборке нарастающего объема, задача установления закона распределения поведения тестируемого является достаточно сложной. Поэтому в практической деятельности часто определяют не законы распределения, а их параметры или числовые характеристики, основными из которых считаются (при неявном допущении гауссовости закона распределения) математическое ожидание, дисперсия и коэффициент корреляции.
Одним из возможных подходов к анализу статистических исходов наблюдений является точечная оценка, когда вместо латентного значения параметра θ используется некоторая статистика
). Ясно, что чем ближе
к действительной величине
, тем точечная оценка лучше. Поскольку
является функцией выборочных значений, она оказывается случайной величиной, и, следовательно, абсолютная величина разности между
и θ также будет случайной.
Так как при неограниченном увеличении объема выборки (научных наблюдений) N имеют место неограниченные возрастания «близости»
κ θ , то необходимо прежде всего установить, что мы понимаем под сходимостью последовательности случайных величин
к θ при
.
Говорят, что последовательность наблюдаемых значений
(N = 1,2,…) сходится к латентному параметру обученности θ по вероятности, если для любого ε > 0
![]()
Величина
сходится к θ в среднем, если
(2)
Здесь символ M (У) означает математическое ожидание случайной величины У. Из сходимости в среднем следует сходимость по вероятности. Согласно неравенству Чебышева
![]()
Из (2) следует(1).
Если оценка
сходится по вероятности к реальному (близкому к действительному) состоянию обученности испытуемого, то она называется состоятельной. При
Μ (
| θ ) = 0 оценка
называется несмещенной.
Объективность оценки определяется степенью ее разброса, рассеяния около среднего значения – дисперсией. Если
– несмещенная оценка и имеет заданную дисперсию, а для θ не существует другой оценки с меньшей дисперсией, то
называется эффективной оценкой степени обученности респондента θ.
При более детальном изучении данных научных наблюдений за поведением тестируемых используют методы интервального оценивания и проверки статистических гипотез. В первом случае определения степени обученности индивидов по выборке (y1 , у2 , ... , уN) вычисляются две статистики
и
, а значения интервала
используются в дальнейшем так, как если бы действительные значения латентного параметра θ находилось в этом интервале.
и
– нижняя и верхняя доверительные границы, которые как и оценки
являются связанными с ней статистиками.
Верность оценки в этом случае характеризуется вероятностью того, что θ находится в доверительном интервале
, и объективностью оценки, связанной с величиной интервала. При заданном значении доверительного коэффициента

Здесь γ – заданная доверительная вероятность. Длина доверительного интервала xaрактеризует верность оценки, а доверительная вероятность – объективность оценки. В практической деятельности нижнее значение γ обычно равно 0,9, а верхнее – не превышает величину 0,998.
Другим подходом к оценке поведения тестируемых является применение теории статистической проверки гипотез, которые разделяются на параметрические, когда вид за – кона распределения известен, и непараметрические, когда он не установлен. Накопленные за сеанс тестовых проверок результаты статистических наблюдений рассматриваются в этом случае как реализации случайных значений компонент модели поведения объекта и являются исходным материалом для описания траектории качества заключений тестируемого. Примерами статистических гипотез – утверждениях о некоторых вероятностных свойствах поведения индивидов – являются предположения о типе закона распределения наблюдаемой случайной величины, о числовых значениях параметров распределения, о виде зависимости между наблюдаемыми заключениями и др.
Не менее остро стоит проблема оценки степени обученности и при использовании статистического анализа. Здесь для установления верности вычисления латентного параметра обученности тестируемого применяются методы оптимальной оценки – максимального правдоподобия, Неймана-Пирсона, минимакса или Вальда [29, 30]. В приложениях теории тестов эти области применения методов параметрической статистики представляют собой экстенсивный путь становления теории тестирования, тот идеал, к которому надо стремиться, если корректно применять аппарат классической теории вероятностей и математической статистики к известным законам распределения отдельных наблюдений (см. раздел 5).
Методы оптимизации принятия решений в случае параметрических статистик основаны на том, что распределения описываемых ими величин считаются известными. При этом, чем более полно используется априорная и текущая информация о параметрах распределений, тем качественнее будут полученные решения. Если исходные данные о распределениях оценок неизвестны, то наиболее успешной попыткой построения наилучшего из возможных алгоритма вычисления состояния обученности тестируемого, оставаясь в рамках параметрической модели, является метод минимакса. Однако и в этом случае нет никаких гарантий, что «истинное распределение оценок будет всегда в рассматриваемом классе, и ничего не известно о том, что будет, если распределение выйдет из этого класса».
Такого рода теоретические знания обладают рядом недостатков. Во-первых, они не содержат в себе правил для формирования исходных данных, не основываются на критериях, учитывающих качественные атрибуты понятий. Обобщение корректных заключений тестируемых на требования ПДТЗ, получаемые в рамках подобного рода моделей, жестко однозначны и не допускают вариантов, тогда как в реальном процессе КАТ респонденты строят свое поведение с учетом различного рода неопределенностей. Во-вторых, язык логики предикатов, лежащий в основе дедуктивного представления знаний в классической теории тестов, является сугубо дескриптивным, не способным моделировать процесс КАТ, когда принятое решение и коррекция действий тестирующей системой определяется не только неопределенностью поведения телеологического объекта, но и изменением ценностей, установок и различного рода содержательных представлений.
В практической деятельности трудно указать на какие-либо веские основания, по которым конкретное распределение результатов наблюдений за поведением тестируемых «должно входить в то или иное параметрическое семейство». Действительно, идеальные модели традиционной статистики слишком абстрактны и приспособлены, в большой степени, к описанию азартных игр или манипуляции с шарами в урне. Так, например, в [25, 29] на стр. 5 находим: «Неоднократно публиковались экспериментальные данные, свидетельствующие о том, что распределения реально наблюдаемых случайных величин, в частности, ошибок измерения, в подавляющем большинстве случаев отличны от нормальных (гауссовских). Тем не менее, теоретики продолжают строить и изучать статистические модели, основанные на гауссовости, а практики – применять подобные методы и модели».
Шведский математик Харальд Крамер за семь лет до того как A. H. Колмогоров сформулировал теорию вероятностей, писал: «Понятие вероятности следует вводить посредством чисто математического определения, из которого математические свойства вероятности и классические теоремы могут быть выведены при помощи чисто математических операций. Никакие возражения против такой теории, кроме базирующихся на чисто математической основе, не могут быть справедливы. С другой стороны, следует подчеркнуть, что такая математическая теория не говорит чего-либо о тех реальных событиях, которые будут происходить. Вероятностные формулы не могут определять характер реальных событий точно так же, как формулы классической механики не могут предписывать звездам осуществлять взаимное притяжение согласно закону Ньютона. Лишь опыт может направлять нас в этом отношении и оценивать приемлемость аппроксимации результатов наблюдений выбранной нами математической модели». В связи с этим количественные методы теории вероятностей и математической статистики для оценки свойств и поведения эмпирических объектов следует применять с большой осторожностью.
Значительные предсказательные возможности таят в себе структурные законы. На их основе могут быть предсказаны моменты переключения меры трудности ПДТЗ. Динамические законы позволяют на основе знания исходной степени обученности индивида и категории трудности заданий предсказывать его состояние обученности в любой момент времени.
Количественно формулируемые законы отражают связи между величинами и поддаются математической формализации. Таковы, в частности, методы ситуационного управления, теории вероятностей и математической статистики и т. д. Количественно формулируемые законы выражаются с помощью зависимостей, в которых изменению одной величины (аргумента) соответствует изменение другой (функции), поведение которой определяет первая. Эти законы характеризуют объективно существенные связи, формулируются на языке математических символов с помощью формул или уравнений. Таковы, например, математические модели Раша и Бернбаума, методы статистической обработки результатов научных наблюдений и т. д. Формальный математический аппарат, с помощью которого выражаются количественные законы, дает возможность достичь требуемой верности предсказаний (например, прогнозы при структурной адаптации системы КАТ, получаемые на основе методов ситуационного управления процессом тестовых испытаний).
Эпистемологическая (познавательная) функция философии КАТ обеспечивает приращение новых знаний о моделировании поведения тестируемого. Рассматривая историю становления теории контроля о достижениях индивидов, можно обнаружить, что по мере становления культуры КАТ меняются подходы изложения научного знания, стиля мышления. Эти компоненты знания формируются в контексте культуры и испытывают воздействие на себе различных ее феноменов.
Приращение новых знаний о процессе СКДО достижений тестируемых достигается только при условии проведения экспериментов или научных наблюдений за их поведением. Научное наблюдение рассматривается нами как анализ качества заключений тестируемых на требования ПДТЗ различной меры трудности. Каждое заключение индивида – это данное.
Размытость поведения объекта, нечеткое описание меры трудности ЭФТК экспертами, изменение условий проведения тестовых испытаний и т. п. ставят ряд задач, возникающих при конструировании соответствующих моделей описания поведения телеологических объектов и процесса КАТ. С точки зрения объяснения влияния на качество оценки УУД поведения тестируемогои параметров ПДТЗ эти мешающие воздействия можно свести к конструкту неопределенности.
Можно утверждать, что термин «неопределенность» фиксирует результат нашей слабой осведомленности о возможности выделения объекта из среды и отсутствие полной информации о функционировании системы КАТ. Что же такое неопределенность? Источниками неопределенности оценки состояния обученности являются:
· нечеткость установления разработчиками и экспертами меры трудности ПДТЗ;
· принципиальная невозможность установления действительной степени обученности объекта нечисловой природы;
· ограниченность представления концептуальной модели поведения объекта;
· непредсказуемость качества заключений тестируемых;
· ограниченное время проведения проверок;
· конечный объем ПДТ;
· некачественное описание механизма адаптации тестирующих воздействий и неверный выбор статистических методов оценки достижений.
Существует два рода неопределенности. Неопределенность первого вида обусловлена случайностью, когда процесс агрегирования характеристик обработки поведения индивидов, описываемого в терминах систем адаптивного тестирования, оказывается в условиях неизменной учебной (социальной и духовной) среды статистически устойчивыми. Эта устойчивость атрибута респондента – основа для прогнозов его поведения, без которых невозможно осуществлять управление процессом тестовых испытаний. Будем называть частичной неопределенностью процесс СКДО УУД, когда заданы вероятностные характеристики и стохастические закономерности изменения случайных величин.
Ситуации появления другого вида неопределенности наблюдаются, когда в исходной модели описания процесса оценки УУД функциональный вид распределений неизвестен. Априорная информация сводится лишь к заданию различий между конкурирующими гипотезами, сами же распределения, охватываемые той или иной гипотезой, не конкретизируются. Ситуацию, при которой указано лишь некоторое множество, элементом которого может быть устанавливаемая оценка, назовем полной неопределенностью (далее просто неопределенностью).
Все это позволяет считать отношения моделирования поведения телеологических объектов в определенной степени хаотичным, а саму неопределенность предполагается рассматривать как категорию эпистемологическую. Смысл изучения структуры возникшей парадигмы вероятностного представления оценки достижений состоит в том, что она создала систему управления (оценивания и адаптации), позволяющую описать процесс КАТ на языке теории параметрической и непараметрической статистик.
Основной формой мышления при создании KCT3 и ЭФТК (новых знаний) является умозаключение – рассуждение, в ходе которого из спецификаций фрагментов учебного материала формулируются новые суждения. Выделение в умозаключениях посылок и требований, установление форм тестовых ситуаций составляют сущность культуры мышления. Всякое корректное рассуждение должно удовлетворять условию: если посылки ПДТЗ истинны, то истинным (или логичным) должно быть и конечное суждение, если на его требование индивидом дано правильное заключение.
По форме умозаключения разделяются на дедуктивные и индуктивные. Дедуктивные рассуждения базируются на логическом анализе накопленного и теоретически истолкованного эмпирического материала и его систематизации, строгого выведения следствий и получения новых знаний. В случае дедуктивного вывода анализу подвергаются отношения между отдельными компонентами, абстрагированными от генезиса и смысла понятий.
Несомненно, придет время, когда будут созданы качественные KCT3, а каждый разработчик БТЗ станет по сути своего творческого труда не только профессионалом в конкретной области знания, но и специалистом по проектированию ПДТ, для которого язык тестологии будет вполне естественным. Пока же большинство преподавателей и учителей ждут от тестологии и тестометрии прямых методик и рекомендаций. Отсюда следует, что процесс СКДО УУД тестируемых должен быть представлен в виде адаптированного к практической деятельности методологического знания.
Заключая наше исследование, подытожим то, что было сказано по поводу правильно действующих взаимосвязей между качеством и количеством (числом). Исторически между этими категориями первая ступень предшествует второй, причем качество позволяет накапливать разрозненные факты, а количество сводит их воедино, обобщает и объясняет. Количество предвидится качеством, а качество выводится из количества.
Такая последовательность ступеней познания предполагает направляющую роль теоретического мышления по отношению к эмпирическому. Обе ступени познания переплетаются между собой, причем число «питает» качество, служит основой для размышлений и установления на шкале оценки уровней-интервалов. Это число подтверждает правильность того, что мы установили мыслью.
Качество раскрывает «спрятанные» в оценке значения и смысл, объясняет то, что в ней содержится; под его воздействием количество становится «духовно освещенным». Нарушение взаимосвязи между количеством и качеством аналогично некорректному соотношению между теоретическим и эмпирическим знанием. В этом случае тестовые проверки становятся неосмысленными, а процедура тестирования – беспредметной, когда между количеством и качеством, с одной стороны, наблюдается «безудержное теоретизирование натурфилософов», а с другой «самая плоская эмпирика, презирающая всякую теорию и относящаяся с недоверием ко всякому мышлению» (К. Маркс, Ф. Энгельс Соч. T.20,c.381).
Неосмысленное количество превращается в констатацию случайного факта, пусть даже соединенного с другими такими же числами в один общий ряд, лишенного внутреннего смысла. В свою очередь неспособность правильно оперировать с числами вырождается в создании фиктивных представлений о значении латентного параметра обученности эмпирического объекта. Следовательно, здесь в центре внимания стоит необходимость применения культурного мышления (логичного и логического), основы синтеза качественной и количественной категорий культуры оценки.
Качество не выдумывает числа, а извлекает их из реального поведения тестируемых, на основе которого наша мысль познает степень обученности индивида. Для оценки поведения объекта нечисловой природы употребляют два существенно разных понятия: одно – численное, обозначающее баллы, число которых подсчитывается; другое существенное. Такое расчленение по их числовому значению с эпистемологической и методологической точек зрения свидетельствует о том, что категории количества и качества работают вместе и взяты из действительного мира установления латентного параметра обученности телеологического объекта.
Информационно-эпистемологическая
Для современного этапа развития теории СКДО УУД объектов произвольной природы характерно превалирование неформализуемых или плохо формализуемых проблем, алгоритмическое решение которых либо не существует, либо не может быть получено на имеющихся материалах. В связи с этим новые требования к технологии обработки информации о поведении объектов нечисловой природы обусловлены:
· необходимостью решать плохо формализуемые проблемы;
· наличием пользователя, не являющегося профессиональным программистом.
Последний фактор требует нового уровня «интеллектуальности» компьютера, т. е. его способности обращаться с позиционерами в «дружественной» форме на этапах ввода ПДТЗ и заключений тестируемых, а также в процессе тестовых испытаний и выдачи результатов проверок для различных категорий пользователей.
При реализации интеллектуальных функций присутствуют знания, из которых можно извлечь правила описания, распознавания или деятельности. Знаниями принято называть хранимые в системе КАТ данные, формализованные в соответствии с определенными структурными правилами, которые тестирующая программа может автономно использовать при формировании логических и логичных выводов. Работа со знаниями в интеллектуальной системе (ИС) тестирования представляет собой обработку их содержимого правилами преобразования тех форм, которыми описываются эти феномены в системе КАТ.
Следовательно, при обработке данных фундаментальной проблемой является описание смыслового содержимого различных задач, а также наличие таких форм представления знаний, которые гарантируют корректную обработку их смысла и значения формальными правилами преобразований. Представление знаний в интеллектуальной тестирующей системе изучается информационной эпистемологией.
В отличие от дедуктивных методов эпистемологии информационно-эпистемологическая функция философии КАТ обеспечивает приращение компонентов нормативной системы культуры, регуляризацию знаний о поведении и состоянии объектов произвольной природы, имеющих место в культурном пространстве СКДО УУД. Информационная эпистемология (ИЭ) исследует знания, а также процессы переработки и преобразования сигналов данных, анализирует способы и механизмы превращения извлекаемой из цифровых сообщений информации в ее высшую форму – знание. Она изучает различные методы представления и анализа качества тестовых материалов, возможности получения новых сведений о мере трудности ПДТЗ путем обработки заключений испытуемых в инструментальной среде КАТ, изучает способы адаптации, обеспечивает установление уровней – интервалов качества оценки УУД и т. п.
Информационная эпистемология с методологической точки зрения концентрирует внимание позиционеров на использовании знаний с целью продуцирования новых норм и правил. Правила выводятся на основе анализа информации, в ходе которого выявляется регулярность существенных связей. Примерами таких правил может служить изучение форм мышления в процессе формирования понятия ПДТЗ. Здесь форма логичного мышления рассматривается как структура свернутого краткого суждения, в которой отражается смысл и значение ЭФТК. Данные научных наблюдений являются тем эмпирическим базисом, из которого исходит понятие как одна из форм выделения регулярного и существенного в поведении и свойствах телеологических объектов.
В силу сказанного фокус ИЭ перемещается на правдоподобные рассуждения, поскольку последние являются изначальной формой познавательной деятельности в любой области знания. Без применения категорий качества к процедурам оценки УУД и меры трудности тестовых ситуаций оказывается невозможным понять механизм превращения наблюдаемых данных в знание. Благодаря концентрации внимания исследователей на проблеме качества ИЭ приобретает статус самостоятельного раздела философии познания механизмов формирования KCT3 и управления процессом КАТ.
Поскольку знание есть данные, зафиксированные и выраженные в языке, то основные типы отношений внутри культурного пространства тестирования и в системе деятельности позиционеров должны подчиняться специфическим для теории адаптивного тестирования законам, которые с точки зрения культуры мышления представляются в виде текстов, являются общезначимыми для участников культурного комплекса тестовых испытаний.
Эмпирическое знание – это продукт материальной и духовной деятельности позиционеров, содержание которого получено из научных наблюдений и выражено определенным языком. На этом уровне формулируются методологические правила для проектирования тестовых материалов, устанавливается мера трудности ПДТЗ, осуществляется отбор экспертов, выбирается интервал качества оценки, проектируется концептуальная модель поведения объекта нечисловой природы.
Качественные закономерности вскрывают лишь общие тенденции развития явлений и то, что эти законы не могут (или пока не могут) быть выражены на языке математики, свидетельствует не об их ограниченности, а лишь о специфичности элементов эмпирической системы. Качественная формулировка законов КАТ предполагает применение и количественных методов исследования, и наоборот, количественные законы могут четко отражать качественные атрибуты объектов тестирования, причем в конкретной и расчлененной форме. Переход от качественной к количественной формулировке частных и общих законов КАТ, выражение их с помощью математических зависимостей свидетельствует о прогрессе познания, о становлении и развитии методов тестологии и тестометрии.
В культурном пространстве КАТ различают три вида отношений знаков и знаковых конструкций, фиксирующих и выражающих знание. Отношение обозначения характеризует некоторый инвариант, присущий отдельным группам тестируемых, ситуациям типологической классификации, оценивания и процессам адаптации тестирующх воздействий. Например, способ, которым мы распознаем класс отличников и оперируем в языковой деятельности значением данной знаковой конструкции, является ее операциональным смыслом. Здесь каждый знак или знаковая система имеют смысл и значение, чтобы расцениваться как средство выражения знаний о степени обученности телеологических объектов. Правила установления смысла конкретного знания называются семантическими.
Другую группу отношений образует система конструирования и передачи знаний. Это происходит всякий раз, когда мы создаем из одних знаков различные композиции с иными значениями. Здесь возникают новые знаковые конструкции, осмысленность которых регулируется правилами синтаксиса. Такие правила применяют разработчики ПДТЗ, когда им приходится создавать новые знания в виде проблемных тестовых ситуаций.
Наконец, третья группа отношений оперирует с прагматическими правилами, устанавливающими наборы и последовательности действий, которые должны осуществляться позиционерами и тестирующими программами на основе тех или иных знаний. Так, например, владение правилами спецификации позволяют проектанту создавать БТЗ с заданными показателями валидности. Возможности перевода данных в систему знаковых конструкций, включенных в семантические, синтаксические и прагматические отношения, составляют философскую основу теории КАТ и развития интеллектуальной технологии процедуры компьютерных проверок УУД телеологических свойств объектов.
Данные результатов научных наблюдений за поведением объекта нечисловой природы – это еще не знание. Если мы говорим, что респондент дал правильные заключения на требования 50-и ПДТЗ средней меры трудности из ста предъявленных ему однородных ЭФТК, то можем утверждать лишь то, что уровень его учебных достижений по стобалльной шкале отсчета составляет 50 баллов. Это определенное числовое данное. Ясно, что из отдельных выводов (данных) невозможно извлечь никаких прагматических фактов, регулирующих действия тестирующей системы. Для того чтобы данные, содержащие объективную информацию о состоянии обученности индивида могли быть использованы в культурном пространстве КАТ, они должны быть включены в контекст знаний.
Без исходного объема сведений о качественных уровнях – интервалах обученности тестируемых невозможно осуществить содержательную интерпретацию полученных в Результате компьютерных проверок данных. Такими качественными знаниями могут быть, например, утверждения, что уровень учебных достижений индивида есть функция от степени его обученности и категории трудности ПДТЗ. Если привлечь дополнительную информацию, например, об интервалах качества оценки (почти хорошо от 40 до 45 баллов, хорошо от – 45,1 до 55 баллов и от 55,1 – более чем хорошо), то можно утверждать, что полученный при тестировании балл (50) свидетельствует о том, что система КАТ отнесла поведение данного испытуемого к «среднестатистическим хорошистам». О выборе рациональных интервалов качества оценки будет сказано позже.
Для преподавателя, имеющего специальную подготовку, сама запись «уровень учебных достижений студента составляет 50 баллов» представляет знание о степени обученности тестируемого. Однако это следует не из формулировки данных (анализа записи числа), а из целого ряда других качественных знаний, используемых субъектом для интерпретации результата проверки.
Отсюда следует правило:
Данные, содержащие объективную информацию о степени обученности респондента, могут применяться пользователями тестирующей системы только в том случае, если они включены в контекст знания и определенным образом соотнесены с ним.
Компьютерная обработка заключений тестируемых на требования ПДТЗ выявила особый ИЭ статус результатов научных наблюдений. Сущность его состоит в том, что из изолированных баллов нельзя извлечь никаких прагматических правил, регулирующих качественный уровень степени обученности тестируемого. Наличие качественных уровней-интервалов оценки есть принципиальный признак знания, и только в этом смысле результаты КАТ могут расцениваться как знания. Данные, приведенные к одному содержательному основанию (началу), являются знаниями. Знания не только строятся на основе синтаксических, семантических и прагматических правил, но сами содержат в себе возможность извлечения информации. В этом случае мы будет говорить о культуре оценки и о культуре регулирования деятельности позиционеров в пространстве КАТ.
В рассматриваемом случае эмпирическое установление уровней – интервалов оценки достижений требует применения для обработки результатов тестирования статистических методов. Парадокс использования теоретических законов для установления эмпирического факта разрешается, если взаимодействие теории и факта шкалирования рассматривается в соответствии с культурой теоретического и правдоподобного научного знания. Так, например, в процессе становления классической теории тестов данные статистических наблюдений за поведением тестируемых записывались в виде чисел (точечная оценка). В современной теории тестов был осуществлен переход к интервальной статистике, а в теории КАТ предлагается использовать методы непараметрической и интервальной статистики.
Отсюда следует, что в формировании эмпирического факта оценки УУД индивидов участвуют знания, которые установлены независимо от теории, а факты, в свою очередь, дают стимул для применения новых теоретических знаний, которые, будучи верными, могут снова участвовать в формировании новейших знаний и т. п. Отсюда видно, что если с помощью эмпирических законов можно объяснить лишь наблюдаемое в системе КАТ поведение тестируемых, то с помощью теоретических законов может быть дано также и объяснение самим эмпирическим научным фактам.
ИЭ является результатом индуктивного установления научного факта и представляет собой вероятностно-истинное знание. Известны, например, методологические правила конструирования ЭФТК. Эти правила основаны на правдоподобных рассуждениях, когда исследователь пытается на основании обобщения конкретных явлений «уловить» проявление регулярностей. Истинные посылки здесь являются основой для получения наиболее вероятного корректного результата.
Методологические правила содержат в себе по меньшей мере одно переменное и для проектирования компонентов культурного пространства КАТ (конструирования тестовых материалов, выбора величины интервалов качества оценки и алгоритмов тестирования, организации тестовых испытаний и т. п.), являются универсальными нормативами деятельности разработчиков и тестируемых. Для любого феномена этого комплекса применимо правило (1991): «Если имеет место нетривиальное и не поддающееся стандартному объяснению событие в таком-то и таком-то процессе, то следует искать нетривиальную причину». Именно это утверждение явилось импульсом к созданию правил проектирования ПДТЗ и спецификации KCT3, разработке моделей телеологических событий, выбору алгоритмов тестирования и т. п. Так, например, если проектантам сообщают, как конструировать тестовые материалы, то эти правила являются инвариантными но отношению к различным областям знаний.
Правдоподобные рассуждения являются основой и при конструировании концептуальной модели поведения объекта нечисловой природы. Здесь уровень культуры мышления конкретного исследователя определяет выбор способа установления границ объекта (выделение степени обученности тестируемого из учебной среды), когда эмпирическое знание складывается из совокупности понятий, кроющихся за описанием состояния обученности индивида и зависимости его наблюдаемого поведения.
В другом случае эмпирические исследования базируются на непосредственном наблюдении за поведением тестируемых при помощи инструментария. Данные научных наблюдений содержат первичную информацию о мере трудности ПДТЗ и качестве заключений телеологических объектов на эти задания. Эта информация фиксируется в форме протоколов наблюдений. Далее осуществляется переход от данных наблюдений к эмпирическим фактам, когда не только корректируются содержание и мера трудности ПДТЗ, но и выбираются уровни – интервалы разделения шкалы оценки. Эта процедура требует проведения статистической обработки результатов заключений тестируемых, позволяющих установить в полученных данных инвариантное содержание оценок УУД индивидов.
Благодаря конкретизации старых понятий и возникновению новых (таких, как тестирующая система, тестирующие воздействия, адаптация параметра ПДТЗ, типологическая спецификация банка ПДТЗ и т. п.), появляется возможность создания словаря терминов и определений, образующих каркас новой области знания – тестометрии. Главным здесь является то, что на уровне эмпирического знания исследователи оказываются погруженными в процедуру обобщения наблюдаемых явлений и процессов, в систему методологических правил, которые под влиянием методов ИЭ становятся инструментом формирования не только деятельности разработчиков тестовых материалов, но и определяют культурные нормы поведения позиционеров различной категории.
Процесс интерпретации, сопоставлений, отождествлений с образцами знаний называют регуляризацией. Регуляризированные знания воспринимаются позиционерами культурного пространства КАТ как методологические правила, нормы, стандарты и образцы социально значимой деятельности. Когда мы говорим об использовании конъюнкции знаний для продуцирования правил, то предполагаем использование процесса регуляризации, который представляет собой систему процедур, связанных с интерпретацией, анализом, сопоставлением с образцами и т. д. отдельных знаний. Регуляризация знаний подводит нас к наиболее сложной проблеме информационной эпистемологии – вопросу о концепции искусственного интеллекта, основы для создания регулирующего действия тестирующей системы и процессуальных действий компьютерной программы оценки УУД объектов нечисловой природы.
В отличие от дескриптивных систем интеллектуальные инструментальные системы предписывают определенный набор действий в заданном отношении меняющих ситуации. Примером такого действия тестирующей программы может служить следующее утверждение: «Если индивид не справляется с требуемым числом заданий фиксированной меры трудности, то следует изменить характер тестирующих воздействий в сторону уменьшения их категории трудности». Такая система должна обладать интеллектом и уметь работать с семантическими сетями. С философской точки зрения системы искусственного интеллекта в культурном пространстве КАТ дают осмысленное отображение качества заключений (поведения) тестируемого, в то время как тестирующая программа принимает решение о последовательности эффективных целенаправленных действий, связанных с механизмами адаптации тестирующих воздействий и значений их меры трудности.
Интеллектуальная тестирующая система КАТ обеспечивает не только накопление ПДТЗ, но и позволяет организовать доступ к этим знаниям непрофессиональных пользователей. Более того, она легко адаптируется к качеству заключений каждого тестируемого, автоматически корректирует меру трудности ПДТЗ, хранящихся в БТЗ, работает с банками декларативного типа. Отличительная черта обработки знаний в системе ИИ состоит в возможности изменения человеко-машинных отношений и в соответствии с этим становления новой парадигмы решения проблемы оценки УУД респондентов. Поскольку цель данной книги состоит в том, чтобы дать представление о системе КАТ нового типа, то внимание читателя акцентируется на культуре тестирования. Что же касается современной технологии ИИ и ее применения, то по этим вопросам необходимо обратиться к специальной литературе по инженерии знаний [38].
Наконец, ИЭ вносит свои коррективы и в вычисление оценки. Эти изменения выходят за свои первоначальные чисто математические рамки и приобретают статус чрезвычайно широкого, почти не ограниченного типом реальности метода качественного подхода к построению алгоритмов шкалирования. Существенным здесь является то, что ИЭ вскрывает логичные принципы перехода к созданию новых правил, не отвлекаясь от выраженного в них конкретного содержания [9,35].
Отсюда следует, что прогресс в области становления нового подхода к оценке достижений заключается не в смене идей и уточнении критериев оценки, а в эволюции культуры мышления. Смысл этой парадигмы состоит в том, что она создает новую систему представлений, позволяющую описать процесс классификации и оценивания достижений эмпирического объекта на языке более содержательном – мягком, – чем язык классической теории вероятностей и математической статистики. Это и есть путь интенсивного пути развития теории КАТ, когда реализация современных методов оценки УУД тестируемых базируется на парадигме непараметрического мышления.
Цитируя фрагмент монографии Р. Шторма, подчеркивает: «Преимущество непараметрических методов заключается прежде всего в том, что при их применении не делается никаких допущений относительно функции распределения или ее вида в генеральной совокупности, вследствие чего критерий не связан с допущениями о нормальном распределении генеральной совокупности».
В значительной части технической сферы, благодаря применению информационно измерительных систем, получено больше знаний о параметрах объектов исследований, чем в области изучения поведения или диагностики состояния эмпирических систем произвольной природы. Примерами тому являются машиностроение, электротехника, авиационная промышленность, а также молекулярная химия и другие искусственные образования, для которых применение классических методов количественной теории измерения является естественным и общепринятым. Основное условие научных наблюдений за показателями функционирования или свойствами объектов неживой природы состоит в возможности контроля точности полученных результатов измерения путем либо повторных наблюдений, либо путем проведения научного эксперимента.
За счет применения таких диагностических приборов как сканирующие компьютерные томографы в медицине также достигнут существенный прогресс при установлении взаимосвязи между состоянием человеческого организма и различными видами заболеваний. Как следствие этого, медицинские знания постепенно выходят за рамки поверхностных представлений.
Первоочередной целью при создании системы управления процессом тестирования, когда объектом изучения служит поведение мыслящего эмпирического объекта нечисловой природы, является наращивание наших знаний о новой предметной области, построение артефактов, обладающих богатыми описательными возможностями представления знаний. Знания о качестве заключений тестируемых на требования ЭФТК не всегда приобретаются благодаря подробнейшим о них представлениях. Большинство знаний о поведении объектов нечисловой природы является результатом личного опыта преподавателей и логическая их основа остается довольно низкой – поверхностной.
Это связано с тем, что в отличие от искусственных объектов, где информационные процессы не подвергаются расшифровке, в мозгу индивида существует смысловая система обращения к памяти, позволяющая целенаправленно и осмысленно накапливать и извлекать нужные сведения. Такое фундаментальное свойство элемента эмпирической системы затрудняет оценку значения латентного параметра его обученности. Действительно в процессе подготовки заключения на требование ПДТЗ индивид руководствуется собственными мотивами социального порядка. Поэтому оценка поведения тестируемого – это не столько измерительная, сколько философская и социологическая проблема. Объясняется это тем, что мышление существует лишь в связи с активной деятельностью респондента, результаты которой фиксируются в процессе обработке наблюдений. Сюда добавляются:
· принципиальная невозможность проверки полученной в результате тестирования оценки за счет проведения повторного испытания одними и теми же ПДТЗ. Здесь наблюдается переход от повторяемости результатов, имеющих место при неоднократном измерении предметов и явлений неживой природы, к регулярности появления близких в определенном уровне – интервале значений оценки в случае проведения нескольких сеансов тестирования близкими по мере трудности ПДТ;
· невозможность проникновения непосредственно в механизм протекания процесса мышления объекта нечисловой природы;
· неопределенности, присущие установлению экспертами категории трудности ЭФТК и условиям проведения тестовых испытаний.
Изложенное выше свидетельствует о том, что элементы эмпирических систем относятся к объектам произвольной природы, и при оценке качества их состояния или поведения методы параметрической статистики неприемлемы. Обработку научных наблюдений результатов заключений респондентов для установления их степени обученности следует проводить на основе непараметрической и интервальной статистики.
Непараметрическая статистика, не делающая предположений о функции распределения результатов наблюдений за поведением тестируемых, оперирует не с числами, а с уровнями – интервалами, когда данные порождаются наложением неопределенностей на значения заключений объектов нечисловой природы. Ее приложения к описанию поведения элементов эвристических систем, явлений и процессов в культурном пространстве тестовых проверок можно отнести к новым способам оценки УУД тестируемых и анализа качества согласованности мнений экспертов в процессе установления атрибутов тестовых материалов.
Методы непараметрической статистики работают в том случае, когда к индивидам с фиксированными степенями обученности применить один и тот же ПДТ, а различные уровни их учебных достижений «становятся сравнимыми только после того, как они сведены к одному и тому же началу». Основаниями для перевода количественных данных, формируемых в системе КАТ в их качественные аналоги служит интервальная статистика изучения поведения эмпирических объектов нечисловой природы. В этой области знания качество числа является аналогом своего количества, т. е. строго соответствует характеру наблюдаемой в системе КАТ выборки. Номер уровня – интервала, в который попадает оцениваемая величина, и есть качество заключения тестируемого.
Поскольку в данном случае статистические данные порождают интервалы оценок поведения респондентов, то неопределенности оценивания, вызванные различного рода нарушениями условий проведения тестирования, ошибочной установкой экспертами меры трудности тестовых заданий, неполной информацией о состоянии индивида и т. п., в значительной степени сглаживаются.
В процессе КАТ поведение каждого респондента вычисляется в баллах, которые характеризуют величину, устанавливающую отношения правильных заключений тестируемого к общему числу предъявленных ему ПДТЗ различной категории трудности. Значение полученных индивидом баллов указывается точкой на шкале качественных уровней-интервалов оценки.
Описание поведения респондента уровнем-интервалом качества более естественно, чем оценивание числом. Например, оценку показателя качества обученности естественно дать в виде значения интервалов качественного признака – «отлично», «хорошо», «удовлетворительно», «плохо». Ниже приведено четыре уровня – интервала и качественные характеристики заключений тестируемых (оценки) на ЭФТК различной категории трудности.

На этом рисунке ранговые значения указаны цифрами и представляют собой лишь качественную классификацию УУД экзаменуемых в традиционной системе контроля достижений. Хорошо видно, что эти отметки лишь условно отражают значения латентных параметров проверяемых. Отметка представляется здесь как грубый аналог оценки УУД однородных по поведению объектов некоторой эмпирической системы.
Для рассматриваемого нами случая эмпирические знания используются при выделении классов тестируемых по результатам оценки их УУД. Если знание оцениваемого параметра попадает в какой-нибудь интервал, то в соответствии с установленным качественным атрибутом ему присваивается соответствующий класс обученности. Хотя в понятиях «класс отличников, «класс хорошистов» и т. п.» выделяется только общее, характерное для каждого из образов обученности тестируемых, из этого следует, что они противостоят единичному и особенному. Введение понятия «класс» составляет основу качественной спецификации УУД индивидов, поскольку знание исходного образа тестируемого не дает возможности объяснения отдельного и особенного. Диалектика дальнейшего перехода к понятию «испытуемый» подчеркивает закономерность перехода от оценки состояния обученности образа к оценке степени обученности субъекта (единичного). Отсюда следует правило:
|
Из за большого объема эта статья размещена на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 |


