·  отсутствие возможностей для планирования эксперимента не позволяет мате­матически определенно вскрыть характер взаимосвязей получаемых показате­лей объектов нечисловой природы, чтобы затем отразить его в модели тести­руемого;

·  испытуемые образуют неоднородные телеологические объекты эмпирических систем с различными значениями латентного параметра обученности, строят свои отношения с ПДТЗ различной меры трудности.

В дополнение к изложенному приведем несколько цитат из литературных источников.

в книге «Теории вероятностей. Исследование оснований», Нью-Йорк-Лондон, 1973, пишет; «Классическая вероятность... оказывается двусмысленной, высту­пая в качестве, как основ, так и методов оценки вероятностей. Она включает в себя эле­менты логической и субъективной концепций, хотя и остается менее ясной, чем логиче­ская теория, в отношении того, как достигнуть вероятностных оценок... При отсутствии ясной интерпретации классической вероятности мы не можем дать оправдательное опре­деление ее роли...Аксиоматическая переформулировка устраняет некоторые двусмыслен­ности в измерении, но мало продвигает вперед проблему правомерности применения».

Алгоритмическое определение категории случайности заключений тестируемого (как сложного сообщения) может быть интерпретировано как поведенческое описание. Если мы имеем дело с последовательностью чисел, состоящих из нулей и единиц, то, грубо го­воря, качество результата испытаний будет определяться видом этой последовательности. Однако в действительности матрица заключений тестируемых может состоять из единиц и нулей только в том случае, когда испытаниям подвергаются однородные не только по степени обученности испытуемые, которым предъявляются также однородные по категории трудности ПДТЗ.

НЕ нашли? Не то? Что вы ищете?

При частотной интерпретации вероятности возникает проблема устойчивости, вве­денная в рассмотрение еще Р. Мизесом. Эта задача есть камень преткновения при обсуж­дении вопросов, связанных с применимостью вероятностных представлений для описания поведения тестируемых. B. H. Тутубалин приводит по этому поводу следующее высказы­вание* : «По современным представлениям, область применения теоретико-вероятностных методов ограничена явлениями, которым присуща статистическая устойчивость. Однако проверка статистической устойчивости трудна и всегда неполна; к тому же она часто дает отрицательные выводы. В результате в целых областях знаний... нормой стал такой под­ход, при котором статистическая устойчивость вовсе не проверяется, что неизбежно при­водит к серьезным ошибкам».

* . Теория вероятностей. M., МГУ, 1972

По своей сути утверждение об устойчивости частот – это просто проявление закона больших чисел. Этот закон позволяет понять, почему мы можем применять методы тео­рии вероятностей и традиционной статистики к описанию наблюдений, но он не может служить достаточным основанием для оправдания широкого применения классических теоретико-вероятностных методов, ибо трудно дать безупречное физическое толкование условиям, которым должны удовлетворять результаты КАТ, чтобы имел место закон больших чисел. Скажем, в педагогических измерениях применяют дисперсионный анализ для того, чтобы выявить рассеяние результатов однотипных измерений. Однако, сама возможность применения дисперсионного анализа основана на некоторых практически непроверяемых предпосылках. Информацию о постоянстве частот в будущем мы принци­пиально не можем получить из нашего прошлого опыта, а однородности степени обучен­ности эмпирических объектов в реальном процессе тестовых испытаний просто нет.

В свое время Аристотель относил случай к чему-то, что «нарушает порядок и остается вне понимания». Попытки справиться со случаем предпринимал и Фома Аквинский, ут­верждая, что «случайные и возможные явления – это такие события, которые связаны со своими причинами в наименьшем числе случаев и совершенно не изучены» [O. B. Sheynin On the Prehistory of the Theory of Probability – Arch/ for the History of Exast sci.,v.12, №2, 1978]. Теория вероятностей, наложив существенные ограничения на проявление случая, создала язык, позволяющий описать случайность в рамках строго логических построений.

Математическая статистика – это язык для построения высказываний над реально на­блюдаемыми случайными величинам, которые мы хотим рассматривать как случайные. Для того, чтобы ввести случайность в систему логических суждений, приходится созда­вать систему теоретических построений, порождающих понятия «генеральная совокуп­ность», «выборка», «функция распределения», «независимые наблюдения» и т. п.

Эти четко определенные понятия и логические высказывания, построенные над ними, лишены противоречий. Собственно случайность из системы логических построений ока­залась исключенной. Она проявляется лишь при интерпретации этих построений на языке наблюдений, когда отдельным понятиям, скажем математическому ожиданию, оцененно­му по выборке, приписывается различное числовое значение, и эта размытость как-то ог­раничивается с помощью другого понятия – доверительных границ. Однако следует отда­вать себе отчет в том, что понятия традиционной статистики – это некоторые абстрактно построенные конструкты, а отнюдь не зеркальные отображения реального поведения телеологических объектов нечисловой природы. И совсем непросто показать, как эти по­нятия соотносятся с тем, что мы наблюдаем в процессе КАТ. Понятию «генеральная сово­купность» – одному из основных терминов математической статистики – в реальной эмпи­рической системе тестирования просто ничего не соотносится; это понятие – продукт глу­бокой абстракции.

Понятие статистической независимости наблюдений трудно обеспечить в практиче­ской деятельности, т. к. невозможно рассказать каждому тестируемому, как надо ставить наблюдения, чтобы их результаты оказались статистически независимыми, а об отсутст­вии взаимосвязей между случайно предъявляемыми ЭФТК мы также ничего утверждать не можем. Трудность, связанная с интерпретацией понятия «выборка», может быть оха­рактеризована софизмом : «Мы говорим, что выборку образуют результа­ты нескольких независимых измерений, производимых в одинаковых условиях. Однако, если мы контролируем все условия опыта, то у нас будет получаться одно и то же число (не будет никакой неопределенности), а если мы контролируем не все условия опыта, то откуда мы знаем, что они остаются одинаковыми».

В дополнении к этому высказыванию добавим, что параметрические модели почти всегда предполагают, что извлекаемая случайная выборка состоит из индивидуально из­вестных наблюдений. Однако в практической деятельности оценка поведения конкретной эмпирической системы всегда группируется около среднего значения конкретного интер­вала. Условие независимости выборки от степени обученности тестируемого представляет собой приближение, которое часто приводит к значительным систематическим ошибкам. Такая ситуация оказывается неудовлетворительной, когда имеет место выполнение одного или нескольких следующих обстоятельств:

·  количество интервалов оценивания мало, т. е. имеет место слабое группирование оценок;

·  интервалы группирования не равны между собой;

·  функция плотности распределения не подходит близко к оси абсцисс с одного или с обоих концов распределения.

Эмпирические законы распределения значений параметра объектов нечисловой при­роды, как правило, значительно отличаются от теоретических. Это затрудняет идентифи­кацию формы распределения данных научных наблюдений и связано, в первую очередь, со следующими факторами: во-первых, с ограниченностью выборки и, во-вторых, с раз­биением интервала значений случайной величины на интервалы, в пределах которых плотность вероятности представляется постоянной или линейной функцией. Увеличение длительности сеанса тестовых испытаний связано с существенным ростом затрат, а при апостериорной обработке данных и просто невозможно.

Отметим, что даже при использовании критериев согласия о виде закона распределе­ния данных наблюдений, положительное решение «нельзя рассматривать как утверждение о правильности выработанной модели закона распределения: оно лишь говорит о том, что экспериментальные данные не противоречат этому предположению» [, и др. Статистическая обработка эксперимента. Л.: Энергоиздат 1991,стр. 80].

В связи с этим предположение о гауссовском законе распределения данных наблюде­ний, часто применяемого без серьезной критической проверки многими исследователями считается неправомерным [25,29,30]. Заметим, что качество интервального оценивания гарантируется только при гауссовском распределении и резко падает при отклонении от него.

Рассматривая приближенность соотношения

тестологи считают, что реальные наблюдения абсолютно независимы и остаются посто­янными при большом n. Чтобы грамотно пользоваться этой формулой, надо уметь пере­численные выше ограничения, сформулированные на математическом языке, перевести в язык наблюдений. Но правил перевода, строго говоря, никто не знает. Поэтому требова­ния, которые накладываются на поведение тестируемых при использовании методов тра­диционной количественной статистики, оказываются весьма жесткими.

Применение робастных оценок – один из путей повышения качества оценки в ре­альных условиях. Робастность подразумевает слабую чувствительность к отклонениям от стандартных условий и высокую эффективность для широкого класса распределе­ний [Айвазян C. A., , Мешалкин статистика. M.: Финансы и статистика, 1983r.]. Наиболее известной из робастных (устойчивых) оценок парамет­ра сдвига распределения неопределенной величины является выборочная медиана, ко­торая относится к классу взвешенных порядковых статистик. Кроме медианы исполь­зуются цензурированные оценки. В последнем случае основная проблема связана с вы­бором числа ПДТЗ в тесте.

При оценивании параметров распределения по выборкам введение робастных оценок, т. е. оценок, нечувствительных к исходным предпосылкам, вместо эффективных оценок Р. Фишера – это смягчение требований, налагаемых на поведение случайных величин. Но и здесь грамматика робастных оценок не может быть построена теоретически – при выбо­ре рекомендаций приходится прибегать к моделированию задач на ЭВМ. Правда и то, что при описании случайных испытаний считают, что процесс наблюдений является стацио­нарным, в то время реально наблюдаемые процессы адаптивного управления нестацио­нарны. Но случайность этого типа описывать никто не умеет.

B. B. Налимов подчеркивает, что «... 80% применения статистики неверно, т. к. ее пы­таются применять там, где нет случайных величин». В разряд неслучайных величин попа­дают результаты такого эксперимента, «для которого не выполняется требование стати­стической устойчивости» /Тутубалин/. «Если уж быть очень педантичным, то, наверное, придется ограничить применение математической статистики экспериментом с бросанием монеты, а теорию вероятностей – моделями с шарами в урнах» ( «Язык веро­ятностных предсказаний», АН СССР, M., 1976).

и в книге «Системотехника», Советская радио, M., 1962r., пишут: «Теория вероятностей является дедуктивной наукой о случае; она предусматривает ре­зультаты, вытекающие из некоторого набора предположений. Математическая статистика является индуктивной наукой о случае; она позволяет делать выводы о характере исход­ного распределения и оценивать его параметры на основе нашего знания исходов экспе­римента. Как и во всякой индуктивной науке, здесь никогда нельзя быть абсолютно уве­ренным, что в основе наблюдаемого эффекта лежит та или иная определенная причина. Однако математическая статистика допускает численные выводы или оценки и указывает при этом каждый раз число, характеризующее степень неопределенности полученного ре­зультата».

Эти же авторы, приводя теорему Байеса, высказывают опасения относительно ее при­менения: « Теорема, конечно, строго верна. Если только дано распределение вероятностей исходного параметра (т. е. априорные и производящие вероятности), существует способ найти вероятности того, что выборка была взята из определенной генеральной совокупно­сти. Вся трудность в том, что мы почти никогда не знаем необходимого распределения. В большинстве случаев исходный параметр даже не подчиняется законам теории вероят­ностей».

В этой же работе утверждается, что «к сожалению, проблема измерения субъективной вероятности чрезвычайно сложна и представляется неразрешенной... Конфликт между человеческими возможностями и нормами субъективной вероятности часто делает изме­рение субъективной вероятности очень трудным».

В действительности, все, что мы получаем в тестологии с помощью классической тео­рии вероятностей и количественной статистики, – это не более чем грубое описание пове­дения тестируемых. Строго говоря, мы никогда не знаем точно начальные данные. Един­ственно, чем мы располагаем – это априорное знание об их неопределенности; далее – в процессе тестирования – на систему могут действовать непредсказуемые воздействия; и, наконец, ниоткуда не следует, что изучаемая система за время сеанса тестовых испытаний будет оставаться изолированной. Более того, нам никогда не удается с абсолютной верностью судить о мере трудности ПДТЗ, хранящихся в базе данных. Здесь, видимо, следует говорить скорее о парадигме (по Т. Куну, 1962) своего времени, чем о четко сфор­мулированных логических основаниях применения методов параметрической статистики.

Для нас приведенные выше цитаты интересны тем, как математики, глубоко верившие в силу логики, пытаются справиться с неопределенностью оценки состояния или поведе­ния объекта нечисловой природы. Мы не будем здесь прослеживать развитие вероятност­ных представлений в тестологии. Ранний период развития классической и современной теории тестов подробно освещен в работах . Позднейшая история доста­точно хорошо известна тем, кто знаком со становлением ЖТ теории тестов.

Ограничимся лишь одним кратким замечанием. Вероятностные методы в тестологии стали применяться, исходя не из каких-то общих представлений о недостаточности детер­министических методов для представления поведения тестируемых, а из попытки описа­ния и осмысления теории ошибок, развитие которой связано с использованием методов параметрической статистики. Мы говорим, что случайная величина задана, если известна ее функция распределения. А это значит, что мы вполне сознательно отказываемся в рам­ках этого описания от причинно-следственной трактовки наблюдаемых ситуаций. Нас удовлетворяет чисто поведенческое описание событий. Функция распределения – это опи­сание случайной величины, без всякой аппеляции к тому, чем это поведение вызвано. И здесь следует говорить лишь о вероятности попадания значения случайной величины в некоторый доверительный интервал.

Оставаясь на вероятностных позициях, тестологи допускают, что в каждом отдельном наблюдении эмпирический объект может дать правильное или ошибочное заключение, т. е. мы приписываем заключениям индивида свободную волю, хотя и накладываем огра­ничение статистического характера на результаты массовых испытаний. Но ведь вероят­ность – эта «числовая характеристика степени возможности появления какого-либо слу­чайного события при тех или иных определенных, могущих повторяться неограничен­ное число раз условий». Как эту меру можно использовать в тестометрии, если в реаль­ных условиях проведения тестовых испытаний условия проверок в различных учебных заведениях не могут быть одинаковыми, а интервал сеанса тестирования (количество предъявляемых индивиду ПДТЗ) всегда ограничен?

Принцип спецификации модели в виде постулирования математической теории и про­образа объекта принят во многих науках. Однако такой подход является действенным приемом познания только в том случае, если, во-первых, есть гарантия, что среди посту­лируемых математических теорий и моделей находятся истинные, соответствующие дан­ному объекту исследования, а это гарантировать в традиционной тестометрии никто не может. Во-вторых, если среди постулированных и были построены корректные математи­ческие теории и модели эмпирических систем, то, чтобы выявить их, необходимо распо­лагать надежными методами проверки (на истинность) оцененных приближений. Но и здесь процедуру планирования эксперимента также осуществлять нельзя.

Все усилия современной теории тестов сосредоточены на конструктивном определе­нии статистических характеристик случайной компоненты – математического ожидания, дисперсии и коэффициента корреляции. Знаний, позволяющих определить столь полную характеристику случайной компоненты как и вид ее закона распределения в реальных ус­ловиях проведения КАТ, заведомо не хватает.

Большинство специалистов по математической статистике проводят дисперсионный анализ, который позволяет строить статистические модели экспериментальных данных. При проведении этого анализа основываются на следующих правдоподобных допущениях о случайных величинах и параметрах.

1.  Математическое ожидание каждой неопределенной величины равно нулю. Это зна­чит, что значение математического ожидания результата тестирования зависит только от степени обученности индивида. Выполнение этого условия при описании научных на­блюдений за поведением тестируемого в большинстве известных нам случаев является неприемлемым, поскольку оценка достижений тестируемого зависит и от меры трудности ПДТЗ.

2.  Неопределенные величины взаимно независимы. Данное допущение совсем не оче­видно. Смысл его состоит в том, что между различными заключениями тестируемого не существует какой-либо связи. Однако при КАТ возможны ситуации, когда какое-либо од­но наблюдение может влиять на последующие наблюдения. Например, в случае структур­ной адаптации тестирующая программа изменяет меру трудности ПДТЗ, а это, в свою очередь, оказывает влияние на качество последующих выводов конкретного объекта.

3.  Все неопределенные величины имеют одинаковое среднее квадратическое отклоне­ние. Это допущение об однородности дисперсий является центральным и требует наибо­лее тщательного анализа. Справедливость данного допущения менее вероятна с точки зрения теории тестометрии, чем предположений 1 и 2. Действительно, при анализе на­блюдений часто большим значениям математического ожидания соответствует большая величина среднего квадратического отклонения, т. е. значения этого отклонения являются неодинаковыми.

4.  Каждая неопределенность распределена по нормальному закону. Справедливость данного предположения наименее вероятна, чем трех остальных.

5.  Исследуемые телеологические объекты однородны по степени обученности. Это условие просто невыполнимо при массовом тестировании.

В практической деятельности данные научных наблюдений (исходов) почти никогда не имеют «чисто» гауссовского распределения. Основными причинами негауссовости из­мерений являются как «внутренний» характер механизма формирования дискретных за­ключений, так и существование нерегулярных аномальных ошибок. Последнее обстоя­тельство препятствует использованию параметрических методов, которые резко теряют свои замечательные свойства (несмещенность, эффективность) даже при незначительных отклонениях от стандартных условий.

Итак, в настоящее время создается любопытная ситуация. С одной стороны, происхо­дит широкое применение методов параметрической статистики в современной теории тес­тов, с другой стороны – появляются предостережения со стороны ряда математиков о не­целесообразности такой абсолютизации методов традиционной статистики и необходимо­сти вычисления оценок достижений с применением методов непараметрической и интер­вальной статистики [25].

Подводя итоги о применимости параметрических оценок характеристик no наблюде­ниям за поведением эмпирических систем, отметим следующее: классический подход оп­ределения УУД респондентов, как объектов нечисловой природы, требует в максимальной степени использования информации о законе распределения качества заключений тести­руемых. Только при соблюдении этого условия обеспечиваются оптимальные свойства параметрических оценок (состоятельность, несмещенность, эффективность). Однако столь жесткая и сильная «привязанность» оценок к законам распределения в практической дея­тельности может обернуться существенным снижением вероятности правильной оценки, если реальные условия научных наблюдений будут отличаться от стандартных.

В отличие от физических и технических процессов с их возможностями планирования эксперимента тестометрические процессы принципиально неповторимы, а соответст­вующие им научные наблюдения представляют собой единственные реализации заклю­чений на требования конкретных тестовых заданий. В этих условиях нельзя оценить не только такие характеристики тестометрических процессов, как законы распределения ве­роятностей, но и важнейшие параметры этих распределений – математические ожидания, дисперсии и коэффициенты коррекции. Если отсутствует возможность оценки математи­ческих ожиданий, то мы не вправе считать, что располагаем научно обоснованной, прове­ряемой по результатам научных наблюдений за поведением тестируемых, математической теорией тестов. Это не единственный вопрос к методологии современной теории тестов.

Чтобы дать ей оценку в целом, необходимо провести специальный анализ и изложить ос­нования новой методологии КАТ.

Новая парадигма СКДО УУД тестируемых связана с переходом от количественных методов статистики к качественным способам оценки. При построении модели для про­цесса КАТ будем опираться на известную к данному моменту исследования содержатель­ную теорию этого процесса и на математические свойства последовательности неодно­родных заключений тестируемого. В основе этого подхода лежит гипотеза о том, что со­стояние обученности эмпирического объекта является нефизической величиной и по сво­ей сути относится к изучению поведения субстанции нечисловой природы.

Рассматриваемая нами методология представляет собой упорядоченную совокупность средств и способов преобразования исходных данных и знаний об объекте в новые знания. Средствами получения новых знаний являются гипотезы о свойствах объектов произволь­ной природы, и прежде всего, предположения о виде и атрибутах их статистических мо­делей. Понятно, что более корректной исходной модели будут отвечать и более правиль­ные новые знания о значении латентного параметра обученности объекта нечисловой природы. И здесь не поможет замена одних традиционных статистических моделей на другие: в условиях реальных, а не постулируемых свойств тестометрических данных, ги­потеза о нормальности ошибки модели, лежащая в основе всех известных методов про­верки оцененных решений, является непроверяемой, а, следовательно, по существу нена­дежной основой для практических предложений.

Чтобы устранить этот главный недостаток методологии традиционной теории тестов, предлагается изучать не «общий объект» (с множеством постулированных в отношении него математических теорий и моделей), а условно конкретный, заданный целевым обра­зом – под ракурсом того или иного вопроса к элементам эмпирической системы КАТ. Что касается математической модели индивида, то она строится на основе анализа статистиче­ских свойств информации о его предполагаемом поведении. Это позволяет еще до этапа оценки качества моделей проверить, согласованы ли тестологические и математические свойства поведения объекта, связывающие эти модели с предлагаемыми методами оценки параметра (принцип согласования).

Процесс инкультуризации связан с разработкой методологических правил конструи­рования ПДТЗ, созданием понятийной и технологической спецификаций KCT3. Правила выступают здесь как универсальные нормативы деятельности, которые необходимо ис­пользовать при создании тестовых материалов. Методологические правила – основа куль­туры логичного мышления преподавателей, учителей и тестологов – обеспечивают цело­стный системообразующий подход к созданию рациональных и качественных ПДТЗ, а также профессиональных БТЗ.

Методологические правила создания ЭФТК, стандартные формы представления тес­товых ситуаций и нормы деятельности участников культурного пространства тестирова­ния подробно отражены в раздел II данной книги. Здесь мы только укажем, что эти прави­ла:

·  правдоподобны, потому что описывают регулярно повторяющиеся случаи;

·  реальны, так как наделены атрибутами реальности;

·  абстрактны, поскольку применимы к конструированию ПДТЗ из различных об­ластей знаний.

Понятийная спецификация KCT3 создается разработчиком и определяет степень ва-лидности генерируемых ПДТ и БТЗ в целом. Представить такую спецификацию – значит подобрать тестовые ситуации из конкретной области знания, адекватные результату КАТ. Опыт и культура декомпозиции фрагмента учебного материала применимы в разработке понятийной спецификации в большей мере, чем в создании технологической специфи­кации. Последняя представляет собой описание тестовых материалов на «языке БТЗ».

Особенностью методологического подхода к проблеме КАТ является выбор цели тес­товых проверок и построение концептуальной (содержательной) модели поведения объекта нечисловой природы. Важно то, что об эмпирическом объекте, о его состоянии обученности и об учебной среде мы должны говорить содержательно, то есть рассматривать их с учетом философских категорий количества и качества.

Говоря об управлении как о целенаправленном процессе, нельзя забывать о том, чьи цели реализуются в процессе управления. Поэтому необходимо ввести в рассмотрение квазисубъект (компьютерную программу), который является источником целей, реали­зуемых управлением. Квазисубъект находится в той же учебной среде, что и изучаемый эмпирический объект, т. е. воспринимает состояние этой среды и поведение тестируемого.

Цель – идеальное предвосхищение сознательно заданного результата адаптивного тестирования. Проверить выполнение цели в установлении степени обученности тести­руемого можно только по его состоянию, для чего необходимо последнее выразить на языке целей квазисубъекта. Тестирующая программа должна формировать цель, реализа­ция которой, по «мнению» квазисубъекта, приведет к рациональному в заданном смысле поведению респондента. Такая цель представляется набором требований, предъявляемых тестирующей программой к поведению телеологического объекта.

Для реализации цели создаются специальные каналы управления тестирующими воз­действиями и параметрами KCT3. Очевидно, что в этом случае поведение эмпирического объекта будет зависеть от двух факторов: причин изменения траектории тестовых испы­таний – состояния обученности индивида и меры трудности, предъявляемых ему ПДТЗ (состояния управления).

Теперь можно говорить о создании системы управления, под которой следует пони­мать алгоритмы обработки информации и артефакты, объединенные для достижения за­данных целей управления в поведении эмпирических объектов. Будем считать, что управ­ление реализует тестирующая программа, а систему правил управления называть стра­тегией (алгоритмом). Появление «стратегии» связано с приданием поведению и состоя­нию элементов некоторой эмпирической системы желательных свойств. Выдвигаемые нами цели управления объединяет общая черта: они относятся к приспособлению пара­метров тестирующих воздействий к значению латентного параметра обученности каждого конкретного объекта эмпирической системы. Иными словами, система компьютерного тестирования должна приспосабливать свои действия к поведению каждого целеустрем­ленного респондента, т. е. должна быть адаптивной.

Цель управления рассматривается в этом контексте как установление в эмпириче­ской системе КАТ некоторых желательных свойств ЭФТК, когда траектория процесса тестовых испытаний удовлетворяет четко сформулированному заранее критерию оптими­зации и заданным ограничениям.

Мы будем различать адаптацию тестирующей системы (инструментальной среды) к поведению индивида и процедуру социального приспособления участников процесса ис­пытаний к культурному пространству тестирования. Адаптация предполагает, что суще­ствуют какие-то новые ситуации, к которым среда или позиционер должны со временем приспособить свои действия. В первом из этих случаев процесс адаптации связан с изме­нением значений тестирующих воздействий и приспособлению их меры трудности к по­ведению каждого тестируемого. Этот случай будет нами рассматриваться при дальнейшем изложении материала.

Тестируемый как элемент эмпирической системы занимает одно из центральных мест в культурном пространстве КАТ, поскольку он становится фактором управляемости этого комплекса, причем последнее направляется в сторону непрерывного повышения качества установления степени обученности индивида (например, с дальнейшим увеличением эта­пов тестовых испытаний и повышением однородности степени обученности в классах). Таким образом, с методологической точки зрения процесс КАТ является результатом коммуникации объектов и субъектов с тестирующей системой, и поэтому в культурном пространстве КАТ всегда содержатся как минимум два этапа: выделение однородных образов из объектов и различение испытуемых среди конкретных классов обученности. Это взаимодействие устанавливается в процессе:

·  научных наблюдений за поведением тестируемых;

·  систематизации и классификации полученных эмпирических данных;

·  эмпирического обобщения результатов тестовых проверок;

·  получения эмпирических фактов;

·  вычисления баллов, определяющих отношение респондента к KCT3;

·  отнесение полученных баллов к заданным уровням-интервалам обученности.

Основной проблемой создания теории КАТ является разработка концептуальной мо­дели поведения объекта нечисловой природы, определяющей конструктивный принцип различных видов деятельности, которые соответствуют цели исследования и одновремен­но могут быть отражены в гипотезе о характере изучения латентного параметра тестируе­мого. С точки зрения методологического подхода удобно трактовку этой проблемы рас­сматривать независимо от синтеза цели адаптивного управления, хотя в действительности цели и объект связаны друг с другом и активно взаимодействуют.

Чтобы не возникали трудности описания поведения телеологического объекта из-за чрезмерной общности eгo концептуальной модели, необходимо разделить этот феномен в соответствии с возможными различиями в характере его поведения на отдельные компо­ненты, т. е. установить границы объекта выделить поведение целеустремленного объ­екта нечисловой природы из учебной среды. Такое расчленение поведения индивида должно продолжаться до тех пор, пока не будут достигнуты заданные цели управления ею поведением. B[9] приведено разбиение процесса исследования состояния обученности тестируемого на два этапа, которые позволяют достигнуть максимальной управляемости процедур типологической классификации объектов и рациональной аттестации образов. Разработка концептуальной модели поведения объекта позволяет перейти к теоретиче­скому уровню научного познания, когда раскрываются законы функционирования инст­рументария, связываются знания об отдельных сторонах компонентов культурного про­странства тестовых проверок в единую, целостную систему.

Затем на основе изучения заданного объема данных и знаний, имеющихся в отноше­нии поведения телеологического объекта, выявляются его наиболее существенные свой­ства и закономерности, разрабатываются:

·  математическая модель поведения объекта нечисловой природы;

·  правила конструирования KCT3, стандарты и нормы деятельности участников культурного пространства КАТ;

·  алгоритмы адаптации;

·  механизмы установления оценки УУД респондента;

·  методы интерпретации полученных результатов.

Далее выбираются способы и средства моделирования, создаются программные моде­ли эмпирической системы КАТ, осуществляется проверка адекватности и корректировка моделей, проводится апробация процедуры тестирования, осуществляется анализ резуль­татов моделирования и модификация (при необходимости) целей, ограничений, информа­ционного и программного обеспечения системы в целом.

Следующая проблема связана с принятием решения о том, каким должно быть управ­ление V, чтобы при конкретном поведении тестируемого и имеющемся ресурсе R достиг­нуть заданной цели в управлении поведением индивида. Это решение базируется на имеющейся модели поведения объекта F, цели Z*, имеющейся информации о состоянии учебной среды и поведении тестируемого Y, а также ресурсах R управления, которые представляют собой ограничения, накладываемые на V в связи со спецификой элементов эмпирической системы и возможностями системы в целом. Полученный при этом резуль­тат должен быть оптимальным с точки зрения выбранных ранее целей КАТ.

Специфика поведения каждого конкретного тестируемого требует приспособления Действий тестирующей системы (меры трудности ПДТЗ) к качеству его заключений. Указанное обстоятельство заставляет обращаться к адаптации структуры модели тестирую­щих воздействий. Благодаря этому достигается приближение меры трудности тестовых ситуаций βj к степени обученности респондента θi.

Важно то, что об этом мы будем знать еще до оценки качества модели поведения объ­екта нечисловой природы, и не просто знать, что соответствующая данной цели модель не может быть корректно оценена, но и определять конкретную причину этого. Заметим, что традиционные методы тестологии не позволяют выявить такие причины. Они не связыва­ют концептуальные описания модели поведения объекта с неопределенностью оценки, не указывают причину этого несоответствия.

Непараметрическая и интервальная статистика порождают качественно новую па­радигму, позволяющую описывать процесс КАТ на языке «более мягком», чем традици­онно принятый в тестологии язык параметрических представлений. Интервальная стати­стика исследует ситуации, когда данные научных наблюдений – не числа, а интервалы, в частности порожденные наложением неопределенностей на значения выводов эмпириче­ских объектов. Отказ от принципа постулирования математической модели описания по­ведения объекта нечисловой природы, переход к целевой методологии исследования оз­начают перевод теоретической тестологии на позиции согласования тестометрических данных и статистического анализа результатов оценки. Отражающая качественные свой­ства степени обученности элементов эмпирической системы теория непараметрической и интервальной статистики оказывает самое непосредственное воздействие на все тестометрические этапы исследования. Поэтому центральной проблемой методологии КАТ яв­ляется разработка теории, согласующей качественные и количественные свойства телео­логических объектов нечисловой природы и одновременно способной разрешить с помо­щью компромиссов возникающие между этими категориями противоречия.

Под воздействием этих компромиссов видоизменяется основное требование к модели: она должна сочетать в себе функцию анализатора тех тестометрических свойств це­леустремленною объекта, которые отвечают цели исследования, позволять пра­вильно статистически оценивать качественные характеристики этих свойств. Обра­щение теоретической тестометрии к целенаправленному исследованию свойств обученно­сти объекта позволяет не только более глубоко и адекватно отразить его поведение в мо­дели, но и в существенной степени конкретизировать требования к предмету моделирова­ния.

Под предметом моделирования мы понимаем некоторый условный процесс КАТ, качественные свойства которого отражены в тестометрической теории, а количест­венные — во временном ряде значений его показателей, устанавливаемых в процессе сеанса тестовых испытаний. Целью моделирования является получение новых знаний об УУД телеологического объекта.

Непосредственный метод определения количества баллов тестируемого – косвенное оценивание с помощью инструментальной среды КАТ. Оценивание (вычисление) лежит в основе количественного предсказания латентного параметра обученности объекта нечи­словой природы. Качественное определение степени обученности индивида есть узнава­ние, типологическая классификация уровня его учебных достижений. В процессе клас­сификации поведение респондента относится к какому-либо образу (классу отличников, хорошистов и т. п.). Это отнесение к тому или иному таксону есть аналог отображения ка­чества заключений тестируемого к какому-то уровню-интервалу (отрезку) шкалы. Отсюда следует, что шкалирование есть частный случай классификации поведения тестируемых. Система образов играет в качественных методах ту же роль, что деление шкалы (напри­мер, стобалльной) в количественных. Эти деления организованы в иерархическую систе­му и могут быть сколь угодно малой величины.

Аналогичным образом и качественная классификация носит иерархический характер, и, следовательно, можно говорить о более точном и менее точном качественном опреде­лении степени обученности тестируемого. Например, в культурной среде компьютерного адаптивного тестирования (ACT) количество качественных уровней-интервалов равно 12-ти. Ясно, что более точно установить оценку УУД индивида – в качественном ли, в коли­чественном ли смысле – значит увеличивать объем выборки (длину теста). На рис.6 и 7 изображена процедура шкалирования и шкала оценки в инструментальной среде ACT.

ШКАЛИРОВАНИЕ

Рис.6. Процедура шкалирования

Рис.7. Шкала оценки в ACT

Будем исходить из того, что изменение параметра обученности эмпирического объек­та носит эволюционный характер. Это говорит о возможности выбрать такой период ана­лиза, на котором процесс типологической классификации и оценивания можно изучать с помощью одной и той же модели. Стремление обеспечить неизменность отражаемых в модели тестометрических испытаний степени обученности телеологического объекта за­ставляют сокращать период тестирования, а стремление сохранить для анализа весь заре­гистрированный за сеанс тестовых испытаний диапазон вариации заключений – увеличи­вать указанный период.

Предпочтение более качественной модели становится возможным благодаря измене­нию состава и порядка, в котором новые средства и способы преобразования исходных данных в новые знания об объекте входят в предлагаемую методологию. А именно: пер­вая их совокупность определяет начальную стадию методологии – исследование стати­стической природы поведения целеустремленного объекта, выбор и обоснование наиболее корректной модели – гипотезы (концептуальной модели), отражающей тестометрические свойства обученности тестируемого, согласование математических свойств выбранной модели и метода оценки с действительным значением латентного параметра. На долю второй совокупности средств и способов преобразования приходятся указанные выше проверка наблюденной верности модели и учет воздействия последней на статистические характеристики оценок параметров модели.

Во втором случае адаптация характеризует процесс взаимодействия позиционеров с социальной, духовной и инструментальной средой, когда участники тестовых испытаний применяют правила, нормы, предписания и стандарты деятельности в культурном про­странстве КАТ. Если речь идет об усвоении позиционером не частных (субкультурных), а общих (культурных) ценностей, характеризующих его поведение в пространстве КАТ в целом, то говорят не об адаптации, а о социализации. Адаптация позиционеров происхо­дит при глубоком приобщенииих к нормам деятельности в культурном комплексе КАТ. В этом случае говорят об инкультуризации, когда участники процесса тестовых проверок полностью ориентированы на деятельность в интегрированном пространстве КАТ. Со­циализация разработчиков материальных или нематериальных феноменов тестирующей системы идет по линии профессиональной специализации (например, тестолог, спецификатор и т. п.). Специализация тестируемых – трансформация их базовых ценностей (по отношению к КАТ), когда индивидом усвоены некоторые обязательные элементы мини­мального культурного мышления. Конечным процессом специализации респондента явля­ется превращение его в зрелую и активную личность.

Что же общего между материальными и нематериальными феноменами культуры? Только информация! Информация не как надстройка над неоднородностями энергии и массы в культурном пространстве КАТ, а как ведущий фактор в каждой из этих компо­нент. О «проблеме преодоления разрыва между видимой протяженностью и невидимой информативностью» говорил еще Лейбниц. И в этом смысле культурное пространство СКДО понимается не на бытовом, а на научно-рациональном и творчески духовном уров­нях, когда каждый элемент этого пространства «ощущает» на себе силу информативной целостности. Безусловно, здесь невозможно отличить сигнал от информации, движение – от движущегося, оцениваемое – от оценивающего. Возможна лишь иерархия уровней управления пространством, которая устанавливает зависимости между ними и определяет координируемость, когда определяющим является тезаурус конкретного участника про­цесса адаптивного тестирования, (т. е. некоторый уровень его информированности о ре­альных возможностях культурного пространства КАТ). Именно поэтому комплекс КАТ изучается нами как «объективная реальность, существующая в виде движения материи и материального движения не геометрического, а функционального» (по ).

Возможность и действительность, активная стандартная форма представления ПДТЗ и инертное содержание, объект и образ, фрагмент и целое понимаются в функциональном пространстве КАТ не в духе механицизма, а как взаимообусловленность неустойчивости и устойчивости (по ). Закон сохранения информации в культурном про­странстве адаптивного тестирования указывает на то, что здесь целое работает для ин­формационного обслуживания каждой конкретной частной ситуации.

Информационное единство компонентов культуры (артефактов, знаковых систем, ценностей и норм деятельности) составляет основу культурной интеграции эмпирическихи систем, средств коммуникации и связи. Подобная интеграция (единство культуры КАТ) создается благодаря наличию нормативной системы правил, стандартов, предписа­ний и моделей поведения позиционеров, информационного взаимодействия адаптивных алгоритмов тестирования и оптимальной оценки поведения респондентов. В нормативной системе культуры адаптивной СКДО УУД объектов нечисловой природы все главные компоненты должны быть согласованы, составлять логически связанное, целостное объе­динение. Стандарты и правила выступают в интегрированном пространстве как феномены социальных и духовных норм, а предписания устанавливают культурные нормы поведения участников процесса тестовых испытаний, присущие конкретным условиям проведе­ния тестовых испытаний. Единство базисных функций культуры КАТ обнаруживается в выполнении принципа сохранения информации и установлении в интеллектуальной сис­теме СКДО примата сигнификативной функции культуры – значений и ценностей КФТ для каждого конкретного испытуемого.

Если посмотреть на проблему КАТ, возникновение и развитие интеллектуальной тех­нологии тестовых проверок и особенно создание операционального наполнения, стано­вится ясным, что все сводится к разработке системы правил спецификации и формирова­ния тестовых материалов, выбору алгоритмов адаптации, проектированию механизма классификации и оценивания УУД тестируемых, т. е. последовательностей разнородных, взаимосвязанных правил и методов деятельности, и, наконец, к инструментальным сред­ствам реализующим эти правила и способы. Тестологи и тестируемые оказываются по­груженными в системы правил. Культурное пространство КАТ в этом смысле состоит из правил, которые дополняют или исключают друг друга, выполняются в детерминирован­ном или в произвольном порядке, последовательно или параллельно.

Эпистемологическая

Классическая теория познания (гносеология) изучает «вопрос об источнике и значе­нии всякого человеческого знания вообще» (). Поскольку мы рассматриваем процессы познания применительно к тестологии и тестометии, то с точки зрения филосо­фии уместно сузить область исследования и обратиться к понятию «эпистемология». Эпи­стемология – это раздел философии, в котором изучаются процессы и закономерности, специфические для конкретного научного знания. Обобщая методы и приемы, исполь­зуемые научными наблюдениями, анализом и синтезом, моделированием и т. д., эпистемо­логия выступает в качестве философско-методологической основы теории развития по­знания и функционирования готовых правил и знаний применительно к процессу СКДО УУД целеустремленных объектов нечисловой природы.

Индивид многомерен и нет таких его параметров, которые не стоили бы внимания. Один из таких латентных (скрытых) параметров – степень обученности респондента – за­метен лишь в той мере, в какой он «материализован» (точнее, институционализирован) в наборе социально значимых наблюдений за его поведением. Проблема состоит в том, как построить эти наблюдения, чтобы полученные результаты отражали с заданной верностью и объективностью состояние обученности теструемых? Эта проблема известна в филосо­фии как проблема истины.

Размышляя о возможности получения истинных знаний, И. Кант (1724 – 1804) утвер­ждал: «Априорные формы принадлежат субъекту и характеризуют соответственно струк­туру чувственного восприятия и рассудочного мышления, которые не присущи вещам са­мим по себе. Актом познания субъекта, таким образом, является действие, активность его». Главным здесь остается вопрос: можем ли мы выделить в процессе научных наблюдений за поведением индивида в процессе КАТ значения латентного параметра его обученности и если можем, то каким образом и в какой степени значение этого параметра бу­дет соответствовать объективной реальности?

Истинная степень обученности испытуемого – это соответствие, адекватность зна­ний полученных в процессе КАТ его действительного уровня обученности. Для этого со­ответствия характерно:

·  объективность степени обученности телеологического объекта, значение которой не зависит от процедуры оценки его поведения;

·  субъективность описания истины, которая проявляется в зависимости от того, ка­кие знаковые системы используются и при каких условиях неопределенности проводятся тестовые испытания;

·  абсолютность истинного состояния обученности объекта нечисловой природы, которое не может быть достигнуто при дальнейшем развитии теории тестирования, а су­ществует «как тот предел, к которому стремится наше знание»;

·  относительность оценки степени обученности тестируемого как приблизитель­ное, верное лишь в вероятностном смысле наше знание.

Поскольку истинное значение искомого параметра остается неизвестным вследствие отсутствия «идеальных» методов и средств измерения, в тестометрии верность оценки оп­ределяют приближенно, используя вместо истинной величины полученные с помощью специальных статистических методов обработки результатов тестовых проверок исходное или реальное (сколь угодно близкое к действительному) значение УУД респондента. Это возможно не с абсолютной, а с некоторой априорно заданной мерой верности, которую определяют, пользуясь законами теории вероятностей, методов непараметрической и ин­тервальной статистики.

Основным критерием установления истинности являются научные наблюдение за ка­чеством заключений индивида на требования ПДТЗ различной меры трудности. Эти на­блюдения основаны на познании теоретических и эмпирических законов, которые закреп­ляют повторяемость и регулярность определенных процессов или явлений. Следователь­но, эпистемология раскрывает закономерности и пути развития научного знания в области описания и совершенствования теории КАТ. В связи с этим приобретают первостепенное значение вопросы научного познания процессов компьютерного тестирования.

Дедуктивные системы подразделяются на аксиоматические и конструктивные. Ак­сиоматическая теория рассматривается как формализованная система, устанавливающая соотношения между ее знаками и описывающая множества объектов, которые ей удовле­творяют. В теории КАТ аксиоматизация осуществляется после того, как содержательная теория в достаточной мере построена и проверена. Такой подход применяется в процессе выбора способа установления УУД, когда для оценки состояния обученности тестируемо­го выбираются точечные или векторные (оптимальные) статистики. В обоих случаях предполагается, что результаты дидактической оценки достижений основываются на нор­мальном распределении научных наблюдений. К аксиоматическому способу построения научных теорий относятся математические модели Раша и Бернбаума. Эти математиче­ские модели выражают глубже и полнее соответствующие объективные закономерности, нежели эмпирические, и, следовательно, обладают большей прогностической силой. При­мерами таких предсказаний являются взаимосвязь между мерой трудности заданий и сте­пенью обученности тестируемого, зависимость энтропии заданий и вероятности форми­рования на них правильных заключений респондентами и т. п.

Эпистемологическая функция философии КАТ состоит в разработке по правилам и стандартам баз ПДТЗ и адекватного воспроизведения реального процесса компьютерных тестовых испытаний, без которых невозможна ориентация позиционеров в культурном пространстве СКДО УУД и успешное развитие этого комплекса. Она концентрируется на процессе дескрипции, с логической точки зрения – на высказывании, а с методологической — на использовании правил для получения знаний. Это воздействие может быть представлено как включение духовных, социальных и технических компонентов культуры в процесс порождения нового научного знания о формировании и описании культурного пространства КАТ.

С методологической точки зрения процесс научного познания является двуединым и включает в себя теоретическую и эвристическую компоненты (рис. 8). Для теоретического знания характерно то, что при наличии истинных посылок мы всегда получаем истинное знание. Здесь эпистемология концентрирует свое внимание на использовании теорети­ческих положений и правил для получения нового знания.

Эпистемология выступает как теоретическое основание различных форм методологи­ческого анализа, тех его уровней, где исследование методов, средств и форм СКДО УУД тестируемых осуществляется нефилософскими средствами. Она показывают, что, изучая познание как формирование и развитие идеального плана человеческой практико-преобразующей деятельности, можно анализировать сущность КАТ. И здесь главную роль занимают проблемы установления корректного соотношения между категориями эмпири­ческого и теоретического уровня знания. Эта функция философии акцентирует внимание исследователей на процедуре создания языковых конструкций, заменяющих собственное или нарицательное имя предмета. Знания, получаемые на основе этого подхода, относятся в большей части к тестометрии и поддаются довольно четкой дедуктивной переработке. Сюда следует отнести, например, математические модели Раша и Бернбаума, методы па­раметрической статистики и т. п.

Рис.8. Методология научного познания.

Теоретическое знание является основой построения идеализированных объектов – мо­делей, – выражающих существенные отношения реально наблюдаемых ситуаций. Напри­мер, основой для выбора алгоритмов ситуационного управления действиями тестирующей системы являются базовые отношения, характерные для математических моделей Раша и Бернбаума, параметрической и непараметрической процедур оценок и т. п.

Второй тип законов параметрической статистики обнаруживаем при изучении источ­ников, в которых производится оценка результатов научных наблюдений поведенческих систем. Эти законы относятся к совокупности объектов произвольной природы и описы­вают поведение этого множества как целого. Здесь поведение отдельных индивидов по отношению к множеству как целому определяется статистическим законом только с опре­деленной вероятностью, а статистическая закономерность выступает как определенная повторяемость в поведении ансамбля однородных явлений. Причем законы параметрической статистики применимы лишь в том случае, когда единичные явления, образующие совокупность, происходят независимо друг от друга и, следовательно, случайно по отношению к исходному множеству как целому.

В пределах эпистемологии необходимо, во-первых, установить специфику процесса тестирования и применения конструктов теории КАТ и, во-вторых, учитывать, что разви­тие методов тестологии и тестометрии – это особая деятельность, цель которой — создание нового знания, то есть формирование и изменение понятий, взглядов и теоретических концепций на процесс СКДО. Следовательно, становление теории КАТ, как новый вид деятельности, связан с задачей практического описания степени обученности объектов эмпирической системы, когда главной и непосредственной целью становится производст­во теоретического знания.

Несмотря на достаточно длительную предысторию и активную разработку теории тес­тов как в нашей стране, так и за рубежом, проблема качества дидактической оценки УУД эмпирических объектов является относительно новой. По существу сфера проверки сте­пени обученности индивидов в классической теории тестов сводится к вычислению то­чечной оценки достижений. Основным объектом исследования в данном случае являются выборки (числа) из нормального или биноминального законов распределений, описывае­мых математическим ожиданием, дисперсией и коэффициентом корреляции [13].

В классической и современной теории тестов научные наблюдения изучаются как со­вокупности заключений (данных), образующих выборку. Поскольку качество отдельных заключений индивида на требования ПДТЗ различной категории трудности априори явля­ется непредсказуемым, то искомое значение латентного параметра его обученности θ есть случайная величина, имеющая свой закон распределения . Величина , реализация которой φ(y) принимается за искомые значения скрытого параметра обученности тести­руемого θ, называется оценкой. Наиболее распространенными требованиями к оценкам в классической теории тестов считаются ее состоятельность, несмещенность и эффектив­ность.

Исчерпывающей вероятностной характеристикой, наблюдаемой в ходе тестирования поведения респондента, является априорно заданный закон распределения вероятностей качества его заключений – правило, позволяющее установить вероятность попадания в любую конкретную область ее значений. Однако, при обработке наблюдений, которые производятся параллельно с процессом тестовых испытаний в режиме on-line по выборке нарастающего объема, задача установления закона распределения поведения тестируемо­го является достаточно сложной. Поэтому в практической деятельности часто определяют не законы распределения, а их параметры или числовые характеристики, основными из которых считаются (при неявном допущении гауссовости закона распределения) ма­тематическое ожидание, дисперсия и коэффициент корреляции.

Одним из возможных подходов к анализу статистических исходов наблюдений явля­ется точечная оценка, когда вместо латентного значения параметра θ используется некоторая статистика ). Ясно, что чем ближе к действительной величине , тем точечная оценка лучше. Поскольку является функцией выборочных значений, она оказывается случайной величиной, и, следовательно, абсолютная величина разности между и θ также будет случайной.

Так как при неограниченном увеличении объема выборки (научных наблюдений) N имеют место неограниченные возрастания «близости» κ θ , то необходимо прежде всего установить, что мы понимаем под сходимостью последовательности случайных величин к θ при .

Говорят, что последовательность наблюдаемых значений (N = 1,2,…) сходится к латентному параметру обученности θ по вероятности, если для любого ε > 0

Величина сходится к θ в среднем, если

(2)

Здесь символ M (У) означает математическое ожидание случайной величины У. Из сходимости в среднем следует сходимость по вероятности. Согласно неравенству Чебышева

Из (2) следует(1).

Если оценка сходится по вероятности к реальному (близкому к действительному) состоянию обученности испытуемого, то она называется состоятельной. При

Μ ( | θ ) = 0 оценка называется несмещенной.

Объективность оценки определяется степенью ее разброса, рассеяния около среднего значения – дисперсией. Если – несмещенная оценка и имеет заданную дисперсию, а для θ не существует другой оценки с меньшей дисперсией, то называется эффективной оценкой степени обученности респондента θ.

При более детальном изучении данных научных наблюдений за поведением тестируе­мых используют методы интервального оценивания и проверки статистических гипотез. В первом случае определения степени обученности индивидов по выборке (y1 , у2 , ... , уN) вычисляются две статистики и , а значения интервала использу­ются в дальнейшем так, как если бы действительные значения латентного параметра θ на­ходилось в этом интервале. и – нижняя и верхняя доверительные границы, которые как и оценки являются связанными с ней статистиками.

Верность оценки в этом случае характеризуется вероятностью того, что θ находится в доверительном интервале , и объективностью оценки, связанной с величиной ин­тервала. При заданном значении доверительного коэффициента

Здесь γ – заданная доверительная вероятность. Длина доверительного интервала xaрактеризует верность оценки, а доверительная вероятность – объективность оценки. В практической деятельности нижнее значение γ обычно равно 0,9, а верхнее – не превыша­ет величину 0,998.

Другим подходом к оценке поведения тестируемых является применение теории ста­тистической проверки гипотез, которые разделяются на параметрические, когда вид за – кона распределения известен, и непараметрические, когда он не установлен. Накопленные за сеанс тестовых проверок результаты статистических наблюдений рассматриваются в этом случае как реализации случайных значений компонент модели поведения объекта и являются исходным материалом для описания траектории качества заключений тестируе­мого. Примерами статистических гипотез – утверждениях о некоторых вероятностных свойствах поведения индивидов – являются предположения о типе закона распределения наблюдаемой случайной величины, о числовых значениях параметров распределения, о виде зависимости между наблюдаемыми заключениями и др.

Не менее остро стоит проблема оценки степени обученности и при использовании ста­тистического анализа. Здесь для установления верности вычисления латентного параметра обученности тестируемого применяются методы оптимальной оценки – максимального правдоподобия, Неймана-Пирсона, минимакса или Вальда [29, 30]. В приложениях теории тестов эти области применения методов параметрической статистики представляют собой экстенсивный путь становления теории тестирования, тот идеал, к которому надо стре­миться, если корректно применять аппарат классической теории вероятностей и матема­тической статистики к известным законам распределения отдельных наблюдений (см. раздел 5).

Методы оптимизации принятия решений в случае параметрических статистик основаны на том, что распределения описываемых ими величин считаются известными. При этом, чем более полно используется априорная и текущая информация о пара­метрах распределений, тем качественнее будут полученные решения. Если исходные данные о распределениях оценок неизвестны, то наиболее успешной попыткой по­строения наилучшего из возможных алгоритма вычисления состояния обученности тестируемого, оставаясь в рамках параметрической модели, является метод минимак­са. Однако и в этом случае нет никаких гарантий, что «истинное распределение оценок будет всегда в рассматриваемом классе, и ничего не известно о том, что будет, если распределение выйдет из этого класса».

Такого рода теоретические знания обладают рядом недостатков. Во-первых, они не содержат в себе правил для формирования исходных данных, не основываются на крите­риях, учитывающих качественные атрибуты понятий. Обобщение корректных заключений тестируемых на требования ПДТЗ, получаемые в рамках подобного рода моделей, жестко однозначны и не допускают вариантов, тогда как в реальном процессе КАТ респонденты строят свое поведение с учетом различного рода неопределенностей. Во-вторых, язык ло­гики предикатов, лежащий в основе дедуктивного представления знаний в классической теории тестов, является сугубо дескриптивным, не способным моделировать процесс КАТ, когда принятое решение и коррекция действий тестирующей системой определяется не только неопределенностью поведения телеологического объекта, но и изменением ценностей, установок и различного рода содержательных представлений.

В практической деятельности трудно указать на какие-либо веские основания, по ко­торым конкретное распределение результатов наблюдений за поведением тестируемых «должно входить в то или иное параметрическое семейство». Действительно, идеальные модели традиционной статистики слишком абстрактны и приспособлены, в большой сте­пени, к описанию азартных игр или манипуляции с шарами в урне. Так, например, в [25, 29] на стр. 5 находим: «Неоднократно публиковались экспериментальные данные, свиде­тельствующие о том, что распределения реально наблюдаемых случайных величин, в ча­стности, ошибок измерения, в подавляющем большинстве случаев отличны от нормаль­ных (гауссовских). Тем не менее, теоретики продолжают строить и изучать статистиче­ские модели, основанные на гауссовости, а практики – применять подобные методы и мо­дели».

Шведский математик Харальд Крамер за семь лет до того как A. H. Колмогоров сфор­мулировал теорию вероятностей, писал: «Понятие вероятности следует вводить посредст­вом чисто математического определения, из которого математические свойства вероятности и классические теоремы могут быть выведены при помощи чисто математических операций. Никакие возражения против такой теории, кроме базирующихся на чисто мате­матической основе, не могут быть справедливы. С другой стороны, следует подчеркнуть, что такая математическая теория не говорит чего-либо о тех реальных событиях, которые будут происходить. Вероятностные формулы не могут определять характер реальных со­бытий точно так же, как формулы классической механики не могут предписывать звездам осуществлять взаимное притяжение согласно закону Ньютона. Лишь опыт может направ­лять нас в этом отношении и оценивать приемлемость аппроксимации результатов на­блюдений выбранной нами математической модели». В связи с этим количественные ме­тоды теории вероятностей и математической статистики для оценки свойств и поведения эмпирических объектов следует применять с большой осторожностью.

Значительные предсказательные возможности таят в себе структурные законы. На их основе могут быть предсказаны моменты переключения меры трудности ПДТЗ. Динами­ческие законы позволяют на основе знания исходной степени обученности индивида и категории трудности заданий предсказывать его состояние обученности в любой момент времени.

Количественно формулируемые законы отражают связи между величинами и подда­ются математической формализации. Таковы, в частности, методы ситуационного управ­ления, теории вероятностей и математической статистики и т. д. Количественно формули­руемые законы выражаются с помощью зависимостей, в которых изменению одной вели­чины (аргумента) соответствует изменение другой (функции), поведение которой опреде­ляет первая. Эти законы характеризуют объективно существенные связи, формулируются на языке математических символов с помощью формул или уравнений. Таковы, например, математические модели Раша и Бернбаума, методы статистической обработки результатов научных наблюдений и т. д. Формальный математический аппарат, с помощью которого выражаются количественные законы, дает возможность достичь требуемой верности предсказаний (например, прогнозы при структурной адаптации системы КАТ, получае­мые на основе методов ситуационного управления процессом тестовых испытаний).

Эпистемологическая (познавательная) функция философии КАТ обеспечивает при­ращение новых знаний о моделировании поведения тестируемого. Рассматривая историю становления теории контроля о достижениях индивидов, можно обнаружить, что по мере становления культуры КАТ меняются подходы изложения научного знания, стиля мыш­ления. Эти компоненты знания формируются в контексте культуры и испытывают воздей­ствие на себе различных ее феноменов.

Приращение новых знаний о процессе СКДО достижений тестируемых достигается только при условии проведения экспериментов или научных наблюдений за их поведени­ем. Научное наблюдение рассматривается нами как анализ качества заключений тести­руемых на требования ПДТЗ различной меры трудности. Каждое заключение индивида – это данное.

Размытость поведения объекта, нечеткое описание меры трудности ЭФТК экспертами, изменение условий проведения тестовых испытаний и т. п. ставят ряд задач, возникающих при конструировании соответствующих моделей описания поведения телеологических объектов и процесса КАТ. С точки зрения объяснения влияния на качество оценки УУД поведения тестируемогои параметров ПДТЗ эти мешающие воздействия можно свести к конструкту неопределенности.

Можно утверждать, что термин «неопределенность» фиксирует результат нашей сла­бой осведомленности о возможности выделения объекта из среды и отсутствие полной информации о функционировании системы КАТ. Что же такое неопределенность? Источниками неопределенности оценки состояния обученности являются:

·  нечеткость установления разработчиками и экспертами меры трудности ПДТЗ;

·  принципиальная невозможность установления действительной степени обучен­ности объекта нечисловой природы;

·  ограниченность представления концептуальной модели поведения объекта;

·  непредсказуемость качества заключений тестируемых;

·  ограниченное время проведения проверок;

·  конечный объем ПДТ;

·  некачественное описание механизма адаптации тестирующих воздействий и не­верный выбор статистических методов оценки достижений.

Существует два рода неопределенности. Неопределенность первого вида обусловлена случайностью, когда процесс агрегирования характеристик обработки поведения индиви­дов, описываемого в терминах систем адаптивного тестирования, оказывается в условиях неизменной учебной (социальной и духовной) среды статистически устойчивыми. Эта ус­тойчивость атрибута респондента – основа для прогнозов его поведения, без которых не­возможно осуществлять управление процессом тестовых испытаний. Будем называть час­тичной неопределенностью процесс СКДО УУД, когда заданы вероятностные характе­ристики и стохастические закономерности изменения случайных величин.

Ситуации появления другого вида неопределенности наблюдаются, когда в исходной модели описания процесса оценки УУД функциональный вид распределений неизвестен. Априорная информация сводится лишь к заданию различий между конкурирующими ги­потезами, сами же распределения, охватываемые той или иной гипотезой, не конкретизи­руются. Ситуацию, при которой указано лишь некоторое множество, элементом которого может быть устанавливаемая оценка, назовем полной неопределенностью (далее просто неопределенностью).

Все это позволяет считать отношения моделирования поведения телеологических объ­ектов в определенной степени хаотичным, а саму неопределенность предполагается рас­сматривать как категорию эпистемологическую. Смысл изучения структуры возникшей парадигмы вероятностного представления оценки достижений состоит в том, что она соз­дала систему управления (оценивания и адаптации), позволяющую описать процесс КАТ на языке теории параметрической и непараметрической статистик.

Основной формой мышления при создании KCT3 и ЭФТК (новых знаний) является умозаключение – рассуждение, в ходе которого из спецификаций фрагментов учебного материала формулируются новые суждения. Выделение в умозаключениях посылок и требований, установление форм тестовых ситуаций составляют сущность культуры мыш­ления. Всякое корректное рассуждение должно удовлетворять условию: если посылки ПДТЗ истинны, то истинным (или логичным) должно быть и конечное суждение, если на его требование индивидом дано правильное заключение.

По форме умозаключения разделяются на дедуктивные и индуктивные. Дедуктивные рассуждения базируются на логическом анализе накопленного и теоретически истолко­ванного эмпирического материала и его систематизации, строгого выведения следствий и получения новых знаний. В случае дедуктивного вывода анализу подвергаются отноше­ния между отдельными компонентами, абстрагированными от генезиса и смысла понятий.

Несомненно, придет время, когда будут созданы качественные KCT3, а каждый разра­ботчик БТЗ станет по сути своего творческого труда не только профессионалом в кон­кретной области знания, но и специалистом по проектированию ПДТ, для которого язык тестологии будет вполне естественным. Пока же большинство преподавателей и учителей ждут от тестологии и тестометрии прямых методик и рекомендаций. Отсюда следует, что процесс СКДО УУД тестируемых должен быть представлен в виде адаптированного к практической деятельности методологического знания.

Заключая наше исследование, подытожим то, что было сказано по поводу правильно действующих взаимосвязей между качеством и количеством (числом). Исторически меж­ду этими категориями первая ступень предшествует второй, причем качество позволяет накапливать разрозненные факты, а количество сводит их воедино, обобщает и объ­ясняет. Количество предвидится качеством, а качество выводится из количества.

Такая последовательность ступеней познания предполагает направляющую роль тео­ретического мышления по отношению к эмпирическому. Обе ступени познания перепле­таются между собой, причем число «питает» качество, служит основой для размышлений и установления на шкале оценки уровней-интервалов. Это число подтверждает правиль­ность того, что мы установили мыслью.

Качество раскрывает «спрятанные» в оценке значения и смысл, объясняет то, что в ней содержится; под его воздействием количество становится «духовно освещенным». Нарушение взаимосвязи между количеством и качеством аналогично некорректному со­отношению между теоретическим и эмпирическим знанием. В этом случае тестовые про­верки становятся неосмысленными, а процедура тестирования – беспредметной, когда между количеством и качеством, с одной стороны, наблюдается «безудержное теоретизи­рование натурфилософов», а с другой «самая плоская эмпирика, презирающая всякую теорию и относящаяся с недоверием ко всякому мышлению» (К. Маркс, Ф. Энгельс Соч. T.20,c.381).

Неосмысленное количество превращается в констатацию случайного факта, пусть да­же соединенного с другими такими же числами в один общий ряд, лишенного внутренне­го смысла. В свою очередь неспособность правильно оперировать с числами вырождается в создании фиктивных представлений о значении латентного параметра обученности эм­пирического объекта. Следовательно, здесь в центре внимания стоит необходимость при­менения культурного мышления (логичного и логического), основы синтеза качественной и количественной категорий культуры оценки.

Качество не выдумывает числа, а извлекает их из реального поведения тестируемых, на основе которого наша мысль познает степень обученности индивида. Для оценки по­ведения объекта нечисловой природы употребляют два существенно разных понятия: од­но – численное, обозначающее баллы, число которых подсчитывается; другое существен­ное. Такое расчленение по их числовому значению с эпистемологической и методологи­ческой точек зрения свидетельствует о том, что категории количества и качества работают вместе и взяты из действительного мира установления латентного параметра обученности телеологического объекта.

Информационно-эпистемологическая

Для современного этапа развития теории СКДО УУД объектов произвольной природы характерно превалирование неформализуемых или плохо формализуемых проблем, алго­ритмическое решение которых либо не существует, либо не может быть получено на имеющихся материалах. В связи с этим новые требования к технологии обработки ин­формации о поведении объектов нечисловой природы обусловлены:

·  необходимостью решать плохо формализуемые проблемы;

·  наличием пользователя, не являющегося профессиональным программистом.

Последний фактор требует нового уровня «интеллектуальности» компьютера, т. е. его способности обращаться с позиционерами в «дружественной» форме на этапах ввода ПДТЗ и заключений тестируемых, а также в процессе тестовых испытаний и выдачи ре­зультатов проверок для различных категорий пользователей.

При реализации интеллектуальных функций присутствуют знания, из которых можно извлечь правила описания, распознавания или деятельности. Знаниями принято называть хранимые в системе КАТ данные, формализованные в соответствии с определенными структурными правилами, которые тестирующая программа может автономно использо­вать при формировании логических и логичных выводов. Работа со знаниями в интеллек­туальной системе (ИС) тестирования представляет собой обработку их содержимого пра­вилами преобразования тех форм, которыми описываются эти феномены в системе КАТ.

Следовательно, при обработке данных фундаментальной проблемой является описание смыслового содержимого различных задач, а также наличие таких форм представления знаний, которые гарантируют корректную обработку их смысла и значения формальными правилами преобразований. Представление знаний в интеллектуальной тестирующей сис­теме изучается информационной эпистемологией.

В отличие от дедуктивных методов эпистемологии информационно-эпистемологическая функция философии КАТ обеспечивает приращение компонентов нормативной системы культуры, регуляризацию знаний о поведении и состоянии объек­тов произвольной природы, имеющих место в культурном пространстве СКДО УУД. Ин­формационная эпистемология (ИЭ) исследует знания, а также процессы переработки и преобразования сигналов данных, анализирует способы и механизмы превращения извле­каемой из цифровых сообщений информации в ее высшую форму – знание. Она изучает различные методы представления и анализа качества тестовых материалов, возможности получения новых сведений о мере трудности ПДТЗ путем обработки заключений испы­туемых в инструментальной среде КАТ, изучает способы адаптации, обеспечивает уста­новление уровней – интервалов качества оценки УУД и т. п.

Информационная эпистемология с методологической точки зрения концентрирует внимание позиционеров на использовании знаний с целью продуцирования новых норм и правил. Правила выводятся на основе анализа информации, в ходе которого вы­является регулярность существенных связей. Примерами таких правил может служить изучение форм мышления в процессе формирования понятия ПДТЗ. Здесь форма логич­ного мышления рассматривается как структура свернутого краткого суждения, в кото­рой отражается смысл и значение ЭФТК. Данные научных наблюдений являются тем эм­пирическим базисом, из которого исходит понятие как одна из форм выделения регуляр­ного и существенного в поведении и свойствах телеологических объектов.

В силу сказанного фокус ИЭ перемещается на правдоподобные рассуждения, по­скольку последние являются изначальной формой познавательной деятельности в любой области знания. Без применения категорий качества к процедурам оценки УУД и меры трудности тестовых ситуаций оказывается невозможным понять механизм превращения наблюдаемых данных в знание. Благодаря концентрации внимания исследователей на проблеме качества ИЭ приобретает статус самостоятельного раздела философии познания механизмов формирования KCT3 и управления процессом КАТ.

Поскольку знание есть данные, зафиксированные и выраженные в языке, то ос­новные типы отношений внутри культурного пространства тестирования и в системе дея­тельности позиционеров должны подчиняться специфическим для теории адаптивного тестирования законам, которые с точки зрения культуры мышления представляются в ви­де текстов, являются общезначимыми для участников культурного комплекса тестовых испытаний.

Эмпирическое знание – это продукт материальной и духовной деятельности пози­ционеров, содержание которого получено из научных наблюдений и выражено опреде­ленным языком. На этом уровне формулируются методологические правила для проекти­рования тестовых материалов, устанавливается мера трудности ПДТЗ, осуществляется от­бор экспертов, выбирается интервал качества оценки, проектируется концептуальная мо­дель поведения объекта нечисловой природы.

Качественные закономерности вскрывают лишь общие тенденции развития явлений и то, что эти законы не могут (или пока не могут) быть выражены на языке математики, свидетельствует не об их ограниченности, а лишь о специфичности элементов эмпириче­ской системы. Качественная формулировка законов КАТ предполагает применение и ко­личественных методов исследования, и наоборот, количественные законы могут четко от­ражать качественные атрибуты объектов тестирования, причем в конкретной и расчленен­ной форме. Переход от качественной к количественной формулировке частных и общих законов КАТ, выражение их с помощью математических зависимостей свидетельствует о прогрессе познания, о становлении и развитии методов тестологии и тестометрии.

В культурном пространстве КАТ различают три вида отношений знаков и знаковых конструкций, фиксирующих и выражающих знание. Отношение обозначения характери­зует некоторый инвариант, присущий отдельным группам тестируемых, ситуациям типо­логической классификации, оценивания и процессам адаптации тестирующх воздействий. Например, способ, которым мы распознаем класс отличников и оперируем в языковой деятельности значением данной знаковой конструкции, является ее операциональным смыслом. Здесь каждый знак или знаковая система имеют смысл и значение, чтобы расце­ниваться как средство выражения знаний о степени обученности телеологических объек­тов. Правила установления смысла конкретного знания называются семантическими.

Другую группу отношений образует система конструирования и передачи знаний. Это происходит всякий раз, когда мы создаем из одних знаков различные композиции с иными значениями. Здесь возникают новые знаковые конструкции, осмысленность которых ре­гулируется правилами синтаксиса. Такие правила применяют разработчики ПДТЗ, когда им приходится создавать новые знания в виде проблемных тестовых ситуаций.

Наконец, третья группа отношений оперирует с прагматическими правилами, уста­навливающими наборы и последовательности действий, которые должны осуществляться позиционерами и тестирующими программами на основе тех или иных знаний. Так, на­пример, владение правилами спецификации позволяют проектанту создавать БТЗ с задан­ными показателями валидности. Возможности перевода данных в систему знаковых кон­струкций, включенных в семантические, синтаксические и прагматические отношения, составляют философскую основу теории КАТ и развития интеллектуальной технологии процедуры компьютерных проверок УУД телеологических свойств объектов.

Данные результатов научных наблюдений за поведением объекта нечисловой приро­ды – это еще не знание. Если мы говорим, что респондент дал правильные заключения на требования 50-и ПДТЗ средней меры трудности из ста предъявленных ему однородных ЭФТК, то можем утверждать лишь то, что уровень его учебных достижений по стобалль­ной шкале отсчета составляет 50 баллов. Это определенное числовое данное. Ясно, что из отдельных выводов (данных) невозможно извлечь никаких прагматических фактов, регу­лирующих действия тестирующей системы. Для того чтобы данные, содержащие объек­тивную информацию о состоянии обученности индивида могли быть использованы в культурном пространстве КАТ, они должны быть включены в контекст знаний.

Без исходного объема сведений о качественных уровнях – интервалах обученности тестируемых невозможно осуществить содержательную интерпретацию полученных в Результате компьютерных проверок данных. Такими качественными знаниями могут быть, например, утверждения, что уровень учебных достижений индивида есть функция от степени его обученности и категории трудности ПДТЗ. Если привлечь дополнительную информацию, например, об интервалах качества оценки (почти хорошо от 40 до 45 бал­лов, хорошо от – 45,1 до 55 баллов и от 55,1 – более чем хорошо), то можно утверждать, что полученный при тестировании балл (50) свидетельствует о том, что система КАТ отнесла поведение данного испытуемого к «среднестатистическим хорошистам». О выборе рацио­нальных интервалов качества оценки будет сказано позже.

Для преподавателя, имеющего специальную подготовку, сама запись «уровень учеб­ных достижений студента составляет 50 баллов» представляет знание о степени обученности тестируемого. Однако это следует не из формулировки данных (анализа записи числа), а из целого ряда других качественных знаний, используемых субъектом для ин­терпретации результата проверки.

Отсюда следует правило:

Данные, содержащие объективную информацию о степени обученности респон­дента, могут применяться пользователями тестирующей системы только в том случае, если они включены в контекст знания и определенным образом соотнесе­ны с ним.

Компьютерная обработка заключений тестируемых на требования ПДТЗ выявила осо­бый ИЭ статус результатов научных наблюдений. Сущность его состоит в том, что из изо­лированных баллов нельзя извлечь никаких прагматических правил, регулирующих каче­ственный уровень степени обученности тестируемого. Наличие качественных уровней-интервалов оценки есть принципиальный признак знания, и только в этом смысле ре­зультаты КАТ могут расцениваться как знания. Данные, приведенные к одному содержа­тельному основанию (началу), являются знаниями. Знания не только строятся на основе синтаксических, семантических и прагматических правил, но сами содержат в себе воз­можность извлечения информации. В этом случае мы будет говорить о культуре оценки и о культуре регулирования деятельности позиционеров в пространстве КАТ.

В рассматриваемом случае эмпирическое установление уровней – интервалов оценки достижений требует применения для обработки результатов тестирования статистических методов. Парадокс использования теоретических законов для установления эмпирическо­го факта разрешается, если взаимодействие теории и факта шкалирования рассматривает­ся в соответствии с культурой теоретического и правдоподобного научного знания. Так, например, в процессе становления классической теории тестов данные статистических на­блюдений за поведением тестируемых записывались в виде чисел (точечная оценка). В современной теории тестов был осуществлен переход к интервальной статистике, а в тео­рии КАТ предлагается использовать методы непараметрической и интервальной стати­стики.

Отсюда следует, что в формировании эмпирического факта оценки УУД индивидов участвуют знания, которые установлены независимо от теории, а факты, в свою очередь, дают стимул для применения новых теоретических знаний, которые, будучи верными, мо­гут снова участвовать в формировании новейших знаний и т. п. Отсюда видно, что если с помощью эмпирических законов можно объяснить лишь наблюдаемое в системе КАТ по­ведение тестируемых, то с помощью теоретических законов может быть дано также и объяснение самим эмпирическим научным фактам.

ИЭ является результатом индуктивного установления научного факта и представляет собой вероятностно-истинное знание. Известны, например, методологические правила конструирования ЭФТК. Эти правила основаны на правдоподобных рассуждениях, когда исследователь пытается на основании обобщения конкретных явлений «уловить» прояв­ление регулярностей. Истинные посылки здесь являются основой для получения наиболее вероятного корректного результата.

Методологические правила содержат в себе по меньшей мере одно переменное и для проектирования компонентов культурного пространства КАТ (конструирования тестовых материалов, выбора величины интервалов качества оценки и алгоритмов тестирования, организации тестовых испытаний и т. п.), являются универсальными нормативами дея­тельности разработчиков и тестируемых. Для любого феномена этого комплекса приме­нимо правило (1991): «Если имеет место нетривиальное и не поддающееся стандартному объяснению событие в таком-то и таком-то процессе, то следует искать не­тривиальную причину». Именно это утверждение явилось импульсом к созданию правил проектирования ПДТЗ и спецификации KCT3, разработке моделей телеологических собы­тий, выбору алгоритмов тестирования и т. п. Так, например, если проектантам сообщают, как конструировать тестовые материалы, то эти правила являются инвариантными но отношению к различным областям знаний.

Правдоподобные рассуждения являются основой и при конструировании концепту­альной модели поведения объекта нечисловой природы. Здесь уровень культуры мышле­ния конкретного исследователя определяет выбор способа установления границ объекта (выделение степени обученности тестируемого из учебной среды), когда эмпирическое знание складывается из совокупности понятий, кроющихся за описанием состояния обу­ченности индивида и зависимости его наблюдаемого поведения.

В другом случае эмпирические исследования базируются на непосредственном на­блюдении за поведением тестируемых при помощи инструментария. Данные научных на­блюдений содержат первичную информацию о мере трудности ПДТЗ и качестве заключе­ний телеологических объектов на эти задания. Эта информация фиксируется в форме про­токолов наблюдений. Далее осуществляется переход от данных наблюдений к эмпириче­ским фактам, когда не только корректируются содержание и мера трудности ПДТЗ, но и выбираются уровни – интервалы разделения шкалы оценки. Эта процедура требует прове­дения статистической обработки результатов заключений тестируемых, позволяющих установить в полученных данных инвариантное содержание оценок УУД индивидов.

Благодаря конкретизации старых понятий и возникновению новых (таких, как тести­рующая система, тестирующие воздействия, адаптация параметра ПДТЗ, типологическая спецификация банка ПДТЗ и т. п.), появляется возможность создания словаря терминов и определений, образующих каркас новой области знания – тестометрии. Главным здесь является то, что на уровне эмпирического знания исследователи оказываются погружен­ными в процедуру обобщения наблюдаемых явлений и процессов, в систему методологи­ческих правил, которые под влиянием методов ИЭ становятся инструментом формирова­ния не только деятельности разработчиков тестовых материалов, но и определяют культурные нормы поведения позиционеров различной категории.

Процесс интерпретации, сопоставлений, отождествлений с образцами знаний называ­ют регуляризацией. Регуляризированные знания воспринимаются позиционерами куль­турного пространства КАТ как методологические правила, нормы, стандарты и образцы социально значимой деятельности. Когда мы говорим об использовании конъюнкции зна­ний для продуцирования правил, то предполагаем использование процесса регуляризации, который представляет собой систему процедур, связанных с интерпретацией, анализом, сопоставлением с образцами и т. д. отдельных знаний. Регуляризация знаний подводит нас к наиболее сложной проблеме информационной эпистемологии – вопросу о концепции искусственного интеллекта, основы для создания регулирующего действия тестирующей системы и процессуальных действий компьютерной программы оценки УУД объектов нечисловой природы.

В отличие от дескриптивных систем интеллектуальные инструментальные системы предписывают определенный набор действий в заданном отношении меняющих ситуации. Примером такого действия тестирующей программы может служить следующее утверждение: «Если индивид не справляется с требуемым числом заданий фиксированной меры трудности, то следует изменить характер тестирующих воздействий в сторону уменьшения их категории трудности». Такая система должна обладать интеллектом и уметь работать с семантическими сетями. С философской точки зрения системы искусственного интеллекта в культурном пространстве КАТ дают осмысленное отображение ка­чества заключений (поведения) тестируемого, в то время как тестирующая программа принимает решение о последовательности эффективных целенаправленных действий, свя­занных с механизмами адаптации тестирующих воздействий и значений их меры трудно­сти.

Интеллектуальная тестирующая система КАТ обеспечивает не только накопление ПДТЗ, но и позволяет организовать доступ к этим знаниям непрофессиональных пользо­вателей. Более того, она легко адаптируется к качеству заключений каждого тестируемо­го, автоматически корректирует меру трудности ПДТЗ, хранящихся в БТЗ, работает с бан­ками декларативного типа. Отличительная черта обработки знаний в системе ИИ состоит в возможности изменения человеко-машинных отношений и в соответствии с этим ста­новления новой парадигмы решения проблемы оценки УУД респондентов. Поскольку цель данной книги состоит в том, чтобы дать представление о системе КАТ нового типа, то внимание читателя акцентируется на культуре тестирования. Что же касается совре­менной технологии ИИ и ее применения, то по этим вопросам необходимо обратиться к специальной литературе по инженерии знаний [38].

Наконец, ИЭ вносит свои коррективы и в вычисление оценки. Эти изменения выходят за свои первоначальные чисто математические рамки и приобретают статус чрезвычайно широкого, почти не ограниченного типом реальности метода качественного подхода к по­строению алгоритмов шкалирования. Существенным здесь является то, что ИЭ вскрывает логичные принципы перехода к созданию новых правил, не отвлекаясь от выраженного в них конкретного содержания [9,35].

Отсюда следует, что прогресс в области становления нового подхода к оценке дости­жений заключается не в смене идей и уточнении критериев оценки, а в эволюции культу­ры мышления. Смысл этой парадигмы состоит в том, что она создает новую систему представлений, позволяющую описать процесс классификации и оценивания достижений эмпирического объекта на языке более содержательном – мягком, – чем язык классиче­ской теории вероятностей и математической статистики. Это и есть путь интенсивного пути развития теории КАТ, когда реализация современных методов оценки УУД тести­руемых базируется на парадигме непараметрического мышления.

Цитируя фрагмент монографии Р. Шторма, подчеркивает: «Преиму­щество непараметрических методов заключается прежде всего в том, что при их примене­нии не делается никаких допущений относительно функции распределения или ее вида в генеральной совокупности, вследствие чего критерий не связан с допущениями о нор­мальном распределении генеральной совокупности».

В значительной части технической сферы, благодаря применению информационно измерительных систем, получено больше знаний о параметрах объектов исследований, чем в области изучения поведения или диагностики состояния эмпирических систем про­извольной природы. Примерами тому являются машиностроение, электротехника, авиа­ционная промышленность, а также молекулярная химия и другие искусственные образо­вания, для которых применение классических методов количественной теории измерения является естественным и общепринятым. Основное условие научных наблюдений за пока­зателями функционирования или свойствами объектов неживой природы состоит в воз­можности контроля точности полученных результатов измерения путем либо повторных наблюдений, либо путем проведения научного эксперимента.

За счет применения таких диагностических приборов как сканирующие компьютер­ные томографы в медицине также достигнут существенный прогресс при установлении взаимосвязи между состоянием человеческого организма и различными видами заболева­ний. Как следствие этого, медицинские знания постепенно выходят за рамки поверхност­ных представлений.

Первоочередной целью при создании системы управления процессом тестирования, когда объектом изучения служит поведение мыслящего эмпирического объекта нечисловой природы, является наращивание наших знаний о новой предметной области, построе­ние артефактов, обладающих богатыми описательными возможностями представления знаний. Знания о качестве заключений тестируемых на требования ЭФТК не всегда при­обретаются благодаря подробнейшим о них представлениях. Большинство знаний о пове­дении объектов нечисловой природы является результатом личного опыта преподавателей и логическая их основа остается довольно низкой – поверхностной.

Это связано с тем, что в отличие от искусственных объектов, где информационные процессы не подвергаются расшифровке, в мозгу индивида существует смысловая систе­ма обращения к памяти, позволяющая целенаправленно и осмысленно накапливать и из­влекать нужные сведения. Такое фундаментальное свойство элемента эмпирической сис­темы затрудняет оценку значения латентного параметра его обученности. Действительно в процессе подготовки заключения на требование ПДТЗ индивид руководствуется собст­венными мотивами социального порядка. Поэтому оценка поведения тестируемого – это не столько измерительная, сколько философская и социологическая проблема. Объясня­ется это тем, что мышление существует лишь в связи с активной деятельностью респон­дента, результаты которой фиксируются в процессе обработке наблюдений. Сюда добав­ляются:

·  принципиальная невозможность проверки полученной в результате тестирова­ния оценки за счет проведения повторного испытания одними и теми же ПДТЗ. Здесь наблюдается переход от повторяемости результатов, имеющих место при неоднократном измерении предметов и явлений неживой природы, к регуляр­ности появления близких в определенном уровне – интервале значений оценки в случае проведения нескольких сеансов тестирования близкими по мере трудности ПДТ;

·  невозможность проникновения непосредственно в механизм протекания про­цесса мышления объекта нечисловой природы;

·  неопределенности, присущие установлению экспертами категории трудности ЭФТК и условиям проведения тестовых испытаний.

Изложенное выше свидетельствует о том, что элементы эмпирических систем отно­сятся к объектам произвольной природы, и при оценке качества их состояния или пове­дения методы параметрической статистики неприемлемы. Обработку научных наблюде­ний результатов заключений респондентов для установления их степени обученности сле­дует проводить на основе непараметрической и интервальной статистики.

Непараметрическая статистика, не делающая предположений о функции распреде­ления результатов наблюдений за поведением тестируемых, оперирует не с числами, а с уровнями – интервалами, когда данные порождаются наложением неопределенностей на значения заключений объектов нечисловой природы. Ее приложения к описанию поведе­ния элементов эвристических систем, явлений и процессов в культурном пространстве тестовых проверок можно отнести к новым способам оценки УУД тестируемых и анализа качества согласованности мнений экспертов в процессе установления атрибутов тестовых материалов.

Методы непараметрической статистики работают в том случае, когда к индивидам с фиксированными степенями обученности применить один и тот же ПДТ, а различные уровни их учебных достижений «становятся сравнимыми только после того, как они сведены к одному и тому же началу». Основаниями для перевода количественных данных, формируемых в системе КАТ в их качественные аналоги служит интервальная стати­стика изучения поведения эмпирических объектов нечисловой природы. В этой об­ласти знания качество числа является аналогом своего количества, т. е. строго соответствует характеру наблюдаемой в системе КАТ выборки. Номер уровня интервала, в который попадает оцениваемая величина, и есть качество заключения тестируемого.

Поскольку в данном случае статистические данные порождают интервалы оценок поведе­ния респондентов, то неопределенности оценивания, вызванные различного рода наруше­ниями условий проведения тестирования, ошибочной установкой экспертами меры труд­ности тестовых заданий, неполной информацией о состоянии индивида и т. п., в значи­тельной степени сглаживаются.

В процессе КАТ поведение каждого респондента вычисляется в баллах, которые ха­рактеризуют величину, устанавливающую отношения правильных заключений тестируе­мого к общему числу предъявленных ему ПДТЗ различной категории трудности. Значе­ние полученных индивидом баллов указывается точкой на шкале качественных уровней-интервалов оценки.

Описание поведения респондента уровнем-интервалом качества более естественно, чем оценивание числом. Например, оценку показателя качества обученности естественно дать в виде значения интервалов качественного признака – «отлично», «хорошо», «удов­летворительно», «плохо». Ниже приведено четыре уровня – интервала и качественные ха­рактеристики заключений тестируемых (оценки) на ЭФТК различной категории трудно­сти.

На этом рисунке ранговые значения указаны цифрами и представляют собой лишь ка­чественную классификацию УУД экзаменуемых в традиционной системе контроля дос­тижений. Хорошо видно, что эти отметки лишь условно отражают значения латентных параметров проверяемых. Отметка представляется здесь как грубый аналог оценки УУД однородных по поведению объектов некоторой эмпирической системы.

Для рассматриваемого нами случая эмпирические знания используются при выделе­нии классов тестируемых по результатам оценки их УУД. Если знание оцениваемого па­раметра попадает в какой-нибудь интервал, то в соответствии с установленным качест­венным атрибутом ему присваивается соответствующий класс обученности. Хотя в поня­тиях «класс отличников, «класс хорошистов» и т. п.» выделяется только общее, характер­ное для каждого из образов обученности тестируемых, из этого следует, что они противо­стоят единичному и особенному. Введение понятия «класс» составляет основу качест­венной спецификации УУД индивидов, поскольку знание исходного образа тестируемого не дает возможности объяснения отдельного и особенного. Диалектика дальнейшего пе­рехода к понятию «испытуемый» подчеркивает закономерность перехода от оценки со­стояния обученности образа к оценке степени обученности субъекта (единичного). Отсю­да следует правило:

Из за большого объема эта статья размещена на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12