В то время как портфолио изначально содержали доказательные материалы и, в лучшем случае, некоторые заметки с указанием, какой материал, где он был собран, и почему он был включен в портфолио, было разработано более широкое применение портфолио такое как стимулирование рефлексии на личностное развитие и планирование (Mansvelder-Longayroux др. 2007).

45.3.2 Результаты исследований по оцениванию профессиональной компетенции.
Мы представляем выводы, сделанные по результатам исследований в области качества оценивания различных аспектов профессиональной компетенции, показывая, как этот вид исследования  повлиял на разработки  через обучение разработчиков  таким аспектом как оценочные задания, обучение оценщиков и получение удовлетворительных результатов оценивания. Результаты  группируются под знакомыми заголовками – валидность, надежность, универсальность  и образовательные последствия оценивания (Van der Vleuten  1996 ).

45.3.2.1 Выводы в отношении валидности.

Валидность означает степень, в которой оценка (тест, экзамен) измеряет то, что он предназначен оценить. Издавно различали три типа валидности, т. е. валидность содержания, критерия и композиционная валидность,  в классическом представлении, они концептуально считаются внутренними свойствами теста. Композиционная валидность связана с баллам теста как оценочной характеристикой, которая должна быть определена в концептуальной рамке. Содержательная валидность фокусируется на том, в какой степени содержание теста и ответы отражают рассматриваемую область знаний. Валидность критерия  относится к той степени,
в которой результаты тестов предсказывают будущие показатели деятельности и соотносятся с результатами других тестов с такой же структурой.

НЕ нашли? Не то? Что вы ищете?

Выводы исследований по критерию валидности, в частности, дали интересные результаты. Для уровня ‘знает как’ были созданы инструменты для оценивания способностей кандидатов к рассуждению и пониманию, но исследования в медицинском образовании выявили сильную корреляцию между сложными клиническими ситуациями, представленными на бумаге и простыми вопросами с множественным выбором. (Ward  1982 ;  Swanson  et  al.  1987 ).  Этот вывод оказался противоположным предположению, что эссэ оценивает понимание, а множественный выбор выявляет фактические знания. Исследования композиционной валидности показали, что информацию по  специальным знаниям и навыкам размышления трудно обобщить и преподнести в разных контекстах. 
Что касается валидности содержания, ответы кандидатов по оценочному образцу (вопрос, кейс, ситуация и т. д.), как оказалось, не могут говорить об успехе или не успехе при выполнении других образцов даже в той же области. Такое явление было названо «специфичность содержания» или «вариативность заданий» (‘content specificity’ or ‘task variability’) (Shavelson et al.  1993). Эти исследования (Ward 1982 ; Swanson et al. 1987) дали понимание того, что контекст и задания, т. е. форма заданий имеет более далеко идущие последствия, чем формы ответов (Van der Vleuten  1996 ). Это заставило разработчиков оценки понять, что оценочные задания  должны давать достоверную картину реальной рабочей ситуации. Это соответствует доводам «движения за аутентичность» (‘authenticity movement’) (Wiggins  1989; Cumming and Maxwell 1999), которое выступает за оценивание в моделируемых или реальных аутентичных контекстах. Во имя аутентичности оценочные задания должны быть на соответствующем уровне сложности, учитывая уровни когнитивных функций соразмерно специфичному  уровню профессионального опыта (Van der Vleuten et al.  2010 ).

Для уровня «показывает как», чтобы различить группы кандидатов с разным уровнем профессионального опыта, были разработаны моделируемые ситуации. (Van der Vleuten and Swanson 1990). К сожалению, исследования показали, что такие моделируемые ситуации не всегда соответствуют разным уровням профессионального опыта и знаний. Объяснение этому было дано результатами исследования по развитию профессионального опыта, показавшего, что новички и эксперты отличались не только объемом знаний, но и тем, как они их хранили, использовали и извлекали из памяти.(Schmidt et al.  1990). Профессиональный опыт,  как оказалось, развивался как переход от концептуально богатой и рациональной базы знаний (приобретенных с помощью образовательного опыта) к неаналитической способности эффективно распознавать и справляться с разными ситуациями. (приобретается через профессиональный опыт). Было признано, что такие способности трудно перенести в другие контексты.

Так как стало  ясно, что оценивание зависит от контекста, стало понятно, что профессиональную компетенцию желательно оценивать в подлинных профессиональных ситуациях.  Кейн ввел так называемые «высокоточные задания" (2006 г.) для прямого измерения некоторых характеристик, которые, казалось лучше всего подходят к уровню 'делает', т. е. оценивания на практике или на рабочем месте. Исследования показали, что валидность такой оценки значительно зависит от того, как эксперт-оценщик и обучаемый работают с информацией, поступающей во время испытания, причем даже в большей степени, чем от используемых инструментов (Van der Vleuten et al.  2010 ).

Эксперты могут столкнуться со сложностями при начислении баллов и с критериями оценивания при интерпретации информации из разных контекстов (Moss  1994),  кандидаты могут стратегически отбирать информацию для включения ее в портфолио (Wolf and Dietz  1998). Высокоточные задания, которые, как правило, являются сложными и открытой формы вызывают трудности у экспертов при оценивании результатов в баллах. (Кейн 2006). Это указывает на необходимость экспертам быть осведомленными об оценивании и пройти обучение, чтобы систематически и последовательно оценивать различные источники информации по этому вопросу, в то время как кандидаты должны быть информированы о целях оценивания. Необходимость обучения эксперта по оцениванию связана с надежностью и универсальностью, что будет обсуждаться в следующем разделе, в то время как информирование кандидатов относится к образовательным последствиям, к которым мы вернемся позже.

45.3.2.2. Результаты, связанные с надежностью и универсальностью.

Надежность связана с репликацией результатов оценки, то есть вероятностью появления различных результатов при повторном проведении оценивания в аналогичных условиях. Надежность результатов, полученных разными экспертами часто используется в качестве показателя надежности. (Dunbar et al.  1991).

Традиционно считалось, что суждения экспертов более надежны, чем когда эксперты постоянно используют тщательно определенные оценочные критерии, уровни выполнения и правила подсчета баллов. (Moss 1994), в то время как выборочные наблюдения, личные предубеждения считались cерьезной угрозой надежности и валидности оценки.(Gipps 1994 ;Moss 1994). Известно, что обучение экспертов оказывает потенциально положительное влияние на последовательность оценивания в баллах…(Day and Sulsky  1995 ; Stamoulis and Hauenstein 1993), а глобальные рейтинги связаны с незначительным снижением надежности результатов, полученных разными оценщиками, в то время как более аналитические  баллы контрольного списка дают более высокую  надежность этих результатов. (Van  der  Vleuten  et al.2010). Надежность можно также повысить с помощью стандартизированных заданий, например,  выбирая задания, которые представляют основные ситуации в той или иной сфере компетенции. Стандартизация заданий также используется для достижения универсальности, то есть для определения является ли образец заданий типичным для массы оценочных заданий (Kane 1992), из всех возможных заданий, которые пригодны для измерения имеющейся концепции (структуры). 

Исследование показало неожиданные результаты, касающиеся надежности и универсальности методов оценки на уровнях компетенции «демонстрирует как» и «делает», относительно измерения баллов и выбора оценочных заданий. Исследование по реальным ситуациям неожиданно показало, по сравнению с аналитическими  суждениями глобальные целостные суждения (оценки )показали более высокий уровень надежности по разным заданиям, данным в рамках реальных ситуаций. (Rothman et al. 1997; Regehr et al.1998 ). Очевидно глобальный целостный рейтинг делает экспертов более внимательными к тем элементам работ кандидатов, которые носили более общий характер. Глобальный рейтинг также привел к бальной оценке, которая лучше выявляла уровень профессионального опыта (Hodges et al. 1999; Norman  2005). Новый взгляд  относительно надежности заключается в том, что она меньше зависит от объективности, стандартизации методов и процедуры подсчета баллов, чем от  соответствующей выборки заданий и экспертов. (Kane  2006 ). Когда работу оценивают много экспертов  угроза надежности, такая как непосредственное наблюдение и личные предубеждения уменьшается, что приводит к более точному оцениванию. Это означает, что выборки работ, проверяемых  различными экспертами в отдельности, могут значительно повысить надежность получаемых результатов (Swanson  1987).

На уровне «делает» надежная бальная оценка считается серьезной проблемой (Moss 1994), из-за вариативности оценок и реакции респондентов. Исследовании в  области медицинского образования, рассматривающие как непосредственное наблюдение, оценка коллег или сокурсников и информация из множества других источников влияет на надежность выявили показания для ряда видов наблюдения, необходимых для адекватной надежности  (Kogan  et  al.2009; Lockyer 2003; Falchikov and Goldfinch 2000; Davies et al.2008; Moonen-Van Loon et al.2013). Обычно, достаточно 8-10 прямых наблюдений независимо от вида инструмента и того, что оценивается, за исключением рейтинга пациентов, для которого требуется большее количество. Открытие, что возможная выборка непосредственных наблюдений может дать адекватные результаты подогрело энтузиазм разработчиков (оценивания) по отношению к непосредственному наблюдению как к методу оценки на рабочих местах.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8