Валидность заданий на взаимное оценивание в массовых открытых онлайн- курсах



ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»

Факультет социальных наук

Институт образования

Кравченко Дарья Андреевна

Валидность заданий на взаимное оценивание в массовых открытых онлайн- курсах

Выпускная квалификационная работа - МАГИСТЕРСКАЯ ДИССЕРТАЦИЯ

по направлению подготовки 37.04.01 «Психология»

студента группы № 701

образовательная программа «Измерения в психологии и образовании»

Рецензент

Директор по онлайн обучению НИУ ВШЭ, к. пед. н., доцент

___________________

Е.Ю. Кулик

Москва 2016

Научный руководитель

преподаватель Института образования НИУ ВШЭ, м. н. с. ITEC KU Leuven

____________________

Д.Ф. Аббакумов

СОДЕРЖАНИЕ

Введение

4

Глава 1   Общая характеристика массовых открытых онлайн курсов(MOOCs)

9

  1. История развития, особенности обучения и методы оценивания знаний
  2. Взаимное оценивание, как одна из форм оценивания
    1. Роль и место заданий на взаимное оценивание вMOOC
    2. Специфика и особенности оценивания

1.2.3 Достоинства и недостатки

9

12

12

14

20

Глава 2   Валидность взаимного оценивания

2.1 Оценка валидности в рамках КТТ

2.2 Оценка валидности в рамкахIRT

22

22

31

Глава 3 Эмпирическое исследование валидности взаимного оценивания в MOOCs

39

3.1 Методология исследования

3.1.1 Выборка исследования

3.1.2 Структура онлайн-курса

3.1.3 Описание формул и расчетов в КТТ

3.1.4 Описание формул и расчетов вIRT

3.3 Эмпирическое исследование в КТТ

3.4 Эмпирическое исследование вIRT

39

39

39

43

45

47

55

Глава 4 содержательная интерпрЕтация полученных данных

4.1 Сравнение достоинств и недостатков проведения анализа в рамкахIRT и ККТ

4.2 Ограничения исследования

72

72

74

Заключение

75

Список литературы

78

Приложения

85

Введение

В настоящее время взаимное оценивание (peer-review) активно используется в онлайн-курсах. Важной проблемой такого вида оценивания является ограниченное количество информации о его валидности и надежности. Учитывая то, что эти оценки вносят вклад в итоговый балл, влияют на получение сертификатов и успешность прохождения курса в целом, а в некоторых случаях имеют наибольший вес, необходимо установить их валидность.

Анализ и улучшение системы оценивания в онлайн-курсах становятся все более актуальными вопросами в высшем образовании. Исследование валидности взаимных оценок приобрело актуальность среди зарубежных авторов (Gielen &Wever, 2013;DeGreza,Valckeb &Beringsa, 2010;Admiraal,Huisman &vandeVen, 2014;Kaplan &Bornet, 2014).

Исследование (Gielen & Wever, 2012) было направлено на изучение обратной связи, как способа повысить обучаемость. Они выявили, что наличие взаимного оценивания при обучении не повышает значимо его эффективность.

Некоторыми авторами (Kaplan &Bornet, 2014) были получены высокие корреляции между оценками студентов и оценками профессоров за выполнение одного задания, также высокие корреляции, устанавливающие согласованность взаимных оценок между собой, что является аргументом в пользу валидности данного вида оценивания. И как следствие подтверждения его эффективного применения.

Другими же авторами (Admiraal,Huisman &vandeVen, 2014), были получены результаты с низкими показателями коэффициента корреляции между оценками студентов и профессоров, а также низкий показатель между взаимными оценками и итоговым баллом за экзамен.

В развитие указанных выше работ, нами было проведено эмпирическое исследование валидности заданий на взаимное оценивание в рамках классической теории тестирования. Мы определили надежность с помощью коэффициента конкордации, а валидность с помощью корреляционного анализа между баллами, полученными за взаимное оценивание и баллами по тестам с множественным выбором со схожей тематикой, а также между баллами за взаимное оценивание и итоговым баллом по курсу. Результатом исследования стал вывод о том, что задания на взаимное оценивание обладают высокой надежностью и средним уровнем валидности, критерии оценивания не четко сформулированы и это сказывалось на выставлении балла за задание, что понижало валидность.

Просматривая оценки, которые эксперты ставили за каждый критерий, мы увидели, что существует тенденция выставлять исключительно высокие или низкие баллы. Таким образом, мы пришили к выводу о необходимости следующего этапа, а именно, проведение исследования, направленного на выявление искажений, которые специфичны для данного вида оценивания (например, завышение или занижение оценок). Такого рода исследование осуществимо с помощью современной теории тестирования (IRT).

Исследования валидности взаимных оценок в рамках современной теории тестирования представлены в работах зарубежных авторов (Falchikov, 1986; Orpen, 1982; Ueno & Okamoto, 2008; Linacre & Wright, 1993;Blankenship,et.al., 2006).

Falchikov (1986) высказывал мнение о том, что взаимное оценивание среди детей младшего школьного возраста не является настолько надежным, как среди студентов. Orpen (1982) изучал оценки студентов в сравнении с оценками профессоров. Он не только не обнаружил никаких существенных различий между оценками при сравнении среднего, но и выявил, что оценка нескольких студентов более надежна, чем оценка одного профессора. В исследовании (Ueno & Okamoto, 2008) описаны преимущества использования IRT, с целью решения проблем взаимного оценивания. Это исследование показало, что применение IRT к данным способствует получению более надежных значений оценки и имеет большую прогностическую силу и эффективность, чем оценка эксперта или среднее арифметическое оценок.

Исследование с применением многофасетной модели (Wright &Masters, 1982) было направлено на анализ экспертных оценок, которые осуществляются экспертами с опытом и без опыта до и после их подготовки. Многофасетная модель также используется и в психологических исследованиях. Так, например, (Blankenship,et.Al., 2006) использовали модель Раша для разработки новых картинок, применяемых в тематическом апперцептивном тесте.

Проблемой настоящего исследования является существование рассогласования между активным применением взаимного оценивания в курсах и отсутствием достаточного количества данных, подтверждающих его валидность, и как следствие объективность данного вида оценивания, составляет проблему настоящего исследования, которая заключается в отсутствии достаточного количества данных о валидности взаимных оценок, вносящих вклад в получение итогового балла за курс и значимых для успешного прохождения курса в целом. Также в ограниченном количестве данных о выявлении искажений в заданиях на взаимное оценивание.

Новизна исследования: исследование валидностиивыявления искажений в заданих навзаимное оцениваниеонлайн-курсов Россиив рамкахIRT не проводилось - в этом заключаетсяновизна настоящего исследования.

Практическая значимость, во-первых, полученные данные смогут позволить создать рекомендации для разработки такого типа заданий. Во-вторых, выявить какие оценки отсеивать и не брать в расчет при выставлении общего балла за открытое задание и итогового балла в целом. Что может позволить значительно повысить объективность оценивания и мотивацию студентов для прохождения курса до его завершения.

Основныеисследовательские вопросы.

  1. Какова валидность взаимных оценок студентов в онлайн-курсах на платформеCoursera?
  2. Существуют ли специфичные искажения для заданий со взаимным оцениванием (завышение или занижение оценок; неосознаваемое избегание крайних оценок или завышение значимости одного критерия над всеми другими)?
  3. Существует ли возможность корректировки и необходимость удаления оценок экспертов, которые склонны их искажать?

Итак,цель настоящего исследования заключается в измерении валидности и выявлении искажений в заданиях на взаимное оценивание, применяемых вMOOCs.

Для достижения настоящей цели были сформулированы следующиезадачи, представляющие шаги исследования, которое мы планируем реализовать.

Теоретические задачи

  1. Проанализировать теоретические представления о применении взаимного оценивания вMOOCs;
  2. Рассмотреть имеющиеся эмпирические исследования, направленные на измерение валидности взаимного оценивания в онлайн-курсах;
  3. Рассмотреть имеющиеся эмпирические исследования, направленные на выявление искажений в заданиях на взаимное оценивание, применяемых вMOOCs.

Методические задачи

  1. Подобрать способы измерения валидности в рамкахIRT;
  2. Подобрать способы выявления искажений в заданиях на взаимное оценивание;
  3. Разработать схему эмпирического исследования.

Эмпирические задачи

  1. Измерить валидность взаимных оценок в рамкахIRT;
  2. Провести исследование, направленное на выявление искажений в заданиях на взаимное оценивание;
  3. Интерпретировать полученные данные о валидности и наличии искажений;
  4. Сравнить методы исследования валидности взаимного оценивания в онлайн-курсах.

Дипломная работа состоит из четырех глав. Первая глава включает в себя теоретический анализ онлайн-курсов и теоретический анализ особенностей взаимного оценивания и его валидности в рамках ККТ иIRT. Вторая глава включает в себя теоретический анализ эмпирических исследований, направленных на измерение валидности заданий на взаимное оценивание в рамках ККТ иIRT. Третьяглава содержит эмпирическое исследование валидности и эмпирическое исследование, направленное на выявление искажений в заданиях на взаимное оценивание, применяемых вMOOCs. Четвертая глава содержит в себе сравнительный анализ двух методов исследования валидности взаимного оценивания в онлайн-курсах и ограничения данного исследования.

Глава 1   Общая характеристика массовыхОТКРЫТЫХ онлайн курсов (MOOC)

  1. История развития, особенности обучения и методы оценивания знаний

Исторически, образование как социальный институт движется в одном направлении: от образования для привилегированных меньшинств до воспитания масс. Это особенно относится к высшему образованию. Все начиналось с нескольких учителей и нескольких учеников (например, Сократ, Конфуций, Шакьямуни). После обучение развилось в систему с множеством учителей, каждый из которых имеет малое количество студентов (например, мастера и подмастерья; воспитателей/имамов/дзен мастеров). Позже появились формальные учебные заведения для аристократов и привилегированных семей (например, европейские университеты, колледжи США). И наконец, образование развилось до базового обязательного и массового высшего образования, где множество учителей обучают большое количество студентов. Следующим логическим шагом в этой эволюции является универсальное открытое массовое образование (MOOCs) с целью самореализации или аттестации. Онлайн-курсы становятся частью следующего шага в образовании с помощью Интернет (Levine, 1984). Интерактивный подход к онлайн-образованию стал развиваться в последние два года, благодаря буму всемирно популярных массовых открытых онлайн-курсов (MOOCs) (Jaschik, 2013). Это образовательные платформы, которые предлагают студентам возможность получать образование лучших элитных университетов мира в режиме онлайн (Audsley, 2013).Основную аудиторию, а именно 1/3 от всех слушателей, составляют студенты США и Индии (Waldrop, 2013).

Существуют ключевые и значимые различие между обучением с помощью онлайн-курсов и традиционными системами образования в университетах. Возможно, наиболее очевидным и самым важным различием между онлайн-курсами и традиционной системой является охват количества студентов для обучения. В то время, как самый большой традиционный класс в университетской аудитории насчитывает тысячу студентов, как правило, онлайн-курс может охватывать от десятков до сотен тысяч студентов. Также существует множество социальных, экономических и технологических причин для возникновения онлайн-курсов в наше время. (Frederiksen & Collins, 1989).

Для массового онлайн-образования характерна проблема взаимодействия студентов с учителем. Многие аспекты преподавания могут быть аппроксимированы с помощью технологий. Взаимодействие ученик-учитель требует большего количества учителей. Существующие университеты с большими лекционными классами пытаются приблизить такое взаимодействие с большим количеством учителей посредствам использования ассистентов.

Существуют глобальные (www.coursera.org, www.edx.org) и локальные (www.universarium.org, www.uniweb.ru, www.npoed.ru) инициативы. Проекты онлайн-курсов охватывают широкий диапазон тем: от бизнеса (www.eduson.tv) и интернет-маркетинга (www.netology.ru) до иностранных языков (www.lingualeo.com) и подготовки к экзаменам (www.foxford.ru).

В нашем исследовании мы рассматриваем образовательную платформуCoursera, чья аудитория за год с момента запуска достигла трех миллионов студентов, а сегодня, спустя четыре года — превысила пятнадцать миллионов студентов. Количество курсов от ведущих университетов на Coursera более тысячи.Courseraбольшая социальная предпринимательская компания, имеющая партнерство с множеством ведущих вузов и предлагающая всему миру бесплатные онлайн-курсы. Масштабность и развитие данной платформы позволяет нам говорит о ней как о синониме массовых открытых онлайн-курсов.

В обзоре литературы и дебатах между исследователями (Bayne & Ross, 2013) были выделены три основных проблемы онлайн-курсов:

  1. Роль профессора в онлайн-курсах в некоторых случаях минимизирована и перед студентами возникает проблема обратной связи. Одним из способов решения данной проблемы является введение в онлайн-курсы формирующего оценивания.
  2. Участие студента. Эта проблема связана с участием самого студента. Низкая мотивация и отсутствие заинтересованности студентов способствует тому, что студент не проходит курс до конца.
  3. Оценивание. Веб-технологии позволяют масштабно распространять видео-лекции, специальные форумы и отслеживать процесс обучения учащимися с помощьюMOOCs. Но по-прежнему существует ограничения и трудности в оценке и обратной связи для сложных открытых заданий, таких как: математические доказательства, кейсы и эссе.

Онлайн-курсы имеют свою специфику в отличии от традиционной образовательной среды. И многие исследователи сомневаются, могут ли онлайн-курсы заменить традиционную систему образования (Kauza, 2014). Другие же исследователи предполагают, что онлайн-курсы имеют более высокие стандарты качества, чем традиционное обучение. Кроме того, они ссылаются на рост стоимости высшего образования. Решением для семей, чей средний годовой доход уменьшается, может стать образование с помощью онлайн-курсов (Barber, Donnelly, & Rizvi, 2013).

Но вне зависимости от взглядов различных авторов, можно сказать, что массовые онлайн-курсы представляет собой индивидуальную, автономную и функциональную систему, которая является не только открытым образовательным ресурсом, но и может действительно привести к массовому образованию.

  1. Взаимное оценивание, как одна из форм оценивания

1.2.1Роль и место заданий на взаимное оценивание вMOOC

В связи с особенностями и отличительными чертами онлайн-курсов от традиционных систем образования, вместе с проблемой обратной связи также встает проблема, связанная с методами и спецификой оценивания в онлайн-курсах. Нами будут рассмотрены существующие формализованные и неформализованные методы оценивания в онлайн-курсах.

Так как каждый онлайн-курс имеет разнообразный контент, то в нем используется своя система оценивания, в которую могут входить такие методы, как: компьютерные программы (тесты), самостоятельное оценивание (самооценивание) и проверка работ другими студентами (взаимное оценивание).

Оценки в онлайн-курсах призваны содействовать обучению. Существует таксономия, введенная в образование психологом Бенджамином Блумом для описания структуры обучения, которая помогает освоить студентам каждый учебный блок, прежде чем перейти к более продвинутой задаче (Bloom, 1985). Данная таксономия активно используется при оценке в онлайн-курсах.

Платформа Coursera разработала систему оценивания для тысячи учащихся с различными форматами оценивания в онлайн-курсах и к ним относятся:

  1. Вопросы, встроенные в видео лекции;
  2. Тесты (содержит различные типы вопросов, включая вопросы с множественным выбором, числовой ответ, открытые вопросы);
  3. Взаимное оценивание (открытое оценивание, где учащиеся оценивают друг друга, с помощью предоставленных рубрик в курсе, самооценивание);
  4. Задачи на программирование (компьютеризированное оценивание, которое требует от учащихся представить компьютерный код).

К формализованным методам можно отнести тесты с множественным выбором, а также программное оценивание. Тесты с множественным выбором представлены в МООС всех типов курсов: экономических, технических и гуманитарных. Представляют собой задания множественного выбора, которые составлены автором курса. Предъявляются после прохождения нескольких видео-лекций в рамках одного блока темы. Некоторые онлайн-курсы предлагают тесты, которые автоматически проверяются, и оценка предоставляется студентам в качестве обратной связи. На вопросы студент отвечает в конце учебного модуля. Они предназначены для оценки знаний, которые он получил в модуле. Оценки по этим тестам указывают на то, насколько студент качественно усвоил материл, и выступают в качестве обратной связи.

Такая система весьма ограничена, так как максимально подходит только к определенным курсам, где необходимо оценить способности запоминания, интерпретации или извлечения информации из текста или графика. В курсах, где это единственная и самая важная учебная цель.

Для открытых письменных заданий, существуют автоматизированные алгоритмы скоринга эссе (Balfour, 2013). Эти скоринговые программы для оценки эссе становятся все более сложно устроенными и могут обнаружить ошибки в письменном ответе, а также обеспечить автоматизированный отзыв, чтобы сообщить студентам об ошибках. Примером такого алгоритма может стать система электронного оценивания, используемая Educational Testing Services в США, чтобы оценить эссе SAT тесте.

Тем не менее, эта программа подходит только, когда необходимо оценить способность грамотно писать на английском языке. И только для онлайн-курсов, которые направлены на изучение языка. Кроме того, даже когда цель курса оценить способности к письму, эти программы могут лишь обнаружить ошибки в более механических аспектах. Такие как, согласование подлежащего и сказуемого, другие грамматические или синтаксические ошибки, но, как правило, не способны оценить абстрактные качества, такие как тема, юмор, ирония, согласованность и прочее (Williamson, Xi, & Breyer, 2012; Zhang, 2013). Такой метод также можно назвать формализованным.

В технических курсах предусматривается автоматическая система оценивания, так как можно создать опции с вариантами ответов. Для гуманитарных курсов существуют проблема, связанная с оценкой применяемых в них открытых заданий. Предложенным решением, было взаимное оценивание: оценка студентами работ друг друга, которое мы относим к неформализованным методам оценивания. А также самооценивание. Так как эти методы характеризуются определенным субъективизмом.

Существуют смешанные способы оценки с помощью взаимного оценивания. Так, А. Г. Шмелев выделяет четыре способа сочетания тестовых и взаимных оценок (Шмелев, 2013):

  1. Наложение, когда тесты и взаимные оценки направлены на измерение одной переменной (компетенции, измеряемого свойства);
  2. Включение, когда тесты и взаимные оценки направлены на измерение тестами множества свойств, полностью включенных в то множество, которое подвергается взаимному оцениванию;
  3. Пересечение. Два множества свойств пересекаются. Затрагивают ряд общих свойств, но имеют и те, что не попадают в область пересечения. 
  4. Дополнение, когда тесты измеряют совсем другое свойство. 

В случае сMOOCs могут использоваться различные сочетания тестовых и экспертных оценок. Профессор сам устанавливает вес взаимного оценивания в полученном итоговом бале, формулирует цель и критерии, по которым студенты оценивают своих сокурсников.

1.2.2 Специфика заданий на взаимное оценивание

Для понимания специфики взаимного оценивания в онлайн-курсах, важно отделять его от взаимного оценивания в традиционных системах обучения. Существует большое количество литературы о различных аспектах и эффективных методах оценивания сверстниками друг друга в традиционном образовании (см.Falchikov & Goldfinch, 2000; Gielen, et. al., 2011; Li, et. al., 2014; Norton, 1992; Topping, 2005).

В традиционном обучении взаимное оценивание широко используется для облегчения дискуссии в классе, чаще всего в небольших группах или парах под руководством профессора. Также оно дополнено оценкой профессора (Gielen et. al., 2011).

Взаимное оценивание в MOOCs возникает в связи с различными условиями. Во-первых, это связано с масштабностью онлайн-курсов. Для одного задания в пределах одного курса, есть десятки, сотни и тысячи потенциальных оценщиков студентов, которые могут оценить более чем до ста тысяч работ (Balfour, 2013).

Второе отличие связано с тем, что в некоторых случаях отсутствует медиация со стороны профессора и его присутствие. Контроль существует в традиционном обучении, но не во всех онлайн-курсах.

Третье отличие связано с тем, что студенты являются представителями разных стран и обучения становится международным. Существует большой разброс в родных языках, культуре, ценностях, мировоззрении экспертов. Без профессора, наблюдающего за процессом, у учащихся возникает чувство долга или стимул для того, чтобы более серьезно отнестись к процессу взаимного оценивания. Например, известно, что в онлайн-курсах, где используют взаимное оценивание, как правило, студенты имеют более низкие оценки при завершении курса (Jordan, 2013).

Из-за этих различий, взаимное оценивание в MOOCs должно быть:

  1. простым и легким для понимания учащихся;
  2. не занимать много времени;
  3. ограниченным тем, что каждый студент должен проверять не большое количество выполненных заданий другими студентами (Suen, 2013).

Нами взаимная оценка в онлайн-курсах понимается, как средство или способ, для того, чтобы студенты могли рассмотреть и оценить уровень, важность или качество выполненного задания другими студентами (Topping, 2009). Эксперт (студент, который оценивает работу) – любой специалист, который выносит оценки на основании своего личного профессионального опыта (Шмелев, 2013).

Взаимное оценивание на платформе Coursera позволяет оценить виды работ, которые нельзя оценить автоматизировано, например, эссе, дизайн - проекты, и открытые задания в программировании.

Для таких видов работ взаимное оценивание обычно используется, как единственный метод оценки. Однако, такой формат также может быть использован для педагогических целей оценки работ, которые могли бы быть автоматизированными. Опыт оценивания студентами друг друга может помочь им развить способность к оценочному суждению и саморегуляции (Greence &Azevedo, 2007).

Взаимное оценивание используется как при формирующем, так и при итоговом оценивании. Количество исследований, посвященных успешной практике применения взаимной оценки вMOOCs в настоящее время очень ограничено (Nicol, 2014).

Во взаимном оценивании также существует проблема субъективного понимания критериев для оценки работ других студентов. Ведь студентам гораздо легче оценивать работы друг друга, если они точно знают, как выглядит хорошо выполненная работа. Поэтому необходимо включать ограничения для формата выполнения задания. Должны быть созданы четкие и простые рубрики для облегчения оценивания студентами друг друга. Если рубрики не содержат в себе решения, то желательно сделать их доступными для студентов до начала выполнения задания, чтобы они могли знать, как именно будут оцениваться их работы.

Тщательно выстроенная рубрика может помочь уменьшить некоторые из перечисленных выше ошибок. В дополнение к подготовке экспертов и хорошим рубрикам, существуют различные подходы к достоверному оцениванию, онимогут рассматриваться, как попытки решать различные комбинации источников ошибок.

Разработка конкретных и простых рубрик требует большого количества времени. Предоставления образца для оценки уточняет ожидания от выполняемого задания, также включает в себя обзор профессора. Заметки профессора могут проиллюстрировать правильное использование рубрик и способствовать объективизации оценивания. Образцы могут содержать в себе другую тему или набор данных, которые иллюстрируют назначение или может даже принять форму с заполненными ответами для различных частей выполняемого задания.

Взаимное оценивание может быть многоступенчатым и несколько трудоемким процессом, но формирующее взаимное оценивание не должно занимать слишком много времени для выполнения. Взаимное оценивание можно рассматривать, как ступень для завершения итогового проекта.

В основной форме, процесс взаимного оценивания в оналйн-курсах выглядит таким образом: с помощью разработанной рубрики студент оценивают проект или письменную работу другого студента. Например, у студентов стоит задача завершить проект и выложить его в Интернет. Каждый проект передается случайно отобранному сокурснику для проверки. Каждый студент оценивает проект по заданной рубрике с помощью баллов. Также иногда необходимо предоставить некоторые письменные комментарии. Среднее арифметическое или медиана берется как итоговый балл за проект.Оценка, как и письменные комментарии доступны для студента, которого оценивали. Благодаря этому процессу, каждый проект оценивается более чем несколькими равными оценщиками, и каждая группа экспертов не будет оценивать более нескольких студентов.

Взаимное оценивание в онлайн-курсах направлено на оценивание таких познавательных уровней, как: способность применять полученные знания на практике, анализ, синтез, критическое мышление. Целями взаимного оценивания в онлайн-курсах являются:

  1. Выявление способности студента к оценочным суждениям;
  2. Применение творческих знаний;
  3. Выявление способности решать студентами проблемные задачи.

Взаимное оценивание будет больше применяться в гуманитарных курсах, а компьютеризированное оценивание будет больше применяться в технических курсах, так как курсы опираются на определенные формы оценки в зависимости от предметных областей.

Но многие профессора нашли творческие способы, альтернативные форматы оценивания, которые они включают в их курсы. Например, студенты в курсе по математике могут написать и оценивать объяснения сложной задачи с помощью взаимного оценивания или писать эссе, которые отражают опыт их обучения на курсе.

Любой формат взаимного оценивания может быть применен при формирующем или итоговом оценивании.

Формирующее оценивание или обратная связь очень важна, для того чтобы направлять студента и обеспечивать его обучение. Формирующее оценивание обеспечивает возможность для учащихся углубить свое понимание новых концепций и оценивать свой прогресс в направлении целей обучения (Ambrose,et.al., 2010). Оно является особенно эффективным средством обучения в онлайн-курсах и может обеспечить эффективную - часто незамедлительную обратную связь. Формирующее оценивание должно происходить часто. Одно оценивание должно происходить каждые 20-30 минут во время видео и дает неограниченное количество попыток, так что студенты могли вернуться, чтобы повторно выполнить задание. Исследования показывают, что частое оценивание является более эффективным для развития у студентов долговременной памяти во время лекции, такой феномен называется «эффект тестирования» (Shute, 2008).

Также существует итоговое оценивание. Оно было разработано для формального оценивания и определения уровня знаний, которого студент достиг в конце курса. В то время как итоговые тесты и проекты, по-прежнему, могут служить мощными инструментами для преподавания и обучения, они также должны объективно и всесторонне оценить опыт обучаемого, чтобы сформировать итоговый балл по курсу. Итоговое оценивание имеет больший объем, чем формирующее оценивание. Так как формирующее оценивание фокусируется на одном уроке или концепции, а итоговое оценивание будет введено в каждом модуле или уровне курса. Как и формирующее оценивание, итоговое оценивание соотнесено с учебными задачами. Видео лекции, формирующее оценивание и другие виды подготовки материалов полностью подготавливает студента к итоговому оцениванию. Независимо от формата, итоговое взаимное оценивание и рубрики должны быть предназначены для того, чтобы студенты могли оценить работы других студентов.

Оценка студентами работ других студентов способствует формированию критического мышления и оценочных суждений. Это также способствует тому, что взаимное оценивание все чаще применяется в онлайн-курсах.

При оценке с помощью рубрик развивается оценочное суждение, которое может включать в себя:

  1. построение убедительных аргументов (отличать аргументы от утверждений);
  2. оценивание формы и качество доказательств;
  3. принятие обоснованных предикторов из теории;
  4. создание хорошей гипотезы;
  5. сравнение качества тестов, аргументов;
  6. выражение своего мнения о тексте.

Четкие инструкции и хорошо продуманные рубрики повышают доверие студентов. Путаница в требованиях может привести многих студентов к тому, что они начнут чувствовать, что такое оценивание является субъективным или предвзятым.

Поэтому еще одной проблемой взаимного оценивания является доверие учащихся к такому методу. Ведь во взаимной оценке один студент оценивает другого. Данная проблема находит свое отражение не только в эмпирических исследованиях о валидности данного метода, но и сами студенты выражают свое негативное мнение о взаимном оценивании студентами (Furman & Robinson, 2003).

  1. Достоинства и недостатки

Преимущества взаимных оценок в сравнении с другими методами (самоотчеты, наблюдения, интервью и другие) могут заключаться:

Недостатком же является высокий уровень субъективности и как следствие отсутствие уверенности в качестве оценивания. Также существует возможность неправильного понимания вопросов и критериев оценивания студентами (Topping, 2009).

Существуют факторы, негативно влияющие на показатель точности взаимного оценивания в онлайн-курсах.

Студенты не ориентируются в дисциплине, и не могут объективно оценить своего сверстника, что приводит к завышению или занижению оценок. Этот фактор также можно отнести к взаимному оцениванию в высшем традиционном образовании.

У студентов может отсутствовать опыт во взаимном оценивании. Существует предвзятость (дружба, национальность и т.д.), что может привести к созданию групп, где договариваются о повышении оценок друг другу.

С другой стороны, существуют теоретические и практические основания подозревать, что оценки сверстников столь же надежны и достоверны, как оценки преподавателя. Преподаватель может форсировать процесс из-за большого объема работ для проверки. Также надежность нескольких оценщиков более высокая, чем одного, предубеждения преподавателя, ожидаемые результаты и уровень знаний преподавателя иногда намного выше (Cho, Schunn &Wilson, 2006).

Таким образом, нами были проанализированы основные различия взаимного оценивания в онлайн-курсах и традиционном обучении. Также нами рассмотрены характеристики взаимного оценивания в онлайн-курсах. Эти характеристики позволили выделить негативные и позитивные стороны взаимного оценивания.

В нашей работе мы будем исследовать валидность взаимных оценок. Для этого далее нами будут рассмотрены особенности валидности и надежности взаимного оценивания в онлайн-курсах.

Глава 2   Валидность взаимного оценивания

2.1Оценка валидности в рамках КТТ

В данной главе мы рассмотрим эмпирические исследования, направленные на измерение валидности и надежности взаимного оценивания, как в высшем образовании, так и в онлайн-курсах в рамкахКТТ и IRT.

Понятие валидности теста, согласно А. Анастази, указывает на то, что тест измеряет и насколько хорошо он это делает. Мы же в своей работе понимаем валидность экспертного оценивания, как точность оценок студентов, которые они ставят друг другу. Надежность означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его проведении на одних и тех же испытуемых (Анастази, 1982). Мы под надежностью понимаем согласованность взаимных оценок студентов.

Кроме того, исследователи иногда путают понятия валидности и надежности. В то время, как валидность (точность оценки студентов), надежность (согласованность оценок студентов) (Topping, 1998). В рамках КТТ мы именно таким образом понимаем валидность и надежность взаимного оценивания.

Надежность и валидность взаимного оценивания были исследованы в первую очередь в контексте высшего образования (Cheng & Warren, 1999; Cho et. al., 2006; Falchikov & Goldfinch, 2000; Stefani, 1994; Zhang, Johnston, & Kilic, 2008).

Существуют три основных вида валидности:

  1. содержательная валидность;
  2. валидность, связанная с критерием;
  3. конструктная валиднсть (Cronbach & Meehl, 1995).

Конструктная валидность – это один из основных теоретических типов валидности, указывающий на степень отражения заявленного свойства в результате (Шмелев, 2013). Мы измеряли конвергентную валидность. О конвергентной валидности двух оценок мы говорили, когда баллы по двум видам заданий дают теоретически ожидаемую нами значимую статистическую связь (корреляцию). Также о конвергентной валидности можно говорить при получении статистической связи между баллами по двум видам заданий и баллами по тестам внутри курса, которые являются содержательно схожими по тематике с взаимным оцениванием.

Критериальная валидность понимается как обоснование корреляции между результатами теста и эмпирическим критерием (Шмелев, 2013).В нашем исследовании в качестве критерия выступал итоговый балл по курсу.

Надежность, как правило, рассчитывается как коэффициент корреляции между оценками, поставленными студентами и оценками, которые поставил профессор, предполагая, что профессор может обеспечить точную и объективную оценку работ студентов.

Рассмотрим валидность и надежность взаимного оценивания в традиционной системе образования. Выделяют три формы взаимной оценки в высшем образовании:

  1. взаимное назначение (например, выбор кандидата или выбор лучшей работы);
  2. взаимные отзывы о работе или проекте;
  3. взаимное оценивание (рейтингование работ).

По мнению авторов, выделивших три вида оценки, взаимное оценивание наиболее полезный из трех видов оценки, но его результаты являются наименее надежными и достоверными. Этот метод состоит из взаимной оценки, группы оценщиков и группы оцениваемых. Каждый член группы оценивает других членов, с указанием своих представлений о его поведении в соответствии с критериями. Касаемо реализации экспертного оценивания, по мнению, группы должны состоять минимум из 10 человек, и оценщики должны быть хорошо обучены тому, как использовать критерии для оценки (Kane & Lawler, 1978).

Надежность по данным, являющаяся медианой оценок студентов, составляет 0,45. Авторы говорят о том, что такой коэффициент является очень низким. При повторном исследовании они получили коэффициент надежности, который составил 0,80. Но считают, что высокая надежность повторного тестирования может быть смещена из-за выбросов. Гораздо важнее надежные и точные критерии для оценки и правильно обученные оценщики. Коэффициент валидности по данным авторов, который основан на медианном значении оценок экспертов и вычисляется из подмножества коэффициентов равен 0,35 (Kane & Lawler, 1978).

Но также существует противоположная точка зрения о том, что взаимное оценивание является валидным методом оценки студентов в высшем образовании, так как многие исследования показывают высокую корреляцию между оценками, поставленными студентами и профессорами. Например, был проведен мета-анализ 56 исследований, опубликованных между 1959 и 1999 годами, по измерению валидности взаимного оценивания и была обнаружена значимая корреляция между оценками студентов и преподавателей (r = 0,69) (Falchikov & Goldfinch, 2000).

Также было исследовано взаимное оценивание в контексте онлайн-обучения и среднего образования. Полученные коэффициенты валидности составляли r = 0,88-0,91 и r = 0,91-0,94 соответственно (Bouzidi & Jaillet, 2009; Sadler & Good, 2006). Тем не менее, также существуют исследования, которые противоречат этим данным (Cheng & Warren, 1999; Korman & Stubblefield, 1971; Mowl & Pain, 1995).

В отличии от большинства исследований надежности взаимного оценивая, исследования, посвященные измерению надежности через расчет корреляции между оценками экспертов (студентов), не так много. Отсутствие таких измерений ставит под сомнение предыдущие исследования, так как валидная оценка должна быть всегда надежной (Gay & Airasian, 2003).

На основании закономерностей ранжирования студентами работ друг друга, исследователи использовали различные метрики для расчета надежности взаимного оценивания. В том числе корреляцию Пирсона (Haaga, 1993), дисперсию (Marcoulides & Simkin, 1995) и внутригрупповую корреляцию (Choet.al., 2006; Miller, 2003). Статистические результаты показывают, что оценки студентов могут быть согласованными и надежными. Тем не менее, необходимо больше эмпирических исследований для обобщения данных о надежности взаимного оценивания.

Факторы, которые влияют на валидность и надежность взаимного оценивания также были рассмотрены в литературе (Falchikov & Goldfinch, 2000). Было показано, что количество студенческих оценок является ключевым фактором для установления надежности взаимного оценивания через согласованность. И было выявлено, что они могут быть улучшены, если увеличивается количество оценщиков (Cho et. al., 2006).

С другой стороны, такой фактор, как предметная область, уровень курса и студенческая мотивация, как было установлено, имеют ограниченное влияние на надежность и валидность взаимного оценивания (Falchikov & Goldfinch, 2000; McGarr & Clifford, 2013).

В целом, результаты исследований в своем большинстве подтверждают надежность взаимного оценивания в высшем образовании и определяют список факторов, которые могут повлиять на эти показатели.

Если рассматривать взаимное оценивание в онлйн-курсах, то существует высокая вероятность того, что этот метод оценки работает только для некоторых предметных областей, или для определенного задания. В идеале это должно быть экспериментально проверено до внедрения в какие-либо масштабные курсы (Kaplan & Bornet, 2014).

Нами был проведен теоретический анализ исследований о валидности, взаимного оценивания в онлайн-курсах в рамках КТТ. Исследования противоречат друг другу в своих результатах.

Многие педагоги и ученые поделились опытом с MOOCs о взаимном оценивании с точки зрения преподавателей и студентов (McEwen, 2013; Morrison, 2013; Neidlinger, 2013; Rees, 2013; Watters, 2012).

От них поступали неоднозначные мнения о взаимном оценивании в MOOCs. Например, один из исследователей описал опыт своего обучения Всемирной истории в MOOC. И он признался, что, как правило, получал высокие оценки за те работы, при написании которых он очень трудился (Rees, 2013).

С другой стороны, другой автор описал недовольство многих студентов, которые положительно относились к взаимному оцениваю в MOOC и не были квалифицировано оценены, поскольку их работы были оценены не по критериям, а исходя из субъективного мнения эксперта (Neidlinger, 2013).

В одном из исследований выборка составила 48 984 студентов, которые проходили курс картографии. Оно проводилось в Пенсильвании (Luo,et.al., 2013). Их них 8707 прошли курс до конца. Средний возраст выборки составил 36,5 лет. В качестве задания, которое оценивалось студентами, была разработка собственной карты, которая рассматривает историю по выбранной теме. Оценка выставлялась исходя из четырех критериев: ясность изложения, убедительность истории, качество картографии (например, цвет, символика. расположение организации) и эстетический дизайн. Каждый критерий оценивался по четырехбальной шкале от 0 до 3, сумма баллов по четырем критериям являлась итоговой оценкой (итоговая оценка в диапазоне от 0 до 12 баллов). Каждый студент оценивает по три работы, итоговый балл формируется как среднее арифметическое из оценок всех экспертов (Coursera, 2014).

Исследовательские вопросы, которые возникли перед авторами, были связаны с тем, насколько валидна и надежна оценка студентов. Что лучше использовать для объективного итогового балла, медиану или средний арифметический балл среди оценок экспертов. И каково предполагаемое воздействие взаимного оценивая на опыт обучения студентов.

Для ответа на исследовательские вопросы анализ данных был сосредоточен на трех аспектах: расчет согласованности оценок экспертов, расчет и сравнение конвергентной валидности взаимного оценивания на основе медианы и среднего значения, рассмотрение эффектов взаимного оценивания на опыт обучения студентов.

Была оценена согласованность между оценками пяти экспертов. Значение коэффициента корреляции составило 0,26, что является низким показателем. Что говорит о большом различии между оценками экспертов и о низкой надежности. По сравнению с медианным измерением, средний показатель составил 0,64. И является более высоким, что свидетельствует о повышении надежности, если средний балл пяти отдельных экспертов используется в качестве индекса измерения.

Другой автор предположил, что коэффициент корреляции между 0,40 и 0,69 следует рассматривать, как удовлетворительный (Reidy, 2002). Было выявлено, что для удовлетворительного коэффициента надежности (коэффициент корреляции> 0,40) необходимо, чтобы работы оценивали не менее трех экспертов.

Также был получен высокий коэффициент корреляции между медианой оценками студентов и оценкой преподавателя (г = 0,62). Коэффициент незначительно увеличивается, если брать среднее значение оценок студентов (г = 0,66). Два типа оценивания (медиана и среднее значение) коррелируют между собой и показывают высокий коэффициент (r = 0,95).

С помощью анкетирования было выявлено, что 63% студентов считают, что их оценили объективно и 70% в целом указали на то, что рекомендовали бы экспертное оценивания для включения в другие курсы.

Результаты этого исследования показывают, что на самом деле использование средних показателей дают больший коэффициент надежности взаимного оценивания, чем медианное значение. Выводы, которые были сделаны авторами после проведения данного исследования:

  1. Взаимное оценивание не должно быть заменено самооцениванием, так как результаты экспертной оценки более валидны, чем результаты самооценивания.
  2. Желательно, чтобы системаCoursera не учитывала непроверенные работы, поскольку это может обеспечить более достоверные результаты взаимной оценки и уменьшить влияние выбросов на балл. Тем не менее, когда количество выбросов не велико, среднее значение оценок экспертов является лучшей альтернативой.
  3. На одну работу должно быть присвоено достаточное количество оценщиков. Хорошие эмпирические данные могут быть получены, если одну работу проверяют от 3 до 5 экспертов.
  4. В целях повышения надежности взаимного оценивания, вMOOC должно быть надлежащие обучение оценке работ сокурсников. Обучение по использованию критериев для оценки. Так как именно нарушение правил использования критериев приводит к самым большим погрешностям.

Другие авторы показали, что надежность оценок сверстников имеет более высокий коэффициент, чем самооценивание (Furnham & Stringfield, 1994). В своих исследованиях (Lennon, 1995) получил коэффициент корреляции между взаимным оцениванием и самооцениванием равный 0,64. Тем не менее, коэффициент корреляции между оценкой профессора и самооценкой является низким и равен 0,21, а между оцениванием профессора и взаимным оцениванием коэффициент равен 0,55. Что говорить о взаимном оценивании, как о более точном методе оценки в сравнении с самооцениванием.

Некоторыми авторами были получены высокие корреляции между оценками студентов и оценками профессоров за выполнение одного задания, также высокие корреляции, устанавливающие согласованность взаимных оценок между собой, что является аргументом в пользу валидности данного вида оценивания (Kaplan &Bornet, 2014). И как следствие подтверждения его эффективного применения.

В исследовании (Kaplan &Bornet, 2014) на выборке студентов были получены значимые корреляционные связи между оценками студентов и оценкой профессора (r = 0,39, p <.01). Очень важно, что студентам было сказано о том, что оценка, которую они получили за данный вид работы, будет вносить десятипроцентный вклад в итоговый балл. Что могло повысить уровень мотивации. Также была получена отрицательная корреляция между оценками, которые студенты выставляли и которые они получали (r = –0,26, p = 0,07). Авторы предположили, что это связано с тем, что студенты, которые получали высокие баллы от сверстников, более критично оценивали роботы других студентов. В целом исследование направлено на попытку подтверждения эффективности и точности взаимного оценивания в гуманитарных курсах.

После проведения исследования (Freeman &Parks, 2010), направленного на установление точности взаимных оценок, авторами были установлено, что при проведении пяти экзаменов, студенты в оценивании, были более снисходительными, чем профессора. Корреляция по всем полученным баллам между оценками студентов и оценками профессоров была высокой (r=0,61). Авторы акцентировали внимание на том, что эффективность применения экспертных оценок субъективный вопрос и требует индивидуального подхода в зависимости от дизайна исследования. В случае данного исследования взаимное оценивание является эффективным и точным способом оценки.

Несмотря на то, что результаты нескольких исследований указывают на хорошую корреляцию взаимной оценки с оценками профессоров в обычных аудиториях (Bouzidi & Jaillet, 2009), существуют сомнения относительно их точности в целом. В частности, студенты не доверяют результатам взаимной оценки. Данная проблема обсуждается студентами в дискуссионных форумах (Furman & Robinson, 2003).

Другими же авторами, в сравнении с исследованиями, представленными выше, были получены результаты с низкими показателями коэффициента корреляции между оценками студентов и профессоров, а также низкий показатель между взаимными оценками и итоговым баллом за экзамен (Admiraal,Huisman &vandeVen, 2014).

В исследовании (Admiraal,Huisman &vandeVen, 2014) авторами также были получены противоположные результаты. Исследование было направлено на изучение качества и точности самооценки и взаимной оценки в трех различных онлайн-курсах. Точность самооценивания и взаимного оценивания были на низком или среднем уровне. Эти оценки показали однородную структуру, но корреляции между взаимными оценками в одних и тех же заданиях были низкими или средними. Это говорит о том, что высокий уровень согласованности был достигнут только в ограниченной степени.

Корреляции между самооценкой и взаимной оценкой были низкими. Корреляции между самооценками в разных заданиях выше, чем корреляции между самооценкой и взаимной оценкой в одних и тех же заданиях. Коэффициенты корреляции между взаимным оцениванием и итоговым баллом за экзамен были получены низкие (r =0,41 (p <0,001); r =0,26 (p<0,001); r =0,30 (p<0,001)). Невысокий коэффициент корреляции также был получен между взаимными оценками студентов (r=0,43).

Исследование (Gielen &Wever, 2012) было направлено на изучение обратной связи, как способа повысить обучаемость. Значимых различий не было выявлено (F (1, 175) = 0,005, p = 0,945.). То есть данные по пре-тесту и пост-тесту значительно не отличались. Это говорит о том, что наличие взаимного оценивания при обучении не повышает значимо его эффективность.

Данные о валидности взаимного оценивания в рамках ККТ очень противоречивы. Также имеется ограниченное количество информации о методах валидности таких оценок и о способах повышения и улучшения точности и надежности взаимного оценивания. В связи с этим мы осуществили теоретический анализ эмпирических исследований о валиности и надёжности в рамкахIRT.

2.2Оценка валидности в рамкахIRТ

В литературе были высказаны опасения по поводу обоснованности выставления экспертных оценок за эссе, самой процедуры выставления оценки, включая обучение (Charney, 1984; Gere, 1980; Barritt, Stock & Clarke, 1986; Huot, 1990). Было высказано мнение, что сосредоточение на получении согласованных оценок, может способствовать тому, что эксперты начнут игнорировать свой собственный опыт и знания в оценивании письменных заданий, которые рассматриваются в качестве основных компонентов процесса интерактивного чтения (Barritt, Stock & Clarke, 1986).

С другой стороны, процедура оценивания эссе баллами предположительно основана на том, что эссе измеряет определенную способность, которая может быть точно определена и существует возможность выявить могут ли эксперты между собой договориться, касаемо определения данной способности. С этой точки зрения очень важно, чтобы эксперты отложили свой субъективный опыт, для того, чтобы принять критерии для проведения оценки. Таким образом, в литературе существуют две разносторонние точки зрения о необходимости и дальнейшем функционале экспертов, которые оценивают письменные задания.

Даже при условии того, что эксперт специализируется в оцениваемой области и способен ставить равноценные объективные оценки, вопросы к интерпретации шкалы оценивания будут все равно существовать, так как шкала не может быть линейной и балл «2» в одной задаче не может быть равноценным баллу «2» в другой задачи и т.п. Это является одной из важных проблем измерения валидности и надежности заданий на взаимное оценивание. ВIRT шкала являтисяметрической, нет фиксированного начала. А сумма трудностей все заданий равна нулю. Это позволит более точно измерить валидность оценок и выявить искажения экспертного оценивания.

В литературе о измерениях, исследования экспертной оценки в основном направлены на анализ ее надежности. Linacre (1989) отмечает, что стремление получить истинный балл в результате оценивания экспертами, является предпосылкой проблемы вариаций оценок экспертов и вариации нежелательной дисперсии ошибок, которые должны быть уменьшены, насколько это возможно.

Была предложена многофасетная модель Раша, разработанная Linacre, которая демонстрирует другой подход к феномену экспертного оценивания. При таком подходе вариация экспертных оценок рассматривается как неизбежная часть процесса оценивания, и вместо того, чтобы быть препятствием для измерения, считается преимуществом, поскольку она обеспечивает достаточную изменчивость, чтобы позволить выявить вероятностную оценку строгости экспертов, трудности заданий, и уровень способностей студентов на линейной шкале.

Сторонники подхода Раша к измерению утверждают, что важно дать экспертам понимание рейтинговой шкалы, с помощью которой они будут оценивать студентов (Lunz, Wright, & Linacre, 1990). На самом деле, использование модели Раша устраняет необходимость приведения оценок экспертов к согласованности, поскольку оценки способностей испытуемых не зависят от строгости конкретного эксперта. Но тем не менее рекомендуется переподготовка для экспертов, которые идентифицируются, как склонные к искажению оценки в анализе с помощью модели Раша (Lunz, Wright & Linacre, 1990; Stahl & Lunz, 1991). Смысл состоит в том, чтобы не только оценки экспертов между собой были согласованными (межэкспертная согласованность), но согласованность должна быть и между оценками одного эксперта, что не менее важно.

Внутренняя согласованность считается наиболее важной для получения объективных оценок экспертов, а также различия между строгостью экспертов компенсируются математически, глубокое понимание предполагаемых критериев для оценки больше не может быть центральным аспектом для экспертов. (Stock &Robinson, 1987).

Эксперты могут научиться интерпретировать критерии для оценки своеобразными способами, которые могут быть последовательными и логичными, но никакого отношения не иметь к конструкту измеряемой способности, определяемой с помощью письменного задания.

Несмотря на дискуссии в литературе о функциях обучения экспертов, мало известно, что происходит на самом деле во время обучения и как оно влияет на самих экспертов. Обучение, может способствовать тому, что эксперт будет более или менее строг в своих решениях, как это было предположено (Freedman, 1981) или строгость экспертов стабильная характеристика, которая отличает экспертов друг от друга (Lunz,et.al.,1991).

Были проведены различные исследования, направленные на подтверждение достоверности взаимного оценивания в рамках IRT.

Falchikov (1986) высказывал мнение о том, что взаимное оценивание среди детей младшего школьного возраста не является настолько надежным, как среди студентов. Arnold изучал взаимное оценивание по курсу в медицинской школе и выявил надёжность и объективность оценок.

Orpen (1982) изучал оценки студентов в сравнении с оценками профессоров. Он не только не обнаружил никаких существенных различий между оценками при сравнении среднего, но и выявил, что оценка нескольких студентов более надежна, чем оценка одного профессора. Хотя приведенные выше исследования говорят о том, что взаимное оценивание является надежным методом, по крайней мере в высшем образовании, не было исследований, направленных на повышение надежности данной оценки. Кроме того, остаются те же проблемы, связанные с пониманием экспертами критериев.  Также неясно воздействие на оценку отсутствующих данных.

Для решения таких проблем применяется современная теория тестирования. В исследовании Maomi Ueno и Toshio Okamoto (2008) описаны преимущества использования IRT, с целью решения проблем взаимного оценивания. Преимущества заключаются в том, что модель включает в себя параметр критерия для оценки, согласованность оценок обеспечивается на общей шкале даже при условии различных критериев, параметры модели могут производить оценку из неполных данных, а также недостающие данные могут быть оценены. Данные преимущества позволяют оценить результаты с более высокой надежностью и точностью. Это исследование показало, что применение IRT к данным способствует получению более надежных значений оценки и имеет большую прогностическую силу и эффективность, чем оценка эксперта или среднее арифметическое оценок.

Если говорить о многофасетной модели, то также существуют исследования с ее применение для изучения взаимного оценивания.

Например, исследование (Wright &Masters, 1982) направлено на анализ экспертных оценок, которые осуществляются экспертами с опытом и без опыта до и после их подготовки. Анализ проведен был с помощью программы FACETS (Linacre & Wright, 1993, 1994).

Исследование проводилось в Университете Калифорнии. Задания для оценки состояло из написания эссе на английском языке с двумя задачами. Время написания составляло 50 минут. Первая задача состояла в том, что студенты должны были интерпретировать график и дать прогноз на основе полученной информации. Вторая задача состояла в том, что студентам необходимо было аргументировано проанализировать информацию, содержащуюся на графике.

Эссе оцениваются с помощью рейтинговой шкалы, которая состоит из трех субшкал (Содержание, риторика, язык). Каждая субшкала разделена на пять критериев с дескрипторами для каждой. Общая оценка получается с помощью суммирования баллов по трем шкалам. Каждое эссе читается двумя экспертами, и их оценки усредняются. В случае экстремальных различий оценки (пять или более баллов), эссе дается третьему эксперту, и две оценки, которые являются самыми близкими друг к другу, используются для выставления итогового балла.

 Данное исследование позволило ответить на такие исследовательские вопросы: в какой степени обучение экспертов влияет на их объективность? 2) в какой степени обучение экспертов влияет на схожесть их оценок между собой? 3) в какой степени обучение экспертов влияет на последовательность суждений экспертов? 4) в какой степени опытные и неопытные эксперты отличаются по степени их объективности и последовательности до и после обучения?

В исследовании приняли участие 16 экспертов. Из них 8 имели опыт в оценивании, и 8 человек без опыта оценивания. Все эксперты женщины, носители английского языка. Эксперты без опыта оценивания занимались преподаванием от 0 до 10 лет.

Опытные эксперты хорошо знакомы с подобным видом оценивания и до этого уже использовали подобную шкалу. Опыт обучения студентов у данных экспертов составлял от 2 до 10 лет. Опыт использования данной шкалы составляет 2 года.

Результаты этого исследования в целом говорят о том, что обучение может способствовать более высокой согласованности оценок самого эксперта. Эта согласованность предположительно сделает измерение студентов более точным, так как прогнозируемые изменения степени строгости среди экспертов могут быть смоделированы и математически скорректированы.

Многофасетная модель также используется и в психологических исследованиях. Так, например, (Blankenship,et.al., 2006) использовали модель Раша для разработки новых картинок, применяемых в тематическом апперцептивном тесте. Был проведен ряд экспериментов. В первых двух авторы проанализировали истории, для оценки уровня сложности в целом для восьми картинок и использовали многофасетную модель Раша. В качестве фасетов были использованы: сложность картинок, сложность историй и уровень способностей испытуемых. Была применена РСМ (partial credit model) (FACETS; Linacre, 2005).

В общей сложности шесть картинок были оставлены и четыре новые добавлены для эксперимента номер три при участии 201 испытуемого, которые написали шесть историй по шести картинкам рандомно выбранным из десяти. В четвертом эксперименте 206 испытуемых написали одну историю либо до или после заполнения батареи тестов на выявление способностей. Эти две экспериментальные группы не отличались по их особенностям, связанным со склонностью к достижениям.  Таким образом была доказана эффективность применения пересмотренной системы кодера и, добавленных картинок.

Существуют подходы для решения проблемы валидности взаимного оценивания в онлайн-курсах. Данная проблема связана с точностью взаимного оценивания. Движущей силой первого подхода является педагогические принципы социального обучения (cMOOC), калиброванные взаимное оценивание (CPRTM), метод коррекции Байеса и индекс доверия (Furman & Robinson, 2003).

Один из подходов – CPRTM - определяет точность экспертной оценки, как наибольшее соответствие с оценкой преподавателя.Мы будем исследовать конструктивную валидность, а именно конвергентную. В нашей работе мы будем изучать корреляцию баллов, проставленных экспертами, с баллами по тестам и заданиям с подготовленными ответами. Оценку, полученную за тест, можно приравнивать к оценке профессора Она является итоговой и считается объективной. Так как система оценки атовматизирована и на каждый вопрос существует один правильный ответ.

Следующий подход определяет точность, как наибольшее соответствие со средним или медианным баллом сверстников в одномерном или многомерном пространстве и называется Байесовским подходом (Piech,etal., 2013).

Последний подход усовершенствует подходCPRTM и называется СI (сredibility index). В данном методе учитывается, помимо неточности оценок сверстников, также согласованность оценок и точность между заданием и контекстом. Этот подход пытается собрать необходимую дополнительную информацию (Suen,et.al., 2014). Теоретически этот подход должен повысить точность результатов оценки студентов (Xiong et. al., 2014).

Решением может стать использование среднего значения оценок сотен тысяч студентов в качестве «истинного балла», это может повысить уровень доверия к экспертному оцениванию (Piech, 2013).

Одним из источников неопределенности в оценке результатов взаимного оценивания является проблема определения, что является истинным баллом. Большинство исследований, которые пытаются оценить экспертов (в нашем случае студентов) используют оценки профессора в качестве абсолютного стандарта. Качество оценивания студентами друг друга устанавливается в соответствии с тем, как их оценки соответствуют баллам преподавателей.

Есть шесть типов расхождений в ситуации оценки своих сокурсников. Она включают в себя:

  1. несоответствие между оценкой учащихся и оценкой преподавателя в одной и той же работе (при оценке одного и того же задания получают низкую и незначимую корреляционную связь между оценкой профессора, и студента);
  2. случайные ситуативные колебания оценок в одной работе в разных условиях (проверка оного задания в разных условиях, которые могут воздействовать на личность проверяющего и оценивающего);
  3. несоответствие оценок, учитывая другие аналогичные работы с подобным качеством, но могут отличаться в содержании или стиле;
  4. случайные расхождения между разными экспертами по одной и той же части работы, при условии использования одного набора критериев для оценки;
  5. систематическое расхождение между различными экспертами в одной части работы из-за различий в компетенции экспертов или смягчения, или ужесточения оценок экспертами;
  6. случайные ситуативные колебания оценок в той же части работы делается преподавателям в различных условиях.

Также тщательно выстроенная рубрика может помочь уменьшить некоторые из перечисленных выше ошибок.

Подход CPRTM предназначен для минимизации первой и шестой ошибок в целом. Байесовский подход позволяет минимизировать четвертую ошибку. Подход CI (сredibility index) предназначен для минимизации первой ошибки, второй, третьей и шестой, но требует гораздо больше информации об экспертах. Ни один метод не был разработан, чтобы свести пятую ошибку к минимуму.

Теоретически эти подходы возможно объединить в один наиболее эффективный комплексный подход.

Следует отметить, что при условии являются ли результаты экспертной оценки точными или нет, такой метод оценивания является ценным в качестве учебного инструмента.

Топпинг (2005) действительно говорит о том, что взаимная оценка является частью большой категории взаимного обучения. Точные результаты взаимного оценивания будут способствовать повышению опыта в обучении, а также будут служить методом оценки. Кроме того, если добиться точности результатов взаимного оценивания, этот метод может быть использован не только для формирующего оценивания, но и для других целей.

Одним из потенциальных способов использования взаимной оценки может быть активное участие экспертов (студентов), с высоким рейтингом на дискуссионных форумах, чьи оценки близки к оценкам преподавателей. Еще один потенциальный способ использования взаимного оценивания может состоять в том, чтобы качество работы экспертов имело влияние на итоговый балл и окончательную аттестацию по курсу.

В связи с неоднозначными результатами и мнениями авторов, а также отсутствием исследований в России, на наш взгляд является целесообразным провести свое исследование, направленное на измерение валидности и выявление искажений в заданиях на взаимное оценивание, применяемых на платформеCoursera.

Глава 3 Эмпирическое исследование валидности взаимного оценивания в MOOCs

3.1 Методология исследования

3.1.1 Выборка исследования

Выборка по данным Центра внутреннего мониторинга составила 1308 испытуемых, слушатели курса «Философия культуры», из которых 66% женщин и 34% мужчины. Такое количество студентов записались на курс. Их возраст от 15 до 50 лет (М=30 лет) Большинство студентов – 46% имеют высшее профессиональное образование (бакалавр/специалист). Большая часть (67%) родились и проживают в России.

Нас интересовали студенты, завершившие курс полностью. Также те, кто участвовали во взаимном оценивании и получили баллы минимум от трех экспертов. Таким образом, выборка составила 188 человек.

Данные с взаимными оценками, оценками за тесты и итоговым баллом по курсу «Философия культуры» на платформеCoursera, нами были получены из итогового отчета по опросу студентов, проводимого Центром внутреннего мониторинга. 

3.1.2 Структура курса

Нами были получены данные задания на взаимное оценивание по курсу «Философия культуры». Для анализа в рамках ККТ нами были проанализированы два задания на взаимное оценивание. В рамкахIRT мы анализировали одно задание. В качестве задания необходимо было написать открытый ответ, на заданную тему (эссе). У каждого студента, которого мы брали в анализ, было как минимум три эксперта, которые оценивали, выполненное им задание. Каждый из трех экспертов проставлял оценку, максимальный балл которой составлял 12 баллов.

Задание на взаимное оценивание звучало таким образом: «Выберите конкретный эпизод из истории (можно тот, который разбирал лектор) и сформулируйте характерные примеры для конфликтов «природа против культуры», «природа против духа», «культура против духа». По желанию, можно изобразить их на общей схеме (круги Эйлера)». Также были предоставлены примеры схем для выполнения задания.

Для оценки данного задания были предоставлены четыре критерия с разбалловкой:

  1. Какие элементы присутствуют на схеме? Список элементов, наличие которых оценивается: заголовок схемы, два примера категорий, их конфликт

3 балла — есть заголовок, два примера из разных категорий, их конфликт;

2 балла – есть три элемента из четырех;

1 балл — есть два элемента из четырех;

0 баллов — есть только один элемент.

  1. Верно ли выбраны иллюстративные примеры для обеих категорий из трёх возможных конфликтов (Природа vs. Культура, Культура vs. Дух, Природа vs. Дух)? Ясно ли они сформулированы?

0 баллов — нет, примеры для обеих категорий подобраны неверно, что делает всю схему недействительной; 0 баллов — нет, в обоих приведенных примерах отсутствует конкретика.

1 балл — один из примеров соответствует указанной категории, тем не менее, вся схема становится неверной из-за ошибочной формулировки второй категории; 1 балл — оба примера приведены верно, но без указания конкретной даты или исторического промежутка, хотя это возможно обозначить, обращаясь к общедоступным источникам; 1 балл — один из примеров приведен с указанием даты или временного промежутка, однако выбранное событие хронологически и идейно шире; оба примера при этом подобраны верно; 1 балл — примеры подобраны с точностью наоборот, но это не мешает увидеть в данной схеме конфликт .

2 балла — примеры к обеим категориям подобраны верно, но обе стороны не вступают в конфликт; 2 балла — один из примеров приведен с указанием даты или временного промежутка, но выбранное событие хронологически и идейно шире. Пример при этом верен; 2 балла — один из примеров приведен верно, но без указания конкретной даты или исторического промежутка, хотя это возможно обозначить, обращаясь к общедоступным источникам;

3 балла — примеры для обеих категорий подобраны верно, соответствующая дата или временной промежуток указаны там, где это необходимо.

  1. Конфликт (следует понимать широко — как результат взаимодействия между двумя категориями, необязательно негативного):

0 баллов — в формулировке конфликта отсутствует конкретика, предложения длинные и запутанные или, наоборот, неоправданно короткие и невнятные, из-за чего невозможно оценить соответствие примера заданию (другими словами, мысль автора непонятна).

1 балл — конфликт приведен с указанием даты или временного промежутка, но выбранное событие хронологически и идейно шире, конфликт при этом подобран верно; 1 балл — то, что сформулировано как конфликт, невозможно логически вывести из взаимодействия указанных автором двух примеров категорий; несоответствие выбранной формулировки понятию о конфликте.

2 балла — конфликт указан верно, но приведен без указания конкретной даты или исторического промежутка, хотя это возможно обозначить, обращаясь к общедоступным источникам;

3 балла — конфликт указан и сформулирован верно и понятно (концептуально и хронологически); логически выводится из взаимодействия указанных автором двух примеров категорий.

4) Заголовок: демонстрирует ли он общее понимание схемы, выстроенной автором?

0 баллов — в формулировке отсутствует конкретика, предложения длинные и запутанные или, наоборот, неоправданно короткие и невнятные, из-за чего невозможно оценить соответствие примера заданию (другими словами, мысль автора непонятна).

1 балл — заголовок сформулирован слишком конкретно и узко, тогда как он предполагает демонстрацию широты исторического контекста, соответствующего сюжету схемы, на которой разворачивается взаимодействие категорий.

2 балла — заголовок сформулирован верно, но приведен с указанием даты или временного промежутка, тогда как сюжет схемы хронологически и идейно шире; 2 балла — заголовок сформулирован верно, но без указания конкретной даты или исторического промежутка, хотя это возможно обозначить, обращаясь к общедоступным источникам.

3 балла — заголовок соответствует сюжету схемы и дает достаточный контекст.

Каждый критерий мог быть оценен максимально в три балла.

Второе задание на взаимное оценивание, которое мы использовали при анализе с помощью ККТ, было отличным от первого. Его целью являлось дать слушателям возможность ознакомиться с первоисточниками - произведениями мыслителей, о концепциях которых студенты узнали из лекций. Оно включало в себя 10 фрагментов из текстов 6 авторов. К каждому фрагменту был дан ряд утверждений, и было необходимо, исходя из прочитанного, решить, является ли каждое из них правильным или неправильным. Всего было дано 45 утверждений. Максимальный балл также составлял 12 баллов:

41-45 правильных ответов – 12 баллов; 38-40 правильных ответов – 11 баллов; 34-37 правильных ответов – 10 баллов; 30-33 правильных ответов – 9 баллов; 26-29 правильных ответов – 8 баллов; 23-25 правильных ответов – 7 баллов; 20-22 правильных ответов - 6 баллов; 17-19 правильных ответов - 5 баллов; 13-16 правильных ответов - 4 балла; 10-12 правильных ответов - 3 балла; 5-9 правильных ответов - 2 балла; 1-4 правильных ответов - 1 балл; 0 правильных ответов - 0 баллов.

Также курс «Философия культуры» включает в себя 5 тестов, с множественным выбором.

Подводя итог можно сказать, что в курсе было два задания на взаимное оценивание. В первом задании предоставлено 4 рубрики для оценки студентов, которые имеют свою разбалловку. В первом задании присутствуют примеры для облегчения оценивания, на которые можно ссылаться также и при выполнении задания. Второе задание имеет один критерий и также разбалловку по этому критерию.

Расчет итогового балла производится по формуле:

Итоговая оценка = средний балл за тесты и взаимное оцениваемые задания (за 7 недель) * 0.5 + балл за итоговый тест * 0.4 + активное участие на форуме * 0.1

По формуле мы можем сказать о том, что задания на взаимное оценивание в данном курсе вносят большой вклад в итоговую оценку, а именно составляют половину от итогового балла. Это говорит о важности исследования объективности данного оценивания.

3.1.3 Описание формул и расчетов для ККТ

Настоящее исследование, направлено на измерение валидности и надежности взаимного оценивания в онлайн-курсах в рамках ККТ иIRT.

Для анализа эмпирических данных, а именно измерения валидности и надежности взаимного оценивания первым этапом была использована Классическая теория тестирования. Данное исследование являлось количественным, конкретнее корреляционным.

Для исследования надежности мы измеряли согласованность трех оценок студентов с помощьюкоэффициента конкордации, который рассчитывается по формуле:

, где

 S - сумма квадратов отклонений всех оценок рангов каждого объекта экспертизы от среднего значения;

 n - число экспертов;

 m - число объектов экспертизы.

Для измерения валидности мы используем коэффициент корреляции Пирсона. Формула линейной корреляции:

, где

,  - выборочные средние.

Для исследования конструктной валидности нами были посчитаны такие коэффициенты корреляции.

Конвергентная валидность направлена на проверку, измеряющую один и тот же конструкт. Между методами должны быть высокие корреляции. В нашем случае это тесты с множественным выбором и взаимные оценки. Дивергентная валидность проверяет меру, в которой один и тот же метод, измеряющий разные конструкты, показывает низкие корреляции.

Также мы можемоценить влияние самого метода на тестовые баллы, так как имеем итоговый балл по курсу. Для исследования критериальной валидности мы считали коэффициенты корреляции:

  1. между оценками каждого эксперта с итоговой оценкой за курс;
  2. между средней оценкой по экспертам (студентам) с итоговой оценкой за курс.

Критериальная валидность понимается, как обоснование корреляции между результатами теста и эмпирическим критериям.В нашем исследовании в качестве критерия будет выступать итоговый балл по курсу.Критериальная валидность работает хорошо в случае доступности правдоподобного критерия. В нашем случае это прохождение курса«Философия культуры» и наличие итогового балла.

Также нами были посчитаны коэффициенты корреляции по четырем критериям для оценки первого задания на взаимное оценивание для определения их надежности.

3.1.4Описание формул и расчетов для ККТ

Для анализа валиндости и выявления искажений в рамках IRT, нами была использована программаFACETS и многофаесетная модель Раша.

В модели Раша высокая сложность вопроса является свидетельством низкой вероятности верного ответа на этот вопрос или в случае опросника, низкая вероятность согласия с его пунктами. Тем не мене это хорошая предпосылка для увеличения надежности теста за счет увеличения вопросов (Nunnally & Bernstein, 1994).

Компьютерная программа FACETS работает с многогранной моделью Раша (Linacre, 2005). Параметр для каждого участника и каждого вопроса по завершению оценивается с помощью логистической регрессии, по средствам итеративного процесса. Цель процесса заключается в выявлении испытуемых от самого высокого уровня способностей до самого низкого, с заданиями или вопросами соответственно также.

В нашем случае мы использовали трехфасетную модель Раша. Каждое наблюдение в данной модели составляет представление о взаимодействии между элементами (студент, критерий, эксперт). Эти элементы являются независимыми друг от друга и объединены латентной переменной.  Отношения между переменными не являются линейными.

Модель Раша для дихотомических данных с испытуемыми и заданиями выглядит таким образом:

, где Pni - вероятность того, что испытуемый n успешно выполнит задание i, испытуемый n имеет показатель способности Bn и задание показатель трудности Di.

Методология модели Раша говорит о том, что латентная переменная является истинной, и когда она выражается в линейном виде достаточно модели Раша, чтобы ее построить.

Следовательно, данные которые не согласуются с моделью дают искаженное представление о латентной переменной. Они могут говорить о важных моментах, например, что студенты были не мотивированы, или был использован не верный ключ для подсчета данных - но это не имеет отношения к главной переменной.

Уравнение многофасетной модели Раша, используемая нами в исследовании выглядит так:

Математические свойства модели сохраняются, но добавляется один (или более) дополнительных компонентов. В этом примере - Cj является показателем строгости или снисходительности в оценивании экспертами - j, которые присуждают рейтинги k испытуемому n - по заданию i.

3.2Эмпирическое исследование в КТТ

Нами было проведено эмпирическое исследование, направленное на измерение валидности и надежности взаимного оценивания в онлайн-курсах в рамках ККТ.

Из таблицы 1 мы можем увидеть, что с каждым этапом прохождения онлайн-курса «Философия культуры» количество студентов уменьшается. Количество студентов, которые принимали участие во взаимном оценивании, составляет 18% от общего числа студентов, записавшихся на курс.

Количество участников, которые были зарегистрированы на курс, составляет 1308 человек, хотя значительно меньшее количество человек прошли курс до конца и участвовали во взаимном оценивании.

В таблице 1 нами представлены описательные статистики методов оценивания в курсе «Философия культуры»: средние баллы, стандартное отклонение, минимальные и максимальные баллы.

Средние показатели по каждому тесту близки к максимальному баллу, что говорит о том, что испытуемые в большинстве хорошо справляются с заданиями, как с множественным выбором, так и с заданиями на взаимное оценивание.

Таблица 1

Описательная статистика методов оценивания в онлайн-курсе

N = 1308

M (s.d)

Max

Min

n

Тесты

1

8,95(1,12)

10

3

773

2

9,10(1,19)

10

4

511

3

9,08(1,18)

10

4

303

4

8,95(1,26)

10

5

219

5

8,81(1,24)

10

6

68

6

17,87(2,10)

20

10

227

Взаимное оценивание

1

2

10,43(2,26)

11,70(1,01)

12

12

1

4

240

187

В таблице 2 представлен коэффициент корреляции между двумя заданиями на взаимное оценивание. Он составляет 0,25 (при р <0,001). Этот коэффициент является значимым, но не высоким показателем. Задания направлены на измерения в разных тематических областях. Это говорит о том, что коэффициент корреляции должен быть низким.

Таблица 2

Корреляция между заданиями на взаимное оценивание в онлайн-курсе

Задание 2

Задание 1

0,25**

*– р≤0,05, **– р≤0,01

В таблице 3 представлены коэффициенты корреляции первого задания на взаимное оценивание и тестов с множественным выбором.

Таблица 3

Корреляции между заданиями на взаимное оценивание и тестами с множественным выбором в онлайн-курсах

Тест 1

Тест 2

Тест 3

Тест 4

Тест 5

Тест 6

Задание 1

0,57**

0,04

0,26

0,18

0,02

0,01

Задание 2

0,45**

0,01

0,05

0,18

0,14

0,16

*– р≤0,05, **– р≤0,01

Коэффициенты корреляции между тестами 2, 3, 4, 5 и 6 и заданиями на взаимное оценивание являются незначимыми и низкими. Тесты и задания на взаимное оценивание содержательно разные. Коэффициенты не должны быть значимыми, потому что задания направлены на измерение знаний в разных областях и темах по философии культуры.

Но нами были получены значимые коэффициенты корреляции между первым тестом и двумя заданиями на взаимное оценивание – 0,57 и 0,45 соответственно. Коэффициенты значимые, но не высокие.

Тематика первого теста и второго задания на взаимное оценивание является схожей между собой. Рассматриваются похожие конструкты, термины и понятия.

Темой первого теста является «От Античности к Средним векам», в котором есть вопросы, связанные с природой, культурой, духом и конфликтами между этими явлениями в философии. В данном случае можно говорить о конвергентной валидности, так как содержательно первое задание на взаимное оценивание направлено на измерения знаний о тех же конструктах, что и первый тест.

Мы проанализировали коэффициенты корреляции между тестами с множественным выбором. Данные представлены в таблице 4.

Таблица 4

Корреляции между тестами с множественным выбором в онлайн-курсе

Тест 1

Тест 2

Тест 3

Тест 4

Тест 5

Тест 6

Тест 1

0,89**

0,17

0,13

0,14

0,36

Тест 2

0,27

0,13

0,29

0,66**

Тест 3

0,57**

0,73**

0,57**

Тест 4

0,37

0,16

Тест 5

0,28

*– р≤0,05, **– р≤0,01

Как мы видим из таблицы 4 первый и второй тесты хорошо согласуются между собой. Это может говорить о том, что тесты похожи по своему построению и структуре. Так как с увеличением баллов в первом тесте, во втором они тоже растут. Оба теста тематически связаны с историей развития философии культуры в мире. Также второй тест высоко коррелирует с шестым, а третий с четвертым, пятым и шестым.

Таблица 5

Корреляция между заданиями на взаимное оценивание и итоговым баллом в онлайн-курсе

Итоговый балл

Задание 1

0,73**

Задание 2

0,98**

*– р≤0,05, **– р≤0,01

В таблице 5 представлен коэффициент корреляции итогового балла с первым заданием на взаимное оценивание. Он составляет 0,73, является значимым и высоким.  Также в таблице 5 представлен коэффициент корреляции итогового балла со вторым заданием на взаимное оценивание. Он составляет 0,98. Он также является значимым и высоким.

Это говорит о том, что взаимное оценивание вносит большой вклад в итоговый балл и имеет большую прогностическую силу. Также в данном случае можно говорить о критериальной валидности взаимного оценивания в курсе «Философия культуры». В качестве критерия выступает итоговый балл по курсу.

Нами была исследована надежность экспертного оценивания в курсе «Философия культуры» в рамках ККТ. Каждого студента оценивали три эксперта.Нами было получено значение коэффициента конкордации W = 0,84, а уровень значимости p=0,000.

Таким образом, мы можем сделать вывод о том, что эксперты не расходятся во мнениях относительно оценивания сокурсников во втором задании на взаимное оценивание. Коэффициент является значимым, это говорит о высокой надежности.

Также мы рассчитали коэффициент корреляции между итоговым баллом и оценками экспертов.

Таблица 6

Корреляция между оценками экспертов и итоговым баллом в онлайн-курсе

Итоговый балл

Оценки экспертов

0,39**

*– р≤0,05, **– р≤0,01

Из таблицы 6 мы можем увидеть значимую корреляционную связь между итоговым баллом и оценками трех экспертов (студентов). Это говорит о том, что оценки экспертов на 15% объясняют итоговый балл по курсу. Такой коэффициент является средним.

Также нами были проанализированы оценки по критериям для первого задания на взаимное оценивание. Нами была исследована надежность критериев для оценки задания. Каждого студента оценивали три эксперта.Нами было получено значение коэффициента конкордации W = 0,53, а уровень значимости p=0,000. Такой уровень согласованности является средним.

Таким образом, мы можем сделать вывод о том, что эксперты могут расходиться во мнениях относительно оценок по критериям. Это говорит о том, что такая согласованность может быть связана с тем, что эксперты неодинаково понимают критерии оценки или рубрики составлены плохо.

Во втором задании на взаимное оценивание не было предоставлено критериев, и уровень согласованности мнений экспертов был высоким. Поэтому мы можем предположить, что при улучшении качества рубрик повысится согласованность мнений экспертов и валидность взаимного оценивания.

В таблице 7 представлены данные с корреляциями между критериями. Всего было дано 4 рубрики для оценки задания, максимально набранный балл составляет 3 балла.

Таблица 7

Корреляции между критериями для взаимного оценивания

Рубрика 1

Рубрика 2

Рубрика 3

Рубрика 4

Рубрика 1

0,63**

0,61**

0,64**

Рубрика 2

0,72**

0,55**

Рубрика 3

0,55**

*– р≤0,05, **– р≤0,01

Из таблицы 7 можно увидеть, что все критерии между собой положительно коррелируют. Все коэффициенты являются значимыми с высокими показателями. Это говорит, что критерии между собой хорошо согласуются.

Таблица 8

Корреляции между итоговым баллом и критериями для оценивания

Рубрика 1

Рубрика 2

Рубрика 3

Рубрика 4

Итоговый балл экспертов

0,84**

0,85**

0,85**

0,83**

*– р≤0,05, **– р≤0,01

Из таблицы 8 мы можем увидеть высокие и значимые корреляции между итоговым баллом экспертов и критериями для взаимного оценивания. Это говорит о том, что оценки по критериям имеют высокую прогностическую валидность для итогового балла.

Нами были измерены коэффициенты согласованности внутри каждого критерия. Результаты представлены в таблице 9.

Таблица 9

Согласованность по каждому критерию

Рубрика 1

Рубрика 2

Рубрика 3

Рубрика 4

0,44

0,47

0,43

0,54

В таблице 9, мы можем увидеть коэффициенты согласованности внутри каждого критерия. Наименьшие показатели мы получили в третьем критерии и в первом.

Согласованность трех критериев без первого составляет 0,55, что незначительно отличается от полученного коэффициента согласованности по четырем критериям.

Между четвертым и вторым критерием согласованность составила 0,48. Что является на наш взгляд высоким показателем в сравнении с согласованностью по всем четырем критериям.

Между третьим и первым критериями коэффициент согласованности соответствует 0,50.

Таким образом, мы проанализировали, полученные данные с целью исследования валидности и надежности взаимного оценивания в онлайн-курсах в рамках ККТ.

Просматривая оценки, которые эксперты ставили за каждый критерий, мы увидели, что существует тенденция выставлять исключительно высокие или низкие баллы. Мы пришили к выводу о необходимости следующего этапа, а именно, проведение исследования, направленного на выявление искажений, которые специфичны для данного вида оценивания (например, намеренное завышение или занижение оценок). Такого рода исследование осуществимо с помощью современной теории тестирования (IRT).

3.3Эмпирическое исследование вIRT

Всего было проанализировано 868 работ. Работы выполнялись и взаимно оценивались студентами (далее - студент, находившийся в роли оценивающего, будет называться экспертом).

Каждый эксперт оценивал по три работы студентов. Всего было выставлено 2604 оценки. Пример оценивания приведен в таблице ниже.

Таблица 10

Пример оценивания экспертами студенческих эссе

Id эксперта

Итоговый балл

Критерии

5319659

12

3

3

3

3

2966940

11

2

3

3

3

5481142

6

2

2

2

0

Для примера представлены три работы студентов. Каждый эксперт оценивал работу по четырем критериям. Первый эксперт поставил по всем четырем критериям наивысший балл, которые составляет 3. Второй по первому критерию поставил 2 балла, по следующим трем по 3 балла. Третий эксперт поставил по трем первым критериям 2 балла, а по последнему проставил 0 баллов. Но это не говорит о том, что он его не оценил. Оценка 0 баллов имеет также содержательную характеристику, то есть выставляется при соответствии с описанием по данному критерию. Описательная статистика оценок по критериям представлена в таблице 11 и 12.

Таблица 11

Распределение оценок по критериям

Баллы по критериям

Количество оценок, ед.

Количество оценок, %

0

329

9,2

1

299

8,6

2

657

19,0

3

2187

63,2

Итого

3472

100,0

Можно сказать, что большинство оценок, которые выставили эксперты составляют три балла – 63,2%. Это говорит о том, что эксперты выставляли в большинстве высокие баллы.

Оценок, которые составляли 2 балла было выявлено 19%, оценок, которые составляли 1 балл было выявлено 8,6%, оценок, которые составляли 0 баллов было выявлено 9,2%.

Таблица 12

Описательная статистика по критериям

Критерии

Среднее арифметическое

Медиана

Стандартное отклонение

Итого

1

2,5

3,0

0,84

865

2

2,3

3,0

0,93

865

3

2,4

3,0

0,96

865

4

2,2

3,0

1,13

865

В качестве результатов на рисунке 1 показаны графические меры измерения студентов, экспертов и задания (с критериями). Фигуру следует интерпретировать следующим образом. Шкала в левой части фигуры представляет собой шкалу логитов, которая одинакова для всех трех граней (студенты, эксперты, критерии). Масштаб карты –каждые четыре студента и эксперта обозначены звездочкой.

+-----------------------------------------+

|Логиты|+Эксперты   |+Студенты |+Задание|Шкала|

|-----+----------+-----------+------+-----|

|  10 + *******. + ********. +      + (3) |

|     | .        |           |      |     |

|   9 +          +           +      +     |

|     | .        |           |      |     |

|   8 +          +           +      +     |

|     |          |           |      |     |

|   7 + .        +           +      +     |

|     | .        | .         |      |     |

|   6 + .        + .         +      +     |

|     | .        |           |      |     |

|   5 + *        + .         +      +     |

|     | **.      | .         |      |     |

|   4 + **.      + .         +      +     |

|     | **.      | *         |      |     |

|   3 + **.      + *.        +      +     |

|     | ****     | **.       |      |     |

|   2 + ***.     + **.       +      + --- |

|     | ***.     | **.       |      |     |

|   1 + ****     + ***.      +      +  2  |

|     | ***      | *****.    | 1    |     |

*   0 * **.      * ****.     *      * --- *

|     | **.      | ****.     | 2  4 |     |

|  -1 + .        + **.       +      +  1  |

|     | *.       | ***       |      |     |

|  -2 + .        + ***.      +      + --- |

|     | .        | .         |      |     |

|  -3 + .        + *.        +      +     |

|     | .        | .         |      |     |

|  -4 + .        + .         +      +     |

|     |          | *         |      |     |

|  -5 +          +           +      +     |

|     |          |           |      |     |

|  -6 +          + .         +      +     |

|     |          |           |      |     |

|  -7 +          +           +      +     |

|     |          | .         |      |     |

|  -8 + *.       + .         +      + (0) |

|-----+----------+-----------+------+-----|

|Логит| * = 4    | * = 4     |+Задание|Шкала|

Рисунок 1 - Карта данных

Испытуемые упорядочиваются от наиболее способных с верхней части до наименее способных в нижней части карты данных. Критерии упорядочены таким образом: от наиболее сложных элементов вверху карты до наименее сложных в нижней части карты данных.

Эксперты же расположены от наименее строгих, которые находятся в верхней части карты данных, до наиболее строгих, в нижней части карты данных.

В крайнем правом столбце показаны для каждого уровня способностей наиболее вероятный показатель. Фигура показывает графически различия с помощью разницы между элементами фасетов.

В нашем случае данные распределены от -8 до +10 логитов. Глядя на колонку с данными по экспертам, мы видим, что 28 экспертов были выявлены, как наименее строгие. То есть их оценки являются самыми высокими по всем критериям по сравнению с другими экспертами.

Вся основная масса экспертов расположена в промежутке от 0 до +4 логитов, а студентов от -2 до +2 логитов. Это позволяет говорить о том, что эксперты были не строги в отношении способностей студентов.

По взаимному расположению экспертов относительно студентов на карте, можно сказать, что эксперты склонны завышать баллы. Мы видим, что распределение со способностями студентов смещено вниз, то есть большая часть имеет средний уровень способностей и он ниже, чем те оценки, которые выставляют эксперты. По строгости экспертов распределение смещено вверх. То есть они склонны быть менее строгими. Далее нами представлена таблица 13 с суммарными данными.

Таблица 13

Суммарные статистики по данным

Балл

Ожидаемый

Остаток

Стандартизированный остаток

2,30

2,30

0,00

-0,02

0,90

0,70

0,55

1,05

Остаток (разница между выставленной оценкой и ожидаемым баллом –Resd) составляет 0,00 и этот показатель говорит об успешности оценки, заданных параметров. Среднее должно быть равным 0,00. В нашем случае данные хорошо согласуются с моделью Раша.

Средний показатель стандартизированного остатока (StRes) должен быть приближен к 0,00. В нашем случае он составляет -0,02. Является отрицательным, что говорит о том, что строгость экспертов не соответствует способностям студентов.

Таблица 14

Неожиданные оценки

Выставленная оценка

Ожидаемая оценка

Остаток

Отклонение полученной оценки от ожидаемой

Номер эксперта

Номер студента

2

3,0

-1.0

-9,0

68434

10276692

2

3,0

-1.0

-9,0

810385

10259577

2

3,0

-1.0

-6,5

10008036

5481142

2

3,0

-1.0

-6,4

10095073

10243223

2

3,0

-1.0

-5,8

2750143

4762728

2

3,0

-1.0

-5,5

3747752

2264

2

3,0

-1.0

-5,5

9556527

10415910

2

3,0

-1.0

-5,3

3948075

10425923

1

2,8

-1.8

-4,3

9969310

10512657

2

2,9

-0,9

-4,1

5967656

10176528

2

2,9

-0,9

-3,9

10512657

8277703

2

2,9

-0,9

-3,8

7538815

5415267

2

2,9

-0,9

-3,8

10071413

812213

1

2,7

-1,7

-3,7

1643283

9678121

3

0,6

2,4

3,7

9180489

812213

1

2,7

-1,7

-3,7

10213417

8215232

1

2,7

-1,7

-3,6

10326954

6690582

2

2,9

-0,9

-3,4

10399759

10412044

2

2,9

-0,9

-3,3

9180489

10424109

1

2,7

-1,7

-3,3

10245378

10344888

0

2,2

-2,2

-3,2

7711268

7047995

3

0,8

2,2

3,1

1372981

10133370

Нами было выявлено 22 неожиданных оценки у экспертов. Неожиданная оценка означает ее существенное отклонение от модельной (прогнозируемой на основании модели).

Мы видим баллы, которые были выставлены экспертами студентам и также ожидаемые баллы, то есть те, которые предсказала модель. Как мы видим 20 экспертов выставили оценки ниже, чем предсказала модель. Этому свидетельствуют отрицательные показатели статистик.

Остаток (разница между выставленной оценкой и ожидаемым баллом –Resd) и стандартизированный остаток (StRes). Их показатели должны быть приближены к 0. Чем ниже показатель, тем сильнее откланяется оценка, поставленная экспертом. То есть они занижают балл.

Также было выявлено, что 2 эксперта завысили балл, так как их статистики значимо положительно отклоняются от нормального показателя равного 0.

С помощью данного анализа мы можем выявлять оценки, которые могут не соответствовать реальным способностям студентов и быть не объективными.

FACETS анализ представляет ряд данных с различиями величин между элементами (эксперты, студенты, критерии). Мы получаем данные о индексе разделения, надежности и фиксированном хи-квадрате.

Индекс разделения представляет собой соотношение скоректированного стандартного отклонения (Adj. SD) элементов измерения (в нашем случае экспертов) и среднеквадратичной стандартной ошибки (RMSE). Если эксперты в равной степени строгие, стандартное отклонение должно быть равным или меньше чем стандартная ошибка всего набора данных.

В нашем случае индекс разделения по экспертам составляет 2,88, что свидетельствует о том, что различия между экспертами в три раза выше ошибки измерения. Это значит, что эксперты строги/снисходительны не в равной степени.

Статистическая надежность, полученная с помощью анализаFACETS указывает на степень, в которой анализ надежно распознает различия между уровнями трудности и строгости элементов (в нашем случае это эксперты). В нашем случае надежность составляет 0,89 для экспертов, что указывает на то, что анализ надежно разделяет различные уровни строгости у экспертов.

И наконец, хи-квадрат проверяет нулевую гипотезу, что все элементы между собой равны. Хи-квадрат 2209,9 степени свободы 192. Это свидетельствует о том, что нулевая гипотеза должна быть отклонена. Другими словами, эксперты не в равной степени строгие. Данные представлены по экспертам в таблице 15.

Таблица 15

Статистики по экспертам

Индекс разделения

Надежность

Хи-квадрат

Степени свободы

2,82

0,89

2209,9

193

Полученные данные дают нам информацию о надежности критериев. Надежность по испытуемым в модели Раша эквивалентна надежности Альфа Кронбаха.  Это позволяет выявить насколько надежно испытуемые были разделены на группы по уровню способностей (Bond&Fox, 2001, p. 207).  Для нашего исследования надежность разделения испытуемых студентов по группам составила 0,85. Это говорит о высоком уровне надежности.

Таблица 16

Статистики по студентам

Индекс разделения

Надежность

Хи-квадрат

Степени свободы

2,38

0,85

1973,2

209

В нашем случае индекс разделения по способностям студентов составляет 2,38, что свидетельствует о том, что различия между уровнями способностей в два раза выше ошибки измерения. Это значит, что студенты имеют различный уровень способностей.

FACETS анализ также предусматривает две меры измерения:infit иoutfit. Первая мера представляет собой взвешенный среднеквадратичный остаток, который чувствителен к неожиданным ответам.

В то время, когда вторая мера представляет собой невзвешенноый среднеквадратичный остаток, который чувствителен к критическим оценкам (экстремальным). Статистика равная 1,5 или выше указывает на большое количество непредсказуемых оценок среди экспертов, в то время как статистика равная 0,5 или меньше показывает недостаточную вариацию оценок. Данные со статистиками экспертов, отклоняющихся от модели представлены в таблице 17.

Таблица 17

Эксперты со статистиками, отклоняющимися от модельных

Эксперты

Строгость

Ошибка измерения

Взвешенный среднеквадратичный остаток (MnSq)

68434

-0,84

0,69

2,43

10008036

3,97

0,73

1,68

9180489

-1,47

0,53

2,43

1372981

2,30

0,58

3,12

10326954

0,57

0,51

2,56

1643283

4,84

0,80

2,42

10245378

4,60

0,83

2,58

4416363

1,39

0,48

2,07

7711268

1,58

0,49

2,05

10213417

2,67

0,77

2,02

8691363

3,92

0,79

1,92

9417330

4,42

0,53

1,83

9555721

-0,03

0,40

1,76

8541663

3,48

0,88

1,65

7396345

-1,12

0,65

1,60

8215232

0,74

0,47

1,59

2871671

1,56

0,82

1,5

6633262

1,97

0,55

1,56

9969310

-0,70

0,52

1,52

Нами было получено 20 показателей, превышающих критическое значение равное 1,5. Это говорит о том, что данные эксперты в своем большинстве были строгими и занижали оценки студентам. И пять из экспертов были менее строгими, чем предсказала модель.

Данные с оценками экспертов, которые имели низкую вариативность представлены в таблице 18 (см. приложение 3)

Таблица 18

Эксперты, завышающие оценки

Эксперты

Строгость

Ошибка измерения

Взвешенный среднеквадратичный остаток (MnSq)

10095073

1,44

0,51

0,40

7332408

2,81

0,50

0,49

4543574

-0,62

0,53

0,45

9009336

0,03

0,47

0,42

10257593

2,42

0,49

0,41

10412044

4,63

0,48

0,40

10257748

4,71

0,57

0,37

5481142

0,62

0,51

0,36

5502447

4,04

0,57

0,44

10355196

-2,86

0,42

0,35

9285714

-1,97

0,47

0,34

10214966

-0,53

0,49

0,26

10328843

0,55

0,48

0,25

6041145

-3,55

0,79

0,31

3786292

3,55

0,79

0,38

Нами было получено 24 показателя ниже критического значение равного 0,5. Это говорит о том, что данные эксперты в своем большинстве выставляли оценку с низкой вариативностью. То есть всем студентам были склонны ставить либо высокие, либо низкие баллы.  Из них 12 экспертов были склонны занижать оценки и ставить только высокий балл. Также 6 экспертов были склонны завышать оценки и оставшиеся 6 экспертов усредняли баллы. Данные со статистиками по студентам представлены в таблицах 19 (см. приложение 4 и 20 см. приложение 5).

Таблица 19

Студенты со статистиками, отклоняющимися от модельных

Студенты

Уровень способностей

Ошибка измерения

Взвешенный среднеквадратичный остаток (MnSq)

10259577

4,04

1,11

1,62

10133370

-3,16

0,77

4,51

5415267

2,13

0,83

1,72

10425923

6,14

1,10

1,52

10274168

2,38

0,88

2,97

812213

0,04

0,52

2,50

9678121

-1,86

0,53

2,21

10344888

-2,78

0,63

1,89

7047995

-1,05

0,37

2,33

6223682

-0,12

0,56

2,30

10377859

-0,36

0,57

2,27

6690582

2,51

0,62

2,19

8215232

0,30

0,77

2,01

5798652

0,14

0,58

1,96

Нами было получено 26 показателей, превышающих критическое значение равное 1,5. Из них 12 показателей по статистики говорят о том, что данные студенты обладают более высоким уровнем способностей, чем предсказала модель. И 14 студентов имели более низкий уровень способностей, чем предсказала модель. Далее представлена таблица с показателями по студентам студентов, чьи баллы имели низкую вариативность (полная таблица см. приложение 2).

Таблица 20

Студенты с высоким уровнем подготовленности, получившие низкие оценки

Студенты

Строгость

Ошибка измерения

Взвешенный среднеквадратичный остаток (MnSq)

10233749

0,00

0,56

0,49

7198616

0,69

0,45

0,47

10313137

-2,20

0,6

0,48

1278662

0,01

0,51

0,46

10536251

-4,20

0,53

0,44

10402867

-0,49

0,59

0,41

9969310

-4,53

0,61

0,40

6633262

1,92

0,55

0,45

6546047

0,53

0,70

0,38

7280198

0,78

0,57

0,36

1773110

-0,67

0,54

0,36

9212204

-0,51

0,58

0,35

10287955

-1,59

0,53

0,41

9208718

1,83

0,51

0,35

Нами было получено 37 показателей ниже критического значение равного 0,5. Это говорит о том, что данные студенты имели баллы за свою работу с низкой вариативностью.

То есть данные студенты получали за свои работы только несоответствующие их способностям высокие или низкие оценки.  Из них 21 студент имели высокий уровень способностей, который не соответствовал низким всем низким баллам, поставленными экспертами. Также 16 студентов были оценены высоко не в соответствии с их низким уровнем способностей.

Нами также были проанализированы, полученные данные о самом задании на взаимное оценивание и его статистики. Данные представлены ниже в таблице 21.

Таблица 21

Статистики по заданию на взаимное оценивание (средний показатель)

Наблюдаемый сырой балл

Наблюдаемый стандартизированный сырой балл

Трудность

Ошибка измерения

Взвешенный остаток (MnSq)

Невзвешенный остаток

(MnSq)

Корреляция между наблюдаемым баллом и смоделированным

2,41

2,48

0,00

0,08

0,96

1,43

0,7

Мы видим, что средний балл по заданию на взаимное оценивание составляет 2,48 балла. Этот показатель относится к высокому баллу и близок к максимальной оценке в 3 балла. Это говорит о том, что у большого количества экспертов оценка составляла именно 3 балла.

Трудность задания можно отнести к среднему уровню. Мы можем сказать о том, что в данном случае это говорит о склонности экспертов ставить выше балл. Показатель взвешенного стандартизированного остатка составляет 0,96, это говорит о хорошем согласии с моделью, как и показатель невзвешенного стандартизированного остатка, который составляет 1,43.

Для нашего исследования надежность самого задания составила 0,97, это говорит о высоком уровне надежности. В нашем случае индекс разделения задания составляет 6,99. Это говорит о том, что задание делит студентов на 9 равных групп, которые статистически различны.  Данные по категориям представлены в следующей таблице 22.

Таблица 22

Статистики категориям задания на взаимное оценивание

Категория

%

Трудность

Ошибка измерения

Среднее значение мер

Ожидаемое среднее значение мер

Невзвешенный остаток

(MnSq)

0

6,0

-

-

-1,67

-1,58

0,9

1

12,0

-1,42

0,15

-0,01

0,04

0,9

2

28,0

-0,14

0,1

1,45

1,63

1,0

3

54,0

1,56

0,07

3,47

3,5

2,0

По шкале трудности мы видим, что показатель растет. В нашем случае, мы можем говорить о том, что экспертам было сложнее ставить оценки 3 и 2 балл, чем 1 и 0 баллов. Сравнивая с ожидаемым значением мер, мы видим, что по категории 2 ожидаемое значение выше, то есть мы можем сказать, что существует необходимость в большей строгости при оценивании студентов с помощью рубрик. Ошибка измерения уменьшается.

Средний показатель мер, как и требует того модель возрастет. По категории 1 мы видим, что ожидаемое значение выше наблюдаемого. Это говорит о том, что что существует необходимость в большей строгости. Уровень способностей студентов чаще соответствовал 1 баллу, чем эксперты его выставляли.

Невзвешенный остаток (OUTFITMnSq) для наблюдений в категориях. Значения гораздо больше, чем 1,0 указывают на неожиданные наблюдения в этой категории. Центральные категории, как правило, имеют меньшие показатель, чем крайние категории. Как мы видим, показатель в 2,0 превышает нормальный показатель и относится к категории 3. Это говорит о том, что эксперты не объективно были снисходительны к оценке студентов.

В качестве осинового выводы мы можем сказать о том, что данный анализ позволил выявить оценки экспертов, которые не соотносятся с уровнем способностей студентов я являются необъективными. Были также выявлены эксперты, которые занижали баллы, необъективно оценивая высокий уровень способностей студентов. Анализ критериев позволил выявить, что существует необходимость в большей строгости при оценивании студентов с помощью рубрик.

.

Глава 4 содержательная интерпритация полученных данных

4.1Сравнение достоинств и недостатков проведения анализа в рамкахIRT и ККТ

Нами было проведено два анализа для измерения валидности и надежности взаимного оценивания. Первый был осуществлен с помощью ККТ, а второй с помощьюIRT. Анализ с помощью современной теории также позволил выявить искажения в оценках экспертов. Для сравнения и отличий, полученных с помощью двух теорий мы создали таблицу, в которой наглядно можем оценить преимущества и недостатки данных видов анализа.

Таблица 23

Отличия анализаIRT от анализа ККТ

IRT (современная теория тестирования)

ККТ (классическая теория тестирования)

1

Был выявлен средний уровень надежности (согласованности оценок экспертов) задания, из-за существенных ограничений. Его можно считать заниженным.

Надежность задания была оценена в отдельности от надежности студентов. Оба показателя говорят о высоком уровне.

2

Был выявлен средний уровень надежности критериев.  Наименьшие показатели были получены по первому и третьему критерию. Без учета показателей данных критериев надежность значительно не выросла.

Анализ критериев позволил выявить то, что реже всего выставляется балл 1 и 0. Существует необходимость в более строгой оценке с помощью существующих рубрик. Это может говорить о том, что их содержание требует доработки.

Продолжение таблицы 23

3

Уровень конвергентной валидности средний. Было обнаружено, что балл за взаимное оценивание несет значимый вклад в итоговый балл. Показатель критериальной валидности высокий.

Данные хорошо согласуются с моделью. Но мы также не можем говорить о высоком уровне валидности, так как было выявлено большое количество показателей неожиданных и отличных от критических статистик.

4

В данном анализе нам удалось оценить показатели мер студентов и самого задания.

Анализ позволил оценить показатели не задания, но и были отдельно рассмотрены статистики экспертов и студентов (трудность задания, уровень способности студентов и строгость экспертов).

5

Анализ позволил выявить необходимость в доработке критериев.

Анализ позволил выявить наличие искажений (завышение балла).

6

Анализ достаточно просто осуществляется.

Сложнее реализуется и требует более сложной интерпретации.

7

Ошибка измерений не была оценена.

Была оценена ошибка измерения для уровня способностей студентов и для показателя строгости экспертов.

4.2Ограничения исследования

Данное исследование позволило ответить на вопросы о валидности и надежности взаимного оценивания в онлайн-курсах, а также существовании искажений в оценках экспертов.

Но тем не менее данное исследование имеет ряд ограничений, таких как:

  1. Отсутствие возможности проследить намеренность выставления экспертами завышенных, заниженных или случайных оценок.
  2. Проведение исследования в рамках одного задания на взаимное оценивание гуманитарного онлайн-курса.
  3. Отсутствие сравнения с заданиями на взаимное оценивание в других онлайн-курсах (гуманитарных или технических).
  4. Отсутствие проведения анализа с учетом пола студентов их расовой принадлежности и уровня мотивации.
  5. Выборка испытуемых составила менее тысячи человек.

Данные ограничения являются предпосылкой для возникновения новых исследовательских вопросов. А также для реализации планируемого исследования с их учетом.

ЗАКЛЮЧЕНИЕ

Целью нашего исследования было измерение валидности и выявление искажений в зданиях на взаимное оценивание вMOOCs. По результатам исследования валидности в рамках ККТ мы получили значимые коэффициенты корреляции:

  1. между первым тестом и двумя заданиями на взаимное оценивание.В данной ситуации мы делаем вывод о наличии конвергентной валидности. Содержательно первое задание на взаимное оценивание направлено на измерение знаний похожих конструктах, что и первый тест;
  2. между итоговым баллом и первым заданием на взаимное оценивание, а также между итоговым баллом и вторым заданием на взаимное оценивание.  Взаимное оценивание вносит большой вклад в итоговый балл и имеет прогностическую силу;
  3. между итоговым баллом и оценками трех экспертов (студентов). Оценки экспертов в первом задании на 15% объясняют итоговый балл по курсу. Таким образом, мы можем сделать вывод о том, что эксперты могут расходиться во мнениях относительно оценок по критериям;
  4. между итоговым баллом экспертов и критериями для взаимного оценивания. Оценки по критериям имеют высокую прогностическую валидность для итогового балла в первом задании.

Нами была исследована надежность экспертного оценивания в курсе «Философия культуры». Коэффициентконкордации в первом задании составил 0,84. Во втором задании он составил 0,53. В данном случае, проанализировав задания на взаимное оценивание, мы можем сказать, что такая разница в коэффициентах связана с наличием критериев. В первом задании студентам были предложены четыре критерия с разбалловкой, а во втором существовал один объективный критерий. Критерии могли быть восприняты субъективно и индивидуально, так как были большие расхождения в трех оценках студентов.

Это говорит о том, что критерии требуют более точной и простой формулировки. Разбалловка также требует более детального описания. Что, на наш взгляд, сможет поспособствовать тому, чтобы студенты более точно оценивали своих сокурсников. Это повысит уровень согласованности и как следствие взаимная оценка станет более надежной.

Нами было проведено исследование валидности взаимного оценивания в рамках современной теории тестирования (IRT). Мы использовалиIRT для определения подготовленности студентов и использовали данный параметр в качестве критерия для измерения валидности. Также исследование было направлено на выявление искажений

Основными выводами исследования стали такие положения:

  1. большинство оценок, которые выставили эксперты составляют три балла. Данные хорошо согласуются с моделью Раша, но средний показатель стандартизированного остатка говорит о том, что строгость экспертов не соответствует способностям студентов.
  2. взаимное расположение экспертов на карте относительно студентов говорит о том, что эксперты склонны завышать баллы.
  3. было выявлено 22 неожиданных оценки у экспертов. Неожиданная оценка означает ее существенное отклонение от модельной (прогнозируемой на основании модели). Из них 20 экспертов выставили оценки ниже, чем предсказала модель и 2 эксперта неожиданно завысили балл. Надежность данных об экспертах составляет 0,89, что указывает на то, что анализ надежно разделяет различные уровни строгости у экспертов.
  4. было получено 20 показателей, превышающих критическое значение невзвешенного остатка равное 1,5. Это говорит о том, что эксперты в своем были строгими и занижали оценки студентам. И пять из экспертов были менее строгими, чем предсказала модель. Также нами было получено 24 показателя ниже критического значение равного 0,5. Это говорит о том, они были склонны ставить либо высокие, либо низкие баллы.
  5. трудность задания можно отнести к среднему уровню, а его надежность составила 0,97, это говорит о высоком уровне надежности. По шкале трудности мы выявили, что показатель растет. В нашем случае, мы можем говорить о том, что экспертам было сложнее ставить оценки 3 и 2 балла, чем 1 и 0 баллов. Сравнивая с ожидаемым значением мер, мы видим, что по категории 2 ожидаемое значение выше, то есть мы можем сказать, что существует необходимость в большей строгости при оценивании студентов с помощью рубрик.
  6. средний показатель мер, как и требует того модель возрастет. По категории 1 ожидаемое значение выше наблюдаемого. Значения невзвешенного остатка гораздо больше, чем 1,0 указывают на неожиданные наблюдения в этой категории. Показатель в 2,0 превышает нормальный показатель и относится к категории 3. Это говорит о том, что эксперты не объективно были снисходительны к оценке студентов.
  7. с помощью данного анализа мы выявили оценки, которые могут не соответствовать реальным способностям студентов и быть не объективными. Данные оценки могут быть не использованы для включения в итоговую оценку, так как они необъективно занижают балл студентов.

Список литературы:

  1. Анастази А., Урбина С. Психологическое тестирование. 7-е изд. / Пер. с англ. - СПб.: Питер, 2007. – 688 с
  2. Крокер Л. Введение в классическую и современную теорию тестов / Л. Крокер, Д. Алгина. – М. : Логос, 2010. – 668 c.
  3. Шмелев А. Г. Практическаятестология тестирование в образовании, прикладной психологии и управлении персоналом / А. Г. Шмелев.М. :Маска, 2013. – 688 с.
  4. Admiraal W. Self- and peer assessment in massive open online courses / W. Admiraal, B. Huisman, M. Van de Ven // International Journal of Higher Education. – 2014. – Vol. 3, N 3. – P. 110−128.
  5. Andrich, D. 1978a: A rating formulation for ordered response categories. Psychometrika 43, 561–73.
  6. Arnold L., Use of peer evaluation in the assessment of medical students, Journal of Medical Education, 56, 1981, 35-42.
  7. Atkinson, J.W. (Ed.). (1958). Motives in fantasy, action, and society.Princeton, NJ: Van Nostrand.
  8. Blais, M. A. (2003). Have you heard we’re having a revolution? The coming of modern test theory. Journal of Personality Assessment, 80,208–210.
  9. Blankenship, V., & Zoota, A. L. (1998). Comparing power imagery in TATs written by hand or on the computer and computing reliability. BehaviorResearch Methods, Instruments, and Computers, 30, 441–448.
  10. Bond, T. G., & Fox, C. M. (2001). Applying the Rasch model: Fundamental measurement in the human sciences. Mahwah, NJ: Lawrence ErlbaumAssociates, Inc.
  11. Charney, D. 1984: The validity of using holistic scoring to evaluate writing: a critical overview. Research in the Teaching of English 18, 65–81.
  12. Connor-Linton, J. 1995: Looking behind the curtain: what do L2 composition ratings really mean? TESOL Quarterly 29, 762–65.
  13. Cumming, A. 1990: Expertise in evaluating second language compositions. Language Testing 7, 31–51.
  14. Cho K. Validity and reliability of scaffolded peer assessment of writing from instructor and student perspectives / K. Cho, C. D. Schunn, R. W. Wilson // Journal of Educational Psychology. – 2006. – Vol. 98, N 4. – P. 891−901.
  15. Cohen,  P.  A.,  &  McKeachie,  W.  J.  (1980).  The role  of  colleagues in the evaluation  of  college teaching.  Improving College and UnivemityTeaching,  28(4), 147-154.
  16. Coursera. (n.d.). Pedagogical Foundations. Retrieved from Coursera. (2014, March 12) How will my grade be determined? Retrieved from. http://help.coursera.org/customer/portal/articles/1163304-how-will-my-grade-be-determined-
  17. Dancey, C. P., & Reidy, J. (2002). Statistics without maths for psychology (2nd ed). London: Prentice Hall.
  18. An examination of coursera as an information environment: does coursera fulfill its mission to provide open education to all? / S. Audsley, F. Kalyani, M. Bronwen (et. al.) // The Serials Librarian. – 2013. – Vol. 65. – P. 136−166.
  19. Bloom, B. S. (1956). Taxonomy of educational objectives: Vol. 1. Cognitive domain. New York: McKay.
  20. Bouzidi L. Can online peer assessment be trusted? / L. Bouzidi, A. Jaillet // Educational Technology & Society. − 2009. – Vol. 12, N 4. – P. 257–268.
  21. Elliott, A., & Mc Gregor, H. (2001). A 2 × 2 achievement goal framework.  Journal of Personality and Social Psychology, 80, 501–519.
  22. Elliott, A., McGregor, H., & Gable, S. (1999). Achievement goals, study strategies, and exam performance: A mediational analysis. Journal of EducationalPsychology, 91, 549–563.
  23. Emmons, R. A., & McAdams, D. P. (1991). Personal strivings and motive dispositions: Exploring the links. Personality and Social Psychology Bulletin,17, 648–654.
  24. Entwisle, D. R. (1972). To dispel fantasies about fantasy-based measures of achievement motivation. Psychological Bulletin, 77, 377–391.
  25. Freeman S. How accurate is peer grading? // S. Freeman, W. J. Parks // CBE Life Sci Educ. – 2010. – Vol. 9, N 4. – P. 482–488.
  26. An examination of coursera as an information environment: does coursera fulfill its mission to provide open education to all? / S. Audsley, F. Kalyani, M. Bronwen (et al.) // The Serials Librarian. – 2013. – Vol. 65. – P. 136−166.
  27. Bouzidi L. Can online peer assessment be trusted? / L. Bouzidi, A. Jaillet // Educational Technology & Society. − 2009. – Vol. 12, N 4. – P. 257–268.
  28. Falchikov N., Product comparisons and process benefits of peer group and self-assessments, Assessment and Evaluation in Higher Education, 11, 1986, 146-166
  29. Falchikov, N. (1994). Learning from peer feedback marking: student and teacher perspectives. In H. C.
  30. Falchikov, N., & Goldfinch, J. (2000). Student Peer Assessment in Higher Education: A Meta-Analysis Comparing Peer and Teacher Marks. Review of Educational Research, 70(3), 287-322.
  31. Foot, C. J. Howe, A. Anderson, A. K. Tolmie, & D. A. Warden (Eds.), Group and interactive learning (pp. 411-416). Southampton and Boston: Computational Mechanics Publications.
  32. Furman B. Improving engineering report writing with Calibrated Peer Review™ / B. Furman, W. Robinson // 33rd Annual Frontiers in Education Conference, November 5-8, 2003, Boulder, CO / ed. D. Budny. – Boulder, 2003. – P. F314−F316.
  33. Gielen M. Peer assessment in a wiki : product improvement, students’ learning and perception regarding peer feedback / M. Gielen, B. De Wever // Procedia − Social and Behavioral Sciences. – 2012.− Vol. 69 : International Conference on Education & Educational Psychology (ICEEPSY 2012). – 2012. – P. 585–594.
  34. Kane,  J.  S.,  &  Lawler,  E. E.  (1978).  Methods of peer assessment.  Psychological Bulletin, 85(3),  555-586.
  35. Kaplan F. A preparatory analysis of peer-grading for a digital humanities MOOC / F. Kaplan, C. Bornet // Digital Humanities: book of abstracts. – 2014. – P. 227−229.
  36. Linacre J.M. 1989: Many-faceted Rasch measurement. Chicago, IL: MESA Press.
  37. Linacre J.M. and Wright, B.D. 1993: A user’s guide to FACETS (Version 2.6). Chicago, IL: MESA Press.
  38. Lunz M.E. and Stahl, J.A. 1990: Judge consistency and severity across grading periods. Evaluation and the Health Professions 13, 425–44.
  39. Lunz M.E., Stahl, J.A. and Wright, B.D. 1991: The invariance of judge severity calibrations. Paper presented at the annual meeting of the American Educational Research Association, Chicago, IL.
  40. Lunz M.E., Wright, B.D. and Linacre, J.M. 1990: Measuring the impact of judge severity on examination scores. Applied Measurement in Education 3, 331–45.
  41. OrpenС., Student versus lecturer assessment of learning, Higher Education, 11, 1982, 567-572.
  42. Martin,  B.  A.,  &  Martin,  J.  H.  (1989).  Assessing the lecture performance of university faculty: A behavioral observation scale.  Journal  ofEducation  for  Businas,  14(1),  157-160.
  43. Piech, C., Huang, J., Chen, Z., Do, C., Ng, A., & Koller, D. (2013). Tuned Models of Peer Assessment in MOOCs. Retrieved from http://www.stanford.edu/~jhuang11/research/pubs/edm13/edm13.pdf
  44. A proposed credibility index (CI) in peer assessment : presentation / Y. Xiong, D. Goins, H. K. Suen (et al.) // National Council on Measurement in Education : 76th Annual Meeting, Philadelphia, PA April 2-6, 2014. – Philadelphia, 2014. − Poster #66.
  45. Root,  L.  S.  (1987).  Faculty evaluation: Reliability of peer assessments of research, teaching, and service.  Research in Higher Education,38-39.26(1),  71-84.
  46. Smith, H., Cooper, A., & Lancaster, L. (2002). Improving the quality of undergraduate peer assessment: A case for student and staff development. Innovations in Education and Teaching International, 39(1), 71–81.
  47. Samejima F., Estimation of latent ability using a response pattern of graded scores, Psychometric Monograph, 17, 1969.
  48. Soller, A., Martinez Monés, A., Jermann, P., & Muehlenbrock, M. (2005). From mirroring to guiding: A review of state of the art technology for supporting collaborative learning. International Journal of Artificial Intelligence in Education, 15(4), 261–290.
  49. Strijbos, J. W., De Laat, M. F., Martens, R. L., & Jochems, W. M. G. (2005). Functional versus spontaneous roles during CSCL. In T. Koschmann, D. Suthers, & T. W. Chan (Eds.), Computer supported collaborative learning 2005: The next 10 years! (pp. 647-656).Mahwah, NJ: Lawrence Erlbaum Associates.
  50. Suen H. K. Peer assessment for Massive Open Online Courses (MOOCs) / H. K. Suen // The International Review of Research in Open and Distance Learning. – 2014. – Vol. 15, N 3. – P. 312−327.
  51. Suen H. K. Role and current methods of peer assessment in massive open online courses (MOOCs) : presentation at the First International Workshop on Advanced Learning Sciences (IWALS 2013), University Park, Pennsylvania, U.S.A., 2013, October 21.
  52. Taylor H. C. The relationship of validity coefficients to the practical effectiveness of tests in selection: discussion and tables / H. C. Taylor; J. T. Russell // Journal of Applied Psychology. – 1939. – Vol. 23, N 5. – P. 565−578.
  53. Topping K. J. Peer assessment / K. J. Topping // Theory into Practice. – 2009. – Vol. 48. – P. 20−27.
  54. Topping K. J. Trends in peer learnig.Educational Psychology: An International / K. J. Topping // Journal of Experimental Educational Psychology. − 2005. – Vol. 25, N 6. – P. 631−645.
  55. Topping, K. J. (2009). Peer assessment. Theory into Practice, 48(1), 20−27.
  56. Topping, K. J., Smith, E. F., Swanson, I., & Elliot, A. (2000). Formative peer assessment of academic writing between postgraduate students. Assessment & Evaluation in Higher Education, 25(2),149-169.
  57. Topping, K. (1998). Peer assessment between students in colleges and universities. Review of EducationalResearch, 68(3), 249-276.
  58. Tuned models of peer assessment in MOOCs / C. Piech, J. Huang, Z. Chen (et al.) / Proceedings of the 6th International Conference on Educational Data Mining (EDM 2013), Juli 6-9, Memphis, TN, USA. – Memphis, 2013. – P. 153−160.
  59. Ueno M.  & Okamoto T., Item Response Theory for Peer Assessment, T Proc. The Seventh IASTEDInternational Conference on Web-based Education, 2008.
  60. Ueno M., Development of LMS “Samurai” and elearning practice, Journal of Educational Information System, 2005, 79-86.
  61. Wen, M. L., Tsai, C. C., & Chang, C. Y. (2006). Attitudes towards peer assessment: A comparison of the perspectives of pre-service and in-service teachers. Innovations in Education and TeachingInternational, 43(1), 83–92.
  62. Weaver W. & Cotrell H.W., Peer evaluation: a case study, Innovative Higher Education, 11, 1986, 25-39.
  63. Winter, D. G. (1973). The power motive. New York: Free Press.
  64. Wright, B. D., & Masters, G. N. (1982). Rating scale analysis: Rasch measurement. Chicago, IL: Mesa Press.
  65. Zhang, B., Johnston, L., & Kilic, G. B. (2008). Assessing the reliability of selfand peer rating in student group work. Assessment & Evaluation in Higher Education, 33(3), 329-340
  66. Zhu, W., & Kurz, K. A. (1994). Rasch partial credit analysis of gross motor competence. Perceptual and Motor Skills, 79, 947–961.
  67. Xiao, Y., & Lucking, R. (2008). The impact of two types of peer assessment on students’ performance and satisfaction within a Wiki environment. The Internet and Higher Education, 11(3-4), 186-193.

Приложение1

Correlations

VAR00023

VAR00022

Задание 1

Pearson Correlation

1

,247**

Sig. (2-tailed)

,001

N

167

167

Задание 2

Pearson Correlation

,247**

1

Sig. (2-tailed)

,001

N

167

167

**. Correlation is significant at the 0.01 level (2-tailed).

Correlations

VAR00024

VAR00025

Задание 1

Pearson Correlation

1

,725**

Sig. (2-tailed)

,000

N

188

188

Итоговый балл

Pearson Correlation

,725**

1

Sig. (2-tailed)

,000

N

188

188

**. Correlation is significant at the 0.01 level (2-tailed).

Test Statistics

N

3

Kendall's Wa

,842

Chi-Square

467,228

df

185

Asymp. Sig.

,000

a. Kendall's Coefficient of Concordance

Correlations

VAR00026

VAR00027

Экспертные оценки

Pearson Correlation

1

,388**

Sig. (2-tailed)

,000

N

186

186

Итоговый балл

Pearson Correlation

,388**

1

Sig. (2-tailed)

,000

N

186

186

**. Correlation is significant at the 0.01 level (2-tailed).

Test Statistics

N

3

Kendall's Wa

,533

Chi-Square

356,651

df

223

Asymp. Sig.

,000

a. Kendall's Coefficient of Concordance

Согласованность по первому критерию

Test Statistics

N

3

Kendall's Wa

,438

Chi-Square

323,067

df

246

Asymp. Sig.

,001

a. Kendall's Coefficient of Concordance

Согласованность по второму критерию

Test Statistics

N

3

Kendall's Wa

,469

Chi-Square

346,171

df

246

Asymp. Sig.

,000

a. Kendall's Coefficient of Concordance

Согласованность по третьему критерию

Test Statistics

N

3

Kendall's Wa

,434

Chi-Square

325,560

df

250

Asymp. Sig.

,001

a. Kendall's Coefficient of Concordance

Согласованность по четвертому критерию

Test Statistics

N

3

Kendall's Wa

,540

Chi-Square

380,392

df

235

Asymp. Sig.

,000

a. Kendall's Coefficient of Concordance

Test Statistics

N

2

Kendall's Wa

,499

Chi-Square

234,554

df

235

Asymp. Sig.

,496

a. Kendall's Coefficient of Concordance

Test Statistics

N

2

Kendall's Wa

,473

Chi-Square

222,104

df

235

Asymp. Sig.

,717

a. Kendall's Coefficient of Concordance

Приложение 2

Студенты, способности которых низкую вариативность

Эксперты

Строгость

Ошибка измерения

Взвешенный среднеквадратичный остаток (MnSq)

10233749

0,00

0,56

0,49

7198616

0,69

0,45

0,47

10313137

-2,20

0,6

0,48

1278662

0,01

0,51

0,46

10536251

-4,20

0,53

0,44

10402867

-0,49

0,59

0,41

9969310

-4,53

0,61

0,40

6633262

1,92

0,55

0,45

6546047

0,53

0,70

0,38

7280198

0,78

0,57

0,36

1773110

-0,67

0,54

0,36

9212204

-0,51

0,58

0,35

10287955

-1,59

0,53

0,41

9208718

1,83

0,51

0,35

10107747

-2,03

0,54

0,34

6975555

-3,12

0,70

0,43

10463990

-1,11

0,59

0,30

6653040

-2,06

0,65

0,29

10008036

-1,42

0,50

0,25

10195716

0,77

0,71

0,25

6731773

-0,31

0,55

0,28

10231547

0,28

0,55

0,24

9285714

0,18

0,79

0,36

10245378

3,79

0,83

0,26

5883429

0,00

0,54

0,21

8754742

6,61

1,11

0,63

6601266

-4,33

0,89

0,19

9556527

0,20

0,59

0,16

10239010

-1,74

0,77

0,14

10307158

4,63

0,88

0,19

9764051

0,21

0,79

0,11

10249401

1,37

0,79

0,11

3233551

1,11

0,79

0,11

1636318

1,71

0,75

0,11

2583930

2,72

0,69

0,08

7396345

0,92

0,71

0,06

Приложение 3

Эксперты, оценки которых имели низкую вариативность

Эксперты

Строгость

Ошибка измерения

Взвешенный среднеквадратичный остаток (MnSq)

10095073

1,44

0,51

0,40

7332408

2,81

0,50

0,49

4543574

-0,62

0,53

0,45

9009336

0,03

0,47

0,42

10257593

2,42

0,49

0,41

10412044

4,63

0,48

0,40

10257748

4,71

0,57

0,37

5481142

0,62

0,51

0,36

5502447

4,04

0,57

0,44

10355196

-2,86

0,42

0,35

9285714

-1,97

0,47

0,34

10214966

-0,53

0,49

0,26

10328843

0,55

0,48

0,25

6041145

-3,55

0,79

0,31

3786292

3,55

0,79

0,38

10219954

2,31

0,68

0,28

6690582

2,09

0,80

0,3

3179622

0,72

0,45

0,20

8277703

4,51

0,88

0,19

3557592

2,22

0,75

0,33

1454749

0,86

0,77

0,14

10274168

-0,28

0,88

0,19

10424109

5,87

0,88

0,19

1636318

4,35

0,86

0,20

Приложение 4

Непредсказуемые параметры студентов, отклоняющиеся от модели

Студенты

Уровень способностей

Ошибка измерения

Взвешенный среднеквадратичный остаток (MnSq)

10259577

4,04

1,11

1,62

10133370

-3,16

0,77

4,51

5415267

2,13

0,83

1,72

10425923

6,14

1,10

1,52

10274168

2,38

0,88

2,97

812213

0,04

0,52

2,50

9678121

-1,86

0,53

2,21

10344888

-2,78

0,63

1,89

7047995

-1,05

0,37

2,33

6223682

-0,12

0,56

2,30

10377859

-0,36

0,57

2,27

6690582

2,51

0,62

2,19

8215232

0,30

0,77

2,01

5798652

0,14

0,58

1,96

8626087

-3,80

0,44

1,79

5445904

3,43

0,62

1,82

6238878

-1,98

0,66

1,78

10237640

-0,72

0,70

1,63

9199377

-2,24

0,55

1,63

9009336

-2,28

0,45

1,69

3819354

0,44

0,88

1,66

3356221

0,05

0,51

1,64

10367609

-0,69

0,74

1,63

6203654

2,80

0,72

1,63

10512657

3,10

0,50

1,60

10257877

2,00

0,51

1,75

Приложение 5

Студенты, способности которых низкую вариативность

Эксперты

Строгость

Ошибка измерения

Взвешенный среднеквадратичный остаток (MnSq)

10233749

0,00

0,56

0,49

7198616

0,69

0,45

0,47

10313137

-2,20

0,6

0,48

1278662

0,01

0,51

0,46

10536251

-4,20

0,53

0,44

10402867

-0,49

0,59

0,41

9969310

-4,53

0,61

0,40

6633262

1,92

0,55

0,45

6546047

0,53

0,70

0,38

7280198

0,78

0,57

0,36

1773110

-0,67

0,54

0,36

9212204

-0,51

0,58

0,35

10287955

-1,59

0,53

0,41

9208718

1,83

0,51

0,35

10107747

-2,03

0,54

0,34

6975555

-3,12

0,70

0,43

10463990

-1,11

0,59

0,30

6653040

-2,06

0,65

0,29

10008036

-1,42

0,50

0,25

10195716

0,77

0,71

0,25

6731773

-0,31

0,55

0,28

10231547

0,28

0,55

0,24

9285714

0,18

0,79

0,36




Похожие работы, которые могут быть Вам интерестны.

1. ОЦЕНИВАНИЕ В ПРАВОВОМ ОБРАЗОВАНИИ

2. Взаимное положение двух прямых. Свойства их проекций

3. Взаимное положение двух плоскостей: взаимно параллельные плоскости

4. Математическое описание эффективности процесса гидродинамического пылезадержания пенным слоем на открытых источниках предприятий строительной индустрии

5. Оценивание образовательных результатов младших школьников на диагностической основе

6. Реконструкция многоэтажного жилого дома первых массовых серий

7. Обеспечение безопасности при проведении массовых мероприятий во внеурочной деятельности школы

8. Процесс найма фрилансеров онлайн

9. Услуги онлайн-сервисов банка

10. Формирующее оценивание как инструмент повышения качества усвоения учебного материала учащимися