Структура контрольно-измерительных материалов экзаменов (тестов) с высокими ставками



Содержание

Введение…………………………………………………………………..…...….3

Глава 1. Тестирование с высокими ставками…………………………….….….7

1.1 Тестирование, как способ оценки знаний обучающихся……..….…7

1.2 Измерительные инструменты (КИМ) для экзаменов с высокими ставками: преимущества и недостатки разных форм заданий…………..….....9

1.2.1 Задания закрытого типа………………………………….…..…9

1.2.2 Задания открытого типа………………………………………13

1.2.3 Задания с выбором правильного ответа и  задания с коротким и развернутым ответом, какие из них лучше? ................................................15

1.3 Мировая практика экзаменов с высокими ставками: структура КИМ………………………………………………………………………..…..…18

1.3.1 Страны СНГ……………………………………………………20

1.3.2 Англия……………………………………………………….…23

1.3.3 США……………………………………………………………24

1.3.4 Франция…………………………………………………..……25

1.3.5 Россия……………………………………………………….….25

1.4 Оптимальная структура теста………………………………………..27

Глава 2. Практическая часть – симуляция новой структуры теста. Моделирование заданий…………………………………………………….…30

2.1 Методология исследования………………..……………….…….…30

2.2 Анализ характеристик исходного и симулированных тестов……33

2.3 Обсуждение…………………………………………………………..49

Заключение………………………………………………………………………50

Список литературы………………………………………………………………52

Приложение 1…………………………………………………………………….56

Введение

Обучение является неотъемлемой частью нашей жизни, также как и оценка знаний, полученных в ходе него. Только посредством оценки можно отследить, «получают ли необходимые знания и навыки конкретные учащиеся» [2]. Одним из важнейших этапов окончания школы является выпускной экзамен, результаты которого должны отражать уровень усвоения школьного материала выпускником.

В некоторых странах, в том числе и в России, результаты такого тестирования являются вступительными в вузы, что дает ему статус экзамена «с высокими ставками». Поступление в вуз для многих выпускников является приоритетной задачей после окончания школы, и очень многое зависит от итогового балла, набранного учениками, поэтому тест должен быть очень высокого качества. Необходимо учитывать множество деталей: какой должна быть структура теста, какие типы заданий и какое их количество он должен включать, чтобы быть оптимальным и с точки зрения минимизации ошибки измерения и относительной несложности массового проведения оценки и так далее.

Возьмем, как пример, Единый Государственный Экзамен (далее ЕГЭ), который можно отнести к экзаменам с высокими ставками, что означает высокую степень важности полученных по нему результатов для выпускников 11 класса. ЕГЭ объединяет в себе две функции:

- выпускного экзамена, то есть оценки степени освоения конкретным учеником школьной образовательной программы;

- вступительного экзамена в вуз, то есть оценки готовности продолжения обучения учеников в высших учебных заведениях, на основе выстраивания рейтинга по результатам тестирования[2].

Структура ЕГЭ постоянно видоизменяется, и одним из таких изменений является то, что постепенно убираются задания с выбором одного правильного ответа, как результат сформированного убеждения, что это вопросы-«угадайки». Но так ли это на самом деле? Заслуженно ли эти задания исключаются из структуры тестирования? Это нам предстоит выяснить в рамках диссертационной работы.

В отличие от многих зарубежных стран, где существуют стандарты разработки и применения тестирования в образовании, в России таких стандартов пока нет, и все изменения, происходящие в контрольно-измерительных материалах (далее КИМах), являются политическими решениями. Стандарты представляют собой схему процесса создания теста, все этапы его разработки – от анализа и отбора содержания до анализа качества тестовых заданий. Принятие такого стандарта придаст всем разрабатываемым инструментам оценивания, любым изменениям в существующих инструментах (в частности, ЕГЭ) научное, а не только политическое обоснование, и доверие к ним в профессиональном сообществе и обществе в целом существенно повысится. Стандарт должен учитывать лучшие международные практики и адаптировать их к российской системе образования[4].

Актуальность исследования вытекает из необходимости научно - обоснованных подходов к разработке любых тестов, но особенно  тестов с высокими ставками, предназначенных для проверки соответствия знаний образовательным стандартам. Вопрос оптимальности структуры экзаменов с высокими ставками, таких как ЕГЭ, актуален на сегодняшний день по нескольким причинам: во-первых, от них зависит дальнейшая траектория жизни и обучения выпускников. Во-вторых, самим вузам необходимо отобрать наиболее «подготовленных» абитуриентов, особенно на бюджетные места: так как всех принять невозможно, то решение принимается в большинстве случаев по результатам ЕГЭ. Поэтому  необходимо, чтобы тест с высокими ставками соответствовал ряду требований. Он должен быть  максимально валиден, надежен, информативен и обеспечивать минимальную ошибку измерения участников тестирования. Для обоснования той или иной структуры теста, необходимо провести ряд исследований, позволяющих говорить о ее оптимальности.

Объект исследования – экзамены (тестирование) с высокими ставками.

Предмет исследования – структура контрольно-измерительных материалов экзаменов (тестов) с высокими ставками.

Проблема исследования состоит в отсутствии в российском профессиональном сообществе единого мнения о структуре экзаменов с высокими ставками, есть разные точки зрения, но, самое главное, ни одна не основана на научных исследованиях (не обоснована эмпирическими данными).

Исследовательский вопрос: какая структура теста с высокими ставками (типа ЕГЭ) является оптимальной с точки зрения удовлетворения всем требованиям к такому экзамену?

Цель исследования – определить наиболее оптимальную структуру тестов с высокими ставками на примере теста аналогичного КИМ ЕГЭ (имеющего такую же сложную структуру).

Задачи исследования:

- проанализировать исследования, посвященные изучению заданий различных типов в тестировании, в первую очередь,  заданий с выбором одного правильного ответа и открытых заданий;

- провести сравнение эффективности заданий разных типов, а также сравнение эффективности тестов с различной структурой (различной комбинацией заданий разных типов);

- выяснить, какая структура теста является оптимальной.

Гипотеза исследования – комбинация заданий различных форм способна обеспечить оптимальную структуру экзаменов с высокими ставками.

В рамках диссертационной работы предполагаетсякачественная методология исследования: общенаучные методы теоретического исследования - классификация, сравнение, аналогия, описание и объяснение, анализ и синтез, обобщение, иколичественная – анализ теста аналогичного КИМ ЕГЭ в рамках современной теории тестирования, симуляция различной структуры исходного теста – исключение некоторых заданий и добавление смоделированных заданий для анализа и сравнения получившихся характеристик.

Результаты диссертационной работы делятся на:

- теоретические: оценка необходимости заданий с выбором правильного ответа  в тестировании и, в частности, в тестах с высокими ставками с учетом мирового опыта;

- эмпирические: предложена оптимальная структура теста с высокими ставками на примере теста аналогичного КИМ ЕГЭ.

Глава 1. Тестирование с высокими ставками

1.1 Тестирование, как способ оценки полученных знаний

Технологии тестирования широко используются в мировой практике для объективного контроля знаний и умений обучаемых, установления степени их соответствия образовательным стандартам и для отбора учащихся для дальнейшего обучения.

Создание теста состоит из множества этапов[5], одним из которых является разработка заданий. Это, очевидно, особенно важный этап, и для его успешной реализации необходимо, чтобы его выполняли люди со специальными знаниями и навыками. Может показаться, что нет ничего сложного в том, чтобы составить задания для проведения оценки того, что усвоили ученики за период своего обучения. На самом же деле, это целое искусство составить такое задание, чтобы оно оценивало именно то, что было задумано, чтобы оно было понятным, корректно составленным, дифференцировало слабых испытуемых от сильных и многое другое: есть множество нюансов, которые следует учитывать при создании КИМов для их более высокой эффективности.

«Эффективным можно назвать тест, если он лучше, чем другие тесты, измеряет знания студентов … с меньшим числом заданий, качественнее, быстрее, дешевле и все это по возможности в комплексе» [1]. В настоящей работе мы под «эффективным» будем понимать тест, который измеряет испытуемых с минимальной ошибкой измерения, и при этом удовлетворяет критериям качества. Оптимальной мы будем называть такую структуру теста, которая обеспечивает большую его эффективность. Хорошо составленный КИМ имеет высокую валидность (измеряет то, что должен измерять и дает результаты, отражающие измеряемый конструкт) и надежность (обеспечивает  минимальную ошибку измерения). Это означает, что он должен:

- быть валидным по содержанию, т.е. репрезентативно и полно отражать содержание проверяемой учебной дисциплины;

- удовлетворять требованиям с точки зрения психометрического качества в рамках выбранной теории (классической или современной) и выбранной модели измерения;

- дифференцировать более подготовленных учащихся от менее подготовленных;

- не содержать заданий, дискриминирующих какую-либо группу участников;

- быть одномерным, т.е. измерять только тот конструкт, который должен. Это означает, что тест не должен содержать заданий, требующих применения навыков, которые не измеряются тестом.

При разработке теста, необходимо решить, задания какой формы он будет включать – открытой, закрытой или и той, и другой. Выбор формы – это всегда ответственность разработчика. При этом надо учитывать, что выбор формы задания определяется содержанием задания (той областью знаний, которая оценивается) и уровнем проверяемых умений [25].

Важным элементом является и количество заданий, которое закладывает разработчик в тест: «чем больше количество заданий, тем:

- более надежным будет создаваемый тест;

- больший объем информации мы можем получить»[5].

Однако вместе с увеличением количества заданий в рамках одного теста увеличивается и время его выполнения, что может приводить к негативным последствиям - таким, как утомление, которое может привести к увеличению числа случайных ошибок, снижению скорости выполнения заданий [5]. Для того чтобы этого не происходило, как один из вариантов, можно грамотно сочетать задания различных типов, делая тест не слишком длинным, но и не слишком коротким.

Далее в работе мы рассмотрим задания разных типов вместе с их преимуществами и недостатками.

1.2 Формы и типы заданий в тестировании, их достоинства и недостатки

В КИМ для экзаменов с высокими ставками могут входить задания различных форм, которые можно разделить на две большие группы: открытые и закрытые формы заданий. Они, в свою очередь, также могут делиться на несколько типов, которые мы рассмотрим далее.

1.2.1 Вопросы закрытого типа

Вопросы закрытого типа можно разделить на:

- задания с выбором одного правильного ответа;

- задания с выбором нескольких правильных ответов;

- задания с двумя вариантами - верно/неверно.

Чаще всего в тестировании используются задания с выбором одного правильного ответа. Такие задания состоят из вопроса (стема - постановки вопроса или задачи) и нескольких вариантов ответа (обычно от трёх до пяти), один из которых является правильным, остальные предложенные варианты называются «дистракторами» и призваны отвлечь испытуемого от правильного ответа, поэтому они не должны быть очевидно неверными ответами, а наоборот, должны быть одинаково правдоподобными наравне с правильным ответом.

Халадина Т. и Даунинг М. сформулировали 43 правила по написанию заданий с выбором одного правильного ответа и разделили их на три категории: (1) общие правила по написанию заданий, (2) составление вопроса (стема) и (3) разработка вариантов ответа [22]. Затем они провели валидизацию этих правил, некоторые из которых были пересмотрены.

Как и все формы заданий, формат задания с выбором одного правильного ответа имеет преимущества, главными из которых являются их эффективность и объективность, задания с выбором правильного ответа позволяют оценивать большое количество кандидатов с минимальным вмешательством человека [26]. Также задания с выбором правильного ответа требуют меньше времени на выполнение, чем задания других форм, что позволяет включить большое число таких заданий и тем самым шире охватить содержание дисциплины.  При условии, что такие задания хорошо составлены, они могут хорошо дифференцировать испытуемых с высоким и низким уровнем способностей [34]. Однако для того, чтобы сделать задание с выбором правильного ответа качественным, необходима высокая квалификация разработчика и  достаточно много времени [16].

Некоторые авторы отмечают, что задания с выбором одного правильного ответа чаще проверяют только фактические знания, а не когнитивные навыки [29].Другие считают, что хорошо построенные задания с выбором правильного ответа могут также оценивать способности  более высокого порядка, такие как интерпретация, обобщение и применение знаний, а не служить только для проверки знания единичных фактов [7,12,20,21].

В качестве примера проверки умения применять, добывать и оценивать информацию с помощью заданий с выбором одного правильного ответа можно взять американский экзамен SAT, в котором превалируют задания с выбором одного правильного ответа, но, например, в разделе «чтение» необходимо не просто выбрать правильный ответ, но и выделить кусок текста, на основе которого испытуемый выбрал свой ответ.

Актуальным остается вопрос по поводу того, сколько вариантов ответа должно быть в задании с выбором одного правильного ответа. Некоторые исследования говорят, что достаточно трёх вариантов ответа [27]. Однако в этом случае вероятность угадывания правильного ответа увеличивается до 1/3. Логичным представляется, что пять вариантов ответа снижают эту вероятность до 1/5, но составление такого количества правдоподобных дистракторов может оказаться довольно затруднительным.

Преимущества вопросов с выбором правильного ответа [4]:

- полнота охвата по содержанию: во-первых, содержание практически любой дисциплины может быть отражено в этой форме заданий, во-вторых, эта форма дает возможность более полно охватить содержание проверяемой учебной дисциплины;

- полнота охвата по проверяемым уровням учебной деятельности: от простого запоминания до более сложных уровней, таких, как понимание, применение знаний в стандартной и нестандартной ситуации, анализ и т.д.;

- эффективность: быстрота тестирования с помощью заданий этой формы позволяет предложить больше заданий в одно и то же время, а значит, покрыть гораздо больше тем содержания предмета;

- технологичность: задания этой формы могут проверяться автоматически и легко адаптируются в компьютерную форму тестирования;

- простота подсчета первичных баллов учеников: как правило, при оценивании заданий этой формы используется дихотомическая оценка, ученик получает 1 балл за правильно выполненное задание и 0 баллов  в противном случае;

- объективность: существует эталон правильного ответа, поэтому эти задания не требуют проверки человеком;

- возможность обратной связи: дистракторы, выбранные студентами, могут дать педагогу информацию о проблемах в обучении.

Недостатки заданий с выбором одного правильного ответа:

- высокая сложность, а отсюда ресурсозатратность, составления качественного задания;

- реже делаются тестовые задания, требующие высоких когнитивных навыков, потому что составить задание, требующее оценки фактического знания, легче;

- зависимость от навыков чтения тестируемого;

- возможно угадывание правильного ответа.

Гадание правильного ответа  можно разделить на два вида:

- произвольное (random) – когда испытуемый случайно выбирает ответ среди всех вариантов;

- непроизвольное, информированное (informed), когда испытуемый выбирает ответ, исключая какие-то варианты, иногда очевидно неправильные.

В статье Калиновой Г.С. в журнале «Педагогические измерения» автор выделяет следующие недостатки заданий с выбором одного правильного ответа в «итоговой аттестации»: «невозможность проверять материал творческого характера, умения применять, добывать и оценивать приобретённые знания; трудоёмкость разработки качественного инструментария; сложности в выявлении причины пробелов в усвоении определённого материала. К числу главных недостатков заданий с выбором ответа относят присутствие элемента случайности, угадывания верного ответа. Для исключения угадывания при составлении вариантов в экзаменационную работу включаются задания с выбором одного ответа, имеющие результаты выполнения ниже 85%, а дифференцирующую силу выше 25%» [3].

Еще одним типом заданий закрытой формы являются задания с выбором нескольких правильных ответов, которые, как правило, связаны с идеей проверки так называемых классификационных знаний, или иначе, проверки знаний принадлежности отдельных видов или объектов к тому или иному роду, виду, классу. Вероятность случайного ошибочного выбора будет возрастать по мере увеличения, в одном задании, числа неправильных ответов. Особенностью заданий такого типа является то, что в них приходится определять не только правильные ответы, но и оценивать самому испытуемому полноту своего ответа, а следовательно, эти задания по форме и содержанию труднее, чем задания с выбором одного правильного ответа [1]. Необходимость выбрать несколько правильных ответов в задании уменьшает вероятность угадывания испытуемыми.

Также к заданиям закрытой формы относится задания с двумя вариантами ответов верно/неверно. Этот тип заданий имеет все положительные стороны задания с выбором одного правильного ответа из нескольких предложенных, минусом же является высокая вероятность угадывания правильного ответа, а именно 50%. По этой причине такие задания практически не используются в экзаменах с высокими ставками.

К заданиям закрытого типа также можно отнести: задания на установление соответствия и задания на установление правильной последовательности. Такие задания также используются в экзаменах с высокими ставками (в частности, могут входить в часть В ЕГЭ по различным предметам), но в рамках нашей работы подробно на них мы останавливаться не будем.

1.2.2 Задания открытого типа

Задания открытой формы можно разделить на два типа:

- задания с кратким ответом;

- задания со свободно конструируемым ответом.

Отметим положительные и отрицательные стороны открытых заданий.

Преимущества заданий с кратким ответом:

1. Полнота охвата по содержанию. Содержание почти любой дисциплины может быть отражено в этой форме заданий.

2. Их сравнительно легко разрабатывать (по сравнению с другими формами).

3. В силу однозначности правильного ответа проверка результатов носит объективный характер, может быть автоматизирована. Не требуется экспертная проверка.

4. Отсутствует угадывание правильного ответа.

Недостатки заданий с кратким ответом:

  1. На выполнение одного задания уходит больше времени, чем, например, на задания с выбором одного правильного ответа.
  2. Проверятся меньшее число элементов содержания программы.

Преимущества заданий со свободно конструируемым ответом:

  1. Являются эффективным способом для измерения когнитивных знаний более высокого уровня и подходят для измерения способностей учеников организовывать и интегрировать информацию, логически выстраивая свой ответ.
  2. Подготовка к таким заданиям имеет положительный эффект на процесс обучения. Ученики не просто запоминают факты, а пытаются понять материал, увидеть взаимосвязи и т.д. В реальной жизни вопросы не будут представлены в формате множественного выбора, а будут требовать от учеников умения выстраивать и представлять свои мысли.

Перечислим основные недостатки заданий со свободно конструируемым ответом:

1.Субъективность: такие задания требуют экспертной проверки, и различные факторы могут повлиять на оценку и выставление баллов, например:

1) Ответ на вопрос задания, который проверяется после очень хорошего ответа, может быть оценен хуже, чем, если бы он проверялся после плохого ответа.

2) Если ответ начался с хорошей аргументации, то последующие доводы могут быть оценены выше, чем, если бы ответ начался с плохой/неправильной аргументации, в этом случае последующие хорошие ответы могут быть оценены ниже.

3) Проверяющий может иметь некоторые ожидания на счет того, чью работу он проверяет, которые могут повлиять на выставленные баллы.

4) Качество почерка, опрятность работы, лексика и грамматические ошибки или их отсутствие также могут повлиять на отношение проверяющего.

2.Очень много времени занимает ответ на вопрос задания и последующая проверка;

3. Из-за того, что ответ на один открытый вопрос требует достаточно продолжительного времени, захватываемая область содержания узкая;

4. Проверка занимает много времени и начисление баллов является субъективным решением проверяющего.

1.2.3 Задания с выбором правильного ответа или задания с кратким и развернутым ответом, какие из них лучше?

Считается, что задания с выбором правильного ответа направлены лишь на оценку низших уровней когнитивных процессов, в отличие от заданий с кратким ответом. Также небезосновательно считается, что они имеют вероятность угадывания правильного ответа, что понижает надежность оценивания менее подготовленных тестируемых [32].Но многие исследования показывают, что задания с выбором правильного ответа также могут оценивать когнитивные способности более высокого порядка, чем принято считать [19,30].

В статьеElizabethLigon и ее коллег [15] на основе изучения лабораторных (laborbased) исследований и исследований, проведенных в классах (classroombased), делается вывод, что, несмотря на то, что задания с выбором одного правильного ответа считаются «необходимым злом», такая репутация не обоснована в отношении потенциала тестирования с заданиями такой формы как инструмента содействия обучению. Задания с выбором одного правильного ответа, заявляют авторы, не только способствуют изучению информации, но также способствует изучению связанной информации.

Для того, чтобы понять, влияет ли и как именно то, что из теста исключаются вопросы с конструируемым ответом и остаются только задания с выбором правильного ответа и, наоборот, убираются задания с выбором правильного ответа и остаются задания с конструируемым ответом, надо оценить, способны ли оба этих формата заданий оценивать одни и те же способности. Для этого в литературе можно выделить два подхода. В первом используют задания с одинаковыми вопросами (стемами) в обеих формах заданий, чтобы исключить различия в содержании, а во втором подходе задания двух форматов имеют разные вопросы, затрагивающие одинаковые или разные области знаний. Высокая корреляция указывает на то, что оба формата измеряют одинаковые способности, а низкая – на то, что измеряются разные конструкты.

Помимо корреляционного исследования для оценки того, одинаковые ли конструкты измеряют оба формата, можно использовать факторный анализ [32]. Так, некоторые исследования показали, что задания с выбором правильного ответа чаще всего нагружены одним фактором, а задания с конструируемым ответом могут быть нагружены несколькими факторами [8,11,27,32].

Роберт В. (Robert W. Lissitz) и Ксайодонг Ху (Xiaodong Hou) в своем исследовании [32] изучили корреляцию баллов в заданиях двух форм, а именно баллов по тесту, который состоял из заданий обоих форм, и тестов содержащих задания только одной из двух форм. Результаты показали довольно сильную корреляцию. Между итоговыми баллами по тесту с заданиями с конструируемым ответом и без них она составила 0.96 по алгебре, 0.98 по биологии и 0.98 по английскому. Надежность теста немного снизилась, когда из теста убрали задания с конструируемым ответом, но стала даже немного выше, когда добавили еще вопросов с выбором правильного ответа.

Согласно проведенному исследованию Никсон Чан и Питера И. Кеннедит [28] некоторые задания с выбором одного правильного ответа, с одной стороны, могут быть легче, чем такие же задания, но с конструируемым ответом, даже после поправки на гадание, так как предложенные варианты ответа могут помочь вспомнить и натолкнуть на правильный ответ. Например, если попросить дать определение какому-нибудь феномену, испытуемый может оказаться неспособным сформулировать ответ, а при наличии нескольких альтернатив может быть способен выбрать правильный ответ. Так,Heim иWatts (1967) обнаружили, что баллы по тесту на проверку словарного запаса с заданиями с выбором одного правильного ответа выше, чем баллы по такому же тесту, но с открытыми ответами [21]. Те же результаты, только при проверке математических знаний, получились и у Франка Паджереса и M. Дэвида Миллера [17].Гилберт Сакс и ЛеВерн С. Коллет в своей статье продемонстрировали, что средний балл по тесту с заданиями с выбором одного правильного ответа выше в случае, когда испытуемые готовятся по тестам с заданиями этого же типа, чем средний балл, когда они готовятся по заданиям с открытым ответом [18]. Более высокий средний балл у испытуемых, которые решали задания с выбором одного правильного ответа, наблюдается и в симуляционном исследовании Роберта Б. Фрари [31].

С другой стороны, некоторые задания с выбором одного правильного ответа не дают никаких преимуществ испытуемым, так как ответ на эквивалентное ему задание с конструируемым ответом может быть настолько очевидным, что не будет отличаться от задания с выбором одного правильного ответа. А иногда дистракторы в задании с выбором правильного ответа, если задание хорошо составлено, могут казаться даже правдоподобнее, чем правильный ответ, что является затрудняющим элементом.

В исследовании Смита и Смита [34], в котором сравнивалась трудность заданий с выбором одного правильного ответа и с открытым ответом теста на понимание прочитанного, авторы обнаружили, что трудность обоих типов заданий оказалась примерно одинаковой. Они предположили, что возможной причиной этому может послужить то, что возможность вернуться к прочитанному тексту нивелирует возможность угадывания в заданиях с выбором одного правильного ответа (в случае работы с текстом).

Роберт Б. Фрэри в своей статье говорит, что вычисленная им надёжность и валидность тестов с заданиями с открытым ответом не на столько выше, чем с заданиями с выбором одного правильного ответа, чтобы не учитывать то, сколько усилий необходимо приложить для их оценивания, не говоря уже о таком недостатке, как возможная субъективность такой оценки [31].

DavidThissen,HowardWainer иXiang-BoWang отмечают, что имеет смысл использовать совместно задания с выбором одного правильного ответа с заданиями со свободным ответом, из-за маленького размера нагрузок последних на свои собственные специфические факторы, из-за чего баллы по заданиям с открытым ответам не будут отличаться от баллов по заданиям с выбором одного правильного ответа. Для большей нагрузки надо использовать куда больше заданий с открытым ответом, чем это делается обычно, что не совсем удобно из-за времени, которое тратится на одно задание такого типа [13].

Таким образом, исходя из всего вышесказанного, можно сделать вывод, что главными недостатками заданий с выбором одного правильного ответа являются возможность угадывания учеником правильного ответа и наталкивания его на правильный ответ. Однако задания этого типа имеют ряд весомых преимуществ, при том, что в случае эквивалентности заданий обеих форм, можно достичь схожего уровня трудности и высокой корреляции между результатами по заданиям двух форм. В некоторых случаях не имеет значения, какой тип заданий используется в тесте. Например, в случае работы с текстом  возможность вернуться к нему нивелирует возможность угадывания в заданиях с выбором одного правильного ответа. В этом случае трудность заданий обоих типов – с выбором одного правильного ответа и открытых – примерно одинаковая.

1.3 Структура экзаменов в разных странах

Во многих странах, как и в России, проводятся экзамены для выпускников школ и абитуриентов вузов. В некоторых странах один экзамен объединяет в себе обе эти функции, а в некоторых - это два разных экзамена или школьники сдают всего один экзамен, выполняющий одну из двух функций: выпускной, либо вступительный, в зависимости от образовательной политики страны. В таблице ниже приведен список некоторых стран и цели проведения экзамена в них. Также в ней указаны формы заданий, которые присутствуют в КИМе.

Таблица 1. Структура тестов с высокими ставками, мировой опыт

Страны

Типы заданий

С какой целью проводится экзамен

МС

С

кратким

ответом

С

развернутым

ответом

1. Англия

+

+

+

GCSE – для получения аттестата о среднем образовании. A-levels - получение Общего свидетельства об образовании продвинутого уровня и одновременно вступительные в вуз.

2. Белоруссия

+

+

+

ЦТ - одновременно выпускной и вступительный экзамен.

3. Бразилия

+

+

+

Есть выпускной экзамен и вступительные (но выпускной тоже учитывается).

4. Казахстан

+

-

-

ЕНТ -одновременно выпускной и вступительный экзамен.

5. Киргизия

+

-

-

Одновременно выпускной и вступительный (есть еще дополнительные вступительные).

6. Китай

+

+

+

Одновременно выпускной и вступительный.

7. США

+

+

+

SAT как вступительный.

8. Турция

+

-

-

OSS–выпускной,YFS - вступительный экзамен.

9. Франция

-

-

+

Сертификация и поступление в университеты

10. Южная Корея

+

-

-

Вступительный в вузы.

Как видно из таблицы 1 во всех рассмотренных странах, кроме Франции, в структуру экзаменов входят задания с выбором одного правильного ответа. В четырех странах экзамены состоят только из заданий с выбором одного правильного ответа.

Структура экзаменов и число предметов, по которым проводятся экзамены, отличается по странам. В Южной Корее, например, выпускники сдают всего один экзамен - College Scholastic Ability Test. «С его помощью оценивается не общеобразовательная подготовка, а способности и умения для продолжения образования. Тест состоит из 4 частей: вербальный тест, математика, исследования в области естественных и социальных наук, английский как иностранный язык» [42]. «Во Франции набор экзаменов определяется направлением лицея, но один экзамен по французской литературе обязателен для всех» [39]. В Беларуси два экзамена являются обязательными (математика и язык, белорусский или русский), третий – по выбору. С 2017 года абитуриенты могут сдавать 4 предмета вместо трёх. Однако 4-ый тест является необязательным.

Рассмотрим более подробно структуру экзаменов в некоторых странах.

1.3.1 Страны СНГ

Далее будут кратко рассмотрены экзамены Азербайджана, Грузии, Киргизии, Таджикистана и более подробно – Белоруссии и Украины.

В Азербайджане вступительные экзамены в вузы проходят по четырем группам специальностей (Таблица 2).

Таблица 2. «Группы специальностей»

Предмет

Статус квалификации и весовые коэффициенты

ГРУППА I

ГРУППА II

ГРУППА III

ГРУППА IV

Родной язык

1

1

2

1

Литература

1

Математика

2

2

1

1

Физика

2

1

Химия

1

2

Биология

2

История

2

История Азербайджана

1

География

2

Иностранный язык

1

1

1

Абитуриентам дается 25 заданий по каждому предмету, то есть в целом 125 тестовых заданий. Все задания с выбором одного правильного ответа. Однако во II группе специальностей последние 4 задания даются в виде открытых заданий по математике, географии и родному языку (для азербайджанского сектора - по азербайджанскому языку, для русского - по русскому языку), а в III группе специальностей - по математике, истории и родному языку (для азербайджанского сектора - по азербайджанскому языку, для русского - по русскому языку). Один из открытых вопросов имеет вид «установление соответствия».

Помимо тестовых испытаний по некоторым специальностям необходимо сдать экзамен по выявлению особых способностей (дизайн, журналистка, архитектура…).

В Грузии проводится Единый национальный экзамен.

Экзамен состоит из обязательных предметов и одного по выбору.

Обязательные экзамены:

- экзамен по грузинскому языку и литературе;

- экзамен по общим навыкам;

- иностранный язык (включает русский);

+ 1 экзамен по выбору.

Тест по математике, например, состоит из 2х частей, в первой части 30 заданий закрытого типа, а во второй – 10 заданий открытого типа.

В Киргизии проводится Общереспубликанское тестирование (ОРТ) - обязательный экзамен для абитуриентов, поступающих в высшие учебные заведения. Результаты Общереспубликанского тестирования являются обязательными для зачисления на все формы обучения в вузы. Для тестирования абитуриентов используются тесты двух видов: основной тест и предметные тесты, которые составляются на государственном и официальном языках. Результаты тестирования по видам тестов оцениваются отдельно. Все абитуриенты сдают основной тест. Он состоит из четырёх частей: математической, словесно-логической, чтения и понимания на родном языке и практической грамматики родного языка. Тест выполнен в формате вопросов с выбором одного правильного ответа из 5-и вариантов. Тесты предлагаются абитуриентам на трех языках по выбору: киргизском, русском и узбекском в зависимости от того, на каком языке тестируемый может наиболее успешно проявить себя.

В Таджикистане проводится Централизованный вступительный экзамен, состоящий из трех компонентов:

- Компонент А – общий экзамен.

- Компонент Б – экзамен по специальности.

- Компонент В – творческий экзамен или экзамен по специальным навыкам.

Для каждого типа тестовых заданий установлены критерии оценки – максимально возможное количество баллов [41].

Так, за правильный ответ на задание с выбором одного правильного ответа максимально возможное количество баллов – 1; на установление соответствия – 4 (указанное количество очков Вы набираете в случае, если правильно установите соответствие между всеми четырьмя элементами – за каждое правильное установление соответствия даётся 1 балл); на задание открытого типа – 2 балла.

В Белоруссии проводится Централизованное тестирование (ЦТ) — форма вступительных испытаний на основе стандартизированных процедур проведения тестового контроля и обработки результатов тестов. Используется для проведения конкурса при поступлении в учреждения высшего, среднего специального и профессионально-технического образования Беларуси.

С 2017 года абитуриенты могут сдавать 4 предмета вместо трёх. Однако 4-ый тест будет необязательным. Зачисление в вузы идет по результатам трех тестов, среди которых обязательно должен быть тест по русскому или белорусскому языку. Каждый предмет сдается отдельно друг от друга, то есть является отдельным тестом.

Пример структуры экзамена по математике.

Экзамен по математике состоит из двух частей – А (18 заданий с выбором одного правильного ответа) и В (12 заданий: на  установление соответствия и с кратким ответом). Заданий с развернутым ответом в структуре теста нет. Общее число заданий - 30, и на их выполнение дается 180 минут (3 часа).

В экзамен по биологии, например, входит 38 заданий с выбором одного правильного ответа и 12 заданий с выбором нескольких правильных ответов из предложенных вариантов, задания на установление соответствия и задания с кратким ответом – всего 50.

На Украине проводится Внешнее национальное тестирование.

Всего можно сдавать 4 предмета. Из них обязательным является украинский язык и литература. Что касается второй обязательной дисциплины, то здесь можно выбрать – математика или история Украины.

Для примера рассмотрим более подробно экзамен по математике:

Тест по математике в 2017 году будет состоять из 33 вопросов, на выполнение которых будет даваться 180 минут. Двадцать первых заданий – это задания с выбором правильного ответа (оцениваются дихотомически), следующие 4 задания на установление правильной последовательности (0-4 балла), далее 6 открытых заданий с кратким ответом (0-2 балла) и 3 задания с развернутым ответом (4,4,6 баллов). Максимальный балл, который можно набрать – 62. Тест по биологии включает 50 заданий. Из них 40 заданий с выбором одного правильного ответа, 6 заданий на установление правильной последовательности, 4 задания с выбором трех правильных ответов из трех групп предложенных вариантов ответов [43].

1.3.2 Англия

В Англии ученики сдают экзамен «А-level», в который может входить от трех до шести предметов, на выбор сдающего экзамен. Каждый тест может содержать вопросы с выбором правильного ответа, с кратким и развёрнутым ответом.

Экзамены за курс обязательного обучения в Англии сдаются централизованно, а для поступления в вуз сначала необходимо пройти специальное двухлетнее обучение и сдать экзамены повышенного уровня. Разрабатываются и проводятся эти экзамены специальными независимыми организациями, министерство образования дает лишь рекомендации по содержанию программы. Большинство вузов страны требуют успешной сдачи экзаменов по не менее, чем трем экзаменам повышенного уровня.

В зависимости от объема пройденного материала по одному предмету можно сдавать экзамен разного уровня сложности. Количество предметов и объем материала определяют «стоимость» оценок.

Результаты экзаменов оценивает специальная экзаменационная комиссия вне школы. «Комиссия - своеобразный посредник между абитуриентом и университетом: она принимает и сортирует заявки на поступление, помогает абитуриентам собрать документы и связываться с университетами, а университетам - контактировать с поступающими. Полученные оценки являются вступительными в высшее учебное заведение» [38].

Структура тестов в основном состоит из вопросов с кратким или развернутым ответом, но есть и вопросы с выбором правильного ответа [36].

1.3.3 США

Еще несколько лет назад Совет колледжей (организация, администрирующая тест) объявил о грядущих изменениях в тесте, которые вступят в силу уже в марте этого года. Новая версия теста включает два обязательных блока заданий: «Доказательное чтение и письмо» и «Математика» и третий блок «Эссе», который стал необязательным. Особый акцент делается на способности учеников работать с контекстом, логически мыслить и аргументировать, а не на навыки сами по себе, обособленно друг от друга. Задания с выбором ответа будут включать не 5, а 4 варианта ответа, но это не делает тест легче, просто из теста убрали самые маловероятные ответы.

Для того, чтобы учащиеся смогли подготовиться к тестированию, Совет колледжей совместно с Академией Хана предоставили бесплатные тренировочные материалы ещё весной 2015 года.

Структура теста состоит из вопросов с выбором правильного ответа и открытых вопросов.

1.3.4 Франция

Во Франции перед поступлением в вуз необходимо пройти обучение в лицее, обычном или техническом. По окончании обучения ученики сдают экзамен “baccalauréat”, сокращенно «lebac», и получают степень бакалавра, что открывает путь к бесплатному образованию в вузах страны. Этот экзамен не является стандартизированным.

Цель экзамена - поставить всех учеников в равные условия, чтобы свести на нет коррупцию на почве образования, чтобы унифицировать требования к выпускникам. Человек, сдавший, БАК имеет право без всяких вступительных экзаменов быть зачисленным в любой университет своего профиля. Во французском экзамене БАК все задания имеют открытую форму.

Примеры тестовых заданий, самой структуры тестов,  можно найти и посмотреть на сайте, посвященному образованию Франции, структура довольно необычная, в сравнении, например, с нашим ЕГЭ [44].

1.3.5 Россия

Содержание заданий, как и сама процедура сдачи экзаменов в форме ЕГЭ, год от года претерпевают изменения: разделение иностранных языков на письменную часть и «говорение», математики на базовый и профильный уровень и т.д. Также меняется структура теста, постепенно убираются задания с выбором одного правильного ответа.

Отношение к заданиям с выбором правильного ответа разнится. Вот, например, цитата из журнала «Известия» от 9 апреля 2014 года: «Структура Единого государственного экзамена (ЕГЭ) вновь претерпит некоторые изменения. Уже со следующего года школьников лишат возможности положиться на удачу и выбрать один из четырех вариантов ответа в блоке А Единого госэкзамена» [40].

Сопредседатель межрегионального профсоюза учителей Андрей Демидов считает исключение заданий с выбором правильного ответа неоправданным и призывает обратить особое внимание на блок С, который является творческим. «Шаг популистский, потому что блок А играл свою роль, и я так понимаю, что таким шагом они рассчитывают избавиться от упреков в адрес ЕГЭ по поводу натаскивания. В целом проблема не в части А, к которой дети уже привыкли, а в части С, за которую многие просто не берутся, где как раз предполагается применение творческого подхода. Надо часть С расширить и сделать обязательной»[40], -  говорит Демидов.

Чем чревато то, что убирают задания с выбором одного правильного ответа:

- во-первых, страдает надежность измеренияв связи с уменьшением количества заданий, во-вторых, страдает надежность проверки – повышается субъективность, так как убираются задания с выбором правильного ответа, которые проверяются компьютером, а в заданиях с кратким ответом не всегда учитываются все возможные варианты ответов, отрытые же задания, проверяемые экспертами, остаются субъективными в оценке;

- баллы, полученные за часть С могут быть апеллированы, что является лазейкой для влияния на итоговый балл, а решение повышать ли балл или нет опять же субъективно;

- страдают менее подготовленные дети, у которых по сути вся надежда набрать нужные баллы остается только на часть В, так как в школе в основном упор делают только на нее, для подготовки к части С необходимо дополнительная подготовка вне школы, что не все могут себе позволить.

1.4 Оптимальная структура теста

Каждая форма заданий имеет свои преимущества и недостатки и призвана решать те или иные цели при включении её в структуру КИМов.

Если задания с кратким и развернутым ответом, являясь наиболее близкими по форме к традиционным заданиям контрольных работ,  не подвергаются нападкам со стороны общественности, то на счет заданий с выбором правильного ответа встает большой вопрос – стоит ли включать их в тестирование с высокими ставками, такое как ЕГЭ, например.

Представим несколько предположений по поводу заданий с выбором правильного ответа, которые все-таки могут измерять навыки более высокого порядка, чем они измеряют обычно. Отметим, что требуется не только много сил и времени потратить на составление такого задания, но и определенная степень мастерства. Итак:

1. Задания должны содержать практические, то есть реальные ситуации, проблемы.

2. Можно включить в задания диаграммы, таблицы или рисунки, которые требуют интерпретации, чтобы тестируемые смогли применить навыки анализа или оценки.

3. Можно давать реальные цитаты из газет или журналов и просить проинтерпретировать и оценить их, дав варианты ответа, но с необходимостью выделить ту часть текста, с опорой на которую тестируемый сделал вывод (как это сделано в новом американскомSAT).

Итак, существует много различных форм заданий, со своими плюсами и минусами. Но зачем нужны задания различных форм?

В одном тесте желательно присутствие заданий различных форм, потому что различные формы заданий направлены на проверку различных навыков учащихся, и именно комбинация различных форм заданий позволяет наиболее эффективно (быстро, объективно, надёжно) оценить достижение учениками всех уровней учебных целей.  Именно комбинация различных форм позволяет провести всестороннюю диагностику:

- задания с выбором правильного ответа, во-первых, обладают наиболее высоким уровнем эффективности (требуют меньше времени на выполнение, чем задания открытой формы, что позволяет включить большое число таких заданий и тем самым шире охватить содержание дисциплины), а во-вторых, дают возможность проверить достижение учебных целей более высокого уровня (умение анализировать, критически осмыслять предложенные варианты и оценивать их правдоподобие);

- задания с коротким ответом позволяют более глубоко проверить конкретные знания и могут быть использованы тогда, когда стоит цель проверить знания фактического материала;

- задания с развёрнутым ответом позволяют оценить достижение учебных целей более высокого уровня: умение анализировать материал, синтезировать новое на основе усвоенного материала, обосновывать свои критические высказывания и оценки.

Включение в тест заданий разных форм позволяет объединить достоинства каждой из форм, компенсируя слабые стороны [24]. Кроме того, использование заданий различных форм снижает утомляемость участников тестирования, повышает их интерес.

Таким образом, для экзаменов с высокими ставками, охватывающих большой объём материала, предположительно оптимальным будет сочетание всех типов заданий [4]. По крайней мере, в тестировании по предметам, обязательным к сдаче выпускниками. В этом случае необходимо оценить всех испытуемых - от самых слабых, до самых сильных. В тесте должны присутствовать задания разного уровня трудности, чтобы была возможность «измерить» испытуемых с различным уровнем подготовленности. В случае тестирования по необязательным предметам, например, по биологии, основная цель – отобрать наиболее подготовленных абитуриентов, и нет необходимости оценки слабых испытуемых. Поэтому здесь наличие заданий с выбором одного правильного ответа, которые могут использоваться для оценки более слабых учеников, так как высока вероятность того, что сильные испытуемые с ними справятся, без учета случайных ошибок, не так необходимо. Хотя и в этом случае для возможности охвата большего объема материала они могут быть использованы.

Отказ от заданий с выбором правильного ответа, неизбежно приводит к уменьшению числа заданий в тесте. Например, в этом году структура КИМ ЕГЭ по биологии претерпела значительные изменения – в его структуру теперь входит 28 заданий вместо 40 в 2015-2016 гг. и 50 в предыдущие годы. Из 28 заданий 21 задание с кратким ответом и 7 с развернутым ответом. Время выполнения теста увеличилось на полчаса и теперь составляет 210 минут.

Отметим, что задания с выбором правильного ответа не совсем исчезли из структуры теста. В первую часть входят задания с выбором нескольких правильных ответов из предложенных испытуемому вариантов. Их недостатком является более продолжительное время выполнения, а преимуществом – меньшая степень вероятности угадать все правильные варианты, чем в заданиях с выбором оного правильного ответа.

В следующей главе будут приведены и проанализированы статистические данные в рамках современной теории тестирования (IRT) теста аналогичного ЕГЭ и результатов симуляций различной структуры на основе оригинального теста.

Глава 2. Практическая часть – симуляция новой структуры теста. Моделирование заданий.

Перед тем, как приступить к анализу данных, полученных в ходе симуляций, сначала мы подробно расскажем о самом тесте и о том, как проходили симуляции.

2.1 Методология исследования

Работа проводилась с одним из вариантов теста аналогичного по структуре ЕГЭ по биологии. Количество испытуемых на вариант составило 1531 человек. Данные о поле испытуемых отсутствуют. В матрице ответов в части А представлены баллы в виде 0 и 1, то есть «неверно» и «верно». В части В представлены баллы от 0 до 2 и в части С – от 0 до 3. Общее количество заданий в тесте – 50: из них 37 заданий с выбором одного правильного ответа, 7 – с кратким ответом и 6 - с развёрнутым ответом.

Стоит отметить, что выпускник сам решает, сдавать ему экзамен по биологии или нет, то есть это предмет по выбору, и ученик целенаправленно к нему готовится, поэтому вероятность того, что испытуемый будет хорошо подготовлен, возрастает.

За последние три года экзамен по биологии претерпел довольно значительные изменения, после более десяти лет относительной стабильности в его структуре. Результаты тестирования за 2017 год с обновленной структурой пока отсутствуют, выпускникам еще только предстоит опробовать его не себе.

В таблице 3 представлена структура КИМ со всеми изменениями в нем с 2007 —Спецификаций КИМ более ранних годов в открытом доступе нет. по 2017 год.

Таблица 4«Структура КИМ ЕГЭ по биологии за 2007-2017гг.»

Биология

Количество заданий

2007-2014гг.

2015

2016

2017

Часть А

36

-

Часть В

8

Часть1

33 — «25-с выбором одного правильного ответа,3-с выбором нескольких правильных ответов,4-на установление соответствия,1-на определение последовательности биологических объектов, процессов, явлений»[45].

33

21 —«7 – с множественным выбором с рисунком или без него;6 – на установление соответствия с рисунком или без него;3 – на установление последовательности систематических таксонов, биологических объектов, процессов, явлений;2 – на решение биологических задач по цитологии и генетике;1 – на дополнение недостающей информации в схеме;1 – на дополнение недостающей информации в таблице;1 – на анализ информации, представленной в графической или табличной форме (всего 21 заданиес кратким ответом)» [45].

Часть С

6

Часть2

7

7

7

Время, мин

А

1 (26)

2 (10)

-

В

5

Часть1

1 (18)

2 (7)

5 (8)

2 (20)

3 (5)

5 (8)

До 5

С

От 10 до 20

Часть2

От 10 до 20

От 10 до 20

От 10 до 20

Общее время, мин

180

180

180

210

Мах первичный балл

69

61

61

59

Как видно из таблицы 3 до 2014 года изменений в структуре теста не было, он состоял из 50 заданий, из которых 36 были с выбором одного правильного ответа, 8 – с кратким ответом и 6 с развёрнутым ответом.

Однако в структуре КИМ 2015 года происходят изменения, и тест начинает делиться не на три, а на две части. В первую часть также входят задания с выбором одного правильного ответа, но их число сокращается с 36, до 25. Вторая часть (бывшая Часть С) увеличивается на одно задание и теперь в неё входит не шесть, а семь заданий. Общее количество заданий сокращается с 50 до 40, а максимальный первичный балл уменьшается с 69 до 61, при этом минимальный проходной балл остается прежним, то есть фактически, задача преодолеть минимальный порог усложняется.

В 2016 году структура не меняется, лишь изменяется количество заданий базового уровня – увеличивается с 18 до 24.

В 2017 году частей также остаётся две, но из первой части полностью исключаются задания с выбором одного правильного ответа, добавляется больше заданий с выбором нескольких правильных ответов из 5-7 вариантов, а общее количество заданий сокращается с 40 до 28. Максимальный первичный балл также уменьшается – с 61 до 59.

Описание симуляций

Наличие матрицы ответов по тесту, имеющему аналогичную структуру ЕГЭ по биологии, позволяет нам провести симуляции с исходным тестом и поэкспериментироватьс его структурой. Зная средние трудности каждой части теста, мы провели несколько симуляций, в ходе которых исключались и/или добавлялись смоделированные задания средней трудности по отношению к трудности заданий той части, задания которой моделировались. Количество добавляемых заданий всегда было приблизительно равно времени, которое требовалось на  выполнение исключаемых заданий.

Всего было проведено четыре симуляции.

Так как из ЕГЭ постепенно выводятся задания с выбором одного правильного ответа, и в тесте по биологии в 2017 году в структуре теста их уже нет, в рамках первой симуляции мы исключили все задания части А и вместо них добавляли задания части В, так, чтобы на решение всех заданий затрачивалось то же время, что и в исходном тесте – 180 минут.

В рамках второй симуляции были, наоборот, исключены все задания части В, а вместо них добавлены задания части А, так, чтобы на решение всех заданий затрачивалось то же время, что и в исходном тесте – 180 минут.

В третьей и четвертой симуляциях структура теста была смоделирована на подобии структуры 2015-2016 годов. Для этого были удалены 10 заданий части А в обеих симуляциях, в третью часть добавлены два задания части В и в четвертую симуляцию добавлено одно задание части С.

Симуляции проводились в программеWinGen. В оригинальный тест добавлялись виртуальные задания примерно средней трудности для заданий каждого типа. Таким образом, виртуальные задания части А имеют примерно среднюю трудность заданий части А оригинального теста, задания части В - примерно среднюю трудность заданий части В оригинального теста и так далее.

Для моделирования дихотомических заданий была использована модель 1PL, а для политомических – PCM.

После проведения всех симуляций данные по ним мы проанализировали с помощью программыWinsteps и сравнили между собой.

  1. Анализ исходного и симулированных тестов

Ниже будет приведены результаты анализа исходного теста в программеWinsteps до внесения изменений в его структуру – смоделированных заданий части А и заданий части В.

В таблицах ниже представлены статистические данные по испытуемым (Таблица 4) и по всем тестовым заданиям (Таблица 5). Значения оценок уровней подготовленности испытуемых и трудности заданий представлены на единой шкале логитов.

Статистики согласия MNSQ и их стандартизованные версии ZSTD характеризуют согласие данных тестирования с используемой моделью измерения.

Таблица 4. Статистические данные по испытуемым

Первичный балл

Уровень подготовленности

Ошибка измерения

Статистики согласия

 INFIT

 OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

33.3

0.30

0.28

1.03

0.1

1.02

0.0

Ср.кв.

отклонение

12.1

0.92

0.04

0.24

1.1

0.35

1.1

Макс.значение

64.0

3.72

0.72

2.11

4.2

7.35

6.6

Мин.значение

6.0

-2.31

0.26

0.48

-2.8

0.37

-3.0

Из таблицы выше мы видим, что нет испытуемых, которые бы получили минимальный балл 0 и максимальный балл 69. Среднее значение уровня подготовленности испытуемых равно 0.30, т.е. выборка смещена вверх относительно среднего значения трудности заданий на 0.30 логита, т.е. тест в среднем оказался не очень сложным для испытуемых.

Размах уровня подготовленности испытуемых находится в диапазоне от -2.31 до 3.72. Как видно из таблицы ниже, размах оценок среди заданий по уровню трудности находится в диапазоне от -1.59 до 1.65. Это означает, что не хватает заданий как для испытуемых с высоким уровнем подготовленности, так и для слабых испытуемых. Это может быть одной из причин того, что ошибка измерения по испытуемым равна 0,28 – это довольно высокое значение.

Средние значения статистик согласия с моделью по испытуемым находятся в границах своих доверительных интервалов: MNSQ  [0,8 - 1,2], ZSTD [-2, 2]. Однако максимальные и минимальные значения обеих статистик согласия выходят за эти границы. Это свидетельствует о выбросах, т.е. профили ответов некоторых испытуемых значимо отличаются от ожидаемого моделью.

Таблица 5. Статистические данные по тестовым заданиям

Первичный балл

Трудность заданий

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

1019.2

0.00

0.05

1.00

-0.1

1.02

-0.2

Ср.кв.

отклонение

335.9

0.84

0.01

0.14

4.1

0.32

4.1

Макс.значение

1981.0

1.65

0.07

1.79

9.9

2.99

9.9

Мин.значение

401.0

-1.59

0.03

0.84

-7.1

0.68

-6.5

Средняя трудность заданий центрирована в нуле, что мы и видим в таблице выше. Ошибка измерения маленькая, что объясняется достаточно большой выборкой испытуемых.

Средние значения всех статистик не выходят за пределы критических значений (MNSQ  [0,8 - 1,2], ZSTD [-2, 2]), что говорит о том, что в среднем задания хорошо согласуются с моделью. Но максимальные и минимальные значения всех статистик согласия, кромеminMNSQ,отклоняются от критических значений. Это говорит о том, что имеются задания, которые не согласуются с моделью.

Далее на рисунке 1 представлена карта переменных, на левой стороне которой расположена шкала уровня подготовленности испытуемых в логитах от -3 до 4 и распределение испытуемых по их уровню подготовленности, а на правой - шкала уровня трудности заданий в том же диапазоне и их распределение по трудности.

Рисунок 1. Карта переменных

Одна решётка равна 18-ти испытуемым, одна точка – от 1 до 7 испытуемых.

Чем выше на шкале находится задание, тем оно сложнее. Также и с испытуемыми – чем они выше на шкале, тем выше уровень их подготовленности.

На карте переменных видно, что распределение мер испытуемых близко к нормальному и смещено немного вверх относительно заданий. Из этого следует, что тест оказался не очень сложным для данной выборки испытуемых. Очевидно не хватает заданий с высоким уровнем трудности для сильных испытуемых.

Следующим этапом анализа теста была проверка размерности теста.

В ходе исследования размерности было показано, что тест является существенно одномерным.

Статистики каждого задания по отдельности по порядку расположения в тесте, а именно трудность, ошибка измерения, дискриминативность заданий и статистики согласия заданий с моделью показаны в таблице в Приложении 1. В этой таблице жёлтым цветом в столбце «дискриминативность» отмечены значения ниже 0.2, то есть те, которые ниже минимально допустимого. В столбцах со статистиками согласия голубым цветом выделены значения, которые выше максимально допустимого значения – эти задания не согласуются с моделью, а малиновым те задания, которые ниже минимального допустимого значения – эти задания, наоборот, имеют сверхсогласие с моделью.

В первую очередь мы смотрим на те задания, у которых статистика  INFITMNSQ выходит за пределы [0,8;1,2]. Таких заданий всего два. У этих же заданий все остальные статистики выходят за пределы допустимых значений. Уровень дискриминативности у этих заданий ниже 0.2, то есть они имеют низкую корреляцию с уровнем подготовленности испытуемых - плохо различают слабых и сильных испытуемых. Эти два задания являются самыми проблемными из всех.

Исходный тест по всем показателям является достаточно качественным, большинство заданий имеет хорошие психометрические свойства. Однако тест оказался немного легче, чем требуется для данной выборки. Не хватает заданий для сильных испытуемых.

Далее рассмотрим результаты по симулированным тестам.

Первым этапом симуляции было удаление из первоначального КИМ всех заданий Части А, то есть заданий с выбором одного правильного ответа, и добавление такого количества заданий Части В, которое в среднем можно успеть сделать за отведённое время на выполнение Части А.

Так как в Части А 37 заданий, на выполнение которых отводилось примерно 48 минут (по спецификации теста), а на выполнение задания Части В отводится в среднем 5 минут, то, следовательно, за 48 минут можно успеть сделать максимум 10 заданий Части В.

Таким образом, в тест было добавлено10 заданий с кратким ответом приблизительно той же трудности, что уже были в Части В. Результаты симуляции представлены ниже в Таблицах 6 и 7.

В таблице 6 представлены статистики по испытуемым.

Таблица 6. Статистики по испытуемым

Первичный балл

Уровень подготовлен-

ности

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

20.4

-0.30

0.34

1.02

0.0

1.06

0.10

Ср.кв.

отклонение

9.1

0.97

0.06

0.33

1.0

0.60

1.0

Макс.значение

47.0

3.40

0.76

2.79

3.7

9.05

4.8

Мин.значение

2.0

-3.55

0.29

0.28

-3.0

0.28

-2.5

Мы видим, что средний уровень подготовленности испытуемых понизился с 0.30 до -0.30, симулированный тест оказался сложнее для испытуемых,выборка смещена вниз относительно среднего значения трудности заданий (таблица 6).

Размах уровня подготовленности испытуемых находится в диапазоне от -3.55 до 3.40. Размах оценок среди заданий по уровню трудности находится в диапазоне от -1.66 до 1.42. Это означает, что всё еще не хватает заданий как для испытуемых с высоким уровнем подготовленности, так и для слабых испытуемых. Ошибка измерения по испытуемым увеличилась до значения 0,34 (ранее она составляла 0,28).

Средние значения статистик согласия с моделью по испытуемым находятся в границах своих доверительных интервалов: MNSQ  [0,8 - 1,2], ZSTD [-2, 2]. Однако максимальные и минимальные значения обеих статистик согласия выходят за эти границы. Это свидетельствует о выбросах, т.е. профили ответов некоторых испытуемых значимо отличаются от ожидаемого моделью

В Таблице 7 представлены статистики по заданиям симулированного теста.

Таблица 7. Статистики по заданиям теста

Первичный балл

Трудность

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

1358.7

0.00

0.04

1.00

-0.3

1.06

-0.1

Ср.кв.

отклонение

504.8

0.87

0.01

0.16

2.8

0.39

2.9

Макс.значение

2255.0

1.42

0.06

1.72

9.9

2.80

9.9

Мин.значение

516.0

-1.66

0.03

0.86

-4.1

0.79

-4.4

Средние значения всех статистик не выходят за пределы критических значений (MNSQ  [0,8 - 1,2], ZSTD [-2, 2]), что говорит о том, что в среднем задания хорошо согласуются с моделью. Но максимальные и минимальные значения всех статистик согласия, кроме min MNSQ, отклоняются от критических значений. Это говорит о том, что имеются задания, которые не согласуется с моделью.

На Рисунке 2 изображена карта переменных по симулированному тесту.

Рисунок 2. Карта переменных

Исследование размерности показало, что тест одномерен, так как собственное значение первого контраста не превышает двух.

Вторым этапом симуляции было полное исключение из первоначального теста заданий Части В, и добавление вместо них заданий Части А, с выбором одного правильного ответа. Было добавлено такое количество заданий с выбором одного правильного ответа, которое можно успеть сделать за отведенное время на выполнение заданий Части В. В тест входит 7 заданий Части В. На решение одного задания выделялось около 5 минут. За 35 минут можно сделать 35 заданий с выбором одного правильного ответа. Такое количество заданий и было добавлено вместо исключённых заданий Части В. Результаты симуляции представлены ниже в Таблицах 8 и 9.

В таблице 8 представлены статистики по заданиям симулированного теста.

Таблица 8. Статистики по тестовым заданиям

Первичный балл

Трудность заданий

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

855.9

0.00

0.06

1.00

0.1

1.00

0.0

Ср.кв.

отклонение

227.7

0.73

0.01

0.07

3.0

0.12

3.0

Макс.значение

1611.0

1.56

0.07

1.24

9.9

1.37

9.8

Мин.значение

401.0

-1.75

0.03

0.85

-6.6

0.69

-5.7

Размах оценок среди заданий по уровню трудности увеличивается и находится в диапазоне от -1.66 до 1.42. Размах уровня подготовленности испытуемых (таблица 9) находится в диапазоне от -3.17 до 4.0, увеличилось число «сильных» испытуемых и снизилось число «слабых».

Таблица 9. Статистики по испытуемым

Первичный балл

Уровень подготовленности

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

Ср. значение

43.6

0.17

0.25

1.00

0.0

1.00

0.0

Ср.кв.

отклонение

16.6

0.98

0.04

0.15

1.0

0.16

1.0

Макс.значение

86.0

4.68

1.01

1.84

5.2

2.94

4.1

Мин.значение

4.0

-3.17

0.22

0.64

-2.1

0.54

-2.6

Рассмотрим карту переменных по симулированному тесту на Рисунке 3.

Рисунок 3. Карта переменных

Исследование размерности показало, что тест одномерен.

В презентации «Контрольные измерительные материалы государственной итоговой аттестации. Особенности и пути развития» Решетникова О.А. приводит данные да 2014-2015 гг. (именно в 2015 году структура теста меняется, и он начинает делиться на две части), что «исключение/сокращение числа заданий с выбором одного правильного ответа не снизило показатели надежности измерения». Мы решили проверить это для наших данных и сделали еще две симуляции: в первой мы исключили 10 заданий с выбором одного правильного ответа и вместо них добавили два задания с кратким ответом. Во второй симуляции мы также исключили 10 заданий из части А, а вместо них добавили уже одно задание части С. Результаты также приведены в Таблице 14 выше. В обоих случаях структура теста почти совпадает со структурой 2015 года. Как мы видим надежность в обоих случаях одна из самых низких. Также она немного ниже надежности оригинального теста, что не совпадает с данными из презентации.

Далее после проведения симуляций теста с моделированием разных типов заданий и структуры теста, сравним показатели всех вариантов теста (исходного и четырёх симуляций) между собой (таблица 10).

Таблица 10. Сравнение показателей оригинального теста и симулированных

Тест

Надёжность

Separation(real)

Ср. тета

(+max и

min)

Ошибка измерения

(+max и

min)

КТТ

IRT

Оригинальный тест (А+В+С)

0,90

0,91

2,91

0,30

0,28

3,72

-2,31

0,72

0,26

Первая симуляция В+С+В

0,87

0,88

2,45

-0,30

0,34

3,40

-3,55

0,76

0,29

Вторая симуляцияA+C+A

0,93

0,93

3,65

0,17

0,25

3,98

-3,17

0,72

0,22

Третья симуляция

-10А+2В

0,89

0,89

2,80

0,14

0,30

3,68

-2,67

0,73

0,27

Четвертая симуляция

–10А+1С

0,89

0,89

2,77

0,16

0,30

3,65

-2,63

0,73

0,27

Самый высокий показатель надёжности наблюдается во второй симуляции, когда структура теста состоит из 70-ти заданий с выбором одного правильного ответа и 6-ти заданий с развернутым ответом, также в этом случае измерение проводится с самой маленькой ошибкой. Такие показатели связаны с длиной теста, которая в сумме составляет 76 заданий. Однако такая структура не является оптимальной ввиду уже знакомых нам ограничений заданий с выбором одного правильного ответа.

Самая низкая надежность измерения и самая большая ошибка измерения наблюдается в случае симуляции такой структуры, в которую входит 17 заданий части В и 6 заданий части С.

В таблице 11 представлены сравнения средних значений ошибок измерения методомt-test исходного теста и первой симуляции (pair 1), исходного теста и второй симуляции (pair 2), сходного теста и третьей симуляции (pair 3) и исходного теста и четвертой симуляции (pair 4). Мы видим, что во всех случаях при наличии заданий с выбором одного правильного ответа (в паре 2 при наличии увеличенного числа заданий Части А) ошибка измерения значимо меньше.

Таблица 11. Парный анализ средних значений ошибок измерения

Paired Differences

t

df

Sig. (2-tailed)

Mean

S.D.

S.E.

Mean

95% Conf.Int. of the Difference

Pair 1

-0.06

0.05

0.001

-0.06

-0.06

-50.29

1530

0.000

Pair 2

0.03

0.02

0.001

0.03

0.03

63.24

1530

0.000

Pair 3

-0.02

0.02

0.000

-0.02

0.01

-41.35

1530

0.000

Pair 4

-0.02

0.02

0.000

-0.02

0.02

-45.26

1530

0.000

Для сравнения приведём количество испытуемых, несогласующихся с моделью, в трёх рассмотренных выше ситуациях: в оригинальном тесте и первых двух симуляциях. Данные приведены в таблице 12. Мы видим, что самый низкий процент несогласующихся с моделью испытуемых в случае добавления заданий с выбором одного правильного ответа взамен заданий с кратким ответом, то есть, количество испытуемых с неожиданными ответами гораздо меньше. Самый высокий процент несогласованности испытуемых с моделью наблюдается при исключении Части А и добавлении дополнительных заданий Части В.

Таблица 12. Процент испытуемых, несогласующихся с моделью

>1,2

>=1,5

MsqInfit

Msq Outfit

MsqInfit

Msq Outfit

Исходный тест

20.38%

17.11%

4.57%

5.16%

Первая симуляция (+В)

24.69%

24.82%

8.36%

10.52%

Вторая симуляция (+А)

8.82%

7.12%

1.18%

0.78%

Третья симуляция (-А+В)

23.58%

18.80%

5.55%

6.14%

Четвертая симуляция (-А+С)

21.62%

18.55%

5.55%

6.34%

Эффективность теста обратно пропорциональна ошибке измерения, и перед разработчиком теста стоит задача заложить в тест такие задания, чтобы ошибка измерения испытуемых была наименьшей. Одним из методов подбора наиболее подходящих заданий служит использование информационных функций заданий. Информационная функция задания – это обратное значение стандартной ошибки измерения испытуемых с помощью конкретного задания. Данная функция показывает количество информации, которую вносит задание в тест. Информационная функция теста представляет собой сумму информационных функций заданий всего теста.

Использование информационных функций имеет ряд преимуществ, как при составлении теста, так и для сравнения эффективности различных тестов для измерения уровней подготовленности испытуемых между собой.

Оценивать соответствие трудности теста уровню подготовленности испытуемых с помощью показателя количества информации, получаемой в результате тестирования, первым предложилA. Birnbaum в 1968 г. [9], но пока только для дихотомических заданий. В 1969 г. F. Samejima[33]расширил понятие информации на случай политомических заданий.

В структуру нашего теста входят дихотомические и политомические задания. Политомические задания представлены двух видов:двухшаговые задания с тремя ответными категориями и с максимальным баллом 2;трехшаговые задания с четырьмя ответными категориями и с максимальным баллом 3.

На рисунках 4-8 изображены информационные функции исходного теста и четырех симулированных.

На графиках мы можем найти показатель количества информации для каждой теты (уровня подготовленности) - I(θ).

Рисунок 4. Информационная функция исходного теста

Показатель количества информации (I(θ)) в исходном тесте равен 15.

Рисунок 5. Информационная функция первого симулированного теста (В+С+В)

Показатель количества информации (I(θ)) равен 12.

Рисунок 6.  Информационная функция второго симулированного теста (А+С+А)

Показатель количества информации (I(θ)) равен 20.

Рисунок 7.  Информационная функция третьего симулированного теста (-10А+2В)

Показатель количества информации (I(θ)) равен 14.

Рисунок 8. Информационная функция четвертого симулированного теста (-10А+1С)

Показатель количества информации (I(θ)) равен 14.

В таблице 13 для наглядности приведены показатели количества информации всех рассматриваемых тестов.

Таблица 13. Показатели количества информации

Тест

I(θ)

Исходный

15

Первая симуляция (В+С+В)

12

Вторая симуляция (А+С+А)

20

Третья симуляция (-10А+2В)

14

Четвертая симуляция (-10В+1С)

14

Наибольший показатель количества информации наблюдается в случае добавления заданий части А с одновременным исключением заданий части В. Однако более оптимальным является соотношение различных типов заданий, как в исходном тесте, так как при довольно высоком показателе количества информации, каждый тип задания вносит свои преимущества измерения испытуемых. В случае исключения из теста десяти заданий части А и добавлении вместо них двух заданий части В или одного задания части А количество информации, полученной в результате измерения, немного меньше. Самый низкий показатель количества информации наблюдается при полном удалении заданий части А и добавлении вместо них заданий части В.

Очевидно, что тест, дающий наибольшее количество информации при измерении определенной выборки испытуемых на том или ином промежутке уровня подготовленности, более эффективен. Сравнительная эффективность двух тестов характеризуется отношением их информационных функций:

,

где RE(θ) обозначает сравнительную эффективность тестов A и B, IA(θ) и IВ(θ) – информационные функции этих тестов.

Возьмем средний уровень подготовленности испытуемых для каждого теста и посмотрим на соответствующем графике показатель количества информации в этой точке. Соотнесем поочередно количество информации исходного теста с количеством информации в каждой симуляции.

В исходном тесте средний уровень подготовленности (тета) равен 0,3. Далее, для наглядности, в таблице 15 приведены средние теты по всем симуляциям.

Таблица 15. Средняя тета тестов и соответствующие им показатели количества информации

Тест

Средняя Тета

I(θ)

Исходный

0,3

15

Первая симуляция

-0,3

10

Вторая симуляция

0,17

20

Третья симуляция

0,14

13

Четвертая симуляция

0,16

12

Для первой симуляции средняя тета равна -0.3, I(θ) для этого теста в этой точке примерно равно 10. Тогда:

- сравнительная эффективность исходного теста по отношению к первой симуляции равна RE(θ)=15/10=1,5;

- сравнительная эффективность исходного теста по отношению ко второй симуляции равна RE(θ)=15/20=0,75;

- сравнительная эффективность исходного теста по отношению к третьей симуляции равна RE(θ)=15/13=1,15;

- сравнительная эффективность исходного теста по отношению к четвертой симуляции равна RE(θ)=15/12=1,25.

Таким образом, для испытуемых среднего уровня подготовки по отношению к каждому симулированному тесту, кроме второй симуляции, исходный тест гораздо эффективнее.

2.3 Обсуждение

Из представленных выше данных можно сделать вывод, что сочетание в рамках одного теста заданий различных форм и типов повышает надежность измерения и понижает ошибку измерения испытуемых – тест становится более информативным и сбалансированным с точки зрения оптимального соотношения длины теста и времени его выполнения. Каждый тип заданий вносит свой положительный вклад, сглаживая недостатки друг друга. Например, «для возможной борьбы с угадыванием возможно использование в концовке теста достаточно трудных заданий открытого типа» [5]. Это, конечно, поможет отличить слабого и сильного испытуемого, но если говорить о сравнении испытуемых с одинаковым уровнем подготовленности, случайно угаданный ответ одним из них повышает его итоговый балл и общий рейтинг, например, при отборе в вуз. С этой точки зрения возможность угадывания является большим недостатком, который можно свести к минимуму качественным составлением дистракторов и, следовательно, невозможностью выбора испытуемым стратегии угадывания верного ответа путём отбрасывания неправдоподобных дистракторов, что все равно полностью не сведет возможность угадать правильный ответ к нулю. Показатели надёжности и ошибки измерения, статистики согласия с моделью говорят нам о том, что использование заданий с выбором одного правильного ответа оправдывает себя.

Заключение

Любая оценка полученных знаний должна соответствовать некоторым параметрам качества, таким как валидность, надёжность, информативность, объективность и другим. В особой мере это относится к тестированию с высокими ставками, потому что от его результатов могут зависеть принимаемые касаемо кандидатуры испытуемого решения, которые прямым образом повлияют на его жизнь. Примером экзамена с высокими ставками можно считать ЕГЭ, на примере которого проводились исследования в рамках данной работы.

Тестирование может включать в себя задания различных типов, каждый из которых имеет свои преимущества и недостатки. Важным является правильный выбор формы и типа заданий, которые будут включены в тест. Этот выбор, зависит от области и уровня проверяемых знаний.

Необходимым является также оптимальное сочетание разных типов заданий для всесторонней и максимально надежной и информативной оценки с минимальной ошибкой измерения подготовленности испытуемых.

Так как сейчас происходит активное исключение заданий с выбором одного правильного ответа из КИМов ЕГЭ по всем предметам, без конкретных обоснований, эмпирических данных, на основе которых можно было бы сделать выводы об обоснованности этих действий, мы решили на реальных данных теста аналогичного КИМ ЕГЭ, где в структуру входят задания частей А, В и С, посмотреть, как функционирует тест, какие имеет статистики, показатели надежности и так далее. Вместе с этим мы провели симуляции на основе исходного теста, в ходе которых добавляли и исключали задания разных типов: с выбором одного правильного ответа, с кратким ответом, с развернутым ответом - то есть задания ранее входившие в части А, В и С экзамена по биологии. Далее мы провели сравнения показателей исходного теста и симуляций.

Результатом комбинирования смоделированных заданий разных типов (и форм) стало подтверждение гипотезы, что «комбинация заданий различных форм способна обеспечить оптимальную структуру экзаменов с высокими ставками», которая будет обеспечивать высокую надежность измерения, приемлемое соотношение длины теста, времени его выполнения  и объема проверяемых областей знания. Сравнение показателей количества информации, которую даёт тест в результате измерений испытуемых также показало, что более эффективным является тест, в котором сочетаются различные типы заданий, как, например, в исходном тесте.

Вопрос об использовании заданий с выбором одного правильного ответа всегда будет оставаться дискуссионным. Всегда будет те, кто считает, что задания с выбором одного правильного ответа – это «вынужденное зло», также как будут и те, кто считает наоборот, что эти задания заслуживают того, чтобы быть инструментом оценки полученных знаний. Во многих странах задания с выбором одного правильного ответа активно используются в тестировании, в том числе и с высокими ставками, но есть и страны, где заданий закрытого типа в структуре, например, выпускного/вступительного экзамена в вузы вообще нет.

Однако стоит учитывать те преимущества, которые имеют задания с выбором одного правильного ответа, и не исключать возможность их использования в тестировании.

Список литературы

  1. Аванесов B.C. «Композиция тестовых заданий». Учебная книга. 3 изд.. доп. М.: Центр тестирования, 2002г. -240 с.
  2. Болотов В.А. Типология и характеристика программ оценки учебных достижений школьников. (2013). Проблемы современного образования, 1, с. 35-53.
  3. Калинова Г.С. Совершенствование экзаменационной модели ЕГЭ по биологии. (2016). ПЕДАГОГИЧЕСКИЕ ИЗМЕРЕНИЯ. 1, с. 66-74.http://www.fipi.ru/sites/default/files/document/journal/pi_1-2016.pdf
  4. Карданова Е.Ю. Контроль и оценка результатов обучения. (2016). Управление начальной школой. 1, с. 18-26
  5. Майоров А.Н. Теория и практика создания тестов для системы образования. (Как выбирать, создавать и использовать тесты для целей образования). – М., «Интеллект-центр», 2001. – 296 с.
  6. Решетникова О.А. Принципы организации процедур оценки качества образования (2012). УПРАВЛЕНИЕОБРАЗОВАНИЕМ:ТЕОРИЯИПРАКТИКА, 4 (8),с. 78-85.
  7. Aiken, L. R. (1982). Writing multiple-choice items to measure higher-order educational objectives. Educational and Psychological Measurement, 42. 803-806.
  8. Bennett, R.E., Rock, D.A.,&Want, M., (1991). Equivalence of free-response & multiple-choice items. Journal of Educationsl Measurement, 28, 77-92.
  9. Birnbaum A. Some Latent Trait Models and Their Use in Inferring an Examinee's Ability / In: F.M. Lord and M.R. Novick. Statistical Theories of Mental Test Scores. Reading, Mass: Addison - Wesly, 1968. - 568p.
  10. Brent Bridgeman and Charles Lewis. The Relationship of Essay and Multiple-Choice Scores with Grades in College Courses. (1994).
  11. Bridgeman, B., & Rock, D. (1993). Relationship among multiple-choice and open-ended analytical questions. Journal of Educational Measurement, 30(4), 313-329.
  12. Case & Swanson, 2001; Jacobs, Lucy C.  «HOW TO WRITE BETTER TESTS. A Handbook for Improving Test Construction Skills» 2004.
  13. David Thissen, Howard Wainer and Xiang-Bo Wang. Are Tests Comprising Both Multiple-Choice and Free-Response Items Necessarily Less Unidimensional than Multiple-Choice Tests? An Analysis of Two Tests. (1994)
  14. Downing, 2002 - Downing, S.M., 2002.Assessment of knowledge with written test forms. In: Norman, G.R., Van der Vleuten, C., Newble, D.I. (Eds.), International Handbook of Research in Medical Education. KluwerAcademicPublishers, Dordrecht, pp. 647–672.
  15. Elizabeth Ligon Bjork, Nicholas C. Soderstrom and Jeri L. Little. Can Multiple-Choice Testing Induce Desirable Difficulties? Evidence from the Laboratory and the Classroom. - The American Journal of Psychology, Vol. 128, No. 2 (Summer 2015), pp. 229-239
  16. Farley, J.K., 1989. The multiple-choice test: developing the test blueprint. NurseEducator 14 (5), 3–5.
  17. Frank Pajares and M. David Miller, 1997. The Journal of Experimental Education, Vol. 65, No. 3 (Spring, 1997), pp. 213-228
  18. Gilbert Sax and LeVerne S. Collet. An Empirical Comparison of the Effects of Recall and Multiple-Choice Tests on Student Achievement. (1968).
  19. Gregory R. Hancock, 1994. Cognitive Complexity and the Comparability of Multiple-Choice and Constructed-ResponseTest Formats. The Journal of Experimental Education, Vol. 62, No. 2 (Winter, 1994), pp. 143-157
  20. Haladyna, T. M. (1994). Developing and validating multiple-choice items. Hillsdale, NJ: Lawrence Erlbaum Associates, Inc.
  21. Haladyna, T. M. (1997). Writing test item to evaluate higher order thinking. Boston: Allyn & Bacon.
  22. Haladyna, T. M., & Downing, S. M. (1989). A taxonomy of multiple-choice item writing rules. Applied Measurement in Education, 2(1), 37-50.
  23. HEIM, A. W., &WATTS, K. P. (1967). An experiment on multiple-choice versus open-ended answering in a vocabulary test. British Journal of Educational Psychology, 37 339-346.
  24. Howard Wainer& David Thissen (1993) Combining Multiple-Choice and Constructed-Response Test Scores: Toward a Marxist Theory of Test Construction, Applied Measurement in Education, 6:2, 103-118, DOI: 10.1207/s15324818ame0602_1
  25. Margit Kastnera, Barbara Stangla (2005). Multiple Choice and Constructed Response Tests: Do Test Forma and Scoring Matter? Institute for Tourism and Leisure Studies,Vienna University of Economics and Business, A-1090 Vienna, Austria.
  26. McCoubrie, 2004 - McCoubrie, P., 2004. Improving the fairness of multiple-choice questions: a literature review.MedicalTeacher 26 (8), 709–712.
  27. Michael C. Rodriguez, 2005 - Three Options Are Optimal for Multiple-Choice Items: A Meta-Analysis of 80 Years of Research.
  28. Nixon Chan and Peter E. Kennedyt, (2002). Are Multiple-Choice Exams Easier for Economics Students? A Comparison of Multiple-Choice and "Equivalent" Constructed-Response Exam Questions. Southern Economic Journal, 68(4), 957-971.
  29. Pamplett and Farnhill, 1995 - Pamplett, R., Farnhill, D., 1995. Effect of anxiety on performance in multiple-choice examinations. Medical Education 29, 298–302.
  30. Randy Elliot Bennett, Donald A. Rock and Minhwei Wang. Equivalence of Free-Response and Multiple-Choice Items (1991).
  31. Robert B. Frary. Multiple-Choice versus Free-Response: A Simulation Study. (1985).
  32. Robert W. Lissitz Xiaodong, (1999). Hou Multiple Choice Items and Constructed Response Items: Does It Matter? University of Maryland.
  33. Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometrika, Monograph Supplement, 34, 100–114. Psychometrika, Monograph Supplement, 34, 100–114.
  34. SMITH, J. K., & SMITH, M. R. (1984, April). The influence of item format on measures of reading comprehension. Paper presented at the annual meeting of the American Educational Research Association, New Orleans, LA.
  35. Schuwirth and Vander Vleuten, 2003 - Schuwirth, L.W.T., Vander Vleuten, C.P.M., 2003. ABC of learning and teaching in medicine: written assessment. BMJ 326 (7390), 643–645.
  36. http://www.aqa.org.uk/subjects/science/as-and-a-level/biology-7401-7402
  37. http://www.cie.org.uk/programmes-and-qualifications/cambridge-advanced/cambridge-international-as-and-a-levels/
  38. http://www.click-courses.com/study_UK/uk_university_entry.aspx
  39. http://www.education.gouv.fr/cid60987/bac-2014-questions-reponses.html
  40. http://izvestia.ru/news/568901
  41. http://ntc.tj/ru/562-osenki.html
  42. http://www.southkoreaeducation.info/Tests/Higher-Education-Tests/College-Scholastic-Ability-Test-in-South-Korea.html
  43. http://testportal.gov.ua/sertificatbio/
  44. http://quandjepasselebac.education.fr/annales-bac/
  45. http://fipi.ru

Приложение 1

Трудность

Ошибка измерения

Коэф. корреляции

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTD

MNSQ

ZSTD

1

-0.65

0.06

0.53

0.84

-6.6

0.76

-6.4

2

-1.59

0.07

0.45

0.87

-3.0

0.68

-4.8

3

1.51

0.06

0.36

0.99

-0.4

1.08

1.6

4

-0.74

0.06

0.40

0.97

-1.3

0.91

-2.2

5

-0.29

0.06

0.53

0.85

-7.1

0.80

-6.5

6

-0.25

0.06

0.44

0.95

-2.5

0.89

-3.5

7

-0.10

0.06

0.46

0.93

-3.5

0.90

-3.4

8

0.12

0.06

0.39

1.00

0.2

0.97

-0.9

9

-1.20

0.07

0.40

0.94

-1.8

0.83

-2.9

10

-0.74

0.06

0.41

0.95

-2.0

0.93

-1.5

11

-0.94

0.06

0.45

0.91

-3.1

0.80

-4.2

12

0.39

0.06

0.39

1.00

-0.1

1.00

0.0

13

-0.13

0.06

0.34

1.04

2.1

1.04

1.4

14

1.09

0.06

0.41

0.96

-1.4

1.01

0.3

15

-0.63

0.06

0.39

0.97

-1.0

0.93

-1.7

16

-0.69

0.06

0.43

0.93

-2.7

0.88

-3.0

17

-0.89

0.06

0.25

1.07

2.4

1.19

3.7

18

0.24

0.06

0.41

0.99

-0.6

0.97

-1.3

19

-0.81

0.06

0.40

0.96

-1.6

0.91

-2.1

20

-0.19

0.06

0.16

1.21

9.5

1.30

8.8

21

-0.62

0.06

0.43

0.94

-2.4

0.86

-3.5

22

0.58

0.06

0.26

1.13

6.2

1.16

5.7

23

-1.08

0.06

0.40

0.93

-2.3

0.98

-0.4

24

0.90

0.06

0.26

1.12

5.2

1.17

5.0

25

0.15

0.06

0.17

1.20

9.9

1.28

9.5

26

0.18

0.06

0.28

1.10

5.3

1.14

5.1

27

-0.04

0.06

0.50

0.88

-6.0

0.86

-5.3

28

-1.31

0.07

0.43

0.90

-2.8

0.76

-4.0

29

-0.31

0.06

0.24

1.11

5.1

1.21

6.0

30

0.13

0.06

0.49

0.90

-5.2

0.88

-4.7

31

-0.30

0.06

0.29

1.08

3.5

1.12

3.4

32

-1.54

0.07

0.38

0.94

-1.5

0.80

-3.0

33

0.71

0.06

0.43

0.95

-2.3

0.97

-1.0

34

-1.13

0.06

0.48

0.87

-4.1

0.73

-5.4

35

-0.27

0.06

0.23

1.14

6.5

1.15

4.5

36

0.64

0.06

0.30

1.08

4.0

1.12

4.1

37

0.07

0.06

0.44

0.95

-2.8

0.92

-3.1

38

0.41

0.04

0.50

0.98

-0.7

0.97

-0.9

39

1.30

0.04

0.56

0.89

-3.7

0.90

-3.2

40

-0.47

0.04

0.57

0.88

-4.0

0.86

-4.5

41

-0.24

0.04

0.46

1.12

3.8

1.43

6.6

42

1.03

0.04

0.17

1.79

9.9

2.99

9.9

43

-0.14

0.03

0.50

1.09

3.0

1.08

1.4

44

1.53

0.04

0.53

0.93

-1.4

1.05

0.3

45

0.24

0.06

0.41

0.98

-1.3

0.98

-0.9

46

1.13

0.05

0.43

1.05

1.5

1.05

1.7

47

1.65

0.04

0.58

0.95

-1.3

0.95

-0.9

48

1.48

0.03

0.60

0.94

-1.4

0.97

-0.5

49

0.77

0.03

0.65

1.02

0.5

0.99

-0.2

50

1.05

0.03

0.66

0.90

-2.8

0.84

-3.4

Mean

0.00

0.05

0.41

1.00

-0.1

1.02

-0.2

S.D.

0.84

0.01

0.12

0.14

4.1

0.32

4.1




Похожие работы, которые могут быть Вам интерестны.

1. Cоздание базы данных материалов и приложения для учета материалов на одном из складов Череповецкого металлургического комбината ПАО «Северсталь»

2. Автоматизация построения расписания экзаменов ВУЗа с использованием генетического алгоритма

3. АНАЛИЗ СВЯЗИ МЕЖДУ КУРСОВОЙ ПОЛИТИКОЙ ЦЕНТРОБАНКА И ПРОЦЕНТНЫМИ СТАВКАМИ

4. Использование электронных измерительных приборов для измерения расстояния в недрагоценных камнях и сооружений

5. Использование рисуночных тестов как средство преодоления страхов у дошкольников с нарушением зрения

6. Разработка мультимедийных тестов для осуществления контроля знаний по информатике в основной школе

7. Методика развития алгоритмического мышления учащихся 10-11 классов (на примере изучения тестов простоты)

8. Осуществление контрольно-надзорной деятельности в области природопользования и охраны окружающей среды в Республике Башкортостан

9. ОРГАНИЗАЦИЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ НА ВНЕУРОЧНЫХ ЗАНЯТИЯХ ПО ИСТОРИИ И КУЛЬТУРЕ САНКТ-ПЕТЕРБУРГА КАК СРЕДСТВО РАЗВИТИЯ КОНТРОЛЬНО-ОЦЕНОЧНЫХ УМЕНИЙ МЛАДШЕГО ШКОЛЬНИКА

10. Производственная структура и организационная структура управления