Требования к системе количественного оценивания учебных достижений:
идентификация и анализ

Владислав Иванович Назарук

аспирант института прикладных компьютерных систем,

Рижский технический университет,

ул. Калькю, 1, г. Рига, LV-1658, Латвия

Vladislavs.Nazaruks@rtu.lv

Аннотация

В данной статье идентифицированы и проанализированы требования к количественным системам оценивания в формальном образовании, а также сформулированы некоторые рекомендации, позволяющие эффективно реализовать эти требования. В статье также описано усовершенствование метода количественного оценивания результатов тестов, позволяющее сделать тесты с закрытыми вопросами стойкими к угадыванию учениками правильных вариантов ответов.

In this paper, there are identified and analyzed requirements for quantitative grading systems in formal education, as well as formulated some recommendations which allow to effectively implement these requirements. In the paper, there is also described an improvement of a method for quantitative grading of test results, which allows to make tests with closed-ended questions be resistant to guessing the correct answers by students.

Ключевые слова

количественное оценивание, система оценивания, требования

quantitative grading, grading system, requirements

Введение

Оценивание учебных достижений учащихся является неотъемлемой частью и одним из важнейших процессов любой образовательной системы. У оценивания, как одной из частей целенаправленного учебного процесса, имеется несколько функций, в том числе следующие:

1)       информативная  предоставить учащимся информацию об их продвижении в освоении содержания обучения;

2)       нормативная  фиксировать достижения учащихся в соответствии с требованиями нормативных актов с целью обеспечения в отношении учащихся определенных правовых последствий (например, перевод на следующий курс, выдача диплома, присуждение стипендии) [1];

3)       воспитательная  привить учащимся навык систематичности в работе;

4)       мотивационная  мотивировать учащихся больше и/или лучше учиться, чтобы достичь более высоких оценок;

5)       образовательная  помочь укрепить знания и навыки учащихся во время самого процесса оценивания (например, написания учащимися проверочных работ);

6)       административная  предоставить возможность работникам образовательных учреждений и их контролирующих органов производить определённые изменения в учебном процессе, основываясь на анализе оценок учащихся [1].

В формальном образовании, где применяется также и неформальное оценивание, наибольшую роль играет именно формальный подход к оцениванию. Это связано с тем, что в данном случае единственной обязательной формой оценивания является именно формальная. К тому же, только формальное оценивание способно обеспечить выполнение нормативной и административной функций. Речь идёт именно о тех функциях, наличие которых отличает формальное образование от неформального.

Говоря о форме, можно выделить качественное и количественное оценивание. Качественное оценивание часто является неформальной формой оценивания учебных результатов, хотя может применяться и при формальном оценивании (например, в начальной школе, а также при составлении отзывов и т. п.). В свою очередь, количественное оценивание, при котором учащимся ставятся определённые отметки за их учебные результаты (домашние работы, ответы и т. п.), наиболее характерно именно для формального подхода к оцениванию.

Объектом исследования данной статьи являются системы количественного оценивания учебных достижений в формальном образовании. Цель данного исследования  идентифицировать и проанализировать формальные требования к таким системам, а также сформулировать рекомендации, позволяющие учесть эти требования в некоторых распространённых системах оценивания. В статье описано усовершенствование метода количественного оценивания результатов тестов, позволяющее сделать тесты с закрытыми вопросами стойкими к угадыванию учениками правильных вариантов ответов.

Общие требования к системе количественного оценивания

В образовательном процессе относительно отметок выполняются противоположные действия:

1)       выставление отметок,

2)       использование отметок.

Выставление отметок производится исключительно оценивателем  педагогом или оценивающим модулем системы проверки знаний. С другой стороны, круг возможных пользователей отметок неограничен. Использование отметок может выполняться любой персоной или модулем обучающей системы: самим учащимся, его родителями, педагогом (как выставившим конкретную отметку, так и другим), прочими работниками образовательной системы и тп.

Выставление отметки  это процесс трансформации продемонстрированных учащимся знаний и навыков непосредственно в саму отметку. Однако имеются различные варианты использования отметки, основные из которых следующие:

1)       интерпретация отметки  попытка (в той степени, насколько это возможно) на основании отметки определить реальный уровень знаний учащегося;

2)       агрегация отметок  комбинирование различных отметок для получения определённого результата (например, анализ успеваемости, расчёт средней отметки).

В любом случае, процесс использования отметок предусматривает их трансформацию в конкретный результат. Следовательно, главная задача количественного оценивания может быть сформулирована так: обеспечить трансформацию знаний учащегося в отметку, чтобы полученная отметка могла бы предоставить максимально точную информацию о знаниях учащегося.

Так как одна и та же отметка является одновременно выходом процесса её выставления и входом процесса её использования, для реализации вышеупомянутой задачи количественного оценивания необходимо выполнение следующих общих требований:

1)       максимизация согласованности процессов выставления и использования отметок,

2)       минимизация погрешностей в процессах выставления и использования отметок.

Именно эти два выделенных требования лежат в основе идентификации других, более конкретизированных требований к системе количественного оценивания, рассмотренных в данной статье. Результаты анализа и конкретизации этих общих требований приведены в двух следующих разделах. Требование минимизации погрешностей при использовании отметок в рамках данной статьи не рассмотрено, т. к. такие погрешности обычно являются незначительными или же явно не связаны с целью данного исследования.

Для дальнейшего анализа требований к системе оценивания введём следующие обозначения (в рамках конкретного учебного предмета):

1)       T  множество всех оцениваемых заданий Ti;

2)       R  множество осваиваемых учащимся знаний, навыков и т. п. Ri, формирующее в целом содержание учебного предмета, предусмотренное программой учебного предмета;

3)       K  множество освоенных конкретным учащимся знаний и навыков Ki в рамках учебного предмета. Если знания и навыки учащегося не превосходят учебной программы, то Í R. Будем считать, что в своих работах учащиеся демонстрируют именно освоенные знания  то есть учащиеся не пользуются сторонней помощью;

4)       G  функция оценивания продемонстрированных учащимся знаний и навыков, возвращающая определённую отметку в заданной шкале; Gmin  минимально возможная отметка; Gmax  максимально возможная отметка.

Очевидны следующие базовые требования к состоятельной системе количественного оценивания (возможная необходимость округлять результаты функции оценивания здесь не учитывается):

1)       монотонность функции оценивания: G(K)  G(K')  K Í K', причём равенства в обеих частях тождества могут достигаться только одновременно;

2)       минимальная отметка за отсутствие знаний: G() = Gmin;

3)       максимальная отметка за полные знания: G(R) = Gmax. Примечание: здесь не рассматриваются случаи выставления максимальной отметки только при продемонстрированных знаниях, выходящих за рамки содержания учебного предмета.

В жизни существуют такие используемые системы количественного оценивания, в которых преподаватель при оценивании не руководствуется другими формальными критериями, кроме как вышеупомянутыми базовыми требованиями. Таким образом, эти базовые требования являются как необходимыми для состоятельной системы количественного оценивания, так иногда и достаточными на практике.

Таким образом, сформулированные в данном разделе требования являются де-факто минимально достаточными для работающей системы количественного оценивания. Однако в следующих разделах показывается, что при более тщательном анализе этих требований возникают дополнительные, неявные требования, которые также было бы рационально применять по отношению к системам количественного оценивания.

Максимизация согласованности процессов выставления и использования отметок

Рассмотрим согласованность выставления отметок с каждым из двух наиболее распространённых вариантов их использования: интерпретацией отметок и агрегацией отметок.

Для согласованности интерпретации отметок с выставлением отметок их пользователю необходимо в полной мере быть осведомлённым о принципе их выставления. Для этого необходимо и достаточно наличия описания критериев и системы оценивания, а также содержания учебного предмета.

Теперь рассмотрим согласованность выставления отметок с их агрегацией. Наиболее часто встречающаяся агрегация отметок представляет собой расчёт средней отметки. Более того, в отличие от других возможных агрегаций, именно расчёт средней отметки является минимально необходимым видом агрегации для применения в практических целях с целью полной реализации нормативной и административной функции оценивания. Например, расчёт средней отметки применяется в конкурсах при поступлении в вузы, а также при расчёте рейтинга учащихся (от которого, например, может зависеть присуждение стипендии и т. п.). В пределах учебного предмета расчёт средней отметки может использоваться для определения итоговой отметки на основе промежуточных. Примечание: помимо расчёта среднего значения существуют также некоторые другие методы агрегации, например, которые упомянуты в [2], а также в [3 применяемые в электронной системе управления обучением Moodle.

Обычно расчёт средней отметки производится посредством среднего арифметического или среднего арифметического взвешенного. Поэтому из необходимого применения функции среднего значения при агрегировании отметок вытекает следующее идеальное требование к агрегируемым отметкам: шкалы агрегируемых отметок в пределах зоны агрегации должны быть линейно зависимы от уровня знаний (навыков).

Линейная зависимость шкалы отметок от уровня продемонстрированных знаний означает следующее: фиксированный прирост отметки ∆G должен соответствовать фиксированному приросту уровня продемонстрированных знаний ∆K: G(K È xK)  G(K) + xK. То есть независимо от текущего уровня знаний (навыков) при увеличении этого уровня на фиксированный объём отметка должна также увеличиться на фиксированный объём. На практике это требование в идеале означает следующее: для получения каждого следующего дополнительного балла отметки учащийся должен проделывать один и тот же объём работы.

Это требование линейности шкалы отметок позволяет избежать ситуаций, когда учащийся может манипулировать средним значением отметок при фиксированном объёме работы, просто перераспределяя определённый объём своей работы на выполнение более выгодного в данный момент задания. Например, допустим, что имеются 2 работы по 15 заданий равной сложности в каждой и предусмотрена определённая шкала оценок. Так, за правильно выполненные 7 заданий каждой работы выставляется отметка 4 балла, 8 заданий  5 баллов, 9 заданий  6 баллов, 10 заданий  7 баллов, 11 заданий  8 баллов, 13 заданий  9 баллов, 15 заданий  10 баллов (максимальная отметка). В данном случае учащемуся выгоднее выполнить 11 заданий из первой работы и 11 заданий из второй работы (получив средний балл (8 + 8) / 2 = 8), чем 15 заданий из первой работы и 7 заданий из второй работы (получив средний балл (10 + 4) / 2 = 7). Отметим, что объёмы затраченных усилий совпадают. Причиной сложившейся ситуации послужила именно нелинейность шкалы отметок.

Требование линейности шкалы отметок напрямую связано с требованием максимально объективного оценивания среднего значения затрачиваемых учащимися усилий на выполнения конкретного задания, что зависит от опыта и компетентности преподавателя. Пусть происходит расчёт средней отметки по разным учебным предметам. Тогда роль веса отметки по конкретному предмету часто играет объём предмета в кредитных часах (кредитах). Это коэффициент, отражающий средний объём усилий учащегося для освоения содержания данного предмета.

В официальных системах отметок обычно фигурирует такое понятие, как минимальная положительная отметка. Суть этого понятия заключается в следующем: если итоговая отметка по конкретному учебному предмету ниже минимальной положительной Gmin-p, то этот предмет считается не сданным. Пусть при наличии хотя бы одной такой отрицательной отметки агрегация отметок не производится ввиду её ненадобности  (например, рейтинг не рассчитывается для учащихся, не сдавших хоть один предмет). Тогда требование линейной зависимости шкалы отметок необходимо применять только на отрезке отметок от Gmin-p до Gmax (этому соответствуют слова в пределах зоны агрегации в формулировке требования). Однако при этом уровни знаний (навыков), оцениваемые на минимальную положительную отметку, должны быть одинаковыми по всем агрегируемым учебным предметам. Заметим, что в рассматриваемом случае такой минимальный положительный уровень знаний может быть и гораздо выше (например, 50%), чем при применении полностью линейной шкалы оценок.

При анализе агрегации отметок необходимо также учесть тот факт, что отметки в рамках одного учебного предмета могут быть как фиксируемыми в официальных документах, так и не фиксируемыми. Например, во многих вузах по каждому учебному предмету выставляются одна-две фиксируемые итоговые отметки (за экзамен, за курсовую работу или же за другой вид итоговой проверки). При этом преподаватели могут также выставлять промежуточные отметки, обычно не фиксируемые в официальных документах, но влияющие на итоговые отметки. Напротив, в школах обычно все отметки, как промежуточные, так и итоговые, фиксируются в официальных документах (журналах). К фиксируемым отметкам обычно предъявляется требование их соответствия официальной системе (шкале) отметок; однако к нефиксируемым отметкам таких требований не предъявляется. Следовательно, при использовании нефиксируемых отметок в рамках одного предмета возможно одновременное использование нескольких шкал оценивания. В этом случае следует уделять особое внимание преобразованиям отметок из одной шкалы в другую, чтобы итоговая шкала соответствовала выдвинутому в этом разделе требованию к шкале отметок. Некоторая дополнительная информация о шкалах оценивания может быть получена в [4]. Шкалы оценивания и агрегирование отметок также проанализированы в [5].

Минимизация погрешностей в процессе выставления отметок

Чтобы минимизировать погрешности в процессе выставления оценок, необходимо обеспечить оценивание, максимально независящее от внешних факторов. Одним из наиболее значимых внешних факторов, способных повлиять на выставление оценок, является случайность. Случайность может проявляться в следующих аспектах:

1.       Задания, используемые для оценивания знаний (навыков) учащихся, не полностью покрывают содержание учебного предмета. Тогда выполнение учащимся данных заданий позволяет судить о знаниях (навыках) учащегося в некотором подмножестве содержания учебного предмета.

2.       Ответы учащихся на проверочные задания не полностью соответствуют освоенным знаниям (навыкам), но содержат в себе элемент угадывания.

Первый аспект не относится напрямую к системе количественного оценивания и часто представляет собой трудноразрешимую проблему нахождения оптимального баланса между объёмом проверочных заданий и полнотой покрытия учебного содержания в них.

Второй аспект выдвигает требование обеспечения стойкости системы количественного оценивания относительно попыток угадывания. Далее в данном разделе приводится более детальный анализ этого требования.

Как известно, в проверочных заданиях (тестах) могут содержаться как закрытые, так и открытые вопросы. Ввиду того, что в закрытых вопросах предлагается или подразумевается ограниченное число вариантов ответов, именно этот тип вопросов, в отличие от открытых вопросов, наиболее подвержен попыткам угадывания ответов. При этом процент угадывания правильных ответов может быть крайне высоким. В частности, для вопросов вида да/нет , он может достигнуть 50%, если считать выбор каждого из вариантов ответа равновероятным. Поэтому далее в этом разделе будут в основном рассматриваться закрытые вопросы, т. к. именно оценивание ответов на закрытые вопросы нуждается в особом анализе на стойкость против попыток угадывания.

Рассмотрим тест, состоящий из k вопросов, где за ответ на i-тый (i = 1, ..., k) вопрос в общем случае можно получить от pmin(i) до pmax(i) пунктов включительно. Обозначим через p(i; a) количество полученных за ответ a на i-тый вопрос пунктов. Если нет необходимости упоминать конкретный ответ a или конкретный номер вопроса i, то запись обозначения функции p(i; a) может быть упрощена как p(i) или p(a) соответственно. Тогда общее количество p полученных за тест пунктов () находится в диапазоне , где и . Часто в тестах за неправильные ответы ставится 0 пунктов, то есть . В таком частном случае .

В общем случае ученик может дать или не дать ответ на каждый вопрос в тесте. Если ответ на i-тый вопрос не был дан, то обычно количество полученных за ответ на этот вопрос пунктов равно 0: p(i) = 0. Если же ответ на вопрос был дан, то в общем случае существует три варианта правильности этого ответа:

1)       ответ абсолютно правильный  в этом случае p(i) = pmax(i);

2)       ответ частично правильный  0 < p(i) < pmax(i);

3)       ответ абсолютно неправильный  p(i) = pmin(i);

Противостоять попыткам угадывания ответов на задания можно следующими способами:

1)       требовать от учащихся конспектирования всех произведённых выкладок, необходимых для получения ответа на задание;

2)       демотивировать учащихся угадывать ответы на вопрос, если они не знают ответа на это задание, выставлением более низкого (отрицательного) количества пунктов за неправильные ответы, чем за не данные ответы;

3)       при выставлении пунктов за ответы на вопросы теста учитывать среднестатистическое количество пунктов, которое может быть набрано учащимся наугад.

Первый выделенный способ, с одной стороны, не имеет непосредственного отношения к системе количественного оценивания, и, с другой стороны, не применим для вопросов, проверяющих знания, а не навыки учащихся.

Второй способ основывается на том, что pmin(i) < 0. В этом случае любой ориентированный на полезность рациональный агент на месте учащегося выберет при ответе на данный вопрос действие с максимальным значением функции полезности. Так, если он не знает с достаточной уверенностью ответ на конкретный вопрос, то будет выбрано действие не давать ответ на вопрос. При применении данного способа борьбы с угадыванием ответов многое зависит от значения pmin(i)  чем оно меньше, тем меньше вероятность угадывания ответа учащимся, если считать его рациональным агентом. К тому же, преподаватель вправе варьировать значения pmin(i) от вопроса к вопросу, в зависимости от самого вопроса.

Для выставления итоговой отметки за пройденный тест количество полученных за тест пунктов p обычно преобразовывается в долю α заработанных пунктов от максимального количества пунктов, имеющую линейную шкалу от 0 до 1: α = p / pmax. Однако в случае, когда pmin(i) < 0, при расчёте α возможно отрицательное итоговое значение, что обычно неприемлемо. Поэтому полная формула для расчёта доли α выглядит следующим образом:

.

Теперь рассмотрим третий, рекомендуемый автором статьи, способ противостоять попыткам угадывания ответов. Суть этого способа следующая: известна функция p(i) оценивания ответа a на каждый вопрос. Известны также все возможные ответы A = {a1a2, , al} на вопрос: данное множество легко получить в случае закрытых вопросов. Считается, что любой из возможных ответов ученика равновероятен: P(a1) = P(a2) =  = P(al). Тогда необходимо вычислить математическое ожидание E[A] получаемых пунктов за случайный ответ на вопрос:

.

Просуммировав математические ожидания E[Ai] получаемых пунктов для каждого вопроса, получим итоговое математическое ожидание E получаемых пунктов за случайные ответы на все вопросы теста:

.

Полученное итоговое математическое ожидание E является среднестатистическим количеством пунктов за тест, которое может быть набрано учащимся наугад (см., например, [6]). Таким образом, учащийся, не имеющий абсолютно никаких знаний (навыков) по учебному предмету, среднестатистически может набрать E пунктов из pmax возможных. Для устранения такого фактора случайности автор статьи предлагает при расчёте доли α заработанных учащимся пунктов уменьшить на величину E набранное учащимся, а также максимально возможное количество пунктов за тест. В этом случае формула для расчёта доли α будет следующей:

.

Рассмотрим этот способ оценивания ответов теста на примере. Допустим, имеется тест с 10 вопросами, где в каждом вопросе следует выбрать только один из предлагаемых 4 вариантов ответа. Количество пунктов, получаемое за соответствующий выбранный ответ, а также выбранные ответы (помечены звёздочкой) указаны в ячейках данной таблицы:

Таблица 1

Ответы на вопросы теста

 

 

1

2

3

4

5

6

7

8

9

10

p(a1)

0,7 *

0 *

0

0

1

0,1 *

0

0

1

0

p(a2)

0

0

1 *

0

0,3

1

0 *

0 *

0

1 *

p(a3)

1

1

0

0

0 *

0

0

0

0 *

0

p(a4)

0

0

0,2

1 *

0

0

1

1

0

0

 

Как видно, количество набранных пунктов за тест p = 0,7 + 0 + 1 + 1 + 0 + 0,1 + 0 + 0 + 0 + 1 = 3,8. Максимальное количество пунктов pmax = 10  1 = 10. Итоговое математическое ожидание получаемых пунктов за случайные ответы = 1/4  (0,7 + 1 + 1 + 1 + 0,2 + 1 + 1 + 0,3 + 0,1 + 1 + 1 + 1 + 1 + 1) = 11,3 / 4 = 2,825.

Доля набранных пунктов при подсчёте традиционным методом (описанным, например, в [7]): α = 3,8 / 10 = 0,38 (38%). Доля набранных пунктов, подсчитанная рассмотренным методом: α = (3,8 - 2,825) / (10 - 2,825) = 0,975 / 7,175  0,1359 (13,59%). Таким образом, в данном примере результат, определяемый традиционным методом, из-за возможности угадывания вариантов ответов был завышен примерно на 0,24 (из 1).

В тестах могут использоваться не только закрытые вопросы вида выбрать один вариант ответа из нескольких предложенных. Например, возможны вопросы видов выбрать несколько вариантов ответа из нескольких предложенных, установить соответствия между парами предложенных вариантов и др. В таких тестах, а также при увеличении количества предлагаемых вариантов ответа, погрешность традиционного метода определения доли α, вызванная возможным угадыванием ответов, будет меньше. Однако такая погрешность может быть исключена полностью, если использовать рассмотренный усовершенствованный метод.

Схожий способ противостоять попыткам угадывания ответов на вопросы рассмотрен в статье [8], где используется теория перспектив для анализа правил оценивания с точки зрения перспективы принятия решений.

Заключение

В формальном образовании количественное оценивание учебных достижений играет большую роль. Поэтому к нему следует подходить максимально тщательно: необходимо учитывать как явные, так и не столь очевидные требования к системе оценивания. В рамках статьи были идентифицированы и формально проанализированы подобные требования к количественным системам оценивания, а также сформулированы некоторые рекомендации, позволяющие эффективно реализовать эти требования.

Если рассматривать выставление отметки только как вычисление численного значения оценочной функции от продемонстрированных учащимся знаний и навыков, то выделяются следующие фактически минимально достаточные требования для системы количественного оценивания: монотонность такой функции оценивания и её способность принимать граничные значения.

Если рассматривать оценивание и использование отметки как процессы, то выделяется следующее общее требование: обеспечить возможность максимально корректного выставления и использования отметок. Для этого необходимо одновременно максимизировать согласованность процессов выставления и использования отметок, а также минимизировать погрешности в этих процессах.

Первое (максимизация согласованности) предполагает выставление отметок таким образом, чтобы впоследствии они могли корректно интерпретироваться и агрегироваться. Это достижимо при соблюдении двух условий: открытости процесса выставления отметок и использования линейной шкалы в интервале положительных отметок.

Второе (минимизация погрешностей) в основном предполагает минимизацию случайных погрешностей в процессе оценивания. При применении тестов в процессе оценивания одним из главных источников таких случайных погрешностей является угадывание учащимися ответов. При традиционном начислении пунктов за тест возможное угадывание ответов не учитывается. Однако использование рекомендуемого автором статьи метода расчёта количества набранных пунктов за тест позволяет свести влияние возможного угадывания ответов к минимуму.

Эта работа выполнена при содействии Европейского социального фонда в рамках проекта Поддержка развития докторантуры Рижского технического университета.

Литература

1.       Романов Ю. В. Система оценивания. Теоретические положения. / Интернет http://ucheba.com/met_rus/k_pedagogika/otsenka.htm

2.       Bell J. F. Methods of aggregating assessment results to predict future examination performance. / Интернет http://www.cambridgeassessment.org.uk/ca/digitalAssets/113944_Methods_of_Aggregating_Assessment_Results_to_Predict_Future_.pdf (дата обращения: 2000)

3.       Category aggregation  MoodleDocs. / Интернет http://docs.moodle.org/en/Category_aggregation

4.       Scales  MoodleDocs. / Интернет http://docs.moodle.org/en/Scales

5.       McLachlan J. C., Whiten S. C. Marks, scores and grades: scaling and aggregating student assessment outcomes. // Medical Education, vol. 34, pp. 788797. 

6.       Grinstead C. M., Snell J. L. Introduction to Probability. 2nd revised edition. / Интернет http://www.dartmouth.edu/~chance/teaching_aids/books_articles/probability_book/amsbook.mac.pdf  (дата обращения: 1997)

7.       Методические рекомендации по разработке педагогических тестов контроля качества обучения студентов. Приложение к СТП 12 100-02. / Интернет http://www.bti.secna.ru/education/org/stp/pril_stp_12100_02.html

8.       Bereby-Meyer Y., Meyer J., Flascher O. M. Prospect Theory Analysis of Guessing in Multiple Choice Tests. // Journal of Behavioral Decision Making, vol. 15, pp. 313327.