Educational Technology & Society 10(1) 2007
ISSN 1436-4522
pp. 271-275

Методика тестирования знаний и устранение случайных ошибок

Кузнецов А.В.
кафедра прикладных информационных технологий
Саратовский государственный технический университет, Саратов, Россия.
kuznecov@aptechsar.com

АННОТАЦИЯ
При описании моделей тестовых систем обычно выделяют три основных компонента: предметная область, испытуемый и собственно тестовая система. Для каждого из них необходимо построение своего типа моделей. В данной работе рассматриваются модели испытуемого, предметной области и тестирования знаний, проведен анализ модели Раша и предложен метод устранения случайных ошибок в ходе выполнения заданий.

 

Модель предметной области

Предметная область характеризуется рассматриваемыми в данной области сущностями и связями между ними. При построении моделей учебных курсов в качестве сущностей выступают темы, подтемы и отдельные понятия курса, не требующие разбиения на более простые составные части [2]. Связи между сущностями определяют необходимость рассмотрения одной из них перед другой и, фактически, задают порядок следования сущностей (тем) в процессе обучения. Связи между темами могут быть факультативными и обязательными. В случае факультативной связи последовательность изучения тем носит рекомендательный характер.
Для описания модели предметной области традиционно используются семантические сети [1, 7]. При этом вершинам графа сети соответствуют темы и подтемы курса, а дугам – связи между ними. Подобная организация позволяет использовать для анализа предметной области элементы теории графов [4, 5].

Модели тестирования

В настоящее время существует два подхода к построению моделей тестирования – это классическая теория тестов и теория моделирования и параметризации педагогических тестов (Item Response Theory – IRT). При этом классическая теория тестов считается устаревшей, хотя и применяется до сих пор во многих тестовых системах [8].
Модели IRT типа опираются на понятия "трудность задания" и "уровень подготовленности испытуемого". Считается, что задание i более трудное, чем задание j, если выполняется условие:

(1)
где N – число испытуемых, pik , pjk – вероятности правильного ответа на задания с номерами i и j k-м испытуемым. Аналогично, уровень подготовленности i-го испытуемого больше уровня подготовленности j-го испытуемого, если
(2)
где K – число заданий в тесте, pki , pkj – вероятности правильных ответов i-го и j-го испытуемых на k-е задание.
Величина pij зависит от qi – латентного параметра способности i-го испытуемого и bj – латентного параметра трудности j-го задания:
(3)
Вид функции f различен для разных моделей. Для наиболее часто используемой модели Раша:
(4)
Для анализа данной модели в [6] был предложен следующий подход:
    1. На основании параметров qi и bi, распределенных на интервале [-3…3] по нормальному, либо равномерному закону вычислялись коэффициенты pij и генерировалась матрица X, представляющая собой матрицу ответов испытуемых на задания теста:
    (5)
    2. Решалась обратная задача: по полученной матрице X определялись уровни знаний и трудности заданий.
Численный эксперимент, поставленный для анализа модели Раша в соответствии с приведенной методикой, показывает, что погрешность определения коэффициентов данной модели убывает обратно пропорционально экспоненте числа испытуемых и заданий (см. рис. 1). При этом количество операций, необходимое для проведения расчетов, имеет, при равном числе испытуемых и заданий, квадратичную зависимость (см. рис. 2).

Рис. 1. Зависимость точности расчетов от количества испытуемых.

Рис. 2. Зависимость числа операций от количества испытуемых.
Как видно из приведенных графиков, при относительно небольшом (50-200) числе испытуемых погрешность определения уровня их знаний и уровня сложности вопросов остается достаточно большой и колеблется в интервале от ±0,18 до ±0,35 логита. Данная погрешность является погрешностью модели и не может быть устранена без изменения вида самой модели.

Модели испытуемого

Под моделью испытуемого обычно понимают набор параметров, измеряемых в ходе работы системы с испытуемым и определяющей степень усвоения им знаний по изучаемому предмету. Существует три основных типа моделей испытуемого:

    1. Модели оверлейного типа. В данном классе моделей предполагается, что знания обучаемого описываются графом, имеющим структуру, аналогичную структуре графа модели предметной области. При этом каждой вершине графа ставится в соответствие неотрицательное число, характеризующее степень понимания испытуемым материала по указанной теме. Значение атрибута определятся в ходе опроса обучаемого в соответствии с выбранной моделью тестирования.
    2. Модели разностного типа. Модели данного типа анализируют величину различия между ответами обучаемого и теми знаниями, которые заложены в системе экспертом. Такие модели позволяют учитывать не только отсутствие знаний у испытуемого, но и неправильное их использование. По сути, разностные модели представляют собой модификации моделей оверлейного типа.
    3. Модели пертурбационного типа строятся в предположении, что знания пользователя и знания системы могут частично не совпадать. В этом случае важной предпосылкой построения таких моделей является определение причин расхождения. Различают следующие причины расхождений:
Беря за основу модель пертурбационного типа, можно утверждать, что полностью подготовившийся испытуемый, обладающий всеми необходимыми знаниями и навыками по рассматриваемой теме, в состоянии выполнить любое типовое задание из данной темы с вероятностью 1. Возникновение неверного ответа возможно, если имеет место быть одно из перечисленных выше расхождений. Неверный ответ фиксируется правильно, если он возник по причине недостатка знаний, ошибочных знаний, или неверного использования знаний. Данный блок причин возникновения неверных ответов не коррелирует со случайными и умышленными ошибками. Таким образом, вероятность успешного выполнения испытуемым задания теста выражается формулой:
(6)
где p1 – вероятность ошибки по причине недостаточных знаний, ошибочности знаний, или неверного использования знаний, p2 – вероятность случайных ошибок и p3 – вероятность умышленных ошибок.
Для выявления умышленных ошибок можно использовать критерий серий [3]. При этом анализируются цепочки выбранных вариантов ответов на задания, с целью обнаружения в них слишком длинных последовательностей одинаково указанных вариантов ответов. Таким образом, умышленные ошибки можно исключить и преобразовать формулу (6) к виду:
(7)
Для анализа случайных ошибок предлагается следующий подход.
Пусть дисциплина D состоит из ND различных разделов и пусть для проверки знаний по разделу Di необходимо предъявить испытуемому задания N D,i различных блоков. Задание q блока T i,j ( ) назовем простым, если в рамках изучаемого раздела подразумевается, что испытуемому должен быть известен правильный ответ на это задание. Аналогично, задание q назовем составным, если в рамках изучаемого раздела подразумевается, что испытуемый должен уметь получать правильный ответ, опираясь на знание ответов на простые, либо другие составные задания. Множество заданий Q’, образующих задание q, назовем подгруппой этого задания, а множество Q заданий q1 ,q2 ,…,qn, подгруппы которых совпадают – параллельными заданиями. Тогда блок представляет собой совокупность параллельных заданий и заданий из их подгруппы. Множество заданий подгруппы блока может быть пустым, а задания, считающиеся составными в одном разделе – относиться к классу простых в другом.
Пусть каждое из заданий может быть выполнено испытуемым либо верно, либо неверно. Сформируем базу заданий так, чтобы выполнялось условие:
и
(8)
Тогда порядок тестирования будет иметь вид:
Шаг 1. Испытуемому предъявляется задание блока Ti,j . При этом предполагается, что порядок предъявления блоков должен соответствовать порядку следования тем в курсе. Если задание q является простым, то ответ на него учитывается непосредственно. Также непосредственно учитывается и правильный ответ на составное задание.
Шаг 2. Если и , а испытуемый неверно отвечает на задание q, то ему последовательно предъявляются задания из множества Q’ . Порядок следования заданий определяется преподавателем, хотя рекомендуется располагать их в порядке возрастания трудности.
Шаг 3. Если испытуемый отвечает на задания подгруппы так, что количество его правильных ответов больше порогового значения, то ему предлагается выполнить задание, параллельное q. При правильном ответе на параллельное задание ошибка, допущенная на шаге 1, считается случайной.
Величина порогового значения для шага 3 выбирается исходя из необходимой общей трудности серии заданий, которая рассчитывается по формуле:
(9)
где pi – трудность i-го задания, определяемая как отношения количества испытуемых, правильно выполнивших задание, к общему числу испытуемых, а N(Q’) – количество заданий в подгруппе.
При пересечении подгрупп заданий возможна ситуация, когда испытуемому может быть предъявлено одно и то же задание. Для ее устранения необходимо вести список предъявленных заданий с тем, чтобы перезачитывать ранее данные ответы.
В работе рассмотрены модели испытуемого, предметной области и тестирования знаний, проведен анализ модели Раша и предложен метод устранения случайных ошибок в ходе выполнения заданий. Использование данного подхода позволит повысить качество обучения. В то же время, предлагаемая в подходе методика ближе, скорее, к классическому подходу, чем к современным IRT моделям.

Литература

[Брусиловский П.Л., Зырянов М.И., 1992] Брусиловский П.Л., Зырянов М.И. Интеллектуальная учебная среда "Остров". //3-я Конференция по искусственному интеллекту. – Тверь: Ассоциация искусственного интеллекта, 1992. – с.33-35.
[Горюнов Ю.П., 1963] Горюнов Ю.П. Логическая структура курса и обучающий алгоритм курса. / В сб.: Программированное обучение и кибернетические обучающие машины. / Под ред. Шестакова А.И. – М.: Сов. Радио, 1963. – с. 24-31.
[Елисеев Д.В., 2005] Елисеев Д.В. Проблема угадывания при оценке знаний с помощью тестирования. – Технологии Интернет на службу обществу. Сборник статей по материалам Всероссийской научно-практической конференции. Саратов: изд. Сарат. ГТУ, 2005 г. ISBN 5-7433-1549-3 с. 173-176.
[Емеличев В.А., Мельников О.И. и др., 1990] Емеличев В.А., Мельников О.И. Сарванов В.И., Тышкевич Р.И. Лекции по теории графов – М.: Наука, Гл. ред. физ.-мат. лит., 1990. – 384 с.
[Карпова И.П., 2002] Карпова И.П. Исследование и разработка подсистемы контроля знаний в распределенных автоматизированных обучающих системах. // Диссертация на соискание звания канд. техн. наук по специальности 05.13.13. – М.: МГИЭМ, 2002.
[А.В. Колпаков, А.А. Захаров.] А.В. Колпаков, А.А. Захаров. Анализ модели G. Rash методом численного эксперимента. http://kolsarat.chat.ru/DOKLAD4.htm
[Мазурина С.М., 1995] Мазурина С.М. Разработка моделей представления и обработки знаний в продукционных экспертно-обучающих системах // Диссертация на соискание звания канд. техн. наук по специальности 05.13.11. – М.: МГИЭМ, 1995.
[Челышкова М.Б., 2002] Челышкова М.Б. Теория и практика конструирования педагогических тестов. – М.: Логос, 2002 – 432с. ISBN: 5-94010-143-7