Вопросы качества процедур тестирования и интерпретации тестовых результатов в информационно-коммуникационной педагогической среде

Александр Геннадиевич Колгатин

профессор, д.п.н., профессор кафедры информатики,

Харьковский национальный педагогический университет имени Г. С. Сковороды,

ул. Артема, 29, г. Харьков, 61002, +38(0572)683820

kolgatin@ukr.net

Лариса Сергеевна Колгатина

преподаватель кафедры информатики,

Харьковский национальный педагогический университет имени Г. С. Сковороды,

ул. Артема, 29, г. Харьков, 61002, +38(0572)683820

Larakl@ukr.net

Аннотация

Проблема качества тестовых результатов в информационно-коммуникационной учебной среде обсуждается на основе авторского метода проведения вычислительного эксперимента. Проведенные расчеты позволили определить условия эффективности таких процедур интерпретации тестовых результатов, как классическая процедура, процедура с использованием весовых коэффициентов трудности тестовых заданий, процедура с коррекцией угадывания. Предложен критерий качества тестовых результатов как разность вероятностей правильного и неправильного ранжирования тестируемых. На основе серии вычислительных экспериментов исследована зависимость этого критерия от параметра дифференцирующей способности тестового задания и числа заданий в тесте. Предложена эмпирическая функция для аппроксимации полученных данных и выделен критерий качества тестового задания, который учитывает длительность его выполнения и параметр дифференцирующей способности.  

The problem of the test results quality in the information and communication learning environmental is discussed on the base of the author’s method of computational experiment. Calculations gave possibility to determine the conditions of efficiency such procedures of the test results interpretation as the classic procedure, procedure with  use of weight coefficients for the test tasks difficulty, procedure with correction of guessing. Criterion of the test results quality as the difference of probabilities of correct and incorrect ranking of the examinees is proposed. The dependence of this criterion on the discrimination parameter and the number of test items is studied according to the results of computational experiments. The empirical function for the approximation of this data is suggested and used to propose the criterion of the test item quality that takes into account the duration of the item execution and the discrimination parameter of this item.

Ключевые слова

тест, педагогическая диагностика, компьютер;

test, pedagogical diagnostics, computer.

Введение

Постановка проблемы. Развитие дистанционного обучения является одним из приоритетных направлений программы ЮНЕСКО «Информация для всех» поскольку именно дистанционное обучение позволяет привлечь широкие массы населения к непрерывному обучению на протяжении всей жизни, обеспечивает свободу обучаемых в выборе места и времени учебной деятельности. Важная роль дистанционного обучения в развитии системы образования предполагает глубокий научный анализ всех компонентов инновационной педагогической системы [1]. Одним из таких компонентов является педагогическая диагностика, которая осуществляется с целью оптимизации учебного процесса, выбора целесообразного варианта реализации технологии обучения. Особенности педагогической диагностики в системе дистанционного обучения определяются отсутствием постоянного личного взаимодействия преподавателя и обучаемого. Это приводит к снижению эффективности методов диагностики, основанных на общении и интуиции педагога. В результате, остро необходимым для обеспечения механизма обратной связи становится развитие компьютерно ориентированной системы педагогической диагностики, основу которой составляют высокотехнологические методы педагогических измерений, в первую очередь, компьютерно ориентированное тестирование. Следует отметить, что в информационно-коммуникационной педагогической среде [2], которая создается в системе дистанционного обучения, педагогическое тестирование приобретает новые качества, благодаря автоматизации, которую обеспечивает среда, расширению спектра диагностических данных, интеграции и систематизации информации о характеристиках и индивидуальной траектории учебной деятельности обучаемого. Автоматизация, которую обеспечивает информационно-коммуникационная среда, создает благоприятные условия для развития тестовых технологий, разработки новых моделей тестирования [3], что, в свою очередь обуславливает необходимость развития методов оценки надежности тестовых результатов [4].   

Анализ последних исследований и публикаций. В классической теории тестирования для оценки погрешности тестового балла применяется понятие надежности тестовых результатов. Известны различные подходи к эмпирическому определению надежности: вычисление корреляции между баллами, полученными при повторном тестировании с применением одного и того же или параллельных вариантов теста; оценка надежности на основе искусственного разделения теста на эквивалентные части и вычисления корреляции баллов, полученных по частям теста; использование внутренней согласованности теста (α-Кронбаха) как показателя надежности; подсчет количества инверсий в индивидуальных профилях тестируемых по отношению к идеальному профилю. Погрешность считается одинаковой для всех участников тестирования. Правомерность использования классической теории надежности тестовых результатов для анализа инновационных процедур тестирования и интерпретации результатов измерения (например, использование весовых коэффициентов, специальных алгоритмов выдачи тестовых заданий, коррекции тестовых баллов на угадывание и т. д.) требует доказательства в каждом конкретном случае. Выдающимся шагом в развитии тестовых технологий было построение теории тестирования на основе удачной аппроксимации зависимости вероятности правильного ответа на задание от подготовленности тестируемого и параметров задания (модель Г. Раша) [5]. Это дало возможность динамически формировать педагогический тест и обеспечить адекватное определение подготовленности тестируемого в условиях вариации трудности и количества заданий теста. Полезным, на наш взгляд, направлением является рассмотрение компонентов погрешности измерения в системах автоматизированного педагогического тестирования: угадывание правильных ответов, колебания внимания, пробелы в структуре учебных достижений тестируемого, недостаточная эквивалентность автоматически генерируемых вариантов теста. Поскольку указанные компоненты погрешности являются независимыми случайными величинами, то сумма их дисперсий может рассматриваться как дисперсия погрешности тестовых результатов, что позволяет предложить зависимости для теоретической оценки точности тестирования и исследовать влияние каждого компонента [6]. П. А. Ротаенко исследовал зависимость погрешности измерения от подготовленности тестируемого на основе биномиального распределения вероятностей [7]. В предложенной нами комбинаторной модели [6] не используются предположения о законе распределения вероятностей, что дает возможность исследовать компонент погрешности, связанный с угадыванием для теста, задания которого имеют различную вероятность случайного выбора правильного ответа [6]. Исследование в направлении совершенствования процедур адаптивного и частично-адаптивного тестирования продолжаются, что, в свою очередь, требует развития соответствующих методов анализа качества тестовых результатов.

Выделение нерешенных ранее частей общей проблемы. Все рассмотренные выше подходы ориентированы на определенную процедуру тестирования и интерпретации тестовых результатов и не дают возможности сравнивать различные процедуры по точности измерения. Представляется актуальной разработка метода моделирования процесса тестирования с возможностью имитировать различные процедуры вычисления тестового балла и сравнивать их между собой по качеству тестовых результатов.

Цель данной работы предложить метод сравнения качества различных процедур тестирования и интерпретации тестовых результатов.

Подходы к определению критерия качества тестовых результатов

Для проведения анализа качества тестовых результатов необходим некоторый критерий качества. В классической теории надежности таким критерием является коэффициент надежности, который определяется как отношение дисперсии истинных значений измеряемой величины к дисперсии результатов измерения. Однако, как было отмечено выше, такое определение критерия и эмпирические способы его вычисления основываются на предположениях о процедуре тестирования и шкале тестовых результатов.

Одним из возможных подходов к определению универсального критерия качества результатов тестирования представляется вероятность правильного ранжирования тестируемых. Пусть для двух тестируемых заранее известно, кто из них подготовлен лучше и насколько лучше. Понятно, что для выражения количественной разницы потребуется некоторая шкала измерения, одинаковая для обоих тестируемых. По результатам тестирования после применения заданной процедуры интерпретации данных возможна одна из трех ситуаций: 1) обеспечено правильное ранжирование тестируемых, 2) не выявлено различий в подготовке тестируемых, 3) ошибка в ранжировании. Таким образом, имеем случайную величину, которая может принимать одно из трех значений. На основе большого количества статистических испытаний можно оценить распределение вероятностей реализации каждой из трех рассмотренных ситуаций. Следует отметить, что чем больше разница в подготовленности тестируемых, тем больше вероятность их правильного ранжирования на основе заданной процедуры интерпретации тестовых результатов. Критерием качества тестирования и интерпретации его результатов (Q) выберем  разность вероятностей правильного и неправильного вывода относительно ранжирования тестируемых. Предложенный критерий может принимать значения в пределах от (–1) до (+1). Значение (–1) означает абсолютно надежный инверсный результат, на практике отрицательные значения критерия говорят о грубой ошибке при тестировании или интерпретации тестовых результатов. Значения, близкие к нулю означают, что система не способна распознать различия в подготовленности тестируемых. Значения критерия Q, близкие к единице, возможны, если система практически не допускает ошибок в ранжировании.

   Организовать лабораторные испытания с большим количеством тестируемых практически невозможно, поэтому целесообразно проводить исследования на основе вычислительных экспериментов. Для этого необходимо разработать три модели: модель формирования ответа, модели процедуры тестирования и процедуры интерпретации тестовых результатов. Модель формирования ответа генерирует ответы – правильный или неправильный.  Распределение вероятностей правильного и неправильного ответов определяется характеристиками задания и тестируемого. Для определения вероятности правильного ответа возьмем за основу трехпараметрическую модель Г. Раша, принимая все ее упрощающие предположения. В частности, предполагается, что подготовленность тестируемого может быть выражена одним числовым показателем, и параметры тестового задания не зависят от личности тестируемого. Для расширения сферы исследования добавим к модели четвертый параметр, который характеризует внимательность тестируемых, то есть вероятность правильного ответа в случае, когда тестируемый безусловно может выполнить это задание правильно. Будем полагать, что параметр внимательности одинаковый для всех тестируемых. Таким образом, модель формирования ответа основывается на выражении для вероятности правильного ответа в виде:   

,         (1)

где θ – подготовленность тестируемого, выраженная в логитах; a – параметр задания, который характеризует его дифференцирующую способность; b – параметр трудности задания; с – вероятность угадывания; d – параметр, который характеризует внимательность тестируемого.

                Модель процедуры тестирования определяет, какие именно задания и в какой последовательности будут предлагаться гипотетическому тестируемому и повторяет алгоритм той системы автоматизированного педагогического тестирования, эффективность которой исследуется. Модель интерпретации результатов, также, повторяет алгоритм соответствующего программного обеспечения.

                Рассмотрим процедуру статистических испытаний. Входными данными являются подготовленность тестируемых  θ1, θ2 (θ2 > θ1)  и параметры каждого задания, включенного в базу данных теста. Модель исследуемой процедуры тестирования отвечает за динамическое формирование теста, то есть автоматически выбирает последующие задания. Последовательность заданий может быть фиксированной или определяться с учетом предшествующих ответов. Модель формирования ответа случайно назначает ответы правильными или неправильными, с вероятностью, которая вычисляется по формуле (1). Таким образом, формируются векторы ответов для первого и второго тестируемых и вычисляется тестовый бал в соответствии с исследуемой моделью интерпретации тестовых результатов. Если по результатам интерпретации данных гипотетического сеанса тестирования гипотетический испытуемый с подготовленностью θ2 (θ2 > θ1) признан лучшим, то фиксируется, что ранжирование правильное, иначе фиксируется ошибка в ранжировании или признается невозможность дифференцировать двух гипотетических испытуемых по их подготовленности. Многократное повторение гипотетических сеансов тестирования для двух испытуемых с заданными параметрами подготовленности позволяет осуществить статистическую оценку предложенного критерия Q, который характеризует качество тестирования и интерпретации результатов. В наших вычислительных экспериментах количество статистических испытаний составляло 100000, что по приближенным оценкам с вероятностью 95 % обеспечивало две правильные цифры в искомом значении критерия Q.

Методика и результаты апробации модели

Для проверки адекватности модели проведено исследование качества тестовых результатов классической процедуры тестирования, которая предполагает фиксированный набор заданий для всех испытуемых и интерпретацию результатов через вычисление тестового балла как количества правильных ответов (рис. 1 и 2). По оси абсцисс отложено разность подготовленностей двух тестируемых. Ряды данных отображают значения критерия Q при различной средней подготовленности тестируемых θ = (θ2 + θ1) / 2. В  каждом из гипотетических тестов (рис. 1 и 2) по 31 заданию с параметром дифференцирующей способности по модели Г. Раша, равным 2. Параметр трудности заданий теста по модели Г. Раша равен 0 в вычислительных экспериментах, результаты которых представлены на рис. 1 и изменяется от –2 до 2 в вычислительных экспериментах, результаты которых представлены на рис. 2. Предполагается, что угадывание отсутствует и параметр внимательности равен 1.

Рис. 1. Качество ранжирования тестируемых для теста с заданиями одинаковой средней трудности.

Результаты проведенных вычислительных экспериментов согласуются с известными выводами о том, что классическая процедура интерпретации тестовых результатов обеспечивает наилучшую дифференциацию тестируемых, когда их подготовленность соответствует трудности заданий теста (рис. 1, ряд данных θ = 0). Построение теста как системы заданий возрастающей трудности (рис. 2) позволяет существенно расширить рабочий диапазон измерения подготовленности тестируемых, однако, чувствительность теста, то есть, его способность разделять испытуемых с небольшой разницей в подготовленности снижается.  

Рис. 2. Качество ранжирования тестируемых для теста с заданиями возрастающей трудности.

Прикладное использование предложенного критерия

В автоматизированных системах педагогического тестирования легко реализуются сложные алгоритмы подсчета тестового балла, что актуализирует роботы, направленные на их модернизацию. В научной литературе и практических разработках тестов, например, государственной итоговой аттестации в Украине, предлагаются способы учета трудности (или значимости) тестовых заданий с использованием весовых коэффициентов [8]. Другим интересным направлением совершенствования системы подсчета тестовых баллов является коррекция тестового балла с учетом вероятности угадывания, что позволяет применять в одном тесте задания различной формы с различною вероятностью угадывания [9].

Применение рассмотренной выше методики вычислительного эксперимента позволило провести сравнительный анализ качества трех процедур подсчета тестового балла: классическая процедура (один балл за каждое правильно выполненное задание); процедура с коррекцией угадывания [6] (1 балл за правильно выполненное задание; ( – с / (1 – с)) – за неправильно выполненное задание, где с вероятность угадывания); процедура с использованием весовых коэффициентов (1 балл за легкое задание, 2 балла за задание средней трудности, 4 балла за трудное задание). Вычислительные эксперименты проведены для случаев, где различие подготовленности тестируемых (θ2–θ1) = 0,5; средняя подготовленность θ = (θ2 + θ1) / 2 принимает значения –2, 0, 2; тест состоит из 31 задания возрастающей трудности (от b0 = –2 до b30 = 2), с параметром дифференцирующей способности a = 2. Результаты вычислительных экспериментов представлены на рис. 3 – 8, с использованием условных обозначений: 1 – классическая процедура; 2 – процедура с коррекцией угадывания; 3 – процедура с использованием весовых коэффициентов. Анализ результатов вычислительных экспериментов (рис. 3 – 8) позволяет прийти к выводу, что в большинстве ситуаций качество модернизированных процедур не выше, чем качество классической процедуры. Поэтому, при нормо-ориентированной интерпретации тестовых результатов целесообразно использовать классическую процедуру подсчета тестового балла. 

Подпись: с0, ... , с30 = 0; d =1
 
 

Рис. 3. Качество ранжирования тестируемых при отсутствии угадывания и невнимательности: процедуры 1 и 2 имеют незначительное преимущество перед процедурой 3 для тестируемых со средней и слабой подготовленностью.

 Подпись: с0, ... , с30 = 0,25; d =1
 
 

Рис. 4. Качество ранжирования тестируемых при 25% вероятности  угадывания и отсутствии невнимательности: процедуры 1 и 2 имеют существенное преимущество перед процедурой 3 для тестируемых со средней и слабой подготовленностью.

 

Подпись: с0, ... , с15 = 0,25; с16, ... , с31 = 0; d =1

Рис. 5. Качество ранжирования тестируемых при возможности угадывания ответов на легкие задания и отсутствии угадывания ответов на трудные задания: заметно снижение качества ранжирования с применением процедуры 3 для тестируемых со слабой подготовленностью.

 Подпись: с0, ... , с15 = 0; с16, ... , с31 = 0,25; d =1
 
 

Рис. 6. Качество ранжирования тестируемых при отсутствии угадывания ответов на легкие задания и возможности угадывания ответов на трудные задания: для тестируемых со средней и слабой подготовленностью заметно снижение качества ранжирования с применением процедуры 2 и особенно процедуры 3.

Подпись: с0, с2... , с30 = 0,25; 
с1, с3... , с29 = 0; d =1
 
 

Рис. 7. Качество ранжирования тестируемых при возможности угадывания ответов на некоторые (трудные, легкие и средние) задания при отсутствии невнимательности: для тестируемых со средней и слабой подготовленностью заметно снижение качества ранжирования с применением процедуры 2 и особенно процедуры 3.

Подпись: с0, с2... , с30 = 0,25; 
с1, с3... , с29 = 0; d =0,9

Рис. 8. Качество ранжирования тестируемых при возможности угадывания ответов на некоторые (трудные, легкие и средние) задания при вероятности ошибок по невнимательности 10%: для тестируемых со средней и слабой подготовленностью заметно снижение качества ранжирования с применением процедуры 2 и особенно процедуры 3; однако для тестируемых с подготовленностью выше среднего процедура 3 работает лучше.

Коррекцию угадывания целесообразно применять в тестах с критериально-ориентированной интерпретацией результатов в системах педагогической диагностики, если тест составлен  из заданий различной формы с различной вероятностью угадывания. При конструировании заданий высокой трудности следует минимизировать возможность случайного правильного ответа. В этом случае незначительное снижение качества ранжирования будет оправдано повышением точности определения уровня исследуемой характеристики, что очень важно в системах педагогической диагностики для сравнения характеристики с соответствующим критерием. Применение коррекции угадывания в тестах, предназначенных для оценивания учебных достижений нецелесообразно.

Целесообразность применения весовых коэффициентов, отражающих трудность заданий, требует специального анализа. При ненулевой вероятности угадывания правильных ответов на трудные задания эта процедура значительно хуже ранжирует тестируемых со средней и слабой подготовленностью, чем две другие рассмотренные процедуры (рис. 4, 6 – 8). Преимущество весовых коэффициентов проявляется только при ранжировании тестируемых с высокой подготовленностью в условиях, когда существенное влияние на их ответы оказывает невнимательность (рис. 8). В любом случае, необходимо стремиться избегать возможности угадывания в трудных заданиях.

Проведенные вычислительные эксперименты [4] для исследования влияния количества заданий в тесте и их дифференцирующей способности на качество ранжирования тестируемых Q позволили предложить эмпирическую формулу для аппроксимации зависимости критерия Q от параметра a модели Г. Раша и количества заданий m в виде:

.

                В этой зависимости можно выделить комплекс как критерий качества тестовых результатов. В реальном учебном процессе общее время тестирования обычно ограничено, тогда количество заданий теста обратно пропорционально времени выполнения каждого из заданий. Таким образом, удобным критерием качества задания представляется комплекс, где a –  параметр дифферецирующей способности задания в модели Г. Раша, t – время выполнения задания. Предложенный комплекс может использоваться для предварительного анализа качества заданий педагогического теста, однако, для точного определения влияния каждого задания на качество тестовых результатов следует пользоваться более точными методами, например, предложенной в данной работе моделью для проведения статистических испытаний.

Заключение

1. Предложено метод сравнения различных процедур тестирования и интерпретации тестовых результатов на основе статистических испытаний.

2. Вычислительные эксперименты подтверждают известный тезис о том, что наилучшее ранжирование тестируемых обеспечивается, если тест составлен из заданий одинаковой трудности, которая соответствует подготовленности тестируемых. Однако, такой тест имеет узкий диапазон измерения.

3. Для тестов с нормо-ориентированной интерпретацией результатов нецелесообразно использовать весовые коэффициенты и коррекцию угадывания.

4. Коррекция угадывания может использоваться в тестах системы педагогической диагностики с критериально-ориентированной интерпретацией результатов. Такая коррекция уменьшает систематическую погрешность измерения, однако приводит к увеличению случайной компоненты погрешности.

5. Применение весовых коэффициентов для учета трудности заданий целесообразно только при условии возможной невнимательности тестируемых, если значительная часть заданий теста слишком легкие для большинства испытуемых. В остальных случаях применение весовых коэффициентов приводит к существенному снижению качества ранжирования.

6. Показано влияние времени выполнения задания на качество тестовых результатов. Предложено использовать комплекс  как критерий качества тестового задания.

Литература

1. Манако А. Ф. КТ в обучении: взгляд сквозь призму трансформаций // Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2012. - V.15. - №3. - C.392-413. - ISSN 1436-4522. URL: http://ifets.ieee.org/russian/periodical/journal.html
2. Микитюк А.Н., Белоусова Л.И., Колгатин А.Г., Литвинов Ю.В. Информационно-образовательная среда университета как основа организации учебной и исследовательской деятельности студентов // Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2008. - V.11. - №3. - C.388-393. - ISSN 1436-4522. 
URL: http://ifets.ieee.org/russian/periodical/journal.html
3.            Зайцева Л. В. Модели и методы адаптивного контроля знаний // Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2004. - V.7. - №7. - C.388-393. - ISSN 1436-4522. 
URL: http://ifets.ieee.org/russian/periodical/journal.html

4.   Колгатін ОГ. Час виконання як один з показників якості завдань педагогічного тесту / ОГКолгатін // Інформаційні технології і засоби навчання: електронне наукове фахове видання [Електронний ресурс] / Ін-т інформ. технологій і засобів навчання АПН України, Ун-т менеджменту освіти АПН України; гол. ред. : ВЮ. Биков. – 2012. – № 5 (31). – Режим доступу http://journal.iitta.gov.ua/index.php/itlt/article/download/723/554 – Заголовок з екрана.

5.   Baker F. B. The Basics of Item Response Theory / F. B. Baker. – USA : ERIC Clearinghouse on Assessment and Evaluation, 2001. – 176 p.

6.   Колгатін О. Вплив вгадування на надійність тестових результатів у комп’ютерних системах педагогічної діагностики / Олександр Колгатін // Математика в школі. – № 2 (78) 2008. – С. 36–41.

7.   Ротаєнко П. А. Про вірогідність результатів тестування із закритою формою завдань / П. А. Ротаєнко // Комп’ютер у школі та сім’ї. – 2004. – № 6. – С. 12–15.

8.   Збірник завдань для державної підсумкової атестації з математики. 11 клас / Істер О.С., Глобін О.І., Панкратова І.Є. – К.: Центр навчально-методичної літератури, 2012. – 111 с.

9.   Кромер В. В. О некоторых вопросах тестовых технологий / В. В. Кромер // Тез. докл. Второй Всеросс. конфер. ["Развитие системы тестирования в России"], (Москва, 23-24 ноября 2000 г.). Ч. 4. – М. : Прометей, 2000. – С. 59–61.