Численное моделирование инвариантности оценки знания относительно трудности тестовых заданий

 в рамках модели Гаша

 

Р.Х. Сафаров,

профессор кафедры вычислительной физики и моделирования физических

 процессов Казанского (Приволжского) федерального университета,

 Казань, Кремлевская 18, rsafar@mail.ru, (843)543-58-90

 

О.Ю. Панищев,

старший преподаватель кафедры вычислительной физики и моделирования  физических процессов Казанского (Приволжского) федерального университета,

Казань, Кремлевская, 18, opanischev@gmail.com

 

Аннотация

Численным моделированием процесса тестирования исследовано влияние трудности задания на оценку знания в рамках модели Раша. Показано, что математико-статистические  методы современной теории тестов дают объективные оценки знания испытуемых, не зависящие от трудности заданий при выполнении необходимых требований проведения тестирования.

       The influence of item difficulty to assess knowledge  was examined in numerical simulation of testing within the model of G. Rasch. It has been shown that the mathematical and statistical methods of Item Response Theory (IRT) provide objective assessment of knowledge, which does not depend on the difficulty of an item, if the necessary requirements for  testing  are carried out..

 

Ключевые слова

Современная теория тестов, модель Раша, численное моделирование, объективность оценок знания

Item Response Theory (IRT), a model of G. Rasch, numerical simulation, objective assessments of knowledge

 

Введение

В связи с переходом наших Вузов в балльно-рейтинговую систему стало нормой плановое проведение контроля знания студентов по каждому модулю учебной дисциплины. Для успешного выполнения систематической оценки знания привлекается тематическое тестирование в дополнение к традиционным видам контроля знания [1-4].

Но здесь сталкиваются со следующей проблемой: не всякий тестовый набор заданий в состоянии обеспечить достоверную оценку знания. Известно [5], что тесты с высоким уровнем трудности приводят к заниженным оценкам испытуемых, и наоборот, легкие тесты завышают результаты тестирования. Только профессиональное проведение тестирования и корректное применение  математико-статистических методов современной теории тестов для анализа данных тестирования позволяют получить достоверные оценки знания, не зависящие от трудности тестовых заданий. Продемонстрируем процедуру математической обработки  результатов теста, необходимой для объективной оценки знания, на примере упрощенного численного  моделирования процесса тестирования.

Современная теория тестов и модель Раша

Под названием современная теория тестов понимают известную за рубежом теорию  Item Response Theory (IRT), основу которой составляет модель Раша [6].  Модель Раша исходит из положения, что вероятность правильного ответа i-того испытуемого на j-тое тестовое задание определяется разностью латентных (скрытых) параметров θi - βj - уровней обученности испытуемого и трудности задания и описывается функцией успеха

                                           (1)

Георг Раш предположил, что эта математическая модель устанавливает  взаимосвязь между эмпирическими результатами тестирования и значениями латентных параметров θi  и βj , при этом  уровень обученности испытуемого θi  и  уровень трудности задания βj  размещены на одной шкале и измеряются в одних и тех же единицах – логитах.                       

Существует несколько методов  определения латентных параметров    θi  и βj   непосредственно из  эмпирических данных тестирования, представленных дихотомической  матрицей , когда за верный ответ ставится 1, а за неверный ответ  -  0. Для вычисления этих величин θi  и βj  воспользуемся  методом параметризации,  процедуру которого изложим, следуя М. Челышковой [5].

Индивидуальный балл i –того испытуемого определяется из выражения

,                                                           (2)

откуда следуют доли верных  и неверных  ответов испытуемых, где m - количество заданий в тесте. На основе этих величин производится предварительная оценка обученности в логитах

                                                            (3)

Количество правильных ответов на j-тое задание  вычисляется по формуле

                                                         (4)

и  подсчитываются доли правильных  и неправильных ответов qj=1-pj на это задание, где n - число испытуемых в группе.

Предварительная оценка трудности задания производится в логитах

                                                          (5)

На следующем этапе начальные значения логитов обученности  и трудности заданий переводятся в единую  интервальную шкалу стандартных оценок.  Стандартизация достигается с помощью ряда специальных преобразований [7],  для осуществления которых вычисляются:

·           среднее значение  для множества  подсчитывают по формуле

,                                                          (6)

где  — предварительные значения уровня обученности -го испытуемого;

·           среднее значение   для множества   равно

,                                                        (7)

где  — предварительные значения логитов трудности заданий;

·           дисперсия по множеству значений 

,                                                 (8)

·           дисперсия по множеству

,                                             (9)

·           поправочные коэффициенты

 

                                            (10)

                                               (11)

Конечные оценки параметров  в единой интервальной шкале нахо­дятся по формулам

,                                           (12)

,                                            (13)

Последние формулы (12) и (13) современной теории тестов обеспечивают объективность параметров испытуемых и заданий  и независимость друг от друга оценок обученности и трудности задания. Но на практике, как отмечает В.Аванесов [8] , результаты не всякого тестирования согласуются с моделью Раша. Несоответствие эмпирических данных модели Раша может  означать, что были нарушения в процедуре тестирования или  при анализе эмпирических данных. Некоторые авторы [9, 10] пытаются улучшить теорию для того, чтобы она точнее описывала экспериментальные данные, или ведут поиски других моделей, более адекватных полученным результатам.  

Здесь есть принципиально важный момент. В теории Г.Раша никогда не ставилась задача адекватного описания данных. Напротив, утверждается противоположное – не модель должна соответствовать эмпирическим данным, а данные должны соответствовать модели. В теории педагогических измерений применяется иной подход, нежели в естественных науках. Если в физике законы природы не зависят от исследователя, то тесты в немалой степени зависят от его воли. Поэтому физики стараются развить модель для лучшего согласия с экспериментом, а тестирование необходимо проводить,  строго выполняя требования  теории. В соответствии с этим педагогический тест образуют только те задания, которые отвечают данной модели измерения. Все остальные в тест не включаются.

Численное моделирование процесса тестирования

Проведем моделирование процесса тестирования в рамках модели Раша с целью изучения вопроса, как влияет трудность тестовых заданий на оценку знания испытуемых. Вначале установим масштаб изменения латентных параметров. Отечественная  пятибалльная шкала позволяет оценивать знания учащихся с точностью не более 20%, а возможности тестовой технологии определения уровня обученности значительно выше. Но на практике достаточно ограничиться такой точностью  вычисления вероятности правильного ответа по формуле успеха (1), которая  обеспечивается интервалом изменения латентных параметров θi  и βj в пределах от -3 и до +3 единиц логитов,  а погрешность измерения этих параметров допустим,  равной Δθ~Δβ~0,3 логит [11].

Численные расчеты удобно проводить в среде MathCad, которая имеет широкие  возможности стандартных статистических обработок числовых массивов и графических построений. Выберем в качестве испытуемых одну академическую группу из n=25 студентов  с нормальным распределением θ - уровней обученности.  С помощью функции   θ = rnorm(25,0,1)  образуем массив θ обученности из случайных чисел, распределенных по стандартному нормальному закону с численными характеристиками среднего значения  θs=0  и  стандартного отклонения Sxθ=1, а затем проведем процедуру упорядочивания этого массива по возрастанию  значения θ уровня обученности.   При этих характеристиках нормального распределения значения θ заключены в  интервале  (- 3,+3) и совпадают с принятым масштабом изменения уровня обученности.

Теперь установим масштабы изменения трудности тестовых заданий. Будем считать, что имеется банк тестовых заданий  калиброванной трудности.  Из опыта проведения тестирования [8] выявлено, что уровень трудности теста должен соответствовать уровню обученности испытуемых.  Нет смысла задавать слабо подготовленным трудные задания, с которыми они заведомо не справятся, и наоборот, легкими вопросами не установить уровень знания. Поэтому выберем трудность теста, соответствующую  уровню обученности группы.  Зададим число заданий m=30  с интервалом изменения трудности  в тех же пределах, что и интервал обученности группы,  полагая равномерное распределение их. Среднее значение этого  массива заданий равно βs =0, т.е. выдержано еще одно требование - сбалансировано число трудных и легких заданий в тесте.

Наконец, проведем моделирование процесса тестирования указанной группы испытуемых в рамках модели Раша. Согласно модели Г. Раша в качестве результатов тестирования  оперируют не дихотомическими константами 0 и 1,  а  суммарной  вероятностью ответа i – того испытуемого на задания теста, определяемой по формуле успеха (1):

,                                                           (14)

А суммарную вероятность правильных ответов на j-тое задание всей группой испытуемых  определим по формуле

,                                                           (15)

Дальнейшие расчеты латентных параметров проведем по выше изложенной процедуре с переопределенными величинами (14) и (15). При предположении о наличии банка  заданий калиброванной  трудности задача сводится к нахождению только параметра обученности и  на анализ следующих  его значений: 

·            предварительные значения  θ0, определенные в логитах по формуле (3)  и

·            конечные значения  θk, вычисленные в интервальной шкале по формуле (12).

Завершается анализ установлением требований к процедуре тестирования, которые обеспечивают  согласие расчетных значений обученности  θk  с  исходным θ по критерию хи-квадрат

                                      (16)

Имея тестовые задания с равномерным распределением β трудности, проведем моделирование процесса тестирования в группе испытуемых с нормальным распределением θ обученности и определим параметры  θ0 и θk, значения которых  представлены на рис.1, где сравниваются  с исходной θ обученностью. 

Кривые этих распределений пересекаются  при  β ~ θ ~ 0  так, что до пересечения трудность задания оказалась ниже обученности испытуемых, а после пересечения выше ее. Что приводит к тому, что   предварительные значения обученности θ0 испытуемых оказываются завышенными при низкой трудности задания и заниженными при высокой трудности заданий. Вследствие равенства средних значений трудности  βs=0  и обученности θs=0 их различия незначительны,  в пределах допущенной погрешности, что подтверждается вычислением критерия   χ2 (θ0-θ) = 0,78.

Рис.1.Сравнение предварительных  и  конечных   значений обученности с  исходным значением обученности θ

 

Общее поведение конечных значений обученности θk направлено на устранение отличий θ0  и θ, но эти изменения столь большие, что превышают различие θk и θ,  даже  приводят к  изменению знака  разности θk–θ, т.е. к неестественному поведению. Эта ситуация вызывает необходимость введения дополнительного фактора, уменьшающего эти изменения. Возможной причиной  такого явления может быть, что статистическая выборка  массивов испытуемых и заданий незначительна. Поэтому перенормируем поправочные коэффициенты (10) и (11),  введя сигма-фактор по аналогии с эффектом Гиббса

 Xa = X*σ                                                                        (17)

Yb = Y*σ                                                                        (18)

Как известно, эффект Гиббса проявляется из-за использования на практике усеченного ряда Фурье и исправляется умножением на фактор σ < 1 коэффициентов разложения.

Из условия наилучшего согласия конечных   с  исходными   значениями обученности определено значение  фактора, равное  σ = 0,7. Степень полученного согласия подтверждается  критерием     χ2 k-θ) = 0,03  и демонстрируется  на рис.2.

Теперь выберем задания повышенной трудности β1s=0,55, построив массив β1 при равномерном  распределении 10 заданий на интервале  β1= -3÷ 0  и  20 заданий на интервале β1= 0 ÷ 3. Результаты моделирования такого тестирования представлены на рис.3. 

Повышенная трудность заданий понижает предварительную  обученность группы от исходного значения  θs = 0  до  θ0s = -0,52 .    Конечное значение обученности, вычисленное на

Рис.2  Согласие конечных  значений обученности с исходными  

при введении фактора  σ = 0,7

 

основе вышеизложенной процедуры,  с включением фактора σ = 0,7,  равно   θks = -0,03,  что отлично согласуется с исходным значением (критерий  χ2 k-θ) =0,06). 

Рис.3. Cовпадение значений конечной обученности θk с исходной θ   при обученности θs=0, трудности β1s=0,55   и  σ=0,7

 

В реальности не часто встречается нормальное распределение обученности в академических группах.  Поэтому рассмотрим случай, когда группа испытуемых имеет  случайное распределение обученности. С этой целью используем стандартную функцию   θ1 = runif(25,-2.5,2.5)  и образуем массив из 25 случайных чисел в интервале (-2,5; +2,5)  единиц логитов. Затем отсортируем этот массив по  возрастанию значений обученности с помощью функции θ1=sort(θ1).

Аналогично этому составим тестовые задания, трудность которых распределена так же по случайному закону β1= runif(30,-3,3) с интервалом (-3;+3),  перекрывающим интервал обученности группы. Используя стандартную функцию случайных чисел, можно составить группы испытуемых с различным уровнем обученности и тесты разной трудности.      

Численное значение σ-фактора было проверено в нескольких вариантах тестирования с различным распределением  обученности тестируемых и трудности заданий и с различной  трудностью тестов. Определенное из условия наилучшего согласия параметров θk  и  θ  по критерию χ2 ,  значение σ-фактора оказалось одинаковым во всех вариантах тестирования. В дальнейших расчетах используется это установленное значение σ=0,7.

Анализ результатов численного моделирования 

Имея возможность создавать массивы со случайным распределением обученности θ и  трудности заданий β, выберем  3  группы испытуемых со средним уровнем обученности θs ~ 0,    θs = - 0,2   и    θs = +0,2.   Каждая группа многократно подвергалась тестированию. Средняя трудность βs этих тестов варьировалась в пределах (-0,5; +0,5) логит. Тесты с трудностью выше этого предела не позволяют получить удовлетворительное согласие конечной обученности с исходной по критерию χ2(θks-θ) .

     На основе результатов этой серии тестирования изучался вопрос, как изменяется обученность  θ0s  с возрастанием трудности теста  βs.   На рис.4 представлена зависимость 

Рис.4. Понижение предварительной обученности группы θ0θs = θ0s – θs

с ростом βs трудности теста

 

разности предварительной и  исходной обученностей θ0θs =  θ0s – θs  от βs  - средней трудности теста. Массивы численных результатов тестирования 3 групп испытуемых обозначены М1, М2 и  М3, соответственно. Эта зависимость оказалась линейной и не зависящей от исходной обученности группы. Вследствие этого,  прямые отрезки θ0θs, соответствующие трем группам испытуемых, ложатся одна на другую.

Отметим, что при средней трудности теста  βs ~ 0, т.е. при при компенсации трудных и легких заданий в тесте, предварительная обученность совпадает с исходной. Отсюда следует, что результаты тестирования с помощью теста компенсированной трудности βs ~ 0 дают достоверное оценивание знания без математической обработки их. При увеличении трудности теста оценка обученности группы линейно понижается, а при уменьшении трудности теста обученность возрастает.

Но в реальности не достигается ни удачная калибровка тестовых заданий, ни достоверное шкалирование испытуемых. Поэтому необходимо проводить  математико-статистическую обработку результатов тестирования для получения объективной оценки обученности. Степень согласия конечной обученности с исходной проверялась по критерию χ2(θk-θ) < 1,  но не по соответствию средних значений обученности.  Известно математическое свойство теста [7], которое заключается в том,  что используемый для достоверной оценки обученности тестовый набор заданий с большим разбросом трудности (большая дисперсия) уменьшает разброс конечных оценок θk обученности. Вследствие этого усредненное значение конечной обученности  контингента испытуемых оказывается в окрестности  θks ~ 0.  Это свойство  не зависит ни от трудности теста,  ни от начального уровня обученности испытуемых. Такая независимость (инвариантность) обученности от трудности теста демонстрируется на рис. 5, где данные серии тестирования с задниями разной трудности дают одинаковые результаты средней обученность 3-х групп испытуемых. Необходимо особо отметить, что тестовые оценки испытуемых совпадают с исходным уровнем обученности, что непрерывно контролировалось по критерию χ2 . Это свойство инвариантности указывает на объективность тестового контроля знания. 

Модель Г. Раша обладает еще одной замечательной особенностью, связанной с относительной инвариантностью оценок обученности испытуемых и трудности заданий. Дело в том, что формула успеха (1) зависит только  от разности параметров θ – β.

Если испытуемый выполняет задание  трудностью β  с некоторой вероятностью P(θ,β), то на задание трудностью β+c с прежней вероятностью ответит более подготовленный испытуемый с обученностью θ+c, так как   θ – β = (θ + c) – (β + c). Этот эффект относительной инвариантности оценок параметров обученности   и трудности  отражен на рис. 6. 

Рис.5. Инвариантность обученности относительно трудности теста.

Рис.6. Иллюстрация относительной инвариантности средней обученности θ0s от разности  средних значений параметров θβ=θsβs.

 

Для всех 3-х вариантов тестирования  наблюдается одинаковое линейное возрастание предварительной обученности с ростом разности параметров θsβs . Совпадение средних значений θ0s в области, где перекрываются значения разности θsβs для разных вариантов тестирования,  дает обоснование для вывода об относительной инвариантности оценок параметров θ  и  β.  

 

Заключение

Численным моделированием процесса тестирования в рамках модели Раша продемонстрировано, как математико-статистические методы современной теории тестов приводят к достоверным оценкам испытуемых, не зависящим от трудности заданий  при выполнении необходимых требований проведения тестирования.

Одно из важных требований в том, что уровень трудности теста должен соответствовать уровню обученности испытуемых. Только в этом случае, когда близки средние значения трудности теста и обученности испытуемых, и достаточно велика дисперсия массива трудности задания, оценка обученности становится наиболее эффективной, которую можно принять в качестве объективной оценки. Сокращение интервала трудности заданий в тесте, т.е. уменьшение дисперсии массива заданий, приводит к снижению контролирующей функции теста. 

Другое не менее важное требование состоит в том, что среднее значение массива заданий должно быть близко к  βs =0, т.е. должно быть сбалансировано число трудных и легких заданий в тесте. В случае удачно компенсированной трудности βs ~ 0 теста достигается  достоверное оценивание знания без дополнительной математической обработки их.  

Только при выполнении требуемых условий проведения тестирования и профессиональной обработки его результатов достигается инвариантность оценок знания относительно трудности заданий.

В нашем численном моделировании процесса тестирования остается не выполненным требование достаточной статистики массивов испытуемых и заданий. В связи с внедрением в наших  ВУЗах  балльно-рейтинговой системы текущий контроль знания проводится по каждому модулю изучаемой дисциплины в отдельной академической группе с помощью тематических тестов, состоящих из ~30 заданий.  В таких случаях модель Раша не всегда адекватно описывает эмпирические данные тестирования.  И для согласования расчетных и исходных значений  обученности вынуждены ввести  поправочный множитель σ-фактор, причина которого возможна, что  используемые статистические выборки заданий и тестируемых не значительны.

В заключение еще раз отметим, что достоверность оценки испытуемых  достигается  только в случае  корректного проведения тестирования и профессионального анализа его данных в рамках модели Раша.

 

Литература

1.         Сафаров Р.Х. Математико-статистическая обработка результатов тестирования на   базе  EXCEL. Практикум». Учебное пособие для студентов педагогических вузов.  Казань, ТГГПУ, 2010 г., 98 стр.

2.     И.Х. Галеев, В.Г. Иванов, Н.В. Аристова, В.Г. Урядов.  Сравнительный анализ  программных комплексов TestMaker и ACTest // Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2007 . - V.10. - №3. - C.336-360. - ISSN 1436-4522. URL: http://ifets.ieee.org/russian/periodical/journal.html

3.       Н.О.Прокофьева. Вопросы организации компьютерного контроля знаний // Международный электронный журнал "Образовательные технологии и общество (Educational Technology &Society)" - 2006 . -Т.9. - №1. - C.433-440. - ISSN 1436-4522. URL: http://ifets.ieee.org/russian/periodical/journal.html

4.       Сафаров Р.Х., Хрусталев А.В. Типы вопросов тематических тестов по классической механике на основе программного продукта  TestMaker// Международный электронный журнал "Образовательные технологии и общество (Educational Technology &Society)" - 2010 . -Т.13. - №1. - C.281-292. - ISSN 1436-4522. URL: http://ifets.ieee.org/russian/periodical/journal.html

5.         Челышкова М.Б. Теория и практика конструирования педагогических тестов: Учебное пособие. М.: Логос, 2002 г., 432 с.

6.         Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen, 1960, Danish Institute of Educational Research. (Expanded edition, Chicago, 1980, The University of Chicago Press).

7.         Нейман Ю.М., Хлебников В.А. Педагогическое тестирование как измерение .: Центр тестирования  МО РФ, 2002, 67 с.

8.         Аванесов В.С. Применение тестовых форм в Rasch Measurement // Педагогические измерения, 2005, №4. С.3-20.

9.         Колпаков А.В., Колпакова А.В., Захаров А.А. Численный метод получения логитов из первичного балла // Вопросы тестирования в образовании, 2002, №3. С.125-128.

10.     Кузнецов А.В. Методика тестирования знаний и устранение случайных ошибок //Образовательные технологии  и общество // Международный электронный журнал "Образовательные технологии и общество (Educational thehnology & Society)" -2007, Т.10, №1, С.271-275.-ISSN 1436-4522.URL: http://ifets.ieee.org/russian/periodical/journal.html

11.      Ким В.С. Тестирование учебных достижений.- Уссирийск, УГПИ, 2007. С.208