Анатомия внешнего независимого оценивания знаний

Альберт Георгиевич Оганесян

Профессор, д. ф.-м. н., помощник директора,

Львовский колледж Киевского Государственного университета информационно-коммуникационных технологий,

Украина, Львов, ул. Владимира Великого, 12., (032) 261-34-06, a.g.oganesyan@gmail.com

Аннотация

Предложена статистическая имитационная модель внешнего независимого оценивания знаний ВНО (аналог российского единого государственного экзамена ЕГЭ). Модель позволяет оценить уровень соответствия реальных знаний абитуриентов и их рейтинговыми баллами, которые формируются системой ВНО. Показано, что рейтинговые баллы сильно завышаются и позволяют получать проходной бал без достаточных для того знаний. Проанализированы причины, вызывающие несоответствие ВНО основной цели:  успешное тестирование должно являться свидетельством не только знания предмета, но и умения применять эти знания на практике.

  The statistical imitating model of external independent estimation of knowledge - EIE (analogue of the Russian unified state examination - USE) is offered in this paper. The model allows estimating level of conformity of the real knowledge of entrants and their rating points which are formed by system EIE. It is shown that rating points are strongly overestimated and allow receiving passing points without sufficient for this purpose knowledge. The reasons causing noncompliance of a main EIE objective are analyzed: successful testing should proof not only knowledge of a subject, but also abilities to put this knowledge into practice.

Ключевые слова

Имитационная модель, компьютерное тестирование, внешнее  независимое оценивание, рейтинг, технология  тестирования.

Simulation model, computer testing, external independent estimation of knowledge, rating, testing technology.

Введение

Уже не первый год на Украине потенциальные абитуриенты  должны пройти через внешнее независимое оценивание знаний ВНО (аналог российского единого государственного экзамена ЕГЭ). В результате каждый абитуриент получает некоторую цифру в интервале от 100 до 200, которую называют рейтингом и которая  означает, что … И вот тут, к сожалению, уместно только многоточие. Что означает рейтинг, организаторы ВНО до сих пор не только не обосновали, но даже и не объяснили (в этом смысле очень символично, что  аббревиатура Внешнего Независимого Оценивания Знаний не содержит буквы «З»). До сих пор остаётся открытым вопрос, можно ли по величине рейтинга отобрать желающих и способных учиться по выбранной специальности? Приведу мнение бывшего директора Украинского центра оценивания качества образования (УЦОКО) И.Ликарчука: «…цель внешнего оценивания не выявление способностей будущих студентов. Поэтому им и предлагается тест, отображающий их учебные достижения (?), а не тест на выявление интеллекта или способностей к обучению» (Зеркало недели, № 11 (791) 2026 марта 2010, http://www.zn.ua/3000/3300/68875/). Учебные достижения отражает школьный аттестат, но не результаты ВНО. До сих пор ситуация с целью ВНО так и не прояснилась.

Если бы была уверенность, что величина рейтинга действительно оценивает уровень знаний абитуриентов, то можно было бы и не интересоваться технологией его получения. В конце концов, мало кто интересуется, как работает газовый счётчик, понимая, что цифры в его окошке показывают количество использованного газа в кубических метрах, а его работоспособность контролируется соответствующими органами, не зависящими от разработчиков и производителей.

Ситуация с ВНО иная. УЦОКО (http://testportal.gov.ua/) одновременно является идеологом, разработчиком, исполнителем и контролёром ВНО, то есть полная монополия на все функции.

Технология получения рейтингов абитуриентов достаточно хорошо известна по множеству публикаций и, прежде всего, из годовых отчётов УЦОКО. Несмотря на нескончаемый поток критических публикаций, неизвестные авторы ВНО уже который год отмалчиваются. В конце концов, и критики могут ошибаться, но тогда почему большинство новоявленных студентов не знает даже элементарной математики, которая на инженерных специальностях просто необходима?

К сожалению, большинство критики в адрес ВНО носит качественный характер, а нужен количественный. Например, чтобы проверить работоспособность газового счётчика, достаточно пропустить через него заранее известное количество газа и сравнить его с показаниями счётчика. Это классика «поверки» любых приборов, которая сводится к сравнению с эталоном. 

В принципе, можно было бы применить данный метод и для проверки ВНО, но очень трудоёмко. Для этого нужно подобрать несколько статистически достаточных эталонных массивов «абитуриентов» с заранее известными уровнями знаний. Понятно, что сформировать массив из не знающих предмета «абитуриентов» нетрудно. Но создать эталонный массив для хорошо знающих предмет и, хотя бы, ещё один с промежуточными знаниями проблема.

Можно было бы поступить существенно проще. Допустим, что весь тест состоит из 56 совершенно одинаковых тестовых задний. Например, 56 раз надо ответить, чему равно 2×2 с возможными ответами: 2, 3, 4, 5.  Если априори предположить, что все испытуемые эталонной группы знают, что 2×2=4 и номер правильного ответа во всех тестовых заданиях указан правильно, то очевидно, практически все испытуемые должны получить наивысший рейтинг на уровне 200. За исключением небольшого числа тех, кто допустил случайные ошибки при вводе ответов.

Допустим теперь, что во всех тестовых заданиях правильные ответы указаны неверно, но испытуемые об этом не знают. Очевидно, что рейтинг всей группы испытуемых в этом случае должен быть на уровне 100 (в соответствие с принятой ВНО шкалой 100-200). Если же испытуемые знали, что ответы указаны неверно, то станут просто угадывать, выбирая случайным образом один из четырёх предложенных вариантов. В этом случае приблизительно четверть ответов будут правильными и примерно четверть испытуемых доберётся до уровня 124 (проходной минимум), а некоторым удастся даже выше.

Наконец, только некоторую часть тестовых заданий можно снабдить неверными ответами при остальных правильных и проверить, как реагирует на это система ВНО.

Возможно, разработчики ВНО и делали что-то подобное, однако публикаций на эту тему нет, а есть только утверждения администрации УЦОКО в СМИ, что действующая система ВНО вполне справляется с задачей отбора способных учиться в вузах. Организаторы ВНО тешат себя мыслью, что абитуриенты, прошедшие тестирование, успешно учатся в вузах.

Но вот свежий факт. Недавно решили проверить, насколько результаты ВНО по математике и физике соответствуют знаниям, достаточным для освоения специальности в области радиоэлектроники. Для этого первокурсникам предложили за 45 минут анонимно решить по одной несложной задаче по математике и физике в пределах школьной программы. Результаты удручающие: две трети студентов не смогли решить ни одной задачи и только 4 студента из 75 (5%) решили обе задачи. Эти же задачи предложили студентам третьего курса. Результаты почти совпадают. Спрашивается, как с такими исходными знаниями можно освоить программу вуза по радиоэлектронике? Отвечу однозначно никак. Тем не менее, действительно, большинство студентов переходит с курса на курс и, в конце концов, получают диплом государственного образца о высшем образовании. Но это отдельная проблема, выходящая за рамки настоящей статьи.

Основная задача статьи разобраться, что означает понятие «рейтинг», формируемого  системой ВНО и, главное, как он связан с уровнем знаний абитуриентов. Отчёты УЦОКО позволяют понять, как происходит тестирование абитуриентов и дальнейшая обработка полученных результатов с конечной целью формированию индивидуального рейтинга каждого абитуриента. Вся процедура тестирования состоит из трёх этапов: собственно тестирования с выборочными ответами из 4-х вариантов, перевода полученных результатов в шкалу 100-200 баллов и, наконец, вычислению рейтинга в этом же диапазоне. Перевод начальных баллов в интервал 100…200 баллов задаётся в виде таблиц, причём для каждого предмета индивидуально (зачем?).

Для решения поставленной задачи использован метод статистического имитационного моделирования на базе хорошо известного пакета Mathcad (версия 14.0.0.163). Имитационная модель позволяет точнее и понятнее проследить все этапы подготовки рейтинга, тем более, что табличный пересчёт одних шкал в другие делает аналитический способ крайне затруднительным. Mathcad же хорош тем, что большинство его операторов представлено в хорошо знакомой алгебраической форме и вполне могут быть понятны и гуманитариям.

Вариант 1. Средний априорный уровень абитуриентов

Для конкретности, используем данные отчёта УЦОКО за прошлый год по физике. Тест по физике состоял из 56 тестовых заданий. Результат ответа на каждое тестовое задание нуль или единица. Таким образом, если абитуриент ни разу не выбрал правильный ответ (из 4-х возможных), его тестовый балл будет равен нулю. Если же все ответы правильные, то максимум 56 баллов. Перевод тестовых баллов в диапазон 100…200 баллов выполнялся по Таблице.1. В 2011 году по физике прошли ВНО 46240 абитуриентов.

Имитационная модель (ИМ) содержит несколько функций. Одна из основных -  Abit(N,m,σ)  (1), которая формирует эталонный массив из N элементов, распределённых по усечённому на уровне 100 закону Райса. Величины m и σ - среднее и среднеквадратичное отклонение соответственно нормальных распределений, определяющих закон Райса.  При m=0 формируется распределение по усечённому закону Релея.

Таблица.1 (файл TransPHYS.11)

Тестовый бал

Бал 100-200

Тестовый бал

Бал 100-200

Тестовый бал

Бал 100-200

Тестовый бал

Бал 100-200

0

100.0

15

153.0

30

181.5

45

196.5

1

100.5

16

157.0

31

182.5

46

197.5

2

100.5

17

160.0

32

183.5

47

198.0

3

100.5

18

163.0

33

185.0

48

198.5

4

102.0

19

165.5

34

186.0

49

198.5

5

105.0

20

168.0

35

187.0

50

199.0

6

109.0

21

170.0

36

188.0

51

199.5

7

114.0

22

171.5

37

189.0

52

200.0

8

119.5

23

173.0

38

190.0

53

200.0

9

125.0

24

174.5

39

191.0

54

200.0

10

130.0

25

176.0

40

192.0

55

200.0

11

135.0

26

177.0

41

193.0



12

140.0

27

178.0

42

194.0



13

144.5

28

179.5

43

195.0



14

149.0

29

180.5

44

196.0




                               (1)

Встроенная функция rnorm(n,m,σ) формирует массив из n нормально распределённых чисел со средним m и среднеквадратичным σ.

Величину х в рассматриваемой ИМ будем интерпретировать как априорный уровень оценок абитуриента по 100 бальной шкале. Моделирование начинается с формирования эталонного массива абитуриентов (2):

                   (2)

Рис. 1. Первые 50 элементов эталонного (априорного) массива оценок уровня знаний.

           (3)

Теперь нетрудно вычислить (4) и построить гистограмму эталонного массива (Рис.2).

               (4)

Рис. 2. Гистограмма эталонных априорных оценок (баллов).

Естественно, сумма элементов гистограммы равна размеру эталонного массива N:

                                                       (5)

Для определения значений максимума и его положения используем функцию Nm(x):

                                    (6)

Следующая функция Ball(x,Nt,No) (7) моделирует тестирование абитуриентов. Здесь х эталонный массив абитуриентов с априорно заданными оценками по шкале 0…100 баллов, Nt количество тестовых заданий, No количество выборочных ответов тестового задания (для ВНО по физике принято Nt=56 и =4).

Первый оператор этой функции определяет размер массива, то есть количество тестируемых. В операторе цикла подсчитывается количество правильных ответов s. Вероятность правильного ответа тем выше, чем выше априорная оценка тестируемого ().

Оператор имитирует ситуацию, когда испытуемый наугад выбирает вариант ответа на вопрос тестового задания.

     (7)

Зададим количество тестовых заданий, вариантов ответов и выполним имитацию тестирования:

Результат показан на рис. 3:

Рис. 3. Первые 50 элементов массива тестовых баллов.

Среднее и среднеквадратичное значения тестовых баллов соответственно равны:

                     (8)

Теперь вычислим гистограмму тестовых баллов и построим гистограмму тестовых баллов совместно с гистограммой эталонного массива оценок с одинаковыми масштабами по горизонтальной оси:

Рис. 4. Гистограммы эталонных оценок  hxn и соответствующих тестовых баллов hbn.

Среднее эталонных оценок по 100 бальной шкале, равно 34 (), а вот соответствующее среднее значение тестовых баллов существенно выше 51 (8). Это увеличение возникает из-за того, что при тестировании с выборочными ответами вероятность угадывания ответа , что при 4-х предлагаемых ответах довольно велика 25%.  Для сравнения на рис.5 показаны аналогичные гистограммы для тех же исходных данных, но при разных значениях количества выборочных ответов No.

Рис. 5. Гистограммы тестовых баллов при No = 2; 4; 8; 100.

Рассмотрим теперь перевод тестовых баллов в диапазон 100…200, который для физики выполнялся по Таблице.1 (напомним, для каждого предмета своя таблица). Данные этой таблицы введены в двумерный файл TransPHYS.11 (ради экономии места здесь его не приводим), который показан в виде графика на рис. 6, где одновременно изображено и линейное преобразование (8.а) в этот же диапазон

                                              (8.а)

Рис. 6. Таблица 1 в виде графика шкал 100…200.

Довольно странный диапазон, при котором полное отсутствие знаний соответствует 100 баллам. Объясняется это тем, что в школах Украины принята шкала 0…12 баллов. Чтобы избежать путаницы, к шкале 0…100 добавили сотню. Нам это не грозит, а пользоваться удобнее шкалой 0…100, поэтому удалим из Таблицы 1 эту сотню (рис. 7):

Рис. 7. Таблица 1 в виде графика шкал 0…100.

Перевести тестовые баллы диапазона 0…Nt  (Nt=56) в диапазон 100…200 при нелинейном табличном преобразовании просто: , но удобнее, повторю, диапазон 0…100, поэтому , что на результат никак не влияет.  Кроме того, для последующего сравнения, переведём тестовые баллы диапазона 0…Nt  в диапазон 0…100 и линейно: .   Вычислим средние и среднеквадратичные значения для массивов L и B:

                             (9)

Среднее значение табличного преобразования существенно больше линейного, что хорошо заметно и на графиках рис. 8.

Рис. 8. Первые 50 элементов массива В, шкала 0…100.

Вычислим гистограммы массивов L и B:

                                                        (10)

Поскольку последовательности и одинаковы с точностью до постоянного множителя,  то и их гистограммы при одинаковом масштабе по горизонтали совершенно одинаковы. Вот почему на рис.9 гистограмма не показана, поскольку она полностью совпадает с гистограммой .

Рис. 9. Гистограммы эталонных оценок x и их оценки по шкале 0…100 для линейного L и нелинейного табличного В преобразований.

Положения максимумов сдвинуты в сторону увеличения оценок:

                  (11)

Результат вполне ожидаемый, поскольку нелинейное табличное преобразование (рис.7) предполагает завышение оценок, кстати, совершенно не обоснованное (во всяком случае, в отчётах УЦОКО этого нет). Средние значения оценок (баллов по шкале 0…100) соответственно равны:

                    (12)

Таким образом, среднее значение эталонных оценок с 34 баллов увеличивается до 78 баллов, т.е. более чем в два раза.

Нули на гистограммах появляются при переходе от узкого к более широкому диапазону (от 0…55 перешли к 0…100).  Но сумма значений каждой гистограммы должна, естественно, равняться заданному количеству абитуриентов  N=50000. Это легко проверить:

Шкалу 100…200 в отчётах УЦОКО называют шкалой рейтингов. Термин происходит от английского «rating» оценка, порядок, классификация. Понятие рейтинга довольно расплывчатое, но, чаще всего, предполагается ранжирование по какому либо параметру. Например, ведомость с экзаменационными оценками можно ранжировать по убыванию оценок, а номер студента в этом списке считать рейтингом. Понятно, что в одной ведомости в первой строке может стоять оценка «отлично», а в другой «удовлетворительно», но рейтинги будут одинаковыми. Вообще говоря, не стоило бы акцентировать внимания на терминологии, если бы не одна странность.

Во все времена проведения ВНО в прессе сообщалось об уникальных абитуриентах, набравших по всем предметам (в которых принимали участие) максимальный рейтинг 200 баллов. Помнится, что даже президент страны (в то время В.Ющенко) принимал их у себя и чем-то награждал. В прошлом году по физике таких было четверо. Вместе с тем, пресса постоянно сообщала об ошибках в тестовых заданиях. Пусть даже их немного. Но достаточно всего одного тестового задания с ошибочным ответом, чтобы максимальный балл стал практически недостижимым. Для того, чтобы получить максимальный балл, надо ошибиться точно также. Но это маловероятно, ведь правильный ответ один, а ошибочных может быть множество. Правда, технология ВНО с четырьмя выборочными ответами, вероятность угадывания при однократной ошибке довольно большая 1/4. Но при двукратной уже 1/16, а при трёхкратной 1/64 и так далее. Таким образом, если предположить, что абитуриент тестировался по нескольким предметам,  содержавшим в сумме только три ошибочных тестовых задания, то вероятность получить максимальный рейтинг равна всего 1/64 или 1,5%. Это совсем небольшая вероятность, поэтому очень уж сомнительными представляется  наличие «абсолютных чемпионов» при проведении ВНО. К сожалению, организаторы ВНО и отчёты УЦОКО никак не комментируют этой странности.

Секрет раскрыл Альгирдас Забулионис, консультант Anglia Assessment Ltd (независимой компании, предоставляющей консультативные и тренинговые услуги в области оценивания) и USETI (Программы содействия независимому тестированию в Украине) в интервью газете «Зеркало недели» 24 мая 2008 года в №19. Он сказал буквально следующее, цитирую: «Чтобы получить 200 баллов, не обязательно ответить правильно на все вопросы, нужно набрать больше баллов, чем другие. Если тест очень сложный, я решил правильно две трети, но никто не набрал больше меня, я получаю максимум баллов».

Теперь посмотрим внимательнее, о чём идёт речь в этой цитате. Это хорошо знакомая  нормировка по максимуму. Для диапазона 100…200 рейтинг вычислим по формуле

а для диапазона 0…100, соответственно как

                                                    (13)

Рассматриваемая  модель эталонных оценок имеет поэтому , то есть нормировка по максимуму никак не влияет на результат. Можно подсчитать и количество максимальных баллов из всех N=50000 тестировавшихся (виртуально, конечно!). Для этого используем небольшую функцию:

и в результате получаем  

,                                                         (14)

т.е. среди 50000 тестировавшихся 215 получили наивысший рейтинг в 100 баллов. Отличный результат!  Отмечу, что в данной модели отсутствуют ошибочные тестовые задания и, кроме того, валидность теста, по определению, абсолютна. 

Вариант 2. Низкий априорный уровень абитуриентов

Рассмотрим теперь эту же  модель, но с худшими значениями массива эталонных оценок.

                     (15)

Сравните (2) и (15): если раньше было , то теперь при прочих равных условиях.

Рис. 10. Первые 50 элементов массива эталонных оценок (красный цвет текущая модель х, синий прежняя х1).

Среднее значение текущих эталонных оценок теперь равно , а прежних - , то есть почти в пять раз меньше.

Массив В имеет всего один максимум величиной поэтому, в соответствии с (12),   и больше .  Соответствующие гистограммы показаны на рис.11. Напомню, гистограмма не показана, поскольку она полностью совпадает с гистограммой .

Рис. 11. Гистограммы эталонных оценок x и их оценки по шкале 0…100 для линейного L, нелинейного табличного В преобразований и рейтинга R.

Положения максимумов по-прежнему сдвинуты в сторону увеличения оценок:

   (16)

Средние значения оценок (шкала 0…100) соответственно равны:

              (17)

Таким образом, среднее значение эталонных оценок с 8 баллов увеличивается до 68 баллов, т.е. более чем в восемь раз!

Вариант 3. Очень низкий априорный уровень абитуриентов

Интересно представить результаты ВНО, если тестировались абитуриенты с очень низкими знаниями. Для этого сформируем соответствующий эталонный массив оценок:

Среднее значение этих оценок , а среднеквадратичное отклонение от среднего . Оценки очень низкие. Есть только один максимум   величиной (см. рис.12).

Рис. 12. Первые 50 очень низких эталонных оценок.

Столь низкие эталонные оценки означают, что все ответы угадывались с вероятностью , поскольку . Запускаем модель ВНО и получаем средние значения для различных оценок (18)

            (18)

и соответствующие гистограммы (рис.13):

Рис. 13. Гистограммы очень низких эталонных оценок x и их оценки по шкале 0…100 для линейного L, нелинейного табличного В преобразований и рейтинга R.

Положения максимумов различных оценок сильно отличаются (19):

    (19)

Конечно, странно получается, что априорно средний балл равен 1, а тестирование дало результат в 61 балл…

Вариант 4. Средний априорный уровень абитуриентов соответствует отчёту УЦОКО

Сравним полученные на модели гистограммы с аналогичными гистограммами из отчёта УЦОКО за 2011 год по физике. Максимум гистограммы тестовых баллов  (Рис.13-а)  находится примерно над значением 13,5 баллов по шкале 0…55. Если привести к шкале 100…200 линейно, то получим:

Рис. 13-а. Гистограмма тестовых баллов по физике (шкала 0…55) из отчёта  УЦОКО за 2011 год.

Обратимся теперь к гистограмме рейтингов на рис.13-б, где максимум находится между 150 и 180 баллами, примерно в середине этого диапазона, т.е. над 165. Таким образом очевидное и существенное завышение оценок.  И вот что интересно: положение максимума на рис.13-б и аналогичное положение максимума тестовых баллов (L) по шкале 0…100 баллов на рис.13, полностью совпадают 25 баллов, что соответствует угадыванию при очень низких знаниях из Варианта-3 (18).

Рис. 13-б. Гистограмма рейтинговых баллов по физике (шкала 100…200) из отчёта  УЦОКО за 2011 год.

Положения максимума по шкале рейтингов на рис.13 находится над 60 баллами (19), аналогичный максимум на рис.13-б над 65 баллами. Немного больше, т.е.  средний балл эталонных оценок  ниже, чем средний балл реально тестировавшихся по физике.

Теперь подберём параметры модели таким образом, чтобы положения максимумов гистограмм модели и реального тестирования совпадали. Это достигается при

Средний балл эталонных оценок  (напомню, по шкале 0…100), средний балл после тестирования по шкале рейтингов  . Соответствующие положения максимумов гистограмм для этого варианта:

Хорошее совпадение гистограмм из отчёта УЦОКО и модели позволяют сделать вывод, что  эталонный массив оценок  адекватен  реальным оценкам тестировавшихся по физике, средний балл которых равен 5, а не 64.

В конце августа этого года появился отчёт УЦОКО за 2012 год. Гистограммы тестовых и рейтинговых баллов по физике из этого отчёта приведены на рис.13-в  и рис.13-г  соответственно.  Они практически совпадают с аналогичными гистограммами из отчёта прошлого года.

Рис. 13-в. Гистограмма тестовых баллов по физике (шкала 0…55) из отчёта  УЦОКО за 2012 год.

Рис. 13-г. Гистограмма рейтинговых баллов по физике (шкала 100…200) из отчёта  УЦОКО за 2012 год.

Таким образом, никаких существенных изменений методики тестирования и оценки результатов за год не произошло. Ничем не оправданное завышение оценок осталось прежним.

Анализ

Для удобства дальнейшего рассмотрения по вертикальной оси гистограмм будем откладывать не количество попавших в заданный интервал абитуриентов, а частоту в процентах, например, гистограмму эталонных оценок преобразуем по формуле

.                                              (20)

Остальные гистограммы аналогично (рис.14).

Рис. 14. Гистограммы очень низких эталонных оценок x и их оценки по шкале 0…100 для L, В и R. По вертикали отложена частота в процентах.

Подсчитаем теперь, скольким абитуриентам удалось преодолеть проходной балл в зависимости от способа подсчёта результатов тестирования очень низких эталонных оценок. Начнём с эталонных оценок:

.                                         (21)

Аналогично и для линейного L преобразования баллов в диапазон 0…100:

,

а также для B и R.  Результаты показаны в Таблице.2:

Таблица.2

Проходной балл, Pb+100

Преодолевшие  Pb, %

x

L

B

R

125

0

61

97

97

140

0

0

82

89

160

0

0

27

61

170

0

0

4

37

180

0

0

0

12

190

0

0

0

1

Максимальное значение эталонной оценки , поэтому ни одному из значений не удалось превысить проходной балл (в Таблице.2, как это принято при ВНО, к Pb добавлена сотня,  что никак не влияет на результат). Но вот за счёт угадывания при 4-х вариантных выборочных ответах (), уже 61% тестировавшихся преодолели проходной балл . При использовании табличного нелинейного преобразования (см. Таб.1)  и нормировки по максимуму (13) уже 97% ничего не знающих абитуриентов могут стать студентами. В этом  году проходной бал по профильным предметам равен 140 баллам (). Линейное преобразование L отсекло всех,  но действующие преобразования ВНО пропустило более 80% абитуриентов, которые практически ничего не знают.

Кстати, на сайте www.lvtest.org.ua львовского регионального ЦОКО есть возможность в порядке подготовки проверить себя в режиме тренировочного  on-line тестирования. В порядке эксперимента протестировался по незнакомому предмету пять раз, выбирая ответы случайным образом. Результат: три раза получил оценку выше проходного бала.

Результаты для эталонных оценок из Варианта 1 (2) показаны в Таблице 3. Средний балл этой эталонной последовательности еле дотягивает до привычной тройки с минусом, но среди 50000 тестировавшихся есть одна максимальная оценка 100. Поэтому рейтинги B и R одинаковы.  Хорошо видно, что увеличение значения проходного бала мало что даёт. Например, при проходном бале 140 () в эталонной последовательности только 34% имеют более высокий балл. Тестовые баллы дают результат в два раза больший 74%, рейтинг уже в три раза 99%. 

Некоторые вузы по профилирующим предметам установили проходной бал на уровне 170. Тут завышение рейтинга уже не в три, а в 20 раз ()!

Таблица.3

Проходной балл, Pb+100

Преодолевшие  Pb, %

x

L

B

R

125

65

38

100

100

140

34

74

99

99

160

9

26

94

94

170

4

10

82

82

180

1

4

45

45

190

0

1

14

15

Наконец, рассмотрим эталонную последовательность с высоким средним балом . Возможно, такой эталон можно использовать для моделирования выпускников  некоторых физико-математических школ. Результаты показаны в Таблице 4.

Как видите, практически все выпускники преодолели порог 170, хотя и с завышением эталонных оценок на этом уровне в два раза.

Все полученные результаты свидетельствуют об очень сильном завышении оценок. Особенно недопустимо преодоление проходного балла при полном отсутствии знаний (см. Таб.2). 

Таблица.4

Проходной балл, Pb+100

Преодолевшие  Pb, %

x

L

B

R

125

98

100

100

100

140

91

98

100

100

160

68

84

100

100

170

50

66

99

99

180

30

46

93

93

190

13

20

73

73

Исправить ситуацию можно путём увеличения количества предлагаемых ответов (Рис.5). Например, для результаты моделирования показаны в Таб.5, которые лучше, чем при . Во всяком случае, проходной балл 140 преодолело уже не 89%, а только 22% абитуриентов с практически нулевыми знаниями.

Конечно, подготовить тестовые задания с и сложно, и трудоёмко, да и не даёт существенного улучшения ситуации.

Сделаем,  на первый взгляд, абсурдный расчёт для  (детальнее об этом в разделе Заключение), результаты которого должны  удовлетворить поставленную задачу конкурсного заслона от абитуриентов без знаний (см. Таб.6).

Таблица.5

Проходной балл, Pb+100

Преодолевшие  Pb, %

x

L

B

R

125

0

2

35

44

140

0

0

7

22

160

0

0

0

3

170

0

0

0

2

180

0

0

0

0

190

0

0

0

0

Аналогичное моделирование проведём для абитуриентов с высокими эталонными оценками (Таб.7) и сравним с данными Таб.4. Тестовые баллы L (напомню, это линейное преобразование диапазона 0…55 в диапазон 0…100) при (Таб.4) завышены за счёт достаточно высокой вероятности угадывания. Вероятность угадывания при в 40 раз меньше, поэтому значения в столбцах х и L в Таб.7 практически совпадают.  Нелинейное табличное преобразование  В, конечно, по-прежнему  завышает  оценки, а данные B и R совпадают, поскольку .

Таблица.6

Проходной балл, Pb+100

Преодолевшие  Pb, %

x

L

B

R

125

0

0

0

1

140

0

0

0

0

160

0

0

0

0

170

0

0

0

0

180

0

0

0

0

190

0

0

0

0

Таблица.7

Проходной балл, Pb+100

Преодолевшие  Pb, %

x

L

B

R

125

98

98

99

99

140

91

91

99

99

160

68

68

96

96

170

49

50

93

93

180

31

33

80

80

190

14

15

56

56

В этом году таблицу перевода тестовых баллов в рейтинговую шкалу 100…200 немного изменили (Рис.15). Примерно до 15 баллов есть небольшое увеличение, а дальше столь же небольшое уменьшение. Соответственно и результаты отличаются несущественно: сравните таблицы 2 и 8.

Таблица.8

Проходной балл, Pb+100

Преодолевшие  Pb, %

x

L

B

R

125

0

61

97

99

140

0

0

82

94

160

0

0

11

61

170

0

0

0

27

180

0

0

0

7

190

0

0

0

0

Рис. 15. Графики перевода тестовых баллов в шкалу 0…100 в 2011 (красный цвет)  и  2012 годах (синий цвет).

Заключение

Таблицы 6 и 7 содержат результаты для , что реализовать при бумажном ВНО совершенно невозможно. Это очевидно. Бумажное   тестирование это тестирование с использованием бумажных бланков. Основной отличительный признак бумажного тестирования результаты становятся известными испытуемому со значительной задержкой до нескольких часов, дней или даже недель. Независимо от того, как производится анализ ответов человеком или компьютером после сканирования бумажное  тестирование остаётся бумажным [1].

Компьютер для безбумажного тестирования это фактически электронный задачник, который сначала формулирует и выводит на экран текст задачи, потом сам решает её и, дождавшись ответа тестируемого,  сравнивает его с собственным решением.

Тестовое задание формируется компьютером непосредственно в момент тестирования. Для этого используется библиотека тестов, охватывающая все необходимые разделы по предмету. По точным дисциплинам, например, математике, физике, химии, информатике целесообразно использовать знакомые школьникам задачники, данные для которых формируются динамически с использованием датчиков случайных чисел. Задачи могут быть самые разнообразные. Компьютер сам решает каждую задачу. Исходные данные для задачи каждый раз формируются заново. Поэтому записывать ответ не имеет смысла. Можно лишь запомнить ход и способ решения задачи, что, собственно говоря, и требуется при обучении. А успешное тестирование является свидетельством не только знания теории, но и умения применять эти знания на практике.

Главнейший признак  компьютерного тестирования состоит в том, что оценка по каждому вопросу или задаче тестового  задания  появляется  на  экране  сразу же после ввода ответа. Как правило, большинство задач по естественным дисциплинам предполагают цифровой ответ.  В этом случае оценка по шкале 0…100 баллов вычисляется по формуле:

где А - ответ тестируемого, В - правильный ответ.

Таким образом, оценка зависит от погрешности вычислений. Так реализуется вариант . Результирующая оценка по всему тесту также выводится на экран без задержки после окончания тестирования. Никакого многодневного ожидания и никакой возможности фальсифицировать результат [1,2,3]. Результаты моделирования соответствуют Таб.6 и 7, но без столбцов B и R, поскольку ни нелинейное, ни рейтинговое  преобразования шкал не используются, что исключает искусственное завышение оценок.

В отдельных случаях система позволяет использовать и другие формы ответов, например, выборочный. Но и в этом случае используются специальные приемы для исключения возможности применять шпаргалки [4].

Действующая сейчас система ВНО использует синхронную одновариантную бумажную технологию [1]. Асинхронная многовариантная безбумажная компьютерная технология ВНО отличается неоспоримыми преимуществами [1]:

  1. Не требуется в строжайшей тайне сохранять содержание библиотеки тестовых заданий (задач). Отпадает необходимость принимать специальные меры по обеспечению секретности при подготовке тестов, их тиражировании, доставке в пункты тестирования и при самом тестировании.
  2. Персоналу пунктов тестирования уже не придётся в поте лица работать всего несколько дней в году, как при одновариантном синхронном тестировании, поскольку исчезает необходимость проводить тестирование в один день и час во всей стране. Это большое преимущество многовариантного тестирования. Тестировать можно по расписанию, равномерно в течение всего года,  что снимает ажиотаж вокруг ВНО, возникающий сейчас постоянно.
  3. Можно предоставить школьникам возможность для тренировок. Библиотека тестов  открыта,  поэтому  компакт-диски  с  тестирующей  программой  по  предметам могут  и  должны  быть  в  свободной  продаже. С этой системой можно работать на любом компьютере и без подключения к сети и предварительной установки. Тренировочное тестирование на локальной системе ничем не отличается от реального официального тестирования,  позволяет основательно подготовиться по всему курсу и избежать стрессов при реальном тестировании.
  4. Для официального документируемого тестирования школьник должен предварительно зарегистрироваться и записаться в очередь на подходящий день и час. Весь процесс тестирования и результаты протоколируются в закодированной форме и запоминаются компьютером в небольшом массиве (примерно 50 Кб), который в режиме ON-LINE или по электронной почте пересылается в УЦОКО. Подделка и коррекция этого файла невозможна. В случае необходимости зашифрованные протоколы можно расшифровать и распечатать только  с помощью специальной программы. Первое тестирование бесплатно. Последующие за установленную заранее плату, возможно по прогрессивной шкале.
  5. Большим недостатком одновариантного бумажного тестирования является то, что о результатах тестирования  абитуриент узнаёт не сразу, а через месяц или даже более. Это тоже является поводом для сомнений в объективности. Компьютерное тестирование позволяет немедленно анализировать ответы абитуриента и выводить на экран как оценки за каждое тестовое задание, так и суммарную оценку за весь тест. Одновременно обеспечивается фиксация содержания и процесса тестирования каждого абитуриента в надёжно закодированной форме. Результаты тестирования открыты для просмотра, но абсолютно недоступны для административной или  любой  иной коррекции.
  6. Расчёты показывают, что расходы на компьютерное ВНО существенно ниже.  И это без учёта расходов для тиражирования тетрадей с тестовыми заданиями, специальных средств защиты и доставки этих тетрадей в пункты тестирования, сканирования более десятка тонн бланков с ответами. С учётом этого стоимость компьютерного ВНО будет в несколько раз меньше.

Создавать какую-либо специальную сеть для компьютерного ВНО не требуется. Пунктам тестирования достаточно иметь обычное подключение к Интернету с возможностью соединения  с УЦОКО или региональными ЦОКО в ON-LINE режиме или, хотя бы, обмениваться с ними электронной почтой. Впрочем, для выполнения тестирования можно использовать компьютеры, даже не подключенные к сети Интернет. Это вызовет лишь небольшие неудобства.  Не так уж сложно и накладно оснастить региональные пункты тестирования компьютерными классами. Учитывая, что пик желающих пройти тестирование приходится на весну и лето, можно использовать и возможности университетов страны, большинство из которых имеют не один компьютерный класс и в летний период они загружены слабо.

Компьютерное ВНО позволяет выйти за пределы задач с выборочными ответами и не ограничивает возможностей создания качественных интеллектуальных программ [1,4]. Может показаться, что «интеллектуальное» компьютерное тестирование не более, чем погоня за журавлём в небе. Это не так. Более пятнадцати лет по нескольким предметам экзамены у студентов  принимала компьютерная система. Без участия преподавателя. Система разработана так, что не требует специальных навыков работы на компьютере. Даже школьники, которые впервые сели за компьютер, успешно осваивали технику тестирования буквально за несколько минут. Работа с ней не сложнее, чем с компьютерными играми, с которыми  большинство школьников осваиваются и управляются куда лучше своих родителей. 

Кстати, эта система создана, разработана и внедрена в реальный учебный процесс без какой-либо финансовой поддержки. Материалы по ней переданы  директору  УЦОКО на совещании по организации ВНО в Министерстве образования и науки ещё 29.11.2005. Реакции не последовало.

Литература

  1. Оганесян А., Казимира И. Технология тестирования за и против. // Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" 2008 - V.11. - №1 С.332-345 - ISSN 1436-4522. P.332 345. http://ifets.ieee.org/russian/depository/v11_i1/html/6.htm
  2. Оганесян  А. Г. Дистанционное обучение программированное. // Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" 2003 V.6 - №2 - С.84-94 - ISSN 1436-4522 . http://ifets.ieee.org/russian/depository/v6_i2/html/2.html
  3.  Оганесян А.Г. Опыт компьютерного контроля знаний. // Москва: «Дистанционное образование» - 1999 - № 6 - С.30-35. Http://db.informika.ru/do/org_do
  4. Оганесян А. Г. Тестирование или экзамен на компьютере?  // Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2010 V.3 - №1, - C.264-280. http://ifets.ieee.org/russian/periodical/V_131_2010EE.html.