Результативность бинарного и полубинарного взаимодействия обучающегося с виртуальной проблемной средой

 

Павел Петрович Дьячук

профессор кафедры математического анализа и методики обучения математике в вузе, к.ф.-м. н.,

Красноярский государственный педагогический университет им. В.П. Астафьева,

ул. А.Лебедевой, 89, г. Красноярск, 660049, (8391)2639742

ppdyachuk@mail.ru

Сергей Витальевич Бортновский

старший научный сотрудник, к.т.н.,

Красноярский государственный педагогический университет им. В.П. Астафьева,

ул. А.Лебедевой, 89, г. Красноярск, 660049, (8391)2639720

bort_sv@mail.ru

Петр Павлович Дьячук

доцент кафедры технологии и предпринимательства, к. п. н.,

Красноярский государственный педагогический университет им. В.П. Астафьева,

ул. А.Лебедевой, 89, г. Красноярск, 660049, (8391)2639719

ppdyachuk@mail.ru

Аннотация

В статье анализируются особенности бинарного и полу- бинарного взаимодействия обучающегося с виртуальной проблемной средой. Раскрываются диагностические возможности эксперимента по введению обучающихся в состояние бифуркации, возникающей при внезапном отключении взаимодействия с проблемной средой по достижению безошибочной учебной деятельности. В состоянии бифуркации происходит выбор между двумя путями развития учебной деятельности: первый - приводит к деградации структуры учебных действий и росту числа ошибочных действий; второй - сохраняет прогресс, обуславливающий сохранение и развитие учебной деятельности. Показано, что более результативное научение происходит при полубинарном (информационном) взаимодействии обучающегося с проблемной средой. Рассмотрены процессуальные аспекты научения и соответствующая система автоматического управления учебной деятельностью. Введен управляющий параметр – суммарный коэффициент обратной связи, характеризующий динамику процесса саморазвития учебной деятельности.

 

In article analyzes the feature of a binary and a half- binary interaction learner with the virtual environment problem. Discloses diagnostic possibilities of the experiment to introduce learner to the state bifurcation arising in get disconnected of interaction with the environment  of the problem to achieve  error-free learning activity in the state of bifurcation, the choice between the two ways of learning activities the first- leads to the degradation of the structure of learning activities and an increase in error, second – saves progress, that may influence the preservation and development of  training activities. Shown to be more  productive learning occurs when a half-binary (information) learner interaction with the problem environment. We consider

the procedural aspects of learning, and the corresponding system of automatic control training activities. Introduced control parameter –the total feedback factor

characterizing the dynamics of the process of half-development training activities.

 

Ключевые слова

компьютерная диагностика, адаптация, бинарное и полубинарное взаимодействие,  обратная связь;

computer diagnostics, adaptation, binary and half-binary interaction, feedback

Введение

На современном этапе развития информационных технологий, применяемых в образовании, становится очевидной возможность их применения при проведении психолого-педагогических исследований. Инструментальный компонент включает программные методические средства, применяемые на каждом из этапов проводимого исследования. Одной из важнейших функций педагога-исследователя является его готовность к диагностической деятельности [1]. Как правило, это обусловлено необходимостью индивидуализации обучения на основе информационных технологий [2, 3].

Важной составляющей учебного процесса является учебная деятельность студентов, обучающихся решению задач. Как показано в работе [4], автоматизация учебной деятельности обучающихся решению задач требует такой организации взаимодействия проблемной среды с обучающимся, которая не содержит действий, моделирующих интеллектуальную деятельность учителя. В этом отношении, такая проблемная среда не является в полной мере компьютерной обучающей системой в общепринятом значении. Из автоматического характера регулирования деятельности обучающегося следует принцип обязательного, независимого от интеллекта обучающегося, достижения целевого состояния решения задачи. Другими словами, это означает, что в процессе деятельности обучающегося решение задачи обязательно будет получено. При этом, по результату решения задачи нельзя будет узнать или ответить на вопрос «Кто решал задачу? Робот или человек». Это ситуация подобна тесту А. Тьюринга. В работе [5] показано, что виртуальные проблемные среды регулируют деятельность обучающихся по поиску решения задачи двумя способами, информационным и компенсаторным. Если следовать классификации взаимодействий, предложенной в работах [6], то информационное регулирование действий обучающегося является полубинарным и предполагает в ответ на действие обучающегося только сообщение информации о «расстоянии до цели» или информации о том, правильное или неправильное совершенное действие. Полубинарность информационного взаимодействия проблемной среды с обучающимся обусловлена тем, что активные поисковые действия, изменяющие состояние решения задачи, производит только объект управления. Проблемная среда таких действий не производит, а лишь только сообщает информацию обучающемуся о величине рассогласования между текущим и целевым состояниями решения задачи. 

Бинарное взаимодействие обучающихся с проблемной средой включает активные действия, изменяющие состояние решения задачи с обеих сторон: как со стороны обучающегося, так и со стороны управляющей системы. Бинарное взаимодействие управляющей системы и обучающегося, рассмотренное в работе [7], представляет собой действие компенсирующее, или отменяющее неправильное действие обучающегося. Бинарное взаимодействие управляющей системы проблемной среды действует как своеобразный «поводырь», доводящий обучающегося до целевого состояния задачи. Однако есть принципиальное отличие от реального поводыря, который буквально ведет «слепого» к намеченной цели. Компьютерное бинарное взаимодействие не препятствует обучающемуся в выборе действия и совершению его, независимо от того, правильное оно или неправильное. После того, как обучающийся принял решение и совершил действие, управляющая система принимает решение «пропустить» это действие, если оно правильное или отменить (ликвидировать, аннулировать и т.п.) действие, если оно неправильное. Поэтому, в поведении обучающегося остается определенная свобода и самостоятельность в выборе действия и его совершения. Это снимает возражение о том, что управление учебной деятельности ограничивает личное участие обучающегося в выборе индивидуального пути поиска решения задач.   

Обучающийся представляет собой в некотором роде «черный ящик». Принятие им решения о выполнении того или иного учебного действия может быть обусловлено как внутренней умственной деятельностью, так и  возможными изменениями проблемных сред задач. Поэтому нельзя однозначно утверждать, за счет чего формируется результат научения обучающегося решению задач. Экспериментальные кривые научения обучающегося должны быть получены в условиях постоянства проблемной среды. Это означает, что управляющие воздействия со стороны проблемной среды, независимо от их характера (бинарный или полубинарный), не должны изменяться (как по интенсивности, так и по виду и качеству). При этом, как указывает в своей работе Новиков Д.А., реализуется результативный аспект итеративного научения решению задач [8]. Результативные характеристики итеративного научения определяются двумя входными переменными – информацией о значении выходной переменной (информация о результате действия, произведенного обучающимся над объектами задачной ситуации) и параметрами проблемной среды, или окружающей среды. Если бы, на каком-либо шаге, учебной деятельности, изменились бы оба значения входных переменных, то результаты научения, на этом и на предыдущем шаге учебной деятельности оказались бы несравнимы. Нельзя было бы сказать почему, за счет, какого фактора, изменился результат действий обучающегося. Поэтому постоянство внешних условий является существенной характеристикой первого, результативного аспекта итеративного научения.

Второй аспект научения связан с приспособлением обучающегося к некоторому виду деятельности. Он носит процессуальный, адаптивный характер. Приспособление обучающегося к некоторому виду деятельности осуществляется посредством саморегуляции частоты бинарных или полубинарных подкреплений учебной деятельности.  В качестве параметра научения обычно используют относительную частоту совершения ошибочных действий [8]. Это то, что характеризует результативный характер  процесса научения.  Процессуальный аспект научения основывается на включении проблемной среды в процесс научения. В этом случае в процессе научения изменяется как обучающийся, так и проблемная среда. При этом, деятельность обучающегося  становится все более и более самостоятельной и автономной, а управляющие воздействие проблемной среды  становятся все реже и реже. Параметром процессуального аспекта деятельности обучающегося является суммарный коэффициент обратной связи.

В данной работе выясняется результативность научения в проблемной среде с бинарным взаимодействием и полубинарным взаимодействием управляющей системы с обучающимся, а также соотношение между результативным и процессуальным аспектами научения деятельности в проблемных средах различной природы. Решение поставленной проблемы предполагает диагностику саморазвития [2] учебной деятельности обучающегося при прохождении состояния бифуркации, вызванного изменениями взаимодействия с проблемной средой после достижения обучающимся безошибочной деятельности.      

Регулирование поиска решения задач

Обучающийся обладает способностью изменять характер своей учебной деятельности, переходить в различные состояния под влиянием как внутренних, так и внешних воздействий. Важной индивидуальной особенностью учебной деятельности обучающихся является контекст, опираясь на который обучающиеся решают задачи. Внешний контекст предполагает, что обучающийся в своей деятельности опирается на сигналы (реакцию) среды, то есть поиск решения задачи нуждается во внешнем подкреплении деятельности обучающегося. Опора на внутренний контекст, предполагает, что обучающийся в своей деятельности не нуждается в реакции (подкреплении) среды. Его учебная деятельность самодостаточна и осуществляется в уме, с опорой на собственное мышление. 

Как указывает Новик Д. А., учебная деятельность всегда направлена на получение субъективно нового опыта [8]. Приобретенный опыт выражается в том, что при повторном решении той же, или аналогичной задачи, уменьшается количество ошибок и совершенствуется структура системы действий обучающегося. Как правило, процесс научения носит итеративный характер, то есть обучающиеся научаются безошибочному решению, решая последовательность одинаковых или аналогичных задач. Однако, часто возникают ситуации, когда они не только не могут научиться безошибочному решению задач, но и не могут просто решить задачу. Это является основной причиной неуспешного обучения. Связано это с большой неопределенностью проблемной среды, которую обучающийся не может преодолеть, в процессе поиска решения задачи (проблемы). Система управления учебной деятельностью должна снимать избыточную неопределенность проблемной среды так, чтобы сохранялась поисковая активность обучающегося в условиях сохранившейся неопределенности проблемной среды.

Проблема неуспешного научения решению задач часто обусловлена тем, что обучающийся не в состоянии различать текущее состояние решения задачи от целевого и, соответственно, не может осуществлять целенаправленную деятельность по поиску решения задачи. Главными причинами этого являются: во-первых, недостаточное владение множеством действий (операций), задающих функцию преемника, позволяющее при решении задачи, переходить от одной ситуации к другой; во – вторых, отсутствие у обучающихся представлений о цели для данного типа задач. Это приводит к большой неопределенности и, соответственно, к подавлению поисковой активности и неэффективной работе собственной системы управления деятельностью.

В системах ИИ [9,10] поиск решения задач состоит в нахождении алгоритма и написании соответствующей программы поиска допустимого пути в пространстве состояний из начального в целевое состояние. Встает вопрос, как использовать этот подход для организации процесса научения решению задач. Для этого функцию определения преемника [10] задают системой управляющих кнопок, что позволяет отобразить пространство состояний задачи в виде множества ситуаций. Нажатие кнопки, соответствующей тому или иному действию, переводит задачу из текущей ситуации в следующую. Последовательность действий и, соответственно, ситуаций в графовом представлении рассматривается как путь, проходимый обучающимся, в процессе поиска решения задачи. По мере научения путь, проходимый обучающимся, приближается к оптимальному, для которого деятельность обучающегося  безошибочная.

В подходе, использующем пространство состояний задачи, предполагается существование счетного множества  состояний и множества  операторов, которые отражают состояния множества  в себя. Решение задачи рассматривается как передвижение в пространстве, определяемом множеством этих состояний, с целью достигнуть желаемое множество целевых состояний. Задача решена, когда найдется такая последовательность операторов

,                                (1)

что

,           (2)

где - некоторое состояние из множества начальных состояний, а  - из множества целевых состояний. На языке пространства состояний задачу можно представить в виде направленного графа, а решение ее – путь между выделенными узлами графа, при этом естественно задать вопрос: «Как найти путь на графе?». Пусть - упорядоченное множество узлов и  - множество помеченных дуг между ними. (В наиболее интересном случае  будет функцией, принимающей вещественные значения и интерпретирующейся, как стоимость перехода по дуге.)  и , вместе взятые, определяют, граф .  Пусть  и - подмножества в , называемые начальным и целевым соответственно. Решение – это такая последовательность узлов  что  и . Два узла  и  могут принадлежать этой последовательности, только если определена дуга . Стоимость решения – это просто сумма меток на дугах, т.е. стоимость решения = .

Стоимость решения минимальна, если не существует другого решения с меньшей стоимостью. Длиной решения называется число узлов в нем. Множество узлов, достижимых непосредственно из узла (т.е. множество узлов , для которых дуга  определена) будем называть множеством преемников узла и обозначать его   В заключение отметим, что если  и  - узлы на кратчайшем пути, то . 

Поиск пути к единственному целевому состоянию обучающийся начинает от начального узла (начального состояния) . На первом шаге обучающийся делает выбор из множества его преемников , а затем упорядочивает множество   в соответствии с оценкой  стоимости решающего пути для каждого . Оптимальный путь, согласно приближению равных цен, минимизирует стоимость окончательного решения.         Любой узел , для которого после его закрытия можно указать текущую оценку его расстояния от , полученную прослеживанием обратно к оценке, основанной на расстоянии узла   от , когда тот закрыт, будем называть потомком узла . Узел называется предком узла .

Рис.1. Граф пространства состояний решения задачи по преобразованию графика линейной функции из начального состояния (1,0) в целевое (-1/3, -1).

 

В качестве примера на рис. 1. представлен граф пространства состояний задачи по преобразованию линейной функции . Из рис.1 видно, что пространство состояний задачи конструирования графика линейной функции представляет собой граф, вершины которого находятся в узлах квадратных решеток.

Каждой вершине соответствует два числа . Первое число соответствует  – тангенсу угла наклонной графика,  второе число    показывает то, насколько поднят или опущен график линейной функции вдоль оси . Квадратные решетки соответствуют разным знакам . Любая вершина графа может быть начальным состоянием графика линейной функции, так же, как и любая вершина может служить целевым состоянием.

Штриховая линия на рис.1 показывает оптимальную траекторию перехода из начального состояния в целевое. Если положить, что действия имеют стоимость, равную 1, то оптимальная траектория имеет длину или «стоимость», равную 4. Сплошная линия показывает неоптимальную траекторию перехода из начального в целевое состояние. Обучающийся, в самом начале своей деятельности, совершил два неправильных действия и удалился от целевого состояния на 6 действий. Длина этой траектории равна 8.  На рис.2. приведены графики оптимальной и неоптимальной траекторий деятельности обучающихся в зависимости от номера действия . Вертикальная ось  задает номер состояния задачи. Расстояние до цели определится, как

                                    (3)

где - минимальное расстояние между начальным и целевым состояниями. Расстояние до цели  является важным параметром поискового поведения обучающегося решению задач. Вывод на экран дисплея датчика «расстояние до цели» позволит обучающемуся корректировать  поиск решения задачи, исправляя ошибочные действия до тех пор, пока не будет достигнуто целевое состояние.

 

Рис. 2. Траектории деятельности: 1. оптимальная траектория - 4 действия; 2. неоптимальная траектория - 8 действий.

 

Результативный аспект процесса научения решению задач будем исследовать в режиме обучения с подкреплением [11]. В обучении с подкреплением рассматривается поведение обучающегося, взаимодействующего с внешней средой. В нашем случае роль внешней (проблемной) среды играет пространство состояний, а взаимодействие происходит в процессе поиска решений обучающимся. Механизм обучения с подкреплением обусловлен наличием дополнительной петли обратной связи обучающегося с проблемной средой (см. рис.3.).

 

Рис. 3. Схема обучения с подкреплением.

 

Как описано в работах Редько В.Г., в текущей ситуации  обучающийся выполняет действие , получает подкрепление  и попадает в следующую ситуацию ;[11].

Подкрепление  может быть положительным (награда) или отрицательным (наказание). Дополнительная петля обратной связи включает в себя действие  и соответствующее подкрепление . Подкрепление  осуществляется посредством: 1. полубинарного взаимодействия через датчик «расстояние до цели» - информационное управление; 2. бинарного взаимодействия посредством компенсатора неправильных действий – ликвидатор неправильных действий.

Таким образом, после выполнения каждого действия проблемная среда немедленно возвращает сигнал обратной связи [12]. Эта обратная связь принимает форму скалярного числового значения, которое может рассматриваться как оценка действия. Правильное действие оценивается числом +1, неправильное -1. Благоприятное действие получает положительную обратную связь, а неблагоприятное – отрицательную обратную связь. Сигнал обратной связи, поступающий из среды, принято называть сигналом вознаграждения. Обучающийся. используя сигналы, определяющие бинарное или полубинарное взаимодействия, находит приемлемый способ действий или операций в каждом состоянии решения задачи. Мера рассогласования между требуемым и реальным результатом научения обучающегося, которая определяется долей правильных действий, представлена в проблемной среде дискретным датчиком, отображающим систему уровней в диапазоне от 1 до 10. Благодаря полубинарному или бинарному взаимодействию управляющей системы с обучающимся, а также информации об уровне научения решению задач обучающийся имеет возможность осуществлять саморегулирование учебной деятельности и добиваться безошибочного решения задач, то есть выхода на 10 уровень. Если обучающийся не достигает 10 уровня, то  диагностируется недостаточная специфическая обучаемость [5], соответствующая достигнутому уровню <10. Максимальный уровень, достигнутый обучающимся, характеризует результативный аспект научения решению задач.

Учебную деятельность обучающегося решению задач можно рассматривать как процесс развития потому, что с ней связано возникновение новой информации, полученной в результате опыта совершения действий. Этот процесс происходит вследствие итеративного научения, а результат является следствием решения последовательности аналогичных задач и перехода от незнания к знанию путем продуцирования информации при взаимодействии обучающегося с проблемной средой. Особую роль в системе «Обучающийся – Проблемная среда» играет процесс саморазвития структуры системы действий обучающегося, регулируемый с помощью каналов обратной связи.

Основой функционирования главной и местной обратных связей являются исполнительные механизмы, преобразующие интерфейс проблемной среды. Они реализуют бинарное (ограничение набора допустимых действий), информационное или полубинарное (реализованное в виде индикатора расстояния до цели, информирующего о количестве действий, которые необходимо совершить для перехода в целевое состояние) и мотивационное (отображение изменений функции ценности состояния обучающегося с помощью дискретной системы уровней деятельности от 1 до 10) управление учебной деятельностью. Постоянно, пока обучающийся не решит задачу (и не научится решать задачи данного типа), проблемная среда будет посылать сигналы. При этом индивидуальные способности обучающихся влияют лишь на процесс поиска решения задачи, но не на результат. Такая система, управляющая самоорганизацией деятельности обучающегося, получила название автоматического регулятора учебной деятельности «Tr@cK» (далее регулятор «Tr@cK»). Следуя [13], опишем принципы его функционирования.

Регулятор «Tr@cK»

Регулятор «Tr@cK» предназначен для управления учебной деятельностью обучающихся решению задач или проблем (обобщенное название компьютерных программ, созданных на его основе – Проблемные среды). Употребление термина «Учебная деятельность» обусловлено тем, что регулятор «Tr@K» не управляет процессом обучения, а создает для обучающегося условия, позволяющие реализовать его поисковую активность с помощью некоторого набора доступных действий.

Цель функционирования регулятора «Tr@cK» состоит в том, чтобы привести структуру системы действий обучающегося – набор осуществляемых им действий и их последовательность – в такое состояние, когда каждое совершаемое действие будет приближать решение задачи. Для достижения этой цели регулятор «Tr@cK» поощряет правильные действия и угнетает неправильные. Общая структурная схема регулятора «Tr@cK» представлена на рис. 4.

Регулятор «Tr@cK» производит поиск такого требуемого значения параметров местной обратной связи (аргументов передаточной функции звена 6, реализующего эту связь), при котором структура системы действий  обучающегося 8 будет соответствовать целям функционирования регулятора . Проверка этого соответствия осуществляется в цепи главной обратной связи в моменты срабатывания переключателя 9, когда включается звено 10, определяющее параметры структуры системы действий обучающегося на основе сохраненной во внешней памяти 11 последовательности действий.

При этом истинные законы изменения параметров структуры системы действий обучающегося  установить невозможно в силу объективных причин, зависящих от психических, физиологических, интеллектуальных и других индивидуальных особенностей конкретного человека. Обучающийся, деятельность которого подлежит регулированию, является «черным ящиком». Подавая на его входы (органы чувств, в частности – глаза или уши) управляющие сигналы, смысл которых ему знаком, на выходе мы имеем сигналы (в виде зафиксированных действий, доступных в проблемной среде, им совершаемых). Передаточную функцию этого звена нельзя определить заранее. Более того: анализ протоколов деятельности, сохраненных во внешней памяти, является наиболее интересным направлением исследования – он позволяет устанавливать вид и параметры передаточной функции для каждого обучающегося, т. е. диагностировать индивидуальные особенности осуществления учебной деятельности [14].

Элемент сравнения 1 производит вычитание ) и тем самым определяет рассогласование между реальной структурой системы действий обучающегося  и требуемой  – исключающей неправильные действия. На основании вычисленной ошибки  звено 2 определяет уровень деятельности обучающегося , где  – номер очередного формируемого звеном 3 задания – новой задачной (проблемной) ситуации.  дискретно изменяется во времени (после выполнения очередного задания) и определяется лишь параметрами структуры системы действий обучающегося при выполнении предыдущего  задания. . Уровень деятельности отображается специальным датчиком в интерфейсе проблемной среды. В зависимости от значения уровня деятельности звено 4 определяет параметры функционирования местной обратной связи 6.

Сформированная звеном 3 задача отображается интерфейсом проблемной среды, приведенным модулем 5 в состояние, соответствующее начальным параметрам. Элемент памяти 7 сохраняет тот же набор параметров, но содержащий значения, достижение которых соответствует решению поставленной задачи. Преобразование объектов проблемной среды для достижения этого соответствия является для обучающегося локальной целью, которую он должен достичь, используя систему действий, доступных ему в проблемной среде. Кроме того, модуль 5 реализует все изменения интерфейса проблемной среды, связанные с действиями обучающегося. При этом формирование новой задачной ситуации (формирование соответствующего состояния интерфейса) происходит лишь в моменты включения главной обратной связи, а текущие изменения отображаются после каждого совершенного обучающимся действия.

Для реализации местной обратной связи после каждого действия обучающегося вычислительное звено 12 определяет изменение параметров объектов проблемной среды, а элемент сравнения 13 определяет рассогласование между текущей обстановкой и значениями, сохраненными звеном 7. Величина этого рассогласования, выраженная в количестве дискретных шагов (каждый из которых – это конкретное действие обучающегося, дискретно изменяющее определенный параметр проблемной среды), определяет расстояние до цели (решения задачи). Эта информация, составляющая основу местной обратной связи, позволяет отличить правильные действия от ошибочных и позволяет обучающемуся достичь решения текущей задачи.

В моменты времени, когда расстояние до цели равно нулю, переключатель 9 может изменить свое состояние при поступлении от обучающегося сигнала об окончании выполнения задания. Если такого сигнала не поступает (обучающийся не нажимает соответствующую кнопку), регулятор продолжает функционировать по малому кругу через местную обратную связь. И напротив, если расстояние до цели не равно нулю, переключатель 9 не изменит своего состояния при поступлении этого сигнала.

Изменение состояния переключателя 9 включает контур главной обратной связи, в который включено звено 10, определяющее параметры структуры системы действий обучающегося на основе формализованной информации, сохраненной в модуле внешней памяти 11. Отметим, что при формировании очередной проблемной ситуации вновь возникает рассогласование в элементе сравнения 13 и переключатель 9 переходит состояние, когда сигналы проходят по контуру местной обратной связи и регулируют процесс поиска обучающимся решения текущей задачи.

Во внешней памяти сохраняется не только последовательность действий обучающегося с указанием затраченного времени, но и управляющие воздействия регулятора «Tr@cK»: условия поставленной задачи, параметры работы датчика «Расстояние до цели», параметры структуры системы действий обучающегося. Благодаря этой информации появляется возможность более сложного анализа деятельности обучающегося в любое удобное для исследователя время с применением различных методов и программных средств.

Приведенное описание показывает, что регулятор «Tr@cK» производит поиск такого режима работы местной обратной связи, при котором деятельность обучающегося наиболее эффективна. Учитывая, что истинные законы изменения параметров структуры системы действий обучающегося установить невозможно, регулятор «Tr@cK» можно определить как экстремальную самонастраивающуюся систему автоматического управления дискретного действия.

Трактуя развитие, как процесс снижения меры неупорядоченности (убывания энтропии H) действий, который проявляется в снижении неопределенности при принятии решения о выборе действия обучающимся, будем говорить о накоплении внутренней (субъективной для обучающегося) информации. Такой информации, которая позволила бы обучающемуся безошибочно находить решение задачи. Значение энтропии, характеризующее структуру системы действий обучающегося, можно вычислить по формуле Шеннона:

                       (4)

где – доля правильных действий при выполнении -го задания. Т. к. отмена ошибочного действия является правильным действием, всегда ,  а при        (большом количестве ошибочных действий) .

Отметим, что энтропия деятельности обучающегося , при условии предъявления ориентиров с частотой  при выполнении задания, определяет параметры функционирования системы «Tr@cK» при поиске обучающимся решения -го задания.

Таким образом, информацию, накопленную обучающимся при осуществлении деятельности в проблемной среде после выполнения i заданий, можно выразить как меру снятой неопределенности:

                                                                   (5)

В системах машинного обучения с подкреплением [11] подобный параметр (5) называют функцией ценности состояния. В нашем случае эта числовая величина определяет величину вознаграждения, на которое может рассчитывать обучающийся.

В начале обучения, когда энтропия деятельности обучающегося высока, недостаток внутренней информации компенсирует регулятор «Tr@cK». Чем больше обучающийся накопил информации о способах решения задачи, тем меньше он нуждается в дополнительной (внешней по отношению к нему) информации. В этом случае «Tr@cK» ограничивает функционирование датчика «Расстояние до цели», а на завершающем этапе обучения – отключает его.

Таким образом, показателем эффективности функционирования системы «Обучающийся – Проблемная среда» должен считаться такой параметр, который отражал бы и состояние структуры системы действий обучающегося, и параметры проблемной среды, при которых осуществлялась деятельность. Такая мера должна отражать уровень самостоятельности обучающегося.

Следуя работе [4], возьмем в качестве показателя эффективности функционирования обучающегося в проблемной среде при выполнении i-го задания коэффициент обратной связи, который с учетом двух контуров обратной связи принимает вид:

                                      (6)

где  – доля неправильных действий (количество неправильных действий;  – общее количество действий);  – относительная частота включения датчика «расстояние до цели»; Индекс  в обозначении коэффициента обратной связи (указывает количество затраченного на обучение времени на момент завершения выполнения i-го задания) позволяет рассматривать его как в масштабе выполненных заданий, так и по затраченному времени.

Целью функционирования системы «Tr@cK» является достижение коэффициентом обратной связи нулевого значения. Это означает, что действия обучающегося не зависят от датчиков проблемной среды и определяются только собственной системой управления, то есть мозгом, на основе внутренней информации. При этом отсутствует неопределенность при выборе действия и каждое действие приближает решение задачи.

Мера рассогласования между требуемой и реальной деятельностью обучающегося – значение функции ценности состояния – представлена в проблемной среде дискретным датчиком, отображающим систему уровней в диапазоне от 1 до 10. Благодаря этому датчику обучающийся имеет возможность осуществлять саморегулирование своей учебной деятельности.

Проблемная среда выступает в роли регулятора учебной деятельности «Tr@cK». Она связана с обучающимся двумя линиями связи – прямой линией передачи управляющих сигналов от проблемной среды к обучающемуся и линией обратной связи, передающей в проблемную среду информацию о действительном состоянии деятельности обучающегося.

Система управления через датчик «расстояние до цели» содействует обучающемуся в снятии структурного дисбаланса, обусловленного отрицательной обратной связью между деятельностью обучающегося и проблемной средой. Для этого в системе «Tr@cK» имеется модуль, который обеспечивает через датчик «Расстояние до цели» положительную обратную связь между множеством правильных действий и отрицательную обратную связь с множеством неправильных действий.

 

Экспериментальные результаты научения  в проблемной среде «Музыкальные пазлы»

 

Рассмотрим достижение результата научения, соответствующего безошибочному решению задач в условиях постоянной проблемной среды. Экспериментальное научение будем осуществлять в проблемных средах двух типов, характеризующихся: а) бинарным подкреплением действий обучающегося; б) полу- бинарным подкреплением действие обучающегося. В качестве проблемной среды используем «Музыкальные пазлы» [16]. Задача обучающихся состояла в конструировании музыкального произведения из его фрагментов. В процессе итеративного научения обучающиеся должны были достичь безошибочной деятельности. В эксперименте участвовали студенты Красноярского государственного педагогического университета в количестве 70 человек. Первая мелодия конструировалась в условиях полубинарного подкрепления действий обучающихся, вторая мелодия конструировалась теми же студентами, но в условиях бинарных подкреплений действий обучающихся. Ограничения на временные ресурсы и количество заданий (объемы работ) отсутствовали.

На рис. 5 приведена гистограмма распределения обучающихся: Столбики под №1 62 обучающихся взаимодействию с проблемной средой носит бинарный характер, 58 обучающихся взаимодействию с проблемной средой информационное или полубинарное:

Столбики под №2 обучающиеся достигли 10-й уровень (деятельность стала безошибочной), но после выключения бинарного - 27 человек, и полубинарного - 25 человек взаимодействий не удержались на нем;

Столбики гистограммы под №3 определяют число обучающихся, не достигших 10 уровня, бинарное взаимодействие 10 человек, информационное или полубинарное 3 человека. Студенты, не достигшие 10 уровня, имеют недостаточную обучаемость деятельности по звуковому синтезу, возможно обусловленной низким уровнем развития музыкального слуха.

Высота столбиков на рис. 5 равна количеству испытуемых, удержавшихся на 10 уровне (с бинарным взаимодействием 25 человек и с полубинарным 30 человек).

Рис.  5. Сравнение бинарного и полубинарного взаимодействия обучающихся с виртуальной звуковой проблемной средой  (результативный аспект).

 

Из теории развития [17], независимо от вида взаимодействия обучающихся с проблемной средой, следует, что вначале эволюционное развитие структуры системы действий идет по восходящей. При этом действия обучающихся принимают свернутый автоматический характер, формируется навык, исключаются ошибки. Обучающийся максимально использует возможности взаимодействия с проблемной средой, которая все время перехода к деятельности без ошибок оставалась неизменной. Внезапное «выключение» взаимодействия обучающегося с проблемной средой приводит развитие деятельности обучающегося в состояние бифуркации. В точке бифуркации у обучающегося есть два выбора. Первый - дальнейшее развитие и сохранение достигнутого состояния, второй - распад (или регресс) достигнутой структуры деятельности, в которой появляется множество ошибочных, неправильных действий. Группы студентов под №3 на рис. 5, имеющие недостаточную обучаемость звуковому синтезу, можно интерпретировать как эволюционный «тупик», в котором могут существовать только рудименты развития деятельности.  Из рис. 6  следует, что среднее значение величины падения уровня.. одинаковое как для бинарного, так и для полубинарного взаимодействия проблемной среды и обучающегося..

Однако, если сравнить среднее число заданий, которое выполняют обучающиеся для достижения 10 уровня , то, как это следует из рисунка 7, отличие существенное. В среднем бинарное взаимодействие требует выполнения в два раза больше заданий, чем для полубинарного.

 

Рис. 6. Гистограмма распределения величины уменьшения уровня; слева бинарного; справа полубинарного взаимодействия обучающихся с проблемной средой.

 

Относительно влияния характера управляющих воздействий на результаты научения можно сделать вывод, что полубинарные управляющие воздействия посредством датчика «расстояние до цели» являются более эффективными, чем бинарные управляющие воздействия, представляющие собой отмену неправильных действий обучающихся. Это проявляется в том, что обучающимся, достигшим 10 уровня, в случае полубинарного взаимодействия, требуется меньшее число выполненных заданий или попыток (см. рис.7-а) и меньшее время (см. рис.7-б) по сравнению с бинарным взаимодействием.

 

 

а)                                                                       б)

Рис. 7.  а) среднее число заданий, выполненных обучаемым для достижения 10 уровня; б) среднее время бифуркации структуры деятельности

при целевом управлении.

 

Проследим, какие отличия имеют место в способах осуществления деятельности в проблемной среде для обучающихся из группы 4 (обучаемый №1) и обучающихся из группы 2 (обучаемый №2). Графически учебная деятельность, регулируемая системой «Tr@cK», в проблемной среде для первого выполнения задания обучающимся №1 и обучающимся №2 представлена на рис.9 функциями вознаграждения . Функция вознаграждения задает отображение каждого действия в числовую меру, определяющую степень эффективности принятия действия в данном состоянии проблемной ситуации для достижения цели. Она определяет сиюминутную эффективность пары «действие – состояние проблемной среды», а достижение решения задачи соответствует максимуму общего вознаграждения.

Функция вознаграждения вычисляется из обработки данных синтаксической информации (см. выше) о действиях обучающегося и представляет траекторию его деятельности. Значение  увеличивается на единицу, если совершено правильное действие, и уменьшается на единицу, если – неправильное. На рис. 8 представлены функции вознаграждения при выполнении первого задания: максимальное вознаграждение равно количеству исходных фрагментов.

Из сравнения траекторий деятельности видно, что обучающийся №2 совершает гораздо больше неправильных действий по сравнению с обучающимся №1 (см. рис. 8). Исходя из того, что при выполнении первого задания  и коэффициент обратной связи зависит только от доли неправильных действий, его значение говорит лишь о том, что обучающийся №1 справился с задание более успешно. Для

 

 

 

 

 

 

 

определения особенностей функционирования системы «Обучающийся – Проблемная среда» следует рассматривать последовательность значений функции ценности состояния.

Представим графически особенности функционирования регулятора «Tr@cK» для различных обучающихся (звено 8 на рис. 4), осуществлявших учебную деятельность в проблемной среде. Построим график изменения коэффициента обратной связи (3) в масштабе выполненных заданий (рис. 9). Маркеры на графиках обозначают выполненные задания.

Для большинства обучающихся от задания к заданию  уменьшается, что делает структуру системы действий более совершенной, т. е. функция ценности состояния обучающегося возрастает, а значение энтропии деятельности – второго слагаемого в уравнении (3) – убывает. По мере научения недостаток внешней помощи (уменьшение , затем отключение датчика расстояния до цели) компенсируется накопленными знаниями и деятельность обучающегося перестает нуждаться в регулировании. Такому положению вещей соответствует уменьшение коэффициента обратной связи до нуля.

Некоторая часть обучающихся, успешно осуществляющих деятельность при повышенной частоте  (датчик расстояния до цели компенсирует внутреннюю неопределенность), при уменьшении частоты подкрепления совершают больше ошибочных действий и проблемная среда увеличивает  при выполнении следующего задания. Происходит колебание показателя общей эффективности функционирования регулятора «Tr@cK»  (рис. 9 б, в).

В эксперименте все обучающиеся достигают десятого уровня (безошибочной деятельности в отсутствие подкрепления).  Приведенные на рис. 9 графики изменения коэффициента обратной связи показывают, насколько разным может быть процесс научения решению задач в проблемной среде.

Заключение

По результатам сравнения эффективности бинарного и полубинарного взаимодействия обучающегося с виртуальной средой выявлено, что полубинарные управляющие воздействия посредством датчика «расстояние до цели» являются более эффективными, чем бинарные управляющие воздействия, представляющие собой отмену неправильных действий обучающихся.

Параметром, определяющим динамику процесса обучения, является суммарный коэффициент обратной связи между обучающимся и проблемной средой . В процессе успешного научения параметр  уменьшается от 1 до 0. В случае постоянства проблемной среды суммарный коэффициент обратной связи  становится равным . Показано, что успешность процесса научения решению задач обуславливается постепенным переходом к полной самостоятельности в учебной деятельности обучающихся, который количественно описывается изменением параметра . Процессуальный аспект научения решению задач характеризует изменение как деятельности обучающегося, так и изменение проблемной среды или управляющей системы.

Предлагаемая система автоматического управления учебной деятельностью, состоящая из проблемной среды, включающей систему автоматического регулирования «Tr@cK», снимает структурный дисбаланс между желанием обучающегося обучиться решению проблемы и несовершенством структуры  его системы действий.

Система автоматического управления учебной деятельностью содействует процессу саморазвития деятельности обучающегося, количественно определяет функции вознаграждения, позволяет измерить скорости изменения функции ценности состояния (обучаемость). Эта информация может использоваться при индивидуализации обучения.

Литература

1. Горохова Р.И., Никитин П.В. Возможности современных информационных технологий в проведении психолого-педагогических исследований//Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2012. - V.15. - №2. - C.390-411.- ISSN 1436-4522. URL:http://ifets.ieee.org/russian/periodical/journal.html
2. Нуриев Н.К., Галимов А.М., Старыгина С.Д.  Системный анализ и исследование операций интеллектуальной деятельности в контексте проектирования дидактических систем нового поколения // Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2010. – V..13 .- №4. -C.268-298.  ISSN  1436-4522. URL

 http://ifets.ieee.org/russian/periodical/journal.html
3.
Буторин Д.Н. Реализация компетентностного обучения на основе проблемного подхода в программной среде// Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2011. - V.14. - №4. - C.280-295. ISSN  1436-4522. URL http://ifets.ieee.org/russian/periodical/journal.html

4.. Дьячук П.П., Дроздова Л.Н., Шадрин И.В. Система автоматического управления учебной деятельностью и ее диагностики//Информационно-управляющие системы. 2010. №5. С.63-69.

5. Дьячук П.П. Динамические компьютерные системы управления и диагностики процесса обучения: монография//Красноярский государственный педагогический университет, Красноярск, 2005г.,  344 c.

6. Бортновский С.В., Дьячук П.П., Дьячук П.П. (мл.), Кузьмин Д.Н. Компьютерная организация и диагностика бинарного взаимодействия  обучающихся решению задач//Международный электронный журнал "Образовательные технологии и общество  (Educational  Technology  &  Society)" - 2012. - V.15. - N3.  С. 414-423.

 ISSN  1436-4522. URL http://ifets.ieee.org/russian/periodical/journal.html

7. Дьячук П.П., Пустовалов Л.В. Система управления процессом адаптации в проблемной среде // Системы управления процессом адаптации к проблемной среде. 2008. №3.1 (33). С.144-148.

8. Новиков Д.А. Закономерности итеративного научения.- М.: Институт проблем
управления РАН, 1998.- 77 с.

9. Галеев И.Х.  Модель управления процессом обучения в ИОС// Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2010. - V.13. - №3. - C.285-293

10. Хант Э.   Искусственный интеллект,. – М.: изд. «Мир»., 1978. – 558 с.

11. Редько В.Г. Модели адаптивного поведения – биологически инспирированный подход к искусственному интеллекту // Искусственный интеллект и принятие решений №2, 2008 г., с. 13-22.

12. Тищенко В.А. Обратная связь в системе обучения с использованием информационно-коммуникационных технологий//Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)". - 2010. - V.13. - №4. - C.268-298 – ISSN 1436-4522. URL: http://ifets.ieee.org/russian/periodical/journal.html
13. Бесекерский, В.А. Теория систем автоматического управления // В.А. Бесекерский, Е.П. Попов. – Изд. 4-е, перераб. и доп. – СПб.: Профессия, 2003. – 752 с


14. Анохина-Наумец А.В., Лукашенко Р.С. Интеллектуальная система оценивания знаний: модель студента и методика экспериментальной проверки алгоритма адаптации//Международный электронный журнал "Образовательные технологии и общество   (Educational  Technology  &  Society )"  - 2011. - V.14. - №2. - C. 346-362. 

 - ISSN 1436-4522. URL: http://ifets.ieee.org/russian/periodical/journal.html
15. Светлов В.А. Конфликт: модели, решения, менеджмент. – СПб.: Питер, 2005. – 540 с.

16. Дьячук П.П., Дроздова Л.Н., Кудрявцев В.С., Шадрин И.В. Диагностика динамических параметров учебной деятельности по конструированию звуковых объектов // Системы управления и информационные технологии. 2010. Т.39.№1.2. С.233-238

17. Айламазян А.К., Стась Е.В. Информатика и теория развития / .: Наука. -174 с.