Educational Technology & Society 9(3) 2006
ISSN 1436-4522
pp. 295-306

Динамическая фасетная классификация (MGI-классификация) и ее применение к задачам управления знаниями в вузе

Д.Н. Песков1 , В.В. Каберник1 , А.Н. Михеев1 , С.А. Афонцев2
1 Центр интернет-политики Московского государственного института международных отношений (Университета) МИД России, Москва, Россия
netpolitics@mgimo.ru
2 Институт мировой экономики и международных отношений РАН, Москва, Россия

АННОТАЦИЯ
Статья посвящена инновационной концепции в области управления знаниями и новому методу классификации и категоризации интернет-ресурсов, именования и организации поиска (MGI-классификатор), основанных на комбинации т.н. мнемоник и динамическом обновлении баз данных DNS-серверов. Предлагаемая схема интегрирует механизм URL в процесс классификации и поиска ресурсов и способствует интеграции онлайн- и оффлайн-среды. В статье также затронуты некоторые вопросы применения описанной технологии для управления научно-образовательным процессом, а также перспективы развития предложенной концепции.
The focus of the paper is on the innovative knowledge management concept and a new method of internet resources cataloging and classification, document naming and search query organization, based on combinations of mnemonic descriptors and dynamic updating of DNS-servers’ databases. The proposed scheme integrates the Universal Resource Locator (URL) mechanism into resource classification and retrieval process and facilitates the integration of offline and online environments. The paper also addresses some aspects of applying the described technology to managing the educational process, as well as prospects of further development.

Ключевые слова
интернет-ресурсы, классификация, категоризация, поиск, управление знаниями.

 

Постановка проблемы

Развитие систем связи, информационных технологий, прежде всего, Интернета приводит к тому, что объем знаний, доступный человеку в современности становится большим, чем он способен адекватно воспринять. Это океан информации, и он растет лавинообразно с каждой секундой. Многое из этой информации – лишнее, ненужное, продублированное. В итоге на поиск информации зачастую начинает уходить время значительно большее, чем требуется на ее осмысление и использование в рабочем процессе, исследованиях и т.п. Складывается парадоксальная ситуация: с увеличением объема доступных человеку знаний он все менее эффективно воспринимает их, а следовательно менее эффективно создает новое знание.
Мы живем в такое время, когда грань между разными науками стирается или истончается. Новые исследования и разработки требуют обращения к материалам сопредельных областей знания, «чужим» в парадигме специального образования, которое чаще всего получает современный человек. Вполне возможно, что некоторые концепции, которые необходимы для решающего прорыва в каком-либо исследовании лежат на поверхности и широко известны любому специалисту в сопредельной области, но не исследователю. В итоге эффективность исследований резко падает не потому, что информации недостаточно, а потому, что ее слишком много, и она является «скрытой», недоступной.
Очевидный вывод лежит на поверхности: знания нуждаются в системах управления. И попытки создания таких систем предпринимались с самых ранних времен. Многочисленные библиотеки, огромные архивы бумажной информации и электронные базы данных всегда имеют какие-либо средства каталогизации и классификации ресурсов. Специально подготовленные архивариусы и библиотекари всегда готовы помочь вам найти некоторую информацию… если вам известно, что искать. Просто для того, чтобы правильно задать вопрос, нужно знать большую часть ответа.
Проблема заключается в том, что любой библиотекарь на самом деле совершенно не образован в области, в которой вы проводите свои исследования. Он хорошо разбирается в принципах классификации литературы и материалов, он обучен работе с архивами и знает, где, на какой полке найти ту или иную книгу. Пользуясь справочными системами, он способен сказать вам о ее примерном содержании, но он понятия не имеет, это ли именно содержание вам нужно. Вполне возможно, что необходимый вам ресурс лежал на полке рядом, но он никогда не будет найден, потому что вы не спрашивали о нем, не знали, что о нем нужно спросить.
При этом библиотекарь – это разумное существо. А что же происходит, если для поиска знаний мы пытаемся воспользоваться автоматическими системами? В ответ на некоторый поисковый запрос вас может просто опрокинуть валом информации, которая вам совсем не нужна, но система поиска считает ее важной, релевантной, просто потому, что там встречается некоторое ключевое слово. Приемлемы ли такие «системы управления знаниями» для вашей работы или исследований? Думаем, что ответ очевиден: нет.
Давайте попытаемся разобраться подробнее в тех системах, которые используются для управления информацией и знаниями на современном этапе. В общем случае они делятся на 2 большие группы: электронные (онлайн) хранилища и бумажные архивы. Некоторые системы управления информацией используются в обеих областях, некоторые специфичны для отдельной области.

Существующие подходы к решению проблемы

Самой древней и распространенной системой управления информации являются каталоги и классификаторы разного рода. Принцип их действия прост: каждому ресурсу присваивается некоторый уникальный код, по которому его можно обнаружить. Параллельно все ресурсы при занесении их в архив снабжается краткой аннотацией, которая дает некоторое представление о его содержимом. На этапе создания классификатора каждой из смысловых предметных областей присваивается некоторый уникальный код, идентификатор, чаще всего цифровой. Декодирование последовательности цифр дает возможность человеку, знакомому с системой кодирования составить представление о содержимом ресурса. Типичным примером классификатора является УДК — универсальный десятичный классификатор.
Классификационные схемы достаточно просты, удобны в использовании и умеренно адекватны поставленной задаче. Несомненна необходимость классификации информации перед занесением ее в информационное хранилище. Но адекватность классификаторов поставленной задаче определяется адекватностью парадигмы классификационной схемы выбранной предметной области.
Дело в том, что любой классификатор создается в рамках некоторой заранее избранной парадигмы. Парадигма может быть вполне релевантна задаче поиска, но далеко не всегда. Например, древнему мыслителю может показаться вполне логичным включить астрономию в подразделы философии. Покажется ли это логичным тому, кто будет искать информацию? Задачи астрофизики являются подмножеством физических или астрономических задач? В зависимости от области исследования возможно и то и другое рассмотрение. Но любая жесткая классификационная схема ВСЕГДА навязывает вам определенную кем-то другим парадигму структуризации информации. Если эта парадигма неадекватна вашим конкретным задачам, вы сталкиваетесь с необходимостью либо изучить парадигму, на которой построена классификационная схема, либо отказаться от пользования ею, либо положиться на мнение людей, знакомых с парадигмой, которой руководствовались создатели классификатора. Последнее может быть далеко не всегда лучшим решением, ибо обладая знаниями в области строения классификатора, эти люди могут быть совершенно не знакомы с вашей областью исследования.
Примеров неверно выстроенных нелогичных парадигм классификации может быть приведено множество. Из них наиболее ярким является пример классификации в одной из российских классификационных систем, Яндекса. Несмотря на наличие в разделе «Интернет для детей» подраздела «Детские книги» наличествует (очевидно, вследствие популярности запросов или многочисленности ресурсов) дополнительно подраздел «Гарри Поттер».
Подход, использованный в приведенном примере ошибочной парадигмы строения классификатора, мог быть вызван различными причинами: от чисто конъюнктурного решения до соображения о большом количестве ресурсов в разделе «Гарри Поттер», что делает его потенциальным кандидатом на вынесение уровнем выше. Вполне возможно, что за счет нарушения логической схемы строения классификации было достигнуто несколько повышенное удобство для пользователей системы. По-иному этого же результата достичь было нельзя, поскольку подавляющее большинство существующих классификаций иерархичны.
Возьмем в качестве примера политэкономию. При строении классификационной парадигмы она может быть принята разделом политической науки, либо разделом экономики. Но не того и другого одновременно. Поэтому человек, пытающийся найти ресурсы по политэкономии, может не обнаружить их в ожидаемом разделе классификатора, если парадигма, в которой оперирует он, не совпадает с парадигмой, которую использовали создатели классификатора. Подраздел может присутствовать либо в одном разделе, либо в другом, но не в двух сразу. Излишне говорить, что это затрудняет поиск информации в классификаторах иерархической схемы.
Проблему иерархичности классификаторов пытались решать различными способами. Так, например, в Yahoo используется подход помещения ссылок на подразделы классификатора в других разделах. При перемещении по виртуальному дереву от общего к частному в определенный момент пользователь просто внезапно «переносится» в совершенно другую область знаний. Да, это улучшает удобство пользования системой. Но вместо пусть мало адекватной, но все же стройной классификационной системы в итоге мы получаем ее практическое отсутствие. Хаос. Но хаос не пригоден в роли системы управления знаниями!
Американский автор К. Ширки в ответ на эту проблему предлагает использовать систему управления социальными знаниями, построенная на тегах. Общий принцип ее функционирования заключается в том, что каждый ресурс пользователь классифицирует для себя самостоятельно, прикрепляя к нему те «ярлычки», которые по его мнению соответствуют содержимому ресурса. Теги являются всего лишь словами, которые пользователи выбирают произвольно. Таким образом, при поиске по определенному ключевому тегу теоретически возможно получение релевантных результатов.
Но эта система на деле скорее создает больше проблем, чем решает. Для начала ее функционирования требуется некоторое сообщество, сеть, члены которой могут быть и не знакомы с проблематикой в достаточной степени. Ширки предполагает, что подобная социальная сеть при некотором обширном числе привлеченных добровольных классификаторов ресурсов может стать самоорганизующейся. На деле возможен и диаметрально противоположный результат: резкое снижение релевантности классификаций. Пользователи системы вполне могут не иметь достаточного образования в предметной области, в то время, как оценка уровня экспертизы не производится никаким образом: все пользователи равны в своих правах классификации ресурсов.
Второй проблемой является то, что теги – это всего лишь слова, которые выбираются произвольно, безо всякой системы. В итоге один и тот же ресурс может быть классифицирован совершенно незначащей комбинацией, вроде «это интересно» или «посмотреть потом». Один человек может пометить ресурс, относящийся, например, к велосипедам термином «велосипед», в то время как второй использует термин «байк». В итоге информация не будет найдена одним из них. Количество дублирующих и неоптимальных тегов имеет тенденцию к лавинообразному росту; виртуальный словарь классификации неприемлемо раздувается. Наконец, спектр ресурсов, которые будут классифицированы сообществом, с высокой вероятностью будет относительно узок.
Проблема неверных классификаций, которую мы обозначили в описании систем, основанных на свободном теггинге, стоит заметить, характерна и для классических иерархий. Классификация ресурса в любой из общепринятых систем выполняется людьми либо знакомыми с проблематикой, описываемой в ресурсе, но плохо знакомыми с классификационными парадигмами, либо наоборот, людьми, которые плохо образованы в предметной области знаний, но хорошо умеют работать с классификаторами. В идеале человек, выполняющий классификацию должен хорошо ориентироваться и в проблеме управления информацией и в своей области знаний. Но такое сочетание встречается крайне редко. Гораздо чаще мы сталкиваемся с неадекватной классификацией ресурсов: недостаточно подробной, попросту ошибочной или нерелевантной.
Но нужны ли классификации вообще? В современном Интернете все давно уже привыкли к мощным поисковым системам, которые могут в короткие сроки просматривать огромные объемы информации на предмет наличия в их тексте определенного ключевого слова. Думаем, что их недостатки хорошо понятны любому, кто хоть единожды пользовался ими на практике. Огромное количество ресурсов, выдаваемых в ответ на поисковый запрос, часто слабо релевантных тематике, нуждающихся в дополнительном просмотре и оценке – таков типичный результат работы автоматизированных систем. Поиск ключевого слова мог бы быть крайне полезен, когда начальная выборка уже произведена, но поиск по всему спектру ресурсов, накопленных в некотором информационном хранилище требует больших затрат времени.
Итак, мы приходим к необходимости наличия некоторого спектра метаданных для любого ресурса, что требуется для эффективной выборки информации по тематике. Важно лишь понять, на какой схеме мы должны выстраивать этот набор метаданных: парадигма классификации, принципы ее действия. Итак, исходя из вышесказанного, мы можем выработать некоторый набор требований к качественной системе управления знаниями:

    1. Она должна быть системной. Отсутствие системности не позволит эффективно пользоваться ей как специалистам, так и людям со стороны. Причем желательно, чтобы эта система была интуитивно понятна, либо описывалась бы набором простейших правил.
    2. Она должна обладать гибкостью в использовании различных парадигм. Иными словами, базовая парадигма составителей классификационной схемы не должна навязываться пользователю как единственно доступная. Вполне возможно, что пользователь должен иметь возможность указания своей, по его мнению более релевантной парадигмы для классификации, которая будет учтена системой в целом, или использована в дальнейшем только при работе с этим конкретным пользователем. Система должна иметь возможность обучения и настройки.
    3. Она должна оперировать ограниченным контролируемым словарем. Следует полностью исключить создание бессмысленных или параллельных понятий с любыми целями. В то же время существующий словарь должен обладать достаточной гибкостью для описания множества понятий, смыслов и знаний.
    4. Она должна обеспечивать возможность множественного наследования. Иными словами, для обеспечения требований системности классификатор должен обладать с одной стороны некоторой иерархией. С другой стороны, иерархия не должна строиться на принципе «или-или». Одно и то же понятие должно иметь возможность наследовать произвольному числу родовых понятий.
    5. Она должна адаптироваться под нужды пользователя. Должен быть создан эффективный интерфейс работы с классификатором, который позволял бы пользователю передвигаться по графу классификации в любом направлении с максимальной прозрачностью. Интерфейс должен иметь широкие возможности настройки под каждого конкретного пользователя, на определенном этапе работы позволяя минимизировать ненужные перемещения.
    6. Для обеспечения релевантности она должна опираться на некоторую модель доверия тем, кто проводит классификацию. Нельзя допускать какого-либо диктата любой из принятых парадигм строения, каждая из которых может оказаться ошибочной на текущий момент или в перспективе. Классифицировать ресурсы должны иметь право лишь те, кто достаточно авторитетен в предметной области, или по крайней мере именно их мнение должно иметь наибольший вес.
    7. Желательно, чтобы работа с системой требовало минимального обучения и была интуитивной и простой. Нельзя требовать обширного специального образования только лишь для того, чтобы научиться классифицировать документы, или находить их. В противном случае система окажется плохо применимой на практике.
    8. Желательно обеспечение совместимости с существующими классификационными схемами. Накоплено значительное количество ресурсов, которые были классифицированы в других парадигмах. Несмотря на то, что новая система должна обеспечивать релевантность поиска информации значительно выше, чем любая из других схем, мы не можем сходу отринуть те умения, образование и вложения средств, которые были произведении для развития устаревших систем.
Пытаясь суммировать вышеприведенные требования, мы неизбежно осознаем, что они крайне противоречивы, трудно реализуемы и требуют нетривиальных подходов к организации систем управления знаниями. Может ли это противоречие быть разрешено к достижению оптимального соотношения в выполнении всех этих требований? Мы полагаем, что это возможно. Более того, предлагаемый нами подход, как мы считаем, дает некоторый комплекс дополнительных преимуществ, которые будут описаны ниже.

Предлагаемое решение

Итак, мы должны выработать некоторую систему, которая обладает ограниченным набором базовых понятий, допускает описание сложных конструкций и наследуемости, проста в обучении и использовании, обладает высокой гибкостью и может подстраиваться под различные нужды и парадигмы.
Как ни парадоксально это звучит, все мы уже знакомы с такой системой. Это языковая схема коммуникации. Действительно, некоторый ограниченный набор базовых понятий, выражаемых словами при соблюдении правил их комбинации позволяет предельно гибко выразить любую концепцию. Когда одним и тем же языком пользуется группа людей, их сообщество постепенно изменяет язык, создавая новые слова, описывающие новые понятия, комбинируя старые.
Конкретизируя подход с учетом этого уточнения, мы приходим к решению о том, что базис классификационной схемы должен выстраиваться на небольшом наборе слов, мнемоник. Дополнительно требуются правила их комбинации между собой для образования новых понятий или уточнения существующих. И, разумеется, нужно сообщество, социальная сеть, которая, пользуясь этими мнемониками и их комбинациями позволит совершенствовать наш виртуальный язык.
Сама классификация ресурса при таком подходе сводится к «виртуальной фразе», состоящей из ограниченного числа слов (лимитированного максимумом, заданным заранее из соображений требуемой точности определений). Уже одно это дает нам потрясающую гибкость использования: использование лишь 100 мнемоник при ограничении количества их в классификации пятью дает на выходе классификацию ресурса суженную по 5 параметрам, причем количество комбинаций в классификации равно 1005 . А ведь мы пока еще не ввели правил «виртуального словообразования».
Попробуем рассмотреть такую схему на примере. В качестве рабочей схемы предлагается поделить описывающую классификацию на 3 базовых блока: тип документа, предметную область (включающую в себя дополнительно 3 ступени конкретизации) и указатель географической привязки. В данной парадигме классификация, скажем, диссертации по политологии, описывающая процессы демократизации на Тайване будет описываться следующим образом:
phd.politscience.democr.tw
В качестве разделителя мнемоник выбрана точка, хотя в общем случае разделитель может быть любым. Однако выбор именно точки в качестве разделителя разрядов глубоко оправдан дополнительными соображениями, которые будут раскрыты ниже.
Приведенный пример уже сужает поле выборки ресурсов до достаточно конкретной области, но все еще не обладает достаточной конкретизацией. Да, здесь однозначно выбираются именно диссертации в области политологии, посвященные демократическим процессам и связанные с Тайванем. Но в то же время такая детализация может оказаться недостаточной, выдавая на выходе довольно широкий спектр ресурсов. Дополнительную конкретизацию предметной области мы можем ввести, определив правило комбинирования мнемоник базового словаря. Комбинируясь между собой, базовые мнемоники могут порождать существенно более конкретные привязки предметной области, дополнительно уточняя ее на каждой ступени определения. В разработанной схеме классификации для политических наук такая классификация примет вид:
phd.politscience.trends_democr.tw
Здесь мы дополнительно конкретизируем предметную область ресурса до демократических трендов вместо общих исследований демократии как таковой. Но и эта конкретизация может оказаться недостаточной, поскольку исследования области могут затрагивать историю процесса, аналитику кго текущего состояния, прогнозы и т.п. Иными словами, нам желательно иметь еще и временную привязку.
Не останавливаясь на этом этапе, отметим, что в рамках решаемых задач в классификации политических процессов, которая стояла перед нами изначально, требуется отдельно выделять не только временную привязку, но и тип ресурса, делая разделение между методическими пособиями по преподаванию, теоретическими исследованиями, концепциями и идеями и даже отдельными личностями, которые также должны быть классифицированы в рамках системы управления знаниями. Для этого мы ввели в наши «правила виртуального словообразования» дополнительные базовые формы. С их использованием описание вышеприведенного ресурса будет выглядеть следующим образом:
phd.modern_politscience.modern_events_trends_democr.tw
…или в сокращенной форме, где временная и предметная привязка представлены ключевыми начальными буквами:
phd.m_politscience.m_e_trends_democr.tw
В последних примерах конкретизация предметной области доведена до очень высокой точности: здесь мы описываем ресурс, относящийся к современным исследованиям в области политологии и рассматривающий современную фактологию трендов демократизации на Тайване. В большинстве случаев такая конкретизация более чем достаточна, поскольку описывает ресурс с очень высокой точностью. Простейший математический подсчет говорит нам, что при использовании 4 элементов, образующих мнемоники и нескольких разрядов, описывающих предметную область мы оперируем количеством возможных классификаций ресурса порядка 1015 . Этот результат достигается при использовании лишь 100 базовых мнемоник. Увеличение их количества позволяет расширить возможности классификации в 5-й степени от дельты прироста числа базовых «виртуальных словоформ».
В нашей конкретной разработке мы использовали правила формирования расширенных мнемоник из базовых, где последовательность использования базовых форм не имеет значения. Этот подход был избран из соображений простоты использования системы неподготовленными пользователями, с тем, чтобы даже минимально знакомый с системой человек был способен составить необходимую именно ему расширенную мнемонику. Однако правила комбинирования базовых форм могут быть и более сложными, учитывающими порядок следования базовых форм, что существенно (на порядки!) расширяет спектр возможных классификаций. Мы полагаем, что применение таких методов уже избыточно для любой из конкретных задач классификации, поиска и управления знаниями. Тем не менее, не следует исключать возникновение потребности в более точных классификациях, с чем приведенная схема справляется с легкостью. Использование методов рекомбинации базовых форм, множественного итеративного использования их в определенной позиции и многих других, известных из теорий языков позволяет оперативно расширять классифицируемую зону и степень конкретизации до любых необходимых значений по точности и ширине охвата.
Отметим также один немаловажный фактор: несмотря на высокую гибкость классификаций в принятой схеме, она основывается на ограниченном словаре базовых форм, который не может разрастаться неконтролируемо. Это может показаться недостатком, поскольку даже при всей широте возможностей комбинирования базовых смыслов, мы, разработчики системы могли не учесть какое-либо из базовых понятий, потребное для описания того или иного ресурса. Может сложиться ощущение того, что мы, как и многие создатели иерархических классификаций заранее навязываем пользователю одну-единственную парадигму классификации документа. Разработка, однако, позволяет бороться и с этой проблемой. Здесь мы подходим к описанию собственно системы управления знаниями на основе мнемонического подхода, названной нами «Технология MGI» (mnemonics-generated index).
Пока мы описывали лишь основной принцип формирования классификаций на базе мнемонического «виртуального языка». Выше предполагалось, что все базовые формы могут произвольно комбинироваться, создавая расширенные мнемоники иного значения с требуемой степенью конкретизации. Однако это не так. Произвольное комбинирование базовых мнемоник способно потенциально породить значительное число неосмысленных комбинаций, либо комбинаций, значения которых предельно близки друг другу. Потенциально это способно привести нас к проблеме неконтролируемого роста словаря расширенных мнемоник, что крайне нежелательно. С другой стороны мы хотели бы добиться предельной гибкости в использовании подхода. Как возможно разрешить это противоречие? Должны ли мы заранее руководствоваться какой-либо парадигмой строения схем наследования, заставляя пользователей системы следовать ей, либо следует искать иной путь?
Ответ заключается в том, что мы не знаем , какая парадигма строения классификационной схемы удобнее для пользователя. Но одновременно мы способны и не навязывать пользователю (сообществу) никакой парадигмы, которая может оказаться ошибочной сейчас или в перспективе. Для этого мы должны сделать классификационную схему адаптивной, самообучающейся, контролируемой сообществом.
Базисом для реализации такого подхода является представление схем наследования в классификации не в виде дерева или таксономии, разрешающей множественное наследование, а в виде циклического неориентированного графа, виртуальной нейросети, где мы описываем не собственно возможность наследования одним понятием группы других, а оперируем вероятностью такого наследования, весом такой парадигмы его в академической среде или в другом произвольном сообществе пользователей системы.
При использовании нейросети в качестве базиса для классификационной схемы начальная парадигма классификации является лишь одной из возможных и ни в коем случае не является окончательной. При использовании такой системы некоторым сообществом веса связей между узлами сети непрерывно изменяются в соответствии с реакцией пользователей системы. Обучение системы может проходить как явным образом, с предоставлением возможности дать параллельную конкурентную классификацию ресурса, более релевантную с его точки зрения, так и неявным.
Явный подход к обучению системы требует отчетливой активности пользователей, их высокой заинтересованности в совершенствовании классификатора. Несомненно, такая возможность должна быть предусмотрена в системе управления знаниями, но невозможно рассчитывать на то, что фокус интереса сообщества равномерно будет распределен по всему спектру классифицируемых ресурсов. Логичнее предположить существование некоторых «активных» зон интереса, где активность сообщества будет повышенной наряду с существованием «холодных» зон, где не только активность пользователей будет низка, но и количество ресурсов, посвященных тематике будет небольшим.
Исходя из стремления к равномерному и релевантному развитию системы, мы полагаем наилучшим методом обучения неявный сбор информации. Нейросеть, классификационный граф позволяют нам описывать не только наследуемые смыслы, но и параллельные. Кроме веса связи можно оперировать еще и типом связи. Исходя из этой возможности, логично предположить, что пользователи системы в процессе ее использования будут перемещаться по графу по некоторым приоритетным направлениям, причем наиболее часто используемые направления по ассоциативным связям будут с некоторой вероятностью свидетельствовать об ошибочности выбора классификационной парадигмы в близости этого узла. Анализируя пути перемещения, накоплением статистики можно сделать ряд выводов о потребностях изменения весов и типов связей внутри графа, причем этот процесс легко автоматизируется.
Совместное применение явных и неявных способов мутации базового графа (нейросети) позволяет дополнительно накапливать не только данные о желаемом направлении мутации графа. Используя возможности по хранению состояний графа и сравнивая их между собой во временной перспективе, можно получать информацию о трендах в сообществе, которая также может использоваться для разнообразных исследований, в том числе и для обеспечения положительной или отрицательной обратной связи в системе обучения нейросети. Накопление конкурентных классификаций, данных пользователями (прямые методы указания на ошибку) позволяет оперировать дополнительно сравнительными аналитическими данными по участку графа.
Из всех требований, выдвинутых в начале разработки мы пока не пришли к удовлетворению нескольких последних, в числе которых требование к модели доверия и обеспечение обратной совместимости.
К сожалению, адекватные методы построения сети доверия возможны только с обязательным привлечением каких-либо административных мер. Сама по себе идея формирования цепочек доверия по принципу, сходному с организацией сети доверия в системах типа PGP является адекватной, но требует обязательного регулярного подтверждения доверия каждым из членов сети. Попытка полностью автоматизировать строение сети доверия на основе рейтингов и других методов, используемых в социальных сетях, блоках и т.п. с некоторой (немалой) вероятностью может привести к взаимному необоснованному повышению рейтинга какой-либо группой пользователей. Поскольку такое необоснованное раздувание рейтингов и цепочек доверия неизбежно понизит релевантность системы, мы предполагаем на текущий момент использование комбинированной системы с непрерывным мониторингом уровней доверия и способов их получения. Очевидным остается лишь то, что вес, который оказывается пользователем на мутацию графа должен находиться в соответствии со степенью доверия ему сообществом. Методы же определения доверия в полностью автоматических схемах нуждаются в дополнительной проработке.
Решение вопроса обратной совместимости предполагается с помощью еще одной параллельной разработки, имеющей отношение к строению системы управления знаниями. Посмотрим еще раз на типичную классифицирующую строку в предлагаемой мнемонической схеме:
phd.politscience.trend_democr.tw
Выше мы говорили о том, что выбор точки в качестве разделителя не случаен. Классификационная строка, разделенная точками сама по себе может являться частью доменного имени , которое строится по тем же принципам. Для актуализации этого доменного имени нам достаточно внести такую запись в записи DNS-сервера и добавить имя хоста справа. Строка, описывающая группу ресурсов после этого приобретает вид полноценной URL:
http://phd.politscience.trend_democr.tw.classification.com
Заметим, что такая строка, несмотря не довольно большую длину легко запоминается любым человеком, знакомым с принципами формирования мнемонической классификации.
На данном этапе мы подходим к осознанию идеи возможности создания «виртуальных доменов» для каждой из предметных областей, типов ресурсов и т.п. Иными словами, мнемоническое представление обретает некоторый дополнительный смысл, поскольку каждая группа ресурсов хранится строго в своем отдельном домене, а конкретизация оперирует виртуальными локациями внутри доменов или на их пересечениях.
Одним из преимуществ такого представления является «чистота» URL после доменного имени, что позволяет легко дополнять ее в области за слэшем дополнительными уточняющими поисковыми запросами по ключевым словам, идентификаторами сессии, вызовом серверных процедур, установкой переменных и т.п., сохраняя при этом приемлемую длину запроса и его читаемость.
Вторым преимуществом отметим то, что такой адрес сам по себе является сужающим поисковым запросом, что позволяется легко организовывать «ожидание» поступление ресурсов по тематике, комментариев и т.п. просто используя этот адрес в качестве закладки.
И наконец такой подход позволяет решать проблему совместимости при помощи использования функциональных мнемоник в области доменного имени. Очевидно, что для технической реализации актуализации виртуальных доменов на лету нам в любом случае необходим некоторый парсер доменного имени, который даже в случае отсутствия имени в базе DNS-сервера будет каким-то образом реагировать на него. Несложно сделать такой парсер программируемым.
Строка вида:
Myobject.myfunc()
…является типичным вызовом метода объекта в точечной нотации объектно-ориентированных языков программирования. Спроецировав ее на нотацию строения доменного имени, мы способны получить некоторое обращение к метаобъекту сервера, предписывающее ему выполнить какую-то операцию из базовой библиотеки. Несомненно, потребуется разработка какого-то формата представления аргументов функции, но эта задача является вполне решаемой (см. например US pat. 6,804,723 ) и освоена в современных методиках программирования серверных приложений и веб-сервисов.
Таким образом, мы вполне можем представить выборку по любой совместимой классификационной схеме в рамках того же виртуального домена:
http://isbn_145658.classification.com
В данном примере парсер разбирает знаковую строку, начинающуюся с ключевого слова ISBN на метод обработки и параметр. В итоге на выходе производится выборка документа с определенным кодом по каталогу ISBN.
К сожалению, объем статьи не позволяет подробно углубиться в способы технической реализации проекта. В дальнейших публикациях мы надеемся полнее ознакомить читателей с разрабатываемой технологией и аспектами ее применения. Посвятим заключительную часть статьи перспективам применения описанной технологии для решения задач в области образования, например, управления вузом.

MGI в управлении вузом

Преимущества использования MGI-классификатора в разработке систем управления научно-образовательной деятельностью определяются следующими обстоятельствами:

    1. совмещение в MGI-классификаторе функции содержательного классификатора научных областей и функционального базиса поисковой системы, что достигается благодаря идентичности MGI-кодов классификатора и url-кодов поиска информации в сети Интернет;
    2. наличие не только вертикальных, но и горизонтальных содержательных связей между MGI-кодами, что позволяет присваивать сложным информационным объектам уникальные коды вместо кодирования их наборами из нескольких кодов;
    3. возможность построения единой классификации предметных областей различных наук с установлением междисциплинарных горизонтальных связей между их предметными полями (что не позволяют делать существующие классификаторы, основанные на принципе вертикальных связей);
    4. уровень детализации внутри- и междисциплинарного поиска по MGI-кодам потенциально не ограничен;
    5. простота запоминания MGI-кодов (в отличие от традиционных систем классификации, предполагающих запоминание сложных комбинаций букв и цифр).
Рассматривая возможности применения технологии MGI в рамках крупного вуза, можно выделить следующие уровни ее использования: Направления использования MGI-классификатора на каждом из уровней изложены ниже.
1. Уровень структурных подразделений
Использование MGI-классификатора в управлении структурными подразделениями позволяет получить единую междисциплинарно интегрированную основу для планирования научно-образовательной деятельности вуза. При этом в рамках каждого из структурных подразделений внедрение MGI-классификатора позволяет решить специфические задачи, описанные в п.1.2-1.3.
1.1. Управление образовательным процессом
Использование MGI-классификатора при позиционировании кафедр и факультетов вуза на рынке образовательных услуг обеспечит получение следующих результатов:
    1. определение сравнительных преимуществ в предоставлении образовательных услуг путем сопоставления кодов предметных полей, на которых специализируются сотрудники, с кодами предметных полей, по которым ведется обучение в на других кафедрах/факультетах вуза и в вузах-конкурентах;
    2. выделение перспективных ниш образовательного рынка на основе анализа дифференциации спроса на образовательные услуги по конкретным кодам предметных полей (уровень детализации потенциально не ограничен) и кодов предметных полей, покрываемых вузами-конкурентами, в т.ч. для идентификации кадровых и материальных потребностей, необходимых для занятия соответствующих ниш;
    3. возможность автоматического отслеживания по MGI-кодам научных достижений в рамках предметных полей, по которым осуществляется предоставление образовательных услуг;
    4. корректировка организационной структуры, учебных планов и кадрового состава с целью обеспечения более точного соответствия предоставляемого образования заявленным приоритетам;
    5. возможность формулировки учебных программ и заданий с использованием кодов предметных областей по MGI-классификатору, что может привести к существенному повышению эффективности самостоятельной работы студентов (см. п.2.1).
1.2. Управление научной политики
Использование MGI-классификатора в рамках управления научной политикой вуза позволит получить четкую картину приоритетов деятельности вуза и эффективности их достижения, не искаженную влиянием внесистемных факторов и микроприоритетами деятельности на уровне конкретных личностей и структурных подразделений. В частности, речь идет о решении следующих задач:
    1. определение «направлений прорыва» и «отстающих» направлений научной работы в МГИМО(У) МИД РФ путем сопоставления текущей научной продукции Университета с продукцией иных организаций, имеющей аналогичные MGI-коды;
    2. идентификация приоритетных научных направлений с отслеживанием круга организаций, заявивших аналогичные приоритеты, для последующей оценки сравнительных преимуществ рассматриваемой организации на «направлениях прорыва»;
    3. возможность организации электронной системы отчетности сотрудников и структурных подразделений с автоматическим отслеживанием соответствия кодов подотчетных видов работ кодам приоритетов работы организации;
    4. корректировка организационной структуры, планов работ структурных подразделений и их кадрового состава с целью обеспечения более точного соответствия научной продукции заявленным приоритетам.
1.3. Научная библиотека
Единая система кодирования обеспечит возможность интегрированного использования материалов научных библиотек в научном и образовательном процессе без возникновения проблем, связанных в настоящее время с установлением соответствия кодов библиотечных коллекторов, и одной стороны, и предметных областей работы научных и образовательных организаций, с другой. Сейчас подобные возможности существуют только в рамках отдельных дисциплин и реализованы в основном за рубежом (например, коды JEL в экономической науке). При этом внедрение MGI-классификатора обеспечит следующие преимущества:
    1. по сравнению с традиционной системой классификации, появится возможность междисциплинарного поиска потенциально любой степени детализации;
    2. при условии введения обязательного кодирования печатной научной и учебной продукции MGI-кодами, библиотека получат возможность определения направлений целевого комплектования в соответствии с пожеланиями факультетов/кафедр для оптимального использования выделяемых финансовых средств.
2. Индивидуальный уровень.
Использование MGI-классификатора на индивидуальном уровне руководящими работниками и преподавателями вуза обеспечит реализацию потенциала классификатора для решения индивидуально-специфичных задач управления научно-образовательным процессом, а его использование студентами – повышение отдачи от внедрения MGI-классификатора в учебном процессе.
2.1. Поиск научно-образовательной информации .
В отличие от традиционных систем поиска информации, MGI-классификатор обладает следующими преимуществами при использовании на индивидуальном уровне:
    1. поиск непосредственно путем задания кода url интересующей информации, минуя поисковые системы;
    2. простота запоминания MGI-кодов, наиболее часто применяемых пользователем;
    3. поиск по структурированному предметному полю со специфицированными связями между объектами, что исключает получение больших массивов слабо связанной с предметом поиска информации;
    4. в потенциале – любой уровень детализации поиска по MGI-кодам без необходимости уточняющих запросов;
    5. получение результатов поиска в виде Интернет-страницы, доступной для добавления в список Favorites, сохранения, печати, отправки по e-mail и иных видов использования.
2.2. Персональный органайзер на тематических порталах (напр., портале по международным отношениям и мировой политике www.worldpolitics.ru)
Задавая MGI-коды интересующей информации на тематических порталах, использующих данную технологию, пользователь будет иметь возможность в режиме текущего времени получать соответствующую информацию и самостоятельно структурировать ее (формирование «информационного портфеля»), используя MGI-коды в качестве критериев быстрого поиска в персональном «информационном портфеле».

Заключение

Проблема классификации ресурсов (как онлайновых, так и оффлайновых) и их эффективного поиска приобрела особую актуальность в современных условиях тотальной информатизации общества. Классические инструменты, такие как библиотечные классификации, с достаточной эффективностью выполнявшие свою функцию в «бумажную» эпоху, сегодня оказываются недостаточными. В то же время применение компьютерных технологий в данной области нередко сводится к механическому переносу старых концептуальных подходов к управлению знаниями на компьютерную/сетевую базу либо упованию на мощность поисковых машин. Авторы уверены, что необходим инновационный подход к использованию возможностей, предоставляемых современными технологиями, в том числе в виде создаваемых на их основе социальных сетей. Как представляется, описанная в статье технология, хотя и обладает собственными ограничениями, является примером именно такого подхода и имеет все шансы занять важное место среди инструментов управления знаниями «информационной эпохи».