Educational Technology & Society 9(3) 2006
ISSN 1436-4522
pp. 346-355

Разработка и использование интеллектуальных информационных систем и технологий генерации и анализа знаний для поддержки фундаментальных и прикладных научных исследований в области катализа и химической технологии.

Е.Э. Любушко
Зав. научной библиотекой
Институт катализа им. Г.К. Борескова СО РАН, Новосибирск, Россия
katia@catalysis.ru

АННОТАЦИЯ
В статье представлены интеллектуальные информационные системы и технологии генерации и анализа знаний используемые для информационного обеспечения научных исследований в области катализа и химической технологии в Институте катализа СО РАН. Приводится краткий обзор информационных ресурсов привлекаемых для информационного сопровождения научно-исследовательских работ. Дается характеристика «Корпоративной Интегральной Информационной Базы», рассматриваются цели её создания и функциональные возможности. Представлена разработка Информационного центра ИК СО РАН «XML – ориентированная информационная система». Поясняется её архитектура, основные функциональные возможности, дальнейшие пути развития.
In article are submitted intellectual information systems and technologies of generation and the analysis of knowledge used for a supply with information of scientific researches in area catalysis and to chemical technology in Boreskov Institute of Catalysis the Siberian Branch of the Russian Academy of Science. The brief review of information resources of research works involved for information support is resulted. The characteristic of " Corporate Integrated Information Base » is given, the purposes of its creation and functionalities are considered. Presentation of development of Information centre BIC SB RAS «XML - focused information system». Explain its architecture, the basic functionalities, the further ways of evolution.

Ключевые слова
Информационные ресурсы, базы данных, XML-ориентированные информационно-поисковые системы.

 

В Институте катализа СО РАН в последние годы ведется активная работа по организации информационного обеспечения и разработке, внедрению и использованию интеллектуальных информационных систем и технологий генерации и анализа знаний для поддержки фундаментальных и прикладных научных исследований выполняемых в нашем институте.
Институт катализа им. Г.К. Борескова СО РАН является одним из ведущих мировых научно-исследовательских центров в области катализа (рис.1). Институт катализа был организован в 1958 году в составе Сибирского отделения Академии наук СССР.


Рис. 1. Институт катализа им. Г.К. Борескова СО РАН
Верный первоначальный замысел, а именно - сочетание фундаментальной науки с решением актуальных проблем промышленности - помогли Институту уже за первые 10-15 лет своей деятельности стать крупнейшим в мире научно-исследовательским институтом в области химического катализа. И в дальнейшем, позволило только укреплять свои позиции (рис. 2). Институт имеет филиалы в гг. С.-Петербурге и Волгограде. На сегодняшний день персонал Института насчитывает около 1000 человек, в том числе более 350 научных сотрудников.

Рис. 2. Структура ОИК СО РАН
Институт является постоянным участником крупных международных и российских проектов, имеет партнерские отношения с большим количеством фирм и заводов в России и за рубежом.
Для экономики нашей страны очень важно поддерживать приоритет в этой области, т.к. катализу и каталитическим технологиям принадлежит ключевая роль в формировании современного состояния топливно-энергетического, нефтеперерабатывающего и химического комплексов России.
Область работ Института простирается от решения задач фундаментального характера в области катализа до создания новых катализаторов, каталитических технологий и опытно-промышленного производства катализаторов.
Ежегодно из стен Института выходит более 300 публикаций в рецензируемых изданиях. За пять последних лет Институтом получено 180 охранных документов на территории России и поддерживается 30 зарубежных патентов.
Прикладные исследования в Институте катализа ведутся в рамках ВАЖНЕЙШИХ ФЕДЕРАЛЬНЫХ ПРОГРАММ ГОСУДАРСТВЕННОГО ЗНАЧЕНИЯ и направлены на решение конкретных практически важных задач.
Лаборатории института оснащены уникальным научным оборудованием. В Институте создана мощная компьютерная база.
Одной из основных целей Института наряду с выполнение фундаментальных научных исследований и прикладных разработок является научно-учебная деятельность по подготовке высококвалифицированных кадров.
В Институте катализа проходят дипломную практику студенты и выполняют квалификационные работы аспиранты НГУ, НГТУ, ТГУ, ТПУ. В целом ежегодно на научно-учебной базе Института катализа СО РАН проходят обучение более 100 студентов и аспирантов.
Информационное сопровождение научных исследований осуществляет Информационный центр, объединивший в себе лабораторию информационных систем и программного обеспечения, и Научную библиотеку. А также сотрудники Бизнес - отдела: Патентной группы и Группы научно-технических и инновационных программ. Это позволило оптимально организовать процесс информационного обеспечения Научно - Исследовательских Работ – от поиска информации, её аналитико-синтетической переработки, библиографической доработки до предоставления первоисточника для всех подразделений Института.
В институте создана единая информационная среда (рис. 3). Для обслуживания сотрудников института, аспирантов и студентов привлекаются разнообразные информационные ресурсы:

Рис. 3. Информационные ресурсы, используемые в ИК СО РАН
Благодаря участию в консорциумах «НЭБ» и «НЭЙКОН» и поддержке РФФИ Институт имеет доступ ко многим очень важным и нужным для нас ресурсам с полнотекстовыми электронными журналами, такими как журналы: ”The Royal Society of Chemistry”, ”American Physical Society”, «American Chemical Society”, “American Institute of Physics”, “Oxford University” ”Institute of Physics”, ”Springer-Kluwer”, ”Blackwell Publishing Ltd.” и др.
А, присоединившись в 2006 году к консорциуму библиотек под эгидой «МИЦ» Институт получил доступ к полнотекстовым электронным книгам издательства «Springer-Kluwer» (более 2030 наименований).
Понимая важность, расширения репертуара полнотекстовых электронных журналов и учитывая, что все основные журналы по катализу и химической технологии выпускаются издательством «Эльзевир», дирекцией института было принято решение приобрести доступ к текущей коллекции “Chemical Engineering” на портале Science Direct. И начиная, с 2003 года и по сегодняшний день Институт является постоянным подписчиком этого ресурса. А в 2004 году мы купили доступ и к архивной коллекции “Chemical Engineering”. Усилиями сотрудников Информационного Центра разработана единая технологическая система баз данных в области химического катализа (банк данных «Катализ»), обладающая элементами экспертного анализа и объединяющая унифицированную систему сбора и обработки физико-химической информации, спектральные и библиографические базы данных. Также для выполнения конкретных проектов и при отсутствии нужной информации в своих информационных ресурсах привлекаются ресурсы организаций-партнеров.
Понятно, что каждая организация располагает собственной базой данных в области химии и химических технологий, но их разнообразие и разностильность не позволяют создать единое информационное пространство и обеспечить эффективный информационный обмен.
И как один из способов решения этой проблемы сотрудниками Некоммерческого партнерства "Химико-технологический научный центр“, в его состав входит и наш Институт, была разработана Корпоративная интегральная информационная база (КИИБ). Основными целями создания Корпоративной Интегральной Информационной Базы являются: Корпоративная База данных предоставляет пользователям широкие возможности: Отбор документов ведется по наличию терминов, выделенных как на этапе создания БД, так и непосредственно в процессе поиска; другими словами набор поисковых терминов меняется пользователем в зависимости от выполняемой задачи.
При этом документы из большого информационного массива отбираются по формальному признаку (наличию поисковых терминов) без ручного анализа всех документов БД.
КИИБ выполнена в среде Windows, использует некоммерческую свободно-распостраняемую версию СУБД pcBirs 3.2®
Постоянно обновляемая корпоративная база данных по химии и химической технологии включает в себя основные разделы необходимые для работы в рассматриваемой предметной области. Структура базы данных включает в себя 10 разделов, которые содержат более 8 млн. единиц хранения: Объём информационного хранилища (системы) 16,2 Гигабайт. Благодаря развитой функциональности подсистемы ввода информации, процессы переноса данных в разработанную систему большей частью были автоматизированы, а сам процесс занесения данных занимал относительно небольшое время.
Все части базы данных взаимосвязаны между собой, посредством хранящейся в структуре Базы данных метаинформации.
Подсистема интерфейса пользователя обеспечивает доступ к данным через конструкторы форм, универсальный поисковый модуль, систему выборки информации, необходимой для работы.
Панель инструментов содержит набор элементов управления и обеспечивает основными режимами работы системы. За операциями закреплены элементы управления, которые действуют одинаково для любой из составных частей БД в любом режиме. После их нажатия операция либо выполняется сразу же, либо вызывается дополнительный пользовательский диалог (рис. 4). Система предоставляет возможность работы в многооконном режиме. Поддерживается одновременная независимая работа с различными хранилищами данных и их разделами.

Рис. 4. КИИБ. Окно базы данных «Журналы».
В корпоративной базе реализован поиск по словарю, включая поиск по нескольким словам и работу с формулами химических соединений, а также поиск по ключевым словам с использованием логических и контекстных операторов.
Разработанная корпоративная база позволяет: объединить множество массивов баз данных с различными структурами от разных разработчиков в единое информационное пространство; осуществить тематический поиск по словарю и ключевым словам как по всему документу, так и по отдельным фрагментам, используя логические и контекстные операторы, что значительно экономит время и затраты пользователя на поиск нужной информации.
Представленная корпоративная база по разнообразию включенной информации, представляет несомненный интерес для специалистов в области химии и химической технологии, интересующихся постоянно обновляемой информацией в данной области знаний.
В современном мире стремительное увеличение информационных объемов, накопление данных и знаний во всех областях естественных наук, необходимость быстрой разработки новых решений на базе существующих знаний заставляют искать новые пути организации работы научного коллектива.
Например, наука о катализе представляет собой сложный сплав из самых различных дисциплин из области химии, физики, материаловедения, технологии и т.д., скорость накопления данных в которой достигает огромных масштабов. Она характеризуется использованием всех известных на сегодняшний день физических методов исследования материалов и химических процессов, участием специалистов самого различного профиля.
Очень остро стоят проблемы структурирования и систематизации, имеющихся у исследователя данных (литературных ссылок, заметок, экспериментальных таблиц) и поиска содержательной информации в накопленных архивах. Также очень остро стоит вопрос об использовании различных подходов к обработке, классификации и описанию данных. А отсутствие интеллектуальных технологий генерации и анализа знаний на основе накопленных данных, проведения их комплексного анализа, сильно затрудняет работу научных экспертов при принятии тех или иных решений в современных динамичных областях естественных наук (таких, например, как катализ и молекулярная биология).
Способы организации традиционных типов информации уже хорошо изучены и формализованы, однако из-за возрастающего объема данных становится всё более сложно организовывать эффективный поиск, систематизацию, обработку традиционных типов данных – книг, статей, журналов, дневников, рукописных материалов. В тоже время, за относительно небольшой срок существования информационно-коммуникационных технологий накоплен очень большой объем разнообразных данных, представленных исключительно в электронной форме.
Информационные системы (рис.5.), облегчающие профессиональную деятельность научного коллектива, начали создаваться еще в середине прошлого века, выполняя различные (актуальные для того времени) задачи.

Рис. 5. Информационные системы и БД для обеспечения профессиональной деятельности научного коллектива
Это и
1. Числовые (иногда их называют «фактографическими») базы данных (Numerical Databases) и 2. Базы данных по химическим структурам, – которые обычно носят информативный характер, содержат общие данные об объектах и их свойствах, выраженные в краткой («числовой» или «структурной») форме. Примеры таких систем: DETHERM, CHEMSAFE, REGISTRY;
3. Библиографические базы данных (Bibliographic Databases) - которые содержат весьма крупные объекты - обзоры, книги, публикации, относящиеся к какой-то одной области деятельности. Примеры таких систем: Medline, Chemical Abstracts, Science Citation Index, Current Contents, Реферативные журналы и базы ВИНИТИ, CEABA/VTB и др.;
4. Универсальные информационно-поисковые системы – позволяющие осуществлять поиск в различных базах данных;
5. Электронные библиотеки (Digital Library) – представляющие собой распределенные информационные системы, позволяющие надежно сохранять и эффективно использовать разнородные коллекции электронных документов через глобальные сети (Примеры таких систем: e-library);
6. Порталы доступа к полнотекстовым источникам – WEB-сайты, организованные как многоуровневое объединение различных ресурсов и сервисов, предоставляющие доступ к библиографическим базам данных и электронным библиотекам с помощью WEB-интерфейса. Примеры таких систем: CAS Online, ScienceDirect и др.;
7. Системы обработки и анализа данных (Data Preparation Software) – позволяющие определять набор хранимых объектов. В некоторых случаях для этого механизма достаточно вполне очевидного механического отбора данных, в других же необходимо применение Экспертных Систем;
8. LIMS – Laboratory Information Management System «Лабораторные информационно-управляющие системы» , которые чаще всего представляют собой агрегацию различных Информационных Систем с развитым механизмом обработки и анализа данных. Возможности LIMS определяются отраслью их применения – каждая конкретная LIMS предназначена для решения определенного узкого класса задач.
Существующие на сегодняшний день информационные системы, предназначенные для научных целей, используют, как правило, предопределённые типы хранимых данных и применяются для поддержки только строго определённых классов задач или видов научной деятельности. В результате такие системы не обладают достаточной для расширения гибкостью. Зачастую это приводит к невозможности работы системы с одновременным хранением экспертных знаний (оценок, заметок, ссылок и т.д.) относительно хранимых данных. Сегодня актуальность этих проблем в естественных науках (особенно в катализе) налицо, но даже при существующих мощных аппаратных и технологических средствах, она так и не была еще решена должным образом.
Можно утверждать, что в настоящее время всё большее значение приобретают информационно-поисковые системы, основанные на технологиях XML и ориентированные на подготовленных специалистов, обладающие возможностями сохранения, выбора и первоначального анализа накопленных экспериментальных и литературных данных.
И работа над таким проектом ведется сейчас в Информационном центре нашего института. Целью данного проекта являлось установление структуры научных данных и знаний, и разработка прототипа комплексной системы для хранения результатов научных исследований, состоящей из подсистем "Литературный обзор", "Лабораторный журнал" и единого пользовательского интерфейса для работы с ними. Обеспечивающей создание, поддержку и одновременную работу коллектива людей с общим хранилищем литературных, библиографических и экспериментальных данных. Это позволяет экспертам, возможно из разных лабораторий и организаций, формировать единый язык данной предметной области и формировать структуру данных практически произвольной сложности (рис. 6).

Рис. 6. Архитектура информационной системы.
Система представляет собой клиент - серверный программный комплекс, серверная часть которого реализована в СУБД Oracle Release 9.2. Приложение пользовательского интерфейса информационной системы построено на базе платформы Microsoft.NET.
Основными проблемами, с которыми пришлось столкнуться в ходе этой работы, являются постоянно меняющийся формат сохраняемых данных с необходимостью быстрого создания новых и модифицирования существующих описаний типов данных непосредственно конечным пользователем, необходимость организации связывания данных для их повторного использования, необходимость организации наследования формальных описаний данных.
Представленные далее особенности подхода позволили решить поставленные перед разработчиками задачи: Реализуемый подход обеспечивает не только эффективное структурирование и хранение разнородных данных с возможностью организации их последующей обработки, но и предоставляет возможность для сохранения экспертных оценок и формализации знаний в предметных областях.
Информационная система для обработки коллекций литературных данных научного коллектива позволяет создавать литературные обзоры, содержащие множественные цитаты и ссылки на документы, их части, на другие обзоры.
Неразрывно с процессом обработки литературных данных связан и процесс сохранения экспериментальных данных, по которым создаются отчеты и т.д. Данные могут быть описаны обычными таблицами (по одной XML схеме) или описываться специализированными XML схемами, с данными, получаемыми, например, с используемого прибора. Обработка таких данных, их оценка и структурирование схожи с процессом анализа литературных данных.
Система (рис. 7) является произвольно расширяемой и способна в будущем собирать информацию из самых разных источников, что чрезвычайно актуально для катализа (только методов физического исследования насчитываются десятки наименований).

Рис. 7. Иллюстрация взаимодействия системы с источниками данных.
В заключении можно отметить, что дальнейшая разработка и главное внедрение интеллектуальных информационных систем и технологий генерации и анализа знаний позволит решить многие проблемы в области информационного обеспечения фундаментальных и прикладных работ, а также сохранения научных знаний и результатов исследований, проводимых в научных организациях, в частности в Институте катализа СО РАН.

Автор выражает благодарность за предоставленную информацию: