Educational Technology & Society 9(3) 2006
ISSN 1436-4522
pp. 283-286

Архивирование постоянно обновляющихся образовательных онлайн ресурсов для библиотек ВУЗа

М.Е. Шварцман
отдел исследований компьютерных систем
ФГУ Российская государственная библиотека Москва, Россия
shvar@rsl.ru

АННОТАЦИЯ
В статье описано бесплатное распространяемое программное обеспечение для каталогизации ресурсов Интернет и автоматического скачивания описанных ресурсов.
In this article we describe software we are developing for catalog and harvesting online journals.

Ключевые слова
Интернет харвестинг скачивание онлайновые ресурсы.

 

Введение

В настоящее время не нужно никого убеждать в том, что онлайновые ресурсы часто содержат весьма ценную информацию, которую с успехом можно применить в образовательном процессе.
Это могут быть сайты, созданные группой учёных единомышленников, преподавателями университетов, размещающими материалы для студентов в Интернет, онлайновые версии журналов и многое другое. У всех этих материалов есть один большой недостаток - отсутствуют гарантии их постоянного размещения в Интернет. Может распасться научный коллектив, сменить работу преподаватель, разориться журнал,- в результате ценный ресурс исчезнет.

Методология и/или теоретическая часть

В Российской государственной библиотеке при поддержке РФФИ грант 04-07-90056-в с 2004 года идет работа по созданию инструмента способного сохранить необходимый библиотеке ресурс, путем его автоматического скачивания и предоставить возможность поиска по скачанным ресурсам.
В настоящее время работа близится к завершению, и нам удалось создать работоспособное и, что немаловажно, переносимое решение, которое, как нам кажется, может быть использовано в любой заинтересованной организации или любым исследователем для формирования своей собственной электронной библиотеки путем скачивания из Интернета необходимых ресурсов.
Мы поставили перед собой задачу сделать программное обеспечение достаточно универсальное, настраиваемое, несложное в установке, распространяемое бесплатно, с исходными кодами, с помощью которого можно создать архив ресурсов Интернет
Что же в итоге у нас получилось.
Наша система состоит их трех модулей: каталог ресурсов, архив ресурсов, полнотекстовый поиск в архиве.
Все модули могут функционировать самостоятельно, могут быть установлены на отдельные компьютеры и взаимодействовать между собой по сети.
Каталог ресурсов – это база данных, реализованная на PostgreSQL (выбор СУБД во многом определялся требованием свободного распространения). Обращение к БД производится двумя путями. Для ввода библиографического описания (БО) и редактирования его, а также для поиска по элементам БО разработан WEB интерфейс, позволяющий вести работу с любого компьютера в Интернет.
WEB интерфейс может быть использован для работы студентов, собирающих в Интерне материал по заданной преподавателем темы.
В соответствии с определенной администратором роли, вводящий может только вводить или и редактировать чужие записи. Такая роль может быть отведена, например, руководителю студенческого коллектива. В систему встроена проверка на дублирование, поэтому один и тот же ресурс не будет описан дважды. Форматом описания ресурсов выбран Dublin Core Metadata Element Set (DC MES). Это формат уже стал стандартом de facto в практике описания ресурсов Интернет. Использование этого формата поможет в случае обмена между архивами различных университетов. Стандарт с одной стороны достаточно подробен для описания ресурса, а с другой стороны достаточно прост для освоения не только опытными библиографами, но и обычными студентами.
Для проведения административных операций типа переиндексирования базы, ввода новых пользователей и экспорта-импорта записей была разработана специальная клиентская программа, работающая под Windows и выполняющая все эти функции. Кроме БО в базе данных содержится информация о параметрах для скачивания полных текстов статей в нашем случае или просто отдельных страниц сайтов в общем случае. Администратор задает время, через которое нужно проверить сайт на обновление и количество копий, которые нужно хранить. Модуль скачивания основан на свободно распространяемой программе WGET, работающей под всеми версиями UNIX или под Windows. Эта программа была доработана, и к ней был дописан отдельный модуль на PHP.


Рис 1. Как выглядит архитектура хранилища.

В настоящий момент в файловой системе одновременно хранится три копии сайтов. В начальный момент работы программа скачивает полную версию сайта в соответствии с заданным URL (если журнал распределен по двум или более серверам, то указываются несколько URL). Эта копия будет храниться в файловой системе для сравнения при последующем скачивании. Для полнотекстового поиска эта копия проходит обработку для удаления рекламных блоков и прочей непрофильной информации. Администратор задает список регулярных выражений, в соответствии с которыми удаляется ненужная информация. Через заданный для этого сайта интервал времени происходит повторное скачивание. При этом происходит сравнение скачиваемых страниц с копией, оставленной для сравнения. Если различия (в байтах) больше 0, но меньше 20%, от скачиваемого объема, то происходит обычная операция замены старой копии новой, результат прошлого скачивания становится второй копией. Если отличия больше чем 20%, то информация об этом доставляется администратору для принятия решения о допустимости замены копии. Возможны случаи, изменения содержимого сайта без изменения URL малоценной информацией, и при этом необходимо избежать затирания содержимого сохраненного сайта.
На приведенном рисунке (рис. 2) показано как выглядит для пользователя наш архив. Кроме списка журналов приводятся даты закачки и объем скачанной информации.

Рис 2. Как выглядит для пользователя архив.

Предлагаемое программное обеспечение было испытано в РГБ для создания архива онлайновых научных журналов.

Рис 3. Журналы шаблоны управление.

Опыт показал, что скачивание происходит корректно, многие ошибки в HTML разметке скачиваемых страниц отображаются правильно. Наличие шаблонов, несмотря на некоторые дополнительные трудозатраты по их созданию, уменьшает необходимое дисковое пространство и количество информационного шума при поиске Для контроля скачивания был разработан WEB интерфейс, позволяющий задавать параметры скачивания и проводить мониторинг процесса
Сейчас в нашем архиве около 800 журналов, общий объем архива составляет 300 гб
При архивировании онлайновых ресурсов необходимо учитывать некоторые юридические аспекты. Во первых нужно помнить, что в Интернете у всего есть хозяин. На скачиваемые материалы, как правило, у кого то есть имущественные права. Если с неимущественными правами проще, главное не забывать указывать автора используемого материала, то с имущественными - сложнее. Если Вы хотите опубликовать скачанный материал в Интернет, то есть открыть к нему доступ всем желающим, то Вы должны заключить договор с правообладателем на использование его материала или с РОМС, который сам будет разбираться с автором и перечислять ему деньги за каждое скачивание. В РГБ разработаны типовые договора для организаций создающих ресурсы и для отдельных авторов.
Для полнотекстового поиска в скачанных массивах мы используем бесплатное программное обеспечение mnogosearch ( http://www.mnogosearch.org/), увязанное в общий пользовательский web интерфейс.

Заключение

Описанное программное обеспечение по плану работ по гранту РФФИ 04-07-90056-в будет готово для распространения в конце 2006 года. Первый модуль - каталог уже готов и может быть выслан всем желающим, обратившимся к автору статьи.

Литература

[Шварцман М.Е 2005] Шварцман М.Е. Архив российских научных онлайновых журналов.//Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды Седьмой Всероссийской научной конференции (RCDL'2005). Ярославль, 4-6 октября 2005 г.
[Шварцман М.Е 2005] Шварцман М.Е. Как скачать и сохранить онлайновый журнал//Информационное обеспечение науки: новые технологии. Сборник научных трудов. Материалы 11-го семинара "Информационное обеспечение науки: новые технологии" (г. Таруса 22-27 августа 2005 года).
[Нудель С.А. 2004] Нудель С. А. К вопросу об архивировании электронных ресурсов [электронный документ] //EVA 2004 Москва