Educational Technology & Society 10(1) 2007
ISSN 1436-4522
pp. 297-303

Опыт использования библиографических БД для наукометрических исследований российской химической науки

И.В. Зибарева,1 Н.В. Круковская2
1 Новосибирский центр STN International, Новосибирский институт органической химии СО РАН, 630090 Новосибирск, Россия
zib@nioch.nsc.ru
2 Московский центр STN International, Институт органической химии РАН, 119991 Москва
nvkrukov@ioc.ac.ru

АННОТАЦИЯ
Обобщен многолетний опыт использования библиографических баз данных (БД) Chemical Abstracts (CA) и Science Citation Index (SCI) в варианте, доступном через глобальную сеть научно-технической информации Scientific and Technical Network International, в наукометрических исследованиях российской химической науки. Рассмотрены реальные возможности и ограничения БД CA и SCI, которые необходимо учитывать как при выполнении наукометрических исследований, так и при создании новых библиографических БД. Выявлены и проанализированы типичные ошибки в БД и порождаемые ими проблемы, относящиеся к наукометрическим показателям российских ученых и / или организаций. Некоторые результаты и выводы работы полезны для университетских курсов химической информатики – обучения студентов приемам и методам поиска релевантной научно-технической информации в профессиональных БД.

A long-term experience of using the Chemical Abstracts (CA) and Science Citation Index (SCI) bibliographic databases, available via the Scientific and Technical Network International, in scientometric studies of chemical sciences in Russia is summarized. Both advantages and shortcomings of the CA and SCI databases are discussed in this context to be taken into account while using these databases in scientometric research, and / or while creating new bibliographic databases. Typical mistakes in the CA and SCI databases and related problems regarded to scientometric indicators of Russian scientists and / or organizations are identified and discussed. The findings and conclusions of this work are useful in teaching university students how to retrieve relevant scientific information in professional databases.

Ключевые слова
поиск информации, базы данных, наукометрия.

 

Введение

Scientific and Technical Network International (STN International) – глобальная сеть научно-технической информации, созданная Службой химических рефератов (CAS), США, и национальными информационными центрами Германии (FIZ-Karlsruhe) и Японии (JST) (http://www.stn-international.de). Сеть предоставляет коммерческий online-доступ к ~ 200 базам данных (БД) практически по всем отраслям науки и техники. В 1991-1992 гг. на основании соглашения между РАН и CAS / FIZ-Karlsruhe Центры STN International созданы в Москве (Институт органической химии РАН) и Новосибирске (Новосибирский институт органической химии СО РАН). В первую очередь эти Центры обеспечивают доступ российских ученых к мировым информационным ресурсам, аккумулированным в профессиональных индексированных БД. Кроме того, на их базе проводится учебный курс «Online-поиск химической информации» для студентов Высшего химического колледжа Российского химико-технологического университета (Москва) (Хуторецкий В.М., 2000) и Факультета естественных наук Новосибирского государственного университета (Новосибирск) (Зибарева И.В. и др., 2003). Наряду с этим в Центрах с использованием библиографических БД сети STN выполняются наукометрические исследования некоторых аспектов российской химической науки.
В последнее время библиографическая информация, содержащаяся в научно-технических БД, все чаще используется для объективной наукометрической характеристики состояния и тенденций развития как фундаментальных, так и прикладных исследований. Этому посвящено, в частности, большое количество публикаций в издаваемом с 1978 г. специализированном журнале Scientometrics (см., например, (Stefaniak B., 1987; Hood W.W. et al., 2003; Marx W. et al., 2001), относящиеся к теме данной статьи). Отмечено, что наряду с явными преимуществами использование научно-технических БД в наукометрических исследованиях имеет и существенные ограничения. Последние связаны в основном с тем, что большинство БД создавалось лишь для упорядоченного хранения и поиска научно-технической информации. Использование БД в наукометрических исследованиях их создателями, как правило, не предполагалось. Как результат, библиографические данные в БД не стандартизованы, что в ряде случаев осложняет их корректное использование в наукометрических исследованиях. Можно ожидать, что при реферировании в англоязычных БД неанглоязычной научной литературы эта проблема становится еще более сложной.
Действительно, одним из результатов проделанных в Новосибирском и Московском Центрах STN наукометрических исследований (Зибарева И.В. и др., 2004; Бузник В.М. и др., 2004; Зибарева И.В., 2005; Бузник В.М. и др., 2005; Бузник В.М. и др., 2006а; Бузник В.М. и др., 2006б; Бузник В.М. и др., 2006в; Бузник В.М. и др., 2006г) стало выявление многочисленных и разнообразных ошибок в научно-технических БД Chemical Abstracts (CA) и Science Citation Index (SCI), относящихся к российской химической науке. Идентифицированные ошибки и порождаемые ими проблемы следует учитывать в дальнейшем – особенно при создании новых библиографических БД, и, естественно акцентировать на них внимание при обучении университетских студентов работе с БД.
Прежде всего следует отметить, что некоторые библиографические ошибки в БД – результат ошибок в первичной литературе, внесенных авторами публикаций, например, в виде некорректных ссылок и пр. Затем следуют технические ошибки, сделанные либо издателями журналов, либо производителями БД, например, в виде типографских опечаток и пр. Эти ошибки сказываются уже на первом этапе наукометрического исследования, негативно влияя на полноту отбора релевантных данных для того или иного последующего анализа.
Существенные ошибки, влияющие на корректность окончательных выводов, могут также быть сделаны на следующем этапе – при интерпретации полученных данных, особенно если отсутствует необходимый опыт, а также возможность независимой проверки вызывающей сомнение исходной информации.
Ниже типичные проблемы использования библиографических БД SCI и CA в наукометрическом изучении различных аспектов отечественной химии разобраны детально и иллюстрированы конкретными примерами, относящимися к отдельным ученым, исследовательским институтам, научным журналами, т.д., как правило, связанным в той или иной степени с Новосибирским научным центром Сибирского отделения РАН. Последнее обстоятельство обеспечивало возможность упомянутой выше независимой проверки библиографической информации.
Следует подчеркнуть, что БД SCI и БД CA относятся к числу наиболее авторитетных источников библиографической информации. БД SCI учитывает публикации и цитирование из примерно 5900 ведущих журналов (core journals) по естественным наукам, технике и медицине с ретроспективой до 1974 г. (http://info.cas.org/ONLINE/DBSS/scisearchss.html). БД СА реферирует около 9500 научных журналов по химии и смежным дисциплинам, а также патенты более 50 патентных ведомств, с ретроспективой до 1907 г. С 1996 г. учитываются цитируемые ссылки из ряда журналов, трудов конференций и патентов крупнейших патентных ведомств (http://info.cas.org/ONLINE/DBSS/cass.html).

Результаты и их обсуждение

Авторы
Особенно много проблем имеется с представлением в библиографических БД имен авторов. В БД CA имена авторов указываются так, как они приведены в первоисточнике – без какой-либо стандартизации. В БД SCI имена сокращаются до инициалов. Разные журналы имеют разные правила, предлагая, например, указывать первое имя полностью или лишь в виде инициала. При этом сокращенная форма «Фамилия, инициалы» может быть идентичной для нескольких разных авторов.
Кроме того, авторы могут использовать разные формы написания собственного имени в разных публикациях. В целом невозможно предугадать, как будет представлено российским автором собственное имя в англоязычной литературе. Так, один и тот же автор в публикации на русском языке представлен как Vlasov VV (нормативная транслитерация производителя БД), а в качестве автора публикаций в зарубежных журналах как Vlassov VV (авторская версия). Аналогичная ситуация: Buznik VM и Bouznik VM. Для российских авторов написание имени зависит и от языка зарубежной публикации, например, Ovcharenko V.I. в англоязычных изданиях и Owtscharenko W.I. – в германоязычных.
В целом возможны (и действительно широко встречаются) ошибки как в инициалах (Lyakhov K.Z. вместо Lyakhov N.Z.), так и в фамилиях (Bagryanskaya I.Y. и Bagrianskaya I.Yu. вместо Bagryanskaya I.Yu.). При индексации фамилия и имя часто перепутаны (Igor, Strokov) и, дополнительно, в случае публикации иностранных ученых в русскоязычных журналах, буквально транслитерированы (Gans-Diter, Fogt; Khelmut, Vendler). Отдельная проблема – транслитерация немецких фамилий с умляутами, и т.д.
Как отмечено в работе (Stefaniak B., 1987), в целом можно выделить 10 видов типичных ошибок, связанных с транслитерацией, добавлением лишних знаков, пропусками, перестановками, опечатками, пробелами, знаками препинания, капитализацией букв, различными вариантами сложных имен, а также комбинациями всего вышеперечисленного.
Общим показательным примером может служить авторская аудитория научного журнала. Так, при анализе публикаций Журнала структурной химии (ЖСХ) 1960-2002 гг. в БД CA идентифицированы 7578 авторов, встречающиеся в 8088 документах 24857 раз. Разрешение возникающих сомнений наиболее адекватным способом – сравнением с официальными списками трудов этих ученых – по понятным причинам невозможно. Ручное редактирование, учитывающее различное написание имен авторов в оригинальных публикациях и очевидные технические ошибки, снизило их число до 7261. В БД SCI для ЖСХ периода 1974-2002 гг. идентифицированы 5737 авторов, число которых после редактирования понизилось до 5512 (в 5536 документах они встречаются 18414 раз). Таким образом, в случае обеих БД проведенное уточнение уменьшило число уникальных авторов примерно на 4 %.
Таким образом, для корректного отбора публикаций российских авторов требуется тщательная предварительная подготовка поисковой стратегии. Как правило, необходимы дополнительные, помимо использованных БД, источники информации. В нашем случае при анализе научной продуктивности отдельных ученых – создателей признанных научных школ (Бузник В.М. и др., 2006в; Бузник В.М. и др., 2006г) такая подготовка позволила провести практически полный отбор их публикаций. Полнота отбора в каждом случае проверялась сравнением поисковых результатов с официальными библиографическими указателями трудов изучавшихся ученых.

Журналы
Названия журналов – также большой источник библиографических трудностей, в частности, в связи с отсутствием стандартизации их названий в рамках одной и тем более разных БД. Кроме того, со временем журналы могут изменять названия.
Ниже приведены лишь отдельные примеры, полученные при поиске публикаций по вольтамперометрии – одному из широко востребованных методов электрохимического анализа, в котором российские ученые занимают лидирующие позиции. Журнал Dalton встречается в поисковых результатах как 1) Journal of the Chemical Society, Dalton Transactions: Inorganic Chemistry, 2) Journal of the Chemical Society, Dalton Transactions: Inorganic Chemistry (1972-1999), 3) Journal of the Chemical Society, Dalton Transactions, 4) Dalton Transactions и 5) собственно Dalton (в наст. время). Аналогично, журнал Chemical Communications встречается как 1) Journal of the Chemical Society, Chemical Communications, 2) Chemical Communications (London), 3) Chemical Communications (Cambridge, United Kingdom), 4) Chemical Communications (Cambridge).
Кроме того, в БД могут быть представлены как полные, так и сокращенные названия журналов. При изучении найденных в БД более 30 тыс. документов, относящихся к вольтамперометрии, выявлено, что сокращенные названия присутствуют в ~ 31400 документах, тогда как полные названия журналов приводятся в ~ 23500 документах.
Одно издание может разделиться на два и более, и это также необходимо учитывать в наукометрических исследованиях. Происходит и обратный процесс – слияние нескольких журналов в один. Наряду с этим, у журнала может измениться издатель или страна издания. Два журнала могут иметь одинаковое или очень близкое название. Например, при исследовании журнала Химическая технология (ХТ) в БД CA выявлены имеющие аналогичные названия “Khimicheskaya Tekhnologiya Kharkov”, “Khimicheskaya Tekhnologiya Kiev” и “Khimicheskaya Tekhnologiya Moscow Russian Federation”.
Использование международных систем ISSN или CODEN позволяет, в принципе, однозначно идентифицировать журналы, но из нашего опыта следует, что это не всегда так в случае российских изданий. Например, для ХТ CODEN присутствует во всех найденных в БД CA на момент проведения поиска 567 записях, а ISSN – только в 137. Для ЖСХ, который реферируется и БД CA, и БД SCI, поиск по ISSN дает меньше публикаций, чем по названию журнала и в той, и в другой БД.

Организации
Серьезные библиографические трудности порождают и названия учреждений, в частности, в связи с их переводом на другой язык, а также из-за неоднозначности, возникающей при использовании сокращенных названий (аббревиатур). Об унификации названий учреждений в БД, естественно, нет и речи. Полезными идентификаторами могут быть географическое положение (адрес) и / или ведомственная принадлежность.
Как и журналы, институты могут изменять свое название, объединяться или разделяться, затрудняя однозначную идентификацию. Кроме того, сравнительно часто названия организаций, в которых выполнена работа, в БД просто отсутствуют. Это особенно типично для публикаций 1980-х и начала 1990-х гг. из России и бывшего СССР, а также некоторых развивающихся стран, таких как, например, Иран. Встречается также ошибочная атрибуция производителем БД публикаций организациям.
Таким образом, при поиске публикаций исследовательской организации следует рассмотреть все мыслимые вариации ее названия и адреса (последние также могут меняться со временем), включая лингвистические вариации, так же как в случае отдельных авторов. Непредвиденные способы написания и неполные, а также отсутствующие адреса могут, конечно, повлиять на полноту установленного списка публикаций.
В некоторых БД (например, CA) для журнальных публикаций указывается адрес только первого автора. В нашем исследовании химических институтов Новосибирского научного центра (ХИ ННЦ) СО РАН число найденных в БД СА публикаций институтов составило лишь 50-65 % работ, регистрируемых самими институтами. В БД SCI для статей приводятся все указанные в первоисточнике адреса авторов, поэтому процент найденных в ней публикаций выше – 65-80 %. Однако лишь совместное применение двух БД позволило в случае ХИ ННЦ СО РАН довести долю найденных публикаций до приемлемого уровня в 80-92 % (Бузник В.М. и др., 2005).

Цитирование
Возможно, наибольшие проблемы в наукометрических исследованиях российской химической науки представляет корректный поиск цитирования.
В БД цитируемые ссылки представлены в поле RE в специальном формате: первый автор публикации, год публикации, номер тома (если имеется), номер начальной страницы публикации, и ее источник, т.е. название журнала или номер патента. Кроме того, каждая часть ссылки помещается в дополнительные поля: поле первого цитируемого автора (RAU), цитируемого журнала (RWK), цитируемого года публикации (RPY), и ряд других, полезных для максимально полного отбора цитирующих публикаций и их последующего анализа. При поиске публикаций поисковые термины сопоставляются со ссылками, хранящимися в БД (процедура Citation Matching). В наших исследованиях все публикации, отобранные по тому или иному признаку (авторы, институты, журналы, дисциплины), автоматически переводились в такой формат с помощью командного языка STN Messenger.
Все перечисленные выше ошибки, связанные с именами авторов и названиями журналов, относятся и к цитируемым авторам и источникам. При этом следует иметь в виду, что к возможным ошибкам, внесенным на стадии ввода ссылки в БД, добавляются ошибки, внесенные авторами при цитировании публикаций. Осложняющим обстоятельством являются различные для разных журналов правила оформления ссылок в публикациях. Цитирующие авторы могут указывать полные имена или использовать различные комбинации инициалов. Если написание имени в данной библиографической БД и в поле RE БД не совпадают, такая ссылка не будет найдена.
При поиске цитирования конкретных авторов с использованием процедуры Citation Matching отбираются т. н. корректные ссылки (настолько, насколько они правильно введены в БД). Кроме них посредством поиска по цитируемому первому автору ссылки можно также отобрать т. н. некорректные ссылки, содержащие ошибки в цифровой части – неправильно указаны или отсутствуют номер тома или страницы – или в названии источника. При этом учет некорректных ссылок может увеличить цитирование почти на 5 %. Этот прием, однако, следует использовать с осторожностью и не всегда, так как, например, в БД CA поле цитируемого автора содержит только фамилию и первый инициал (в БД SCI – оба инициала, если они присутствуют в исходной ссылке). Таким образом, для авторов с распространенными фамилиями и первыми именами (инициалами) велика вероятность ошибок.
Следует иметь в виду, что не только имя автора, но и один и тот же номер тома может быть представлен в БД в нескольких вариантах, например, Ovcharenko V I, 1986, V41, P1587, Z. Naturforsch. и Owtscharenko, 1986, V41B, P1587, Z. Naturforsch. Дата, указанная на обложке, может быть отлична от действительной даты издания, что характерно для переводных журналов. Например, одна и та же статья может быть представлена в БД в виде двух разных ссылок: Ovcharenko V I, 1999, V39, P734 и Ovcharenko V I, 1999, V39, P734, так как Journal of Structural Chemistry (переводное издание Журнала структурной химии ) имеет запись в БД CA как Journal of Structural Chemistry (Translation of Zhurnal Strukturnoi Khimii) (1999 ), Volume Date1998 , 39(5), 734-746, а в БД SCI как Journal of Structural Chemistry 39 (5): 734-746,1998 . Другой пример: Borovik V P, 1997 , P1011, Khimiya Geterotsiklicheskikh Soedinenii – Borovik V P, 1998 , V33, P883, Chemistry of Heterocyclic Compounds.
При изучении цитирования российского журнала надо рассмотреть все варианты его названия, как русскоязычных версий, так и переводных, как полных, так и всевозможных сокращений. В этом случае находятся ссылки на публикации в исследуемых журналах, содержащие ошибки в авторской и цифровой частях – годе, томе, номере первой страницы. Можно отметить, что при использовании такой методологии для всех изученных нами отечественных журналов результаты по цитированию их публикаций последних лет для БД CA и БД SCI практически совпадают (Зибарева И.В. и др., 2004; Бузник В.М. и др., 2004; Бузник В.М. и др., 2006б).
В целом, для журнальных публикаций конверсия данных об источнике в формат ссылки происходит без каких-либо трудностей. Однако это не всегда так для книг, диссертаций, трудов конференций и отчетов. Например, монография Л.Б. Володарского и соавторов (Volodarsky, Leonid B.; Reznikov, Vladimir A.; Ovcharenko, Victor I. Synthetic Chemistry of Stable Nitroxides (1994) Publisher: (CRC, Boca Raton, FLa.), 240 pp.) в формат ссылки конвертируется как Volodarsky L B, 1994, P240,?/RE. При поиске по этой ссылке цитирующие книгу публикации не найдены, хотя только по данным SCI (платформа Web of Science) с 1991 г.она цитируется 130 раз.
В ряде случаев, надежность полученных результатов может быть проверена сравнением. Так, как и для изученных журналов, для ХИ ННЦ СО РАН, сравнение, там, где было возможно, показало, что количественные результаты поиска по цитированию публикаций институтов за 1995-2004 гг. в БД CA (23807 цитирований) и БД SCI (23835) совпадают, взаимно подтверждая достоверность полученных величин. Поскольку номенклатура цитирующих источников в этих БД различна, в общем случае целесообразно проводить поиск цитирования российских одновременно в обеих БД.

Заключение

Рассмотренные библиографические проблемы касаются как производителей, так и пользователей БД. В случае пользователей характер и сложность проблем зависят от целей проводимого исследования. В некоторых случаях, в частности, при анализе наукометрических данных на макро уровне (например, в общенациональном масштабе), многие из вышеперечисленных ошибок и ограничений не будут существенными. Но на других уровнях, например, отдельного ученого или отдельного исследовательского института, они могут приобрести решающее значение.
Эти проблемы требуют, прежде всего, максимальной и, желательно, единой стандартизации БД. Для улучшения ситуации необходим постоянный диалог пользователей и производителей БД, направленный на создание более «чистых» (более точных) баз данных.
Работа выполнена при финансовой поддержке РГНФ в рамках научно-исследовательского проекта № 04-03-00547a «Наукометрический анализ химических исследований с использованием баз данных международной научно-технической сети STN International (на примере институтов Новосибирского научного центра Сибирского отделения РАН)».

Литература

[http://www.stn-international.de] Databases in science and technology – STN International. URL: http://www.stn-international.de.
[Хуторецкий В.М., 2000] Общие представления о поиске научно-технической информации в режиме онлайн. Базы данных STN International в теледоступе. Издание. 2-е. Учебное пособие. М., 2000. 42 с.
[Зибарева И.В. и др., 2003] Зибарева И.В., Осташевская Л.А. Курс "online-поиска" химической информации для студентов ФЕН НГУ // Вестник НГУ: Сер. Информационные технологии в образовании. – 2003. – Т. 1. – вып. 1.– с. 53-55.
[Stefaniak B., 1987] Stefaniak B. Use of bibliometric data bases for scientometric studies // Scientometrics. – 1987. – V. 12. – N 1-3. – p. 149-161.
[ Hood W.W. et al., 2003] Hood W.W., Wilson C.S. Informetric studies using databases: opportunities and challenges // Scientometrics. – 2003. – V. 58. – N 3. – p. 587-608.
[Marx W. et al., 2001] Marx W., Schier H., Wanitschek M. Citation analysis using online databases: feasibilities and shortcomings // Scientometrics. – 2001. – V. 52. – N 1. – p. 59-82.
[Зибарева И.В. и др., 2004] Зибарева И.В., Дерендяев Б.Г. «Химия в интересах устойчивого развития»: библиометрический портрет» // Химия в интересах устойчивого развития. – 2004. – Т. 12. – №1. – с. 121-128.
[Бузник В.М. и др., 2004] Бузник В.М., Зибарева И.В., Пиоттух-Пелецкий В.Н., Сорокин Н.И. «Библиометрический анализ Журнала Структурной Химии» // Журнал Структурной Химии. – 2004. – Т. 45. – № 6. – с. 1142-1153.
[Зибарева И.В., 2005] Зибарева И.В. «Томская электрохимическая школа А.Г. Стромберга: наукометрический взгляд», с. 12-19, в: Стромберг А.Г. (1910-2004): библиографический указатель трудов / Сост. Н.И. Кубракова, О.М. Васильева; вступ. ст. А.В. Гагарина, И.В. Зибаревой; отв. ред. А.А. Бакибаев.- 2-е изд., доп.- Томск: Изд-во Томск. политехн. ун-та, 2005.- 68 с.
[Бузник В.М. и др., 2005] Бузник В.М., Зибарева И.В., Сорокин Н.И., Филатова Л.С. «Наукометрические показатели химических институтов Новосибирского научного центра СО РАН в 1995-2003 гг. по данным Science Citation Index и Chemical Abstracts» // Химия в интересах устойчивого развития.– 2005.– Т. 13.– №5.– с. 677-692.
[Бузник В.М. и др., 2006, а] Бузник В.М., Зибарева И.В., Сорокин Н.И, Филатова Л.С. «Совместное использование баз данных Chemical Abstracts и Science Citation Index в наукометрическом анализе химических институтов Новосибирского научного центра СО РАН» // Научно-техническая информация, Серия 1. Организация и методика информационной работы. – 2006. – № 4. – С. 28-37.
[Бузник В.М. и др., 2006, б] Бузник В.М., Зибарева И.В. Библиометрический анализ журнала «Химическая технология» // Химическая технология.– 2006.– № 4.– c. 40-45.
[Бузник В.М. и др., 2006, в] Бузник В.М., Зибарева И.В., Филатова Л.С. Научная деятельность академика Ю.А. Золотова – библиометрический очерк // Химия в России.– 2006.– № 2.– с. 15-18.
[Бузник В.М. и др., 2006, г] Бузник В.М., Зибарева И.В. Научные публикации академика В.А. Коптюга – библиометрический анализ // Химия в интересах устойчивого развития.– 2006.– № 5.– с. 535-542.
[http://info.cas.org/ONLINE/DBSS/scisearchss.html] STN Database Summary Sheet: SCISearch, URL: http://info.cas.org/ONLINE/DBSS/scisearchss.html.
[http://info.cas.org/ONLINE/DBSS/cass.html] STN Database Summary Sheet: CA, URL: http://info.cas.org/ONLINE/DBSS/cass.html.