БИ ОСНОВЫ ИНФОРМАТИКИ. БИ_курс лекций. Р. С. Гиляревский основы информатики курс лекций
Скачать 1.65 Mb.
|
Цитирование, библиографическое сочетание, социтирование Принцип цитирования 1 Указатели цитированной литературы позволяют искать инфор- мацию по совершенно новым межотраслевым или комплексным про- блемам под фамилиями пионеров и наиболее известных специалистов каждой из таких проблем. Например, для поиска литературы по цити- рованию достаточно знать фамилию Ю. Гарфилда, так как почти в ка- ждой работе по этой проблеме есть упоминание о нем и его статьях. Фамилии авторов найденных работ могут в свою очередь служить входами в указатель, и за 1–5 таких итераций (последовательных по- исков) все сведения об отраженной в указателе литературе по пробле- ме оказываются найденными. был использован Институтом научной информации США, основанным в 1958 г. Ю. Гарфилдом, для создания принципиально нового вида информационного обслуживания. При поиске информации он взял в качестве индексов библиографические ссылки в документах. В выпускаемых им указателях цитированной литературы, называемых также "индексами цитирования", эти ссылки располагаются по алфавиту фамилий авторов цитированных работ с указанием сведений о документах, в которых они упоминаются. Про- изведения, использованные при написании статьи, составляют как бы координатную сетку для ее поиска. Если статья написана по совсем новой проблеме, не нашедшей рубрики в классификации наук, с еще не устоявшейся и малоизвестной терминологией, найти ее в потоке мировой литературы другими методами очень трудно. Указатель ци- тированной литературы можно представить себе как многоуровневую систему библиографических описаний документов, находящихся в об- ратной связи друг с другом. Индексы цитирования предоставляют уникальную возможность проследить за всеми случаями применения какой-либо идеи или мето- да, за их критикой и обсуждением, оценить информационный вклад того или иного ученого или научной школы, степень и динамику по- пулярности их работ. Известны случаи, когда по этим указателям 1 Английское слово citation означает упоминание, ссылку и не соответствует русскому слову цитирование, означающему дословное повторение «чужого» текста. Однако в данном случае в качестве термина привилась прямая калька с английского языка, поскольку речь идет о библиографических ссылках. Для цитирования в русском значении употребляется английское слово quotation/ 137 предсказывали нобелевских лауреатов. Институт научной информа- ции США выпускает указатели цитированной литературы по точным, естественным и прикладным наукам (с 1964 г.), по общественным наукам (с 1969 г.), по искусству и гуманитарным наукам (с 1976 г.), для чего просматривается около 6 тыс. научных журналов и ежегодно до 1,5 тыс. названий книг. Большинство указателей распространяется не только в обычном (бумажном), но и в машиночитаемом виде (на магнитной ленте, дискетах, оптических дисках). Нужно ли говорить о том, что осуществление принципа, положенного в основу этих из- даний, стало возможным лишь благодаря компьютерам. Ведь речь идет о ежегодном библиографировании почти 10 млн ссылок. В двух статьях E и F, например, (см. рис. 10) имеются библио- графические ссылки, которые устанавливают прямую библиографиче- скую связь между ними (цитирующими документами) и статьями A, B, C и D, которые в них упоминаются (цитируемыми документами). В указателе цитированной литературы эти ссылки, по алфавиту которых упорядочивается его массив ("цитации" по терминологии Г. Я. Узи- левского, которому принадлежит данный пример), обозначают цити- руемые документы, а под ними располагаются "библиограммы", т. е. описания цитирующих документов. A C E E B F E D F F 138 Библиографическое сочетание Рис. 10. Схема цитирования, социтирования и библиографического сочетания документов E F A B C D Ц и т и р у ю щ и е д о к у м е н т ы Ц и т и р у е м ы е д о к у м е н т ы Цитирование Социтирование 139 Понимание потенциальных возможностей комплексирования документов по признаку общих ссылок и стремление максимально ис- пользовать накопленный массив в машиночитаемой форме повели к поискам новых путей применения метода цитирования. Еще в 1963 г. М. Кесслер в Массачусетском технологическом институте предложил считать связанными по смыслу документы, авторы которых ссылаются на одни и те же работы, а числом совпадающих ссылок измерять сте- пень такой связанности. Этот метод, который он назвал библиогра- фическим сочетанием документов, долгое время не имел широкого практического применения, но в 1968 г. Ю. Гарфилд использовал его для создания ретроспективной поисковой системы на компакт-дисках. По-другому подошли к этой проблеме сотрудник Института на- учной информации США Г. Смолл и тогдашняя аспирантка ВИНИТИ И. В. Маршакова. Они одновременно и независимо друг от друга в 1972 г. предложили считать связанными по смыслу и тематике работы, на которые совместно ссылаются авторы нескольких документов. Этот метод, чаще всего называемый социтированием, имеет другую комму- никационную основу. В каждой исследовательской области имеется некоторый набор важных работ, отражающих познавательную основу этой области. Данные работы цитируются многими исследователями и поэтому принадлежат к числу высоко цитируемых. Больше того, они часто цитируются вместе, образуя таким образом социтирование. Дру- гими словами, социтированием принято называть одновременное упо- минание любых двух или большего числа публикаций в какой-либо последующей. Для лучшего представления разницы в этих методах выше при- ведена схема, на которой E и F являются цитирующими документами текущего года, а A, B, C и D – цитируемыми документами более ран- них годов. Сплошными стрелками показаны связи по цитированию, т. е. E цитирует A, B и C, а F цитирует B, C и D . Тогда между цити- рующими работами E и F образуется библиографическое сочетание, а между цитируемыми работами B и C – социтирование (обозначено пунктиром). Для простоты и наглядности степень связанности на схе- ме минимальная, хотя на практике она значительно больше (т. е. для признания библиографического сочетания между двумя работами или кластера социтирования в каждом отдельном случае устанавливается определенный минимальный порог, который тем выше, чем интенсив- нее цитирование). 140 Между характером этих методов установления связи и областью их применения имеется существенная разница. Библиографическое сочетание – это однократно произошедший факт, поскольку E и F бы- ли однажды опубликованы со своими ссылками, и с ними в дальней- шем ничего уже произойти не может. Именно поэтому данный метод применяется для ретроспективного поиска документов, связанных ме- жду собой единством тематики, исследовавшейся их авторами. Совсем по-другому обстоит дело с социтированием, так как связь между цитируемыми B и C может сохраняться (увеличиваться или уменьшаться) в последующие годы в зависимости от того, на- сколько часто они будут попарно цитироваться в новых работах. Час- тое социтирование указывает на их концептуальную близость, по- скольку они используются как единый комплекс. Между этими рабо- тами как бы возникают невидимые связи, которые после наглядного их выражения образуют смысловые сгустки (кластеры). Совокупность таких кластеров ключевых работ, отражающих исследовательские об- ласти, представляют собой как бы карту определенной научной облас- ти, а совокупность карт – атлас науки на данный момент. При регулярном выпуске подобных атласов (выходили атласы по биологии, биохимии, геологии, математике, вычислительной техни- ке) появляется возможность регулярно следить за динамикой развития научных дисциплин, школ, направлений, коллективов, а, следо- вательно, и целенаправленно воздействовать на это развитие, т. е. управлять им. Методы библиографического сочетания и кластеризации социтирования моделируют содержательные отношения между до- кументами, используя практику цитирования, сложившуюся при пуб- ликации научных работ. Но это не единственный возможный подход к установлению таких связей между документами, заложенных в их би- блиографических элементах и фрагментах текстов. В следующей лек- ции об информационных системах вы познакомитесь с методом логи- ко-смыслового моделирования, а теперь мы перейдем к более тради- ционным видам информационно-поисковых языков. Иерархические и фасетные классификации Было бы неверно думать, что будущее только за цитированием, за информационно-поисковыми языками координатного индексирова- ния, которые вытеснят традиционные языки. В этом случае, как и во всей системе коммуникации, действует закон развития, по которому новые средства не заменяют полностью прежних, а лишь перераспре- 141 деляют функции между ними. Это в полной мере относится и к такому древнему средству информационной технологии, как иерархические классификации, наиболее распространенной представительницей кото- рых выступает Универсальная десятичная классификация (УДК). Соз- дание УДК явилось переломным моментом в развитии ИПЯ: она за- вершила тысячелетнюю историю линейных классификаций перечисли- тельного типа и открыла пути к построению фасетных классификаций. Библиотечные классификации – самый ранний из известных нам типов ИПЯ. Если проследить за их развитием от классификации ва- вилонских библиотек вплоть до библиотечных классификаций второй половины XIX в., становится ясно, что принципы их построения почти не изменялись. Следуя за наиболее известными системами клас- сификации наук, библиотечные классификации строились на основе иерархического "древа знаний" с выделением специальных разделов и подразделов для систематизации особых видов книг. До нас дошло очень немного сведений о классификациях, применявшихся в древних библиотеках. Вероятно, в античные времена такие классификации бы- ли разработаны достаточно детально. Об этом можно судить по об- ширности библиотек, высокому уровню классификации наук того вре- мени, а также по некоторым косвенным свидетельствам, содержащим- ся в литературных памятниках. На классификации средневековья известное влияние оказала распространенная в то время система "семи свободных искусств". Она состояла из двух комплексов наук, изучавшихся в тогдашней школе: "тривиума" (грамматики, диалектики и риторики) и "квадривиума" (арифметики, геометрии, музыки и астрономии). К концу XV в. в уни- верситетских библиотеках начали применять группировку книг по со- держанию в соответствии с существовавшими в большинстве универ- ситетов четырьмя факультетами: философским, медицинским, юриди- ческим и богословским. Это послужило толчком к возникновению так называемых факультетских систем классификации, пользовавшихся популярностью на протяжении столетий вплоть до XIX в. Они оказали влияние на выдающиеся для своего времени классификации швей- царского ученого и библиографа К. Геснера (1548) и немецкого фило- софа Г. Лейбница (1700). Дальнейшее развитие библиотечно-библиографических класси- фикаций проходило под воздействием идей английского философа Ф. Бэкона (1561-1626). Созданная им в начале XVII в. классификация наук группировала знания в соответствии с идеалистической традици- 142 ей по "способностям человеческого духа". "Память" определяла воз- никновение истории, "воображение" - поэзии, "разум" - философии, или собственно науки. При всей условности такого деления классифи- кация Ф. Бэкона включала новые отрасли знания и представляла собой значительное событие для науки того времени. В XIX в. библиотечно-библиографические классификации стали широко разрабатываться в России. Большой интерес представляет схе- ма ученого-натуралиста П. Г. Демидова, составленная им для каталога личной библиотеки. В этой схеме наиболее детализированными были разделы естественных наук и технологии. Заслуживает внимания схе- ма, опубликованная в 1809 г. А. Н. Олениным и предназначенная для императорской СПб Публичной библиотеки, а также оригинальная схема К. Ф. Рейса, предложенная им для библиотеки Московского университета в 1826 г. и основанная на дихотомическом принципе де- ления. Самостоятельную схему классификации, в основу которой было положено условное деление наук "по потребностям человека", создал для библиотеки Казанского университета К. К.Фойгт в 1843 г. Одной из лучших в первой половине XIX в. заслуженно счита- ется классификация выдающегося русского натуралиста К. Э. Бэра, которую он разработал для иностранного отделения библиотеки Ака- демии наук в Санкт-Петербурге в 1841 г. В этой классификации была предпринята одна из первых попыток расположить науки в последова- тельности, отражающей историю развития мира: науки о неор- ганической природе, науки об органической природе, науки о человеке и обществе. В библиотеках Западной Европы в этот период особенно широ- ко применялись схемы классификации Ж. Ш. Брюне (1810) и А. Э. Шлейермахера (1847). Первая из них представляла собой одну из поздних разновидностей так называемой французской системы, кото- рая в течение почти двух столетий использовалась в библиографии и книготорговле Франции. Вторая, особенно популярная в библиотеках немецких университетов, была создана на основе старой "факультет- ской системы". Эти классификации создавались для расположения книг на полках и для систематизации их описаний в каталогах и указа- телях. Такое их назначение обусловило необходимость линейной по- следовательности их рубрик и строгого подчинения между классами и подклассами, всегда связанными в этих классификациях родовидовы- ми отношениями. Одна из наиболее сильных сторон этих языков за- ключается в том, что классификация по родовидовым признакам все- 143 гда служила важным инструментом познания и привычным методом определения понятий. Иерархические классификации обеспечивают высокую эффек- тивность информационного поиска по широким тематическим запро- сам, сформулированным в определенном аспекте, который был преду- смотрен заранее, при составлении схемы и при индексировании по ней документов. Для реализации подобного поиска наиболее оптимальным техническим средством служит просто перечень (каталог). Эти осо- бенности объясняют прочное положение иерархических классифика- ций как единственного на протяжении тысячелетий средства поиска документов по их содержанию. Лишь во второй половине XIX в. поя- вилась необходимость в другом типе языка, который упрощал бы для массового читателя разыскание нужных ему рубрик и облегчал бы вве- дение в систему новых понятий без коренной ее перестройки. Таким языком стала алфавитно-предметная классификация, теорию которой в 70–80- х годах прошлого века разработал Ч. Э. Кеттер. Крупнейшим достижением в области систематизации явилось создание в 1876 г. видным американским библиотечным деятелем М. Дьюи "десятичной классификации". Сам он видел свою основную заслугу в том, что применил в своей схеме децимальную индексацию: "Дело шло о достижении абсолютной простоты путем использования самых простых и известных символов, арабских цифр в виде десятич- ных дробей в качестве индексов классификации всех человеческих знаний в печатных произведениях" 1 Другой его важной заслугой было введение в систему алфавит- но-предметного указателя, который позволил разыскивать книги по любому предмету независимо от его места в схеме. Идея такого вспо- могательного указателя, правда, не была новостью, такие указатели уже применялись в энциклопедиях XIII в., в изданиях эпохи Воз- . Однако теперь, по прошествии столетия, значение созданного М. Дьюи нам представляется в другом. Он теоретически обосновал и практически внедрил стандартизацию типовых делений (литературной формы, вида издания и т. п.) в раз- личных разделах схемы и частично лингвистических, этнических и географических делений, использовав прием факультативного пре- вращения в постоянные подразделения окончаний индексов разделов "Филологии" и "Истории". 1 Шамурин Е. И. Очерки по истории библиотечно-библиографических классифи- каций. – Т. 2. – М., 1959. – С. 500. 144 рождения, у К. Геснера, в таблицах А. Э. Шлейермахера. Однако толь- ко теперь подобные указатели стали неотъемлемой частью классифи- кационных таблиц и систематических каталогов библиотек. Таким об- разом, впервые была предпринята попытка избавиться от жесткости линейной схемы иерархической классификации и расширить число входов в ее схему. Однако этот шаг был еще очень робким, и принцип проводился не очень последовательно. Эта непоследовательность была преодолена в "брюссельском варианте" десятичной классификации, которая получила широкое рас- пространение после 1905–1907 гг. как "Универсальная десятичная классификация". Ее создатели выдающиеся бельгийские документали- сты П. Отле и А. Лафонтен использовали преимущества десятичной системы, индексация которой понятна людям, говорящим на разных языках, и развили заложенные в ней возможности более гибкого ис- пользования иерархической классификации. Идею стандартизации де- лений схемы они довели до логического конца, создав вспомога- тельные таблицы типовых делений – общих и специальных (аналити- ческих) определителей. Общие определители (языка, формы докумен- та, места, времени, народности, точки зрения) используются во всех отделах схемы с одним и тем же значением. Специальные определи- тели предназначены для использования только в нескольких отделах одной отрасли знания для их деления по одним и тем же признакам. Важным достижением УДК явилось также введение принципа комбинации индексов, разработка приемов их присоединения, распро- странения, отношения и объединения (синтеза), кроме того, было пре- дусмотрено использование индексов подразделений одного раздела в других и введение параллельных (альтернативных) делений для от- ражения классифицируемых объектов в разных аспектах. Таким обра- зом, на смену прежним "перечислительным" схемам с заранее уста- новленными рубриками и готовыми индексами пришла подвижная схема, в которой нужные рубрики могут создаваться в процессе клас- сификации путем сочетания индексов с определителями или соедине- ния их друг с другом. К основным достоинствам УДК как иерархической класси- фикации относятся следующие ее характерные черты: - универсальность, заключающаяся в охвате всех отраслей знания, - логическая ступенчатая индексация, позволяющая неограни- ченно делить подклассы без нарушения основной структуры класси- фикации, 145 - международная применимость благодаря использованию только цифровых десятичных индексов, всем понятных и легко запоминае- мых, - развитая система определителей и комбинационного по- строения индексов, обеспечивающих относительную гибкость при отражении достаточно узких и сложных понятий, - устойчивый и четко организованный международный механизм поддержания классификации на уровне новых достижений науки. В качестве недостатков УДК часто называют ее естественные ограничения, присущие всем иерархическим классификациям. Они не могут удовлетворительно отражать процессы интеграции и взаимо- проникновения наук, и в них трудно находить место для направлений и понятий, возникающих на стыке наук. Далеко не все явления в природе и понятия в науке можно связать родовидовыми отношениями. Это особенно ярко проявляется в технике, медицине, в других прикладных, а также в комплексных дисциплинах, таких, например, как кибернети- ка, информатика, семиотика. Эта ограниченность УДК, в которой от- дельные науки жестко разделены в соответствии с формальными логи- ческими правилами, противоречит тенденции синтетического развития науки. Нельзя сказать, чтобы это были недостатки, скорее это внутрен- ние свойства иерархических классификаций, обеспечивающие их эф- фективность в условиях широкого тематического поиска. Следующий шаг в развитии комбинационного принципа в клас- сификации был сделан выдающимся индийским библиотековедом Ш. Р. Ранганатаном в созданной им в 1933 г. "Классификации с двое- точием", которая явилась родоначальницей фасетных классификаций. Об их функциях английский информатик Б. Виккери писал: "Потреби- тели хотят иметь возможность отыскать документ, посвященный сложной специальной теме, не только тогда, когда именно она являет- ся непосредственным объектом поиска, но также тогда, когда поиск ведется по любому термину или группе терминов, входящих в сложное понятие. Для удовлетворения этих требований необходимо, чтобы не только понятия могли входить в неограниченное количество сочета- ний, но также, чтобы в структуре системы были отражены родовые связи понятий и связи между разделами" 1 Фасетная классификация вместо единого ряда делений в каждом основном классе имеет несколько "фасетов", соответствующих ас- 1 Фасетная классификация. – М.: ГПНТБ, 1970. – С. 8. 146 пектам классифицируемого понятия или предмета. Все существенные термины данного класса распределяются по фасетам и образуют их "фокусы". При индексировании документов их содержание выражает- ся цепочкой фокусов, последовательность которых определяется спе- циальной "фасетной формулой". Примером построения индексов по системе Ш. Ранганатана могут служить следующие фасеты и фокусы из области медицины: |