БИ ОСНОВЫ ИНФОРМАТИКИ. БИ_курс лекций. Р. С. Гиляревский основы информатики курс лекций
Скачать 1.65 Mb.
|
Ф А С Е Т Ы Органы тела Проблемы медицины Уход и лечение 1 Органы в целом 1 Общие проблемы 1 Питание 2 Органы пищеварения 2 Морфология 2 Этиология 23 Пищевод 3 Физиология 3 Диагностика 24 Желудок 4 Болезни 4 Лечение 25 Кишечник 42 Инфекционные 3 Кровеносная система 421 Туберкулез 4 Органы дыхания 45 Легкие В этой схеме индекс документа по диагностике инфекционных заболеваний кишечника – 25:42:3, по лечению туберкулеза легких – 45:421:4. Преимущества этого вида классификаций в том, что они облег- чают многоаспектное индексирование документов, позволяя собирать в одном месте все аспекты рассмотрения какого-либо предмета или темы, они легче поддаются изменениям при введении новых понятий, допускают большую глубину индексирования при более коротких ин- дексах. Их применение особенно эффективно при поиске в небольших по объему узкоспециализированных собраниях документов. Видный английский информатик Д. Фоскетт так обосновал достоинства фасет- ных классификаций: "От схемы не требуется более, чтобы она указы- вала "место" для каждого документа, включая любой термин или на- бор терминов в явном виде в классификационные таблицы по каждой предметной области. Эти схемы могут задать набор правил, или рабо- чих процедур, с помощью которых такие контексты можно, по мере надобности, формулировать на основе тех же самых схем" 1 1 Теоретические проблемы, информатики. – М.: ВИНИТИ, 1968. – С. 67. 147 Рубрикаторы информационных изданий На большинстве европейских языков рубрикатором называли переписчика рукописей, который в скрипториях средневековья и Воз- рождения размечал красной краской первые буквы смысловых фраг- ментов текста, получивших название рубрик. Это название сохрани- лось и до наших дней, хотя в нынешних произведениях печати рубри- ки отмечаются абзацными отступами или отделяются друг от друга пробелами. В журналистике рубриками принято также называть по- стоянные разделы в журналах и газетах, а в библиотековедении – структурные подразделения систематического и предметного катало- гов. В 50-е годы в информатике рубрикаторами стали называть пе- речни рубрик реферативных журналов и других информационных из- даний. В данном случае рубрика выступает как содержательный фраг- мент такого издания и состоит из индекса и заголовка раздела, а также библиографических записей (с аннотациями или рефератами) произ- ведений печати, которые по своему содержанию относятся к данной рубрике. По мере роста числа и увеличения объемов реферативных журналов их рубрикация стала усложняться. Появилась необходимость в создании такого перечня рубрик, который отвечал бы определенным требованиям и мог бы служить средством систематизации библиогра- фических записей вместе с рефератами. Поскольку библиотечно- библиографические классификации оказались непригодными для это- го, реферативные службы стали создавать собственные рубрикаторы. Рубрикатор – это особым образом организованный перечень рубрик иерархической классификации, предназначенный для отраже- ния сведений о текущих публикациях в информационных изданиях или системах информационного обслуживания. К его характерным осо- бенностям относятся сравнительно небольшая глубина индексации, ориентированность на межотраслевые, междисциплинарные, ком- плексные проблемы, простота и линейность структуры, достаточная гибкость, частая и безболезненная изменяемость формулировки руб- рик. Любой рубрикатор создается под влиянием двух противоречивых факторов, отражает два взаимосвязанных, но разных информационных потока: документального и запросов потребителей. Первый оказывает преимущественное влияние на структуру рубрикатора, второй – на формулировку заголовков рубрик, причем изменение структуры доку- ментального потока несколько отстает от быстро меняющегося харак- 148 тера информационных запросов. Возникает вопрос, почему же все-таки для создания рубрикато- ров не использовались существующие классификации? Можно указать на несколько обстоятельств, которые ведут к серьезным различиям в схемах иерархических классификаций, используемых для библиотеч- ных каталогов и для построения рубрикаторов. Первые, рассчитанные, в первую очередь, на систематические каталоги и картотеки библио- тек, отражают структуру универсального потока документов: книг, брошюр, периодических и продолжающихся изданий. Рубрикаторы реферативных журналов ориентированы преимущественно на жур- нальные статьи и другие публикации из научной периодики, которые имеют другую содержательную структуру, более дробную и гибкую. В реферативных журналах подчас приходится открывать рубрики для таких вопросов, которые в библиотечном каталоге могут стать не- обходимыми лишь через десять лет . Систематические каталоги библиотек ориентированы на дисци- плинарную структуру, т. е. на выделение основных классов в соответ- ствии с научной классификацией. В рубрикаторе наряду с дисципли- нарными характеристиками необходимо учитывать комплексные междисциплинарные проблемы и отрасли народного хозяйства. Это нарушает строгую логику иерархической классификации, но придает рубрикатору особую гибкость. Библиотечная классификация предна- значена для ретроспективного поиска, для накопления записей за мно- го лет, это требует сложной структуры, ее стабильности, устойчиво- сти, медлительности в изменениях. Для рубрикатора частые измене- ния являются правилом, формулировка заголовков рубрик, публикуе- мых в каждом номере издания, играет сравнительно большую роль, а форма индексов, выполняющих служебную роль, менее значима. Руб- рикатор легко обозрим, имеет небольшую глубину и простой служеб- ный аппарат (систему ссылок и вспомогательных делений, способы сочетания рубрик). По рубрикаторам классифицируются самые мощные потоки на- учных публикаций – во всем мире ежегодно не менее 5 млн несовпа- дающих документов (из них только в ВИНИТИ около 1 млн). Если ориентировочное число публикуемых ежегодно научных документов принять близким к 10 млн, то половина из них систематизируется по различным рубрикаторам. Это на порядок больше, чем приходится на долю классификаций, применяемых ежегодно для описания входных потоков всеми библиотеками мира. Поэтому рубрикаторы приобрели 149 большое значение в научно-информационной деятельности. Во многих информационных центрах избирательное распространение информа- ции, сигнальная информация и даже справочно-библиографическое обслуживание осуществляются при помощи рубрикаторов. Чтобы они могли справиться с такими несвойственными им функциями, прихо- дится оснащать их различными вспомогательными средствами, кото- рые приближают их к библиотечным классификациям, но затрудняют их использование по прямому назначению. Как и во всех подобных случаях, здесь приходится прибегать к разного рода компромиссам, но это неизбежно там, где мы не пользуемся новой информационной тех- нологией. Разные типы информационно-поисковых языков Информатика, заявившая о себе в середине нашего века, при- несла с собой не только новую и получившую распространение терми- нологию ("дескрипторы", "тезаурусы", "индексирование") и не только удовлетворила нашу обычную потребность в противопоставлении но- вого традиционному. Новым, действительно новым, оказался более широкий подход к явлениям и принципам. Понятие, например, инфор- мационно-поискового языка (ИПЯ) позволило рассматривать предме- тизацию, систематизацию, книгоописание, координатное индексирова- ние как процессы, использующие искусственные языки, семантиче- скую силу которых можно измерять по сравнению с возможностями естественного языка. Понятие информационно-поисковой системы (ИПС), как уже говорилось, объединило многие предметы, которые прежде рассматривались изолированно, например, библиотечные фон- ды и каталоги, различного вида самостоятельные и вспомогательные указатели, справочники, энциклопедии, автоматизированные поиско- вые системы. Это дало возможность выявить общие принципы их по- строения, найти общие критерии их эффективности и другие общие параметры. Мы установили, что дескрипторные информационно-поисковые системы открыли принципиально новую возможность поиска необхо- димых документов и содержащейся в них информации по любому со- четанию заранее не предвиденных признаков. Однако за реализацию этой возможности приходится платить не только интеллектуальными потерями, но и материальными ресурсами. Эти системы приходится ориентировать на дорогостоящие компьютеры и программы, что пред- полагает более трудоемкий ввод информации и более строгие ограни- 150 чения на число одновременных пользователей. Вполне естественно в такой ситуации попытаться сочетать уже имеющиеся поисковые сред- ства со вновь создаваемыми. Отсюда вытекает и желание найти общие черты в этих разных системах и лежащих в их основе ИПЯ: языке предметных рубрик и дескрипторном языке, что обычно сочетается с поисками путей их совместимости. Всегда можно найти такую удаленную позицию, такое основа- ние деления, при которых эти языки попадут в один общий класс. В ряду искусственных языков они принадлежат к классу информацион- ных, в ряду информационных – к подклассу информационно-поиско- вых. В них используются в качестве индексов слова естественного языка. При построениии этих языков применяются внешне схожие приемы: перечень предметных заголовков и словарная часть тезауруса упорядочиваются в алфавите слов. Тем не менее, учитывая эти общие и сходные черты, нельзя забывать и о принципиальных различиях дан- ных языков. Основной словарный состав языка предметных рубрик это имена сложных классов, построенных до индексирования документов, поскольку этот язык принадлежит к типу предкоординируемых. Деск- рипторный же язык является посткоординируемым, т. е. строится из имен простых классов, которые образуют необходимые понятия при их пересечении (логическом умножении) в момент индексирования и/или поиска документов. Для того, например, чтобы индексировать статью о производст- ве и экспорте вычислительных и пишущих машин в США, Японии и Великобритании достаточно дескрипторов ПРОИЗВОДСТВО , ЭКСПОРТ , КОМПЬЮТЕР , ПИШУЩАЯ МАШИНА и названий трех этих стран. Тогда при любой комбинации признаков при запросе (а таких комбинаций может быть 1х2хЗх4х5х6х7=5040, т. е. число перестановок из семи призна- ков) этот документ будет найден. Если же пользоваться языком пред- метных заголовков, то в зависимости от их заранее составленного пе- речня потребуется значительное число готовых рубрик. Оно, конечно, меньше указанного выше, но ровно настолько будет больше потерь при поиске. Координатное индексирование в том и состоит, что для характе- ристики содержания документа или запроса перечисляются такие клю- чевые слова или дескрипторы, пересечение (логическое умножение) которых выражает основное смысловое содержание (главную тему, предмет) этого документа или запроса, тогда как в предметизации для 151 данной цели используются заранее сформулированные заголовки и подзаголовки. При индексировании, т. е. выражении основного смыслового содержания документа в терминах ИПЯ, процессы информационного анализа и синтеза совершаются в два этапа. Первый этап является об- щим для всех языков. Содержание документа анализируется как с по- зиций того, какие идеи и факты заложены в него автором, так и с пози- ций научных и практических интересов большинства его потенциаль- ных читателей. (Если не иметь в виду узкоспециальных интересов, то обе точки зрения чаще всего совпадают). Результаты этого анализа синтезируются в виде субъективного представления индексатора об основном содержании документа. Второй этап зависит от языка индексирования. Если это предко- ординированный алфавитно-предметный язык, то свое представление о содержании документа индексатор сверяет с потенциальными запро- сами читателей, отраженными в перечне предметных заголовков. Для посткоординируемого дескрипторного языка аналогичному анализу подвергается тезаурус (не связанный непосредственно с потенциаль- ными запросами потребителей) и сам текст индексируемого докумен- та. Синтез в данном случае выражается в выборе соответствующих предметных заголовков или дескрипторов (ключевых слов). Другими словами, при всей внешней схожести процедур индек- сирования посредством этих разных типов ИПЯ, характер их исполь- зования различен. В одном случае мы пользуемся готовыми продукта- ми в виде заголовков и подзаголовков, обозначающих класс докумен- тов определенного содержания. В другом случае это лишь исходный материал, дескрипторы и ключевые слова, при перемножении которых образуется класс, соответствующий данному содержанию. Вот почему перечень предметных заголовков и словарная часть тезауруса, при всей их внешней схожести, при том, что определенная часть слов в них мо- жет совпадать, на самом деле являются совершенно отличными друг от друга списками, слова для которых отбираются на основе разных кри- териев и играют различную роль. Разные типы ИПЯ имеют свои достоинства и ограничения, ко- торые делают их особо пригодными для решения разных поисковых задач. Возможности дескрипторного языка эффективно реализуются при узко тематическом поиске по произвольной комбинации призна- ков. Широкий тематический поиск по традиционным отраслям знаний и поиск по конкретным предметам, дисциплинам и их разделам в фон- 152 дах документов за многие годы и в условиях одновременного обраще- ния к ним большого числа читателей по-прежнему хорошо обеспечи- ваются библиотечными каталогами, основанными на иерархических и алфавитно-предметных классификациях. Выпуск информационных изданий требует разработки специальных рубрикаторов с небольшим числом уровней иерархии и подвижной, быстро меняющейся рубрика- цией. Базы и банки данных С самого начала в теории информационного поиска предполага- лась возможность построения не только информационно-поисковых, но и информационно-логических систем, которые осуществляли бы автоматическую переработку информации, а также извлечение из на- учных текстов неявно содержавшейся в ней информации. Эту идею много лет назад высказал один из пионеров этой теории в нашей стра- не В. А. Успенский 1 Информатики же давно поняли, что переработка знаний связана не только и даже не столько с совершенствованием компьютеров, сколько с организацией самих этих знаний. В этой сфере до последне- го времени господствовали представления, связанные с традиционной структурой научного знания, которое фиксируется в статьях и моно- графиях и отражается в библиографических бюллетенях и рефератив- ных журналах. Но задача заключается в том, чтобы понять внутрен- нюю структуру знаний, взаимосвязь данных, фактов, гипотез и теорий. . В то время такая возможность связывалась с дальнейшим совершенствованием электронной вычислительной тех- ники, главным образом, с увеличением емкости оперативной памяти компьютеров и их быстродействием, что было вполне понятно. Но по- добный ход мысли характерен и в наше время для специалистов в об- ласти вычислительной техники. Недаром девизом пятого поколения вычислительных машин служил переход от переработки данных и ин- формации к переработке знаний. За последние десятилетия значительное развитие получили ис- следования в области неклассических логик, баз данных и баз знаний, формализованного представления содержания текстов. Они опираются на достижения математической логики, логической семантики, струк- турной лингвистики и ряда других фундаментальных и прикладных 1 Успенский В. А. К проблеме построения машинного языка для информационной машины // Проблемы кибернетики – 1959. – Вып. 2. – С. 39–50. 153 дисциплин, Результаты этих теоретических исследований находят все большее применение в автоматизации информационных процессов и построении информационных систем различных типов, которые рас- сматриваются как средство переработки данных и знаний. В среде информационных работников стало привычным гово- рить о базах и банках данных (БД и БнД). Само по себе это свидетель- ствует о том, что профессионалы эффективно используют компьютеры в информационной деятельности. Хуже то, что смысл и значение этих терминов, пришедших из области программирования, понимаются не- достаточно глубоко. Это напоминает библиотекарей, которые с появ- лением теории информационного поиска стали называть каталоги ин- формационно-поисковыми системами, что, в общем-то, верно, но ни- чего не изменило в традиционной организации каталогов. Так и теперь информационные издания (бюллетени сигнальной информации, рефе- ративные журналы) на магнитной ленте или дискете любят называть базами данных, что тоже не совсем неправильно, но не отражает прин- ципиального смысла этого понятия. Понятие базы (или банка) данных возникло в конце 60-х гг. в связи с необходимостью освободить программы от данных, которыми они оперируют, сделать их независимыми. До этих пор данные органи- зовывались под нужды каждой конкретной программы, что создавало массу неудобств и затруднений, особенно при изменении данных или самих программ. "База данных это реализованная средствами вычис- лительной техники специальная система для хранения данных о неко- тором фрагменте действительности. Главные идеи, лежащие в основе такой системы, – это объединение в одном месте данных, нужных для решения многих задач (может быть, даже тех, которые еще не начина- ли программироваться) и обеспечение независимости данных от их обработки" 1 Появление баз и банков данных оказалось существенным ша- гом, приблизившим возможность автоматического решения многих интеллектуальных задач. Некоторые специалисты даже сравнивают это достижение с изобретением книгопечатания. Информационные работ- ники со временем стали различать термины "база" и "банк" данных, . В процессе развития этого понятия базой данных стала называться и сама совокупность данных, организованных по опреде- ленным правилам их описания, хранения и манипулирования ими не- зависимо от прикладных программ. 1 Борщев В. Б. Банки и базы данных // Природа. – 1982. – № 3. – С. 64. 154 которые первоначально употреблялись как синонимы. Теперь они по- нимают под банком данных систему программных, языковых, органи- зационных и технических средств, предназначенных для централизо- ванного накопления и коллективного использования данных, а также сами данные, хранимые в виде баз данных. Существует и более огра- ниченное понимание БнД как одних только программных средств: баз данных, их справочника, системы управления ими (СУБД) и библиоте- ки запросов и прикладных программ. Для автоматизированных информационных систем создание банков и баз данных открывает возможность осуществлять информа- ционный поиск не только документов, но и заключенных в них фраг- ментов – идей и фактов, а также манипулировать ими. Появляется ре- альная перспектива обогащать собственные наблюдения и результаты исследований ученых всем мировым опытом науки, содержащимся в научно-технической литературе. Значительная часть трудоемкой рабо- ты по извлечению и упорядочиванию имеющихся в документах дан- ных, производимая прежде каждым исследователем, в принципе может быть переложена на информационную систему. В концепции банка данных реализуется давняя мечта информационных работников о соз- дании не только автоматизированной информационно-поисковой сис- темы, но и информационно-логической системы, позволяющей осу- ществлять анализ и синтез научной информации. Ученый-исследователь и экспериментатор, инженер-разработ- чик и проектировщик получают возможность оперировать большим, чем до сих пор количеством данных, быстро меняя их организацию. Это можно проиллюстрировать на примере научной работы врачей. Целенаправленное наблюдение и лечение больных, страдающих опре- деленным недугом, получает отражение в историях их болезни. Обыч- но несколько десятков историй болезни, сопоставленных с данными нескольких десятков литературных источников, служат материалом для написания статьи, и, в конечном счете, кандидатской диссертации. На эту работу уходят годы труда. Несколько сотен историй болезни и литературных источников могут привести к созданию монографии и докторской диссертации, на что приходилось затрачивать значитель- ную часть жизни. Непосредственный доступ к банку данных позволяет выполнить существенную часть этой работы значительно быстрее. Банк данных облегчает перестройку всевозможных сведений, приведение их к необ- ходимому единообразию, получение статистической информации, по- 155 иск зависимостей между параллельными рядами данных. Другими сло- вами, работа с базами данных на компьютере в оперативном режиме устраняет противопоставление поиска информации ее творческой пе- реработке, стирает грань между ними. Происходит как бы диалектиче- ский возврат к слиянию этих процессов в деятельности ученого на но- вом витке развития по спирали. Было бы неверно думать, что информационные системы уже се- годня готовы к повсеместному переходу на описанный режим работы, хотя и в нашей стране и особенно за рубежом создаются и функциони- руют автоматизированные системы такого рода. Прежде всего, теория и практика баз и банков данных еще очень молоды и быстро развива- ются. Даже наиболее распространенная реляционная ее модель, имеющая ряд преимуществ перед иерархической и сетевой организа- цией банков данных, как математическая структура реальной действи- тельности далека от совершенства. Именно поэтому разрабатываемые в математической логике модели информационных систем пользуются в информатике таким вниманием. Многообразные задачи, поставлен- ные перед новыми типами информационных систем, называемых те- перь интеллектуальными, требуют адекватных средств реализации. |