Информационнопоисковые системы Принципы формирования типовой информационной структуры
Скачать 90.99 Kb.
|
Информационно-поисковые системы Принципы формирования типовой информационной структуры: - однократный ввод и многократное использование информации; - полнота удовлетворения информационных потребностей основных групп пользователей; - оперативное пополнение ресурсов обязательными документами; - комфортный доступ к ресурсам в off- и on-line режимах; - выполнение как конкретных узко тематических, так и широких по тематике запросов. Запросы, которые формируют пользователи информационных систем, реализуются следующими способами: - сообщения, являющиеся ответом на запрос, хранятся в явном виде в базе данных, и процесс получения ответа представляет собой выделение подмножества знаний из файлов базы данных, удовлетворяющих запросу; - ответ не существует в явном виде в базе данных и формируется в процессе логического вывода на основании имеющихся данных. Теория информационного поиска начиналась с исследования особенностей документальных информационно-поисковых систем (ИПС). Под информационным поиском в таких системах понимается некоторая последовательность операций, выполняемых с целью отыскания документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы. Массив элементов информации, в котором производится информационный поиск, называется поисковым массивом. Существующие виды информационного обслуживания представлены втаблице:
Способы реализации видов и форм обслуживания зависят от вида, назначения и способа реализации конкретной ИПС. Очевидно, что прочитать каждый документ библиотеки, чтобы найти необходимый, практически невозможно. Поэтому на протяжении истории развития информационного поиска разрабатывались и совершенствовались методы поиска. Каждому документу, вводимому в поисковый массив, ставится в соответствии поисковый образ документа (ПОД), который представляет собой характеристику, отражающую основное смысловое содержание документа (этим ПОД отличается от кода, присваиваемого информационному элементу в фактографических ИС). В виде такой же краткой характеристики – поискового предписания или поискового образа запроса (ПОЗ) должны быть сформулирован и информационный запрос. Благодаря этому процедура поиска может быть сведена к простому сопоставлению поисковых образов документов с поисковым предписанием. Для сопоставления ПОД и ПОЗ разрабатывают и применяют различные критерии поиска или критерии смыслового соответствия. Точность поиска определяется точностью отображения документов и запросов с помощью их поисковых образов и степенью совпадения ПОД и ПОЗ. Поэтому возможна неполнота выдачи документов, либо, напротив, «поисковый шум», которые представляют собой своеобразную плату за облегчение процедуры информационного поиска. Процедура выражения основного смыслового содержания документа и информационных запросов на информационно-поисковом языке получила название индексирования и составляет существенную часть аналитико-синтетической обработки документов. Информационный поиск, таким образом, заключается в замене содержательного прочтения полного текста документов формальным «сличением» (сравнением на соответствие) их поисковых образов с запросами на языке индексов. Информационный поиск реализуется при помощи информационно-поисковой системы, которая в абстрактном виде должна состоять из информационно-поискового языка, правил перехода на этот язык и критерия смыслового соответствия, определяющего объем выдачи документов или информации. Модель организации данных в гипертекстовых справочных системах основана на сочетании ассоциативных гиперссылок и иерархического принципа организации фрагментов и документов. Концептуальная схема информационно-поисковой системы представлена на рисунке: Модель организации данных в гипертекстовых справочных системах основана на сочетании ассоциативных гиперссылок и иерархического принципа организации фрагментов и документов. Поисковые системы подразделяются на каталоги и указатели; они различаются технологией подготовки справочного материала: каталоги составляют люди, а указатели формируются автоматически. Самый крупный каталог Интернет – Yahoo! (www. yahoo.com); он содержит более миллион ресурсов и поддерживается 150 редакторами. Ведущий каталог России – List.Ru (www. list.ru): 100 тысяч ссылок, классифицированных по 18 каталогам. Язык поисковых слов служит для координатного индексирования документов и запросов посредством дескрипторов и ключевых слов. В его основе лежит алфавитный перечень лексических единиц, или словарь ключевых слов. Именно язык ключевых слов открыл возможность для автоматизации информационного поиска. Он позволяет достаточно детально и многоаспектно раскрывать содержание документов. Дескрипторы и ключевые слова легко дополняются и обновляются, поскольку в алфавитный перечень можно включать любую лексическую единицу, необходимую для индексирования. Информационно-поисковые каталоги является традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют собой классификационную систему знаний по определенной предметной области. Смысловое содержание документа в информационно-поисковых каталогах отображается тем или иным классом каталога, а индексирование документов заключается в присвоении каждому документу специально кода (индекса), соответствующего по содержанию классу (классам) каталога, и создании на этой основе специального индексного указателя. Система метаданных является центральным логическим компонентом любой электронной библиотеки (ЭБ). Подобно тому, как библиотечный каталог организует все множество единиц хранения в систему библиотечных фондов, вокруг которой строятся все библиотечные технологии, система метаданных организует совокупность электронных информационных ресурсов (или цифровых объектов) библиотеки. На основе системы метаданных строятся основные технологические процессы ЭБ: - навигация в информационном пространстве; - поиск отдельных цифровых объектов (информационных ресурсов) или их совокупностей; - ввод, обработка и организация хранения цифровых объектов, а также их исключение (изъятие); - управление правами доступа к цифровым объектам, включая защиту авторских прав, организации платы за доступ и т.п. Типы метаданных: Описательные – библиографическая информация или другие сведения о содержании (семантике) цифровых объектов. Структурные – сведения о форматах, структуре, объеме и других формальных свойствах цифровых объектов; Административные – права, разрешения на доступ, на коррекцию данных, данные о пользователе, данные для систем оплаты, технологические данные. Общим типом метаданных является идентификатор, задача которого – однозначное представление цифрового объекта для внешнего лица и различных приложений. Системы метаданных определяют класс задач, которые реализуются в ЭБ и решающим образом влияют на интероперабельность (совместимость) коллекций, имеющихся в библиотеке. Тем самым принятие тех или иных принципов в отношении метаданных фактически определяет стоимость проектов по созданию ЭБ и эффективность затрат на эти проекты. Известны следующие системы метаданных: MARC – машиночитаемый каталог. CSDGM– стандарт цифровых геопространственных данных. GILS – глобальная (правительственная) служба поиска информации. EAD – кодировка архивных описаний, используемая для стандартизации и классификации уникальных архивов материалов, прежде всего рукописей. TEI – инициатива по кодированию текстов. Формат Государственного регистра баз и банков данных – содержит систему метаданных для баз данных и других электронных наборов данных. Международная группа под руководством Stuart Weber&OCLC (штаб-квартира в Дублине, штат Огайо, США) разработала систему метаданных «Дублинское ядро». Набор метаданных Дублинского ядра составляют 15 элементов: Заголовок (Title) – название, присвоенное ресурсу создателем или издателем. Автор (Creator) – человек или организация, изначально ответственная за интеллектуальное содержание ресурса (в случае рукописного документа это авторы; в случае визуальных ресурсов – исполнители, фотографы, иллюстраторы). Предмет (Subject) – тема ресурса. Обычно предмет выражается в ключевых словах или фразе, описывающей предмет или содержание ресурса. приветствуется использование контролируемых словарей и формальных схем классификации. Описание (Description) – текстовое описание содержания ресурса, включая реферат в случае документов или описания содержания в случае визуального ресурса. Издатель (Publisher) – организация, ответственная за состояние ресурса в его представленной форме: издательский дом, университетский департамент, корпорация. Участник создания материала (Contributor) – человек или организация, которые не являются авторами (не обозначены в элементе «автор»), но внесли значительный интеллектуальный вклад в ресурс; чей вклад вторичен по отношению к любому человеку или организации, указанной в числе авторов: редактор, переводчик, иллюстратор. Дата (Date) – дата, указывающая на создание или появление ресурса (в доступном виде). Тип (Type) – категория ресурса: домашняя страничка, роман, поэма, статья, препринт, технический отчет, эссе, словарь. Формат (Format) – формат представления данных ресурса (обычно указывается тип программного обеспечении и, возможно, тип компьютера, которые могут быть необходимы для отображения ресурса и работы с ним). Идентификатор ( Identifier) – набор букв или цифр, который обычно используется для уникальной идентификации ресурса. Источник (Source) – информация об источнике, из которого получен представленный ресурс. Язык (Language) – язык, на котором изложено интеллектуальное содержание ресурса. Связь (Relation) – идентификатор первичного ресурса и его связь с представленным ресурсом. Этот элемент позволяет связывать между собой близкие ресурсы, а также описание ресурса, которые необходимо показать. Например, издание книги и глава книги. Охват (Coverage) – характеристика местонахождения и временной продолжительности ресурса. Права (Rights) – утверждение об авторских правах и управление ими (идентификатор, связанный с такими утверждением; идентификатор, связанный с сервисом, представляющим информацию об управлении правами на данный ресурс). .Информационно-справочные системы. Библиотеки. Архивы Доступ к данным осуществляется в соответствии с их структурой, заданной описанием данных, и представляет собой процедуру обхода вершин дерева данных. В процессе обхода в текущей вершине можно производить определенные действия с данными: читать и изменять данные, создавать новые вершины, удалять текущие вершины вместе с их поддеревьями и т.д. При этом все выполняемые в процессе обхода дерева данных движения представляют собой либо переходы, согласованные с иерархией дерева, либо прямые переходы по ссылкам. Совокупность таких переходов называется траекторией в дереве данных или в базе данных. В соответствии с траекторией дерева данных выполнение запроса логически разбивается на части, относящиеся к обработке групп данных различными процедурами. Последовательность доступа к данным по траектории дерева данных определяет последовательность выполнения процедур обработки, а наличие данных – сам факт выполнения процедур (фактически доступ к данным управляет выполнением процедур). Таким образом, запрос представляет собой сложную смесь считывания данных из базы и выполнения процедур. Диалоговый интерфейс обеспечивает и различные формы взаимодействия: - работа по сценарию; - работа с произвольными запросами; - работа по созданию сценария. Работа по сценарию. Это – основной режим работы прикладных конечных пользователей. Взаимодействие происходит на языке, состоящем из меню, команд и бланков, подлежащих заполнению и выдаваемых по заданному сценарию. Сценарий отражает профессиональные интересы пользователей и создается в понятных ему терминах. В состав сценария включаются средства подсказки и обучения. Пользователю не нужно знать структуру данных и изучать специальный язык манипулирования данными. Сценарий создается администратором и оперативному изменению не подлежит. Работа с произвольными запросами. Это – режим работы пользователей-профессионалов в сфере обработки данных. Такая форма взаимодействия доступна подготовленным пользователям, знающим структуру информационной базы и язык манипулирования данными. Пользователь может работать со схемой базы данных (определять, удалять, изменять отношения) в пределах предоставленных ему полномочий. Для манипулирования данными используется язык реляционного интерфейса. Диалог состоит из запросов на языке реляционного интерфейса, команд управления и редактирования и ответов на них, передаваемых через диалоговый интерфейс. Работа по созданию сценария. Это – режим работы администратора. Сценарий работы прикладных конечных пользователей создается администратором совместно с прикладными пользователями. Формирование сценария ведется в диалоговом режиме. В процессе работы администратор имеет возможность проверить созданный им сценарий и оперативно откорректировать его. Администратор создает систему меню и связанных с меню запросов, а также описывает экранные формы в соответствии с требованиями конечных пользователей. Диалог прикладного конечного пользователя задается иерархической системой меню, содержащих описание последовательности работы в терминах определенной предметной области. Для формулирования запросов пользователям предоставляется специализированный полноэкранный редактор. Стратегия диалога основана на концепции контекстной помощи, чередующейся с запросами. Фрагмент, состоящий из ключевого слова и связанного с ним текстового поля, становится самостоятельным объектом. Укрупнение объектов редактирования позволяет ускорить обработку запросов, а диалоговые средства работы с шаблонами снижают возможность случайного внесения ошибок в текст запросов. Электронные библиотеки Основными базовыми определениями являются: Библиографическая БД – документальная база данных, запись в которой содержится только библиографическое описание. Библиотечная система – совокупность взаимодействующих библиотек, объединенных на определенных договорных условиях в целях более полного удовлетворения запросов пользователей и эффективного использования библиотечных ресурсов. Библиографирование – процесс подготовки библиографической информацию. Библиографическая запись – совокупность библиографических сведений о документе, приведенных по определенным правилам, устанавливающим порядок следования областей и элементов, и предназначенных для идентификации общей характеристике документа. Библиотечный каталог – совокупность расположенных по определенным правилам библиографических записей на документы, раскрывающая состав и содержание фонда библиотеки или информационного центра. Индексирование – выражение содержания документа или смысла информационного запроса на ИПЯ. Классификационный индекс – поисковый образ, построенный средствами классификационного ИПЯ. Поисковое предписание – текст, включающий поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска. Осознание необходимости и преимуществ стандартизации в библиотечной среде пришло с началом использования машиночитаемых библиографических записей и обмена ими. С этим периодом связано начало разработки отечественной системы стандартов по информатике, библиотечному издательскому делу – СИБИД (конец 70-х – начало 80-х годов). ГОСТы на библиографическое описание устанавливали общие принципы и правила составления описания для различных видов документов: набор элементов библиографического описания, последовательность их расположения, наполнение и способ представления каждого элемента, применение условных разделительных знаков. Стандарты на библиографические описания появились как результат пересмотра национальных правил каталогизации в связи с созданием в 1977 году «Международного стандарта библиографического описания» (ISBD). Как известно, ISBD превратилось в международный стандарт ISO, который требовал пересмотра национальных правил в странах-членах ISO и создания соответствующих национальных стандартов. Свойства автоматизированной библиотечной системы: - устранение значительной части примитивной или чисто канцелярской работы; - устранение ошибок, попадающих в систему; - постоянство информации внутри системы; - быстрота ответов на запросы. Одной из важных функций библиотечных автоматизированных систем является выдача ответов на запросы пользователей. В процессе формирования запроса пользователем должна быть идентифицирована та часть информационной базы, которая имеет отношение к выдаче справки, а также установлено предписание, задающее критерии отбора данных, и процедура извлечения нужных сведений из базы данных. Процедура поиска включает информацию, идентифицирующую часть базы данных, предикат, определяющий критерий отбора данных, и оператор извлечения. Электронная библиотека – распределенная информационная система, позволяющая надежно сохранять и эффективно использовать разнородные коллекции электронных документов (текст, графика, аудио, видео) через глобальные сети передачи данных в удобном для конечного пользователя виде. Базовой единицей электронной библиотеки является электронный архив модульной структуры. Электронная библиотека предназначена для выполнения следующих функций: - автоматизированная регистрация поступающих материалов; - перенос твердых копий на магнитные носители; - индексирование поступающих материалов; - библиографическое описание поступающих материалов; - реферирование и аннотирование поступающих материалов; - формирование ссылочных каталогов на внешние (сетевые) источники; - автоматизированный поиск информации (индексирование информационных запросов); - оборудование АРМ абонентов и их эксплуатация; - связь с внешними источниками информации (сетевой сервис); - вспомогательные работы: копирование документов на бумагу, магнитные носители, микроленту, фотобумагу, микрофиши; - издание реферативных журналов и бюллетеней информации; - организация справочной службы и служб сопровождения. Средства, разрабатываемые для автоматизированных библиотечных систем по охвату поддерживаемых библиотечных процессов и услуг, классифицируют следующим образом: - автоматизированные информационно-библиотечные системы (АИБС); - автоматизированные рабочие места (АРМ), которые разрабатываются либо как программные модули библиотечной системы, либо как самостоятельные информационные системы; - электронные справочные системы (включая полнотекстовые); - автономные автоматизированные системы поддержки и эксплуатации информационных баз данных различного назначения. Работа пользователя в электронной библиотеке осуществляется в режиме диалога с использованием иерархической системы меню. Предусмотрена возможность модификации имеющихся и создание новых меню в соответствии с конкретными потребностями пользователя. Электронные архивы При разработке управленческих документов часто возникает необходимость обращения к архивным документам, а при последующем хранении – процедура сдачи документов в Государственный архив и формирования собственных архивов. Под архивным фондом понимается совокупность документов, отражающих материальную и духовную жизнь ее народов, имеющих историческое, научное, социальное, экономическое, политическое или культурное значение и являющихся неотъемлемой частью историко-культурного наследия народов РФ. Под архивным документом понимается документ, сохраняемый или подлежащий сохранению в силу его значимости для общества, а равно имеющий ценность для собственника. Под архивом понимается совокупность архивных документов, а также архивное учреждение или структурное подразделение учреждения, организации или предприятия, осуществляющее прием и хранение архивных документов в интересах пользователей. Под тайным архивом понимается архив, о котором не заявлено публично. Под архивным делом понимается деятельность по организации хранения, учета и использования архивных документов. Электронный архив – универсальная система управления документами, основным назначением которой является централизованное хранение документов и их версий, обеспечение доступа сотрудников к документам для просмотра или редактирования, и быстрый поиск информации. Компоненты электронного архива представлены на рисунке: Использование архива позволяет упорядочить хранение документов и организовать работу с ними, сократив при этом накладные расходы, связанные с доступом к документам. В электронном архиве можно хранить документы любых типов – офисные документы, тексты, изображения, аудио и видео файлы, документы систем проектирования, архивы, приложения и т.д. Как показывает опыт, архивы чаще всего используют для управления внутренней, организационно-распорядительной документацией и договорами. В электронном архиве документы хранятся в папках-рубрикаторах, структуру которых можно организовать, например, в соответствии с иерархией отделов предприятия, назначая каждому разделу ответственного администратора. Основным преимуществом подобного архива является наличие достаточных возможностей при доступной цене. В сочетании с широкими возможностями масштабирования это позволяет эффективно использовать его как на малых, так и на крупных предприятиях. Функции электронного архива: Хранение документов. С помощью архива можно сформировать централизованное хранилище документов и обеспечить управляемый доступ сотрудников к документам, как по локальной сети, так и через Интернет. Документы хранятся в гибко настраиваемой структуре папок-рубрикаторов. Создание документов. Документы в архиве можно создавать на основе заранее сформированных шаблонов, или путем переноса каталогов и файлов с локального или сетевого диска в нужные папки. Поддерживается ввод документов со сканера, в том числе и потоковый, с возможностью автоматического распознавания (OCR версия). Служба распознавания работает на сервере архива в фоновом режиме. Учет документов На каждый документ в архиве ведется учетно-регистрационная карточка, набор реквизитов которой соответствует ГОСТ Р 6.30-2003 и требованиям ГСДОУ. Состав и расположение реквизитов карточки являются жестко настроенными и не могут быть изменены. Взаимодействие пользователей. В архиве пользователи могут обмениваться сообщениями, присоединяя к ним ссылки на документы системы. Предусмотрена отправка документов по электронной почте. С целью упорядочивания работ с документами предусмотрена возможность выдачи поручений и контроля их исполнения. Работа с документами. Для просмотра и редактирования документов архив использует соответствующие приложения. Ряд распространенных форматов документов, например, тексты, изображения, RTF-документы, HTML-документы и документы Microsoft Office, можно просматривать непосредственно, не переключаясь в другое приложение. Регистрация корреспонденции. В архив можно вести учет и регистрацию входящей и исходящей корреспонденции. При этом осуществляется автоматическая генерация сквозных регистрационных номеров. Коллективный доступ. Архив обеспечивает коллективный доступ сотрудников к документам, как для просмотра, так и для редактирования. Конфликты при одновременном редактировании документов исключаются благодаря механизму блокировки документов. Сетевой доступ. Входящие в комплект поставки компоненты позволяют организовать доступ к документов с помощью обычных web-браузеров. Это позволяет, например, подключить к системе клиентов или сотрудников, работающих вне офиса. Поиск. Архив позволяет искать документы не только по реквизитам учетной карточки, но и по тексту, с учетом морфологии русского языка, т.е. находить любые формы слов, указанных в поисковом выражении. Права доступа. Каждому объекту архива (документу или папке) можно назначить набор прав доступа. Поддерживаются группы пользователей и наследование прав. Права ранжируются на девять критериев: просмотр, открытие, редактирование, управление версиями, перемещение, право подписи, право изменения, создание и удаление. Все действия пользователей, связанные с изменениями объектов архива или доступом к ним, протоколируются и могут просматриваться администратором системы. Интеграция с внешними приложениями. В состав архива входят механизмы интеграции системы с внешними приложениями, позволяющие: - включать в существующий архив дополнительные функции; - разрабатывать автоматизированные системы пакетной обработки; - создавать узкоспециализированные приложения для работы с документами; - разрабатывать Интернет-решения для доступа к документным базам данных. Организационно-административная система вуза Система предназначена для решения следующих функций: 1. Рациональное использование вычислительной техники. 2. Усиление интеллектуальных возможностей субъектов педагогического управления и научно-исследовательской деятельности. 3. Совершенствование контроля над качеством учебно-воспитательного процесса. 4. Дозировка загрузки преподавателей и учащихся. 5. Оптимизация расписания занятий при наилучшем использовании помещений и оборудования с учетом педагогических и медицинских требований. 6. Создание сетевых графиков прохождения предметов и дисциплин. 7. Накопление, систематизация и оперативное представление необходимых сведений о результатах учебно-воспитательной деятельности. 8. Распределение затрат с учетом повышения эффективности учебного процесса. 9. Принятие оптимальных научно-обоснованных решений. Компоненты системы: 1. Компьютерные классы общего профиля (информатика, программирование, самостоятельная работа). 2. Компьютерные классы специализированного профиля/лаборатория (начальная школа, мультимедиа, моделирование). 3. Административный комплекс (архивы, финансы, справочная служба). 4. Демонстрационный комплекс (учебное телевидение, аудио- и видеосредства, слайды). 5. Издательский комплекс (набор, сканирование, редактирование, тиражирование). 6. Библиотечный комплекс. 7. Коммуникационный комплекс. Структура автоматизированной системы «Высшее учебное заведение» представлена на рисунке: В качестве примера приведем функции базовой подсистемы Учебная часть, предназначенной для организации учебного процесса: - организация работы с учебными планами по всем специальностям; - организация работы с тематическим планом; - планирование объемов учебной работы кафедрам; - распределение фонда почасовой оплаты по кафедрам; - организация работы приемной комиссии; - контроль выполнения учебных поручений кафедрами. При работе с учебным планом выделены следующие функциональные операции: Просмотр плана, Формирование выписки, Просмотр выписки (выписку можно формировать по факультету, по предмету, по курсу). Доступная информация хранится в базах: Учебный план, Тематический план, Объемы учебной работы, Карты заданий. По каждой базе возможна реализация следующих информационных операций: Просмотр записей, Редактирование базы в целом, Добавление записей, Удаление записей, Модификация записей. |