|
АИС_Конспект. Учебное пособие по предмету основы построения автоматизированных информационных систем для специальности
3.6. Документальные системы Документальные системы используются для работы с документами на естественном языке – монографиями, публикациями в периодике, сообщениями пресс–агентств или, например, текстами законодательных актов. Они обеспечивают анализ данных при неполном, приближенном представлении смысла. Наиболее распространенный тип документальных систем информационно–поисковые системы (ИПС), предназначенные для накопления и поиска по различным критериям документов на естественном языке.
3.6.1. Информационно-поисковый язык
Невозможность использования естественного языка (ЕЯ) в качестве основы для описания информации в документных ИПС, привело к необходимости применения искусственных языковых средств.
Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений с целью обеспечения возможности последующего их поиска
ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.
ИПЯ подразделяют на два основных типа:
• классификационные языки;
• дескрипторные языки.
Принципиальная разница между данными типами языков заключена в процедуре построения предложений (фраз) языка. В классификационных языках в лексический состав наряду со словами, выражающими простые понятия, заранее включены также словосочетания и фразы, выражающие сложные понятия. Для записи смыслового содержания сообщения в таких ИПЯ используются только отдельные элементы из этого набора, в том числе и готовые сложные понятия. Фактически построение сложных синтаксических конструкций заменяется выбором соответствующего сложного понятия (в виде словосочетания или фразы) из готового набора. Например:
Политика.Внутренняя.Федеральная
Политика.Внутренняя.Региональная
...
Политика.Внешняя.
Таким образом, с помощью таких языков производится классификация сообщений, т. е. отнесение их к классам, обозначенным лексическими единицами ИПЯ.
Частным случаем классификационного ИПЯ является рубрикатор, лексическими единицами которого являются названия тематических рубрик. В целом под рубрикатором некоторой предметной области понимается ориентированный граф, состоящий из независимых деревьев. Листья деревьев будем называть рубриками – объектами, инкапсулирующими знания о конкретных фрагментах данной предметной области. Все не листовые вершины являются классификационными родо–видовыми обобщениями листовых вершин и используются лишь при ведении информационного поиска.
Обычно рубрикатор формируется группой экспертов, на основании их знаний о предметной области с учетом информационных потребностей пользователей
Поскольку сложные понятия задаются заранее, до начала записи сообщений с помощью ИПЯ, образующие их слова связаны (скоординированы) определенными связями. Поэтому такие языки носят название предкоординируемых,
Другой тип языков составляют дескрипторные ИПЯ, в которых лексические единицы заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции – предложения или фразы создаются путем объединения лексических единиц во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на составление сложных понятий. Фактически из небольшого числа лексических единиц данные языки позволяют строить предложения, выражающие практически любой смысл. Это посткоординируемые языки.
Различают дескрипторные ИПЯ с грамматикой и без грамматики. Первые характеризуются наличием ряда жестких правил формирования синтаксических конструкций.
Например, при использовании дескрипторного ИПЯ с позиционной грамматикой, в котором при описании действий принято на первом месте записывать наименование действия, далее субъекта, а затем объекта этого действия, фраза: "Иванов владеет автомобилем" может выглядеть так: "владеть Иванов автомобиль".
В дескрипторных ИПЯ без грамматики такие правила отсутствуют. Приведенный выше пример может быть одинаково представлен последовательностями "владеть Иванов автомобиль", «Иванов владеть автомобиль" и т. п.
Кроме того, различают дескрипторные ИПЯ с контролируемой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре ИПЯ, в то время как на лексический состав вторых не налагается никаких ограничений, и он может постоянно пополняться за счет включения новых лексических единиц.
3.6.2. Структра поисковой системы
Подсистема ввода и регистрации Подсистема обработки Подсистема хранения Подсистема поиска
Текстовые документы, поступающие на вход системы, могут быть представлены, как в бумажном, так и в электронном виде (в одном из многочисленных форматов). Поэтому подсистема ввода и регистрации решает следующие основные задачи:
создание электронных копий бумажных документов (например, сканирование с последующим распознаванием текста или ввод с клавиатуры); обеспечение подключения к каналам доставки электронных документов; распознавание, а при необходимости и преобразование формата электронных документов; присвоение электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имей (при необходимости сохранения прежних имен).
Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. База документов может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления базы документов характеризуется двумя недостатками:
неэффективным использованием дискового пространства; низкой скоростью доступа при большом количестве файлов.
Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т. п., обеспечивающих возможность доступа к данным по предъявляемому идентификатору.
Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа его ПОД (поисковый образец документа), в который заносится информация, необходимая для последующего noиска документа.
ПОД сохраняются в индексе. Логически индекс представляет собой таблицу, строки которой соответствуют документам, а столбцы информационным признакам, на основе которых строится ПОД. В ячейках таблицы могут храниться либо 1, либо 0 в зависимости от наличия или отсутствия данного признака в данном документе. Например, в качественабора признаков может использоваться набор слов. В этом случае в индексе в строке, соответствующей тексту, единицы будут в столбцах, соответствующих словам, встречающимся в этом тексте.
Такая таблица будет сильно разреженной, и хранить все значения не имеет смысла. Поэтому на практике используют сверткутаблицы по строкам или столбцам.
В первом случае хранят номера строк, в которых рассматриваемый столбец имеет значение 1. Это инверсная форма хранения .
Во втором случае хранятся номера столбцов, содержащих 1, такую форму хранения называют прямой.
Поскольку при свертке таблицы структура индекса усложняется, то для его поддержания могут использоваться средства СУБД.
При поступлении на вход системы запроса пользователя, запрос преобразуется в поисковое предписание (ПП) и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения критерия смыслового соответствия. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.
3.7. Гипертекстовые информационные системы В связи с широким распространением сети Интернет и сетей Интранет становится актуальным разработка универсальных механизмов обмена данными между различными информационными системами сети.
В качестве основы такой технологии используется XML (eXtensible Markup Language) стандарт. Язык XML представляет собой стандарт на разработку гипертекстовых документов и определяет правила передачи этих документов между приложениями сети. Технология XML это так же протокол хранения и передачи информации.
Документ XML представляет собой разметку, которая состоит из следующих частей: пролога и основной части.
В прологе хранятся общие сведения о документе для процессора XML. Данные сведения оформляются в виде директивы. Например, директива задающая версию XML и кодовую таблицу документа имеет вид:
type – тип кодировки. Для использования кириллицы могут применяться кодировки:
windows – 1251 и ISO – 8859 – 5.
За прологом документа следует его основная часть, в которой хранится разметка информации. Разметка – выделение структурных составляющих документа. Информационные единицы выделяются с помощью тегов. Теги бывают двух основных видов.
Парные:
информация
Не парные:
name – наименование тега. Наименование тегов выбираются разработчиком по смыслу документа и должны писаться латинскими буквами. Названия тегов регистрозависимые.
При формировании разметки необходимо получить «корректно форматированный документ». Такой документ должен отвечать следующим основным требованиям:
начинаться с пролога; содержать корневой тег; внутри корневого элемента должны располагаться дочерние; в дочерний элемент может вкладываться другой;
Корректные документы могут так же содержать ссылки на символьные сущности. Такие ссылки могут быть именованные (см. таблицу 3.4), либо хранят код символа в кодировке Unicode (Unicode Consortium, Unicode Inc).
Таблица 3.4. Именованные ссылки. Ссылка
| Символ
| &
| &
| '
| ‘
| >
| >
| <
| <
| "
| “
| Примеры ссылок на символ по его коду:
© (авторское право )
® (торговая марка )
— (длинное тире )
В корректном документе могут находится так же комментарии, которые оформляются в виде:
Так как наименования тегов регистрозависимые, то парные теги должны быть замкнуты, пересечение тегов не допускается.
Правильное вложение тегов:
Строка текста
Неверное вложение тегов:
Строка текста
Хранятся XML документы в текстовых файлах с расширением xml.
Пример корректного структурированного XML документа:
Акционерное общество
АО Пульсар:
Поставка
серверов, рабочих станций.
Проектирование и развертывание компьютерных сетей
В документе содержится справочная информация об акционерном обществе. Корректные документы могут использоваться при создании документальных информационных систем.
При создании фактографических информационных систем используются структурированные XML документы. Такие документы состоят из блоков данных одинаковой структуры, которые можно трактовать как записи. Отличие заключается только в информационном содержании блока.
Пример структурированного документа:
100
Иcлентьева И.А
Бухгалтерия
12000
200
Перова А.И.
Бухгалтерия
10000
300
Иванов И.И.
Склад
15000
worker>
firma>
В документе хранится информация о трех служащих организации в блоках данных worker. Фиксируется о служащем фирмы: табельный номер, фамилия, наименование отдела, ставка.
Для работы с XML документами используют различные технологии. Ниже перечислены технологии доступа, которые в настоящее время получили наиболее широкое распространение:
каскадные таблицы стилей CSS (Cascading Style Sheets); расширенные каскадные стилевые таблицы XSLT (Extensible Stylesheet Language Transformations); связывание XML документа с HTML страницей; использование объектной модели XML документа и скриптов,
написанных на языке программирования JavaScript.
В данном курсе рассматриваются технология каскадных стилевых таблиц. С помощью данной технологии выполняется преобразование XML документов хранящихся в документальных информационных системах. При этом XML документ – разметка соответствующего документа. Каскадная стилевая таблица служит для получения требуемого вида документа при его просмотре.
Использование каскадной стилевой таблицы требует выполнения следующих шагов:
создание стилевой таблицы и запись ее в файле с расширением CSS; подсоединение ее к документу в прологе с помощью описания:
.
Файл CSS представляет собой набор правил преставления информации, связанной с тегом XML. В общем виде правило имеет следующую структуру:
Тег|Теги {параметр1: значение;
параметр2: значение;
....
}
Где Тег (Теги) – тег их XML документа, параметр – стилевой параметр, используемый для оформления информации, связанной с тегом, значение – значение параметра.
Некоторые стилевые параметры приведены в приложении 1. При их использовании нужно учитывать ряд особенностей.
Создание стилевых таблиц требует учета нотации параметров и их значений, так как они регистрозавимые.
При выводе изображения в документе, нужно использовать пустой тег. Изображение – фон этого узла. Нужно обязательно задать размер изображения, запретить его повтор в области узла, указать тип выравнивания фонового рисунка.
Размещение документа в документальной системе может потребовать создания его описания. При использовании технологии XML это можно решить с помощью DTD (Data Type Definition) таблицы.
Таблица DTD описывает структуру документа. Задается таблица в прологе документа. В виде:
DOCTYPE name
[
Описание элементов
]>
name – имя корневого узла.
Описание элементов–тегов задается с помощью объявления:
ELEMENT Имя_тега описание_содержимого>
Описание содержимого:
EMPTY – пустой элемент;
ANY – любое содержимое;
(#PCDATA) – символьное содержание.
В качестве описи содержимого могут указываться вложенные элементы:
Имя_тега(вложенные_элементы).
Где Имя_тега – наименование XML тега.
При описании вложенных структур действуют следующие правила:
Перечисление через запятую – обязательный перечень элементов в документе. Это последовательная форма. Использования символа | – выборочная форма. Обязательно наличие одного из тегов.
Документ XML, который отвечает структуре DTD называется валидным. Пример валидного документа:
]>
Акционерное общество АО Пульсар:
Поставка серверов, рабочих станций.
Проектирование и развертывание компьютерных сетей
Правила CSS находятся в файле text.css содержание, которого приводится ниже, действие правил показано на рисунке 3.7.
Рис.3.7. Действие правил. Браузер Microsoft Internet Explorer.
Файл с правилами CSS:
line1,line2,line3,skip{display:block;}
skip{padding:3px;}
italic{font-style:italic;}
bold{font-weight:bold;} Для уточнения содержания используются символы, указываемые рядом с элементами, которые сведены в таблицу 3.5.
Таблица 3.5. Символы вложения. Символ
| Значение
| ?
| Ни одного или один из вложенных элементов
| +
| Один или несколько из вложенных элементов
| *
| Ни одного или несколько из вложенных элементов
| Пример:
]>
Поставка серверов, рабочих станций.
Проектирование и развертывание компьютерных сетей.
© Education XML
Рис. 3.8. Действие правил. Браузер Microsoft Internet Explorer.
Правила CSS размещены в файле text2.css, и имеют вид:
line,header,grline,info{display:block;}
header{font-weight:bold;}
grline{background-image:url(pulser.gif);
background-position:center;
background-repeat:no-repeat;
width:500px;
height:5px;
}
Действие правил показано на рисунке 3.8.
|
|
|