Главная страница
Навигация по странице:

  • 3.3 Стандартный обобщенный язык разметки SGML

  • Базовые информационные технологии и процессы. И процессы


    Скачать 2.47 Mb.
    НазваниеИ процессы
    Дата12.09.2022
    Размер2.47 Mb.
    Формат файлаpdf
    Имя файлаБазовые информационные технологии и процессы.pdf
    ТипУчебное пособие
    #673532
    страница6 из 12
    1   2   3   4   5   6   7   8   9   ...   12


    Каждый документ имеет три составляющие...
    В первом случае мы описываем раздел, который имеет заголовок и текст в виде абзаца, то есть определяем структуру документа. Структурная разметка го- ворит о том, как текст устроен, то есть из каких частей он состоит и как эти части друг с другом соотносятся.
    Во втором случае мы показываем, каким образом данный текст должен быть отображен на бумаге или на мониторе – выделить шрифтом Arial Bold раз- мера 16, отступить по вертикали 20, сделать табуляцию 5, выделить шрифтом
    Times New Roman размера 12. Здесь мы имеем дело с разметкой представления документа, которая говорит о том, что делать с текстом, как его отображать.
    Исторически разметка представления появилась раньше, и в течение дли- тельного времени разметка документа была ориентирована исключительно на внешний (бумажный) вид документа. Но в последнее время ситуация суще- ственно меняется – быстрый рост числа документов, их создание, хранение и ис- пользование в электронном виде, автоматизированная обработка и обмен доку- ментами предъявляют новые требования к разметке. В числе этих требований – независимость от среды представления, осуществление эффективного поиска, возможность повторного использования как документа целиком, так и отдель- ных его элементов.

    66
    Сейчас существует большое число устройств, с помощью которых можно отображать документы. Среди таких устройств – и дисплеи, от компьютерных до мобильных, и принтеры, от формата A1 до встроенных в кассовые аппараты, и различные синтезаторы речи, и многое другое. Для воспроизведения некото- рого документа на всех этих устройствах требуется либо наличие огромного ко- личества вариантов одного и того же документа, только размеченного разными способами, либо существование единой универсальной разметки и программных средств для корректного преобразования в соответствующее внешнее представ- ление «на лету».
    Быстрый рост количества документов привел к тому, что поиск нужной информации стал занимать все больше и больше времени. Например, если нам необходимо найти в Интернете информацию об авторе статей по фамилии Ду- ров, то простой контекстный поиск даст нам огромное количество ссылок на те места, где встречается данная фамилия. После чего нам придется либо просмот- реть все полученные ссылки, либо задавать дополнительную информацию для сужения области поиска. Если бы мы могли сразу указать, что фамилию следует искать только среди авторов журнальных статей технического плана, это во много раз упростило бы поиск. Но для этого необходимо, чтобы документы, среди которых ведется поиск, были размечены должным образом с явным выде- лением элементов «автор», «тематика» и им подобных.
    Возможность повторного использования документов или отдельных его частей приводит к тому, что мы не составляем каждый раз заново отчет или де- ловое письмо, используем в своей работе шаблоны контрактов, изменяя лишь некоторую существенную для данного случая информацию. Но делаем мы это преимущественно вручную. Если говорить об автоматизированном формирова- нии, связывании, повторном использовании документов, то это становится воз- можным только тогда, когда документы как информационные объекты являются структурированными, а используемая метаинформация полно и ясно описывает характеристики каждого элемента документа.
    Все перечисленные задачи можно решить, используя исключительно структурный подход при разметке документов. Именно структурная разметка позволяет выделять смысловые элементы, определять их связи с другими эле- ментами как в рамках одного документа, так и вне этих рамок. Далеко не всякая разметка настолько формализована, что можно говорить о языке разметки. Язык разметки должен определять ряд специальных инструкций, правил и соглашений для описания структуры элементов документа и отношений между элементами

    67 этой структуры. Специальные инструкции, их еще называют маркерами или те- гами, в структурированных документах должны определенным образом кодиро- ваться, то есть выделяться среди основного текста. Их главное назначение – слу- жить управляющими инструкциями для программных средств обработки струк- турированных текстов.
    Мы остановимся на истории возникновения таких языков разметки, как
    SGML и HTML, а также рассмотрим, что собой представляет XML.
    3.3 Стандартный обобщенный язык разметки SGML
    Стандартный обобщенный язык разметки (Standard Generalized Markup
    Language – SGML) был утвержден международной организацией по стандартиза- ции (International Standards Organisation) в качестве стандарта ISO 8879:1986 в
    1986 г.
    SGML – это метаязык, то есть средство формального описания прикладных языков разметки, предназначенных для кодирования структурированных доку- ментов.
    Разметка, определяемая в рамках SGML, основывается на двух постулатах:
     разметка должна описывать структуру документа, а не указывать, что с документом или его частями должно происходить;
    разметка должна быть строгой, чтобы программы и базы данных могли быть использованы для хранения и обработки размеченных докумен- тов.
    Структура документа с точки зрения SGML представляет собой граф ком- понентов, вершины которого являются компонентами, а ребра – связями между ними. Основным компонентом структурированного текста является элемент. Та- ким образом, каждый структурированный документ состоит из некоторого набора семантических элементов, связанных друг с другом по определенным правилам.
    Синтаксическое представление элемента документа показано на рисун- ке 3.1. Тело элемента (содержательный текст) обрамляется открывающим и за- крывающим маркерами. Каждый маркер состоит из имени элемента, уникаль- ного для элементов одинаковой семантики, и может иметь некоторое количество атрибутов. Атрибуты предназначены для более детального описания текста среди семантически однородных элементов.

    68
    Элемент
    Имя элемента
    Атрибут Значение
    Открывающий маркер
    Тело элемента
    Закрывающий маркер
    1   2   3   4   5   6   7   8   9   ...   12


    написать администратору сайта