Главная страница
Навигация по странице:

  • 4 Автоматизированные информационные системы и CASE-технологии 4.1 Основные классы информационных систем

  • Базовые информационные технологии и процессы. И процессы


    Скачать 2.47 Mb.
    НазваниеИ процессы
    Дата12.09.2022
    Размер2.47 Mb.
    Формат файлаpdf
    Имя файлаБазовые информационные технологии и процессы.pdf
    ТипУчебное пособие
    #673532
    страница8 из 12
    1   ...   4   5   6   7   8   9   10   11   12
    Разметка документа
    Каждый документ имеет три составляющие...

    Каждый документ начинается с пролога. В данном случае – это инструкция
    , которая является XML-декларацией. Ее наличие иденти- фицирует XML-документ и указывает, какой версии XML он соответствует.
    В данном листинге нет указания на используемое определение типа доку- мента (DTD), так как, в отличие от SGML, XML не требует обязательного опре- деления DTD для каждого документа. При необходимости описание или указа- ние на месторасположение DTD также помещается в прологе документа.
    За прологом следует тело документа, которое представляет собой жесткую структуру элементов, подчиняющихся принципу вложенности. Именование эле- ментов либо соответствует объявленному DTD, либо произвольно. Обязатель- ным является наличие как открывающего, так и закрывающего маркера в каждом элементе, ибо без этого при отсутствии DTD определить структуру документа невозможно.
    Каждый из элементов по аналогии с SGML может содержать атрибуты, предназначенные для более детального описания семантически однородных эле- ментов.
    Возможно наличие пустых элементов, то есть элементов без содержимого.
    Такие элементы обозначаются с помощью символа '/' перед закрывающей угло- вой скобкой, например:

    В общем случае XML-документ может иметь шесть типов компонент:
    1) элементы;
    2) ссылки на текстовые или бинарные объекты (entity references);
    3) комментарии;

    77 4) инструкции обработки;
    5) отмеченные разделы данных (CDATA sections);
    6) декларацию типа документов.
    Мы не будем подробно останавливаться на всех типах компонентов. Отме- тим лишь, что инструкции обработки в соответствии со своим названием пред- назначены для предоставления информации программам, которые будут в даль- нейшем обрабатывать документ. Тип документа определяется тем же способом, что и в SGML, а отмеченные разделы данных позволяют передавать размещен- ные в них данные или текст «как есть», без анализа его структуры.
    Что можно сказать про структурную и семантическую корректность раз- метки? Необязательность определения DTD, с одной стороны, существенно об- легчает XML-разметку, но, с другой стороны, может значительно усложнить программы обработки. Каким образом определить в данном случае корректность
    XML-документа?
    Чтобы определить класс правильно составленных (с точки зрения XML) документов, вводятся понятия структурной и синтаксической корректности.
    XML-документ является структурно корректным, если он отвечает следующим требованиям:
     Конструкция документа должна отвечать общим правилам составления документа, определенным в спецификации. В частности, некоторые конструкции (например, инструкция ) могут при- сутствовать только в определенных местах документа.
     Никакой атрибут не используется более одного раза в одном маркере элемента.
     Значения атрибутов не ссылаются на внешние объекты.
     Все непустые элементы удовлетворяют принципу вложенности.
     Все используемые объекты продекларированы.
     Нет ссылок на бинарные объекты непосредственно из текста. Такие ссылки возможны лишь в момент декларации объекта.
     Текстовые объекты не являются рекурсивными.
    По определению, если документ не является структурно корректным, то он не является и XML-документом. При наличии у документа DTD возможна его проверка на синтаксическую корректность. При этом XML-документ считается синтаксически корректным, если он является структурно корректным и полно- стью соответствует всем правилам, изложенным в соответствующем DTD.

    78
    Ссылки в XML-документах.Для языка разметки с непредопределенными названиями элементов и даже иногда отсутствующим DTD невозможно опреде- лить стандарт на механизм связывания через элементы. Напротив, ссылающиеся и указываемые объекты должны иметь специальные атрибуты, которые иденти- фицируют их в этом качестве.
    Все элементы XML имеют специально зарезервированный атрибут XML-
    LINK. Присутствие этого атрибута в элементе определяет наличие ссылки, а зна- чение атрибута указывает, какой тип ссылки в данном месте используется. В
    XML, в отличие от HTML, возможно создание не только однонаправленных ги- пертекстовых ссылок по типу «один-к-одному», но и двунаправленных ссылок.
    Используя HTML и перейдя по стандартной гипертекстовой ссылке на новую страницу, пользователь имеет только одну возможность перехода назад – нажа- тием кнопки Back в веб-браузере. При использовании двунаправленных ссылок пользователь не только может вернуться по ссылке в то место, откуда пришел, но и перейти на те страницы, которые ссылаются на указываемый объект.
    То, что произойдет при переходе по ссылке, определяется атрибутом
    SHOW, который может иметь одно из следующих значений: EMBED, REPLACE,
    NEW.
    В первом случае указываемый объект будет импортирован в то место, от- куда идет ссылка. Это произойдет либо при показе документа, либо при его об- работке. Такой подход может быть полезен при вставке некоторого текста из другого файла или при вставке картинки внутрь текста. При этом возможна как автоматическая подстановка объекта, так и ручная, требующая от пользователя некоторых действий.
    Во втором случае ссылающийся объект будет заменен на указываемый.
    Это может быть полезным, например, при наличии двух вариантов некоторого компонента. При помощи этого механизма возможен просмотр обеих версий или обработка по выбору, в зависимости от наличия тех или иных инструкций обра- ботки.
    В последнем случае исходный объект исчезает, и происходит полный пе- реход к указываемому объекту. Такой механизм реализован в обычных гипер- текстовых ссылках, когда при переходе по ссылке на экране отображается новая
    HTML-страница.

    79
    Механизмы ссылок и адресации в XML описываются в трех специфика- циях W3C: XPath, XPointer и Xlink. Xlink описывает механизмы связывания: ор- ганизацию многонаправленных и однонаправленных ссылок между ресурсами, аннотированных ссылок и внешних наборов ссылок.
    Отображение документов.Используя XML, автор документа может са- мостоятельно определять тот набор элементов, который наиболее точным обра- зом будет соответствовать его структурным компонентам. Но свобода выбора имеет свою цену – набор используемых элементов не обладает предопределен- ной семантикой. Для совместной работы с XML-документами необходим стан- дартный механизм получения внешнего представления. Таким механизмом для
    XML является XSL (eXtensible Style Language – расширяемый язык стилей).
    Обычные таблицы стилей, используемые, например, для работы с HTML, содержат набор инструкций, которые говорят программе (веб-навигатору, тек- стовому редактору или процессору печати), каким образом преобразовывать структуру документа во внешнее представление. При этом таблицы стилей со- держат такие инструкции, как:
     отображать гипертекстовые связи синим цветом;
     начинать главу с новой страницы;
     вести сквозную нумерацию рисунков по всему документу.
    Необходимо понимать, что использование или наложение стиля – это не что иное, как преобразование исходного документа к требуемому виду. Доку- мент, отображаемый на экране, и документ, написанный и размеченный авто- ром, – это совсем не одно и тоже. Степень трансформации может меняться в за- висимости от презентационных целей – страница документа для публикации в
    Интернете и для высококачественной полноцветной полиграфической печати должна обрабатываться по-разному, но в любом случае требуется некоторое пре- образование.
    Использование языков разметки с предопределенной семантикой позво- ляет существенно упростить реализацию таблицы стилей. Программа, обрабаты- вающая, например, размеченную таблицу, может отобразить ее различным спо- собом, но она заранее, даже без использования таблицы стилей, знает, что обра- батываемый объект является таблицей.
    В случае использования XML-разметки XSL не только должен определять, каким образом тот или иной элемент будет отображаться, скажем, на экране, но и каким объектом он будет в итоге являться. Для того чтобы передать содержа- ние XML-документа наиболее эффективным образом, необходимо две вещи:

    80 стандартный язык, описывающий требуемую разметку на выходе (в XSL это форматирующие объекты – formatting objects), и средство для преобразования исходного документа к требуемой разметке (в XSL это язык трансформации –
    transformation language). XSL включает стандартный словарь форматирующих объектов с хорошо определенными свойствами для осуществления контроля.
    Форматирующие объекты, такие как страница, блок текста, таблица, список и другие, позволяют авторам стилей получать высококачественное внешнее пред- ставление.
    Работа с XML начинается с обработки исходного текста программой-ана- лизатором (parser). Эта программа проверяет структурную и синтаксическую корректность XML-документа и создает дерево элементов исходного документа.
    Далее вступает в действие XSL-процессор, который в качестве исходных данных берет построенное дерево и соответствующий стиль. Шаг за шагом, начиная с корневого элемента, XML-процессор по шаблону, определенному в таблице сти- лей, обрабатывает всю структуру документа. Получающееся в результате дерево элементов может состоять из форматирующих объектов, которые и описывают внешнее представление документа. Форматирующие объекты представляют со- бой описание, независимое от устройства представления, и, следовательно, ко- нечный документ может быть использован различными устройствами вывода.
    Возможна и альтернатива форматирующим объектам. Так, в случае необ- ходимости преобразования к HTML-виду вместо форматирующих объектов бу- дут использованы элементы языка разметки HTML. При этом результирующий документ будет выглядеть очень похожим на HTML-документ и обрабатываться стандартными веб-навигаторами. Однако следует понимать, что любое XSL-пре- образование XML-документа в результате даст тоже XML-документ.
    Основными преимуществами XSL над другими механизмами наложения стилей, помимо возможности работы с элементами непредопределенной семан- тики, являются:
     возможность изменения порядка следования элементов в результирую- щем документе;
     возможность сортировки и сравнения элементов текста (список исполь- зуемых терминов, упомянутых авторов);
     повторная обработка некоторых элементов (например, для печати раз- ными стилями названия главы в начале страницы, в колонтитуле, оглав- лении);

    81
     возможность генерации вспомогательного текста («Глава», «Оглавле- ние», «Список иллюстраций» и т. п.);
     подавление вывода некоторого текста (удаление редакторских приме- чаний или вывод только предисловия, а не полного документа).
    · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·
    Контрольные вопросы по главе 3
    · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·
    1. Что понимается под разметкой документа?
    2. Вспомните особенности структурной разметки документа.
    3. Что необходимо иметь для эффективной работы с языками разметки?
    4. На каких основных положениях основывается разметка, определяемая в SGML?
    5. Приведите достоинства SGML.
    6. Что определяет DTD?
    7. Чем отличается HTML от SGML?
    8. Что привело к созданию XML?
    9. Чем определяется структура XML-документа?

    82
    4 Автоматизированные информационные системы
    и CASE-технологии
    4.1 Основные классы информационных систем
    В 1960-х гг. была осознана необходимость применения средств компью- терной обработки хранимой информации там, где были накоплены значительные объемы полезных данных – в военной промышленности, в бизнесе. Появились автоматизированные информационные системы (АИС) – программно-аппарат- ные комплексы, предназначенные для хранения, обработки информации и обес- печения ею пользователей. Первые АИС работали преимущественно с информа- цией фактического характера, например, с характеристиками объектов и их свя- зей. По мере «интеллектуализации» АИС появилась возможность обрабатывать текстовые документы на естественном языке, изображения и другие виды и фор- маты представления данных.
    Несмотря на то что принципы хранения данных в системах обработки фак- тической и документальной (текстовой) информации схожи, алгоритмы обра- ботки в них заметно различаются. Поэтому в зависимости от характера инфор- мационных ресурсов, которыми оперируют такие системы, принято различать два крупных их класса – документальные и фактографические.
    Документальные системы служат для работы с документами на естествен- ном языке – монографиями, публикациями в периодике, сообщениями пресс- агентств, текстами законодательных актов. Они обеспечивают их смысловой анализ при неполном, приближенном представлении смысла. Наиболее распро- страненный тип документальных систем – информационно-поисковые системы
    (ИПС), предназначенные для накопления и поиска по различным критериям до- кументов на естественном языке.
    Другой большой класс автоматизированных систем – фактографические системы. Они оперируют фактическими сведениями, представленными в виде специальным образом организованных совокупностей формализованных запи- сей данных. Центральное функциональное звено фактографических информаци- онных систем – системы управления базами данных (СУБД). Фактографические системы используются не только для реализации справочных функций, но и для решения задач обработки данных. Под обработкой данных понимается специаль-

    83 ный класс решаемых на ЭВМ задач, связанных с вводом, хранением, сортиров- кой, отбором и группировкой записей данных однородной структуры. В боль- шинстве случаев эти задачи предусматривают предоставление пользователям итоговых результатов обработки в виде отчетов табличной формы.
    Задачи, связанные с обработкой данных, широко распространены в любой деятельности. На их основе ведут учет товаров в супермаркетах и на складах, начисляют зарплату в бухгалтериях и т. д. Невозможно представить себе дея- тельность современного предприятия или учреждения без использования АИС.
    Эти системы составляют фундамент информационной деятельности во всех сфе- рах, начиная с производства, управления финансами и телекоммуникациями и заканчивая управлением семейным бюджетом.
    Массивы информации, накопленные в АИС, должны быть оптимальным образом организованы для их компьютерного хранения и обработки, обяза- тельно обеспечивается их целостность и непротиворечивость. Используя функ- ции стандартных файловых систем, невозможно добиться нужной производи- тельности при решении подобных задач, поэтому все автоматизированные ин- формационные системы опираются на СУБД.
    Среди фактографических систем важное место занимают два класса: си- стемы операционной обработки данных и системы, ориентированные на анализ данных и поддержку принятия решений.
    Первые рассчитаны на быстрое обслуживание относительно простых зап- росов большого числа пользователей. Системы операционной обработки рабо- тают с данными, которые требуют защиты от несанкционированного доступа, от нарушений целостности, от аппаратных и программных сбоев. Время ожидания выполнения типичных запросов в таких системах не должно превышать несколь- ких секунд. Сфера применения таких систем – это системы платежей, резерви- рования мест в поездах, самолетах, гостиницах, банковские и биржевые системы.
    Логическая единица функционирования систем операционной обработки дан- ных – транзакция. Транзакция – это некоторое законченное с точки зрения поль- зователя действие над базой данных. В современной литературе для обозначения систем операционной обработки часто используют термин OLTP (On-Line
    Transaction Processing – оперативная обработка транзакций или выполнение транзакций в режиме реального времени). Ниже мы рассмотрим, как происходит выполнение транзакций в OLTP-системах, как в них поддерживается целост- ность БД и какие средства используются для эффективного управления ресур- сами в распределенных системах операционной обработки данных.

    84
    Другой класс информационных систем – системы поддержки принятия ре- шений (аналитические системы). Эти системы ориентированы на выполнение более сложных запросов, требующих статистической обработки исторических
    (накопленных за некоторый промежуток времени) данных, моделирования про- цессов предметной области, прогнозирования развития тех или иных явлений.
    Аналитические системы также часто включают средства обработки информации на основе методов искусственного интеллекта, средства графического представ- ления данных. Эти системы оперируют большими объемами исторических дан- ных, позволяя выделить из них содержательную информацию – получить знания из данных.
    Задачи систем поддержки принятия решений. Как уже было сказано, в настоящее время современные вычислительные системы и компьютерные сети позволяют накапливать большие массивы данных для решения задач обработки и анализа. К сожалению, сама по себе машинная форма представления данных содержит информацию, необходимую человеку, в скрытом виде, и для ее извле- чения нужно использовать специальные методы анализа данных.
    Большие объемы информации, с одной стороны, позволяют получить бо- лее точные расчеты и анализ, с другой – превращают поиск решений в сложную задачу. Неудивительно, что первичный анализ данных был переложен на компь- ютер. В результате появился целый класс программных систем, призванных об- легчить работу людей, выполняющих анализ (аналитиков). Такие системы при- нято называть системами поддержки принятия решений – СППР (Decision Sup-
    port System – DSS).
    Для выполнения анализа СППР должна накапливать информацию, обладая средствами ее ввода и хранения. Можно выделить три основные задачи, решае- мые в СППР: ввод данных; хранение данных; анализ данных. Таким образом,
    СППР – это системы, обладающие средствами ввода, хранения и анализа дан- ных, относящихся к определенной предметной области, с целью поиска реше- ний.
    Ввод данных в СППР осуществляется либо автоматически от датчиков, ха- рактеризующих состояние среды или процесса, либо человеком-оператором. В первом случае данные накапливаются путем циклического опроса или по сиг- налу готовности, возникающему при появлении информации. Во втором случае
    СППР должны предоставлять пользователям удобные средства ввода данных, контролирующие корректность вводимых данных и выполняющие сопутствую-

    85 щие вычисления. Если ввод осуществляется одновременно несколькими опера- торами, то система должна решать проблемы параллельного доступа и модифи- кации одних и тех же данных разными пользователями.
    Постоянное накопление данных приводит к непрерывному росту их объ- ема. В связи с этим на СППР ложится задача обеспечить надежное хранение больших объемов данных. На СППР также могут быть возложены задачи предот- вращения несанкционированного доступа, резервного хранения данных, архиви- рования и т. п.
    Основная задача СППР – предоставить аналитикам инструмент для выпол- нения анализа данных. Необходимо отметить, что для эффективного использо- вания СППР ее пользователь-аналитик должен обладать соответствующей ква- лификацией. Система не генерирует правильные решения, а только предостав- ляет аналитику данные в соответствующем виде (отчеты, таблицы, графики и т. п.) для изучения и анализа, именно поэтому такие системы обеспечивают вы- полнение функции поддержки принятия решений. И если с одной стороны каче- ство принятых решений зависит от квалификации аналитика, то с другой сто- роны рост объемов анализируемых данных, высокая скорость обработки и ана- лиза, а также сложность использования машинной формы представления данных стимулируют исследования и разработку интеллектуальных СППР. Для таких
    СППР характерно наличие функций, реализующих отдельные умственные воз- можности человека [4].
    По степени «интеллектуальности» обработки данных при анализе выде- ляют три класса задач анализа:
    информационно-поисковый – СППР осуществляет поиск необходимых данных. Характерной чертой такого анализа является выполнение за- ранее определенных запросов;
    оперативно-аналитический – СППР производит группирование и обоб- щение данных в любом виде, необходимом аналитику. В отличие от информационно-поискового анализа в данном случае невозможно за- ранее предсказать необходимые аналитику запросы;
    интеллектуальный – СППР осуществляет поиск функциональных и ло- гических закономерностей в накопленных данных, построение моделей и правил, которые объясняют найденные закономерности и/или про- гнозируют развитие некоторых процессов (с определенной вероятно- стью).

    86
    Обобщенная архитектура СППР может быть представлена следующим об- разом (рис. 4.1).
    Рис. 4.1 – Обобщенная архитектура СППР
    Рассмотрим отдельные подсистемы более подробно.
    Подсистема ввода данных. В таких подсистемах, относящихся к классу
    OLTP-систем, выполняется операционная (транзакционная) обработка данных.
    Для реализации этих подсистем используют обычные системы управления ба- зами данных.
    Подсистема хранения. Для реализации данной подсистемы используют со- временные СУБД и системы, отвечающие концепции хранилищ данных.
    Подсистема анализа. Данная подсистема может быть построена на основе:
     подсистемы информационно-поискового анализа на основе реляцион- ных СУБД и статических запросов с использованием языка структур- ных запросов SQL;

    87
     подсистемы оперативного анализа. Для реализации таких подсистем применяется технология оперативной аналитической обработки дан- ных OLAP (On-line analytical processing), использующая концепцию многомерного представления данных;
     подсистемы интеллектуального анализа. Данная подсистема реализует методы и алгоритмы Data Mining (добыча данных).
    1   ...   4   5   6   7   8   9   10   11   12


    написать администратору сайта