Главная страница
Навигация по странице:

  • Размещение данных в информационном хранилище

  • Двухуровневая архитектура

  • Схема двухуровневой архитектуры информационного хранилища Трехуровневая архитектура

  • Схема трехуровневой архитектуры информационного хранилища 8.4. Технологии электронного документооборота

  • Система управления документами

  • Инте

  • Информационные системы и технологии. М. С. Гаспариан Г. Н. Лихачева Информационные системы


    Скачать 1.98 Mb.
    НазваниеМ. С. Гаспариан Г. Н. Лихачева Информационные системы
    АнкорИнформационные системы и технологии.pdf
    Дата20.09.2017
    Размер1.98 Mb.
    Формат файлаpdf
    Имя файлаИнформационные системы и технологии.pdf
    ТипУчебно-методический комплекс
    #8859
    страница17 из 26
    1   ...   13   14   15   16   17   18   19   20   ...   26
    ие-
    рархического хранилища, Data Migration – миграции данных.
    HSM – система создает как бы «продолжение» дискового про- странства файлового сервера на вторичных устройствах (биб- лиотеках-автоматах), доступного приложениям (рис. 8.1).
    При конфигурации HSM указывается размер простран- ства на сервере, отводимого под буфер для обмена с оптиче- скими библиотеками. Как только это пространство становится занятым и требуются данные из оптической библиотеки- автомата, реализуется алгоритм миграции данных: наименее используемые файлы с сервера переносятся в библиотеку- автомат, освободившееся пространство передается буферу.
    Из библиотеки в буфер перекачиваются требуемые файлы.
    Если приложение обратится к файлу, перенесенному в биб- лиотеку-автомат, HSM повторяет алгоритм миграции.

    Информационные технологии
    262
    ПК клиента
    ПК клиента
    Сервер базы данных
    Буф ер
    Библиотека - автомат
    Рис. 8.1. Размещение данных
    в информационном хранилище
    Все перемещения выполняются автоматически и прило- жения «не подозревают» о наличии вторичных устройств хранения. Смена оптических дисков в библиотеках-автоматах позволяет неограниченно увеличивать базу данных.
    Для хранения данных в информационных хранилищах обычно используются выделенные серверы, кластеры серве- ров (группа накопителей, видеоустройств с общим контрол- лером), мейнфреймы.
    Для доступа к информационным хранилищам требуют- ся технологии, удовлетворяющие следующим условиям:
     малая задержка. Хранилища данных порождают два типа трафика. Первый содержит запросы пользователей, вто- рой – ответы. Для формирования ответа требуется вре- мя. Но так как число пользователей велико, время ответа становится неопределенным. Для обычных данных такая задержка не существенна, а для мультимедийных – су- щественна;
     высокая пропускная способность. Так как данные для отве- та могут находиться в разных базах на значительных рас- стояниях друг от друга, требуется время на формирование ответа. Поэтому для обеспечения сбалансированной на-
    Библиотека-автомат

    Технологии интегрированных
    информационных систем общего назначения
    263 грузки требуется скорость передачи не менее 100 Мега бит/сек;
     надежность. При работе с кластерами серверов интен- сивный обмен данными требует, чтобы вероятность по- тери пакета была очень мала;
     возможность работы на больших расстояниях, так как серверы кластера могут быть удалены друг от друга.
    Всем этим требованиям удовлетворяет ATM-технология, технологии Fast Ethernet, Fibre Channel и др.
    Особенность технологий информационного хранилища состоит в том, что они предлагают среду накопления данных, которая не только надежна, но по сравнению с сетевыми
    СУБД оптимальна с точки зрения доступа к данным и мани- пулирования ими. Информационное хранилище обеспечива- ет средства для преобразования больших объемов детализи- рованных данных локальных баз посредством статистических методов в форму, которая удобна для стратегического плани- рования, реорганизации бизнеса, принятия обоснованных управленческих решений. Оно обеспечивает «слияние» све- дений из внутренних и внешних источников в требуемую предметно-ориентированную форму.
    Объемы данных в организациях настолько возросли, что проводить оперативный анализ на основе множества локальных баз не эффективно. Идея, положенная в основу технологии ин- формационных хранилищ, состоит в том, что все необходимые для анализа данные извлекаются из нескольких локальных баз, преобразуются посредством статистических методов в аналити- ческие данные, которые помещаются (погружаются) в один ис- точник данных – информационное хранилище.
    В процессе погружения данные:
     очищаются для устранения ненужной для анализа ин- формации (адреса, почтовые индексы, идентификаторы записей и т.д.);
     агрегируются (вычисляются суммарные, средние, мини- мальные, максимальные и другие статистические пока- затели);

    Информационные технологии
    264
     преобразуются в единую структуру хранения из разных типов данных предметных приложений;
     при объединении данных из внутренних и внешних ис- точников производится их преобразование в единый формат;
     согласуются во времени, т.е. приводятся в соответствие к одному моменту времени (например, к единому курсу рубля на текущий момент) для использования в сравне- ниях, трендах, прогнозах.
    При слиянии данных из разных источников и размеще- нии их в информационном хранилище обеспечивается:
    Предметная ориентация. Данные организованы в соот- ветствии со способом их представления в предметных прило- жениях. В отличие от локальных баз информационное храни- лище содержит агрегированные данные и не содержит не- нужную с точки зрения анализа информацию, что значительно сокращает объемы хранимой информации.
    Целостность и внутренняя взаимосвязь. Хотя данные по- гружаются из разных внутренних и внешних источников, они объединены едиными законами наименования, способами измерения размерностей и т.д. В разных источниках одинако- вые по наименованию данные могут иметь разные формы представления (например, даты) или названия (например,
    «вероятность доведения информации» в одном источнике и
    «вероятность получения информации» – в другом). Подобные несоответствия удаляются автоматически.
    Отсутствие временной привязки. Оперативные базы ор- ганизации содержат данные за небольшой интервал времени
    (неделя, месяц), что достигается за счет периодического архи- вирования данных. Информационное хранилище содержит ретроспективные данные, накопленные за большой интервал времени (года, десятилетия).
    Согласование во времени; данные согласуются во вре- мени (например, приводятся к единому курсу рубля на те-

    Технологии интегрированных
    информационных систем общего назначения
    265 кущий момент) для использования в сравнениях, трендах и прогнозах.
    Неизменяемость. Данные не обновляются и не изменя- ются, а только перезагружаются и считываются из источников на сервер, поддерживая концепцию «одного правдивого ис- точника». Данные доступны только для чтения, так как их модификация может привести к нарушению целостности данных хранилища.
    Таким образом, данные, погруженные в хранилище, ор- ганизуясь в интегрированную целостную структуру, обла- дающую естественными внутренними связями, приобретают новые свойства. Они являются основой для построения ана- литических систем и систем поддержки принятия решений.
    Именно поэтому технологии информационных хранилищ ориентированы на руководителей, ответственных за приня- тие решений.
    Управленческому персоналу информационное храни- лище обеспечивает предметно-ориентированный подход, по- казывая, какая информация имеется в наличии, как она полу- чена, как может быть использована. Руководитель может по- лучить обзор ситуации или в деталях рассмотреть данную ситуацию. При этом обеспечивается конфиденциальность
    (секретность) данных, предназначенных различным уровням руководителей и сотрудников.
    Руководителям предприятия данные доступны посред- ством интеллектуальных запросов, инструментов создания интерактивных отчетов на экране, многомерного просмотра данных. Для реализации интеллектуальных запросов ис- пользуются языки запросов SQL нового поколения, напри- мер, язык MDX.
    Приложениям клиентов информационное хранилище обеспечивает выбор требуемой им информации по запро- сам. Запросы клиентов объединяются в распределенные транзакции.

    Информационные технологии
    266
    Использование информационных хранилищ дает су- щественный выигрыш по производительности в системах поддержки принятия решений, в системах обработки большого числа транзакций с большим объемом обновле- ния данных. Сами системы на базе информационных хра- нилищ называют транзакционными системами OLTP (On-
    Line Transaction Processing). По запросам транзакций выда- ются отчеты.
    Для описания и управления данными в информацион- ном хранилище используется метабаза. Мета – приставка, указывающая на то, что объект относится к более высокому уровню абстракции. Метабаза содержит метаданные (описа- ние описаний), которые описывают, как устроены данные информационного хранилища, частоту изменений данных в источниках, источники данных (возможны ссылки на распре- деленные базы, размещенные на серверах с другими плат- формами), кто и как может пользоваться данными, права дос- тупа и др.
    В информационных хранилищах используются эко- номико-математические методы, генерирующие «инфор- мацию об информации»; статистические процедуры вычис- ления показателей для уменьшения объема данных и уско- рения доступа к ним; методы обработки электронных документов, аудио-, видеоинформации, методы сжа- тия/развертки данных.
    Рассмотрим три типа архитектуры информационных хранилищ: витрины данных, двух- и трехуровневые архи- тектуры.
    Витрины данных – небольшие хранилища с упрощен- ной архитектурой, предназначенные для хранения части данных информационного хранилища с целью снятия на- грузки с основного информационного хранилища. В основ- ном витрины содержат ответы на конкретный ряд вопросов, например, данные АРМ сотрудников организации. Инфор- мация в разных витринах может дублироваться.

    Технологии интегрированных
    информационных систем общего назначения
    267
    Двухуровневая архитектура информационного храни- лища (рис. 8.2) обеспечивает ретроспективные запросы
    (запросы данных за прошлые годы), анализ тенденций, под- держку принятия стратегических решений. Они ориентиро- ваны на оперативные базы организации и внешние источни- ки, доступные по интернету.
    П ользователь
    П ользователь
    И нф орм ац и онн ое хран илищ е
    В н утр ен ни е и сточн ики данн ы х
    В н еш н и е источн ики дан ны х
    Рис. 8.2. Схема двухуровневой архитектуры
    информационного хранилища
    Трехуровневая архитектура информационного хра- нилища обеспечивает наличие и витрин данных и инфор- мационных хранилищ (рис. 8.3). За счет использования вит- рин данных ускоряется обслуживание и увеличивается чис- ло пользователей по сравнению с двухуровневой архитектурой.
    Примерами информационных хранилищ могут слу- жить Oracle VLM, разработанная фирмами Oracle и Digital,

    Информационные технологии
    268
    Red Brick Warehouse корпорации Red Brick Systems, Business
    Information Warehouse и др.
    Пользователь
    Пользователь
    Информаци онное хранилище
    Внутренние источники данных
    Внешние источники данных
    Пользователь
    Витрина данных
    Витрина данных
    Витрина данных
    Рис. 8.3. Схема трехуровневой архитектуры
    информационного хранилища
    8.4. Технологии электронного
    документооборота
    Трудно представить область человеческой деятельности, которая не связана с созданием и обращением бумажных до- кументов. Поиск нужного письма, копирование деловых до-

    Технологии интегрированных
    информационных систем общего назначения
    269 кументов, их сохранность, обеспечение коллективной работы с бумажными и электронными документами приводят часто к прямым финансовым потерям.
    Переход к электронному документообороту радикально повышает производительность труда информационных ра- ботников, позволяя сотрудникам, взаимодействующим внут- ри подразделений предприятия, избежать дублирования функций.
    Первые системы электронного документооборота
    (СЭД) состояли из трех частей: системы управления докумен- тами, системы массового ввода бумажных документов, систе- мы автоматизации деловых процессов.
    Система управления документами обеспечивает инте- грацию с приложениями, хранение данных на разных устрой- ствах, распределенную обработку данных, поиск, индексацию электронных документов, коллективную работу с электрон- ными документами.
    Разнообразие электронных документов на предприятии порождают используемые приложения: общего назначения
    (Word, Excel, Access и др.) и предметные (бухгалтерский учет, расчеты с поставщиками, финансовый анализ и др.). Инте-
    грация с ними осуществляется на уровне операций с файла- ми, т.е. операции приложения – открытие, закрытие, созда- ние, сохранение и др. – замещаются соответствующими опе- рациями системы управления документами. Интеграция выполняется автоматически. Ее достоинство в том, что сохра- няются принятые в организации виды документов.
    Следующей задачей является обеспечение хранения
    электронных документов на разных носителях (серверах, оп- тических дисках, библиотеках-автоматах и т.д.). К тому же надо обеспечить быстрый поиск и доступ к различным устройствам хранения информации, чтобы факторы доступности и стоимо- сти хранения всегда были в оптимальном соотношении в зави- симости от важности и актуальности информации. Для этого используют технологии информационных хранилищ HSM и
    Data Migration – автоматической миграции документов.

    Информационные технологии
    270
    Для обеспечения распределенной обработки данных в ре- жиме реального времени (on-line) можно по сети посредством запросов, объединенных в транзакции, получить данные из информационного хранилища. Можно посредством Web- сервера предприятия подсоединиться к интернет и тем самым получить доступ к удаленным данным. Можно в почтовом режиме (off-line) по электронной почте послать запрос в ин- формационное хранилище, задав критерии выбора данных.
    По этим критериям будет сформирован список документов и переправлен пользователю. Этим способом коммерческая служба может оказывать информационные услуги.
    Для организации быстрого поиска документов исполь- зуется их индексация. Система индексации может быть атри- бутивной или полнотекстовой.
    При атрибутивной индексации электронному докумен- ту присваивается некий набор атрибутов, представленных текстовыми, числовыми или иными полями, по которым вы- полняются поиск и доступ к искомому документу. Обычно это выглядит как карточка в каталоге библиотеки, на которой за- писаны имя автора, дата, тип документа, несколько ключевых слов, комментарии. Поиск ведется по одному или нескольким атрибутам (полям), либо по всей совокупности.
    При полнотекстовом индексировании все слова, из ко- торых состоит документ, за исключением предлогов и незна- чительных для поиска слов, заносятся в индекс. Тогда поиск возможен по любому входящему слову или их комбинации.
    Возможна комбинация методов, что усложняет систему, но упрощает пользователю работу с ней.
    Заметим, что поиск в интернете организован аналогично.
    Ряд проблем возникает при коллективной работе с до-
    кументами. Для предотвращения одновременного редакти- рования документа двумя или более пользователями приори- тет отдается пользователю, первому открывшему документ.
    Все остальные пользователи работают с документом в режиме
    «только для чтения».

    Технологии интегрированных
    информационных систем общего назначения
    271
    Так как многие пользователи могут редактировать и вносить изменения в документ, им выдаются полномочия на редактирование документа, все изменения протоколируются, чтобы дать возможность Администратору отследить этапы прохождения документа через инстанции и его эволюцию.
    Каждому сотруднику назначается пароль и право досту- па. Права доступа также разделяются. Одни могут выполнять полное редактирование и уничтожение документа, другие – только просматривать. Третьим разрешен доступ к отдельным полям документа.
    Если приходится иметь дело с документом не в тексто- вом формате, а в виде факсимильного изображения (напри- мер, фото), то его редактирование невозможно, перевод в тек- стовый формат не рационален. Тогда как бы накладывается второй, «прозрачный», слой с комментариями и изменения- ми. При этом комментарии поддаются редактированию обычным образом.
    Для реализации большинства функций управления до- кументами используют EDMS-сервер (Electronic Document
    Management System). Примером системы управления доку- ментами является DOCS OPEN корпорации PC DOCS.
    Вторую часть электронного документооборота составля- ет система массового ввода бумажных документов. Эта сис- тема предназначена для массового ввода бумажных докумен- тов архива посредством сканера и перевода их в электронный вид посредством выполнения операций выравнивания изо- бражений, чистки, подготовки документа к распознаванию, распознавания, формирования задания.
    Для выполнения операции сканирования сканер должен обеспечивать приемлемое разрешение при высокой скорости сканирования и наличии системы автоподачи документов.
    В случае перекосов, возникающих при сканировании, применяется операция выравнивания изображения документа.
    Многие бумажные документы содержат пятна, шерохо- ватости, линии сгиба и другие дефекты, которые глаз не заме- чает. Они переходят в электронный образ документа и меша-

    Информационные технологии
    272 ют при электронной обработке. Поэтому выполняется опера- ция чистки изображения. Кроме того, зачастую документы имеют фон, одноцветный или разноцветный (например, на ценных бумагах), который необходимо снять посредством фильтрации и выделения.
    В контексте обработки документы делятся на две группы – просто документы и формы. Формы, в отличие от просто до- кументов, содержат массу избыточной, с точки зрения элек- тронной обработки, информации. К ней относятся пикто- граммы, графление, подписи и т.д. Также возникают трудно- сти, когда элементы букв пересекаются с элементами форм.
    В этих случаях выполняют операцию подготовки документа
    к распознаванию. Элементы форм удаляют так, чтобы не по- страдал текст.
    Для выполнения операции распознавание разработано большое число систем распознавания, которые можно разде- лить на два класса: системы оптического распознавания OCR, которые работают только с полиграфическим текстом, и
    1   ...   13   14   15   16   17   18   19   20   ...   26


    написать администратору сайта