Главная страница
Навигация по странице:

  • Уметь: создавать логическую модель системы сбора данных, базы метаданных информационного хранилища. Приобрести навыки

  • Учебнопрактическое пособие Издание 2ое, переработанное и дополненное Москва 2005


    Скачать 1.77 Mb.
    НазваниеУчебнопрактическое пособие Издание 2ое, переработанное и дополненное Москва 2005
    Дата18.09.2022
    Размер1.77 Mb.
    Формат файлаpdf
    Имя файла255_-_.pdf
    ТипУчебно-практическое пособие
    #683383
    страница3 из 7
    1   2   3   4   5   6   7
    ТЕМА 3.
    Технологии сбора и хранения данных – концепция информационных хранилищ
    Изучив тему 3, студент должен знать:
    принципы сбора данных из различных источников, понятия о базах мета- данных (БМД), требования к информационным хранилищам, основы по- строения БМД и ИХ.
    Уметь:
    создавать логическую модель системы сбора данных, базы метаданных информационного хранилища.
    Приобрести навыки:
    формулирования потребностей бизнес-пользователей в составе, форматах и структуре исходных данных для выполнения аналитических работ, формирования состава базы метаданных.
    При изучении темы 3 необходимо:
    Читать
    • учебное пособие [51] главу 3;
    • учебно-справочное издание [50]главу 2 стр. 18—32;
    • книгу [29] главу 3 стр. 41—57;
    • книгу [13] главу 8 стр. 241—269.
    Сосредоточить внимание на следующем:
    При сборе и обработке данных из различных источников и помещении в информационное хранилище необходимо использовать гибкую архитек- туру данных, обеспечить должный уровень качества закладываемых в ИХ данных; в процессе преобразования исходных форматов в единый фор- мат ИХ согласовать семантику данных первичных источников со смыслом атрибутов базы метаданных.

    Технологии сбора и хранения данных – концепция информационных хранилищ
    27 1.
    Понятие о гибкой архитектуре данных. Рассматриваются принципы гибкой архитектуры данных, обеспечивающей доступ с любой аппаратно-программной платформы к лю- бому нужному источнику, а также принципы открытых систем, использование которых позволяет реализовать гибкую архитектуру данных. Раскрывается значение стандартов в создании системы сбора данных в информационное хранилище.
    2.
    Повышение качества информации при сборе ее в информационное хранилище. Рас- крываются проблемы обеспечения качества информации на предприятии и способы его повышения на пути движения данных из первичных источников к хранилищам и поддержания в процессе накопления и хранения данных в ИХ. Рассматриваются мето- ды оценки данных — «ручные» и программные, а также оценки выгод, которые может получить и получает предприятие, обеспечивая должное качество данных.
    3.
    Преобразование данных в единый формат и приведение их к единой структуре. Отме- чается то, что приходится при пересылке данных из первичных источников решать про- блему приведения их к единому формату из множества форматов, применяемых в ис- токах, а также согласования интерфейсов в смысловом значении данных.
    4.
    Основные принципы построения информационных хранилищ. Рассматриваются прави- ла Инмона — автора концепции ИХ, определяющие основные свойства ИХ. Раскрыва- ются такие свойства как: предметная ориентированность, интегрированность, неиз- менчивость, поддержка хронологии.
    5.
    Понятие о метаданных (МД), базе МД — репозитории, используемых в информацион- ном хранилище. Приводится определение МД, рассматривается назначение, состав, выполняемые функции. Описывается классификация МД по различным признакам: по динамике использования, в зависимости от этапа применения, по детальности описа- ния предметной области. Рассматриваются принципы создания репозитория ИХ.
    6.
    Особенности построения модели данных информационного хранилища. Рассматрива- ется принцип ориентации структуры ИХ на выполняемый конечным пользователем ана- лиз содержащихся в нем данных. Схема данных, имеющихся в OLTP — транзакционных системах, должна обеспечивать их связь с данными, помещаемыми в хранилище.
    Обосновывается необходимость перехода от нормализованных данных в реляционных базах к схеме «звезда»-«снежинка»-«созвездие» для обеспечения представления дан- ных в размерностном историческом аспекте. Раскрываются понятия «факт-таблица»,
    «таблица измерения», OLAP-куб.
    Цель изучения: Освоить технологии сбора данных из различных источников, основы по- строения структур предметных разделов и информационного хранилища в целом. Приоб- рести навыки построения рабочих хранилищ и витрин данных.
    3.1. Технологии извлечения, преобразования и загрузки данных
    1. Понятие о гибкой архитектуре данных.
    2. Сбор, повышение качества данных и приведение их в единую структуру.
    3.1.1. Понятие о гибкой архитектуре данных
    Объектом анализа являются данные, сконцентрированные в хранилище, а при необхо- димости и изымаемые непосредственно из первичных источников, которые должны быть струк- турированы в виде системы показателей исследуемой предметной области.
    Данные из внутренних и внешних источников проходят путь в информационное храни- лище через программы очистки и преобразования к единому формату. В особых случаях они могут поступать напрямую к заинтересованным лицам или в программы-приложения. Затем данные из ИХ в случае OLAP — анализа или Reporting-a используются для принятия оператив- ных решений, подготовки материалов или документов. При работе в режиме интеллектуально- го анализа извлекаются из информационного хранилища знания и применяются, они, в основ- ном, для стратегических решений.
    Процессы продвижения и использования данных проходят несколько этапов:
    Краткое содержание

    Информационно аналитические системы
    28
    – Этап извлечения, преобразования и загрузки данных. На основе принятой системы по- казателей, характеризующих деятельность предприятия, подлежащих анализу и исполь- зованию в процессе принятия решений, и необходимых при разработке каких-либо до- кументов, организуется сбор необходимых данных в хранилище и прорабатываются пу- ти непосредственного извлечения в экстренных случаях необходимых детальных данных из первичных источников; этому этапу предшествует работа по созданию необходимой структуры перекачиваемых данных;
    – Этап накопления, обеспечения готовности данных к использованию.
    По мере накопления в соответствующих зонах памяти выполняется периодическая загрузка данных из функциональных (транзакционных) подсистем интегрированной информационной системы (ИС) или автономных ИС, поддерживается необходимый уровень качества данных; в отдельных случаях допускается внеплановая загрузка по ситуации.
    – Этап применения данных, содержащихся в хранилище, и извлекаемых напрямую из пер- вичных источников.
    Для обеспечения процесса управления предприятием или другим объектом данные ис- пользуются в трех основных режимах — создания плановых отчетных и других докумен- тов (Reporting), оперативного анализа в незапланированных ситуациях (OLAP-анализ), интеллектуального или углубленного анализа (Data mining). Накопленные в хранилище данные могут быть использованы в специальных программах, обеспечивающих развитие бизнеса.
    В основе концепции информационных хранилищ заложена идея гибкой архитектуры дан- ных. Это означает, что любому пользователю из числа доверенных лиц должна быть обеспечена возможность доступа к любому разрешенному для использования участку данных, которыми располагает предприятие (организация). Такой доступ осуществляется путем закладки в органи- зационно-методологические основы построения системы сбора и хранения данных соответст- вующих возможностей, а также согласования принципов построения и четкого взаимодействия аппаратного, программного комплексов и структуры накапливаемых и хранимых сведений.
    Эта идея реализуется в основном в рамках свойств «открытых систем», определение которых POSIX 1003.0 принято Комитетом IEEE. В соответствии с этим определением открытая система есть «система, которая реализует открытые спецификации на интерфейсы, сервисы
    (услуги среды) и поддерживаемые форматы данных, достаточные для того, чтобы дать возмож- ность должным образом разработанному прикладному программному обеспечению быть пе- реносимым в широком диапазоне систем с минимальными изменениями, взаимодействовать с другими приложениями на локальных и удаленных системах, и взаимодействовать с пользовате- лями в стиле, который облегчает переход пользователей от системы к системе».
    Основные свойства открытых систем, очерченные этим определением, следующие:
    – Расширяемость (extensibility) предполагает возможность включения новых или изменения некоторых прикладных функций ИС из числа уже реализованных, не изменяя при этом остальные функциональные подсистемы ИС.
    – Масштабируемость (scalability) предусматривает применительно к прикладным програм- мам и базам данных, реализуемым на разных прикладных платформах, возможность изменения их количественных характеристик (размерности решаемых задач, числа об- служиваемых пользователей и т.д.) путем настройки параметров, а не путем перепроек- тирования и программирования заново.
    – Переносимость (portability) — это возможность перемещения ИС на другие аппаратно- программные платформы в случае их модернизации или замены с наименьшими затра- тами, сохраняя инвестиции, вложенные в разработку приложений, формирование мас- сивов данных и обучение пользователей. Рассматривается переносимость приложений
    (application portability) и данных (data portability). Такая возможность обеспечивается со- блюдением принятых стандартов обмена данными между приложениями и функциональ- ной средой открытых систем. Определена «переносимость» пользователей (user portability), которая предусматривает возможность обеспечения стабильным дружест- венным пользовательским интерфейсом.

    Технологии сбора и хранения данных – концепция информационных хранилищ
    29
    – Интероперабельность (interoperability) — свойство, обеспечивающее взаимодействие ИС с другими системами при обращении к информационным ресурсам (базам данных, ба- зам знаний) этих систем или при решении определенных задач с использованием их вы- числительных ресурсов, если собственные ресурсы недостаточны. Интероперабельность систем реализуется, прежде всего, форматами данных, принятыми в качестве стандар- тов электронного обмена данными (electronic data interchange - EDI) для разных при- кладных областей. Интероперабельность систем при обращении, (запуске на исполне- ние) к программам и данным, располагающимся в других системах, обеспечивается стандартами удаленного вызова процедур (remote procedure call — RPC).
    – Способность к интеграции. При интеграции систем в целом (system integration) это свой- ство обеспечивает объединение нескольких ИС различного назначения в интегриро- ванную многофункциональную ИС.
    В случае интеграции баз данных (database integration) для прикладной программы или пользователя несколько баз данных представляются как одна логически единая база данных.
    При этом обеспечивается обращение пользователей к любой из этих баз независимо от ее мес- та расположения в режиме коллективного доступа к данным, одновременная работа нескольких баз данных с каждой из прикладных программ ИС или пользователем.
    При интеграции данных (data integration) обеспечивается возможность совместного ис- пользования запросом пользователя или программой одновременно нескольких файлов данных как единого целого.
    Рассматривается логическая интеграция, которая осуществ- ляет объединение данных на логическом уровне, не затрагивая их физической организа- ции, а также физическая, предполагающая слияние данных в единый информационный массив.
    Высокая готовность (high availability) — свойство, означающее высокую отказоустойчи- вость (практически полную) системы (fault tolerance). В случае отказа какого-либо компонента обеспечивается гарантия автоматического восстановления работоспособности и сохранение целостности баз данных. Свойство готовности рассматривается и как мера способности сис- темы принимать и успешно выполнять запросы и задания за доступный интервал времени.
    На основе обзора свойств открытых систем можно сделать вывод об их определяющем значении при создании и эксплуатации информационно-аналитических систем. В соответствии с принципами открытых систем организуются и реализуются манипуляции с данными на всех рас- смотренных выше этапах пути прохождения данных из источников к потребителям, а также на этапе подготовки информации для тех или иных целей на основе использования накапливаемых данных.
    При организации работ по созданию, внедрению и применению ИАС важное значение имеет учет стандартов. Применение их облегчает организацию сбора, представление их в ви- де системы стандартных показателей в функциональных подсистемах ИАС, позволяет легко вписывать данные из первичных источников в структуру хранилища данных
    Положения функциональной стандартизации в области информационных технологий оп- ределены стандартом ГОСТ Р ИСО/МЭК ТО 10000-99 «Информационная технология. Основы и таксономия международных функциональных стандартов».
    Ориентация на стандарты при создании и ведении ИАС имеет два аспекта:
    – использование их при создании архитектуры аппаратной и программной платформ
    ИАС (смотри приведенный выше стандарт);
    – применение международных и российских стандартов в процессе классификации и ко- дирования систем показателей, что становится особенно актуальным при организации международного компьютерного обмена данными в процессе экономической или дру- гой деятельности.
    В настоящее время широко распространены системы электронного обмена данными
    (ЭОД), в англоязычной терминологии Electronic Data Interchange (EDI). Для создания системы компьютерного обмена данными, особенно в корпоративных распределенных структурах, тем более транснационального масштаба, в мировой практике широко применяются стандарты
    EDIFACT, которые были утверждены Международной организацией по стандартизации (Interna- tional Organization for Standardization ISO) в 1988 году:

    Информационно аналитические системы
    30
    – ISO 7372-86 «Trade data interchange. Trade data elements directory. First edition. 1986-
    07-01» (Справочник элементов данных).
    – ISO 9735-88 «EDI for administration, commerce and transport (EDIFACT). Syntax rules.
    1988-07-15» (Синтаксические правила ЭДИФАКТ ООН).
    В России появились два аналога приведенных выше стандартов:
    – ГОСТ 6.20.2-91 «Элементы внешнеторговых данных (ISO 7372-86)
    – ГОСТ 6.20.1.90 «Электронный обмен данными в управлении (ISO 9735-88), торговле и на транспорте (ЭДИФАКТ). Синтаксические правила.»
    Введены эти стандарты 01.01.1992 года.
    Стандарты ISO нашли дальнейшее развитие по отраслям деятельности, по технологиям обмена, в направлении применения Web —технологий.
    3.1.2. Сбор, повышение качества данных и приведение их в единую структуру
    Эти процессы, соответствующие этапу извлечения, преобразования и загрузки данных, в англоязычной терминологии называются Extraction, Transformation, Loading —
    ETL-процессы.
    В процессе создания ИАС и ее центральной подсистемы — информационного хранилища как важная проблема выделяется обеспечение необходимого качества данных, в том числе досто- верности, согласованности, соответствия установленным ограничениям и бизнес-правилам и т.д.
    Качество загружаемых и содержащихся в хранилище данных достигается системой организацион- ных и программно-технических мероприятий. К ним относятся: "ручная" проверка разного рода ошибок, несоответствий, например неодинаковых названий полей с одним смыслом, и автоматиче- ская с применением программных средств.
    При сборе данных в информационное хранилище необходимо учитывать два основных аспекта: структурный и смысловой. Структурный аспект заключается в представлении данных из источников в тех или иных форматах программных сред, в которых были сформированы. Они должны приводиться к одному или группе форматов в системе сбора и хранения данных. Смы- словой аспект состоит в содержательном наполнении знаковых структур данных. Даже при со- гласованных форматах данных могут быть разные толкования одинаково или близко по виду записанных данных и другие виды разночтений. Такие ситуации необходимо исключить еще на этапе формирования структуры ИХ.
    ETL-процессы, которые реализуют требования по обеспечению качества, созданию необхо- димой структуры и поддержанию смысловых характеристик данных делятся на следующие стадии:
    – Извлечение. На этой стадии производится перегрузка данных из источника, как прави- ло, в промежуточную область хранилища. Под каждый источник в этой области созда- ется своя таблица. Данные в источниках могут иметь различные форматы, в том числе текстовые неструктурированные, табличных процессоров, разного типа СУБД. Данные одного типа и структуры в первичных источниках сводят в одну таблицу, присваивая ей дополнительные поля.
    – Структуризация. Ей подвергаются только неструктурированные данные. Они приводятся к пригодному для ввода в реляционные таблицы виду.
    – Обработка. Изначально структурированные и подвергшиеся структуризации данные под- вергаются обработке, которая заключается в очистке, фильтрации, согласовании данных.
    – Пересылка и импорт данных. Современные СУБД обеспечивают возможности транспор- тировки данных как внутри одного сервера, так и в распределенном режиме между сер- верами. Этот процесс требует тщательного квалифицированного администрирования.
    Необходимо обеспечивать защиту передачи данных по каналам связи. Может оказаться, что некоторые данные не могут быть вставлены в предназначенные им таблицы из-за ог- раничений или несогласованности типов данных. В таких случаях для них необходимо от- водить отдельный участок памяти, где они сохраняются для дальнейшей оценки.

    Технологии сбора и хранения данных – концепция информационных хранилищ
    31
    Отдельно и более подробно рассмотрим процессы повышения качества данных. Иска- жение данных может появляться на любом этапе, стадии, шаге ETL-процессов. Упредить их воз- никновение полностью — задача практически невыполнимая, но необходимо принимать меры по снижению их количества и обнаружению. Рассматривают фатальные искажения, ошибки, к которым относятся: отсутствие данных в источнике, ошибка в подключении к источнику, прояв- ляющаяся в отсутствии доступа к необходимым данным, проявление системного сбоя операци- онной системы.
    Очистка данных состоит в исключении из общего потока тех данных, которые не отве- чают заданным ограничениям на загрузку или бизнес-правилам. В этом случае данные из ис- ходной таблицы разделяются на две части: отвечающие критериям качества, несоответствую- щие таковым и не попадающие на загрузку в хранилище.
    Оценка качества данных производится:
    – по критичности ошибок в данных (могут или не могут быть загружены) — ошибки в име- нах полей, типах данных;
    – по правильности форматов и представлений данных;
    – на соответствие данных ограничениям целостности;
    – на уникальности внутренних и внешних ключей;
    – по полноте данных и связей;
    Приведенный перечень видов искажений, несоответствий в данных касается в основном структурного представления данных, технологических причин.
    Смысловое содержание данных — знаковых структур очень важно при создании структуры хранилища и его поддержании, которое состоит в первоначальной загрузке и дальнейшем его заполнении и актуализации в процессе эксплуатации. В ходе ETL- процессов велика вероятность искажений, сбоев в работе по причине несогласованности в семантике. Такие ситуации называют «семантические разрывы» (46). В этой работе приво- дится четыре их вида:
    – «Вавилонский» — это ситуация, когда одно и то же понятие или показатель обозначают разными именами.
    – Кросспотоковый разрыв. В этом случае наименования разных по смысловому содержанию понятий одинаковые в знаковом представлении. Такое происходит при наличии в одной системе разных по смыслу данных, предоставляемых из разных источников. Например в одном источнике «Партия комплектов 50 штук» понимают комплекты узлов для компьюте- ров, но этот комментарий опущен, в другом источнике это комплекты узлов для музыкаль- ных центров. В связи со сложившейся привычкой комментарии также отсутствуют.
    – Кроссязыковый разрыв происходит в тех случаях, когда передающее и принимающее звено не согласовали характеризующие признаки понятий — показателей. Например при оценке объемов поставок нефти передающий оценивает их в тоннах, а принимаю- щий — в баррелях.
    – Асинхронный разрыв связан с потерей или задержкой в передаче целой посылки в массиве или ее части, что нарушает целостность массива, его смысловое содержание или не дает возможности правильно понять и определить данные.
    – В информационных хранилищах семантические разрывы в данных возможны на любом из переходов от этапа к этапу при прохождении данных от источников к конечным пользователям информацией и знаниями.
    3.2. Концепции организации хранения данных
    1.
    Концепция информационного хранилища.
    2.
    Концепция централизованного хранилища данных
    3.
    Концепция распределенного хранилища данных.
    4.
    Концепция автономных витрин данных.
    5.
    Концепция единого интегрированного хранилища и многих витрин данных.

    Информационно аналитические системы
    32
    Подготовка принятия решений требует сосредоточения значительного, а подчас колос- сального количества информации на месте его подготовки; (выше приведены возможные ее объемы в зависимости от масштабов и сложности решений). Естественно стремление прибли- зить места хранения и использования информации. Проблемы подготовки принятия решений разрешаются с использованием инструментальных систем поддержания принятия решения
    Decision Support Sistem (DSS). В них большое место стали занимать OLAP-технологии, интеллек- туальный анализ, подготовка плановых и стандартных документов, которые используют инфор- мационные ресурсы, предоставляемые системами сбора и хранения данных.
    Проблема сбора и хранения информационных ресурсов выделилась как занимающая особое место во всей системе управления предприятием (корпорацией) и оформилась в кон- цепцию информационных хранилищ (ИХ) — англоязычный термин Data Warehouse (DWН). Эта подсистема является центральной в интегрированной информационной системе, которой ста- новится совокупность локальных информационных систем и информационных технологий, сли- тых воедино средствами ИАС.
    3.2.1. Концепция информационного хранилища
    Хранилища выполняют задачи накопления сведений о деятельности предприятия, парт- неров, других информационных ресурсов из различных источников, в том числе баз данных, отображающих отдельные бизнес-процессы, автоматизированных рабочих мест, информаци- онных систем и других источников информации, в том числе из глобальных информационных сетей, как например Internet.
    Simon (Саймон) [11] называет такие источники данных операционными базами данных.
    Сбор перечисленных сведений сочетается, как правило, с доработкой исходных данных, кото- рая заключается в проверке достоверности, устранении противоречивости, сортировке, систе- матизации в соответствии с заранее построенной на основе заданий пользователей единой структурой хранилища.
    Инмон (Inmon) — автор концепции информационных хранилищ выделяет следующие ха- рактерные для них свойства:
    – предметную ориентированность;
    – интегрированность;
    – неизменчивость;
    – поддержка хронологии.
    Перечисленные выше свойства целесообразно дополнить свойством «персонализация данных».
    Свойство предметной ориентированности означает компоновку пулов информа- ции по определенным предметным областям или целям, обеспечивающим подго- товку и принятие соответствующих решений в соответствующей системе DSS или использование в каком-либо другом виде приложения, например для разработки планов развития предприятия, инвестиционных проектов, реинжиниринга и в лю- бых работах, для выполнения которых необходимы исходные данные, накопленные в информационном хранилище. Необходимо подчеркнуть, что сосредотачиваемые в хранилище данные поддерживают аналитическую деятельность, а не функцио- нальные или технологические процессы, не непосредственную производственную деятельность, а анализ данных в историческом аспекте.
    Интегрированность предусматривает сбор и доработку (предварительную обра- ботку) информации по определенной предметной области из различных источни- ков и превращение ее в организованный по заданным правилам, подчиненным определенной цели, массив в виде гиперкуба или системы поликубов информации.
    Пользователь может легко осуществить совместное использование данных из раз- личных секций хранилища, относящихся к разным направлениям деятельности или функциям предприятия.
    Определение

    Технологии сбора и хранения данных – концепция информационных хранилищ
    33
    Неизменчивость состоит в том, что в хранилище данные из различных источников накапливаются, практически не подвергаются каким-либо изменениям, только в случае крайней необходимости, в основном, при обнаружении искажений. Они наращиваются по заданному, четко определенному графику. Пользователь имеет только право чтения информации. Манипуляции с содержимым хранилища дове- ряются только администраторам.
    Поддержка хронологии заключается в обязательности привязки данных ко време- ни. Информация, содержащаяся в хранилище, рассматривается в историческом аспекте. Используют следующие типы привязки ко времени:
    – к моменту совершения события или факта;
    – к моменту фиксации его информационными средствами;
    – комбинированные методы, сочетающие оба подхода;
    – к моментам прохождения сведений по элементам логических цепочек.
    Персонализация данных означает необходимость включения в состав данных, за- гружаемых в информационное хранилище, сведений о лицах, непосредственно вы- полнивших те или иные операции, ответственных за выполнение работ, за наличие и сохранность средств и т.д.
    Таким образом, идея хранилищ данных — это не просто единый подход к хранению необходи- мых данных, а создание единого многопрофильного в рамках одной концептуальной идеи информаци- онного ресурса предприятия, направления исследований, корпоративной структуры и т.д.
    Рис. 3.1. Структура информационного хранилища
    Источник 1
    Источник 2
    Источник N
    Зона хранения данных по ль зо ва те ли
    Пр иложе ния ра зв ит ия би зн еса
    Зон а
    х ран ен ия данных в
    об ъек тн о
    м
    (
    мн ого м
    ер но м
    ) ви де
    Зо на на ко пле ни я да нных
    Данные в хранилище из источников накапливаются в течение определенного периода времени в зоне накопления. В течение этого времени производится работа по обеспечению необходимого качества данных по описанным выше правилам. В процессе перекачки из источ- ников данные трансформируются в единый формат, проверяются их смысловая согласован- ность, наличие ошибок, проводятся мероприятия по повышению качества данных. При дости- жении необходимого уровня качества и определенного графиком работы момента времени данные переносятся в зону хранения.

    Информационно аналитические системы
    34
    В зоне хранения они могут быть представлены в виде реляционной или многомерной модели (объектном виде). В случае использования реляционной модели необходимо иметь в хранилище зону объектного представления данных для достижения уровня характеристик сис- темы, соответствующего требованиям, предъявляемым к OLAP-системам. Содержание их будет рассмотрено в разделе 4.1.2.
    Реализация концепции ИХ может быть осуществлена несколькими способами — имеются несколько вариантов концепций ИХ.
    3.2.2. Концепция централизованного хранилища данных
    Такой подход означает, что при нескольких источниках информации — операционных базах данных создается единое централизованное хранилище. В первичных источниках данные хранятся в «сыром» — недоработанном виде, то есть в структуре информационного простран- ства данного источника информации или операционной БД. Вся поступающая в ИХ информа- ция должна быть преобразована в принятую в данном ИХ структуру. Передача данных из опе- рационных БД в ИХ, которая сопровождается доработкой, может быть организована по за- данному временному графику и правилам доработки с соблюдением принципов Инмона. До- пускаются неожиданные запросы «на лету», что предъявляет более строгие требования к инст- рументальным средствам ИХ.
    Рис. 3.2. Схема централизованного хранения данных
    Центральное хранилище данных
    Операционная база данных 1
    Операционная база данных 2
    Операционная база данных n
    При реализации такой концепции возникает потребность в мощном компьютере. В за- висимости от масштабов предметной области это будет или персональный компьютер с пре- дельно высокими характеристиками, особенно в части требований к объемам памяти или майнфрейм и даже суперкомпьютер. Необходимо наличие развитых средств телекоммуникаций, обеспечивающих информационный обмен «операционные БД — ИХ — пользователи». Это тре- бование относится к любому варианту концепции ИХ.
    3.2.3. Концепция распределенного хранилища данных
    Возможен и имеет место противоположный подход к хранению данных на основе рас- пределения функций ИХ по местам их возникновения или группировки нескольких операцион- ных БД вокруг локального или регионального информационного хранилища. Эти хранилища

    Технологии сбора и хранения данных – концепция информационных хранилищ
    35
    могут быть ориентированы на определенную предметную область или на регион в корпора- тивных структурах. Система локальных хранилищ действует в качестве распределенного храни- лища. Не исключается и наличие центрального хранилища, но в такой структуре требования к его размерности значительно облегчаются.
    Эта концепция предусматривает трансляцию каждого запроса к каждому источнику (ба- зе данных), обработку, увязывание, согласование, компоновку извлеченных данных «на лету» и предоставление их пользователю.
    Такой подход при экономии ресурсов на создание крупного централизованного храни- лища имеет ряд недостатков, к которым можно отнести:
    – в связи с нормализованностью данных в операционных базах и длительностью доступа из
    «центра» общее время отклика такой системы может выйти за рамки допустимого;
    – должны быть обеспечены постоянство нахождения в сети и открытость всех источников ин- формации, так как отсутствие какого либо из них может сорвать весь процесс анализа;
    – возможна противоречивость и несогласованность ответов из различных источников из- за различных форматов представления, разницы в темпах обновления, правил привязки ко времени, изменения смысловой нагрузки данных и т. д.;
    – трудность реализации комплексного исторического обзора содержащейся в разнород- ных источниках информации из-за различного порядка ее хранения — навязать единый порядок весьма затруднительно.
    Рис. 3.3. Схема распределенного информационного хранилища
    3.2.4. Концепция автономных витрин данных
    Одним из вариантов организации централизованного хранения и представления ин- формации является концепция витрин данных (Data Mart). Она предложена Forrester Research в
    1991 году. При таком подходе информация, относящаяся к крупной предметной области — на- пример информационному пространству крупной корпоративной системы, имеющей несколько достаточно самостоятельных направлений деятельности, группируется по этим направлениям в специально организованных базах данных, которые называют витринами данных. Этот подход является развитием концепции распределенного ИХ в части придания функций предметной ориентированности некоторым локальным ИХ.
    Такой подход позволяет обойтись сравнительно менее ресурсоемкими аппаратными и программными средствами,
    ИХ 1
    ИХ 2
    ИХ 3
    Операцион- ная база 1.1
    Операционная. база 1.n
    Операционная база 2.1
    Операцион- ная база 3.1
    Операцион- ная база 3.k
    Операцион- ная база 2.m

    Информационно аналитические системы
    36
    Рис. 3.4. Схема автономных витрин данных обеспечивает повышение адаптируемости системы к изменяющимся условиям, расширяет дос- тупность для внедрения. Пользователь предприятия или другого подразделения корпорации по- лучает свое ИХ, обслуживающее местные потребности.
    3.2.5. Концепция единого интегрированного хранилища и многих витрин данных
    В 1994 году M. Demarset предложил объединить две концепции: единого интегрирован- ного хранилища и связанных с ним и получающих из него информацию витрин данных. В таком варианте имеется крупное информационное хранилище агрегированной и подработанной ин- формации, которое может удовлетворить потенциальные запросы по отдельным направлениям деятельности.
    Здесь очевидны преимущества: данные заранее агрегируются, обеспечивается единая хронология, согласованы различные форматы, устраняются противоречивость и неоднознач- ность данных — информация приобретает необходимую кондицию для быстрого и достаточно полного удовлетворения необходимого множества запросов.
    Недостатком является необходимость применения высокопроизводительных аппаратных средств и специализированных многомерных или гибридных программных инструментальных средств.
    Витрина данных 1, совмещенная с ИХ
    Витрина данных 2, совмещенная с ИХ
    Витрина данных M, совмещенная с ИХ
    Операцион- ная база 1
    Операционная база 2
    Операцион- ная база 3
    Операцион- ная база 4
    Операцион- ная база N

    Технологии сбора и хранения данных – концепция информационных хранилищ
    37
    Рис. 3.5. Схема центрального информационного хранилища и многих витрин данных
    В таком варианте ИАС приобретает иерархическую многоуровневую структуру, содер- жащую следующие уровни:
    – общекорпоративное централизованное хранилище данных;
    – витрины данных по направлениям деятельности;
    – локальные или региональные базы и хранилища данных;
    – операционные базы данных, автоматизированные рабочие места пользователей авто- номных программ и АЭИС.
    Пунктам концентрации информации соответствуют иерархические уровни использова- ния данных при подготовке, принятии и реализации решений, которые сопутствуют функциони- рованию предприятия (корпорации). Различают:
    – уровень лиц, принимающих решения, который может быть совмещен с уровнем витрин данных;
    – уровень рабочих мест аналитиков и других заинтересованных пользователей.
    Рассмотренные концепции охватывают лишь те стороны функционирования ИАС, кото- рые относятся к организации хранения данных. Они не определяют требования и подходы к выполнению анализа, способы представления данных в ИХ — реляционный или многомерный.
    3.3. База метаданных информационного хранилища (репозиторий ИХ)
    1. Основные понятия о базе метаданных.
    2. Классификация метаданных.
    3. Модели метаданных по измерениям.
    4. Содержание компонентов размерностной модели МД ИХ.
    3.3.1. Основные понятия о базе метаданных
    Управление ИАС осуществляется посредством использования метаданных, то есть дан- ных о том, что представляют собой и как хранятся данные и по существу содержат обобщен- ную информацию о предметной области. Благодаря их использованию предоставляется ин- формация, необходимая для автоматизации процессов сбора, преобразования и загрузки дан- ных в ИХ и использования всей ИАС.
    Проектирование ИХ, разработка сценариев OLAP и интеллектуального анализа начи- нается с формирования массивов метаданных, которые реализуются соответствующими про-
    Центральное
    Информационное хра- нилище
    Витрина данных 1
    Витрина дан- ных 2
    Витрина дан- ных N
    Операционная база 1
    Операционная
    База 2
    Операционная база …
    Операционная база №

    Информационно аналитические системы
    38 граммными модулями. Этими модулями описываются атрибуты метаданных, прове- ряется их корректность, создается физическая структура хранения, обеспечивается вызов для реализации заданных в сценарии анализа функций.
    Метаданные можно разделить на два типа — бизнес-метаданные и технические мета- данные. Они позволяют ориентироваться в огромном объеме информации.
    Бизнес-метаданные служат в основном интересам пользователя. К ним относятся опре- деления данных, обозначения атрибутов и областей, привязка данных ко времени, бизнес- правила, соотношения данных, их охват.
    Технические метаданные используются службой администратора. К ним относятся све- дения о времени обновления и преобразовании данных, права доступа и т.д.
    В связи со сложностью потоков данных из операционных БД технические МД необходимы для работы многих программ.
    Более подробно, в состав бизнес-метаданных входят:
    – определенные объекты;
    – иерархии;
    – столбцы углубления;
    – столбцы анализа;
    – столбец фактических значений в прогнозных или бюджетных документах;
    – столбцы бюджетных значений в прогнозных или бюджетных документах;
    – временные измерения;
    – значения, определяющие успех предприятия;
    – категории и классификации данных;
    – сведения о зависимых и независимых переменных;
    – вид анализа и ограничений и т.д.
    В состав технических метаданных входят:
    – структура и семантика данных;
    – алгоритмы агрегирования;
    – сведения о разграничениях доступа и защите информации;
    – периодичность загрузки и очистки;
    – права собственности на информацию;
    – поисковые таблицы, перечень и правила исключений;
    – другие данные, относящиеся к техническому сопровождению.
    3.3.2. Классификация метаданных
    Под метаданными понимают также сведения в виде некоего справочника — репо- зитория, который помогает пользователям и лицам, обеспечивающим функциони- рование ИАС, ориентироваться в содержащихся в ИХ данных. Репозиторий явля- ется одним из центральных блоков инструментальной части ИАС.
    Группа проектировщиков на основе рассмотрения требований пользователей, в которую входят их представители и работники ИТ-подразделения, составляет список подлежащих сосре- доточению в ИХ показателей и их реквизитов. Эта работа выполняется на основе анализа доку- ментации, опросов, специальных исследований. Составляется перечень документов, аналитиче- ских сценариев с предполагаемыми запросами. Из полученных в результате обследования мате- риалов выделяются сущности в разрезе достижения целей анализа. Их называют классы в тер- минологии объектно-ориентированного подхода, показатели в традиционной терминологии. Из всей совокупности материалов выделяют признаки (реквизиты, атрибуты), описывающие сущности
    (классы, показатели). На следующем этапе повторяющиеся по смыслу атрибуты представляют в виде одного согласованного по смыслу и синтаксису атрибута. В процессе слияния атрибутов в репозиторий появляются свои, присущие хранилищу атрибуты, их можно назвать системообра- зующими.
    Определение

    Технологии сбора и хранения данных – концепция информационных хранилищ
    39
    Метаданные должны содержать сведения о преобразовании исходных данных, истинные даты событий и временные характеристики отображаемых процессов, диапазоны для полей данных, сведения об источниках данных и их форматах и т. д.
    В связи с обширностью сведений, содержащихся в МД, а также разнообразием вари- антов реализации ИАС и ИХ возникла необходимость в более детальной классификации раз- личных видов МД по нескольким признакам.
    Проектные МД это совокупность атрибутов, содержащихся в исходных БД или файловых системах в составе их проектов, созданных с помощью CASE-средств.
    Воспринятые из этих источников МД и дополненные метаданными собственно хранилища должны уточняться в процессе обновления версий источников. Версии приложений для OLTP (функциональных систем) появляются реже, чем для систем поддержки принятия решений, поэтому проблема отслеживания проектных МД об- легчается.
    В шестимерной модели, которая далее будет рассмотрена, к проектным МД относятся измерения:
    – МД для сущностей, описывающих содержимое ИХ,
    – МД для расположения данных,
    – МД для движущих сил развития ИХ.
    Рабочие метаданные — это совокупность атрибутов, используемых в процессе экс- плуатации системы (хранилища или ИАС в целом) Они делятся на активные и пас- сивные.
    По динамике использования различают МД активные и пассивные. К активным относят те, которые контролируют функции или поведение приложений. Пассивные носят информаци- онный характер и используются при просмотре содержимого ИХ.
    По стадии применения различают проектные и рабочие метаданные
    Активные рабочие МД
    имеют два источника: проектные метаданные и собствен- ные компоненты метаданных ИХ. Этот тип МД используется для управления ИХ в частности и ИАС в целом на этапе эксплуатации системы. Активные рабочие ме- таданные используют для обеспечения безопасности и контроля за доступом к данным в ИХ, накопления статистики по обращениям к тем или иным разделам ИХ с целью совершенствования архитектуры ИАС. Информация, учитывающая время, может составлять значительный объем, к тому же она динамична. В размерност- ной (шестимерной) модели часть активных рабочих МД соответствует измерениям, описывающим операции над данными и людей, пользующихся хранилищем, а так- же временной аспект, то есть привязку данных и событий ко времени.
    Пассивные рабочие МД
    привязаны к деловому аспекту, то есть целевому использова- нию ИХ. Пользователь, используя такие МД, приобретает возможность легче ориенти- роваться в огромных массивах данных, экономя время на доступ к ним, применять их для формирования запросов, для облегчения понимания смысла содержащихся в ИХ данных.
    Пользователи должны знать источник содержащихся в ИХ данных, ответственных лиц, график загрузки. Эти сведения должны содержаться в репозитории МД. Помимо этого необхо- димо хранить данные о приложениях, языках программирования, датах переработки, о моделях данных, которые используются в CASE-средствах
    3.3.3. Модели метаданных по измерениям
    Определение
    Определение
    Определение

    Информационно аналитические системы
    40
    Под измерениями при рассмотрении совокупностей метаданных, понимают назначение и другие отличительные признаки входящих в эти совокупности групп МД. Различают (13) два основных вида классификации и соответствующих моделей: трехмерную и шестимерную.
    3.3.3.1. Трехмерная система классификации и модель МД
    Такая система подразумевает три типа метаданных:
    — МД оперативных баз данных — источников данных для ИХ,
    — МД об использовании данных, то есть об их назначении в интересах конечного пользо- вателя,
    — МД для управления информационным хранилищем.
    Эта система классификации применяется для ИХ и ИАС малого масштаба с одной предметной областью или небольшим их количеством.
    Рис. 3.6. Трехмерная модель метаданных
    3.3.3.2. Размерностная модель МД информационного хранилища
    Эта модель обеспечивает более детальный и строгий учет данных, сосредоточенных в
    ИХ. Она отвечает на вопросы: что? где? когда? кто? почему? как?. Такая модель называется схемой Захмана.
    Перечислим эти измерения:
    1. Сущности, которые составляют содержимое ИХ — Что?
    2. Размещение данных в операционных базах и непосредственно в ИХ — Где?
    3. Моменты загрузки и агрегирования данных, время их происхождения — Когда?
    4. Люди, которые используют и поддерживают хранилища; ответственные за факты, собы- тия, ценности и т.д. — Кто?
    5. Движущие силы создания и развития ИХ — Почему?
    6. Действия, которые выполняются над данными — Как?
    МД для управле- ния хранилищем
    МД об использовании данных
    МД источников данных

    Технологии сбора и хранения данных – концепция информационных хранилищ
    41
    Рис. 3.7. Размерностная модель МД ИХ
    3.3.4. Содержание компонентов размерностной модели МД ИХ
    3.3.4.1. Метаданные, описывающие сущности
    Это измерение является основой создания информационного хранилища. От правиль- ности формирования содержимого хранилища зависит успех его использования. Должна быть документально определена предметная область (или области) и зафиксирована в метаданных.
    Если рассматривается несколько предметных областей, то в метаданных должны быть сведения о взаимодействии этих областей, а для одной предметной области о связях ее частей.
    Сущности определяются на этапе моделирования. МД должны содержать имена полей, тип данных, домены включенных в ИХ данных, а также сведения о полях в источниках. Одна часть описаний полей может содержаться в источниках данных, другая — в хранилище, а также воз- можно их нахождение одновременно и в источниках и в хранилище.
    Связи между сущностями определяются бизнес-правилами и они фиксируются в базе метаданных. При моделировании структуры метаданных ИХ целесообразно применение объ- ектного подхода и соответствующих инструментальных средств.
    3.3.4.2. Метаданные, относящиеся к размещению ресурсов
    В базе метаданных должны быть сведения о размещении ресурсов ИХ и ИАС в целом.
    К таким ресурсам относятся: серверы, рабочие станции, сетевое оборудование, программные средства. Эти метаданные используются для управления конфигурацией, сопровождения систе- мы. Они создаются путем загрузки файла конфигурации таких операционных систем как: UNIX,
    LINUX, Windows и других, а также путем выполнения инвентаризации технической и программ- ной платформы.
    3.3.4.3. Метаданные, описывающие временные аспекты ИХ
    В хранилище отслеживаются:
    − время происхождения событий в бизнес-сфере или другой предметной области;
    − периоды времени, в течение которых происходят процессы;
    − моменты появления сведений в источниках данных и в хранилище, другие характерные точки привязки ко времени.
    Имеются сущности из пользовательской сферы, которые акцентируют внимание на временных аспектах. К ним относятся: планы, графики работ, планируемая и фактическая их продолжительность.
    В репозиторий вносятся МД, относящиеся к функционированию ИАС, в том числе: мо- менты обращения пользователей, длительность отклика на запросы, моменты начала и окон-
    Где?
    Что?
    Когда?
    Как?
    Метаданные
    ИХ
    Кто?
    Почему?

    Информационно аналитические системы
    42 чания загрузки данных в хранилище. По этим сведениям можно оценивать динамические харак- теристики ИАС.
    3.3.4.4. Метаданные, относящиеся к пользователям и администраторам ИХ и ИАС
    Функции, права доступа лиц, имеющих отношение к ИХ, фиксируются в соответствую- щих разделах базы МД. У названных лиц, независимо от названий их должностей в тех или иных организациях, имеются определенные права и обязанности, касающиеся работы в среде
    ИАС. Суть их работы определяется направлением деятельности: архитектор данных, специа- лист по информационным технологиям, руководитель проекта, администраторы баз данных первичных источников, бизнес-аналитик, менеджеры деловой сферы (лица, принимающие ре- шения) и другие.
    Все роли и лица их выполняющие должны быть зафиксированы в репозитории ИХ. Там же должна быть отражена организационная структура или ее часть, относящаяся к ИАС.
    Защита данных в процессе создания ИАС должна осуществляться, но поэтапно, чтобы не слишком ограничивать действия исполнителей проекта. Полномасштабная корпоративная защита вводится по завершении проекта.
    3.3.4.5. Метаданные о движущих силах создания ИАС
    Под движущими силами авторы концепции размерностной модели метаданных ИХ пони- мают цели и задачи проекта ИАС, которые должны быть четко сформулированы и внесены в ре- позиторий. Необходимо дать описание выполнения задач бизнес-подразделений.
    Целесообразно отобразить организационные и технические меры по обеспечению вы- сокого качества данных. В состав МД вводят характеристики ИАС по возможностям смыслово- го содержания запросов, скорости ответа на них, которые определяют в ходе испытаний и опытной эксплуатации. Отражаются схемы и технологии взаимодействия с бизнес- пользователями.
    3.3.4.6. Действия, которые выполняются над данными
    В репозитории должны находиться МД о преобразованиях, которым должны подверг- нуться перегружаемые из источников в хранилище данные. Должен быть разъяснен и унифици- рован в хранилище их смысл. Необходимо отобразить те действия, которые совершаются над данными в хранилище заблаговременно с тем, чтобы не тратилось время на это при реализа- ции запланированных запросов, а также расширялись возможности по совершению действий над данными при выполнении незапланированных запросов.
    3.4. Модели данных информационного хранилища
    1. Понятия модели данных информационного хранилища.
    2. Элементы моделей данных информационного хранилища.
    3. Схемы представления многомерных данных.
    3.4.1. Понятия модели данных информационного хранилища
    Многомерная модель данных представляет исследуемый объект в виде многомерной или объектно-ориентированной схемы данных, которая в геометрическом представлении выглядит как система поликубов. Для зрительного восприятия используют совокупность фрагментарных трех- мерных моделей. По осям или граням куба откладываются измерения или реквизиты-признаки.
    Реквизиты-основания являются наполнением ячеек куба. Многомерный куб или как иногда назы- вают пул данных может быть представлен комбинацией трехмерных кубов с целью облегчения восприятия и квазиобъемного представления при формировании отчетных и аналитических доку-

    Технологии сбора и хранения данных – концепция информационных хранилищ
    43
    ментов и мультимедийных презентаций по материалам аналитических работ в системе поддерж- ки принятия решений.
    Многомерные данные могут быть отображены в моделях посредством инструментов в виде СУБД на основе реляционных моделей данных, а также и специальными многомерными инструментальными средствами, называемыми объектными надстройками (32), многомерными и/или объектно-ориентированными СУБД.
    3.4.2. Элементы моделей данных информационного хранилища
    3.4.2.1. Содержание и назначение таблицы фактов
    В многомерном пуле информации создается большая центральная таблица, называемая таблица факта (fact table). В ней помещаются все данные относительно интересующего поль- зователя обобщающего показателя, то есть объекта или события, которые интересуют пользо- вателя. Таблицы фактов содержат числовые или качественные (содержательные) значения.
    Рассматривают четыре вида фактов:
    – транзакционные факты (transaction facts), отражающие происходящие в системе собы- тия, например финансовые и другие операции;
    – «моментальные снимки» (Snapshot facts), фиксирующие состояния объекта в заданные моменты времени — наличие товаров на складах, состояния счетов в банке и так далее;
    – элементы документов (Line-item facts), содержащие сведения о реквизитах документов — таких как количество отправленных, полученных товаров, ценах, дате и времени от- правки;
    – событие или состояние объекта (Event or state facts), отражающие акт совершения того или иного действия — отправку или прибытие товара, перечисление денежных сумм без описания их.
    В таблицы фактов включаются, как правило, данные на уровне детализации, то есть самого нижнего уровня иерархии. Она имеет внутренний составной ключ из ключей окружаю- щей ее меньших таблиц, которые содержат данные по признакам.
    3.4.2.2. Таблицы размерности (измерений), другие компоненты модели
    Таблицы, наполняющие факт-таблицы содержанием называют таблицы размерности или измерений (dimensional table).
    Они содержат постоянные или редко и мало изменяемые данные и должны находиться в отношении «один ко многим» к таблице фактов. Таблицы размерности являются родительски- ми по отношению к таблице факта. Таблица факта является дочерней. В случае наличия в таб- лице измерений иерархии в ней должны быть поля, указывающие на «предков». Их называют еще консольные таблицы (outrigger table). Они присоединяются к таблицам размерности и де- тализируют отдельные атрибуты. Консольные таблицы являются родительскими по отношению к таблицам размерности.
    При разработке базы данных по схеме «звезда» или по другой многомерной схеме не- обходимо глубоко и тщательно проанализировать предметную область; поместить в централь- ную таблицу факта все характеризующие исследуемый объект данные, предварительно разра- ботав систему признаков
    Консольные и таблицы размерности, а также таблица факта соединяются идентифици- рующими связями. Первичные ключи родительских таблиц являются внешними ключами дочер- них. Так, первичный ключ таблицы размерности является внешним ключом таблицы факта.
    Консольные и таблицы размерности, а также таблица факта соединяются идентифици- рующими связями. Первичные ключи родительских таблиц являются внешними ключами дочер- них. Так, первичный ключ таблицы размерности является внешним ключом таблицы факта.
    3.4.3. Схемы представления многомерных данных
    Представление многомерных данных, в том числе и на основе реляционных моделей может выполняться в виде трех вариантов схем:
    — «звезда»;

    Информационно аналитические системы
    44
    — «снежинка»;
    — «созвездие».
    Линейное представление на плоскости отображено на рисунках 3.8 — 3.10
    Схема «звезда» состоит только из таблиц размерности и таблицы факта. Она пред- ставлена на рис. 3.8. и 3.11.
    Развитием схемы «звезда» является схема «снежинка» (snowflake schema). Ее отличает от первой схемы большое количество консольных таблиц, они имеются практически на каждой таб- лице размерности и могут иметь несколько уровней иерархии, как показано на рис. 3.9. и 3.12.
    Многомерные модели данных на основе многомерных СУБД отличаются денормализаци- ей, точнее отсутствием или неполнотой нормализации. Допускаются дублирование или избыточ- ность данных, сбалансированные и несбалансированные (включающие неодинаковое количество уровней для разных ветвей) иерархии. Ячейки гиперкубов, формируемые такими средствами, имеют одинаковую размерность, что также приводит к избыточному расходу ресурсов системы.
    Объектно-ориентированные средства разработки приложений имеют возможности создания
    OLAP-средств анализа в случаях необходимости разработки оригинальных приложений.
    Факт-таблицы служат непосредственным материалом для осуществления анализа, в особенности в оперативном режиме, так как они имеют многомерную природу и обеспечива- ют быстрое извлечение из них нужной информации для обоснования решений или использова- ния в приложениях.
    OLAP-анализ может быть реализован в системе клиент-сервер. Клиентские средства реализуют небольшое число измерений. Возможны различные варианты распределения функ- ций между серверной и клиентской частями ИАС в OLAP-анализе.
    Рис. 3.8. Модель данных по схеме «звезда»
    Та б
    л иц а из м
    ерени й N
    Таб лиц а из мерени й
    3
    Та бл иц а из мерени й 2
    Табдица измерений 1
    Факт-таблица

    Технологии сбора и хранения данных – концепция информационных хранилищ
    45
    Рис. 3.9. Модель данных по схеме «снежинка»
    Факт-таблица
    Таб лиц а из мер ени й 1
    Та бл иц а и зм ер ен ий
    N
    К
    он со л
    ьн ая та бл иц а 1
    .1
    Консольная таблица NM
    Конс ольн ая табли ца 1
    .2
    Рис. 3.10. Модель данных по схеме «созвездие»
    Ф а к т -т а б л и ц а 1
    Т
    аб ли ца и
    зм ер ен ий
    1
    Та бл иц а и зм ер ен ий
    N
    К
    он со л
    ьн ая та бл иц а 1
    .1
    К о н с о л ь н а я т а б л и ц а N M
    К о н с о л ь н а я т а б л и ц а
    1 .2
    Ф а к т -т а б л и ц а 2

    Информационно аналитические системы
    46
    Далее на рисунках 3.11 — 3.15 приведены примеры реализации названных моделей в среде
    СУБД MS SQL Server.
    Рис. 3.11. Система таблиц по схеме «звезда»

    Технологии сбора и хранения данных – концепция информационных хранилищ
    47
    Рис. 3.12. Система таблиц по схеме «Снежинка»

    Информационно аналитические системы
    48
    Рис. 3.13. Система таблиц по схеме «созвездие»

    Технологии сбора и хранения данных – концепция информационных хранилищ
    49
    Рис. 3.14. Таблица фактов БД «Борей»
    Рис. 3.15. Пример таблицы измерений БД «Борей»

    Информационно аналитические системы
    50
    Вопросы для самопроверки
    1. Какие этапы прохождения данных от первичных источников к пользователям Вы знаете?
    2. В чем состоит идея гибкой архитектуры данных?
    3. Назовите свойства открытых систем.
    4. Каково содержание свойств расширяемости и масштабируемости?
    5. Каково содержание свойств переносимости и интероперабельности?
    6. Каково содержание свойств способность к интеграции и высокой готовности?
    7. Чем определяется значение стандартов при создании и применении ИАС?
    8. Какие стандарты описания показателей Вы знаете?
    9. В чем смысл стандартов электронного обмена данными?
    10. Какие проблемы разрешаются ETL-процессами?
    11. Назовите стадии ETL-процессов.
    12. Какие аспекты характеризуют сбор данных?
    13. Каковы требования к качеству данных, помещаемых в ИХ?
    14. Какие методы повышения качества данных используются в процессе их про- движения в информационное хранилище?
    15. Какие проблемы решаются при приведении данных к единому формату ин- формационного хранилища?
    16. В чем состоит смысл семантического разрыва?
    17. Какие виды семантических разрывов Вы знаете?
    18. Какие источники данных для информационного хранилища Вы можете назвать?
    19. Назовите основные принципы построения информационных хранилищ — правила Инмона.
    20. В чем заключаются требования предметной ориентированности?
    21. Раскройте понятие интегрированности данных в ИХ?
    22. В чем состоят требования неизменчивости?
    23. В чем состоит поддержка хронологии в информационном хранилище?
    24. Какова структура информационного хранилища?
    25. Раскройте содержание концепции централизованного хранилища данных.
    26. В чем состоит концепция распределенного хранилища данных?
    27. Что такое автономные витрины данных?
    28. В чем смысл концепции единого интегрированного хранилища и многих витрин данных?
    29. Раскройте понятие «база метаданных — репозиторий ИХ».
    30. Каковы назначение и выполняемые функции метаданных?
    31. Опишите принципы создания репозитория ИХ.
    32. Каково назначение и содержание бизнес-метаданных?
    33. Для чего нужны технические метаданные?
    34. Чем различаются активные и пассивные метаданные?
    35. Как делятся данные по стадиям применения?
    36. В чем смысл разделения метаданных на активные рабочие и пассивные рабо- чие МД?
    37. Какие компоненты входят в состав трехмерной классификации и модели мета- данных?
    38. На какие вопросы отвечает размерностная модель метаданных (модель За- хмана) информационного хранилища?
    39. Что содержат метаданные, описывающие сущности?
    40. Каков состав метаданных, отвечающих на вопрос — где?
    41. В чем смысл метаданных, отвечающих на вопрос — когда?
    42. Какова идея совокупности метаданных, отвечающих на вопрос — кто?
    43. Раскройте смысл совокупности метаданных, отвечающих на вопрос — почему?
    44. Какие метаданные описывают действия, выполняемые над данными?
    45. Раскройте понятие модели данных информационного хранилища.
    46. Назовите элементы модели данных информационного хранилища.

    Технологии сбора и хранения данных – концепция информационных хранилищ
    51 47. Что помещается в таблицы фактов?
    48. Какие виды фактов Вы знаете?
    49. Что представляют собой таблицы размерности?
    50. Каково назначение консольных таблиц?
    51. Перечислите виды многомерных схем данных и дайте им краткую характеристику.
    52. В чем смысл схемы «звезда»?
    53. В чем смысл схемы «снежинка»?
    54. В чем смысл схемы «созвездие»?
    55. Каковы особенности многомерных моделей данных?
    56. Какие принципы положены в основу построения модели данных ИХ?
    Тесты
    1. Этапы прохождения данных из источников — это:
    2. Идея гибкой архитектуры данных означает, что:
    1. архитектура данных в информационно-аналитической системе может быть легко изме- нена;
    2. любому пользователю из числа доверенных лиц должна быть обеспечена возможность доступа к любому разрешенному для использования участку данных, которыми распо- лагает предприятие (организация).
    3. Открытая система согласно определению POSIX 1003.0 принятому Комитетом IEEE это:
    1. обладающая специальными свойствами система, позволяющая пользователям перехо- дить от системы к системе с переносом данных и программных приложений;
    2. система
    , открытая любому пользователю.
    4. Выделите из приведенных свойств систем необязательные для открытых систем свойства:
    1. расширяемость;
    2. минимальное время отклика;
    3. масштабируемость;
    4. многомерность;
    5. переносимость;
    6. поддержка хронологии;
    7. интероперабельность;
    8. способность к интеграции;
    9. высокая готовность.
    5. Стандарты при создании информационно-аналитических систем применяются для:
    6. Стандарты электронного обмена данными в англоязычной терминологии Electronic Data
    Interchange (EDI) предназначены для:
    7. ETL (Extraction, Transformation, Loading) -процессы сбора, преобразования и загрузки дан- ных обеспечивают:
    1. подготовку результатов анализа;
    2. создание массива данных в информационном хранилище.
    8. Сбор данных характеризуют следующие аспекты:
    1. формализованный;
    2. структурный;

    Информационно аналитические системы
    52 3. смысловой.
    Выберите правильные ответы.
    9. В процессе продвижения данных в информационное хранилище используются следующие критерии оценки качества данных по структурному представлению:
    1. по критичности ошибок в данных — ошибки в именах полей, типах данных;
    2. по правильности форматов и представлений данных;
    3. на соответствие ограничениям целостности;
    4. на кроссязыковый разрыв;
    5. уникальности внутренних и внешних ключей;
    6. по полноте данных и связей.
    Найдите ошибочный критерий.
    10. Нарушения смыслового содержания данных (семантические разрывы) бывают следующих видов:
    1. «вавилонский»;
    2. кросспотоковый разрыв;
    3. разрыв кодограмм;
    4. кроссязыковый разрыв;
    5. асинхронный разрыв.
    Найдите ошибочный ответ.
    11. Основные принципы построения информационных хранилищ — правила Инмона следующие:
    1. предметная ориентированность;
    2. многомерность;
    3. интегрированность;
    4. неизменчивость;
    5. поддержка хронологии.
    Найдите не относящийся к информационным хранилищам признак.
    12. Структура информационного хранилища содержит следующие функциональные модули:
    1. зона накопления данных;
    2. зона хранения данных;
    3. блок анализа;
    4. зона хранения данных в многомерном (объектном) виде.
    Найдите не относящийся к информационному хранилищу модуль.
    13. Концепция информационного хранилища может быть реализована в нескольких вариантах:
    1. централизованное хранилище данных;
    2. распределенное хранилище данных;
    3. корпоративное хранилище данных;
    4. автономные витрины данных;
    5. единое интегрированное хранилище и многие витрины данных.
    Найдите неточный определение варианта концепции.
    14. База метаданных или репозиторий информационного хранилища представляет собой…
    15. Различают следующие основные виды метаданных:
    1. бизнес-метаданные;
    2. обзорные метаданные;
    3. технические метаданные.
    Найдите правильно сформулированные виды метаданных
    16. Используются следующие модели метаданных:
    1. трехмерная;
    2. четырехмерная;
    3. шестимерная.
    Определите правильные ответы
    17. Модель данных информационного хранилища отображает:
    18. Модель данных информационного хранилища содержит следующие элементы:

    Технологии сбора и хранения данных – концепция информационных хранилищ
    53 1. таблица факта;
    2. таблицы связей;
    3. таблицы размерности (измерений);
    4. консольные таблицы.
    Определите лишний элемент.
    19. Многомерные схемы данных в информационно-аналитической системе бывают следующих видов:
    1. схема «звезда»;
    2. схема «снежинка»;
    3. схема «капля»;
    4. схема «созвездие».

    54
    1   2   3   4   5   6   7


    написать администратору сайта