Руководство по изучению курса Практикум по курсу
Скачать 1.79 Mb.
|
3.2.2. Концепция централизованного хранилища данных Такой подход означает, что при нескольких источниках информации – операцион- ных базах данных создается единое централизованное хранилище. В первичных источни- ках информация хранится в «сыром» – недоработанном виде, то есть в структуре инфор- мационного пространства данного источника информации или операционной БД. Вся по- ступающая в ИХ информация должна быть преобразована в принятую в данном ИХ структуру. Передача данных из операционных БД в ИХ, которая сопровождается доработ- кой, может быть организована по заданному временному графику и правилам доработки с соблюдением принципов Инмона. Допускаются неожиданные запросы «на лету», что предъявлет более строгие требования к инструментальным средствам ИХ. Центральное хранилище данных Операционная база данных 1 Операционная база данных 2 Операционная база данных n Рис. 3.2. Схема централизованного хранения данных При реализации такой концепции возникает потребность в мощном компьютере. В зависимости от масштабов предметной области это будет или персональный компьютер с предельно высокими характеристиками, особенно в части требований к объемам памяти или майнфрейм и даже суперкомпьютер. Необходимо наличие развитых средств телеком- муникаций, обеспечивающих информационный обмен «операционные БД – ИХ». Это тре- бование относится к любому варианту концепции ИХ. 29 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ 3.2.3. Концепция распределенного хранилища данных Возможен и имеет место противоположный подход к хранению данных на основе распределения функций ИХ по местам их возникновения или группировки нескольких операционных БД вокруг локального или регионального информационного хранилища. Эти хранилища могут быть ориентированы на определенную предметную область или на регион в корпоративных структурах. Система локальных хранилищ действует в качестве распределенного хранилища. Не исключается и наличие центрального хранилища, но в такой структуре требования к его размерности значительно облегчаются. Такой подход предусматривает трансляцию каждого запроса к каждому источнику (базе данных), обработку, увязывание, согласование, компоновку извлеченных данных «на лету» и предоставление их пользователю. Такой подход при экономии ресурсов на создание крупного централизованного хранилища имеет ряд недостатков, к которым можно отнести: – в связи с нормализованностью данных в операционных базах и длительностью доступа из «центра» общее время отклика такой системы выходит за рамки допустимого; – должны быть обеспечены постоянство нахождения в сети и открытость всех источников информации, так как отсутствие какого либо из них может сорвать весь про- цесс анализа; – возможна противоречивость и несогласованность ответов из различных ис- точников из-за различных форматов представления, разницы в темпах обновления, правил привязки ко времени, изменения смысловой нагрузки данных и т. д.; – практическая невозможность комплексного исторического обзора содержа- щейся в разнородных источниках информации из-за различного порядка ее хранения – на- вязать единый порядок весьма затруднительно. ИХ 1 ИХ 2 ИХ 3 Операционная база 1.1 Операционная. база 1.n Операцион- ная база 2.1 Операционная база 3.1 Операцион- ная база 2.m Операционная база 3.k Рис. 3.3. Схема распределенного информационного хранилища 30 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ 3.2.4. Концепция автономных витрин данных Одним из вариантов организации централизованного хранения и представления информации является концепция витрин данных (Data Mart). Она предложена Forrester Research в 1991 году. При таком подходе информация, относящаяся к крупной предмет- ной области – например информационному пространству крупной корпоративной систе- мы, имеющей несколько достаточно самостоятельных направлений деятельности, группи- руется по этим направлениям в специально организованных базах данных, которые назы- вают витринами данных. Этот подход является развитием концепции распределенного ИХ в части придания функций предметной ориентированности некоторым локальным ИХ. Такой подход позволяет обойтись сравнительно менее ресурсоемкими аппаратны- ми и программными средствами, Витрина данных 1, совмещенная с ИХ Витрина данных 2, совмещенная с ИХ Операцион- ная база 1 Операционная база 2 Операционная база 3 Операционная база 4 Операционная база N Витрина данных M, совмещенная с ИХ Рис. 3.4. Схема автономных витрин данных. обеспечивает повышение адаптируемости системы к изменяющимся условиям, расширяет доступность для внедрения. Пользователь предприятия или другого подразделения корпо- рации получает свое ИХ, обслуживающее местные потребности. 3.2.5. Концепция единого интегрированного хранилища и многих витрин данных В 1994 году M. Demarset предложил объединить две концепции: единого интегри- рованного хранилища и связанных с ним и получающих из него информацию витрин дан- ных. В таком варианте имеется крупное информационное хранилище агрегированной и подработанной информации, которое может удовлетворить потенциальные запросы по отдельным направлениям деятельности. Здесь очевидны преимущества: данные заранее агрегируются, обеспечивается еди- ная хронология, согласованы различные форматы, устраняются противоречивость и неод- нозначность данных – информация приобретает необходимую кондицию для быстрого и достаточно полного удовлетворения необходимого множества запросов. 31 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Недостатком является необходимость применения высокопроизводительных аппа- ратных средств и специализированных многомерных или гибридных программных инст- рументальных средств. Центральное Информационное хра- нилище Витрина данных 1 Витрина данных 2 Витрина дан- ных N Операционная база 1 Операционная База 2 Операционная база … Операционная база № Рис. 3.5. Схема центрального информационного хранилища и многих витрин данных В таком варианте ИАС приобретает иерархическую многоуровневую структуру, содержащую следующие уровни: – общекорпоративное централизованное хранилище данных; – витрины данных по направлениям деятельности; – локальные или региональные базы и хранилища данных; – операционные базы данных, автоматизированные рабочие места пользователей автономных программ и АЭИС. Пунктам концентрации информации соответствуют иерархические уровни исполь- зования при подготовке, принятии и реализации решений данных, которые являются по- являющейся в результате функционирования предприятия (корпорации): – уровень лиц, принимающих решения, который может быть совмещен с уров- нем витрин данных; – уровень рабочих мест аналитиков и других заинтересованных пользователей. Рассмотренные концепции охватывают лишь те стороны функционирования ИАС, которые относятся к организации хранения данных. Они не определяют требования и подходы к выполнению анализа, способы представления данных в ИХ – реляционный или многомерный. 3.3. База метаданных информационного хранилища (репозиторий ИХ) 1. Основные понятия о базе метаданных. 2. Классификация метаданных. 3. Модели метаданных по измерениям 4. Содержание компонентов размерностной модели МД ИХ. 32 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ 3.3.1. Основные понятия о базе метаданных Управление ИАС осуществляется посредством использования метаданных, то есть данных о том, что представляют собой и как хранятся данные и по существу содержат информацию о предметной области. Благодаря их использованию предоставляется ин- формация, необходимая для автоматизации процессов сбора, преобразования и загрузки данных в ИХ и использования всей ИАС. Проектирование ИХ, разработка сценариев OLAP и интеллектуального анализа на- чинается с формирования массивов метаданных, которые реализуются соответствующими программными модулями. Этими модулями описываются атрибуты метаданных, прове- ряется их корректность, создается физическая структура хранения, обеспечивается вызов для реализации заданных в сценарии анализа функций. Метаданные можно разделить на два типа – бизнес-метаданные и технические ме- таданные. Они позволяют ориентироваться в огромном объеме информации. Бизнес-метаданные служат в основном интересам пользователя. К ним относятся определения данных, величины атрибутов, и областей, своевременность данных, бизнес- правила, соотношения данных, их охват. Технические метаданные используются службой администратора. К ним относятся сведения о времени обновления и преобразовании дан- ных, права доступа и т.д. В связи со сложностью потоков данных из операционных БД технические МД необходи- мы для работы многих программ. Более подробно, в состав бизнес-метаданных входят: – определенные объекты; – иерархии; – столбцы углубления; – столбцы анализа; – столбец фактических значений в прогнозных или бюджетных документах; – столбцы бюджетных значений в прогнозных или бюджетных документах; – временные измерения; – значения, определяющие успех предприятия; – категории и классификации данных; – сведения о зависимых и независимых переменных; – вид анализа и ограничений и т.д. В состав технических метаданных входят: – структура и семантика данных; – алгоритмы агрегирования; – сведения о разграничениях доступа и защите информации; – периодичность загрузки и очистки; – права собственности на информацию; – поисковые таблицы, перечень и правила исключений; – другие данные, относящиеся к техническому сопровождению. 3.3.2. Классификация метаданных Под метаданными понимают также сведения в виде некоего справочника – репози- тория, который помогает пользователям и лицам, обеспечивающим функционирование ИАС, ориентироваться в содержащихся в ИХ данных. Репозиторий является одним из центральных блоков инструментальной части ИАС. 33 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Группа проектировщиков на основе рассмотрения требований пользователей, в ко- торую входят их представители и работники ИТ-подразделения, составляет список подле- жащих сосредоточению в ИХ показателей и их реквизитов. Эта работа выполняется на ос- нове анализа документации, опросов, специальных исследований. Составляется перечень документов, аналитических сценариев с предполагаемыми запросами. Из полученных в ре- зультате обследования материалов выделяются сущности в разрезе достижения целей ана- лиза. Их называют классы в терминологии объектно-ориентированного подхода, показатели в традиционной терминологии. Из всей совокупности материалов выделяют признаки (рек- визиты, атрибуты), описывающие сущности (классы, показатели). На следующем этапе по- вторяющиеся по смыслу атрибуты представляют в виде одного согласованного по смыслу и синтаксису атрибута. В процессе слияния атрибутов в репозиторий появляются свои, при- сущие хранилищу атрибуты, их можно назвать системообразующими. Метаданные должны содержать сведения о преобразовании исходных данных, ис- тинные даты событий и временные характеристики отображаемых процессов, диапазоны для полей данных, сведения об источниках данных и их форматах и т. д. В связи с обширностью сведений, содержащихся в МД, а также разнообразием ва- риантов реализации ИАС и ИХ возникла необходимость в более детальной классифика- ции различных видов МД по нескольким признакам. По динамике использования различают МД активные и пассивные. К активным относят те, которые контролируют функции или поведение приложений. Пассивные носят информационный характер и используются при просмотре содержимого ИХ. По стадии применения различают проектные и рабочие метаданные Проектные МД это совокупность атрибутов, содержащихся в исходных БД или файловых системах в составе их проектов, созданных с помощью CASE-средств. Воспри- нятые из этих источников МД и дополненные метаданными собственно хранилища долж- ны уточняться в процессе обновления версий источников. Версии приложений для OLTP (функциональных систем) появляются реже, чем для систем поддержки принятия реше- ний, поэтому проблема отслеживания проектных МД облегчается. В шестимерной модели, которая далее будет рассмотрена, к проектным МД отно- сятся измерения: – МД для сущностей, описывающих содержимое ИХ, – МД для расположения данных, – МД для движущих сил развития ИХ. Рабочие метаданные – это совокупность атрибутов, используемых в процессе экс- плуатации системы (хранилища или ИАС в целом) Они делятся на активные и пас- сивные. Активные рабочие МД имеют два источника: проектные метаданные и собствен- ные компоненты метаданных ИХ. Этот тип МД используется для управления ИХ в част- ности и ИАС в целомна этапе эксплуатации системы. Активные рабочие метаданные ис- пользуют для обеспечения безопасности и контроля за доступом к данным в ИХ, накопле- ния статистики по обращениям к тем или иным разделам ИХ с целью совершенствования архитектуры ИАС. Информация, учитывающая время, может составлять значительный объем, к тому же она динамична. В размерностной (шестимерной) модели часть активных рабочих МД соответствует измерениям, описывающим операции над данными и людей, пользующихся хранилищем, а также временной аспект, то есть привязку данных и собы- тий ко времени. 34 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Пассивные рабочие МД привязаны к деловому аспекту, то есть целевому использова- нию ИХ. Пользователь, используя такие МД, приобретает возможность легче ориентироваться в огромных массивах данных, экономя время на доступ к ним, применять их для формирования запросов, для облегчения понимания смысла содержащихся в ИХ данных. Пользователи должны знать источник содержащихся в ИХ данных, ответственных лиц, график загрузки. Эти сведения должны содержаться в репозитории МД. Помимо это- го необходимо хранить данные о приложениях, языках программирования, датах перера- ботки, о моделях данных, которые используются в CASE-средствах 3.3.3. Модели метаданных по измерениям Под измерениями при рассмотрении совокупностей метаданных, понимают назна- чение и другие отличительные признаки входящих в эти совокупности групп МД. Разли- чают (13) два основных вида классификации и соответствующих моделей: трехмерную и шестимерную. 3.3.3.1. Трехмерная система классификации и модель МД Такая система подразумевает три типа метаданных: – МД оперативных баз данных – источников данных для ИХ, – МД об использовании данных, то есть об их назначении в интересах конечного пользователя, – МД для управления информационным хранилищем. Эта система классификации применяется для ИХ и ИАС малого масштаба с одной предметной областью или небольшим их количеством. МД источников данных МД об использова- нии данных МД для управ- ления хранили- щем Рис. 3.6. Трехмерная модель метаданных. 3.3.3.2. Размерностная модель МД информационного хранилища Эта модель обеспечивает более детальный и строгий учет данных, сосредоточен- ных в ИХ. Она отвечает на вопросы: что? где? когда? кто? почему? как?. Такая модель на- зывается схемой Захмана. Перечислим эти измерения: 1. Сущности, которые составляют содержимое ИХ – Что? 2. Размещение данных в операционных базах и непосредственно в ИХ – Где? 35 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ 3. Моменты загрузки и агрегирования данных, время их происхождения – Когда? 4. Люди, которые используют и поддерживают хранилища – Кто? 5. Движущие силы создания и развития ИХ – Почему? 6. Действия, которые выполняются над данными – Как? Кто? Как? Почему? Когда? Что? Метаданные ИХ Где? Рис. 3.7. Размерностная модель МД ИХ 3.3.4. Содержание компонентов размерностной модели МД ИХ 3.3.4.1. Метаданные, описывающие сущности Это измерение является основой создания информационного хранилища. От пра- вильности формирования содержимого хранилища зависит успех его использования. Должна быть документально определена предметная область или области и зафиксирова- на в метаданных. Если рассматривается несколько предметных областей, то в метаданных должны быть сведения о взаимодействии этих областей, а для одной предметной области о связях ее частей. Сущности определяются на этапе моделирования. МД должны содержать имена по- лей, тип данных, домены включенных в ИХ данных, а также сведения о полях в источниках. Одна часть описаний полей может содержаться в источниках данных, другая – в хранили- ще, а также возможно их нахождение одновременно и в источниках и в хранилище. Связи между сущностями определяются бизнес-правилами и они фиксируются в базе метаданных. При моделировании структуры метаданных ИХ целесообразно приме- нение объектного подхода и соответствующих инструментальных средств. 3.3.4.2. Метаданные, относящиеся к размещению ресурсов В базе метаданных должны быть сведения о размещении ресурсов ИХ и ИАС в це- лом. К таким ресурсам относятся: серверы, рабочие станции, сетевое оборудование, про- граммные средства. Эти метаданные используются для управления конфигурацией, со- провождения системы, Они создаются путем загрузки файла конфигурации таких опера- ционных систем как: UNIX, LINUX, Windows и других, а также путем выполнения инвен- таризации технической и программной платформы. 36 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ 3.3.4.3. Метаданные, описывающие временные аспекты ИХ В хранилище отслеживаются: – время происхождения событий в бизнес-сфере или другой предметной области; – периоды времени, в течение которых происходят процессы; – моменты появления сведений в источниках данных и в хранилище. Имеются сущности из пользовательской сферы, которые акцентируют внимание на временных аспектах. К ним относятся: планы, графики работ, планируемая и фактическая их продолжительность. В репозиторий вносятся МД, относящиеся к функционированию ИАС, в том числе: моменты обращения пользователей, длительность отклика на запросы, моменты начала и окончания загрузки данных в хранилище. По этим сведениям можно оценивать динамиче- ские характеристики ИАС. 3.3.4.4. Метаданные, относящиеся к пользователям и администраторам ИХ и ИАС Функции, права доступа лиц, имеющих отношение к ИХ, фиксируются в соответ- ствующих разделах базы МД. У названных лиц, независимо от названий их должностей в тех или иных организациях, имеются определенные права и обязанности, касающиеся ра- боты в среде ИАС. Суть их работы определяется направлением деятельности: архитектор данных, специалист по информационным технологиям, руководитель проекта, админист- раторы баз данных первичных источников, бизнес-аналитик, менеджеры деловой сферы (лица, принимающие решения) и другие. Все роли и лица их выполняющие должны быть зафиксированы в репозитории ИХ. Там же должна быть отражена организационная структура или ее часть, относящаяся к ИАС. Защита данных в процессе создания ИАС должна осуществляться, но поэтапно, чтобы не слишком ограничивать действия исполнителей проекта. Полномасштабная кор- поративная защита вводится по завершении проекта. 3.3.4.5. Метаданные о движущих силах создания ИАС Под движущими силами авторы концепции размерностной модели метаданных ИХ понимают цели и задачи проекта ИАС, которые должны быть четко сформулированы и вне- сены в репозиторий. Необходимо дать описание выполнения задач бизнес-подразделений. Целесообразно отобразить организационные и технические меры по обеспечению высокого качества данных. В состав МД вводят характеристики ИАС по возможностям смыслового содержания запросов, скорости ответа на них, которые определяют в ходе ис- пытаний и опытной эксплуатации. Отражаются схемы и технологии взаимодействия с бизнес-пользователями. 3.3.4.6. Действия, которые выполняются над данными В репозитории должны находиться МД о преобразованиях, которым должны под- вергнуться перегружаемые из источников в хранилище данные. Должен быть разъяснен и унифицирован в хранилище их смысл. Необходимо отобразить те действия, которые со- вершаются над данными в хранилище заблаговременно с тем, чтобы не тратилось время на это при реализации запланированных запросов, а также возможности по совершению действий над данными при выполнении незапланированных запросов. 37 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ 3.4. Модели данных информационного хранилища 1. Понятия модели данных информационного хранилища. 2. Элементы моделей данных информационного хранилища. 3. Схемы представления многомерных данных. 3.4.1. Понятия модели данных информационного хранилища Многомерная модель данных представляет исследуемый объект в виде многомерной или объектно-ориентированной схемы данных, которая в геометрическом представлении представляет собой системы поликубов. Для зрительного восприятия используют совокуп- ность фрагментарных трехмерных моделей. По осям или граням куба откладываются изме- рения или реквизиты-признаки. Реквизиты-основания являются наполнением ячеек куба. Многомерный куб или как иногда называют пул данных может быть представлен комбина- цией трехмерных кубов с целью облегчения восприятия и квазиобъемного представления при формировании отчетных и аналитических документов и мультимедийных презентаций по материалам аналитических работ в системе поддержки принятия решений. Многомерные данные могут быть отображены в моделях инструментами в виде СУБД на основе реляционных моделей данных, а также и специальными многомерными инструментальными средствами, называемыми объектными надстройками (32), много- мерными и/или объектно-ориентированными СУБД. 3.4.2. Элементы моделей данных информационного хранилища 3.4.2.1. Содержание и назначение таблицы фактов В многомерном пуле информации создается большая центральная таблица, назы- ваемая таблица факта (fact table). В ней помещаются все данные относительно интере- сующего пользователя обобщающего показателя, то есть объекта или события, которые интересуют пользователя. Таблицы фактов содержат числовые или качественные (содер- жательные) значения. Рассматривают четыре вида фактов: – транзакционные факты (transaction facts), отражающие происходящие в системе события, например финансовые и другие операции; – «моментальные снимки» (Snapshot facts), фиксирующие состояния объекта в за- данные моменты времени – наличие товаров на складах, состояния счетов в банке и так далее; – элементы документов (Line-item facts), содержащие сведения о реквизитах до- кументов – таких как количество отправленных, полученных товаров, ценах, дате и времени отправки; – событие или состояние объекта (Event or state facts), отражающие акт соверше- ния того или иного действия – отправку или прибытие товара, перечисление де- нежных сумм без описания их. В таблицы фактов включаются, как правило, данные на уровне детализации, то есть самого нижнего уровня иерархии. Она имеет внутренний составной ключ из ключей окружающей ее меньших таблиц, которые содержат данные по признакам. 3.4.2.2. Таблицы размерности (измерений), другие компоненты модели Таблицы, наполняющие факт-таблицы содержанием называют таблицы размерно- сти или измерений (dimensional table). 38 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Они содержат постоянные или редко и мало изменяемые данные и должны нахо- диться в отношении «один ко многим» к таблице фактов. Таблицы размерности являются родительскими по отношению к таблице факта. Таблица факта является дочерней. В слу- чае наличия в таблице измерений иерархии в ней должны быть поля, указывающие на «предков». Их называют еще консольные таблицы (outrigger table). Они присоединяются к таблицам размерности и детализируют отдельные атрибуты. Консольные таблицы яв- ляются родительскими по отношению к таблицам размерности. При разработке базы данных по схеме «звезда» или по другой многомерной схеме необходимо глубоко и тщательно проанализировать предметную область; поместить в центральную таблицу факта все характеризующие исследуемый объект данные, предвари- тельно разработав систему признаков Консольные и таблицы размерности, а также таблица факта соединяются иденти- фицирующими связями. Первичные ключи родительских таблиц являются внешними ключами дочерних. Так, первичный ключ таблицы размерности является внешним клю- чом таблицы факта. Консольные и таблицы размерности, а также таблица факта соединяются иденти- фицирующими связями. Первичные ключи родительских таблиц являются внешними ключами дочерних. Так, первичный ключ таблицы размерности является внешним клю- чом таблицы факта. 3.4.3. Схемы представления многомерных данных Представление многомерных данных в рамках реляционных моделей может выполняться в виде трех вариантов схем: – «звезда»; – «снежинка»; – «созвездие». Линейное представление на плоскости отображено на рисунках 7.1–7.3 Схема «звезда» состоит только из таблиц размерности и таблицы факта. Она пред- ставлена на рис. 7.1 и 7.4. Развитием схемы «звезда» является схема «снежинка» (snowflake schema). Ее отли- чает от первой схемы большое количество консольных таблиц, они имеются практически на каждой таблице размерности и могут иметь несколько уровней иерархии, как показано на рис. 7.2 и 7.5. Многомерные модели данных на основе многомерных СУБД отличаются денор- мализацией, точнее отсутствием или неполнотой нормализации. Допускаются дублирова- ние или избыточность данных, сбалансированные и несбалансированные (включающие неодинаковое количество уровней для разных ветвей) иерархии. Ячейки гиперкубов, фор- мируемые такими средствами, имеют одинаковую размерность, что также приводит к из- быточному расходу ресурсов системы. Объектно-ориентированные средства разработки приложений имеют возможности соз- дания OLAP-средств анализа в случаях необходимости разработки оригинальных приложений. Факт-таблицы служат непосредственным материалом для осуществления анализа, в особенности в оперативном режиме, так как они имеют многомерную природу и обеспе- чивают быстрое извлечение из них нужной информации для обоснования решений или использования в приложениях. OLAP-анализ может быть реализован в системе клиент-сервер. Клиентские средст- ва реализуют небольшое число измерений. Возможны различные варианты распределения функций между серверной и клиентской частями ИАС в OLAP-анализе. 39 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Та б л иц а и зм ерени й N Та бл ица из ме ре ний 3 Та бли ца из ме рен ий 2 Табдица измерений 1 Факт-таблица Рис. 3.8. Модель данных по схеме "звезда" Факт-таблица Таб лиц а из мер ени й 1 Таб лиц а и зм ере ний N К он со л ьн ая та бл иц а 1 .1 Консольная таблица NM Консо льна я табл ица 1 .2 Рис. 3.9. Модель данных по схеме «снежинка» 40 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Факт-таблица 1 Та бл иц а и зм ер ен ий 1 Таб лиц а и зм ере ний N К он со л ьн ая та бл иц а 1 .1 Консольная таблица NM Конс ольн ая табл ица 1 .2 Факт-таблица 2 Рис. 3.10. Модель данных по схеме «созвездие» Далее на рисунках 3.11 – 3.15 приведены примеры реализации названных моделей в среде СУБД MS SQL Server. 41 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Рис. 3.11. Система таблиц по схеме «звезда» 42 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Рис. 3.12. Система таблиц по схеме «Снежинка» 43 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Рис. 3.13. Система таблиц по схеме «созвездие» 44 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Рис. 3.14. Таблица фактов БД «Борей» 45 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Рис. 3.15. Пример таблицы измерений БД «Борей» Вопросы для самопроверки 1. Какие этапы прохождения данных от первичных источников к пользователям Вы знаете? 2. В чем состоит идея гибкой архитектуры данных? 3. Назовите свойства открытых систем. 4. Каково содержание свойств расширяемости и масштабируемости? 5. Каково содержание свойств переносимости и интероперабельности? 6. Каково содержание свойств способность к интеграции и высокой готовности? 7. Чем определяется значение стандартов при создании и применении ИАС? 8. Какие стандарты описания показателей Вы знаете? 9. В чем смысл стандартов электронного обмена данными? 10. Какие проблемы разрешаются ETL-процессами? 11. Назовите стадии ETL-процессов. 12. Какие аспекты характеризуют сбор данных? 13. Каковы требования к качеству данных, помещаемых в ИХ? 14. Какие методы повышения качества данных используются в процессе их продви- жения в информационное хранилище? 15. Какие проблемы решаются при приведении данных к единому формату инфор- мационного хранилища? 16. В чем состоит смысл семантического разрыва? 17. Какие виды семантических разрывов Вы знаете? 18. Какие источники данных для информационного хранилища Вы можете назвать? 19. Назовите основные принципы построения информационных хранилищ – пра- вила Инмона. 20. В чем заключаются требования предметной ориентированности? 21. Раскройте понятие интегрированности данных в ИХ? 22. В чем состоят требования неизменчивости? 23. В чем состоит поддержка хронологии в информационном хранилище? 24. Какова структура информационного хранилища? 25. Раскройте содержание концепции централизованного хранилища данных. 26. В чем состоит концепция распределенного хранилища данных? 27. Что такое автономных витрин данных? 28. В чем смысл концепции единого интегрированного хранилища и многих витрин данных? 29. Раскройте понятие «база метаданных – репозиторий ИХ 30. Каковы назначение и выполняемые функции метаданных? 46 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ 31. Опишите принципы создания репозитория ИХ. 32. Каково назначение и содержание бизнес-метаданных? 33. Для чего нужны технические метаданные? 34. Чем различаются активные и пассивные метаданные? 35. Как делятся данные по стадиям применения? 36. В чем смысл разделения метаданных на активные рабочие и пассивные рабочие МД? 37. Какие компоненты входят в состав трехмерной классификации и модели мета- данных? 38. На какие вопросы отвечает размерностная модель метаданных (модель Захмана) информационного хранилища? 39. Что содержат метаданные, описывающие сущности? 40. Каков состав метаданных, отвечающих на вопрос – где? 41. В чем смысл метаданных, отвечающих на вопрос – когда? 42. Какова идея совокупности метаданных, отвечающих на вопрос – кто? 43. Раскройте смысл совокупности метаданных отвечающих на вопрос – почему? 44. Какие метаданные описывают действия, выполняемые над данными? 45. Раскройте понятие модели данных информационного хранилища. 46. Назовите элементы модели данных информационного хранилища. 47. Что помещается в таблицы фактов? 48. Какие виды фактов Вы знаете? 49. Что представляют таблицы размерности? 50. Каково назначение консольных таблиц? 51. Перечислите виды многомерных схем данных и дайте им краткую характеристику. 52. В чем смысл схемы «звезда»? 53. В чем смысл схемы «снежинка»? 54. В чем смысл схемы «созвездие»? 55. Каковы особенности многомерных моделей данных? 56. Какие принципы положены в основу построения модели данных ИХ? 47 |