Сравнение оперативных и аналитических БД
С точки зрения обеспечения требуемых данных различаются оперативные (OLTP) и аналитические информационные приложения (OLAP), помогающих принимать бизнес-решения за счет динамически производимых анализа, моделирования и/или прогнозирования данных:
ХД - хранилище данных - должно включать как внутренние корпоративные данные, так и внешние данные . Основным источником информации, поступающей в оперативную БД, является деятельность корпорации, а для проведения анализа данных требуется привлечение внешних источников информации (например, статистических отчетов).
объем аналитических БД - баз данных - как минимум на порядок больше объема оперативных. Для оперативной обработки требуются данные за несколько последних месяцев, а для проведения достоверных анализа и прогнозирования в ХД нужно иметь информацию о деятельности корпорации и состоянии рынка на протяжении нескольких лет
ХД - хранилище данных - должно содержать единообразно представленную и согласованную информацию, максимально соответствующую содержанию оперативных БД. Необходима компонента для извлечения и "очистки" информации из разных источников. Во многих крупных корпорациях одновременно существуют несколько оперативных ИС с собственными БД (по историческим причинам). Оперативные БД могут содержать семантически эквивалентную информацию, представленную в разных форматах, с разным указанием времени ее поступления, иногда даже противоречивую.
СОД создаются в расчете на решение конкретных задач. Информация из БД выбирается часто и небольшими порциями. Обычно набор запросов к оперативной БД известен уже при проектировании. Набор запросов к аналитической базе данных предсказать невозможно. ХД существуют, чтобы отвечать на нерегламентированные ( ad hoc ) запросы аналитиков . Можно рассчитывать только на то, что запросы будут поступать не слишком часто и затрагивать большие объемы информации. Размеры аналитической БД стимулируют использование запросов с агрегатами (сумма, минимальное, максимальное, среднее значение и т.д.)
СОД - системы обработки данных - по своей природе являются сильно изменчивыми, что учитывается в используемых СУБД (нормализованная структура БД, строки хранятся неупорядоченно, B-деревья для индексации, транзакционность). При малой изменчивости аналитических БД (только при заг рузке данных) оказываются разумными упорядоченность ма ссивов, более быстрые методы индексации при массовой выборке, хранение заранее агрегированных данных
для СОД обычно хватает защиты информации на уровне таблиц. Информация аналитических БД настолько критична для корпорации, что требуются большая грануляция защиты(индивидуальные права доступа к определенным строкам и/или столбцам таблицы) .
С учетом приведенных замечаний общая архитектура ХД и системы аналитической обработки данных может выглядеть так, как показано на рисунке.
Общая архитектура ХД и системы аналитической обработки данных
| Средства и методы построения ХД - хранилищ данных
Построение хранилища данных
Построение ХД — проект, требующий серьезной проработки и усилий со стороны бизнеса и поставщика информационных технологий. Наиболее эффективным подходом здесь будет совместный проект предприятия и компании, специализирующейся в этой области. Общемировая практика показывает, что ХД создаются под конкретного заказчика. Серьезным преимуществом является наличие квалифицированного персонала, типовых Витрин Данных, а также отраслевой модели данных.
Хотя с формальной точки зрения ХД представляет собой разновидность обычной БД, проектируют их по-разному. Для обычных БД процесс создания происходит по схеме...
Схема процесса создания базы данных БД
Изучения предметной области;
Построение информационной модели;
Разработка на основе информационной модели проекта БД;
Создания БД
Обязательные этапы создания ХД другие.
Обязательные этапы создния хранилища данных ХД
Определения информационных потребностей пользователей относительно Данных, которые накопляются вБД операционных систем — систем обработки трансакций OLTP-систем, которая есть источниками оперативных данных;
Изучения локальных БД OLTP-систем;
Выделения для каждой БД подмножества данных, необходимых для загрузки в ХД;
Интегрирования локальных подмножеств данных и разработка общей согласованной схемы хранилища.
При построении ХД необходимо использовать принцип централизации метаданных, но при этом важно понимать, что на нынешнем этапе развития информационных технологий централизовать хранение метаданных довольно сложно. Например, в технических метаданных должны содержаться информация об источниках и их структуре, описание потоков данных и процессов перегрузки. Если первые два набора обычно поставляются вместе с информационной системой, то вторые, как правило, формируются в рамках проекта по созданию хранилища и размещаются на сервере перегрузки данных.
Цикл создания ХД и решения первой значимой для бизнеса задачи не превышает трех месяцев. Сроки можно и сократить, но качество при этом заметно ухудшится. Хотя ХД развивается итерационно, уже на первом этапе надо заложить серьезный фундамент не только для решения первой задачи, но и для развития аналитики в стратегической перспективе.
ХД создаются с применением специализированных средств построения ХД.
Средства построения хранилищ данных ХД Средства проектирования ХД входят в состав реляционных и многомерных СУБД от таких производителей как Microsoft, Oracle , IBM, Sybase и других. Также часто применяются универсальные CASE-инструменты, такие как BPWin и ERWin . После описания структур хранения данных специальными системными утилитами выполняется их генерация.
Такой подход к созданию ХД позволяет построить индивидуальное ХД или Витрину Данных в сжатые сроки. В тоже время такой подход затрудняет перенос наработок от одного заказчика к другому и обмен практическим опытом в решении аналитических задач.
|
ETL-средства ( extraction , transformation , loading ) - средства извлечения, преобразования и загрузки данных) обеспечивают три основных процесса, используемые при переносе данных из одного приложения или системы в другие. ETL-средства извлекают информацию из исходной БД, преобразуют ее в формат, поддерживаемый базой данных назначения, а затем загружают в нее преобразованную информацию. Эти средства обычно входят в состав функциональности реляционных и многомерных СУБД или Студий для построения ХД. Однако существуют и специализированные системы, реализующие только ETL-функции. Классической ETL-системой является, например, продукт Ascential DataStage компании Ascential Software .
| Применение готовых хранилищ данных
Это самый надежный способ построить ХД в сжатые сроки. Готовые к эксплуатации ХД характеризуются наличием в них механизмов средств построения Хранилищ/Витрин данных, взаимосвязанных посредством единого словаря метаданных. К ним относятся - процедуры извлечения, преобразования, очистки и загрузки данных, функции генерации БД и процедур обработки, механизмы построения выборок данных, интерфейсы просмотра и анализа данных. Ограничением в применении готовых ХДявляется их предметная ориентация. Например, финансовое ХД невозможно применить для решения задач оптимизации химического производства.
Ниже описаны подходы и продукты ведущих поставщиков, имеющие связь с технологией ХД.
IBM - A Data Warehouse Plus - ХД
Решение компании IBM называется A Data Warehouse Plus. Целью компании является обеспечение интегрированного набора программных продуктов и сервисов, основанных на единой архитектуре. Основой ХД является семейство СУБД DB2. Преимуществом IBM является то, что данные, которые нужно извлечь из оперативной БД и поместить в ХД, находятся в системах IBM. Поэтому естественная тесная интеграция программных продуктов.
Предлагаются три решения для хранилищ данных:
изолированный рынок данных - для решения отдельных задач вне связи с общим ХДм корпорации.
зависимый рынок данных - а налогичен изолированному рынку данных, но источники данных находятся под централизованным контролем.
глобальный ХД. Корпоративное ХД, которое полностью централизовано, контролируется и управляется. Глобальное ХД может храниться централизовано или состоять из нескольких распределенных в сети рынков данных.
Oracle - Warehouse Technology Initiative - хранилище данных
Решение компании Oracle в области ХД основывается на двух факторах: широкий ассортимент продуктов самой компании и деятельность партнеров в рамках программы Warehouse Technology Initiative. Возможности Oracle в области ХД базируются на следующих составляющих:
наличие реляционной СУБД Oracle 7, которая постоянно совершенствуется для лучшего удовлетворения потребностей ХД;
существование набора готовых приложений, обеспечивающих возможности разработки ХД;
высокий технологический потенциал компании в области анализа данных;
доступность ряда продуктов, производимых другими компаниями.
Hewlett Packard - Open Warehouse - хранилище данных
Работы, связанные со складами данных, выполняются в рамках программы Open Warehouse. Выполнение этой программы должно обеспечить возможность построения ХД на основе мощных компьютеров HP, аппаратуры других производителей и программных компонентов. Основой подхода HP являются Unix-платформы и программный продукт Intelligent Warehouse , который предназначен для управления складами данных. Основа построения ХД, предлагаемая HP, оставляет свободу выбора реляционной СУБД, средств реинжиниринга и т.д.
Sybase - Warehouse WORKS - хранилище данных
Стратегия компании в области ХД основывается на разработанной ей архитектуре Warehouse WORKS . В основе подхода находится реляционная СУБД Sybase System 11, средство для подключения и доступа к базам данных Omni CONNECT и средство разработки приложений PowerBuilder . Компания продолжает совершенствовать свою СУБД для лучшего удовлетворения потребностей ХД (например, введена побитная индексация).
Informix Software - On-Line Dynamic Parallel Server - ХД
Стратегия компании в отношение ХД направлена на расширение рынка для ее продукта On - Line Dynamic Parallel Server . Предлагаемая архитектура ХД базируется на четырех технологиях: реляционные БД, программном обеспечении для управления ХД, средствах доступа к данным и платформе открытых систем. Три последних компонента разрабатываются партнерами компании. После выхода Универсального Сервера, основанного на объектно-реляционном подходе, можно ожидать, что и он будет использоваться для построения ХД.
AT&T GIS - Enterprise Information Factory - хранилище данных
Решение компании направлено на решение проблем корпораций, у которых одинаково сильны потребности и в системах поддержки принятия решений, и в системах оперативной аналитической обработки данных. Предлагаемая архитектура называется Enterprise Information Factory и основывается на опыте использования системы управления базами данных Teradata и связанных с ней методах параллельной обработки.
SAS Institute
Компания считает себя поставщиком полного решения для организации ХД. Подход основан на следующем:
обеспечение доступа к данным с возможностью их извлечения из самых разнообразных ХД(и реляционных, и не реляционных);
преобразование данных и манипулирование ими с использованием 4GL;
наличие сервера многомерных БД;
большой набор методов и средств для аналитической обработки и статистического анализа.
Software AG - Open Data Warehouse Initiative - хранилище данных
Деятельность компании в области ХД происходит в рамках программы Open Data Warehouse Initiative. Программа базируется на основных продуктах компании ADABAS и Natural 4GL, собственных и приобретенных средствах извлечения и анализа данных, средстве управления ХД SourcePoint . SourcePoint позволяет автоматизировать процесс извлечения и пересылки данных, а также их загрузки в ХД.
| Студии для построения ХД - хранилищ данных
Еще одним способом построения ХД является применение специализированного средства - Студий для построения ХД. Новый метод построения ХД возник в связи с тем, что нынешним условиям уже не удовлетворяют ни статичные и дорогостоящие готовые Хранилища, ни разрозненные инструменты для их создания - предприятия желают получить ХД, максимально отражающее их специфику в минимально короткие сроки и за минимальную цену.
Можно сказать, что формируется новое поколение ХД, которое уже не предусматривает в проекте своей реализации начального и самого длительного этапа, включающего в себя разработку схемы проектирования, построения аналитических запросов, шаблонов ETL и др.
Традиционные проекты хранилищ данных и Industry Warehouse Studio
Студии для построения ХД стали реальной альтернативой построению Хранилищ "с нуля", т.к. предоставляют интегрированные наборы продуктов, содержащие инструменты для проектирования и преобразования Хранилищ, БД, средства управления метаданными и администрирования ХД. Такие продукты предлагают набор шаблонов и заготовок для быстрого создания Хранилища. В составе Студии может предоставляться базовая модель ХД, ориентированная на определенную бизнес-сферу. С помощью таких наборов у предприятий имеется возможность сэкономить время и средства на реализации бизнес-решений и одновременно увеличить гибкость и масштабируемость создаваемого Хранилища соответственно требованиям определенного предприятия и быстро меняющимся условиям конкретных сфер бизнеса, можно значительно быстрее создать ХД, воспользовавшись опытом предыдущих решений и начать его эксплуатацию.
Компания Sybase, один из мировых лидеров по разработке программного обеспечения, предложила решение, предоставляющее предприятиям возможность упростить проектирование собственных ХД для анализа отношений с клиентами (CRM). Таким решением стал специально созданный набор продуктов Industry Warehouse Studio , первоначально содержавший четыре студии для таких областей бизнеса, как страхование от несчастных случаев, здравоохранение, розничное банковское обслуживание и телекоммуникации. Позднее пакет был дополнен студиями для работы в сфере страхования жизни, кредитных карт и рынка ценных бумаг. На сегодняшний день Industry Warehouse Studio - практически единственный самостоятельно существующий набор инструментов для быстрого создания Хранилищ. Возможно, в скором времени такие студии станут стандартным средством для проектирования ХД.
Компании Sybase и Cognos подписали партнерское соглашение по поставке бизнес-аналитического пакета совместно со студиями Sybase . Программное обеспечение Cognos объединяет заранее определенные шаблоны для системы формирования запросов и отчетов Impromptu и OLAP-систему PowerPlay , обеспечивающие пользователей продуктов Sybase дополнительными возможностями по анализу данных, созданию запросов и получению отчетов. Все это увеличивает ценность студий как средств, используемых в процессе принятия решений и управления отношениями с клиентами.
Между компаниями Sybase и Saratoga Financial Systems (консультационные услуги, сопровождение проектов и техническое обслуживание в области финансов) оформлено стратегическое партнерство, направленное на предоставление бизнес-аналитических решений в сфере финансового и банковского обслуживания. Согласно этому соглашению Saratoga Financial Systems предлагает потребителям углубленное исследование данных по клиентам и продуктам путем преобразования их в рабочую бизнес-аналитическую информацию с помощью полнофункционального ХД на базе семейства студий Sybase. В свою очередь компания Sybase, используя опыт работы Saratoga Financial Systems в финансовой и банковской сфере более чем 20 стран мира, сможет выделить и проанализировать данные, являющиеся определяющими или специфическими для данной области бизнеса.
Готовые пакеты для разработки ХД есть не только у компании Sybase. Достаточно близко к ее студиям стоит такой функциональный элемент DB2 Universal Database компании IBM, как DB2 OLAP Starter Kit, созданный на базе DB2 OLAP Server и технологии Essbase компании Hyperion. Он не был выделен в отдельный продукт, однако задачи его во многом сходны с задачами студий Sybase. Starter Kit дает пользователям возможность достаточно просто создавать многомерные приложения, наполнять эти приложения данными Хранилища и обеспечивать доступ к ним некоторой рабочей группы. Он предлагает интегрированные возможности в области OLAP в соединении с несложным интерфейсом для разработки и управления OLAP-приложениями, и все это базируется на популярной аналитической машине Hyperion Essbase и мощностях DB2, использующей сотни приложений Essbase.
Впрочем, такой подход, несмотря на свою новизну, используется не только в западных продуктах. В качестве примера можно привести систему "Контур Корпорация" компании "Intersoft Lab", представляющую собой аналогичную студию построения ХД, ориентированную на специфику российской финансовой сферы. Возможности OLAP для Хранилищ, построенных на платформе "Контур Корпорация", обеспечивает OLAP-клиент "Контур Стандарт", который легко интегрируется в систему.
| |