чч. Конспект лекций по дисциплине Хранилища данных для образовательной программы 09. 04. 03 Прикладная информатика
Скачать 1.29 Mb.
|
Продукция OracleНаправление хранилищ данных и аналитических систем является сегодня для компании Oracle одним из самых приоритетных. Будучи поставщиком полного технологического решения в данной области, Oracle выпускает новые продукты и постоянно совершенствует существующие. В общем виде, технология функционирования любой корпоративной информационно-аналитической системы состоит в следующем. Данные поступают из различных внутренних транзакционных систем, от подчиненных структур, от внешних организаций в соответствии с установленным регламентом, формами и макетами отчетности. Вся эта информация проверяется, согласуется, преобразуется и помещается в хранилище и витрины данных. После этого пользователи с помощью специализированных инструментальных средств получают необходимую им информацию для построения различных табличных и графических представлений, прогнозирования, моделирования и выполнения других аналитических задач [3]. В соответствии с этим основными функциями информационно-аналитической системы являются: Извлечение данных из различных источников, их преобразование и загрузка в хранилище Хранение данных Анализ данных, включая регламентированные отчеты, произвольные запросы, многомерный анализ (OLAP) и извлечение знаний (datamining). Обычно для выполнения этих функций используются различные продукты, что приводит к усложненной архитектуре системы, необходимости интегрировать разнородные инструментальные среды, дополнительным затратам на администрирование, проблемам согласования данных и метаданных на различных серверах. Корпорация Oracle предлагает новый подход к созданию аналитических систем – единую и функционально полную платформу для решения всех перечисленных задач[4]. Основой решения является система управления базами данных Oracle Database, с помощью которой можно не только надежно хранить огромные объемы аналитической информации, но и эффективно выполнять процедуры извлечения данных из разнородных источников, согласовывать, агрегировать и преобразовывать эти данные в аналитическую информацию, загружать ее в хранилище. Кроме того, средствами этого же продукта поддерживаются различные методы анализа данных, включая многомерный анализ, прогнозирование, поиск закономерностей. Все эти функции реализуются описанными ниже специальными компонентами: Компонент DataWarehousesобъединяет те возможности сервера Oracle, которые предназначены для построения и эффективного использования хранилищ данных. Режимы функционирования базы данных для аналитических задач требуют специальных настроек параметров, методов индексирования и обработки запросов. Начиная с Oracle7, в СУБД Oracle стали появляться новые средства, с помощью которых совершенствовалась работы базы в режиме хранилищ и витрин данных. К их числу относятся параллельная обработка запросов, позволяющая наиболее полно использовать возможности многопроцессорных аппаратных платформ, эффективные битовые (bitmap) индексы и специализированные алгоритмы выполнения запросов, такие как хэш-соединения (hash joins), которые многократно повысили производительность обработки аналитических запросов. В СУБД Oracle имеется мощная возможность секционирования данных (partitioning), облегчающая управление и значительно ускоряющая обработку очень больших таблиц и индексов. Кроме того, появились новые схемы оптимизации, преобразующие запросы к типу «звезда», что позволяет избежать ресурсоемкого полного соединения справочных таблиц. Одним из важнейших усовершенствований в этом же направлении является технология управления суммарными данными на основе материализованных представлений (materialized views). Анализируя статистику работы системы, СУБД рекомендует администратору необходимые агрегаты, автоматически их создает и периодически обновляет. Затем при выполнении запросов с агрегированием система автоматически переписывает их таким образом, чтобы они обращались к суммарным данным, хранящимся в материализованных представлениях. Такой подход резко, иногда на несколько порядков, повышает производительность хранилища данных для конечных пользователей. Среди других технологий, связанных с быстродействием в аналитических задачах, — функциональные индексы, специальные операции для вычисления итогов и подитогов в отчетах, широкий спектр встроенных аналитических функций и ряд других. ETL компонент — это расширение стандартных средств СУБД Oracle дополнительными командами и средствами, полезными для задач сбора и преобразования данных. К таким средствам относятся внешние таблицы, автоматическая фиксация изменения данных (change data capture), табличные функции, одновременный ввод и корректировка данных, ввод данных в несколько таблиц и др. [5]. Опция OLAP Services позволяет хранить и обрабатывать многомерную информацию на том же сервере баз данных, где находится реляционное хранилище. По функциональным возможностям OLAP Services сравнимы с многомерной СУБД OracleExpress и по существу завершают процесс интеграции технологии OracleExpress с реляционным сервером OracleDatabase. Средства OLAP Services поддерживают в полном объеме основной язык сервера Express, а для существующих баз данных Express обеспечивается их миграция в СУБД Oracle [6]. Средствами опции Oracle DataMining реализуется технология data mining, с помощью которой в больших объемах информации можно автоматически выявить закономерности и взаимосвязи, полезные для принятия управленческих решений. Концепция построения систем поддержки принятия решений, предлагаемая Oracle, объединяет все компоненты, необходимые для создания и управления Хранилищем Данных, а также для использования накопленной в нем информации. На рис.17. представлен набор программных средств Oracle, реализующих вышеперечисленные задачи. Рис. 17. Набор программных средств Oracle, реализующих технологию работы с ХД Для разработки и развертывания хранилищ и витрин данных предназначен продукт Oracle Warehouse Builder, который представляет собой интегрированную CASE-среду, ориентированную на создание информационно-аналитических систем. Средствами этого продукта можно проектировать, создавать и администрировать хранилища и витрины данных, разрабатывать и генерировать процедуры извлечения, преобразования и загрузки данных из различных источников, эффективно управлять метаданными. Стандарты Common Warehouse Model, лежащие в основе репозитария Oracle Warehouse Builder, обеспечивают его интеграцию с различными аналитическими инструментальными средствами как Oracle, так и других фирм. Для организации доступа с рабочих мест аналитиков к данным хранилища и витрин используются специализированные рабочие места, поддерживающие необходимые технологии как оперативного, так и долговременного анализа. Аналитическая деятельность в рамках корпорации достаточно разнообразна и определяется характером решаемых задач, организационными особенностями компании, уровнем и степенью подготовленности аналитиков. В связи с этим современный подход к инструментальным средствам анализа не ограничивается использованием какой-то одной технологи. В настоящее время принято различать четыре основных вида аналитической деятельности: стандартная отчетность, нерегламентированные запросы, многомерный анализ (OLAP) и извлечение знаний (data mining). Каждая из этих технологий поддерживается продуктами Oracle: для стандартной отчетности используется OracleReports, для формирования нерегламентированных отчетов и запросов — OracleDiscoverer, для сложного многомерного анализа – опция сервера Oracle OLAP Services вместе с Jdeveloper и BI JavaBeans или линия продуктов OracleExpress, а для задач «извлечения знаний опция OracleDataMining. Важнейшей чертой аналитических инструментальных средств и приложений Oracle является их готовность к работе в среде Web. Менеджеры и аналитики, где бы они ни находились, могут получать информацию из Хранилищ и Витрин Данных в защищенной Интранет-архитектуре с помощью сервера приложений Oracle ApplicationServer. Кроме собственно продуктов, обеспечивающих полное решение для корпоративной информационно-аналитической системы, корпорация Oracle предлагает оригинальную методологию выполнения проекта по созданию и сопровождению таких систем. Эта методология называется Data Warehouse Method (DWM) и является частью общего подхода Oracle к проектированию и реализации различных проектов. Еще совсем недавно аналитики Gartner включали платформу Siebel Analytics лишь в группу «Провидцы» своего «магического квадрата» - Magic Quadrant for Business Intelligence Platforms - отмечая технологические достоинства этой платформы, они не высоко оценили стратегию компании по ее продвижению. После покупки компании Siebel Systems корпорацией Oracle в прошлом году и решительных действий по ее развитию и продвижению, аналитики Gartner поменяли свое мнение. Попытаемся разобраться насколько заслуженно Oracle Business Intelligence Suite Enterprise Edition (Oracle BI Suite ЕЕ) оказалась, по мнению, Gartner в числе лидеров, особенно если учесть, что большинство российских специалистов знает об этой платформе очень немного. Архитектура Платформа Oracle BI Suite EE по способам доступа к данным и архитектуре относится ко второй группе. В архитектуре этой платформы (рис. 18) центральное место занимает аналитический сервер - Oracle BI Server, через который реализуется весь доступ к разнообразным источникам данных. Этот сервер называют аналитическим сервером приложений (business intelligence application server), так как он поддерживает интерфейсы к реляционным и многомерным (OLAP) базам (ODBC, OCI, MDX, CLI), а также к плоским файлам, XML-документам, таблицам MS Excel, базам данных наиболее популярных приложений SAP R/3 и mySAP, Oracle e-Business Suite, JD Edwards Enterprise One, Peoplesoft Enterprise, Oracle Siebel CRM и др., а также выполняет роль интегратора, которая традиционно была прерогативой промежуточной области (staging area) хранилища данных. Пожалуй, Oracle BI Suite EE - это самая «всеядная» (в части источников данных) аналитическая платформа. Oracle BI Server также обладает всей необходимой серверной инфраструктурой, включая управление сессиями, запросами, отменами и блокировками, ведением журналов и мониторингом активности, балансировкой нагрузки на сервер, и, самое главное, эффективной системой кеширования запросов пользователей и их результатов. Основными архитектурными компонентами системы являются: Oracle BI Server, Oracle BI Web и Oracle Delivers Server. Рис.18. Архитектура Oracle BI Suite EE Oracle BI Server централизованно хранит метаданные об источниках данных и бизнес-объектах (business definitions) в своем репозитории, доступном всем инструментам платформы Oracle BI EE. Oracle BI Web предоставляет интерфейсы для всех компонент системы, используемых для визуализации данных. Он взаимодействует с Oracle BI Server и выполняет ряд важнейших функций: отвечает за авторизацию пользователей и персонализацию интерфейса для них, генерацию логических запросов к аналитическому серверу, хранение и администрирование метаданных (Web-каталог) для отчетов и интерактивных панелей, осуществляет дополнительную пост-обработку данных. Oracle Delivers Server необходим для работы проактивной составляющей в платформе, позволяющей задавать модели для выявления проблем, фильтровать данные в соответствии с заданными правилами, уведомлять пользователей по множеству каналов, включая электронную почту и SMS и давать возможность пользователям принимать решение в ответ на оповещение. Основные его функции это: создание и подписки на уведомления, автоматическое оповещение и планировщики, администрирование каналов и учетных записей доставки. Для достижения высокой производительности и масштабируемости системы Oracle BI Server и Oracle BI Web можно объединять в кластеры. Поддерживается возможность балансировки нагрузки, позволяя распределять запросы и пользовательские сеансы на разные сервера. В целом следует отметить, что принципы, заложенные в архитектуре Oracle BI EE, позволяют разработчику иметь единый взгляд и модель представления всей корпоративной информации, содержащейся в различных системах. В соответствии с этим, разработка всего BI-решения упрощается, а главное снижаются издержки. Другой важной для разработчика стороной архитектуры является доступ к информации в режиме реального времени или через многоуровневую систему кеширования. Для администрирования и сопровождения системы важным является то, что она построена на единой инфраструктуре и обладает общими инструментарием администрирования. Современная тенденция интеграции приложений с Internet технологиями находит свою полную поддержку в Oracle BI Suite EE. Так Oracle BI Web предлагает интерфейс на основе Web-сервисов. В целом вся платформа Oracle BI SuiteEE построена на SOA (Service Oriented Architecture) архитектуре. Клиентскиеприложения Если способы доступа к источникам данных определяют архитектуру аналитических платформ, то функциональность клиентских приложений и аналитических средств определяет функциональные возможности системы. Большинство аналитических платформ предлагают ограниченный набор приложений, обычно состоящий из средств построения аналитических запросов и отчетов и неких панелей или книг для объединения связанных отчетов и представления их конечному пользователю. Если же платформа и обладает полным спектром аналитических возможностей, то часто у каждого ее компонента были свои метаданные. В отличие от этого в Oracle BI Suite EE все клиентские приложения и инструменты были с самого начала созданы для совместного использования одних и тех же метаданных, аналитического сервера приложений, инфраструктуры вычислений и инструментов администрирования, единой модели безопасности и управления привилегиями пользователей. В состав платформы Oracle BI Suite EE входит следующий набор инструментов (клиентских приложений): BI Answers - инструмент для выполнения произвольных (ad hoc) запросов и анализа; BI Interactive Dashboard - интерактивные информационные Web-панели, отображающие персонализированную информацию; BI Publisher - масштабируемое средство формирования регламентированных отчетов в разных форматах на основе данных из множества источников и их рассылки по различным каналам; BI Briefing Books - средство создания и просмотра «мгновенных снимков» информационных панелей; BI Disconnected Analytics - средство доступа пользователей к возможностям BI Answers и BI Interactive Dashboard при работе в режиме оффлайн, предусматривает полную и инкрементальную синхронизацию данных мобильной среды с корпоративными источниками данных; BI Office Plug-In - инструмент работы с аналитическим сервером через такие приложения как MS Word, Excel и Powerpoint; BI Delivers - механизм распространения по различным каналам сообщений о событиях. Значительной особенностью Oracle BI Suite EE является наличие компонентов для проактивной аналитики (BI Delivers). Идея достаточно проста - оповещение аналитической системой о факте выхода того или иного показателя за установленные пределы. При этом в качестве формируемого события - выход показателя за установленные пределы - может выступать электронное письмо с вложенным отчетом, sms-сообщение, и т. д. Кроме того в состав клиентских приложений в Oracle BI EE включен очень мощный и функциональный сервер формирования регламентированных отчетов и форм (BI Publisher). Он имеет централизованную архитектуру, обеспечивающую генерацию и безопасное распространение отчетов и может работать над одной и той же моделью данных с Oracle BI EE. Все клиентские приложения реализованы в «чистой» Web-среде, на основе HTML, DHTML, JavaScript - пользователю не придется выполнять загрузка какого-либо клиента, использовать программные расширения, элементы управления на базе ActiveX или Java апплеты. Это позволяет пользователя работать с системой, откуда угодно для этого необходимо лишь иметь Web-браузер. Метаданные Аналитический сервер Oracle BI Server представляет данные пользователям согласно логической бизнес-модели - корпоративной семантической модели (Enterprise Semantic Model). Эта модель имеет три слоя (рис. 19): физический, содержащий метаданные о физических источникам данных, имена таблиц, первичные и внешние (primary and foreign) ключи, статистики по количеству строк (row counts), правила доступа к таблицам, а также пул соединений; бизнес-слой, содержащий описания измерений и иерархий, логические таблицы, правила выбора источников данных, правила построения вычислений, агрегаций и временного анализа, а также правила детализации; слой представления - упрощенное, персонализированное представление данных, к которым ссылаются с применением «логического SQL». |