Информационно аналитические системы - аннотация. Литература по теме Тема Инструменты интеграции данных из различных источников Вопрос Источники данных для формирования отчетности
Скачать 1.28 Mb.
|
Тема 2. Источники данных и хранение информации на предприятии Цели: Сформировать представление об источниках хранения данных на предприятии. Задачи: Изучить основные источники данных на предприятии. Рассмотреть принципы построения средств хранения данных. Изучить структуру и технологию работы хранилищ данных. Познакомиться с видами хранилищ данных и рынком DWH. Вопросы темы: 1. Способы хранения информации на предприятии и источники данных. 2. Принципы построения хранилищ и OLTP баз данных. 3. Свойства и структура хранилищ данных. 4. Виды хранилищ данных. 5. Технология работы хранилищ данных. 6. Рынок DWH. Основные понятия: файловая система; оперативная база данных (OLTP); транзакция; хранилище данных; витрина данных; предметная ориентированность; интегрированность данных; неизменяемость; мера (measure); измерение (dimension); атрибут; иерархия; агрегация данных; «звезда» (star schema); «снежинка» (snowflake schema). Вопрос 1. Способы хранения информации на предприятии и источники данных. В процессе деятельности предприятия накапливается большое количество информации. Вся эта информация должна храниться на предприятии и быть в любой момент доступна для пользователя. Для хранения информации могут быть использованы различные средства: файловые системы, оперативные базы данных (OLTP) и хранилища данных (DWH). Файловые системы. В современных условиях большинство рабочих мест сотрудников оснащены персональными компьютерами (АРМ – автоматизированное рабочее место). В процессе работы на каждом АРМ накапливается оперативная информация, документы, сопровождающие те или иные бизнес процессы. Эта информация хранится на компьютере в виде файлов. Файл – это именованная область внешней памяти, в которую можно записывать и из которой можно считывать данные. Файлы бывают разных типов: обычные, специальные, файлы-каталоги. Для организации хранения и управления файлами на компьютере используется файловая система, представляющая собой функциональную часть операционной системы. Файловые системы предназначены для обслуживания многих тысяч файлов и обеспечивают хранение слабо структурированной информации. Каждая файловая система поддерживает некоторую иерархическую файловую структуру (древовидную), включающую чаще всего неограниченное количество уровней иерархии (рис 8). Рис. 8. Иерархическая организация файловой структуры хранения Доступ к файлам организуется в файловых системах через каталоги. Каталог (от греч. katalogos – список) – справочник файлов и каталогов со ссылками на их расположение. При этом различают главный (корневой) каталог и подчиненные (вложенные) каталоги. На современном предприятии рабочие места пользователей часто объединяются в локальные сети. Это позволяет организовать совместную эффективную работу с бизнес информацией группе пользователей, участвующих в определенном бизнес процессе. Часто хранение такой информации переносится на сервер, организуется так называемый файловый архив. Оперативные базы данных (OLTP) используются предприятиями для поддержания их повседневной деятельности, для отслеживания информации, с которой они имеют дело в процессе решения оперативных задач. Это может быть информация о произведенных товарах, принятых заказах, оказанных услугах, выплатах, доходах и т.п. Результатом фиксации указанной информации становится одна или несколько записей в оперативной базе данных. Сам процесс фиксации называют бизнес-транзакцией, а информацию – данными транзакции. Транзакция – это последовательность операторов манипулирования данными, выполняющаяся как единое целое и переводящая базу данных из одного целостного состояния в другое целостное состояние. Системы оперативной обработки транзакций (OLTP от англ. OnLine Transaction Processing,) служат для хранения данных о выполняемых бизнес-транзакциях. Основная функция подобных систем заключается в одновременном выполнении большого количества коротких транзакций от большого числа пользователей. К числу транзакционных систем относятся: ERP-системы; автоматизированные банковские системы (АБС); биллинговые системы; учетные системы и некоторые др. Данные в OLTP-системы поступают в основном из внутренних источников, причем это текущие данные за период от нескольких месяцев до одного года. Объемы хранимых данных могут составлять сотни мегабайт, гигабайты. Частота обновления данных высокая, обновления происходят маленькими порциями. Основное их назначение фиксация данных, оперативный поиск и преобразование данных. В основе таких систем лежат оперативные базы данных. Хранилища данных. По определению Билла Инмона, основоположника хранилищ данных, «хранилище данных – это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений». Задача хранилища – предоставить лицу, принимающему решения, информацию для анализа в одном месте в простой, понятной для восприятия структуре. Данные в хранилище попадают из оперативных систем (OLTP-систем), которые предназначены для автоматизации бизнес-процессов, и других внутренних источников информации. Хранилище также может пополняться за счет внешних источников информации, например, статистических отчетов и т.п. Хранилищу данных характерна малая частота изменений. Изменения производятся большими порциями и обычно по расписанию. Хранилище объединяет внутренние и внешние данные, в составе этих данных входят текущие данные и исторические за период до нескольких десятков лет. Объемы хранимых данных – гигабайты и терабайты. Основное назначение хранилищ данных – это хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование и моделирование. Можно выделить два типа хранилища данных: 1) корпоративные хранилища данных (enterprise data warehouses); 2) витрины или киоски данных (data marts). Корпоративные хранилища данных содержат информацию, относящуюся к деятельности всей корпорации и собранную из множества оперативных источников данных. Их объем может достигать от десятков Гбайт до одного или нескольких терабайт. Витрины данных (небольшие хранилища данных) содержат подмножество корпоративных данных и создаются для определенной группы пользователей, отделов или подразделений внутри организации. Они охватывают конкретный аспект, интересующий сотрудников данного отдела. Витрина данных может получать данные из корпоративного хранилища (зависимая) или данные могут поступать непосредственно из оперативных источников (независимая витрина). Вопрос 2. Принципы построения хранилищ и OLTP баз данных. Хранилище данных включает в себя несколько компонентов: подсистема хранения данных; подсистема метаинформации или репозиторий; менеджер хранилища; менеджер загрузки; менеджер запросов. Типичная архитектура хранилища данных приведена на рисунке 9. Подсистема хранения данных предназначена непосредственно для хранения данных. Подсистема метаинформации (репозиторий). Метаданные – это данные о данных. Метаданные сами по себе не несут информации, но описывают атрибуты данных в хранилище. Менеджер хранилища (warehouse manager)выполняет операции, связанные с управлением информацией, помещенной в хранилище данных. Менеджер загрузки (load manager) выполняет операции, связанные с извлечением и загрузкой данных в хранилище. Менеджер запросов (query mamager) выполняет операции, связанные с управлением пользовательскими запросами. Рис. 9. Архитектура хранилища данных Принципы построения формулируются исходя из задач, стоящих перед Хранилищем данных и OLTP-системой. Принципы построения Хранилищ данных: 1. Оптимизация базы данных хранилища для быстрого выполнения объемных незапланированных запросов. 2. Пакетная загрузка данных, с предварительной обработкой данных. 3. Наличие пользовательских инструментов для создания сложных запросов и наглядных отчетов. 4. Возможность быстрого изменения структуры базы данных хранилища – это требование исходит от динамики бизнеса. Принципы построения OLTP-систем отличаются от принципов построения Хранилищ данных и часто принципиально противоположны им. Для обеспечения своих ключевых функций OLTP-системы должны: 1. Быстро выполнять транзакции. 2. Защищать данные от пользовательских ошибок ввода. 3. Минимизировать изменения базы данных в процессе выполнения одной транзакции для ускорения ее выполнения. Вопрос 3. Свойства и структура хранилищ данных. Свойства информационных хранилищ. Уильям Инмон определил информационное хранилище данных как специальным образом администрируемую базу данных, содержимое которой имеет следующие свойства: Предметная ориентированность. Интегрированность данных. Привязка ко времени. Неизменяемость. Минимизация избыточности информации. Предметная ориентированность: хранилище должно разрабатываться с учетом специфики предметной области. Интегрированность данных: все данные о разных бизнес объектах, взаимно согласованы и хранятся в едином общекорпоративном Хранилище. Привязка ко времени: данные хронологически структурированы и отражают историю за достаточный для выполнения задач бизнес анализа и прогнозирования период времени. Неизменяемость: данные не обновляются в оперативном режиме, а лишь регулярно пополняются из систем оперативной обработки данных. Исходные (исторические) данные, остаются неизменными и используются исключительно в режиме чтения. Минимизация избыточности информации в хранилище данных обеспечивается фильтрацией, сортировкой и очисткой данных при загрузке, приведением их к единому формату. Структура хранилищ данных. Структуру хранилищ определяют хранимые в них данные. Выделяют четыре типа данных: 1) меры; 2) измерения; 3) атрибуты; 4) иерархии. Мера (measure) – это численное значение показателя, выражающее определенный аспект деятельности организации. Это понятие соответствует такому понятию ИП как «реквизит-основание». Меры также называют фактическими значениями, или просто фактами. А таблицы, которые содержат данные значения, называются таблицами фактов. Измерение (dimension) – это направление анализа, способ детализации данных, определяющий составляющие агрегированных мер. Атрибуты – обычно понятные пользователю текстовые описания объектов. Иерархия – это расположение частей или элементов целого в порядке от высшего к низшему. Иерархическая структура – это многоуровневая форма организации объектов. Графически эта структура представляется в виде дерева. В хранилище данных меры хранятся в таблице фактов, а измерения – в таблицах измерений. Таблица фактов является основной таблицей хранилища данных. Таблица фактов содержит: сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться; уникальный составной ключ, объединяющий первичные ключи таблиц измерений; одно или несколько числовых полей, на основании которых в дальнейшем будут получены агрегатные данные. Таблицы измерений содержат: неизменяемые либо редко изменяемые данные; ключевое поле для идентификации члена измерения, одно описательное поле, определяющее имя члена измерения. Скорость роста таблиц измерений должна быть незначительной по сравнению со скоростью роста таблицы фактов. Каждая таблица измерений должна находиться в отношении «один ко многим» с таблицей фактов. Если каждое измерение содержится в одной таблице, такая схема хранилища данных носит название «звезда» (star schema). Пример такой схемы приведен на рисунке 10. Рис. 10. Пример схемы «звезда» Если же хотя бы одно измерение содержится в нескольких связанных таблицах, такая схема хранилища данных носит название «снежинка» (snowflake schema). Наиболее часто используется схема «звезда». Это вызвано требованием обеспечения высокой скорости выполнения запросов к хранилищу данных. Вопрос 4. Виды хранилищ данных. Реализация информационного хранилища может быть осуществлена несколькими способами: 1. Централизованное хранилище данных. 2. Распределенное хранилище данных. 3. Автономные витрины данных. 4. Шина взаимосвязанных витрин данных. 5. Единое интегрированное хранилище и много витрин данных. 6. Виртуальное хранилище данных. 1. Централизованное хранилище данных – единое централизованное хранилище данных объединяет информацию из различных источников: операционных баз данных. 2. Распределенное хранилище данных основано на распределении функций ИХ в соответствие с характером бизнеса или регионом в корпоративных структурах. 3. Автономные витрины данных: создаются небольшие предметно-ориентированные базы данных, в которых группируется информация, относящаяся к какому-либо достаточно самостоятельному направлению деятельности крупной корпоративной системы. 4. Шина взаимосвязанных витрин данных разрабатывается с использованием единых измерений, что в результате приводит к созданию логически интегрированных витрин. 5. Единое интегрированное хранилище и много витрин данных объединяет две концепции: единого интегрированного хранилища и связанных с ним и получающих из него информацию витрин данных. 6. Виртуальное хранилище данных – система, предоставляющая интерфейсы и методы доступа к OLTP-системе, которые эмулируют работу с данными в этой системе, как с хранилищем данных Вопрос 5. Технология работы хранилищ данных. Хранилище данных служит главным источником достоверной информации для руководителей и специалистов всех подразделений организации, что обеспечивает согласованность, своевременность и обоснованность принятия управленческих решений, облегчает выверку обязательной отчетности и обеспечивает выпуск управленческой отчетности. Общий принцип работы Хранилища данных состоит в следующем: в OLTP системах выполняются учетные операции, затем с определенной периодичностью данные поступают в Хранилище, на основе которого осуществляется анализ информации, и выпускаются различные отчеты (рис. 11). Рис. 11. Принцип работы Хранилища данных Технология работы хранилища данных складывается из нескольких технологических процессов: 1. Технология сбора данных. 2. Технология очистки и загрузки данных. 3. Технология выполнения расчетов. 4. Технология отработки запросов. Технология сбора данных обеспечивает регулярное и бесперебойное получение данных из удаленных филиалов, дополнительных офисов, из различных информационных систем. Эта технология включает в себя форматы данных, технологию их генерации, бизнес-правила, регламентирующие извлечение данных из внешних источников, дистрибуцию метаданных (нормативно-справочной информации) и многое другое. Технология очистки и загрузки данных обеспечивает входной контроль данных, автоматическое исправление ошибок, приведение данных к единым стандартам, загрузку больших массивов данных, многоуровневую журнализацию. Технология выполнения расчетов. Специальный аппарат выполнения расчетов обеспечивает: агрегацию данных – расчет обобщенных показателей; консолидацию данных – суммирование данных по организационной иерархии; расчет производных показателей. Технология отработки запросов предполагает выполнение сложных запросов к большим массивам данных. Вопрос 6. Рынок DWH. На рынке программного оборудования предлагается ряд продуктов, которые имеют принципиально разную функциональность, назначение, степень готовности к применению, однако все они позиционируются как Хранилища данных. Продукты, которые относят к категории Хранилищ данных, можно разделить на несколько групп, см. таблицу 1. Таблица 1.
По данным исследования мирового рынка систем управления базами данных (СУБД), проведенного компанией Gartner в ноябре 2017 г., лидерами рынка СУБД являются компании Microsoft, Oracle, Amazon Web Services (AWS), SAP, IBM. Вопросы для самопроверки: 1. Что такое хранилище данных? 2. Чем отличаются OLTP-системы от хранилищ данных? 3. Какие принципы лежат в основе построения Хранилищ данных? 4. Что такое витрина данных? 5. Перечислите свойства информационных хранилищ. 6. Что означает предметная ориентированность хранилища данных? 7. Какая информация хранится в таблице фактов? 8. Какая информация хранится в таблицах измерений? 9. Перечислите виды хранилищ данных. 10. Назовите основных игроков на рынке хранилищ данных. Литература по теме: 1. Информационные аналитические системы: учеб. / Под ред. В.В. Дика. – М.: Московский финансово-промышленный ун-т «Синергия», 2013. 2. Выбор архитектуры хранилища данных. – [Электронный ресурс]. – Режим доступа: http://iso.ru/ru/press-center/journal/2204.phtml. 3. Александр Стулов. Хранилища данных: основные архитектуры и принципы построения в реляционных СУБД – [Электронный ресурс]. – Режим доступа: http://www.bipartner.ru/resources/dw_arch.html. |