Информационно-аналитические системы. Цель и задачи дисциплины. Целью
Скачать 1.22 Mb.
|
Тема 3. Инструменты интеграции данных из различных источников Цели: Сформировать представление о технологиях и инструментах интеграции данных на предприятии. Задачи: · Ознакомиться с источниками данных для формирования отчетности. · Изучить технологии интеграции данных. · Ознакомиться с рынком средств интеграции данных. Вопросы темы: 1. Источники данных для формирования отчетности. 2. Технологии интеграции данных. 3. Рынок средств интеграции приложений. Основные понятия: · децентрализованные источники данных; · централизованный источник данных; · интеграция данных; · консолидация данных; · федерализация данных; · распространение данных; · режим реального времени; · пакетная интеграция данных; · извлечение; · преобразование; · загрузка; · интеграционная платформа. Вопрос 1. Источники данных для формирования отчетности. Формирование разнообразной отчетности – важнейшая функция информационной системы предприятия. Формируемую на предприятии отчетность принято разделять на оперативную и аналитическую. Оперативная отчетность. Задача оперативной отчетности – отражение текущего состояния предприятия и его различных подразделений. Такие отчеты требуются с высокой частотой и, как правило, являются довольно узкоспециализированными, т.е. охватывают какое-то одно направление деятельности. Оперативные отчеты можно получать непосредственно из оперативных (OLTP) систем. Так как используемые для отчетов данные хранятся в разрозненных источниках, такой способ хранения является децентрализованным (рис. 12). Рис. 12. Децентрализованные источники данных Оперативные системы должны обеспечивать приемлемую производительность при выполнении своей прямой задачи: обработки операций. Генерация отчетов ложится на них дополнительной нагрузкой и замедляет работу. Более того, если отчет охватывает зоны ответственности разных OLTP-систем или требует подключения внешних данных, то часто требуется какое-то программирование, экспорт в промежуточные форматы и дополнительные расчеты. На корректность получаемой информации негативно влияет также и то, что порядок и формат ввода оперативных данных в OLTP-системы зачастую не отвечают требованиям их аналитической и статистической обработки. Данные могут повторяться или быть сохранены в виде, затрудняющем их машинную обработку. И наконец, оперативные системы накладывают существенные ограничения на хранение данных за большой период времени, т.к. попросту не предназначены для этого. Попытки разделить отчетность и обработку транзакций предпринимались неоднократно. Одной из таких попыток является создание копий («реплик») оперативных систем для получения отчетов. При этом данные из оригинальных оперативных систем реплицируются в системы-копии без каких бы то ни было преобразований. Эта мера позволяет решить только одну проблему: снятие с оперативных систем дополнительной нагрузки. Другим подходом к решению этой проблемы является построение витрин данных (англ. Data Mart), поскольку витрина – это не просто копия исходной базы, а хранилище, оптимизированное для построения отчетов и анализа данных. Решить проблемы хранения и анализа данных в масштабе всего предприятия призвана технология хранилищ данных (англ. Data Warehouse). Хранилище данных представляет собой единый централизованный источник информации (рис. 13). Рис. 13. Централизованный источник данных на основе ХД Хранилище может содержать данные не только из OLTP-систем, но и из других разнообразных источников, таких как внешние базы данных, базы унаследованных (существовавших на предприятии раньше и впоследствии замененных) информационных систем или отдельные файлы (например, текстовые файлы или документы форматов Microsoft ® Office). Аналитическая отчетность. Хранилища данных обычно консолидируют информацию по всем аспектам деятельности предприятия и используются для углубленного анализа данных. Результатом аналитической деятельности являются итоговые аналитические отчеты, прогнозы, которые используются для принятия как стратегических, так и тактических решений. Вопрос 2. Технологии интеграции данных. Очевидно, что основой для принятия обоснованных решений должен быть единый источник достоверных данных в масштабах всей компании. Интеграция данных позволяет представить корпоративные данные из разрозненных источников в виде цельной картины, обеспечивающей полноту и удобство доступа к ним. Интеграция данных может быть описана с помощью модели, которая включает приложения, продукты, технологии и методы. Приложения – это конечные решения, созданные поставщиками информационных систем в соответствии с требованиями клиента. Приложения используют один или несколько продуктов интеграции данных. Продукты – готовые к использованию решения, поддерживающие одну или несколько технологий интеграции данных. Технологии представляют собой реализацию одного или нескольких методов интеграции данных. Метод – это концепция интеграции данных, не привязанная к какому-либо конкретному способу доступа к данным. Выделяют три основных метода интеграции данных: консолидация, федерализация и распространение (рис. 14). Рис. 14. Методы интеграции данных Консолидация данных. При консолидации данные извлекаются из разрозненных источников и загружаются в единое постоянное хранилище, чаще всего, корпоративное хранилище данных. При этом обеспечивается единство структуры данных, что значительно упрощает их обработку и анализ. При использовании этого метода обычно существует задержка между моментом обновления данных в первичных системах и временем, когда произошедшие изменения появляются в конечном месте хранения. Режим, когда данные в хранилище обновляются одновременно с источником, называется «режимом реального времени», но при консолидации данных достичь этого весьма проблематично. Для описания данных, обновление которых не сильно отстает от источника (в зависимости от ситуации на несколько секунд, минут или часов), часто используется термин «режим, приближенный к реальному времени». При наполнении хранилищ данными, которые допускают значительный временной интервал обновления (например, день и более), используются так называемые приложения пакетной интеграции данных. Это приложения, которые извлекают данные из первичных источников и перекачивают их в хранилище по определенному расписанию, например, раз в сутки ночью. Ключевое слово в этой технологии – «извлекают» («вытягивают», англ. pull): из исходной системы периодически извлекаются данные, отражающие её состояние на момент извлечения. В этом случае невозможно проследить, как именно менялись данные в промежутке между двумя извлечениями. Оперативная интеграция запускается в момент изменения данных, т.е. происходит «по событию» (англ. event-driven). А пакетная интеграция – «по требованию» (англ. on demand). Бизнес-приложения, которые обрабатывают консолидированное хранилище, могут генерировать запросы к данным, создавать на их основе требуемые отчеты и проводить анализ этих данных. К сильным сторонам консолидации данных относят то, что этот подход позволяет осуществлять преобразование значительных объемов данных в процессе их передачи от первичных систем к конечным местам хранения. Следует упомянуть и об определенных сложностях, связанных с данным подходом. В частности, это значительные вычислительные ресурсы, которые требуются для поддержки процесса консолидации данных, а также существенные ресурсы памяти, необходимые для поддержки конечного места хранения. Консолидация данных – это основной подход, который используется для построения и поддержки оперативных складов данных и корпоративных Хранилищ данных. Выделяют две технологии консолидации: «Извлечение, Преобразование, Загрузка» (англ. «Extract, Transform, Load», сокр. ETL) и «Управление контентом предприятия» (англ. Enterprise Content Management, сокр. ECM). Областью применения ECM являются неструктурированные источники данных, такие как пользовательские документы и веб-страницы. Технология ETL наилучшим образом подходит для извлечения и обработки значительных объемов данных из структурированных источников. ETL включает в себя этапы извлечения данных (Extract) из различных источников, их преобразования (Transform) и загрузки в целевое хранилище (Load). Данные обычно извлекаются («вытягиваются») из структурированных источников, таких как оперативные базы данные (OLTP), структурированные файлы (например, в формате XML) или любые другие. Этап преобразования включает в себя: · реструктурирование; · выверку; · очистку; · агрегирование данных. На этапе преобразования данные приводятся к единому стандарту представления, очищаются от ошибок, дубликатов и противоречивых значений. При необходимости данные также могут быть дополнены какими-то дополнительными значениями из других источников («обогащены»). На конечном этапе проверенные и очищенные данные загружаются в целевое хранилище, на базе которого функционируют приложения оперативного и интеллектуального анализа данных (OLAP, Data Mining), строятся витрины данных, формируются отчеты. Федерализация данных. Метод федерализации представляет требуемые в момент запроса данные из различных источников в виде единого виртуального (не хранящегося на постоянной основе) представления. В отличие от консолидации данные не перемещаются из источников в хранилище. Когда бизнес-приложение генерирует запрос, используя виртуальное представление, то процессор федерализации данных извлекает требуемые данные из соответствующих распределенных источников, представляет их таким образом, чтобы они отвечали требованиям запроса, и отправляет результаты бизнес-приложению, от которого пришел запрос. Федерализация данных предоставляет доступ к данным в режиме реального времени. Процесс федерализации данных всегда заключается в извлечении данных из первичных систем «по требованию». Все необходимые преобразования данных осуществляются при их извлечении из первичных источников. Один из ключевых элементов метода федерализации – это метаданные, которые используются процессором федерализации данных для доступа к первичным данным. Считается, что основное преимущество федеративного подхода в том, что он обеспечивает доступ к актуальным на каждый момент времени данным и избавляет от необходимости консолидировать первичные данные в новом складе данных. Однако федерализация не может служить заменой консолидации данных. Этот метод не очень хорошо подходит для извлечения и преобразования больших массивов данных или для тех приложений, где существуют серьезные проблемы с качеством данных в первичных системах. Еще один существенный фактор – негативное влияние федеративных запросов на производительность первичных систем и дополнительные затраты на доступ к многочисленным источникам данных. В связи с этим федерализацию целесообразно применять для расширения и усиления возможностей среды хранилища данных в соответствии со специфическими потребностями бизнеса. Федерализация данных также применяется в тех случаях, когда политика безопасности данных и лицензионные ограничения запрещают копирование данных первичных систем. Технологией, которая поддерживает метод федерализации, является «Интеграция корпоративной информации» (англ. Enterprise Information Integration, сокр. EII). Распространение данных. В основе метода распространения лежит копирование данных из системы-источника в одну или несколько систем-получателей. Такое копирование осуществляется посредством передачи изменений, произошедших в одной системе, в другие связанные с ней системы. Ключевое понятия метода распространения – «передают» («проталкивают»). Если при консолидации и федерализации данные извлекаются из исходных систем, то при распространении сами первичные системы передают произошедшие изменения системам-получателям. Благодаря такому подходу реализуется главное преимущество метода – обеспечение актуальности данных в режиме реального времени или близком к нему. Так как передача данных инициируется при наступлении определенного события, то метод распространения является событийным (англ. event-driven). Обновления в первичной системе могут передаваться в конечную систему синхронно или асинхронно. Синхронная передача требует, чтобы обновления в обеих системах происходили во время одной и той же физической транзакции. При асинхронной передаче обновления могут быть разнесены по нескольким транзакциям. Однако вне зависимости от используемого типа синхронизации метод распространения гарантирует доставку данных в систему назначения. Метод распространения данных может использоваться для уравновешивания рабочей нагрузки между системами, создания резервных копий и восстановления данных в случае аварийных ситуаций. Среди технологий, поддерживающих распространение данных, выделяют: · интеграцию корпоративных приложений (от англ. Enterprise Application Integration, сокр. EAI); · технологию «Извлечение, Загрузка, Преобразование» (от англ. Extract, Load, Transform, сокр. E-LT); · тиражирование корпоративных данных (от англ. Enterprise Data Replication, сокр. EDR). Тиражирование корпоративных данных в основном реализуется в приложениях резервного копирования, архивирования и равномерного распределения нагрузки между различными системами. В технологии E-LT, в отличие от ELT, преобразование данных происходит не до, а после их загрузки в целевое хранилище. При этом данные преобразуются не сразу после загрузки, а по пользовательскому запросу или определенному расписанию. Интеграция корпоративных приложений позволяет различным приложениям «общаться» между собой посредством определенных стандартных интерфейсов. В технологии EAI объем данных, которыми обмениваются приложения, обычно невелик. EAI – это технология, обеспечивающая взаимодействие корпоративных приложений в режиме реального времени различными способами. В качестве метода интеграции данных здесь используется метод распространения. Вопрос 3. Рынок средств интеграции приложений. Комплексные системы интеграции для современных предприятий носят название интеграционных платформ. Ключевые понятия, на которые опираются интеграционные платформы на текущем этапе развития, это: · сервис-ориентированная архитектура (англ. Service-oriented Architecture, сокр. SOA); · сервисная шина предприятия (англ. Enterprise Service Bus, сокр. ESB); · сервер приложений (англ. Application Server). В основе сервис-ориентированной архитектуры лежит идея совокупности программных компонентов: сервисов, имеющих стандартные интерфейсы для использования этих компонентов и доступа к ним посредством сетевых протоколов. Сервисная шина предприятия представляет собой инфраструктуру для реализации концепции SOA. Под ESB, как правило, подразумевается воплощение транспортного уровня, на котором происходит взаимодействие программных компонентов между собой. Сервер приложений (также часто называется корпоративным сервером приложений (англ. Enterprise Application Server, сокр. EAS) – это системное программное обеспечение, которое служит контейнером, средой для выполнения всех остальных приложений. На базе этого контейнера строится сервисная шина ESB. Основные поставщики интеграционных платформ. Интеграционная платформа от компании IBM носит название WebSphere. Основой WebSphere является сервер приложений WebSphere Application Server (WAS), построенный на Java EE. Это масштабная платформа, которая включает в себя десятки компонентов и средств мониторинга и администрирования, функциональность которых может быть существенно расширена за счет дополнительных пакетов (англ. Feature Packs). Линейка продуктов корпорации Oracle представлена двумя семействами: 1) перспективная Oracle WebLogic Server (развитие платформы, поглощенной в 2008 г. компании BEA Systems); 2) Oracle WebLogic Server (собственная разработка, которая поддерживается, но дальнейшее развитие не планируется). Семейство WLS включает в себя различные версии сервера приложений и пакет WebLogic Suite, расширяющий функциональные возможности сервера. Hat (JBoss). JBoss EAS – это основанный на Java EE сервер приложений, который имеет свободно распространяемую версию с открытым исходным кодом. Платформу интеграции JBoss можно дополнительно расширить средствами построения ESB, инструментами управления бизнес-процессами и другими модулями. Microsoft. Технология .Net Framework в совокупности с Internet Information Services (сокр. IIS, проприетарный набор серверов для нескольких служб Интернета от компании Microsoft) обеспечивают полное покрытие функционала серверов приложений, несмотря на то, что продукта с названием «сервер приложений» в линейки компании нет. Функцию сервисной шины предприятия выполняет Microsoft BizTalk Server, который включает в себя: · средства управления бизнес-процессами; · интеграции приложений (EAI); · адаптеры ко всем основным протоколам и системам. Развитие SAP на рынке EAS основано на двух ключевых технологиях: ABAP и Java. Java EE сервер приложений SAP NetWeaver Application Server является основой инфраструктуры приложений, в состав которой входят: · средства построения порталов SAP NetWeaver Portal; · инструменты управления и интеграции бизнес-процессов SAP NetWeaver BPM и SAP NetWeaver Process Integration. Вопросы для самопроверки: 1. Какие сложности возникают при использовании оперативных систем в качестве источников данных для аналитических отчетов? 2. Каковы цели интеграции данных? 3. Какие методы интеграции данных вы знаете? 4. Какие задачи решает федерализации данных, а какие консолидация? 5. Какие технологии реализуют метод консолидации? Федерализации? 6. В чем отличие EII от ETL и EAI? 7. Какие этапы включает в себя технологии ETL и E-LT? 8. Что такое сервер приложений? 9. Перечислите известные вам интеграционные платформы. Литература по теме: 1. Дубова Н. Интеграция приложений и бизнес-процессы – [Электронный ресурс]. – Режим доступа: http://www.osp.ru/os/2009/10/11171290/ 2. Дубова Н. Краткий курс интеграции данных. – [Электронный ресурс]. – Режим доступа: http://www.osp.ru/os/2007/09/4567212/ . 3. Информационные аналитические системы: учеб. / Под ред. В.В. Дика. – М.: Московский финансово-промышленный ун-т «Синергия», 2013. 4. Когаловский М.Р. Методы интеграции данных в информационных системах. – [Электронный ресурс]. – Режим доступа: http://www.ipr-ras.ru/articles/kogalov10-05.pdf 5. Туманов В.Е. Проектирование хранилищ данных для приложений систем деловой осведомленности (Business Intelligence Systems) // Интернет Университет Высоких Технологий, 2010 г. – [Электронный ресурс]. – Режим доступа: http://www.intuit.ru/department/database/bispowerd |