Руководство по изучению курса Практикум по курсу
Скачать 1.79 Mb.
|
ГЛАВА 3. Технологии сбора и хранения данных – концепция информационных хранилищ 3.1. Технологии извлечения, преобразования и загрузки данных 1. Понятие о гибкой архитектуре данных. 2. Сбор, повышение качества данных и приведение их в единую структуру. 3.1.1. Понятие о гибкой архитектуре данных Объектом анализа являются данные, сконцентрированные в хранилище, а при не- обходимости и изымаемые непосредственно из первичных источников, которые должны быть структурированы в виде системы показателей исследуемой предметной области. Прохождение данных из первичных источников как внутренних – предприятия или другого объекта управления, так и из внешних источников в информационное хранилище и далее к лицу(ам) или другим программам-приложениям, использующим их (данные) в процессе анализа и подготовки итоговых материалов различного назначения – в итоге для обоснования принятия решений, происходит в несколько этапов: – Этап извлечения, преобразования и загрузки данных. На основе принятой сис- темы показателей, характеризующих деятельность предприятия, подлежащих анализу и использованию в процессе принятия решений, и необходимых при разработке каких-либо документов, организуется сбор необходимых данных в хранилище и прорабатываются пути непосредственного извлечения в экстрен- ных случаях необходимых детальных данных из первичных источников; этому этапу предшествует работа по созданию необходимой структуры перекачивае- мых данных; – Этап накопления, обеспечения готовности данных к использованию. По мере накопления в соответствующих зонах памяти выполняется периоди- ческая загрузка данных из функциональных (транзакционных) подсистем интегрированной информационной системы (ИС) или автономных ИС, под- держивается необходимый уровень качества данных; в отдельных случаях допускается внеплановая загрузка по ситуации. – Этап применения данных, содержащихся в хранилище и извлекаемых напря- мую из первичных источников. Для обеспечения процесса управления предприятием или другим объектом данные используются в трех основных режимах – создания плановых отчетных и других документов (Reporting), оперативного анализа в незапланированных ситуациях (OLAP-анализ), интеллектуального или углубленного анализа (Data mining). Нако- пленные в хранилище данные могут быть использованы в специальных програм- мах, обеспечивающих развитие бизнеса. В основе концепции информационных хранилищ заложена идея гибкой архитекту- ры данных. Это означает, что любому пользователю из числа доверенных лиц должна быть обеспечена возможность доступа к любому разрешенному для использования участ- ку данных, которыми располагает предприятие (организация). Такой доступ осуществ- ляется путем закладки в организационно-методологические основы построения системы сбора и хранения данных соответствующих возможностей, а также согласования принци- 22 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ пов построения и четкого взаимодействия аппаратного, программного комплексов и структуры накапливаемых и хранимых сведений. Эта идея реализуется в основном в рамках свойств «открытых систем», определе- ние которых POSIX 1003.0 принято Комитетом IEEE. В соответствии с этим определе- нием открытая система есть «система, которая реализует открытые спецификации на ин- терфейсы, сервисы (услуги среды) и поддерживаемые форматы данных, достаточные для того, чтобы дать возможность должным образом разработанному прикладному программ- ному обеспечению быть переносимым в широком диапазоне систем с минимальными из- менениями, взаимодействовать с другими приложениями на локальных и удаленных сис- темах, и взаимодействовать с пользователями в стиле, который облегчает переход пользо- вателей от системы к системе». Основные свойства открытых систем, очерченные этим определением, следующие: – Расширяемость (extensibility) предполагает возможность включения новых или изменения некоторых прикладных функций ИС из числа уже реализованных, не изменяя при этом остальные функциональные подсистемы ИС. – Масштабируемость (scalability) предусматривает применительно к прикладным программам и базам данных, реализуемым на разных прикладных платформах, возможность изменения их количественных характеристик (размерности ре- шаемых задач, числа обслуживаемых пользователей и т.д.) путем настройки па- раметров, а не путем перепроектирования и программирования заново. – Переносимость (portability) – это возможность перемещения ИС на другие ап- паратно-программные платформы в случае их модернизации или замены с наи- меньшими затратами, сохраняя инвестиции, вложенные в разработку приложе- ний, формирование массивов данных и обучение пользователей. Рассматри- вается переносимость приложений (application portability) и данных (data portability). Такая возможность обеспечивается соблюдением принятых стан- дартов обмена данными между приложениями и функциональной средой от- крытых систем. Определена «переносимость» пользователей (user portability), которая предусматривает возможность обеспечения стабильным дружествен- ным пользовательским интерфейсом. – Интероперабельность (interoperability) – свойство, обеспечивающее взаимодей- ствие ИС с другими системами при обращении к информационным ресурсам (базам данных, базам знаний) этих систем или при решении определенных за- дач с использованием их вычислительных ресурсов, если собственные ресурсы недостаточны. Интероперабельность систем реализуется, прежде всего, форма- тами данных, принятыми в качестве стандартов электронного обмена данными (electronic data interchange -EDI) для разных прикладных областей. Интеропера- бельность систем при обращении запуске на исполнение к программам и дан- ным, располагающихся в других системах, обеспечивается стандартами удален- ного вызова процедур (remote procedure call – RPC). – Способность к интеграции. При интеграции систем в целом (system integration) это свойство обеспечивает объединение нескольких ИС различного назначения в интегрированную многофункциональную ИС. В случае интеграции баз данных (database integration) для прикладной программы или пользователя несколько баз данных представляются как одна логически единая база данных. При этом обеспечивается обращение пользователей к любой из этих баз независи- мо от ее места расположения в режиме коллективного доступа к данным, одновременная работа нескольких баз данных с каждой из прикладных программ ИС или пользователем. 23 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ При интеграции данных (data integration) обеспечивается возможность совместного использования запросом пользователя или программой одновременно нескольких файлов данных как единого целого. Рассматривается логическая интеграция, которая осуществ- ляет объединение данных на логическом уровне, не затрагивая их физической организа- ции, а также физическая, предполагающая слияние данных в единый информационный массив. Высокая готовность (high availability) – свойство, означающее высокую отказо- устойчивость (практически полную) системы (fault tolerance). В случае отказа какого-либо компонента обеспечивается гарантия автоматического восстановления работоспособности и сохранение целостности баз данных. Свойство готовности рассматривается и как мера способности системы принимать и успешно выполнять запросы и задания за доступный интервал времени. На основе обзора свойств открытых систем можно сделать вывод об их опреде- ляющем значении при создании и эксплуатации информационно-аналитических систем. В соответствии с принципами открытых систем организуются и реализуются манипуляции с данными на всех рассмотренных выше этапах пути прохождения данных из источников к потребителям, а также подготовки на основе использования накапливаемых данных ин- формации для тех или иных целей. При организации работ по созданию, внедрению и применению ИАС важное значе- ние имеет учет стандартов. Применение их облегчает организацию сбора, представление их в виде системы стандартных показателей в функциональных подсистемах ИАС, позво- ляет легко вписывать данные из первичных источников в структуру хранилища данных Положения функциональной стандартизации в области информационных техноло- гий определены стандартом ГОСТ Р ИСО/МЭК ТО 10000-99 «Информационная техноло- гия. Основы и таксономия международных функциональных стандартов». Ориентация на стандарты при создании и ведении ИАС имеет два аспекта: – использование их при создании архитектуры аппаратной и программной плат- форм ИАС (смотри приведенный выше стандарт); – применение международных и российских стандартов в процессе классифика- ции и кодирования систем показателей, что становится особенно актуальным при организации международного компьютерного обмена данными в процессе экономической или другой деятельности. В настоящее время широко распространены системы электронного обмена данны- ми (ЭОД), в англоязычной терминологии Electronic Data Interchange (EDI). Для создания системы компьютерного обмена данными, особенно в корпоративных распределенных структурах, тем более транснационального масштаба, в мировой практике широко приме- няются стандарты EDIFACT, которые были утверждены Международной организацией по стандартизации (International Organization for Standardization ISO) в 1988 году: – ISO 7372-86 «Trade data interchange. Trade data elements directory. First edition. 1986-07-01» (Справочник элементов данных). – ISO 9735-88 «EDI for administration, commerce and transport (EDIFACT). Syntax rules. 1988-07-15» (Синтаксические правила ЭДИФАКТ ООН). В России появились два аналога приведенных выше стандартов: – ГОСТ 6.20.2-91 «Элементы внешнеторговых данных (ISO 7372-86) – ГОСТ 6.20.1.90 «Электронный обмен данными в управлении (ISO 9735-88), тор- говле и на транспорте (ЭДИФАКТ). Синтаксические правила.» Введены эти стандарты 01.01.1992 года. 24 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Стандарты ISO нашли дальнейшее развитие по отраслям деятельности, по техноло- гиям обмена, в направлении применения Web –технологий. 3.1.2. Сбор, повышение качества данных и приведение их в единую структуру Эти процессы, соответствующие этапу извлечения, преобразования и загрузки данных, в англоязычной терминологии называются Extraction, Transformation, Loading – ETL-процессы. В процессе создания ИАС и ее центральной подсистемы – информационного храни- лища как важная проблема выделяется обеспечение необходимого качества данных, в том числе достоверности, согласованности, соответствия установленным ограничениям и бизнес- правилам и т.д. Качество загружаемых и содержащихся в хранилище данных достигается системой организационных и программно-технических мероприятий. К ним относятся: "руч- ная" проверка разного рода ошибок, несоответствий, например неодинаковых названий полей с одним смыслом, и автоматическая с применением программных средств. При сборе данных в информационное хранилище необходимо учитывать два ос- новных аспекта: структурный и смысловой. Структурный аспект заключается в представ- лении данных из источников в тех или иных форматах программных сред, в которых были сформированы. Они должны приводиться к одному или группе форматов в системе сбора и хранения данных. Смысловой аспект состоит в содержательном наполнении знаковых структур данных. Даже при согласованных форматах данных могут быть разные толкова- ния одинаково или близко по виду записанных данных и другие виды разночтений. Такие ситуации необходимо исключить еще на этапе формирования структуры ИХ. ETL-процессы, которые реализуют требования по обеспечению качества, созданию необходимой структуры и поддержанию смысловых характеристик данных делятся на следующие стадии: – Извлечение. На этой стадии производится перегрузка данных из источника, как правило, в промежуточную область хранилища. Под каждый источник в этой области создается своя таблица. Данные в источниках могут иметь различные форматы, в том числе текстовые неструктурированные, табличных процессо- ров, разного типа СУБД. Данные одного типа и структуры в первичных источ- никах сводят в одну таблицу, присваивая ей дополнительные поля. – Структуризация. Ей подвергаются только неструктурированные данные. Они приводятся к пригодному для ввода в реляционные таблицы виду. – Обработка. Изначально структурированные и подвергшиеся структуризации данные подвергаются обработке, которая заключается в очистке, фильтрации, согласовании данных. – Пересылка и импорт данных. Современные СУБД обеспечивают возможности транспортировки данных внутри одного сервера, так и в распределенном режи- ме между серверами. Этот процесс требует тщательного квалифицированного администрирования. Необходимо обеспечивать защиту передачи данных по ка- налам связи. Может оказаться, что некоторые данные не могут быть вставлены в предназначенные им таблицы из-за ограничений или несогласованности типов данных. В таких случаях для них необходимо отводить отдельный участок па- мяти, где они сохраняются для дальнейшей оценки. Отдельно и более подробно рассмотрим процессы повышения качества данных. Искажение данных может появляться на любом этапе, стадии, шаге ETL-процессов. Уп- 25 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ редить их возникновение полностью – задача практически невыполнимая, но необходимо принимать меры по снижению их количества и обнаружению. Рассматривают фатальные искажения, ошибки, к которым относятся: отсутствие данных в источнике, ошибка в под- ключении к источнику, проявляющаяся в отсутствии доступа к необходимым данным, проявление системного сбоя операционной системы. Очистка данных состоит в исключении из общего потока тех данных, которые не отвечают заданным ограничениям на загрузку или бизнес-правилам. В этом случае дан- ные из исходной таблицы разделяются на две части: отвечающие критериям качества, не- соответствующие таковым и не попадающие на загрузку в хранилище. Оценка качества данных производится: – по критичности ошибок в данных (могут или не могут быть загружены) – ошибки в именах полей, типах данных; – по правильности форматов и представлений данных; – на соответствие данных ограничениям целостности; – на уникальности внутренних и внешних ключей; – по полноте данных и связей; Приведенный перечень видов искажений, несоответствий в данных касается в ос- новном структурного представления данных, технологических причин. Смысловое содержание данных – знаковых структур очень важно при создании структуры хранилища и его поддержании, которое состоит в первоначальной загрузке и дальнейшем его заполнении и актуализации в процессе эксплуатации. В ходе ETL- процессов велика вероятность искажений, сбоев в работе по причине несогласованно- сти в семантике. Такие ситуации называют «семантические разрывы» (46). В этой ра- боте приводится четыре их вида: – «Вавилонский» – это ситуация, когда одно и то же понятие или показатель обо- значают разными именами. – Кросспотоковый разрыв. В этом случае наименования разных по смысловому содержанию понятий одинаковые в знаковом представлении. Такое происходит при наличии в одной системе разных по смыслу данных, предоставляемых из разных источников. Например в одном источнике «Партия комплектов 50 штук» понимают комплекты узлов для компьютеров но этот комментарий опу- щен, в другом источнике это комплекты узлов для музыкальных центров. В свя- зи со сложившейся привычкой комментарии также отсутствуют. – Кроссязыковый разрыв происходит в тех случаях, когда передающее и прини- мающее звено не согласовали характеризующие признаки понятий – показате- лей. Например при оценке объемов поставок нефти передающий оценивает их в тоннах, а принимающий – в баррелях. – Асинхронный разрыв связан с потерей или задержкой в передаче целой посыл- ки в массиве или ее части, что нарушает целостность массива, его смысловое содержание или не дает возможности правильно понять и определить данные. В информационных хранилищах семантические разрывы в данных возможны на любом из переходов от этапа к этапу при прохождении данных от источни- ков к конечным пользователям информацией и знаниями. 3.2. Концепции организации хранения данных 1. Концепция информационного хранилища. 2. Концепция централизованного хранилища данных 26 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ 3. Концепция распределенного хранилища данных. 4. Концепция автономных витрин данных. 5. Концепция единого интегрированного хранилища и многих витрин данных. Подготовка принятия решений требует сосредоточения значительного, а подчас колоссального количества информации (выше приведены возможные ее объемы в зависи- мости от масштабов и сложности решений) на месте его подготовки. Естественно стрем- ление приблизить места хранения и использования информации. Проблемы подготовки принятия решений разрешаются с использованием инструментальных систем поддержа- ния принятия решения Decision Support Sistem (DSS). В них большое место стали зани- мать OLAP-технологии, интеллектуальный анализ, подготовка плановых и стандартных документов, которые используют информационные ресурсы, предоставляемые системами сбора и хранения данных. Проблема сбора и хранения информационных ресурсов выделилась как занимаю- щая особое место во всей системе управления предприятием (корпорацией) и оформилась в концепцию информационных хранилищ (ИХ) – англоязычный термин Data Warehouse (DW). Эта подсистема является центральной в интегрированной информационной систе- ме, которой становится совокупность локальных информационных систем и информа- ционных технологий, слитых воедино средствами ИАС. 3.2.1. Концепция информационного хранилища Хранилища выполняют задачи накопления сведений о деятельности предприятия, партнеров, других информационных ресурсов из различных источников, в том числе баз данных, отображающих отдельные бизнес-процессы, автоматизированных рабочих мест, информационных систем и других источников информации, в том числе из глобальных информационных сетей, как например Internet. Simon (Саймон) [11] называет такие источники данных операционными базами данных. Сбор перечисленных сведений сочетается, как правило, с доработкой исходных данных, которая заключается в проверке достоверности, устранении противоречивости, сортировке, систематизации в соответствии с заранее построенной на основе заданиий пользователей единой структурой хранилища. Инмон (Inmon) – автор концепции информационных хранилищ выделяет следую- щие характерные для них свойства: – предметную ориентированность; – интегрированность; – неизменчивость; – поддержка хронологии. Свойство предметной ориентированности означает компоновку пулов информа- ции по определенным предметным областям или целям, обеспечивающим подготовку и принятие соответствующих решений в соответствующей системе DSS или использования в каком-либо другом виде приложения, например для разработки планов развития пред- приятия, инвестиционных проектов, реинжиниринга и для любых работ, для выполнения которых необходимы исходные данные, накопленные в информационном хранилище. Не- обходимо подчеркнуть, что сосредотачиваемые в хранилище данные поддерживают ана- литическую деятельность, а не функциональные или технологические процессы. Не непо- средственную производственную деятельность, а анализ данных в историческом аспекте. 27 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ Интегрированность предусматривает сбор и доработку (предварительную обра- ботку) информации по определенной предметной области из различных источников и превращение ее в организованный по заданным правилам, подчиненным определенной цели, массив в виде гиперкуба или системы поликубов информации. Пользователь легко использовать совместное использование данных из различных секций хранилища, отно- сящихся к разным направлениям деятельности или функциям предприятия. Неизменчивость состоит в том, что в хранилище данные из различных источников накапливаются, практически не подвергается каким-либо изменениям, только в случае крайней необходимости, в основном при обнаружении искажений. Они наращиваются по заданному, четко определенному графику. Пользователь имеет только право чтения ин- формации. Манипуляции с содержимым хранилища доверяются только администраторам. Поддержка хронологии заключается в обязательности привязки данных ко време- ни. Информация, содержащаяся в хранилище, рассматривается в историческом аспекте. Используют следующие типы привязки ко времени: – к моменту совершения события или факта; – к моменту фиксации его информационными средствами; – комбинированные методы, сочетающие оба подхода. Таким образом, идея хранилищ данных – это не просто единый подход к хранению необходимых данных, а создание единого многопрофильного в рамках одной концепту- альной идеи информационного ресурса предприятия, направления исследований, корпо- ративной структуры и т.д. Источник 1 Источник 2 Источник N Зона хранения данных по льз о ва те ли Прил ожен ия развития би зн е са Зо на хранен ия да нны х в об ъ е ктном ( многомерном ) ви де Зо на на ко пл е ни я да нны х Рис. 3.1. Структура информационного хранилища Данные в хранилище из источников накапливаются в течение определенного пе- риода времени в зоне накопления. В течение этого времени производится работа по обес- печению необходимого качества данных по описанным выше правилам. В процессе пере- качки из источников данные трансформируются в единый формат, проверяются их смыс- 28 ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ ловая согласованность, наличие ошибок, проводятся мероприятия по повышению качест- ва данных. При достижении необходимого уровня качества и определенного графиком работы момента времени данные переносятся в зону хранения. В зоне хранения они могут быть представлены в виде реляционной или многомер- ной модели (объектном виде). В случае использования реляционной модели необходимо иметь в хранилище зону объектного представления данных для достижения уровня харак- теристик системы, соответствующего требованиям, предъявляемым к OLAP-системам. Содержание их будет рассмотрено в разделе 4.1.2. Реализация концепции ИХ может быть осуществлена несколькими способами – имеются несколько вариантов концепций ИХ. |