Главная страница
Навигация по странице:

  • 3.1.1. Понятие о гибкой архитектуре данных

  • 3.1.2. Сбор, повышение качества данных и приведение их в единую структуру

  • 3.2. Концепции организации хранения данных

  • 3.2.1. Концепция информационного хранилища

  • Руководство по изучению курса Практикум по курсу


    Скачать 1.79 Mb.
    НазваниеРуководство по изучению курса Практикум по курсу
    Дата19.08.2021
    Размер1.79 Mb.
    Формат файлаpdf
    Имя файлаinfansys_2.pdf
    ТипРуководство
    #227375
    страница3 из 11
    1   2   3   4   5   6   7   8   9   10   11
    ГЛАВА 3.
    Технологии сбора и хранения данных – концепция информационных хранилищ
    3.1. Технологии извлечения, преобразования и загрузки данных
    1. Понятие о гибкой архитектуре данных.
    2. Сбор, повышение качества данных и приведение их в единую структуру.
    3.1.1. Понятие о гибкой архитектуре данных
    Объектом анализа являются данные, сконцентрированные в хранилище, а при не- обходимости и изымаемые непосредственно из первичных источников, которые должны быть структурированы в виде системы показателей исследуемой предметной области.
    Прохождение данных из первичных источников как внутренних – предприятия или другого объекта управления, так и из внешних источников в информационное хранилище и далее к лицу(ам) или другим программам-приложениям, использующим их (данные) в процессе анализа и подготовки итоговых материалов различного назначения – в итоге для обоснования принятия решений, происходит в несколько этапов:
    – Этап извлечения, преобразования и загрузки данных. На основе принятой сис- темы показателей, характеризующих деятельность предприятия, подлежащих анализу и использованию в процессе принятия решений, и необходимых при разработке каких-либо документов, организуется сбор необходимых данных в хранилище и прорабатываются пути непосредственного извлечения в экстрен- ных случаях необходимых детальных данных из первичных источников; этому этапу предшествует работа по созданию необходимой структуры перекачивае- мых данных;
    – Этап накопления, обеспечения готовности данных к использованию.
    По мере накопления в соответствующих зонах памяти выполняется периоди- ческая загрузка данных из функциональных (транзакционных) подсистем интегрированной информационной системы (ИС) или автономных ИС, под- держивается необходимый уровень качества данных; в отдельных случаях допускается внеплановая загрузка по ситуации.
    – Этап применения данных, содержащихся в хранилище и извлекаемых напря- мую из первичных источников.
    Для обеспечения процесса управления предприятием или другим объектом данные используются в трех основных режимах – создания плановых отчетных и других документов (Reporting), оперативного анализа в незапланированных ситуациях
    (OLAP-анализ), интеллектуального или углубленного анализа (Data mining). Нако- пленные в хранилище данные могут быть использованы в специальных програм- мах, обеспечивающих развитие бизнеса.
    В основе концепции информационных хранилищ заложена идея гибкой архитекту- ры данных. Это означает, что любому пользователю из числа доверенных лиц должна быть обеспечена возможность доступа к любому разрешенному для использования участ- ку данных, которыми располагает предприятие (организация). Такой доступ осуществ- ляется путем закладки в организационно-методологические основы построения системы сбора и хранения данных соответствующих возможностей, а также согласования принци-
    22

    ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ пов построения и четкого взаимодействия аппаратного, программного комплексов и структуры накапливаемых и хранимых сведений.
    Эта идея реализуется в основном в рамках свойств «открытых систем», определе- ние которых POSIX 1003.0 принято Комитетом IEEE. В соответствии с этим определе- нием открытая система есть «система, которая реализует открытые спецификации на ин- терфейсы, сервисы (услуги среды) и поддерживаемые форматы данных, достаточные для того, чтобы дать возможность должным образом разработанному прикладному программ- ному обеспечению быть переносимым в широком диапазоне систем с минимальными из- менениями, взаимодействовать с другими приложениями на локальных и удаленных сис- темах, и взаимодействовать с пользователями в стиле, который облегчает переход пользо- вателей от системы к системе».
    Основные свойства открытых систем, очерченные этим определением, следующие:
    – Расширяемость (extensibility) предполагает возможность включения новых или изменения некоторых прикладных функций ИС из числа уже реализованных, не изменяя при этом остальные функциональные подсистемы ИС.
    – Масштабируемость (scalability) предусматривает применительно к прикладным программам и базам данных, реализуемым на разных прикладных платформах, возможность изменения их количественных характеристик (размерности ре- шаемых задач, числа обслуживаемых пользователей и т.д.) путем настройки па- раметров, а не путем перепроектирования и программирования заново.
    – Переносимость (portability) – это возможность перемещения ИС на другие ап- паратно-программные платформы в случае их модернизации или замены с наи- меньшими затратами, сохраняя инвестиции, вложенные в разработку приложе- ний, формирование массивов данных и обучение пользователей. Рассматри- вается переносимость приложений (application portability) и данных (data portability). Такая возможность обеспечивается соблюдением принятых стан- дартов обмена данными между приложениями и функциональной средой от- крытых систем. Определена «переносимость» пользователей (user portability), которая предусматривает возможность обеспечения стабильным дружествен- ным пользовательским интерфейсом.
    – Интероперабельность (interoperability) – свойство, обеспечивающее взаимодей- ствие ИС с другими системами при обращении к информационным ресурсам
    (базам данных, базам знаний) этих систем или при решении определенных за- дач с использованием их вычислительных ресурсов, если собственные ресурсы недостаточны. Интероперабельность систем реализуется, прежде всего, форма- тами данных, принятыми в качестве стандартов электронного обмена данными
    (electronic data interchange -EDI) для разных прикладных областей. Интеропера- бельность систем при обращении запуске на исполнение к программам и дан- ным, располагающихся в других системах, обеспечивается стандартами удален- ного вызова процедур (remote procedure call – RPC).
    – Способность к интеграции. При интеграции систем в целом (system integration) это свойство обеспечивает объединение нескольких ИС различного назначения в интегрированную многофункциональную ИС.
    В случае интеграции баз данных (database integration) для прикладной программы или пользователя несколько баз данных представляются как одна логически единая база данных. При этом обеспечивается обращение пользователей к любой из этих баз независи- мо от ее места расположения в режиме коллективного доступа к данным, одновременная работа нескольких баз данных с каждой из прикладных программ ИС или пользователем.
    23

    ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ
    При интеграции данных (data integration) обеспечивается возможность совместного использования запросом пользователя или программой одновременно нескольких файлов данных как единого целого. Рассматривается логическая интеграция, которая осуществ- ляет объединение данных на логическом уровне, не затрагивая их физической организа- ции, а также физическая, предполагающая слияние данных в единый информационный массив.
    Высокая готовность (high availability) – свойство, означающее высокую отказо- устойчивость (практически полную) системы (fault tolerance). В случае отказа какого-либо компонента обеспечивается гарантия автоматического восстановления работоспособности и сохранение целостности баз данных. Свойство готовности рассматривается и как мера способности системы принимать и успешно выполнять запросы и задания за доступный интервал времени.
    На основе обзора свойств открытых систем можно сделать вывод об их опреде- ляющем значении при создании и эксплуатации информационно-аналитических систем. В соответствии с принципами открытых систем организуются и реализуются манипуляции с данными на всех рассмотренных выше этапах пути прохождения данных из источников к потребителям, а также подготовки на основе использования накапливаемых данных ин- формации для тех или иных целей.
    При организации работ по созданию, внедрению и применению ИАС важное значе- ние имеет учет стандартов. Применение их облегчает организацию сбора, представление их в виде системы стандартных показателей в функциональных подсистемах ИАС, позво- ляет легко вписывать данные из первичных источников в структуру хранилища данных
    Положения функциональной стандартизации в области информационных техноло- гий определены стандартом ГОСТ Р ИСО/МЭК ТО 10000-99 «Информационная техноло- гия. Основы и таксономия международных функциональных стандартов».
    Ориентация на стандарты при создании и ведении ИАС имеет два аспекта:
    – использование их при создании архитектуры аппаратной и программной плат- форм ИАС (смотри приведенный выше стандарт);
    – применение международных и российских стандартов в процессе классифика- ции и кодирования систем показателей, что становится особенно актуальным при организации международного компьютерного обмена данными в процессе экономической или другой деятельности.
    В настоящее время широко распространены системы электронного обмена данны- ми (ЭОД), в англоязычной терминологии Electronic Data Interchange (EDI). Для создания системы компьютерного обмена данными, особенно в корпоративных распределенных структурах, тем более транснационального масштаба, в мировой практике широко приме- няются стандарты EDIFACT, которые были утверждены Международной организацией по стандартизации (International Organization for Standardization ISO) в 1988 году:
    – ISO 7372-86 «Trade data interchange. Trade data elements directory. First edition.
    1986-07-01» (Справочник элементов данных).
    – ISO 9735-88 «EDI for administration, commerce and transport (EDIFACT). Syntax rules. 1988-07-15» (Синтаксические правила ЭДИФАКТ ООН).
    В России появились два аналога приведенных выше стандартов:
    – ГОСТ 6.20.2-91 «Элементы внешнеторговых данных (ISO 7372-86)
    – ГОСТ 6.20.1.90 «Электронный обмен данными в управлении (ISO 9735-88), тор- говле и на транспорте (ЭДИФАКТ). Синтаксические правила.»
    Введены эти стандарты 01.01.1992 года.
    24

    ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ
    Стандарты ISO нашли дальнейшее развитие по отраслям деятельности, по техноло- гиям обмена, в направлении применения Web –технологий.
    3.1.2. Сбор, повышение качества данных и приведение их в единую структуру
    Эти процессы, соответствующие этапу извлечения, преобразования и загрузки данных, в англоязычной терминологии называются Extraction, Transformation,
    Loading – ETL-процессы.
    В процессе создания ИАС и ее центральной подсистемы – информационного храни- лища как важная проблема выделяется обеспечение необходимого качества данных, в том числе достоверности, согласованности, соответствия установленным ограничениям и бизнес- правилам и т.д. Качество загружаемых и содержащихся в хранилище данных достигается системой организационных и программно-технических мероприятий. К ним относятся: "руч- ная" проверка разного рода ошибок, несоответствий, например неодинаковых названий полей с одним смыслом, и автоматическая с применением программных средств.
    При сборе данных в информационное хранилище необходимо учитывать два ос- новных аспекта: структурный и смысловой. Структурный аспект заключается в представ- лении данных из источников в тех или иных форматах программных сред, в которых были сформированы. Они должны приводиться к одному или группе форматов в системе сбора и хранения данных. Смысловой аспект состоит в содержательном наполнении знаковых структур данных. Даже при согласованных форматах данных могут быть разные толкова- ния одинаково или близко по виду записанных данных и другие виды разночтений. Такие ситуации необходимо исключить еще на этапе формирования структуры ИХ.
    ETL-процессы, которые реализуют требования по обеспечению качества, созданию необходимой структуры и поддержанию смысловых характеристик данных делятся на следующие стадии:
    – Извлечение. На этой стадии производится перегрузка данных из источника, как правило, в промежуточную область хранилища. Под каждый источник в этой области создается своя таблица. Данные в источниках могут иметь различные форматы, в том числе текстовые неструктурированные, табличных процессо- ров, разного типа СУБД. Данные одного типа и структуры в первичных источ- никах сводят в одну таблицу, присваивая ей дополнительные поля.
    – Структуризация. Ей подвергаются только неструктурированные данные. Они приводятся к пригодному для ввода в реляционные таблицы виду.
    – Обработка. Изначально структурированные и подвергшиеся структуризации данные подвергаются обработке, которая заключается в очистке, фильтрации, согласовании данных.
    – Пересылка и импорт данных. Современные СУБД обеспечивают возможности транспортировки данных внутри одного сервера, так и в распределенном режи- ме между серверами. Этот процесс требует тщательного квалифицированного администрирования. Необходимо обеспечивать защиту передачи данных по ка- налам связи. Может оказаться, что некоторые данные не могут быть вставлены в предназначенные им таблицы из-за ограничений или несогласованности типов данных. В таких случаях для них необходимо отводить отдельный участок па- мяти, где они сохраняются для дальнейшей оценки.
    Отдельно и более подробно рассмотрим процессы повышения качества данных.
    Искажение данных может появляться на любом этапе, стадии, шаге ETL-процессов. Уп-
    25

    ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ редить их возникновение полностью – задача практически невыполнимая, но необходимо принимать меры по снижению их количества и обнаружению. Рассматривают фатальные искажения, ошибки, к которым относятся: отсутствие данных в источнике, ошибка в под- ключении к источнику, проявляющаяся в отсутствии доступа к необходимым данным, проявление системного сбоя операционной системы.
    Очистка данных состоит в исключении из общего потока тех данных, которые не отвечают заданным ограничениям на загрузку или бизнес-правилам. В этом случае дан- ные из исходной таблицы разделяются на две части: отвечающие критериям качества, не- соответствующие таковым и не попадающие на загрузку в хранилище.
    Оценка качества данных производится:
    – по критичности ошибок в данных (могут или не могут быть загружены) – ошибки в именах полей, типах данных;
    – по правильности форматов и представлений данных;
    – на соответствие данных ограничениям целостности;
    – на уникальности внутренних и внешних ключей;
    – по полноте данных и связей;
    Приведенный перечень видов искажений, несоответствий в данных касается в ос- новном структурного представления данных, технологических причин.
    Смысловое содержание данных – знаковых структур очень важно при создании структуры хранилища и его поддержании, которое состоит в первоначальной загрузке и дальнейшем его заполнении и актуализации в процессе эксплуатации. В ходе ETL- процессов велика вероятность искажений, сбоев в работе по причине несогласованно- сти в семантике. Такие ситуации называют «семантические разрывы» (46). В этой ра- боте приводится четыре их вида:
    – «Вавилонский» – это ситуация, когда одно и то же понятие или показатель обо- значают разными именами.
    – Кросспотоковый разрыв. В этом случае наименования разных по смысловому содержанию понятий одинаковые в знаковом представлении. Такое происходит при наличии в одной системе разных по смыслу данных, предоставляемых из разных источников. Например в одном источнике «Партия комплектов 50 штук» понимают комплекты узлов для компьютеров но этот комментарий опу- щен, в другом источнике это комплекты узлов для музыкальных центров. В свя- зи со сложившейся привычкой комментарии также отсутствуют.
    – Кроссязыковый разрыв происходит в тех случаях, когда передающее и прини- мающее звено не согласовали характеризующие признаки понятий – показате- лей. Например при оценке объемов поставок нефти передающий оценивает их в тоннах, а принимающий – в баррелях.
    – Асинхронный разрыв связан с потерей или задержкой в передаче целой посыл- ки в массиве или ее части, что нарушает целостность массива, его смысловое содержание или не дает возможности правильно понять и определить данные.
    В информационных хранилищах семантические разрывы в данных возможны на любом из переходов от этапа к этапу при прохождении данных от источни- ков к конечным пользователям информацией и знаниями.
    3.2. Концепции организации хранения данных
    1.
    Концепция информационного хранилища.
    2.
    Концепция централизованного хранилища данных
    26

    ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ
    3.
    Концепция распределенного хранилища данных.
    4.
    Концепция автономных витрин данных.
    5.
    Концепция единого интегрированного хранилища и многих витрин данных.
    Подготовка принятия решений требует сосредоточения значительного, а подчас колоссального количества информации (выше приведены возможные ее объемы в зависи- мости от масштабов и сложности решений) на месте его подготовки. Естественно стрем- ление приблизить места хранения и использования информации. Проблемы подготовки принятия решений разрешаются с использованием инструментальных систем поддержа- ния принятия решения Decision Support Sistem (DSS). В них большое место стали зани- мать OLAP-технологии, интеллектуальный анализ, подготовка плановых и стандартных документов, которые используют информационные ресурсы, предоставляемые системами сбора и хранения данных.
    Проблема сбора и хранения информационных ресурсов выделилась как занимаю- щая особое место во всей системе управления предприятием (корпорацией) и оформилась в концепцию информационных хранилищ (ИХ) – англоязычный термин Data Warehouse
    (DW). Эта подсистема является центральной в интегрированной информационной систе- ме, которой становится совокупность локальных информационных систем и информа- ционных технологий, слитых воедино средствами ИАС.
    3.2.1. Концепция информационного хранилища
    Хранилища выполняют задачи накопления сведений о деятельности предприятия, партнеров, других информационных ресурсов из различных источников, в том числе баз данных, отображающих отдельные бизнес-процессы, автоматизированных рабочих мест, информационных систем и других источников информации, в том числе из глобальных информационных сетей, как например Internet.
    Simon (Саймон) [11] называет такие источники данных операционными базами данных. Сбор перечисленных сведений сочетается, как правило, с доработкой исходных данных, которая заключается в проверке достоверности, устранении противоречивости, сортировке, систематизации в соответствии с заранее построенной на основе заданиий пользователей единой структурой хранилища.
    Инмон (Inmon) – автор концепции информационных хранилищ выделяет следую- щие характерные для них свойства:
    – предметную ориентированность;
    – интегрированность;
    – неизменчивость;
    – поддержка хронологии.
    Свойство предметной ориентированности означает компоновку пулов информа- ции по определенным предметным областям или целям, обеспечивающим подготовку и принятие соответствующих решений в соответствующей системе DSS или использования в каком-либо другом виде приложения, например для разработки планов развития пред- приятия, инвестиционных проектов, реинжиниринга и для любых работ, для выполнения которых необходимы исходные данные, накопленные в информационном хранилище. Не- обходимо подчеркнуть, что сосредотачиваемые в хранилище данные поддерживают ана- литическую деятельность, а не функциональные или технологические процессы. Не непо- средственную производственную деятельность, а анализ данных в историческом аспекте.
    27

    ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ
    Интегрированность предусматривает сбор и доработку (предварительную обра- ботку) информации по определенной предметной области из различных источников и превращение ее в организованный по заданным правилам, подчиненным определенной цели, массив в виде гиперкуба или системы поликубов информации. Пользователь легко использовать совместное использование данных из различных секций хранилища, отно- сящихся к разным направлениям деятельности или функциям предприятия.
    Неизменчивость состоит в том, что в хранилище данные из различных источников накапливаются, практически не подвергается каким-либо изменениям, только в случае крайней необходимости, в основном при обнаружении искажений. Они наращиваются по заданному, четко определенному графику. Пользователь имеет только право чтения ин- формации. Манипуляции с содержимым хранилища доверяются только администраторам.
    Поддержка хронологии заключается в обязательности привязки данных ко време- ни. Информация, содержащаяся в хранилище, рассматривается в историческом аспекте.
    Используют следующие типы привязки ко времени:
    – к моменту совершения события или факта;
    – к моменту фиксации его информационными средствами;
    – комбинированные методы, сочетающие оба подхода.
    Таким образом, идея хранилищ данных – это не просто единый подход к хранению необходимых данных, а создание единого многопрофильного в рамках одной концепту- альной идеи информационного ресурса предприятия, направления исследований, корпо- ративной структуры и т.д.
    Источник 1
    Источник 2
    Источник N
    Зона хранения данных по льз о
    ва те ли
    Прил ожен ия развития би зн е
    са
    Зо на хранен ия да нны х в
    об ъ
    е ктном
    (
    многомерном
    ) ви де
    Зо на на ко пл е
    ни я да нны х
    Рис. 3.1. Структура информационного хранилища
    Данные в хранилище из источников накапливаются в течение определенного пе- риода времени в зоне накопления. В течение этого времени производится работа по обес- печению необходимого качества данных по описанным выше правилам. В процессе пере- качки из источников данные трансформируются в единый формат, проверяются их смыс-
    28

    ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ДАННЫХ – КОНЦЕПЦИЯ ИНФОРМАЦИОННЫХ ХРАНИЛИЩ ловая согласованность, наличие ошибок, проводятся мероприятия по повышению качест- ва данных. При достижении необходимого уровня качества и определенного графиком работы момента времени данные переносятся в зону хранения.
    В зоне хранения они могут быть представлены в виде реляционной или многомер- ной модели (объектном виде). В случае использования реляционной модели необходимо иметь в хранилище зону объектного представления данных для достижения уровня харак- теристик системы, соответствующего требованиям, предъявляемым к OLAP-системам.
    Содержание их будет рассмотрено в разделе 4.1.2.
    Реализация концепции ИХ может быть осуществлена несколькими способами – имеются несколько вариантов концепций ИХ.
    1   2   3   4   5   6   7   8   9   10   11


    написать администратору сайта