Главная страница
Навигация по странице:

  • 8.3. Принципы обработки данных в хранилищах

  • Сфера детализированных данных

  • Сфера агрегированных показателей

  • Сфера закономерностей

  • Fast Analysis Shared Multidimensional Information

  • 8.5. Системы интеллектуального анализа данных

  • Вопросы для самопроверки

  • Аналитические банковские системы. Тема Аналитические банковские системы


    Скачать 251 Kb.
    НазваниеТема Аналитические банковские системы
    АнкорАналитические банковские системы
    Дата12.02.2020
    Размер251 Kb.
    Формат файлаdoc
    Имя файла5_12_1+5_T8+P1082.doc
    ТипДокументы
    #108207
    страница2 из 2
    1   2


    Рис. 8.2. Пространственное хранилище данных

    В модели пространственного хранилища первичные данные преобразуются в информацию, пригодную для использования на этапе подготовки данных. При этом обязательно принимаются во внимание требования к скорости обработки информации и качеству данных. Как и в модели Билла Инмона, подготовка данных начинается со скоординированного извлечения данных из источников. Ряд операций совершается централизованно, например поддержание и хранение общих справочных данных, другие действия могут быть распределенными.

    Область представления пространственно структурирована, при этом она может быть централизованной или распределенной. Пространственная модель хранилища данных содержит ту же атомарную информацию, что и нормализованная модель (см. подход Билла Инмона), но информация структурирована по-другому, чтобы облегчить ее использование и выполнение запросов. Эта модель включает как атомарные данные, так и обобщающую информацию (агрегаты в связанных таблицах или многомерных кубах) в соответствии с требованиями производительности или пространственного распределения данных. Запросы в процессе выполнения обращаются к все более низкому уровню детализации без дополнительного перепрограммирования со стороны пользователей или разработчиков приложения.

    Типичные черты архитектуры с общей шиной:

    1. Использование пространственной модели организации данных с архитектурой «звезда» (star scheme).

    2. Использование двухуровневой архитектуры, которая включает стадию подготовки данных, недоступную для конечных пользователей, и хранилище данных с архитектурой шины как таковое. В состав последнего входят несколько витрин атомарных данных, несколько витрин агрегированных данных и персональная витрина данных, но оно не содержит одного физически целостного или централизованного хранилища данных.

    3. Хранилище данных с архитектурой шины обладает следующими характеристиками:

      • оно пространственное;

      • включает как данные о транзакциях, так и суммарные данные;

      • включает витрины данных, посвященные только одной предметной области или имеющие только одну таблицу фактов (fact table);

      • может содержать множество витрин данных в пределах одной базы данных.

    4. Хранилище данных не является единым физическим репозиторием (в отличие от подхода Билла Инмона). Это «виртуальное» хранилище. Это коллекция витрин данных, каждая из которых имеет архитектуру типа «звезда».

    Как компромиссное рещение был предложен гибридный подход (см. рис. 8.3).

    Стоит подчеркнуть, что если окончательное представление данных приемлемо для использования, то такой подход можно считать жизнеспособным. Но двойная работа по подготовке и хранению атомарных данных сопровождается существенными дополнительными расходами и задержками. Поэтому, вероятно, стоит потратить инвестиции в ресурсы и технологии на то, чтобы соответствующим образом представить дополнительные ключевые показатели производительности для бизнеса.



    Рис. 8.3. Гибрид нормализованного и пространственного хранилищ данных

    8.3. Принципы обработки данных в хранилищах

    Поддержка принятия управленческих решений на основе накопленных данных может выполняться в трех базовых сферах:

    1. Сфера детализированных данных. Это область действия большинства систем, нацеленных на поиск информации. В большинстве случаев реляционные СУБД отлично справляются с возникающими здесь задачами. Общепризнанным стандартом языка манипулирования реляционными данными является SQL. Информационно-поисковые системы, обеспечивающие интерфейс конечного пользователя в задачах поиска детализированной информации, могут использоваться в качестве надстроек как над отдельными базами данных, так и над общим хранилищем данных.

    2. Сфера агрегированных показателей. Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ являются задачами систем оперативной аналитической обработки данных (OLAP On-Line Analytical Processing). Здесь можно или ориентироваться на специальные многомерные СУБД, или оставаться в рамках реляционных технологий. Во втором случае заранее агрегированные данные могут собираться в БД звездообразного вида либо агрегация информации может производиться на лету в процессе сканирования детализированных таблиц реляционной БД. 

    3. Сфера закономерностей. Интеллектуальная обработка производится методами интеллектуального анализа данных (ИАД, Data Mining), главными задачами которых являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов.

    В основе концепции OLAP лежит принцип многомерного представления данных. Эта концепция была предложена В 1993 г. Е.Ф. Коддом, который рассмотрел недостатки реляционной модели, в первую очередь указав на невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом», и определил 12 общих требований к системам OLAP, расширяющим функциональность реляционных СУБД и включающим многомерный анализ как одну из своих характеристик. Позже его определение было переработано в так называемый тест FASMI (Fast Analysis Shared Multidimensional Information), требующий, чтобы OLAP-приложение предоставляло возможности быстрого анализа разделяемой многомерной информации.

    8.4. Классификация продуктов OLAP по способу представления данных

    В основе OLAP лежит идея многомерной модели данных. Человеческое мышление многомерно по определению. Когда человек задает вопросы, он налагает ограничения, тем самым формулируя вопросы во многих измерениях, поэтому процесс анализа в многомерной модели весьма приближен к реальности человеческого мышления. По измерениям в многомерной модели откладывают факторы, влияющие на деятельность предприятия (например: время, продукты, отделения компании, географию и т. п.). Таким образом получают гиперкуб (конечно, название не очень удачно, поскольку под кубом обычно понимают фигуру с равными ребрами, что, в данном случае, далеко не так), который затем наполняется показателями деятельности предприятия (цены, продажи, план, прибыли, убытки и т. п.). Наполнение это может вестись как реальными данными оперативных систем, так и прогнозируемыми на основе исторических данных. Измерения гиперкуба могут носить сложный характер, быть иерархическими, между ними могут быть установлены отношения. В процессе анализа пользователь может менять точку зрения на данные (так называемая операция смены логического взгляда), тем самым просматривая данные в различных разрезах и разрешая конкретные задачи. Над кубами могут выполняться различные операции, включая прогнозирование и условное планирование (анализ типа «что, если»). Причем операции выполняются разом над кубами, т. е. произведение, например, даст в результате произведение-гиперкуб, каждая ячейка которого является произведением ячеек соответствующих гиперкубов-множителей. Естественно, возможно выполнение операций над гиперкубами, имеющими различное число измерений.

    Различают два основных вида аналитической обработки, к которым относят те или иные продукты.

    MOLAP. Собственно многомерная (multidimensional) OLAP. В основе продукта лежит нереляционная структура данных, обеспечивающая многомерное хранение, обработку и представление данных. Соответственно и базы данных называют многомерными. Продукты, относящиеся к этому классу, обычно имеют сервер многомерных баз данных. Данные в процессе анализа выбираются исключительно из многомерной структуры. Подобная структура является высокопроизводительной.

    ROLAP. Реляционная (relational) OLAP. Как и подразумевается названием, многомерная структура в таких инструментах реализуется реляционными таблицами, а данные в процессе анализа соответственно выбираются из реляционной базы данных аналитическим инструментом.

    Недостатки и преимущества каждого подхода в общем-то очевидны. Многомерная OLAP обеспечивает лучшую производительность, но структуры нельзя использовать для обработки больших объемов данных, поскольку большая размерность потребует больших аппаратных ресурсов, а вместе с тем разреженность гиперкубов может быть очень высокой и, следовательно, использование аппаратных мощностей не будет оправданным. Наоборот, реляционная OLAP обеспечивает обработку на больших массивах хранимых данных, т. к. возможно обеспечение более экономичного хранения, но вместе с тем значительно проигрывает в скорости работы многомерной. Подобные рассуждения привели к выделению нового класса аналитических инструментов — HOLAP. Это гибридная (hybrid) оперативная аналитическая обработка. Инструменты этого класса позволяют сочетать оба подхода — реляционный и многомерный. Доступ может вестись как к данным многомерных баз, так и к данным реляционных.

    Помимо перечисленных средств существует еще один класс — инструменты генерации запросов и отчетов для настольных ПК, дополненные функциями OLAP или интегрированные с внешними средствами, выполняющими такие функции. Эти хорошо развитые системы осуществляют выборку данных из исходных источников, преобразуют их и помещают в динамическую многомерную БД, функционирующую на клиентской станции конечного пользователя.

    8.5. Системы интеллектуального анализа данных

    Системы OLAP, так же как и классические системы математической статистической обработки информации, в настоящий момент далеко не всегда могут удовлетворить потребности современных аналитиков. Прежде всего они построены на принципах существования гипотез у пользователя. Однако нередко именно формулировка гипотезы оказывается самой сложной задачей при реализации бизнес-анализа для последующего принятия решений, поскольку далеко не все закономерности в данных очевидны с первого взгляда. И в этом случае применяются системы интеллектуального анализа данных (ИАД), называемые в зарубежной литературе Data Mining. Термин Data Mining означает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа. Цель этого поиска — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные услуги либо зависимость их приобретения от каких-то характеристик потребителя).

    В общем случае процесс ИАД состоит из трех стадий:

    1. выявление закономерностей (свободный поиск);

    2. использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование);

    3. анализ исключений, предназначенный для выявления и толкования аномалий в найденных закономерностях.

    Иногда в явном виде выделяют промежуточную стадию проверки достоверности найденных закономерностей между их нахождением и использованием (стадия валидации).

    Все методы ИАД подразделяются на две большие группы по принципу работы с исходными обучающими данными.

    В первой группе исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений; это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затрудненность их использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят наибольшую пользу.

    Во второй группе методов информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции (их вид зависит от конкретного метода). Согласно предыдущей классификации, этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструкции могут быть либо «прозрачными» (интерпретируемыми), либо «черными ящиками» (нетрактуемыми).

    Выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:

    • ассоциация — высокая вероятность связи событий друг с другом (например, один товар часто приобретается вместе с другим);

    • последовательность — высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой);

    • классификация — имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила);

    • кластеризация — закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы — они выявляются автоматически в процессе обработки данных;

    • временные закономерности — наличие шаблонов в динамике поведения тех или иных данных (типичный пример — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.

    Cегодня существует довольно большое количество разнообразных методов исследования данных, применяемых в системах ИАД:

    • регрессионный, дисперсионный и корреляционный анализ;

    • методы анализа в конкретной предметной области, базирующиеся на эмпирических моделях;

    • нейросетевые алгоритмы, идея которых основана на аналогии с функционированием нервной ткани и заключается в том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями между «нейронами», а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные данные. Связи в этом случае создаются с помощью так называемого обучения сети посредством выборки большого объема, содержащей как исходные данные, так и правильные ответы;

    • алгоритмы — выбор близкого аналога исходных данных из уже имеющихся исторических данных (называются также методом «ближайшего соседа»);

    • деревья решений (decision tree) — иерархическая структура, базирующаяся на наборе вопросов, подразумевающих ответ «Да» или «Нет»; несмотря на то что данный способ обработки данных далеко не всегда идеально находит существующие закономерности, он довольно часто используется в системах прогнозирования в силу наглядности получаемого ответа;

    • кластерные модели (иногда также называемые моделями сегментации) применяются для объединения сходных событий в группы на основании сходных значений нескольких полей в наборе данных; также весьма популярны при создании систем прогнозирования;

    • алгоритмы ограниченного перебора, вычисляющие частоты комбинаций простых логических событий в подгруппах данных;

    • эволюционное программирование — поиск и генерация алгоритма, выражающего взаимозависимость данных, на основании изначально заданного алгоритма, модифицируемого в процессе поиска; иногда поиск взаимозависимостей осуществляется среди каких-либо определенных видов функций (например, полиномов).

    Вопросы для самопроверки

    1. Как расшифровывается термин «OLAP»? Чем системы OLTP отличаются от систем OLAP?

    2. Каковы главные операции в системах OLAP и OLTP?

    3. Что такое хранилище данных, чем оно отличается от базы данных?

    4. Какие архитектуры создания хранилищ данных вы знаете?

    5. Как работает хранилище данных в архитектуре фабрики?

    6. Как работает хранилище данных в архитектуре «Общей шины»?

    7. Что такое гибридная архитектура хранилища данных и чем она отличается от двух других архитектур?

    8. Как расшифровывается термин FASMI, кем он был предложен и что означает?

    9. Что такое ROLAP ?

    10. Что такое MOLAP?

    11. Что такое HOLAP?

    12. Что означает термин «Data Mining» и чем он отличается от OLAP?

    13. Сколько закономерностей и каких позволяют выделить методы ИАД?

    14. Из каких стадий состоят методы ИАД?

    15. Что такое нейросетевые алгоритмы в ИАД?

    16. Что такое деревья решений в ИАД и к каким задачам в сфере анализа банковской деятельности Вы бы рекомендовали применять деревья решений?

    17. Что такое кластерные модели и для решения каких задач они могут применяться?


    1   2


    написать администратору сайта