Главная страница
Навигация по странице:

  • Вопрос 1. Специфика оперативной аналитической обработки данных.

  • Методы извлечения информации из кубов данных.

  • Отношения и Иерархические Отношения.

  • Область активных измерений

  • Вопрос 2. Требования Кодда к средствам оперативной аналитической обработки.

  • Таблица 2.

  • Название требования Пояснения

  • Специальные характеристики

  • Характеристики построения отчетов

  • Управление размерностью

  • FASMI (F

  • FAST (Быстрый)

  • SHA (Разделяемой)

  • INFORMATION (Информации)

  • Вопрос 3. Сферы применения OLAP-технологий.

  • Движение денежных средств

  • Заработная плата

  • Вопросы для самопроверки

  • Информационно-аналитические системы. Цель и задачи дисциплины. Целью


    Скачать 1.22 Mb.
    НазваниеЦель и задачи дисциплины. Целью
    Дата15.10.2022
    Размер1.22 Mb.
    Формат файлаdocx
    Имя файлаИнформационно-аналитические системы.docx
    ТипДокументы
    #735393
    страница4 из 9
    1   2   3   4   5   6   7   8   9
    Тема 4. Методология оперативной аналитической обработки данных (OLAP)

     

    Цель: ознакомиться с оперативной аналитической обработкой данных.

     

    Задачи:

    ·     Изучить специфику оперативной аналитической обработки данных.

    ·     Познакомиться с требованиями Кодда к средствам оперативной аналитической обработки данных.

    ·     Изучить возможности применения OLAP-технологий в различных сферах бизнеса.

     

    Вопросы темы:

    1.  Специфика оперативной аналитической обработки данных.

    2.  Требования Кодда к средствам оперативной аналитической обработки.

    3.  Сферы применения OLAP-технологий.

     

    Основные понятия:

    ·     OLAP (On-Line Analytical Process);

    ·     многомерный куб (Cube);

    ·     операция «Вращение»;

    ·     отношения и «Иерархические Отношения»;

    ·     операция «Агрегации»;

    ·     операция «Детализации»;

    ·     формирование «Среза»;

    ·     OLAP-отчет;

    ·     область активных измерений;

    ·     область неактивных измерений;

    ·     область фактов;

    ·     диаграмма;

    ·     тест FASMI (Fast Analysis of Sha Multidimensional Information).

     

    Вопрос 1. Специфика оперативной аналитической обработки данных.

     

    Оперативная аналитическая обработка данных выражается термином OLAP (On-Line Analytical Process) и очень часто понимается как интерактивная аналитическая обработка данных. Именно возможность работы в интерактивном режиме при анализе данных выгодно отличает OLAP-системы от любых других систем подготовки отчетности, в том числе и регламентированной.

    Для эффективной работы аналитику требуется централизация всех данных и соответствующее структурирование информации, а также удобные инструменты для просмотра и визуализации информации. OLAP организует данные в виде многомерных кубов (Cubes). В качестве осей многомерной системы координат выступают основные атрибуты анализируемого бизнес-процесса.

    Многомерный анализ определяется как одновременный анализ по нескольким измерениям. По каждому измерению производится консолидации данных. Любое направление консолидации включает серию последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению. Средства оперативной аналитической обработки данных позволяют в любой момент перейти на нужный уровень иерархии.

    Аналитик при анализе показателей деятельности, например, объема продаж, оперирует многомерными представлениями. Он рассматривает продажи в зависимости от потребительского спроса на конкретный товар, от региона продаж, от конкретного интервала времени. Исходя из этого, объем продаж можно представить в виде трехмерного куба (рис. 15), грани которого изображают массивы данных по товарам, регионам и времени, а внутри куба находятся значения объема продаж.

     



     

    Рис. 15. Информационный куб «Объем продаж»

     

    Однако сам информационный куб для анализа не пригоден. Представить или изобразить адекватно трехмерный куб пользователь еще в состоянии, а вот восьми- или двенадцатимерный – просто невозможно. Поэтому при анализе из многомерного куба извлекают обычные двумерные таблицы.

     

    Методы извлечения информации из кубов данных.

    Для извлечения информации из кубов данных используются различные операции манипулирования Измерениями:

    1.  Операция «Вращение».

    Изменение порядка представления (визуализации) Измерений называется Вращением (Rotate). Эта операция обеспечивает возможность визуализации данных в форме, наиболее комфортной для их восприятия.

    2.  Отношения и Иерархические Отношения.

    При рассмотрении информационного куба значения Показателей определяются только тремя измерениями. На самом деле их может быть гораздо больше и между их значениями обычно существуют множество различных Отношений (Relation). В свою очередь, множество Отношений может иметь иерархическую структуру – Иерархические Отношения.

    3.  Операция Агрегации.

    В процессе анализа пользователь переходит от детализированных данных к агрегированным (обобщенным), т.е. производит операцию Агрегации (Drill Up). При этом значения детальных показателей суммируются в агрегируемый показатель.

    4.  Операция Детализации.

    Переход от более агрегированных к более детализированным данным называется операцией Детализации (Drill Down). При этом осуществляется декомпозиция признака агрегации на компоненты, например, признак года разбивается на кварталы. При этом автоматически детализуются числовые показатели.

    5.  Формирование «Среза».

    Пользователя редко интересуют все потенциально возможные комбинации значений Измерений. Более того, он практически никогда не работает одновременно сразу со всем кубом данных. Подмножество куба, получившееся в результате фиксации значения одного или более Измерений, называется Срезом (Slice), а сама операция называется «разрезанием» куба. Аналитик как бы берет и «разрезает» измерения куба по интересующим его меткам. Этим способом аналитик получает двумерный срез куба (отчет) и с ним работает. Структура отчета представлена на рисунке 16.

     



     

    Рис. 16. Структура аналитического отчета

     

    Например, если мы ограничим значение Измерения Товар – Товаром 2 (рис. 15), то получим подмножество куба (в данном случае – двухмерную таблицу), содержащее информацию об истории продаж данного товара 2 в разные регионы в различные временные периоды (рис. 17). Объем продаж здесь выражается одной мерой, например, количеством проданного товара.

     



     

    Рис. 17. Поквартальный отчет о продажах товара 2

     

    С точки зрения конечного пользователя суть OLAP-технологии состоит в том, что данные ему предоставляются в динамической таблице, автоматически суммирующей их в различных разрезах, и позволяющей интерактивно управлять вычислениями и формой отчета. Инструментами управления отчетом являются элементы самой таблицы.

    На рисунке 18 представлен OLAP – отчет, созданный в системе Contour Reporter (компании Contour Components).

    OLAP-отчет – управляемая динамическая OLAP-таблица, которая сопровождается синхронной диаграммой (графиком).

    Измерения отображаются в названиях строк и столбцов таблицы, соответствующие им факты и итоги (агрегированные факты) – в ячейках таблицы. Колонки и строки являются инструментами управления таблицей. Пользователь может перемещать их, фильтровать, сортировать, детализировать/обобщать и выполнять другие OLAP-операции. При этом таблица автоматически вычисляет новые итоги (агрегаты). Управляя OLAP-таблицей, можно из одного набора данных сформировать множество отчетов.

    В OLAP-таблице можно условно выделить несколько рабочих областей (рис. 18):

    Область активных измерений – строки и столбцы OLAP-таблицы.

    Область неактивных измерений (фильтры) – область, содержащая измерения, не отображенные в OLAP-таблице, но влияющие на представленные в ней данные.

    Область фактов – таблица с числовыми данными, над которыми выполняются вычисления.

     



     

    Рис. 18. OLAP-отчет

     

    Диаграмма – синхронное с OLAP-таблицей графическое представление данных. Диаграмма строится по расположенным в крайнем левом положении элементам динамической таблицы, т.е. по крайнему левому измерению-строке, измерению-колонке и фактам (крайне левому или по всем).

    Меняя колонки и строки, пользователь самостоятельно меняет вид отчета и группировки данных, система вычисляет новые итоги, суммируя тысячи, а то и миллионы строк.

    Один из базовых принципов OLAP – способность интуитивно манипулировать данными, требует быстрого извлечения информации. Средства OLAP как раз и являются такими инструментами, обеспечивающими оперативность и гибкость в получении различных отчетов, существенно расширяя возможности участников процесса подготовки и принятия решений.

     

    Вопрос 2. Требования Кодда к средствам оперативной аналитической обработки.

     

    Аббревиатура OLAP была впервые введена Э.Ф. Коддом (E.F. Kodd), известным ученым в области реляционных БД, создателем широко распространенной реляционной модели данных. Кодд сформулировал концепцию комплексного многомерного анализа данных, накопленных в хранилище, в виде 12 основных правил, которым должны удовлетворять OLAP-системы, как продукты, предоставляющие возможность выполнения оперативной аналитической обработки (табл. 2). В 1995 г. к 12 основным требованиям были добавлены еще шесть (которые известны в значительно меньшей степени).

     

    Таблица 2.

     

    Основные требования Кодда к средствам OLAP

     



    Название требования

    Пояснения

    1.

    Многомерное представление данных

    Средства должны поддерживать многомерный на концептуальном уровне взгляд на данные.

    2.

    Прозрачность

    Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда они берутся.

    3.

    Доступность

    Средства должны сами выбирать и связываться с наилучшим для формирования ответа на данный запрос источником данных. Средства должны обеспечивать автоматическое отображение их собственной логической схемы в различные гетерогенные источники данных.

    4.

    Согласованная производительность

    Производительность практически не должна зависеть от количества Измерений в запросе.

    5.

    Поддержка архитектуры клиент-сервер

    Средства должны работать в архитектуре клиент-сервер.

    6.

    Равноправность всех измерений

    Ни одно из измерений не должно быть базовым, все они должны быть равноправными (симметричными).

    7.

    Динамическая обработка разреженных матриц

    Неопределенные значения должны храниться и обрабатываться наиболее эффективным способом.

    8.

    Поддержка многопользовательского режима работы с данными

    Средства должны обеспечивать работу более чем одному пользователю.

    9.

    Поддержка операций на основе различных измерений

    Все многомерные операции (например, Агрегация) должны единообразно и согласованно применяться к любому числу любых измерений.

    10.

    Простота манипулирования данными

    Средства должны иметь максимально удобный, естественный и комфортный пользовательский интерфейс.

    11.

    Развитые средства представления данных

    Средства должны поддерживать различные способы визуализации (представления) данных.

    12.

    Неограниченное число измерений и уровней агрегации данных

    Не должно быть ограничений на число поддерживаемых Измерений.

     

    Все правила Кодда разделены на четыре группы и названы «характеристиками» или особенностями (features). К ним относятся:

    1.  Основные характеристики: многомерность модели данных, интуитивные механизмы манипулирования данными, доступность данных, пакетное извлечение данных, архитектура «клиент-сервер», прозрачность, многопользовательская работа.

    2.  Специальные характеристики: обработка ненормализованных данных, хранение результатов отдельно от исходных данных, выделение отсутствующих данных, обработка отсутствующих значений.

    3.  Характеристики построения отчетов: гибкое построение отчетов, стабильная производительность при построении отчетов, автоматическое регулирование физического уровня.

    4.  Управление размерностью: общая функциональность, неограниченное число измерений и уровней агрегирования, неограниченные операции между данными различных измерений.

     

    В начале 1995 г. Найджел Пендс (Nigel Pendse) и Ричард Крит (Richard Creeth), считая, что для большинства людей слишком обременительно помнить все правила Кодда (18 правил), переработали их в так называемый тест FASMI (Fast Analysis of Sha Multidimensional Information). В тесте OLAP-определение резюмировано только пятью ключевыми словами: Быстрый Анализ Разделяемой Многомерной Информации, т.е. характеристики OLAP-средства определены специфическим образом без указания на то, каким образом само средство должно быть реализовано. Это определение по достоинству было оценено и до сих пор используется для характеристики OLAP-средств.

    Тест FASMI расшифровывается следующим образом:

    ·     FAST (Быстрый) означает, что система должна обеспечивать выдачу большинства ответов пользователям в пределах приблизительно пяти секунд.

    ·     ANALYSIS (Анализ) – система может справляться с любым логическим и статистическим анализом.

    ·     SHA (Разделяемой) означает, что система осуществляет все требования защиты конфиденциальности.

    ·     MULTIDIMENSIONAL (Многомерной) – это ключевое требование. Система должна обеспечить многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий.

    ·     INFORMATION (Информации) – необходимая информация должна быть получена там, где она необходима.

     

    В настоящее время технология OLAP получила широкое признание. Рост популярности OLAP приводит к дальнейшему расширению сферы ее применения.

     

    Вопрос 3. Сферы применения OLAP-технологий.

     

    OLAP-технологии применимы везде, где есть задача анализа многофакторных данных. Вообще, при наличии некоторой таблицы с данными, в которой есть хотя бы одна описательная колонка и одна колонка с цифрами OLAP-инструмент, как правило, будет эффективным средством анализа и генерации отчетов.

    Рассмотрим некоторые сферы применения OLAP-технологий, взятые из реальной жизни. Этот набор идей при желании может быть расширен на другие сферы бизнеса.

    Продажи. Основное направление анализа в этой сфере – это рассмотрение объемов продаж в различных разрезах: Время, Категория товара, Товар, Регион, Покупатель, Продавец и пр. Эта информация необходима для принятия управленческих решений об изменении ассортимента, цен, закрытии и открытии магазинов, филиалов, расторжении и подписании договоров с дилерами, проведения или прекращения рекламных кампаний и т.д.

    Закупки. Многие предприятия закупают комплектующие и материалы у поставщиков. Торговые предприятия закупают товары для перепродажи. Возможных задач при анализе закупок множество: от планирования денежных средств на основе прошлого опыта, до контроля за менеджерами, выбирающими поставщиков.

    Маркетинг. Маркетинговый анализ необходим для планирования развития бизнеса в любой сфере. Например, задачами этого анализа в розничной торговле являются: правильное позиционирование товара, выявление групп покупателей для целевой рекламы, оптимизация ассортимента. Данные для такого анализа получить сложно. В тех случаях, когда покупатель анонимен, а это для розничной торговли правило, для получения данных используются социологические опросы, периодическая регистрация и прочие не прямые способы получения информации. Фактами при этом служат: объемы покупок, количество купленных товаров, количество самих покупателей или клиентов.

    Движение денежных средств – это целая область анализа, имеющая множество школ и методик. OLAP-технология может служить инструментом реализации или усовершенствования данных методик, но никак не их заменой. Анализируются денежные обороты безналичных и наличных средств в разрезе бизнес-операций, контрагентов, валют и времени с целью оптимизации потоков, обеспечения ликвидности и т.д. Состав измерений сильно зависит от особенностей бизнеса, отрасли, методики.

    Бюджет – одна из самых благодатных областей применения OLAP-технологий. Недаром ни одна современная система бюджетирования не считается завершенной без наличия в ее составе OLAP-инструментария для анализа бюджета. Большинство бюджетных отчетов легко строятся на основе OLAP-систем. При этом отчеты отвечают на очень широкую гамму вопросов:

    ·     анализ структуры расходов и доходов;

    ·     сравнение расходов по определенным статьям у разных подразделений;

    ·     анализ динамики и тенденций расходов на определенные статьи;

    ·     анализ себестоимости и прибыли.

     

    Большинство современных методик предлагают для крупных организаций вести бюджет в разрезе организационной структуры (по подразделениям) и в разрезе финансовой структуры (по центрам учета: центрам прибыли и центрам расходов). Самый мощный анализ можно провести, если бюджет ведется в разрезе всех аналитических признаков, интересующих руководство предприятия.

    Посещаемость сайта. Лог-файл Интернет-сервера многомерен по природе, а значит подходит для OLAP-анализа. Фактами являются: количество посещений, количество хитов, время, проведенное на странице и другая информация, имеющаяся в логе. Кроме того, анализ можно расширить за счет дополнительных справочников. Например: Хост, Ссылающийся сервер, Поисковая система, Посетитель.

    Использование помещений – один из видов статистического анализа. Примеры: анализ загруженности учебных аудиторий, сдаваемых в аренду зданий и помещений, использования залов для конференций и пр.

    Заработная плата – анализ расходов на зарплату, сравнение расходов по специальностям, филиалам, людям, динамика заработной платы.

    Текучесть кадров на предприятии – анализ текучести кадров на предприятии в разрезе филиалов, отделов, профессий, уровня образования, пола, возраста, времени.

    Грузовые перевозки – анализ объемов перевозок, платы в разрезе сезонов, направлений, видов вагонов, грузов, грузоотправителей, грузополучателей, станций отправления, станций получения.

    Рассмотрим более подробно проведение OLAP анализа в некоторых сферах бизнеса.

    Анализ продаж. Представьте себе многофилиальную компанию с главным офисом в Москве. В состав компании входят филиалы, распределенные по регионам. В крупных городах этих регионов интересы компании представляют дилеры. С дилерами установлены давние тесные связи, позволяющие регулярно получать от них информацию по объемам реализации товаров в различных разрезах. Номенклатура товаров компании достаточно широка.

    Анализ продаж такой компании может преследовать различные цели:

    ·     подготовка стратегических управленческих решений в области продаж с перспективой на полугодие или год;

    ·     формирование плана продаж на ближайший квартал и его анализ;

    ·     ежемесячный мониторинг состояния продаж;

    ·     еженедельная подготовка общих отчетов о деятельности компании и частных отчетов по отдельным товарным группам и филиалам, требующим более пристального контроля.

     

    Основное различие между перечисленными задачами анализа продаж заключается в степени детализации исследуемых данных и размере анализируемых периодов времени.

    1.  Определим доходность товарных групп в целом по компании (рис. 19).

     



     

    Рис. 19. Доходность товарных групп

     

    Если мы хотим посмотреть динамику продаж групп товаров в зависимости от времени, то нужно поменять тип диаграммы (рис. 20).

     



     

    Рис. 20. Динамика продаж групп товаров

     

    2.  Проанализируем поквартальные объемы продаж по регионам.

    Обобщив все данные по измерению «Регион» и оставив в области колонок измерение по времени, соответствующее анализируемому периоду, мы получим интересующую нас информацию (рис. 21).

     



     

    Рис. 21. Поквартальный отчет о продажах по регионам

     

    Вопросы для самопроверки:

    1.      Что такое тест FASMI?

    2.      Опишите структуру OLAP-отчета.

    3.      Что такое агрегация данных?

    4.      Можно ли поворотом информационного куба получить новый состав данных?

    5.      Возможен ли одновременный анализ данных по нескольким измерениям?

    6.      Чем отличаются базовые операции оперативного анализа данных: поворот и срез?

    7.      Каким образом из информационного куба можно получить отчет в виде двумерной таблицы?

    8.      В чем заключается интерактивность пользовательского отчета?

    9.      Охарактеризуйте ключевое требование к OLAP-средствам.

    10.  Какие виды анализа, можно проводить с помощью OLAP-технологии?

     

    Литература по теме:

     

    1.  Барсегян А.А. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP. / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. – СПб.: БХВ-Петербург, 2009.

    2.  Белов, В.С. Информационно-аналитические системы: основы проектирования и применения: учеб.-прак. пособие / В.С. Белов. – 2-е изд., перераб. и доп. – М.: Евразийский открытый институт, 2010. – [Электронный ресурс]. – Режим доступа: http://biblioclub.ru/index.php?page=book&id=90540.

    3.  Информационные аналитические системы: учеб. / Под ред. В.В. Дика. – М.: Московский финансово-промышленный ун-т «Синергия», 2013.

    4.  Найгель Пендс. Что следует понимать под термином OLAP? / перевод Шамиля Абушаева. – [Электронный ресурс]. – Режим доступа: www.corportal.ru/Articles/DataTech/OLAP.

    5.  Пивоваров А. Что такое OLAP? – [Электронный ресурс]. – Режим доступа: www.corportal.ru/Articles/DataTech/OLAP.

    6.  Щавелёв Л.В. Оперативная аналитическая обработка данных: концепции и технологии. – [Электронный ресурс]. – Режим доступа: www.corportal.ru/Articles/DataTech/OLAP.

     

    1   2   3   4   5   6   7   8   9


    написать администратору сайта