Главная страница
Навигация по странице:

  • Вопрос 6. Понятие ОLTP- и OLAP-технологий.

  • Вопрос 7. Информационные технологии анализа данных.

  • Тема Понятие информационной технологии Вопросы темы


    Скачать 2.93 Mb.
    НазваниеТема Понятие информационной технологии Вопросы темы
    Дата05.10.2022
    Размер2.93 Mb.
    Формат файлаpdf
    Имя файла96a38c1d829dbe4fe776f926b3e2c0f3 (1).pdf
    ТипДокументы
    #714990
    страница4 из 5
    1   2   3   4   5
    Система управления базами данных (СУБД) – это комплексное
    программное обеспечение, которое необходимо для управления БД.
    СУБД предоставляет возможность получать и обновлять информацию, управлять ее упорядочиванием и оптимизацией. Она также позволяет пользователю следить за производительностью, настраивать, выполнять резервное копирование и восстановление БД.
    Основой любой базы данных является модель данных.
    Модель данных – это формализованное описание структур единиц
    информации и операций над ними в информационной системе.
    На логическую структуру базы данных влияет тип модели данных.
    Кроме того, тип модели данных оказывает существенное влияние на то, как данные будут организованы, обработаны и сохранены (рис. 27).
    Рис. 27. Упрощенная схема технологии работы с базой данных

    31
    Рассмотрим основные типы моделей данных.
    Иерархическая модель представляет базу данных в виде древовидной структуры, состоящей из объектов различных уровней.
    Например, есть издательство. Оно в данном случае будет корнем дерева.
    С ним в подчиненной связи находятся дочерние записи: это разные журналы, которые выпускает издательство. В каждый журнал входят определенные статьи. А у статей есть свои авторы. Таким образом, связи между записями выражаются в виде отношений предок-потомок. При этом у потомков только один-единственный предок. А у одного предка может быть много потомков (рис. 28).
    Рис. 28. Иерархическая модель базы данных
    Если структура данных оказывается сложнее, чем простая иерархия, то простота организации иерархической модели данных становится ее недостатком. Так, в базе данных автор может участвовать в нескольких различных отношениях предок-потомок. Например, автор связан со статьей, которую он написал и с издательством, которое эту статью опубликовала в определенном журнале. В этом случае более приемлемой становится сетевая модель данных. Сетевая модель позволяет описывать связи между данными по типу «многие ко многим»
    (рис. 29).

    32
    Рис. 29. Сетевая модель базы данных
    Еще одна модель данных – реляционная. Базы данных реляционного типа представляют собой набор таблиц, имеющих между собой сложные связи. Каждая такая таблица состоит из набора строк, называемых записями (рис. 30).
    Рис. 30. Реляционная модель базы данных
    Каждая из строк делится на части, называемые полями, для которых жестко определены требования к типу содержащихся в них данных.

    33
    Проведем аналогию с каталогом литературы в библиотеке. В качестве таблиц можно рассматривать разделы каталога: книги, журналы и т. п.; записями можно считать карточки, в которых указываются данные о книге или журнале; полями записей будут данные, указанные в карточках: автор, издательство, год издания, внутренний код, указывающий местоположение в архиве и т. д.
    В реляционных базах данных можно хранить логически сгруппированные данные в разных таблицах и задавать связи между ними, объединяя их в единую базу. Для установления связей между логически сгруппированными данными используют ключи. Ключи могут быть простыми (из одного поля) и сложными (из группы полей)
    Под ключом понимают поле или набор полей, однозначно
    идентифицирующих запись.
    В реляционных базах данных между таблицами данных можно устанавливать связи нескольких типов: один к одному, один ко многим и многие ко многим.
    Еще одна модель данных базируется на использовании
    инвертированных списков (рис. 31).
    Рис. 31. Модель базы данных на основе инвертированных списков

    34
    В этом случае база данных похожа на реляционную, то есть также состоит из таблиц и отношений между ними. Однако есть определенные отличия:
    1) допускается сложная структура атрибутов;
    2) строки таблиц (записи) упорядочены в некоторой определенной последовательности. При этом каждой строке присваивается уникальный номер. Кроме того, физическая упорядоченность строк всех таблиц может определяться и для всей базы данных;
    3) пользователи могут видеть и хранимые таблицы, и пути доступа к ним;
    4) пользователь может управлять логическим порядком строк в каждой таблице с помощью индексов. Эти индексы автоматически поддерживаются системой и явно видны пользователям.
    Следующая модель данных – объектно-реляционная. Она реализуется с помощью реляционных таблиц, но включает объекты. В данном случае необходимо установить взаимосвязи между записями базы данных и функциями их обработки. Это можно сделать, задействовав специальные механизмы, которые очень похожи на те, которые реализованы в средствах объектно-ориентированных языков программирования.
    Если рассматривать структуру объектно-ориентированной базы данных, то она отображается в виде дерева, в узлах которой располагаются объекты. У свойств объектов есть описание, которое может соответствовать стандартным типам (например, строковым) или быть сконструированным самим пользователем (в данном случае определяется как класс).
    Логическая структура объектно-ориентированной БД внешне похожа на структуру иерархической БД. Основное отличие между ними состоит в методах манипулирования данными.
    Следующая модель данных – многомерная (рис. 32). Данная модель востребована при проведении анализа по нескольким независимым измерениям, вдоль которых могут быть проанализированы определенные совокупности данных. Работа идет с многомерными наборами данных, называемыми многомерными кубами (или гиперкубами, метакубами, кубами фактов).
    В процессе многомерного представления данных они разделяются на несколько групп – на измерения и на факты (или, как их еще называют, меры). В качестве осей координат такой многомерной системы выступают основные атрибуты анализируемого процесса (то есть, то, по чему ведется анализ).

    35
    Например, для анализа успешности продаж это могут быть такие атрибуты, как тип товара, регион, тип покупателя. Очень часто, при проведении подобного анализа, в качестве одного из измерений используется конкретное время или временной интервал (это могут быть конкретные даты, либо месяца, кварталы, года). На пересечении осей- измерений находятся данные, количественно характеризующие процесс, факты (они же меры): суммы, минимальное и максимальное значение, среднее отклонение и т. д.
    Измерения играют роль индексов, идентифицирующих конкретные значения в ячейках гиперкуба.
    Рис. 32. Объектно-реляционная модель базы данных
    Есть еще группа моделей данных, под названием
    «нереляционные».
    С их помощью обрабатываются и хранятся слабоструктурированные и неструктурированные данные. В данном случае происходит отказ от определенной модели данных, которая накладывает ограничения на хранение и использование данных.
    Нереляционные базы данных используют подход, который позволяет создавать структуры данных на лету. То есть происходит переход к множеству баз данных, каждая из которых предназначена для отдельного приложения. Если в случае с реляционными моделями к одной базе данных могут обращаться много разных приложений, то в случае с нереляционной моделью данных действует схема: «много приложений – много баз данных».

    36
    Нереляционные модели можно разделить на четыре типа:
    1) Столбцовые (колоночные). Это хранилище, в котором информация представлена в виде матрицы, строки и столбцы которой используются как ключи. Значения хранятся в столбцах (колонках), представленных в отдельных файлах. Благодаря такой модели данных можно хранить большое количество атрибутов в сжатом виде. Это ускоряет выполнение запросов к базе, особенно операции поиска и агрегации данных. Такая модель данных востребована в системах биржевой аналитики, в проектах для интернета вещей и т. д.
    2) Модель «Ключ-значение» – это наиболее простой вариант хранилища данных, использующий ключ для доступа к значению в рамках большой хэш-таблицы
    16
    . Модель востребована для хранения изображений, создания специализированных файловых систем, в игровых и рекламных приложениях, в проектах для интернета вещей.
    3) Графовая модель. Позволяет хранить данные в контексте сущностей и связей между ними. Такая модель используется социальными сетями, а также при решении задач, связанных с выявлением мошенничества, маршрутами общественного транспорта, дорожными картами, сетевыми топологиями и т. д.
    4) В документальной модели данные, представленные парами ключ-значение, сжимаются в виде полуструктурированного документа из связанных тэгами элементов. Такая модель применяется при создании каталогов, пользовательские профилей и систем управления контентом, где каждый документ уникален и изменяется со временем.
    Вопрос 6. Понятие ОLTP- и OLAP-технологий.
    В области информационных технологий существуют два взаимно дополняющих друг друга направления: OLTP- и OLAP-технологии (рис.
    33).
    Типичными примерами воплощения OLTP-технологий являются системы складского учета, системы заказов билетов, банковские системы, выполняющие операции по переводу денег, и ряд других. Основная функция подобных систем заключается в выполнении большого количества коротких транзакций.
    16
    Хеш-таблица – это специальная структура данных для хранения пар ключей и их значений.

    37
    Рис. 33. Концептуальная схема дополняющих друг друга направлений:
    OLTP- и OLAP-технологии
    Под транзакцией понимают последовательность операций над
    БД, рассматриваемых СУБД как единое целое. То есть это определенное
    действие, изменяющее состояние базы данных.
    Транзакции в OLTP-системе являются относительно простыми, например, «снять сумму денег со счета А и добавить эту сумму на счет
    В». Проблема заключается в том, что, во-первых, транзакций очень много, во-вторых, выполняются они одновременно (к системе может быть подключено несколько тысяч одновременно работающих пользователей), в-третьих, при возникновении ошибки, транзакция должна целиком откатиться и вернуть систему к состоянию, которое было до начала транзакции (не должно быть ситуации, когда деньги сняты со счета А, но не поступили на счет В).
    Практически все запросы к базе данных в OLTP-приложениях состоят из команд вставки, обновления, удаления. Запросы на выборку в основном предназначены для предоставления пользователям возможности выбора из различных справочников. Большая часть запросов известна заранее еще на этапе создания системы.
    База данных, с которой работают OLTP-приложения, постоянно обновляется, в связи с этим ее обычно называют оперативной базой данных.
    В отличие от OLTP-технологий, OLAP-технологии необходимы для проверки возникающих у аналитиков гипотез. Запросы, которые аналитики отправляют в аналитические системы, весьма разнообразны, так как возникает потребность проведения анализа сразу по нескольким измерениям. После анализа полученной информации может возникнуть необходимость в уточнении первоначального запроса и корректировки его. Для выполнения вышеуказанных действий применяются OLAP- системы.

    38
    OLAP-приложения оперируют с большими массивами данных, уже накопленными в оперативных базах данных OLTP-систем и взятыми из электронных таблиц или из других источников данных. Корпоративные данные могут собираться в одной или нескольких оперативных баз данных, а все исторические данные концентрируются в едином хранилище.
    У OLAP-систем есть характерные признаки, к которым можно отнести следующее:

    новые данные добавляются в систему относительно редко и достаточно крупными блоками (например, данные по итогам продаж за полугодие из OLTP-системы могут загружаться в OLAP-систему один раз в полгода);

    после того, как данные будут добавлены в OLAP-систему, они, как правило, уже не будут из нее ни удаляться, ни изменяться;

    учитывая, что данные в OLAP-систему могут поступать из многих и самых разных источников, кроме того, иметь разные форматы представления, то непосредственно перед самой загрузкой эти данные проходят через этап очистки. Данные могут быть ошибочными или некорректными;

    отправляемые в OLAP-систему запросы пользователей по своей сути являются нерегламентированными и гораздо сложнее, чем в случае с OLTP-системой. Запросы могут задаваться один за другим, например, в том случае, когда аналитику требуется уточнить результаты, полученные по итогам предыдущего запроса;

    в OLAP-системах скорость выполнения запросов не является критичной, несмотря на то, что она остается важной, как и в случаях с другими системами по обработке данных.
    OLAP-системы позволяют выполнять сбор, хранение, анализ многомерных данных, которые представляются в форме куба (OPAP- куб). Однако от геометрической фигуры «куб», у которого все грани равны, OLAP-куб будет отличаться тем, что ребра у него не всегда будут равны друг другу.
    Например, на рис. 34 куб создан по трем городам, трем месяцам и трем товарам (куб с ребрами 3х3х3). В этом случае у куба все грани равны. Однако, аналитику может понадобиться провести исследование по трем городам, двенадцати товарным группам и четырем кварталам. И в этом случае у куба грани будут не равны (куб с ребрами 3х12х4).

    39
    Рис. 34. Пример аналитического куба
    На отображенном аналитическом кубе в качестве меры вступает город, месяц, товар и прибыль. Как видно из аналитического куба, была получена прибыль в размере 35 тыс. условных единиц в результате реализации капусты за ноябрь месяц в городе Сыктывкар.
    С аналитическим кубом можно выполнять различные действия.
    1) Формирование срезов или сечений куба. Данная операция выполняется с целью фиксации одного или нескольких измерений и выделения соответствующих им ячеек куба. Тем самым аналитик может делать выборку интересующих его данных, фиксируя те или иные измерения и получая различные срезы данных. Например, есть аналитический куб с измерениями рынков, продуктов и временных интервалов (рис. 35).

    40
    Рис. 35. Формирование срезов аналитического куба
    2) Вращение
    куба.
    Эта операция позволяет изменить местоположения данных в полученном срезе. Например, измерения, отображаемые в строках, после вращения будут показаны в столбцах, а измерения, находящиеся в столбцах, переносятся в строки. Благодаря транспонированию можно сделать сформированный аналитический отчет более наглядным (рис. 36).
    Рис. 36. Вращение куба

    41 3) Свертка
    (группировка
    или
    консолидация).
    Операция необходима в том случае, когда из детального аналитического отчета нужно сформировать укрупненный аналитический отчет (рис. 37).
    Рис. 37. Свертка данных
    4) Детализация.
    Операция необходима, чтобы получить расшифровку укрупненного среза данных (рис. 38).
    Рис. 38. Детализация данных
    С точки зрения архитектурного решения, OLAP-системы реализуются в виде клиент-серверной технологии. OLAP-сервер необходим для:

    хранения данных;

    реализации различных операций с аналитическими данными, а также;

    построения из данных многомерных кубов.

    42
    Как правило, OLAP-серверы объединяют с хранилищем данных или витринами данных.
    OLAP-клиент необходим для предоставления пользователю удобного интерфейса, позволяющего выполнять аналитические запросы к данным. При этом используются понятные для пользователя термины, относящиеся к его предметной области.
    OLAP-серверы скрывают от конечного пользователя способ реализации модели данных. Они формируют гиперкуб, с которым пользователи посредством OLAP-клиента выполняют все необходимые манипуляции, анализируя данные. Однако способ реализации очень важен, так как от него зависит производительность и занимаемые ресурсы.
    Выделяют три основных способа реализации OLAP-сервера на основе многомерных баз данных:

    Многомерный. Данный способ базируется на многомерной модели данных. К достоинствам способа можно отнести высокую производительность и простоту использования встроенных функций.

    Реляционный способ основывается на использовании реляционной модели данных. К достоинствам способа можно отнести возможность работы с существующими реляционными БД, более экономичное использование ресурсов и б ó
    льшую гибкость при добавлении новых измерений.

    Гибридный способ использует как многомерные, так и реляционные модели данных.
    Например, в качестве средства работы с OLAP-кубами может быть использована универсальная отчетно-аналитическая композиционная система Полиматика
    17
    Вопрос 7. Информационные технологии анализа данных.
    Чтобы повысить качество принимаемых управленческих решений, необходим такой инструмент, с помощью которого можно в кратчайшие сроки проанализировать исходную информацию, получаемую из самых различных источников. Одним из таких средств являются аналитические технологии.
    17
    Режим доступа – https://polymatica.com.

    43
    Аналитические технологии предоставляют возможность динамического представления и многомерного анализа как исторических, накопленных за длительный промежуток времени, так и текущих данных.
    Данный класс технологий позволяет управленческому аппарату анализировать тенденции, моделировать и прогнозировать результаты различных управленческих решений, а также оценивать возможные последствия от их принятия и исполнения.
    К современным аналитическим технологиям предъявляются достаточно высокие требования. До недавнего времени пользователям таких систем необходимы были только отчеты. Они были многостраничными и сложными для понимания сотрудника, не имеющего специальной подготовки в области аналитики. Но сейчас ситуация существенно изменилась. От аналитических технологий требуют поддержания возможности создавать определенный интерфейс взаимодействия с пользователем.
    Благодаря этому интерфейсу, сотрудник мог бы делать постановку задачи, а система, в основе которой лежат аналитические технологии, уже самостоятельно показывала бы ему проблемные точки в деятельности компании и отмечала слабые места бизнеса. Кроме того, визуализация получаемых результатов должна быть доступна не только на стационарном компьютере, но и на различных мобильных устройствах, например, смартфонах, планшетах и любых других используемых средствах.
    Поэтому современные аналитические системы называют системами
    1   2   3   4   5


    написать администратору сайта