Главная страница
Навигация по странице:

  • Гистограмму

  • Качество визуализации

  • Представление пространственных характеристик

  • Рис. 16.4.

  • Визуальный запрос

  • Комплексный подход к внедрению Data Mining, OLAP и хранилищ

  • Предварительные знания


    Скачать 3.17 Mb.
    НазваниеПредварительные знания
    АнкорDataMining.pdf
    Дата02.03.2017
    Размер3.17 Mb.
    Формат файлаpdf
    Имя файлаDataMining.pdf
    ТипДокументы
    #3306
    страница19 из 34
    1   ...   15   16   17   18   19   20   21   22   ...   34
    Рис. 16.3. Пример многомерного изображения данных при помощи "лиц Чернова"
    Перед использованием методов визуализации необходимо:

    Проанализировать, следует ли изображать все данные или же какую-то их часть.

    Выбрать размеры, пропорции и масштаб изображения.

    Выбрать метод, который может наиболее ярко отобразить закономерности, присущие набору данных.
    Многие современные средства анализа данных позволяют строить сотни типов различных графиков и диаграмм. Поэтому выбор метода визуализации, если он самостоятельно осуществляется пользователем, не так прост и легок, как может показаться на первый взгляд. Наличие большого количества средств визуализации, представленных в инструменте, который применяет пользователь, может даже вызвать растерянность.
    Одну и ту же информацию можно представить при помощи различных средств. Для того чтобы средство визуализации могло выполнять свое основное назначение - представлять информацию в простом и доступном для человеческого восприятия виде - необходимо придерживаться законов соответствия выбранного решения содержанию отображаемой информации и ее функциональному назначению. Иными словами, нужно сделать так, чтобы при взгляде на визуальное представление информации можно было сразу выявить закономерности в исходных данных и принимать на их основе решения.
    Среди двухмерных и трехмерных средств наиболее широко известны линейные графики, линейные, столбиковые, круговые секторные и векторные диаграммы.
    Приведем рекомендации по использованию этих наиболее простых и популярных средств визуализации.
    При помощи линейного графика можно отобразить тенденцию, передать изменения какого-либо признака во времени. Для сравнения нескольких рядов чисел такие графики наносятся на одни и те же оси координат.
    189

    Гистограмму применяют для сравнения значений в течение некоторого периода или же соотношения величин.
    Круговые диаграммы используют, если необходимо отобразить соотношение частей и целого, т.е. для анализа состава или структуры явлений. Составные части целого изображаются секторами окружности. Секторы рекомендуют размещать по их величине: вверху - самый крупный, остальные - по движению часовой стрелки в порядке уменьшения их величины. Круговые диаграммы также применяют для отображения результатов факторного анализа, если действия всех факторов являются однонаправленными. При этом каждый фактор отображается в виде одного из секторов круга.
    Выбор того или иного средства визуализации зависит от поставленной задачи (например, нужно определить структуру данных или же динамику процесса) и от характера набора данных.
    Качество визуализации
    Современные аналитические средства, в том числе и Data Mining, немыслимы без качественной визуализации. В результате использования средств визуализации должны быть получены наглядные и выразительные, ясные и простые изображения, за счет использования разнообразных средств: цвета, контраста, границ, пропорций, масштаба и т.д.
    В связи с ростом требований к средствам визуализации, а также необходимости сравнивания их между собой, в последние годы был сформирован ряд принципов качественного визуального представления информации.
    Принципы Тафта (Tufte's Principles) графического представления данных высокого качества [67] гласят:

    предоставляйте пользователю самое большое количество идей, в самое короткое время, с наименьшим количеством чернил на наименьшем пространстве;

    говорите правду о данных.
    В [65] описаны основные принципы компоновки визуальных средств представления информации:
    1. Принцип лаконичности.
    2. Принцип обобщения и унификации.
    3. Принцип акцента на основных смысловых элементах.
    4. Принцип автономности.
    5. Принцип структурности.
    6. Принцип стадийности.
    7. Принцип использования привычных ассоциаций и стереотипов.
    Принцип лаконичности говорит о том, что средство визуализации должно содержать лишь те элементы, которые необходимы для сообщения пользователю существенной информации, точного понимания ее значения или принятия (с вероятностью не ниже допустимой величины) соответствующего оптимального решения.
    190

    Кроме обозначенных выше принципов, средство визуализации должно обладать высокой надежностью и скоростью, которая устроит пользователя, принимающего на основе этой информации решения.
    Представление пространственных характеристик
    Отдельным направлением визуализации является наглядное представление пространственных характеристик объектов. В большинстве случаев такие средства выделяют на карте отдельные регионы и обозначают их различными цветами в зависимости от значения анализируемого показателя.
    На рис. 16.4
    приведен пример такой визуализации в среде MineSet [26], являющейся, в данном случае, инструментом визуального Data Mining. Карта представлена в виде графического интерфейса, отображающего данные в виде трехмерного ландшафта произвольно определенных и позиционированных форм (столбчатых диаграмм, каждая с индивидуальными высотой и цветом). Такой способ позволяет наглядно показывать количественные и реляционные характеристики пространственно-ориентированных данных и быстро идентифицировать в них тренды.
    Рис. 16.4. MineSet. Ландшафтный визуализатор
    Основные тенденции в области визуализации
    Как уже отмечалось, при помощи средств визуализации поддерживаются важные задачи бизнеса, среди которых - процесс принятия решений. В связи с этим возникает необходимость перехода средств визуализации на более качественный уровень, который характеризуется появлением абсолютно новых средств визуализации и взглядов на ее функции, а также развитием ряда тенденций в этой области.
    Среди основных тенденций в области визуализации Филип Рассом (Philip Russom) выделяет [68]:

    Разработка сложных видов диаграмм.
    191


    Повышение уровня взаимодействия с визуализацией пользователя.

    Увеличение размеров и сложности структур данных, представляемых визуализацией.
    1. Разработка сложных видов диаграмм.
    Большинство визуализаций данных построено на основе диаграмм стандартного типа (секторные диаграммы, графики рассеяния и.т.д.). Эти способы являются одновременно старейшими, наиболее элементарными и распространенными. В последние годы перечень видов диаграмм, поддерживаемых инструментальными средствами визуализации, существенно расширился. Поскольку потребности пользователей весьма многообразны, инструменты визуализации поддерживают самые различные типы диаграмм. Например, известно, что бизнес-пользователи предпочитают секторные диаграммы и гистограммы, тогда как ученых больше устраивают визуализации в виде графиков рассеяния и диаграмм констелляции.
    Пользователи, работающие с геопространственными данными, сильнее заинтересованы в картах и прочих трехмерных представлениях данных.
    Электронные инструментальные панели, в свою очередь, более популярны среди руководителей, использующих бизнес-аналитические технологии для контроля за показателями работы компании. Такие пользователи нуждаются в наглядной визуализации в виде "спидометров", "термометров" и "светофоров".
    Средства создания диаграмм и презентационной графики предназначены главным образом для визуализации данных. Однако возможности такой визуализации обычно встроены и во множество различных других программ и систем - в инструменты репортинга и OLAP, средства для Text Mining и Data Mining, а также в CRM-приложения и приложения для управления бизнесом. Для создания встроенной визуализации многие поставщики реализуют визуализационную функциональность в виде компонент, встраиваемых в различные инструменты, приложения, программы и web-страницы (в том числе инструментальные панели и персонализированные страницы порталов).
    2. Повышение уровня взаимодействия с визуализацией пользователя.
    Еще совсем недавно большая часть средств визуализации представляла собой статичные диаграммы, предназначенные исключительно для просмотра. Сейчас широко используются динамические диаграммы, уже сами по себе являющиеся пользовательским интерфейсом, в котором пользователь может напрямую и интерактивно манипулировать визуализацией, подбирая новое представление информации.
    Например, базовое взаимодействие позволяет пользователю вращать диаграмму или изменять ее тип в поисках наиболее полного представления данных. Кроме того, пользователь может менять визуальные свойства - к примеру, шрифты, цвета и рамки. В визуализациях сложного типа (графиках рассеяния или диаграммах констелляции) пользователь может выбирать информационные точки с помощью мыши и перемещать их, облегчая тем самым понимание представления данных.
    Более совершенные методы визуализации данных часто включают в себя диаграмму или любую другую визуализацию как составной уровень. Пользователь может углубляться (drill down) в визуализацию, исследуя подробности
    192
    обобщенных ею данных, или углубляться в OLAP, Data Mining или другие сложные технологии.
    Сложное взаимодействие позволяет пользователю изменять визуализацию для нахождения альтернативных интерпретаций данных. Взаимодействие с визуализацией подразумевает минимальный по своей сложности пользовательский интерфейс, в котором пользователь может управлять представлением данных, просто "кликая" на элементы визуализации, перетаскивая и помещая представления объектов данных или выбирая пункты меню. Инструменты OLAP или Data Mining превращают непосредственное взаимодействие с визуализацией в один из этапов итерационного анализа данных. Средства Text Mining или управления документами придают такому непосредственному взаимодействию характер навигационного механизма, помогающего пользователю исследовать библиотеки документов.
    Визуальный запрос является наиболее современной формой сложного взаимодействия пользователя с данными. В нем пользователь может, например, видеть крайние информационные точки графика рассеяния, выбирать их мышкой и получать новые визуализации, представляющие именно эти точки. Приложение визуализации данных генерирует соответствующий язык запроса, управляет принятием запроса базой данных и визуально представляет результирующее множество. Пользователь может сфокусироваться на анализе, не отвлекаясь на составление запроса.
    3. Увеличение размеров и сложности структур данных, представляемых визуализацией.
    Элементарная секторная диаграмма или гистограмма визуализирует простые последовательности числовых информационных точек. Однако новые усовершенствованные типы диаграмм способны визуализировать тысячи таких точек и даже сложные структуры данных - например, нейронные сети.
    Скажем, средства OLAP (а также инструменты генерации запросов и выпуска отчетов) уже давно поддерживают диаграммы для своих онлайновых отчетов.
    Новые визуализационные программы обновляют контент за счет периодически повторяющегося считывания данных. Фактически пользователи визуализационных программ, отслеживающие линейные процессы (колебания фондового рынка, показатели работы компьютерных систем, сейсмограммы, сетки полезности и др.), нуждаются в загрузке данных в режиме реального времени или близком к нему режиме.
    Пользователи инструментов Data Mining обычно анализируют очень большие наборы численных данных. Традиционные типы диаграмм для бизнеса (секторные диаграммы и гистограммы) плохо справляются с представлением тысяч информационных точек. Поэтому инструменты Data Mining почти всегда поддерживают некую форму визуализации данных, способную отражать структуры и закономерности исследуемых наборов данных, в соответствии с тем аналитическим подходом, который используется в инструменте.
    Помимо того, что визуализация поддерживает обработку структурированных данных, она также является ключевым средством представления схем так называемых неструктурированных данных, например текстовых документов, т.е.
    193

    Text Mining. В частности, средства Text Mining могут осуществлять парсинг больших пакетов документов и формировать предметные указатели понятий и тем, освещенных в этих документах. Когда предметные указатели созданы с помощью нейросетевой технологии, пользователю непросто продемонстрировать их без некоторой формы визуализации данных. Визуализация в таком случае преследует две цели: o
    визуальное представление контента библиотеки документов; o
    навигационный механизм, который пользователь может применять при исследовании документов и их тем.
    Выводы
    Как показывают многие исследования, визуализация является одним из наиболее перспективных направлений анализа данных, в т.ч. Data Mining. Однако в этом направлении можно выделить проблемы, такие как сложность ориентации среди огромного количества инструментов, предлагающих решения по визуализации, а также непризнание рядом специалистов методов визуализации как полноценных средств анализа и навязывание им вспомогательной роли при использовании других методов. Однако у визуализации есть неоспоримые преимущества: она может служить источником информации для пользователя, не требуя теоретических знаний и специальных навыков работы, может выступить тем языком, который объединит профессионалов из различных проблемных областей, может превратить исходный набор данных в изображение, благодаря которому у исследователя могут появиться абсолютно новые, неожиданные решения.
    194

    Комплексный подход к внедрению Data Mining, OLAP и хранилищ
    данных в СППР
    В одной из предыдущих лекций мы рассматривали информационную пирамиду, в ходе движения по которой, от данных к решениям, объемы знаний переходят в ценность бизнеса. Процесс Data Mining, который как раз и заключается в движении вверх по этой информационной пирамиде, неразрывно связан с процессом принятия решений, его можно рассматривать как неотъемлемую часть систем поддержки принятия решений
    (СППР).
    Таким образом, Data Mining можно рассматривать как процесс поддержки принятия решений, при этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания [11].
    С понятием решений и принятием решений мы уже кратко познакомились в одной из первых лекций курса.
    СППР возникли в результате развития управленческих информационных систем и систем управления базами данных в начале 70-х годов прошлого века.
    На данный момент существует огромное количество СППР, разработанных и внедренных в различных областях человеческой деятельности. Темпы их разработок постоянно возрастают.
    Однако на сегодняшний день, несмотря на распространенность данных систем, общепризнанное определение данного термина пока не найдено. Следует отметить, что хотя СППР широко применяется во всем мире, на просторах СНГ системам этого типа пока еще не уделяется должное внимание.
    Рассмотрим, что же представляет собой система поддержки принятия решений. Как уже было отмечено, данный вопрос является дискуссионным, так же как и вопрос отнесения различных типов систем к классу СППР; мнения по этому поводу часто даже противоречат друг другу. Приведем несколько определений СППР.
    Основу СППР составляет комплекс взаимосвязанных моделей с соответствующей информационной поддержкой исследования, экспертные и интеллектуальные системы, включающие опыт решения задач управления и обеспечивающие участие коллектива экспертов в процессе выработки рациональных решений [71].
    Система поддержки принятия решений - это диалоговая автоматизированная система, использующая правила принятия решений и соответствующие модели с базами данных, а также интерактивный компьютерный процесс моделирования.
    СППР - это средство для "вычисления решений", которое основано "на использовании ряда процедур по обработке данных и суждений, помогающих лицу, принимающему решение (далее - ЛПР), в принятии решения" [72].
    195

    СППР - "интерактивные автоматизированные системы, которые помогают ЛПР использовать данные и модели, чтобы решать неструктурированные проблемы" [73].
    СППР - "компьютерная информационная система, используемая для поддержки различных видов деятельности при принятии решения в ситуациях, где невозможно или нежелательно иметь автоматические системы, которые полностью выполняют весь процесс принятия решения". СППР не заменяет ЛПР, автоматизируя процесс принятия решения, а оказывает ему помощь в ходе решения поставленной задачи [74].
    Следует заметить, что, начиная с первых определений СППР, круг задач, решаемых при их помощи, ограничился слабоструктурированными и неструктурированными.
    Определим СППР таким образом: СППР - интерактивная компьютерная система, предназначенная для поддержки принятия решений в слабоструктурированных и неструктурированных проблемах различных видов человеческой деятельности [75].
    Существенными концепциями этого определения являются:

    компьютерная интерактивная (т.е. не обуславливающая обязательного непосредственного использования ЛПР системы поддержки принятия решений);

    поддержка принятия решений (решение принимает человек);

    слабоструктурированных и неструктурированных проблем (именно такими проблемами занимаются руководители).
    Рассмотрим, что же представляет собой классификация проблем на слабоструктурированные, неструктурированные и структурированные [75, 76].
    Неструктурированные задачи имеют только качественное описание, основанное на суждениях ЛПР, количественные зависимости между основными характеристиками задачи не известны.
    Структурированные задачи характеризуются существенными зависимостями, которые могут быть выражены количественно.
    Слабоструктурированные задачи занимают промежуточное положение и являются "сочетающими количественные и качественные зависимости, причем малоизвестные и неопределенные стороны задачи имеют тенденцию доминировать" [76].
    Можно выделить три компонента, составляющие основу классической структуры СППР, которыми она отличается от других типов информационных систем: подсистему интерфейса пользователя, подсистему управления базой данных и подсистему управления базой моделей [75].
    Если посмотреть на СППР с функциональной стороны, можно выделить следующие ее компоненты [11, 77]:

    сервер хранилища данных;

    инструментарий OLAP;

    инструментарий Data Mining.
    196

    Эти компоненты СППР рассматривают такие основные вопросы: вопрос накопления данных и их моделирования на концептуальном уровне, вопрос эффективной загрузки данных из нескольких независимых источников и вопрос анализа данных.
    Можно сказать, что использование оперативной аналитической обработки (систем OLAP) на сегодня ограничивается обеспечением доступа к многомерным данным.
    Технология Data Mining представляет в СППР наибольший интерес, поскольку с ее помощью можно провести наиболее глубокий и всесторонний анализ данных и, следовательно, принимать наиболее взвешенные и обоснованные решения.
    1   ...   15   16   17   18   19   20   21   22   ...   34


    написать администратору сайта