Предварительные знания

Название	Предварительные знания
Анкор	DataMining.pdf
Дата	02.03.2017
Размер	3.17 Mb.
Формат файла
Имя файла	DataMining.pdf
Тип	Документы #3306
страница	29 из 34

1 ... 26 27 28 29 30 31 32 33 34

Decision Tree (DT) - дерево решений
В системе PolyAnalyst реализован алгоритм, основанный на критерии максимизации взаимной информации (information gain). То есть для расщепления выбирается независимая переменная, несущая максимальную (в смысле Шеннона) информацию о зависимой переменной. Этот критерий имеет ясную интерпретацию и дает разумные результаты при самых разнообразных статистических параметрах изучаемых данных.
Алгоритм DT является одним из самых быстрых в PolyAnalyst.
Decision Forest (DF) - леса решений
В случае, когда зависимая переменная может принимать большое количество разных значений, применение метода деревьев решений становится неэффективным. В такой ситуации в системе PolyAnalyst применяется метод, называемый лесом решений (decision forest). При этом строится совокупность деревьев решений - по одному для каждого различного значения зависимой переменной. Результатом прогноза, основанного на лесе решений, является то значение зависимой переменной, для которой соответствующее дерево дает наиболее вероятную оценку.
Алгоритмы ассоциации
Market Basket Analysis (BA) - метод анализа "корзины покупателя"
Название этого метода происходит от задачи определения вероятности, какие товары покупаются совместно. Однако реальная область его применения значительно шире.
Например, продуктами можно считать страницы в Интернете, или те или иные характеристики клиента, или ответы респондентов в социологических и маркетинговых исследованиях и т.д. Алгоритм BA получает на вход бинарную матрицу, в которой строка
- это одна корзина (кассовый чек, например), а столбцы заполнены логическими 0 и 1, обозначающими наличие или отсутствие данного признака (товара). На выходе формируются кластеры совместно встречаемых признаков с оценкой их вероятности и достоверности. Кроме этого, формируются ассоциативные направленные правила типа: если признак "А", то с такой-то вероятностью еще и признак "В" и еще признак "С".
Алгоритм ВА в PolyAnalyst работает исключительно быстро и способен обрабатывать огромные массивы данных.
Transactional Basket Analysis (TB) - транзакционный анализ "корзины"
272

Transactional Basket Analysis - это модификация алгоритма BA, применяемый для анализа очень больших данных, что не редкость для этого типа задач. Он предполагает, что каждая запись в базе данных соответствует одной транзакции, а не одной корзине (набору купленных за одну операцию товаров). На основе этого алгоритма компания "Мегапьютер" создала отдельный продукт - X-SellAnalyst, предназначенный для on-line рекомендации продуктов в Интернет-магазинах.
Модули текстового анализа
В системе PolyAnalyst реализована интеграция инструментов Data Mining с методами анализа текстов на естественном языке - алгоритмов Text Mining. Иллюстрация работы модулей текстового анализа показана на рис. 24.3
Рис. 24.3. Иллюстрация работы модулей текстового анализа
Text Analysis (ТА) - текстовый анализ
Text Analysis представляет собой средство формализации неструктурированных текстовых полей в базах данных. При этом текстовое поле представляется как набор булевых признаков, основанных на наличии и/или частоте данного слова, устойчивого словосочетания или понятия (с учетом отношений синонимии и "общее-частное") в данном тексте. Тем самым появляется возможность распространить на текстовые поля всю мощь алгоритмов Data Mining, реализованных в системе PolyAnalyst. Кроме того, этот метод может быть использован для лучшего понимания текстовой компоненты данных за счет автоматического выделения наиболее распространенных ключевых понятий.
Text Categorizer (TC) - каталогизатор текстов
273

Этот модуль позволяет автоматически создать иерархический древовидный каталог имеющихся текстов и пометить каждый узел этой древовидной структуры наиболее индикативным для относящихся к нему текстов. Это нужно для понимания тематической структуры анализируемой совокупности текстовых полей и для эффективной навигации по ней.
Link Terms (LT) - связь понятий
Этот модуль позволяет выявлять связи между понятиями, встречающимися в текстовых полях изучаемой базы данных, и представлять их в виде графа. Граф также может быть использован для выделения записей, реализующих выбранную связь.
В PolyAnalyst встроены алгоритмы работы с текстовыми данными двух видов:
1. Алгоритмы, извлекающие ключевые понятия и работающие с ними.
2. Алгоритмы, сортирующие тексты на классы, которые определяются пользователем с помощью языка запросов.
Первый вид алгоритмов работает только с текстами на английском языке - при этом используется специальный словарь понятий английского языка. Алгоритмы второго типа могут работать с текстами и на английском, и на русском языках.
Text OLAP (матрицы измерений) и Taxonomies (таксономии) - это похожие друг на друга методы категоризации текстов. В Text OLAP пользователь создает именованные столбцы
(измерения), состоящие из текстовых запросов. Например: "[добыча] и [нефть] и не
([руда] или [уголь] или [газ])". В процессе работы алгоритма PolyAnalyst применяет каждое из условий к каждому документу в базе данных и в случае удовлетворения условия относит этот документ к соответствующей категории. После работы модуля пользователь может выбирать различные элементы матрицы измерений и просматривать на экране тексты, удовлетворяющие выбранным условиям. Найденные слова будут в этих документах подкрашены разным цветом.
Работа с таксономиями очень похожа на работу с Text OLAP, только здесь пользователь строит иерархическую структуру из таких же условий, как и в матрицах измерений.
Система пытается соотнести каждый документ с узлами этого дерева. После работы модуля пользователь также может перемещаться по узлам наполненной таксономии, просматривая отфильтрованные документы с подкрашенными словами.
Матрицы измерений и таксономии дают возможность пользователю взглянуть на коллекцию его документов под самыми разными углами. Но это не все: на основе этих объектов можно делать и другие, более сложные методы анализа, (например, анализ связей (Link Analysis), который показывает, насколько связаны друг с другом различные категории текстов, описанные пользователем) или включать тексты как независимые сущности в другие методы линейного и нелинейного анализа. Все это приводит к плотной интеграции подходов Data Mining и Text Mining в единую концепцию анализа информации.
Визуализация
В PolyAnalyst имеется богатый набор инструментов для графического представления и анализа данных и результатов исследований. Данные могут представляться в различных
274

зрительных форматах: гистограммах , двумерных, псевдо- и реальных трехмерных графиках.
Найденные в процессе Data Mining зависимости могут быть представлены как интерактивные графики со слайдерами для изменения значений представленных на них переменных. Эта особенность позволяет пользователю графически моделировать результаты. Имеется набор специальных графиков, широко применяемых в бизнесе, - это так называемые Lift, Gain charts, которые используются для графической оценки качества классификационных моделей и выбора оптимального числа контактов. Кроме этого, в последнюю версию программы включен новый визуальный метод Data Mining: анализ связей.
Link Analysis (LA) - анализ связей
Модуль Link Analysis позволяет выявлять корреляционные и антикорреляционные связи между значениями категориальных и булевых полей и представлять их в виде графа Этот граф также может быть использован для выделения записей, реализующих выбранную связь.
Symbolic Rule Language (SRL) - язык символьных правил
SRL - это универсальный алгоритмический язык PolyAnalyst, который используется для символьного представления автоматически найденных системой в процессе Data Mining правил, а также для создания пользователем своих собственных правил. На языке SRL можно выразить широкий спектр математических конструкций, используя алгебраические операции, большой набор встроенных функций, операции с датами и временем, логические и условные конструкции. Для удобства написания выражений на SRL в программе предусмотрен мастер создания правил.
Эволюционное программирование
В данное время эволюционное программирование является наиболее молодой и одной из многообещающих технологий Data Mining. Основная идея метода состоит в формировании гипотез о зависимости целевой переменной от других переменных в виде автоматически синтезируемых специальным модулем программ на внутреннем языке программирования.
Использование универсального языка программирования теоретически позволяет выразить любую зависимость, причем вид этой зависимости заранее не известен.
Процесс производства внутренних программ организуется как эволюция в пространстве программ, в некотором роде напоминающая генетические алгоритмы. Когда система находит перспективную гипотезу, описывающую исследуемую зависимость достаточно хорошо по целому ряду критериев, в работу включается механизм так называемых "обобщенных преобразований" (GT-search). С помощью этого механизма в "хорошую" программу вводятся незначительные модификации, не ухудшающие ее качество, и производится отбор лучшей дочерней программы. К новой популяции затем опять применяются механизмы синтеза новых программ, и этот процесс рекурсивно повторяется. Таким образом, система создает некоторое число генетических линий программ, конкурирующих друг с другом по точности, статистической значимости и простоте выражения зависимости.
275

Специальный модуль непрерывно преобразует "лучшую" на данный момент программу с внутреннего представления во внешний язык PolyAnalyst - язык символьных правил
(Symbolic Rule Language), понятный человеку: математические формулы, условные конструкции и так далее. Это позволяет пользователю уяснить суть полученной зависимости, контролировать процесс поиска, а также получать графическую визуализацию результатов. Контроль статистической значимости полученных результатов осуществляется комплексом эффективных и современных статистических методов, включая методы рандомизированного тестирования.
Общесистемные характеристики PolyAnalyst
Типы данных
PolyAnalyst работает с разными типами данных. Это: числа, булевы переменные (yes/no), категориальные переменные, текстовые строки, даты, а также свободный английский текст.
Доступ к данным
PolyAnalyst может получать исходные данные из различных источников. Это: текстовые файлы с разделителем "запятая" (.csv), файлы Microsoft Excel 97/2000, любая ODBC- совместимая СУБД, SAS data files, Oracle Express, IBM Visual Warehouse.
Поддержка OLE DB for Data Mining
Версия 4.6 PolyAnalyst поддерживает спецификацию Microsoft OLE DB for Data Mining
(Version 1.0). При выполнении исследований для большинства математических модулей
(LR, FD, CL, FC, DT, DF, FL,PN, BA, TB) можно создавать так называемые "Mining
Models" (MM). После завершения анализа эти модели можно применять к внешним данным через стандартные интерфейсы OLE DB или ADO из других программ или скриптов, поддерживающих создание ADO или COM-объектов. Применение модели осуществляется при помощи выполнения SQL-команд (Расширение SQL for DM). Mining
Models можно также экспортировать в PMML. В планах развития программы намечается обеспечить интеграцию "PolyAnalyst DataMining Provider" с Microsoft Analysis Services(в составе SQL Server 2000).
In-place Data Mining
PolyAnalyst поддерживает запуск исследований на внешних данных через OLE DB интерфейсы без загрузки этих данных в проект PA. При выполнении исследования
PolyAnalyst получает данные порциями через исполнение SQL-запросов к внешним источникам данных. Это позволяет преодолеть ограничения памяти при исследовании больших массивов данных. Данный процесс продемонстрирован на рис. 24.4 276

Рис. 24.4. In-place Data Mining
PolyAnalyst Scheduler - режим пакетной обработки
В PolyAnalyst предусмотрена возможность пакетного режима анализа данных. Для этого имеется специальный скриптовый язык, на котором программируется все аналитические действия и временная последовательность их выполнения, а также определяются наборы данных. Скрипт сохраняется в файле и автоматически инициализирует исследование в указанный момент времени на определенных данных. Для реализации функции Scheduler в электронной лицензии должна быть включена соответствующая опция.
В таблице 24.1
описано семейство продуктов PolyAnalyst6: продукты и соответствующие конфигурации системы.
Таблица 24.1. Семейство продуктов PolyAnalyst
Продукт
Конфигурация системы
Локальные продукты
PolyAnalyst 4.6, однопользовательская версия
Математические модули: FL, FD, PN, FC, BA, ТВ, MB, CL, DS, DT, DF,
LR, LA, TA, TC, LT, SS. Пакетная обработка, поддержка OLE DB.
Платформа - MS Windows NT/2000/XP
PolyAnalyst 3.5 Professional
(русс.)
Математические модули: FL, FD, PN, FC, CL, DS, LR, SS. Платформа
- MS Windows NT/2000/XP
PolyAnalyst 3.5 Power (русс.)
Математические модули: FD, PN, FC, CL, DS, LR, SS. Платформа -
MS Windows 98/NT/2000/XP
PolyAnalyst 3.5 Lite - студенческая версия (русс.)
Математические модули: FD, FC, CL, DS, LR, SS. Платформа - MS
Windows 98/NT/2000/XP
Сетевые продукты
277

PolyAnalyst Knowledge Server 4.6, сетевая версия
Математические модули: FL, FD, PN, FC, BA, ТВ, MB, CL, DS, DT, DF,
LR, LA, TA, TC, LT, SS. Пакетная обработка, поддержка OLE DB, In-
Place Data Mining. Серверная часть - MS Windows NT/2000/XP server, клиентская часть - MS Windows 98/NT/2000/XP.
Клиент/серверная версия системы
Средства разработки
PolyAnalyst COM - SDK для создания собственных приложений для Data Mining
Набор COM-объектов, библиотеки, документация для разработчиков
WebAnalyst
Помимо разработок PolyAnalyst и TextAnalyst, предназначенных соответственно для добычи данных и текстов (Data Mining и Text Mining), фирма Мегапьютер реализует третий продукт - WebAnalyst.
WebAnalyst - это корпоративный аналитический сервер, представляющий собой интегрированную платформу для хранения и обработки информации и адаптированный для работы с web-данными и для решения задач e-business.
WebAnalyst является масштабируемым сервером приложений с открытой архитектурой, который автоматизирует задачи сбора информации, ее преобразования, анализа и генерации персонализированного контента для потребителей. Кроме этого, клиентское приложение WebAnalyst предоставляет гибкий инструмент для визуального проектирования.
•
Обрабатывает данные из различных источников, таких как каналы передачи данных
(HTTP), внешние базы данных и лог-файлы web-серверов.
•
Хранит связанную информацию в собственной единой универсальной базе данных.
•
Содержит набор встроенных аналитических инструментов и инструментов для работы с данными (модули WebAnalyst), предоставляет пользователю визуальное средство для разработки процедур обработки и анализа данных и для генерации контента.
WebAnalyst уже включает в себя все математические модули для Data и Text Mining систем PolyAnalyst и TextAnalyst, а также специальную аналитическую математику.
WebAnalyst может быть полезен при решении следующих задач [106]:
•
регистрации взаимодействия посетителя с Web-сайтом;
•
преобразовании и хранении аналитической информации;
•
использовании собранных данных для изучения интересов посетителя и его предпочтений;
•
анализе эффективности ресурсов сайта и его архитектуры;
•
составлении отчетов для руководства;
•
использовании полученной информации для персонифицированного диалога с каждым посетителем.
278

В качестве "сырья" для своей работы WebAnalyst может использовать: информационные потоки от Web-серверов; базы данных информационного наполнения; базы данных клиентов, продуктов и транзакций; накопленные регистрационные файлы Web-серверов; другие внешние источники данных.
279

Инструменты Data Mining. Программные продукты Cognos и
система STATISTICA Data Miner
Программные продукты Cognos (разработчик - компания Cognos [107]) - это инструменты интеллектуального или делового анализа данных (от англ. Business Intelligence Tools), или
BI-инструменты. Представление о комплексе программных средств компании Cognos дает следующий рис. 25.1
[108].
Рис. 25.1. Комплекс программных средств компании Cognos
Ниже перечислены основные программные продукты Cognos, которые относятся к проблемным областям, указанным на рисунке.
1. Работа с запросами и отчетами. Решения в области работы с отчетами ориентированы на различные типы пользователей. Продукты отличаются требованиями к уровню сложности отчетов и уровню навыков конечных пользователей: o
Decision Stream - средство для создания витрин данных (data marts), оптимизированных на формирование запросов и построение отчетов;
o
Impromptu - средство для работы с запросами, а также со статическими и настраиваемыми отчетами;
o
PowerPlay - как средство построения многомерных отчетов;
o
Impromptu Web Reports - средства для работы со статическими отчетами через
Web;
o
Cognos Query - средство для создания запросов, навигации и исследования данных в т.ч. через Web;
280

o
Visualizer - средство для работы с мощными визуальными отчетами.
2. Анализ данных. Средства анализа данных предназначены для анализа критической информации и выявления значимых факторов. Этот процесс охватывает полный набор аналитических задач и задач по построению отчетов, включая работу с отчетами бизнес- уровня, возможность перехода к данным нижнего уровня, создание и просмотр представлений с целью выявления приоритетов. Интеграция средств позволяет удобно переходить от исследования и анализа данных при помощи отчетов бизнес-уровня к исследованию и анализу данных по отчетам нижнего уровня (функция drill through): o
PowerPlay - средство многомерного (OLAP) анализа и построения бизнес-отчетов;
o
Impromptu - средство для просмотра отчетов с детальной информацией нижнего уровня (для Windows);
o
Impromptu Web Reports - средство для просмотра отчетов с детальной информацией нижнего уровня (для Web);
o
Visualizer - средство визуального представления данных.
3. Визуализация и выявление приоритетов. К разделу визуализации информации и выявлению приоритетов можно отнести целый спектр продуктов. С их помощью пользователю становится доступна визуализированная информация, представленная в удобном виде для выявления критических факторов на больших массивах данных. В этих продуктах за основу принимается возможность анализа ключевых факторов, влияющих на рассматриваемую область знаний (бизнеса) при помощи широких возможностей по визуализации данных. Правильно выявленные приоритеты являются основой для принятия эффективных решений: o
Visualizer - средство для представления информации в форме визуальных представлений с использованием визуальных элементов для выявления приоритетов;
o
PowerPlay как средство многомерного представления информации;
o
Impromptu как средство для работы с настраиваемыми отчетами;
o
Cognos Query - средство Web-пользователей для построения запросов.
4. Разведка данных (data mining). Средства разведки и добывания данных предлагают целый ряд возможностей по автоматизированному просмотру данных, позволяя вскрывать скрытые тенденции, выявлять приоритетные решения и действия путем отображения тех факторов, которые более других влияют на исследуемые показатели: o
Scenario - средство сегментации и классификации;
o
4Thought - средство прогнозирования;
o
Visualazer как средство визуализации.
5. Защита информации. Защита информации достигается за счет использования единого для всех приложений компонента, называемого Access Manager и позволяющего описывать классы пользователей и управлять ими для всех типов аналитических приложений Cognos.
В дополнение к Access Manager, могут быть использованы также обычные возможности обеспечения безопасности на уровне базы данных и операционной системы. На практике возможно одновременное использование всех трех уровней защиты информации;
6. Описание метаданных. В качестве средства описания метаданных может быть использован единый для всех Cognos BI продуктов компонент, называемый Cognos
Architect. Достоинство использования единого для всех средств модуля заключается в возможности единообразного представления бизнес-информации. Единожды сформулированные метаданные становятся доступными в любом аналитическом приложении Cognos.
281

1 ... 26 27 28 29 30 31 32 33 34