Предварительные знания

Название	Предварительные знания
Анкор	DataMining.pdf
Дата	02.03.2017
Размер	3.17 Mb.
Формат файла
Имя файла	DataMining.pdf
Тип	Документы #3306
страница	28 из 34

1 ... 24 25 26 27 28 29 30 31 ... 34

Утилита SAS Code Node
•
Обеспечивает запись кода SAS для упрощения сложных процедур подготовки и преобразования данных.
•
Позволяет использовать процедуры других продуктов SAS.
•
Поддерживает импорт внешних моделей.
•
Позволяет создавать собственные модели и узлы Enterprise Miner.
•
Содержит макропеременные, упрощающие ссылку на источники данных, переменные и т.п.
•
Имеет расширяемую логику формирования оценочного кода.
Исчерпывающие средства моделирования
•
Выбор моделей на базе обучающей, проверочной или тестовой выборки данных с использованием различных критериев, таких как: прибыли или убытки, AIC, SBC, среднеквадратичная ошибка, частота ошибок классификации, ROC, Джини, KS
(Колмогорова-Смирнова).
•
Поддерживает двоичные, номинальные, порядковые и интервальные исходные данные и целевые признаки.
•
Удобный доступ к оценочному коду и всем источникам данных.
•
Отображение нескольких результатов в одном окне позволяет лучше оценить эффективность модели.
Регрессии
•
Линейная и логистическая.
263

•
Пошаговая, с прямой и обратной выборкой.
•
Построитель условий для уравнений: полиномиальных, основных взаимодействий, поддержка иерархии эффектов.
•
Перекрестная проверка.
•
Правила для иерархии эффектов.
•
Методы оптимизации: сопряженные градиенты, метод двойных ломаных, метод Ньютона-
Рафсона с линейным или гребневым поиском, квазиньютоновский метод, метод доверительных областей.
•
Оценочный код PMML.
Деревья решений
Общая методология:
•
CHAID (автоматическое выявление взаимодействия по методу хи-квадрат).
•
Деревья классификации и регрессии.
•
C 4.5.
•
Отбор деревьев на основе целевых значений прибыльности или роста с соответствующим отсечением ветвей.
Критерии расщепления: вероятностный критерий хи-квадрат, вероятностный
F-критерий, критерий Джини, критерий энтропии, уменьшение дисперсии.
Автоматический вывод идентификаторов листьев дерева в качестве входных значений для последующего моделирования.
Отображение правил на английском языке.
Вычисление значимости переменных для предварительного отбора.
Уникальное представление консолидированной диаграммы дерева.
Интерактивная работа с деревом на настольном ПК:
•
Интерактивное расширение и обрезание деревьев.
•
Задание специальных точек разбиения, включая двоичные или многовариантные разбиения.
•
Свыше 13 динамически связанных таблиц и графиков, позволяющих произвести более качественную оценку дерева.
•
Возможность распечатать диаграмму дерева на одном или нескольких листах.
В основе - новая быстрая процедура ARBORETUM.
Нейронные сети
Узел нейронной сети:
•
Гибкие архитектуры сетей с развитыми функциями комбинирования и активации.
•
10 методов обучения сети.
264

•
Предварительная оптимизация.
•
Автоматическая стандартизация входных параметров.
•
Поддержка направленных связей.
Узел самоорганизующейся нейронной сети:
•
Автоматизированное создание многоуровневых персептронов для поиска оптимальной конфигурации.
•
Выбор функций типа и активации из четырех различных типов архитектур.
•
Оценочный код PMML.
Узел нейронной сети анализа данных (DM Neural node):
•
Создание модели с уменьшением размерности и выбором функций.
•
Быстрое обучение сети.
•
Линейное и нелинейное оценивание.
Двухуровневое моделирование
•
Последовательное и параллельное моделирование для классовых и интервальных целевых признаков.
•
Выбор модели в виде дерева решений, регрессии или нейронной сети на каждом уровне.
•
Управление применением прогноза для классов к прогнозу интервалов.
•
Точная оценка экономической выгодности клиентов.
Методы вывода путем сопоставления
•
Метод отбора ближайших k-соседей для категоризации или прогноза наблюдений.
•
Запатентованные методы создания дерева и поиска с уменьшенной размерностью.
Множества моделей
•
Объединение прогнозов моделей для создания потенциально более сильного решения.
•
Среди методов: усреднение, мажоритарная выборка, выбор максимального значения.
Сравнение моделей
•
Сравнение нескольких моделей в рамках единой инструментальной оболочки для всех источников данных.
•
Автоматический выбор лучшей модели на основе заданного пользователем критерия.
•
Расширенная статистика соответствия и диагностики.
•
Ступенчатые диаграммы.
•
Кривые ROC.
•
Диаграммы прибылей и убытков с возможностью выбора решения.
•
Матрица неточностей (классификации).
•
График распределения вероятностных оценок классовых целевых признаков.
•
Ранжирование и распределение оценок интервальных целевых признаков.
Количественная оценка
•
Интерактивная количественная оценка узла в рамках графического интерфейса.
•
Автоматическая генерация оценочного кода на языках SAS, C, Java и PMML.
265

•
Моделирование сбора, кластеризации, преобразования и вычисления недостающих значений для оценочных кодов на языках SAS, C и Java.
•
Развертывание моделей в нескольких средах.
Инструментальные средства
•
Узел удаления переменных.
•
Узел слияния данных.
•
Узел метаданных, позволяющий изменять столбцы метаданных, например роль, уровень измерений и порядок.
Специализированное хранилище данных
Важность использования технологий хранилищ данных как информационной основы для
Data Mining уже рассматривалась нами. Структура хранилища, оптимизированная под задачи аналитической обработки, позволяет свести к минимуму потери времени на поиск нужных данных и получение промежуточных результатов.
Подход SAS к созданию информационно-аналитических систем
Подход компании SAS к созданию информационно-аналитических систем стандартизован в рамках SAS Intelligent Warehousing solutions, рис. 23.2
Рис. 23.2. Структура SAS Intelligent Warehousing solutions
Этот подход предусматривает:
•
простые в использовании эффективные методы извлечения данных из ERP/OLTP-систем, баз данных и других источников без применения микропрограммирования на языке управления данными ERP/OLTP-системы (семейство программных продуктов SAS/ACCESS).
•
высокотехнологичные методы очистки исходных данных и их подготовки для загрузки в хранилище (SAS Data Quality-Cleanse).
•
средства проектирования и администрирования хранилищ данных (SAS/Warehouse
Administrator).
•
технологию физического хранения больших объемов данных (SAS Scalable Performance
Data Server).
•
методы интеллектуального анализа данных:
266

o
OLAP-анализа (SAS OLAP Server),
o эконометрического моделирования и расчета временных рядов (SAS/ETS),
o исследования операций и оптимизация (SAS/OR),
o имитационного моделирования (SAS/IML),
o статистического анализа (SAS/STAT),
o нейросетевого и других методов углубленного анализа данных (SAS Enterprise
Miner).
•
дружественные к пользователю эффективные средства отчетности (SAS/Enterprise Guide,
SAS/EIS, SAS/InterNet, AppDevStudio),
•
быстрое получение результата за счет специальной методологии проектирования (SAS/
Rapid Result) и, как следствие,
•
быстрый возврат инвестиций системы коллективного доступа к информационному хранилищу (хранилищу данных) посредством Web-технологий (Web-порталов). Для разработки Web-порталов компания SAS предлагает решение SAS Information Delivery
Portal.
Технические требования пакета SASR Enterprise Miner
Поддерживаемые клиентские платформы Microsoft Windows (32-разрядная)
Windows NT 4 Workstation, Windows 2000 Professional, Windows XP Professional, AIX (64- разрядная) релиз 5.1, HPUX (64-разрядная) релиз 11 i (11.11), Solaris 8 или 9 (64- разрядная)
Поддерживаемые серверные платформы Microsoft Windows (32-разрядная, 64-разрядная)
Windows NT 4 Server 4.0, Windows 2000, Windows Server 2003, AIX (64-разрядная) релиз
5.1.
HPUX (64-разрядная), релиз 11 i (11.11), Linux для Intel (32-разрядная)
Red Hat Linux 8.0, Red Hat Advanced Server 2.1, SuSE Linux Enterprise Server 8 Solaris 8 или
9 (64-разрядная), Tru64 UNIX (64-разрядная) Version 5.1A или 5.1 B.
Минимальная тактовая частота процессора 1 ГГц.
Требования к оперативной памяти: 512 МБ для клиента, 512 MБ для сервера.
Требования к объему дисковой памяти: не менее 40 MБ для клиента 3 ГБ для сервера (в среднем для Win XP см. замечания по инсталляции SAS).
Требования к ПО
Основной пакет SAS, SAS/STAT, Webклиент Java 1.4.1, в противном случае не нужен (в состав SAS входит частная версия JRE 1.4.1), что делает пакет предпочтительным для организаций, ведущих крупномасштабные проекты в области интеллектуального анализа данных.
267

Инструменты Data Mining. Система PolyAnalyst
Назначение системы. Система PolyAnalyst предназначена для автоматического и полуавтоматического анализа числовых баз данных и извлечения из сырых данных практически полезных знаний. PolyAnalyst находит многофакторные зависимости между переменными в базе данных, автоматически строит и тестирует многомерные нелинейные модели, выражающие найденные зависимости, выводит классификационные правила по обучающим примерам, находит в данных многомерные кластеры, строит алгоритмы решений. Разработчик системы PolyAnalyst - российская компания Megaputer Intelligence или "Мегапьютер" [105].
Архитектура системы
По своей природе PolyAnalyst является клиент-серверным приложением. Пользователь работает с клиентской программой PolyAnalyst Workplace. Математические модули выделены в серверную часть - PolyAnalyst Knowledge Server. Такая архитектура предоставляет естественную возможность для масштабирования системы: от однопользовательского варианта до корпоративного решения с несколькими серверами.
PolyAnalyst написан на языке С++ с использованием спецификации Microsoft's COM
(ActiveX). Эта спецификация устанавливает стандарт коммуникации между программными компонентами. Архитектура системы PolyAnalyst представлена на рис.
24.1
Рис. 24.1. Архитектура системы PolyAnalyst
268

Математические модули (Exploration Engines) и многие другие компоненты PolyAnalyst выделены в отдельные динамические библиотеки и доступны из других приложений. Это дает возможность интегрировать математику PolyAnalyst в существующие ИС, например, в CRM- или ERP- системы.
PolyAnalyst Workplace - лаборатория аналитика
Workplace - это клиентская часть программы, ее пользовательский интерфейс. Workplace представляет собой полнофункциональную среду для анализа данных, которая показана на рис. 24.2
Рис. 24.2. Пользовательский интерфейс PolyAnalyst
Основные черты пользовательского интерфейса программы: развитые возможности манипулирования с данными, графика для представления данных и визуализации результатов, мастера создания объектов, сквозная логическая связь между объектами, язык символьных правил, интуитивное управление через drop-down и pop-up меню, подробная контекстная справка.
Единицей Data Mining исследования в PolyAnalyst является "проект". Проект объединяет в себе все объекты исследования, дерево проекта, графики, правила, отчеты и т.д. Проект сохраняется в файле внутреннего формата системы. Отчеты исследований представляются в формате HTML и доступны через Интернет.
Аналитический инструментарий PolyAnalyst
Версия PolyAnalyst 4.6 включает 18 математических модулей, основанных на различных алгоритмах Data и Text Mining. Большинство из этих алгоритмов являются Know-How компании Мегапьютер и не имеют аналогов в других системах.
•
моделирование,
•
прогнозирование,
•
кластеризация,
269

•
классификация,
•
текстовый анализ.
Ниже дается краткая характеристика математическим алгоритмам PolyAnalyst.
Модули для построения числовых моделей и прогноза числовых переменных
Модуль Find Laws (FL) - построитель моделей
Модуль FL - это сердце всей системы. Алгоритм предназначен для автоматического нахождения в данных нелинейных зависимостей (вид которых не задается пользователем) и представления результатов в виде математических формул, включающих в себя и блоки условий. Способность модуля FL автоматически строить большое многообразие математических конструкций делает его уникальным инструментом поиска знания в символьном виде. Алгоритм основан на технологии эволюционного, или как ее еще называют, генетического программирования, впервые реализованной в коммерческих программах компанией "Мегапьютер".
PolyNet Predictor (PN) - полиномиальная нейронная сеть
Работа этого алгоритма основана на построении иерархической структуры, подобной нейронной сети. При этом сложность этой сетевой структуры и другие ее параметры подбираются динамически на основе свойств анализируемых данных. Если создаваемая сетевая структура не является слишком сложной, то может быть построено эквивалентное ей выражение на языке символических правил системы. Если же сеть слишком большая, то правило не может быть показано, однако его можно вычислить, или - иными словами, применить к исходным или новым данным для построения прогноза. Данный алгоритм чрезвычайно эффективен в инженерных и научных задачах, когда требуется построить надежный прогноз для числовой переменной.
Stepwise Linear Regression (LR) - пошаговая многопараметрическая линейная
регрессия
Линейная регрессия, как широко распространенный метод статистического исследования, включена во многие статистические пакеты и электронные таблицы. Однако, реализация этого модуля в системе PolyAnalyst имеет свои особенности, а именно: автоматический выбор наиболее значимых независимых переменных и тщательная оценка статистической значимости результатов. Нужно заметить, что в данном случае значимость отличается от значимости единичной регрессионной модели, так как в течение одного запуска данного вычислительного процесса может быть проверено большое число регрессионных моделей.
Алгоритм работает очень быстро и применим для построения линейных моделей на смешанных типах данных.
Memory based Reasoning (MR) - метод "ближайших соседей"
В системе PolyAnalyst используется модификация известного алгоритма "метод ближайших соседей".
Идея метода была рассмотрена нами ранее. Особенность и отличие реализации алгоритма "ближайших соседей" в системе PolyAnalyst от известных аналогов этого метода
270

заключается в оптимизации меры близости и количества записей для усреднения на основе генетических алгоритмов. Алгоритм MR используется для предсказания значений числовых переменных и категориальных переменных, включая текстовые (string data type), а также для классификации на два или несколько классов.
Алгоритмы кластеризации
Find Dependencies (FD) - N-мерный анализ распределений
Данный алгоритм обнаруживает в исходной таблице группы записей, для которых характерно наличие функциональной связи между целевой переменной и независимыми переменными, оценивает степень (силу) этой зависимости в терминах стандартной ошибки, определяет набор наиболее влияющих факторов, отсеивает отскочившие точки.
Целевая переменная для FD должна быть числового типа, в то время как независимые переменные могут быть и числовыми, и категориями, и логическими.
Алгоритм работает очень быстро и способен обрабатывать большие объемы данных. Его можно использовать как препроцессор для алгоритмов FL, PN, LR, так как он уменьшает пространство поиска, а также как фильтр отскочивших точек или, в обратной постановке, как детектор исключений. FD создает правило табличного вида, однако, как и все правила
PolyAnalyst, оно может быть вычислено для любой записи таблицы.
Find Clusters (FC) - N-мерный кластеризатор
Этот метод применяется тогда, когда надо выделить в некотором множестве данных компактные типичные подгруппы (кластеры), состоящие из близких по своим характеристикам записей. Алгоритм FC сам определяет набор переменных, для которых разбиение наиболее значимо. Результатом работы алгоритма является описание областей
(диапазонов значений переменных), характеризующих каждый обнаруженный кластер, и разбиение исследуемой таблицы на подмножества, соответствующие кластерам. Если данные являются достаточно однородными по всем своим переменным и не содержат "сгущений" точек в каких-то областях, этот метод не даст результатов. Надо отметить, что минимальное число обнаруживаемых кластеров равно двум - сгущение точек только в одном месте в данном алгоритме не рассматривается как кластер. Кроме того, этот метод в большей степени, чем остальные, предъявляет требования к наличию достаточного количества записей в исследуемой таблице, а именно: минимальное количество записей в таблице, в которой может быть обнаружено N кластеров, равно (2N-1)4.
Алгоритмы классификации
В пакете PolyAnalyst имеется богатый инструментарий для решения задач классификации, т.е. для нахождения правил отнесения записей к одному из двух или к одному из нескольких классов.
Classify (CL) - классификатор на основе нечеткой логики
Алгоритм CL предназначен для классификации записей на два класса. В основе его работы лежит построение так называемой функции принадлежности и нахождения порога разделения на классы. Функция принадлежности принимает значения от окрестности 0 до окрестности 1. Если возвращаемое значение функции для данной записи больше порога,
271

то эта запись принадлежит к классу "1", если меньше, то классу "0" соответственно.
Целевая переменная для этого модуля должна быть логического типа.
Discriminate (DS) - дискриминация
Данный алгоритм является модификацией алгоритма CL. Он предназначен для того, чтобы выяснить, чем данные из выбранной таблицы отличаются от остальных данных, включенных в проект, иными словами, для выделения специфических черт, характеризующих некоторое подмножество записей проекта. В отличие от алгоритма CL, он не требует задания целевой переменной, достаточно указать лишь таблицу, для которой требуется найти отличия.

1 ... 24 25 26 27 28 29 30 31 ... 34