Главная страница
Навигация по странице:

  • Data Mining является непрерывным процессом со многими циклами и обратными связями

  • Другие стандарты Data Mining

  • Стандарты, относящиеся к унификации интерфейсов

  • CWM Data Mining , JDM

  • The OLE DB for Data Mining standard of Microsoft

  • Рынок инструментов Data Mining

  • Характеристика № 2. Удобство

  • Предварительные знания


    Скачать 3.17 Mb.
    НазваниеПредварительные знания
    АнкорDataMining.pdf
    Дата02.03.2017
    Размер3.17 Mb.
    Формат файлаpdf
    Имя файлаDataMining.pdf
    ТипДокументы
    #3306
    страница25 из 34
    1   ...   21   22   23   24   25   26   27   28   ...   34
    CRISP-DM методология
    Мы рассмотрели процесс Data Mining с двух сторон: как последовательность этапов и как последовательность работ, выполняемых исполнителями ролей Data Mining.
    Существует еще одна сторона - это стандарты, описывающие методологию Data Mining.
    Последние рассматривают организацию процесса Data Mining и разработку Data Mining- систем.
    CRISP-DM [100] (The Cross Industrie Standard Process for Data Mining - Стандартный межотраслевой процесс Data Mining) является наиболее популярной и распространенной методологией. Членами консорциума CRISP-DM являются NCR, SPSS и DаimlerChrysler.
    В соответствии со стандартом CRISP, Data Mining является непрерывным процессом
    со многими циклами и обратными связями.
    Data Mining по стандарту CRISP-DM включает следующие фазы:
    1. Осмысление бизнеса (Business understanding).
    2. Осмысление данных (Data understanding).
    3. Подготовка данных (Data preparation).
    4. Моделирование (Modeling).
    5. Оценка результатов (Evaluation).
    6. Внедрение (Deployment).
    К этому набору фаз иногда добавляют седьмой шаг - Контроль, он заканчивает круг. Фазы
    Data Mining по стандарту CRISP-DM изображены на рис. 21.2 238

    Рис. 21.2. Фазы, рекомендуемые моделью CRISP-DM
    При помощи методологии CRISP-DM Data Mining превращается в бизнес-процесс, в ходе которого технология Data Mining фокусируется на решении конкретных проблем бизнеса.
    Методология CRISP-DM, которая разработана экспертами в индустрии Data Mining, представляет собой пошаговое руководство, где определены задачи и цели для каждого этапа процесса Data Mining.
    Методология CRISP-DM описывается в терминах иерархического моделирования процесса [101], который состоит из набора задач, описанных четырьмя уровнями обобщения (от общих к специфическим): фазы, общие задачи, специализированные задачи и запросы.
    На верхнем уровне процесс Data Mining организовывается в определенное количество
    фаз, на втором уровне каждая фаза разделяется на несколько общих задач. Задачи второго уровня называются общими, потому что они являются обозначением
    (планированием) достаточно широких задач, которые охватывают все возможные Data
    Mining-ситуации. Третий уровень является уровнем специализации задачи, т.е. тем местом, где действия общих задач переносятся на конкретные специфические ситуации.
    Четвертый уровень является отчетом по действиям, решениям и результатам фактического использования Data Mining.
    CRISP-DM - это не единственный стандарт, описывающий методологию Data Mining.
    Помимо него, можно применять такие известные методологии, являющиеся мировыми стандартами, как Two Crows, SEMMA, а также методологии организации или свои собственные.
    239

    SEMMA методология
    SEMMA методология реализована в среде SAS Data Mining Solution (SAS) [102]. Ее аббревиатура образована от слов Sample ("Отбор данных", т.е. создание выборки), Explore
    ("Исследование отношений в данных"), Modify ("Модификация данных"), Model
    ("Моделирование взаимозависимостей"), Assess ("Оценка полученных моделей и результатов"). Методология разработки проекта Data Mining в соответствии с методологией SEMMA изображена на рис. 21.3
    Рис. 21.3. Методология разработки проекта Data Mining в соответствии с методологией SEMMA
    Подход SEMMA подразумевает, что все процессы выполняются в рамках гибкой оболочки, поддерживающей выполнение всех необходимых работ по обработке и анализу данных. Подход SEMMA сочетает структурированность процесса и логическую организацию инструментальных средств, поддерживающих выполнение каждого из шагов. Благодаря диаграммам процессов обработки данных, подход SEMMA упрощает применение методов статистического исследования и визуализации, позволяет выбирать и преобразовывать наиболее значимые переменные, создавать модели с этими переменными, чтобы предсказать результаты, подтвердить точность модели и подготовить модель к развертыванию.
    Эта методология не навязывает каких-либо жестких правил. В результате использования методологии SEMMA разработчик может располагать научными методами построения концепции проекта, его реализации, а также оценки результатов проектирования.
    По результатам последних опросов KDnuggets (2004 г.), 42% опрошенных лиц использует методологию CRISP-DM, 10% - методологию SEMMA, 6% - собственную методологию организации, 28% - свою собственную методологию, другими методологиями пользуется
    6% опрошенных. Не пользуются никакой методологией 7% опрошенных.
    240

    Другие стандарты Data Mining
    Как уже отмечалось, описанные стандарты являются методологиями Data Mining, т.е. рассматривают организацию процесса и разработку систем Data Mining. Помимо этой группы, в последние годы появился ряд стандартов, цель которых - согласовать достижения в Data Mining, упростить управление моделированием процессов и дальнейшее использование созданных моделей. Эти стандарты условно можно поделить на две категории:
    1. Стандарты, относящиеся к выработке единого соглашения по хранению и передаче моделей Data Mining.
    2. Стандарты, относящиеся к унификации интерфейсов.
    Стандарт PMML
    В предыдущих лекциях мы уже упоминали о стандарте PMML (Predictive Modeling mark- up Language) - языке описания предикторных (или прогнозных) моделей или языке разметки для прогнозного моделирования.
    PMML относится к группе стандартов по хранению и передаче моделей Data Mining.
    Разработка и внедрение этого стандарта ведется IT-консорциумом DMG (Data Mining
    Group). DMG [103] - группа, в которую входят все лидирующие компании, разрабатывающие программное обеспечение в области анализа данных.
    Основа этого стандарта - язык XML. Примером другого стандарта, также основанного на языке XML, является стандарт обмена статистическими данными и метаданными.
    Стандарт PMML используется для описания моделей Data Mining и статистических моделей.
    Основная цель стандарта PMML - обеспечение возможности обмена моделями данных между программным обеспечением разных разработчиков.
    При помощи стандарта PMML-совместимые приложения могут легко обмениваться моделями данных с другими PMML-инструментами. Таким образом, модель, созданная в одном программном продукте, может использоваться для прогнозного моделирования в другом.
    По словам сторонников PMML, этот стандарт "делает Data Mining более демократичным", позволяет все большому количеству пользователей пользоваться продуктами Data Mining.
    Это достигается за счет возможности использования ранее созданных моделей данных.
    PMML позволяет использовать модели данных сколь угодно часто и существенно помогает в практической работе с ними.
    Стандарт PMML включает:

    описание анализируемых данных (структура и типы данных);

    описание схемы анализа (используемые поля данных);

    описание трансформаций данных (например, преобразования типов данных);

    описание статистик, прогнозируемых полей и самих прогнозных моделей.
    241

    Стандарт PMML обеспечивает поддержку наиболее распространенных прогнозных моделей, созданных при помощи алгоритмов и методов анализа данных, в частности - нейронных сетей, деревьев решений, алгоритмов ассоциативных правил, кластерного анализа, логических правил и др.
    Стандарты, относящиеся к унификации интерфейсов
    С помощью стандартов этой группы любое приложение может получить доступ к функциональности Data Mining. Здесь можно выделить стандарты, направленные на стандартизацию интерфейсов для объектных языков программирования, и стандарты, направленные на разработку надстройки над языком SQL.
    К стандартам, направленным на стандартизацию интерфейсов для объектных языков программирования, можно отнести: CWM Data Mining, JDM.
    В 2000 году организации MDC (MetaData Coalition, www.mdcinfo.com) и OMG (Object
    Management Group, www.omg.org), разрабатывающие два конкурирующих стандарта - в области интеллектуальных технологий для бизнеса - OIM (Open Information Model) и
    CWM (Common Warehouse Metamodel) - общую метамодель хранилищ данных решили объединить свои достижения и усилия под управлением OMG. Стандарт CWM включает описание базовых элементов объектной модели, реляционных отношений, языка XML, структуры семантики предметной области, архитектуры OLAP, добычи данных, технологии перегрузки данных и некоторых расширений.
    JDM (The Java Data Mining standard - Java Specification Request 73, JSR-73). Стандарт, разработанный группой JSR 73, Java Data Mining API (JDM) - это первая попытка создать стандартный Java API (программный интерфейс приложения) для получения доступа к инструментам Data Mining из Java-приложений.
    Вторая группа стандартов направлена на разработку надстройки над языком SQL, которая позволяла бы обращаться к инструментарию Data Mining, встроенному непосредственно в реляционную базу данных. К этой группе можно отнести следующие стандарты:
    SQL/MM, OLE DB for Data Mining.
    Стандарт SQL/MM представляет собой набор определенных пользователем SQL процедур для возможностей вычислений и использований моделей Data Mining.
    The OLE DB for Data Mining standard of Microsoft. Этот стандарт позволяет, подобно
    SQL/MM, применять методы Data Mining в структуре реляционных баз данных. Этот стандарт является расширением OLE DB.
    Стандарты, имеющие прямое или опосредованное отношение к Data Mining, можно объединить в группы:

    стандарты, базирующиеся на услугах Data Mining (услуги создания модели управления, скоринговые услуги, услуги анализа данных, услуги исследования данных, статистические услуги моделирования);

    стандарты web-службы (SOAP/XML, WSRF, и т.д), Grid-Услуги (OGSA, OGSA/DAI, и т.д.),
    Семантические Стандарты Web (RDF, OWL, и т.д.);
    242


    стандарты, которые должны появиться в ближайшее время: стандарты для технологического процесса, стандарты для преобразований данных, стандарты для оперативного (real time) Data Mining, стандарты для сетей данных (data webs).
    Как мы видим, стандарты Data Mining развиваются, появляются также новые, имеющие как прямое, так и опосредованное отношение к этой технологии. Это свидетельствует о достаточной "зрелости" Data Mining и вступлении ее в новый этап развития.
    243

    Рынок инструментов Data Mining
    На рынке программного обеспечения Data Mining существует огромное разнообразие продуктов, относящихся к этой категории. И не растеряться в нем достаточно сложно. Для выбора продукта следует тщательно изучить задачи, поставленные перед Вами, и обозначить те результаты, которые необходимо получить.
    Приведем цитату из Руководства по приобретению продуктов Data Mining (Enterprise Data
    Mining Buying Guide) компании Aberdeen Group: "Data Mining - технология добычи полезной информации из баз данных. Однако в связи с существенными различиями между инструментами, опытом и финансовым состоянием поставщиков продуктов, предприятиям необходимо тщательно оценивать предполагаемых разработчиков Data
    Mining и партнеров".
    Существуют различные варианты решений по внедрению инструментов Data Mining, например:

    покупка готового программного обеспечения Data Mining;

    покупка программного обеспечения Data Mining, адаптированного под конкретный бизнес;

    разработка Data Mining-продукта на заказ сторонней компанией;

    разработка Data Mining-продукта своими силами;

    различные комбинации вариантов, описанных выше, в том числе использование различных библиотек, компонентов и инструментальные наборы для разработчиков создания встроенных приложений Data Mining.
    В этой лекции мы рассмотрим, что предлагает рынок готового программного обеспечения, в частности, оценим рынок в разрезе задач Data Mining.
    Поставщики Data Mining
    В начале 90-х годов прошлого столетия рынок Data Mining насчитывал около десяти поставщиков. В средине 90-х число поставщиков, представленных компаниями малого, среднего и большого размера, насчитывало более 50 фирм.
    Сейчас к аналитическим технологиям, в том числе к Data Mining, проявляется огромный интерес. На этом рынке работает множество фирм, ориентированных на создание инструментов Data Mining, а также комплексного внедрения Data Mining, OLAP и хранилищ данных. Инструменты Data Mining во многих случаях рассматриваются как составная часть BI-платформ, в состав которых также входят средства построения хранилищ и витрин данных, средства обработки неожиданных запросов (ad-hoc query), средства отчетности (reporting), а также инструменты OLAP.
    Разработкой в секторе Data Mining всемирного рынка программного обеспечения заняты как всемирно известные лидеры, так и новые развивающиеся компании. Инструменты
    Data Mining могут быть представлены либо как самостоятельное приложение, либо как дополнения к основному продукту.
    244

    Последний вариант реализуется многими лидерами рынка программного обеспечения.
    Так, уже стало традицией, что разработчики универсальных статистических пакетов, в дополнение к традиционным методам статистического анализа, включают в пакет определенный набор методов Data Mining. Это такие пакеты как SPSS (SPSS, Clementine),
    Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Некоторые разработчики OLAP- решений также предлагают набор методов Data Mining, например, семейство продуктов
    Cognos. Есть поставщики, включающие Data Mining решения в функциональность СУБД: это Microsoft (Microsoft SQL Server), Oracle, IBM (IBM Intelligent Miner for Data).
    Рынок поставщиков Data Mining активно развивается. Постоянно появляются новые фирмы-разработчики и новые инструменты.
    Интересными являются данные опроса "Инструменты Data Mining, которые Вы регулярно используете", проведенного в мае 2005 года на Kdnuggets. Его результаты представлены на рис. 22.1 245

    Рис. 22.1. Инструменты Data Mining, используемые голосовавшими в 2005 году
    Сравнивая данные этого опроса с подобными опросами 2002 и 2003 годов, можно сказать, что популярность некоторых продуктов возрастает, а некоторых - падает. Это касается как коммерческих, так и свободно распространяемых инструментов. Например, что касается бесплатного инструментария: в 2003 году, по сравнению с 2002 годом, часть голосов от инструмента Weka ушли к инструментам Prudsys Xelopes и R, в 2005 же году количество голосов за инструмент Weka увеличилось, а за Xelopes проголосовало существенно
    246
    меньше пользователей. Подобный пример можно привести и из коммерческого программного обеспечения: популярность Microsoft Сервер SQL для Data Mining в 2003 году, по сравнению с 2002 годом, возросла, а в 2005 году - снизилась.
    Таким же образом изменялись позиции большинства инструментов, но результаты всех трех опросов представлены практически одним и тем же списком поставщиков.
    Как видно из опроса, число респондентов вдвое меньше числа голосов, и каждый голосовавший мог выбрать несколько инструментов. Числа, представленные в опросе, означают фактическое число голосов. Процент по каждому инструменту не определяется, поскольку он будет отличаться в зависимости от того, вычислен ли он относительно числа респондентов или от числа голосов.
    В комментариях к этому опросу по поводу участия в нем продавцов, редактор сайта отмечает, что при голосовании были использованы механизмы против двойного голосования, но его нельзя считать научным, поскольку за некоторые продукты представители компаний разработчиков голосовали намного более активно, чем за другие
    (некоторые очевидные двойные голоса продавцов были удалены). Однако эти опросы, по оценкам редактора, действительно дают ощущение разнообразия существующих инструментов Data Mining.
    Относительно цен на инструменты, редактор отмечает, что они имеют тенденцию изменяться, а также отличаются по стоимости для бизнес-пользователей и научных работников, так как последние иногда могут получить бесплатную лицензию для исследований.
    Представленные выше продукты, согласно предполагаемой цене для бизнес- пользователей на май 2005 года, сгруппированы следующим образом:

    Уровень предприятия: (US $10000 и больше)
    Fair Isaac, IBM, Insightful, KXEN, Oracle, SAS, SPSS.

    Уровень отдела: (от $1000 до $9999)
    Angoss, CART/MARS/TreeNet/Random Forests, Equbits, GhostMiner, Gornik, Mineset,
    MATLAB, Megaputer, Microsoft SQL Server, Statsoft Statistica, ThinkAnalytics.

    Личный уровень: (от $1 до $999): Excel, See5.

    Свободно распространяемое программное обеспечение: C4.5, R, Weka, Xelopes.
    Инструменты Data Mining можно оценивать по различным критериям. Оценка программных средств Data Mining с точки зрения конечного пользователя определяется путем оценки набора его характеристик. Их можно поделить на две группы: бизнес- характеристики и технические характеристики. Это деление является достаточно условным, и некоторые характеристики могут попадать одновременно в обе категории.
    Характеристика № 1. Интуитивный интерфейс.
    247

    Интерфейс - среда передачи информации между программной средой и пользователем, диалоговая система, которая позволяет передать человеку все необходимые данные, полученные на этапе формализации и вычисления.
    Интерфейс подразумевает расположение различных элементов, в т.ч. блоков меню, информационных полей, графических блоков, блоков форм, на экранных формах.
    Для удобства работы пользователя необходимо, чтобы интерфейс был интуитивным.
    Интуитивный интерфейс позволяет пользователю легко и быстро воспринимать элементы интерфейса, благодаря чему диалог "программная среда-пользователь" становится проще и доступней.
    Понятие интуитивного интерфейса включает также понятие знакомой окружающей среды и наличие внятной нетехнической терминологии (например, для сообщения пользователю о совершенной ошибке).
    Характеристика № 2. Удобство экспорта/импорта данных.
    При работе с инструментом Data Mining-пользователь часто применяет разнообразные наборы данных, работает с различными источниками данных. Это могут быть текстовые файлы, файлы электронных таблиц, файлы баз данных. Инструмент Data Mining должен иметь удобный способ загрузки (импорта) данных. По окончании работы пользователь также должен иметь удобный способ выгрузки (экспорта) данных в удобную для него среду. Программа должна поддерживать наиболее распространенные форматы данных: txt, dbf, xls, csv и другие.
    Дополнительное удобство для пользователя создается при возможности загрузки и выгрузки определенной части (по выбору пользователя) импортируемых или экспортируемых полей.
    1   ...   21   22   23   24   25   26   27   28   ...   34


    написать администратору сайта