Главная страница
Навигация по странице:

  • Характеристика № 4. Легкость обучения работы с инструментарием Характеристика № 5. Прозрачные и понятные шаги Data Mining-процесса Характеристика № 6. Руководство пользователя.

  • Характеристика № 7. Удобство и простота использования.

  • Характеристика № 8.

  • Характеристика № 9. Наличие демонстрационной версии

  • Характеристика № 11.

  • Характеристика № 12. Количество реализуемых методов и алгоритмов.

  • Характеристика № 13. Скорость вычислений и скорость представления результатов. Характеристика № 14. Наличие квалифицированного ассистента

  • Характеристика № 15. Возможности поиска, сортировки, фильтрации.

  • Характеристика № 16. Защита, пароль.

  • Характеристика № 17. Платформы

  • Классификация инструментов Data Mining

  • Программное обеспечение Data Mining для поиска ассоциативных правил

  • Программное обеспечение для решения задач кластеризации и сегментации

  • Программное обеспечение для решения задач классификации

  • Программное обеспечение Data Mining для решения задач оценивания и прогнозирования

  • Инструменты Data Mining. SAS Enterprise Miner

  • Предварительные знания


    Скачать 3.17 Mb.
    НазваниеПредварительные знания
    АнкорDataMining.pdf
    Дата02.03.2017
    Размер3.17 Mb.
    Формат файлаpdf
    Имя файлаDataMining.pdf
    ТипДокументы
    #3306
    страница26 из 34
    1   ...   22   23   24   25   26   27   28   29   ...   34

    Характеристика № 3. Наглядность и разнообразие получаемой отчетности
    Эта характеристика подразумевает получение отчетности в терминах предметной области, а также в качественно спроектированных выходных формах в том количестве, которое может предоставить пользователю всю необходимую результативную информацию.
    Характеристика № 4. Легкость обучения работы с инструментарием
    Характеристика № 5. Прозрачные и понятные шаги Data Mining-процесса
    Характеристика № 6. Руководство пользователя.Существенно упрощает работу пользователя наличие руководства пользователя, с пошаговым описанием шагов генерации моделей Data Mining.
    Характеристика № 7. Удобство и простота использования. Существенно облегчает работу начинающего пользователя возможность использовать Мастер или Визард
    (Wizard).
    248

    Характеристика № 8. Для пользователей, не владеющих английским языком, важной характеристикой является наличие русифицированной версии инструмента, а также документации на русском языке.
    Характеристика № 9. Наличие демонстрационной версии с решением конкретного примера.
    Характеристика № 10. Возможности визуализации. Наличие графического представления информации существенно облегчает интерпретируемость полученных результатов.
    Характеристика № 11. Наличие значений параметров, заданных по умолчанию. Для начинающих пользователей - это достаточно существенная характеристика, так как при выполнении многих алгоритмов от пользователя требуется задание или выбор большого числа параметров. Особенно много их в инструментах, реализующих метод нейронных сетей. В нейросимуляторах чаще всего заранее заданы значения основных параметров, иной раз неопытным пользователям даже не рекомендуется изменять эти значения. Если же такие значения отсутствуют, пользователю приходится перепробовать множество вариантов, прежде чем получить приемлемый результат.
    Характеристика № 12. Количество реализуемых методов и алгоритмов. Во многих инструментах Data Mining реализовано сразу несколько методов, позволяющих решать одну или несколько задач. Если для решения одной задачи (классификации) предусмотрена возможность использования нескольких методов (деревьев решений и нейронных сетей), пользователь получает возможность сравнивать характеристики моделей, построенных при помощи этих методов.
    Характеристика № 13. Скорость вычислений и скорость представления результатов.
    Характеристика № 14. Наличие квалифицированного ассистента (консультации по выбору методов и алгоритмов), консультационная поддержка.
    Характеристика № 15. Возможности поиска, сортировки, фильтрации.
    Такая возможность полезна как для входных данных, так и для выходной информации.
    Применяется сортировка по различным критериям (полям), с возможностью накладывания условий.
    При условии фильтрации входных данных появляется возможность построения модели
    Data Mining на одной из выборок набора данных. Необходимость и польза от проведения такого анализа была описана в одной из лекций, посвященных процессу Data Mining.
    Фильтрация выходной информации полезна с точки зрения интерпретации результатов.
    Так, например, иногда при построении деревьев решений результаты получаются слишком громоздкими, и здесь могут оказаться полезными функция как фильтрации, так и поиска и сортировки. Дополнительное удобство для пользователя - цветовая подсветка некоторых категорий записей.
    Характеристика № 16. Защита, пароль. Очень часто при помощи Data Mining анализируется конфиденциальная информация, поэтому наличие пароля доступа в систему является желательной характеристикой для инструмента.
    249

    Характеристика № 17. Платформы, на которых поддерживается работа инструмента, в частности: PC Standalone (95/98/2000/NT), Unix Server, Unix Standalone, PC Client, NT
    Server.
    Описанные характеристики являются критериями функциональности, удобства, безопасности инструмента Data Mining. При выборе инструмента следует руководствоваться потребностями, а также задачами, которые необходимо решить.
    Так, например, если точно известно, что фирме необходимо решать исключительно задачи классификации, то возможность решения инструментом других задач совсем не является критичной. Однако, следует учитывать, что внедрение Data Mining при серьезном подходе требует серьезных финансовых вложений, поэтому необходимо учитывать все возможные задачи, которые могут возникнуть в перспективе.
    Классификация инструментов Data Mining
    Рынок инструментов Data Mining определяется широтой этой технологии и вследствие этого - огромным многообразием программного обеспечения. Приведем классификацию инструментов Data Mining согласно KDnuggets: инструменты общего и специфического назначения; бесплатные и коммерческие инструменты.
    Наиболее популярная группа инструментов содержит следующие категории:

    наборы инструментов;

    классификация данных;

    кластеризация и сегментация;

    инструменты статистического анализа;

    анализ текстов (Text Mining), извлечение отклонений (Information Retrieval (IR));

    инструменты визуализации.
    Наборы инструментов. К этой категории относятся универсальные инструменты, которые включают методы классификации, кластеризации и предварительной подготовки данных.
    К этой группе относятся такие известные коммерческие инструменты как:

    Clementine (
    http://www.spss.com/clementine
    ). Data Mining с использованием Clementine является бизнес-процессом, разработанным для минимизации времени решения задач.
    Clementine поддерживает процесс Data Mining: доступ к данным, преобразования, моделирование, оценивание и внедрение. При помощи Clementine Data Mining выполняется с методологией CRISP-DM.

    DBMiner 2.0 Enterprise (
    http://www.dbminer.com
    ), мощный инструмент для исследования больших баз данных; использует Microsoft Сервер SQL 7.0 Plato.

    IBM Intelligent Miner for Data (
    http://www.ibm.com/software/data/iminer/fordata/
    ).
    Инструмент предлагает последние Data Mining-методы, поддерживает полный Data Mining процесс: от подготовки данных до презентации результатов. Поддержка языков XML и
    PMML.

    KXEN (Knowledge eXtraction ENgines). Инструмент, работающий на основе теории Вапника
    (Vapnik) SVM. Решает задачи подготовки данных, сегментации, временных рядов и SVM- классификации.

    Oracle Data Mining (ODM) (
    http://otn.oracle.com/products/bi/9idmining.html
    ). Инструмент обеспечивает GUI, PL/SQL-интерфейсы, Java-интерфейс. Используемые методы:
    250
    байесовская классификация, алгоритмы поиска ассоциативных правил, кластерные методы, SVM и другие.

    Polyanalyst (
    http://www.megaputer.com/
    ). Набор, обеспечивающий всесторонний Data
    Mining. Сейчас, помимо методов прежних версий, также включает анализ текстов, лес решений, анализ связей. Поддерживает OLE DB for Data Mining и DCOM-технологию.

    SAS Enterprise Miner (
    http://www.sas.com/
    ). Интегрированный набор, который обеспечивает дружественный GUI. Поддерживается методология SEMMA.

    SPSS (
    http://www.spss.com/clementine/
    ). Один из наиболее популярных инструментов, поддерживается множество методов Data Mining.

    Statistica Data Miner (
    http://www.StatSoft.com/
    ). Инструмент обеспечивает всесторонний, интегрированный статистический анализ данных, имеет мощные графические возможности, управление базами данных, а также приложение разработки систем.
    Примером российской разработки инструментального набора, кроме Polyanalyst, является пакет Deductor, при помощи которого в предыдущих лекциях были решены некоторые задачи. Deductor будет подробно рассмотрен в одной из последующих лекций.
    Наиболее известный представитель свободно распространяемого набора инструментов - пакет Weka (
    http://www.cs.waikato.ac.nz/ml/weka/index.html
    ). Weka представляет собой набор алгоритмов машинного обучения для решения реальных Data Mining-проблем.
    Weka написана на Java и запускается практически со всех платформ.
    Вторая группа задач представлена инструментами, реализующими следующие решения:

    инструментарий для поиска ассоциативных правил;

    агенты;

    оценивание, регрессии и прогнозирование;

    анализ связей;

    последовательные шаблоны и временные ряды;

    инструменты BI (Business Intelligence), Database and OLAP software;

    инструменты преобразования и очистки данных;

    библиотеки, компоненты и инструментальные наборы для разработчиков создания встроенных приложений Data Mining;

    Web Mining: анализ поведения сайтов, XML mining;

    поиск на Web;

    Audio and Video Mining.
    Некоторые из этих групп инструментов будут более детально рассмотрены далее.
    Среди поставщиков Data Mining можно выделить ряд компаний, основная цель которых - консультирование по применению Data Mining. Одна из наиболее известных среди них - компания Two Crows.
    Программное обеспечение Data Mining для поиска ассоциативных правил
    Коммерческие инструменты:

    Azmy SuperQuery (
    http://www.azmy.com/
    ), поисковик ассоциативных правил;

    Clementine, набор от SPSS, включающий анализ рыночной корзины;

    IBM Intelligent Miner for Data (
    http://www.software.ibm.com/data/intelli-mine/
    );

    IREX (
    http://www.giwebb.com
    ), сегментирование данных с целью оптимизации числовых результатов, например, прибыли;
    251


    The LPA Data Mining Toolkit (
    http://www.lpa.co.uk/dtm.htm
    ) поддерживает поиск ассоциативных правил в реляционных базах данных.

    Magnum Opus (
    http://www.rulequest.com/MagnumOpus-info.html
    ) является быстрым инструментом поиска ассоциативных правил в данных, поддерживается операционными системами Windows, Linux и Solaris;

    Nuggets (
    http://www.data-mine.com/
    ) - это набор, включающий поиск ассоциативных правил и другие алгоритмы;

    Megaputer Polyanalyst Suite (
    http://www.megaputer.com/
    ), включает машину поиска ассоциативных правил;

    Purple Insight MineSet является набором визуального Data Mining, включающим визуализатор ассоциативных правил;

    Wizsoft модуль WizRule: нахождение ассоциативных правил и потенциальных ошибок данных; модуль WizWhy: использует ассоциативные правила для Data Mining;

    Xpertrule Miner 4.0 (
    http://www.attar.com/
    );

    XAffinity(TM), используется для идентификации сходств или шаблонов в транзакциях.
    Свободно распространяемые инструменты:

    Apriori, инструмент для нахождения ассоциативных правил при помощи алгоритма Аpriori;

    Apriori, FP-growth, Eclat and DIC implementations (
    http://www.adrem.ua.ac.be/
    ) by Bart
    Goethals;

    ARtool (
    http://www.cs.umb.edu/
    ), инструмент содержит набор алгоритмов для поиска ассоциативных правил в бинарных базах данных (binary databases);

    DM-II system (
    http://www.comp.nus.edu.sg/
    ), инструмент включает алгоритм CBA для выполнения классификации на основе ассоциативных правил и некоторых других характеристик;

    FIMI, Frequent Itemset Mining Implementations (
    http://fimi.cs.helsinki.fi/
    ) - является репозиторием, включающим программное обеспечение и базы данных.
    Программное обеспечение для решения задач кластеризации и сегментации
    Коммерческие инструменты:

    ClustanGraphics3, (
    http://www.clustan.com/
    ) иерархический кластерный анализ "сверху вниз", поддерживаются мощные графические возможности, www.clustan.com
    ;

    CViz Cluster Visualization, (
    http://www.alphaworks.ibm.com/tech/cviz
    )-продукт для анализа наборов данных с большой размерностью, обеспечивает визуализацию наполнения кластеров объектами;

    IBM Intelligent Miner for Data, (
    http://www-4.ibm.com/software/data/iminer/
    ), включает два кластерных алгоритма;

    Neusciences aXi.Kohonen, (
    http://www.neusciences.com/
    ), ActiveX Control для кластеризации алгоритмом Кохонена, включает Delphi-интерфейс;

    PolyAnalyst, (
    http://www.megaputer.com/
    ), предлагает кластеризацию, основанную на алгоритме локализации аномалий (Localization of Anomalies, LA);

    StarProbe, (
    http://www.roselladb.com/starprobe.htm
    ) основан на Web кросс-платформенной системе, включает методы кластеризации, нейронные сети, деревья решений, визуализацию и т.д.;

    Visipoint (
    http://www.visipoint.fi/
    ). Кластеризация методом Самоорганизующихся Карт
    Кохонена (Self-Organizing Map clustering) и визуализация.
    Свободно распространяемые инструменты:
    252


    Autoclass C (
    http://ic.arc.nasa.gov/projects/bayes-group/autoclass/autoclass-c-program.html
    , http://ic.arc.nasa.gov
    ), "обучение без учителя" при помощи Байесовских сетей от NASA, работает из-под операционных систем Unix и Windows;

    CLUTO (
    http://www.cs.umn.edu/

    karypis/cluto
    , http://www.cs.umn.edu/karypis/cluto
    ). В инструменте реализован набор алгоритмов кластеризации, основанных на разделении данных;

    Databionic ESOM Tools (
    http://databionic-esom.sourceforge.net/
    ). Инструмент представлен набором программ для кластеризации, визуализации и классификации, реализован алгоритм ESOM - выходящие самоорганизующиеся карты;

    MCLUST/EMCLUST (
    http://www.stat.washington.edu/fraley/mclust_home.htm l). В инструменте реализовано создание кластеров при помощи модельного подхода (model- based) и дискриминантного анализа, иерархическая кластеризация. Программная реализация инструмента - на Фортране с интерфейсом к S-PLUS;

    PermutMatrix (
    http://www.lirmm.fr/
    ). Программное обеспечение для кластерного анализа, с хорошими графическими возможностями, здесь реализовано несколько методов иерархического кластерного анализа;

    PROXIMUS (
    http://www.cs.purdue.edu/homes/koyuturk/proximus/
    ). Инструмент для сжатия размерности, кластеризации и обнаружения образцов в дискретных наборах данных;

    ReCkless (
    http://cde.iiit.net/RNNs/
    ) является набором кластерных алгоритмов, основанных на концепции k-ближайших соседей. Инструмент перед проведением кластеризации выполняет поиск и идентификацию шумов и выбросов для уменьшения их влияния на результаты кластеризации;

    Snob (
    http://www.csse.monash.edu.au/
    ), программа кластеризации на основе MML
    (Minimum Message Length - Минимальная Длина Сообщения);

    SOM in Excel (
    http://www.geocities.com/adotsaha/NN/SOMinExcel.html
    ), реализация метода самоорганизующихся карт Кохонена в Microsoft Excel от Angshuman Saha.
    Как видим из описания, многие программные продукты совмещают в себе реализацию нескольких методов, в частности, очень часто вместе с кластерными методами также реализованы и методы визуализации. Некоторые инструменты ориентированы на работу только с дискретными данными. Это следует учитывать при выборе программного обеспечения.
    Программное обеспечение для решения задач классификации
    Существует множество инструментов для решения задач классификации. Инструменты этой группы строят модели, которые делят исходный набор данных на 2 или более дискретных класса. Инструменты классификации, в соответствии с используемыми методами, делятся на следующие категории: правила, деревья решений, нейронные сети,
    Байовские сети, метод опорных векторов и другие. Этот список практически соответствует тому набору методов классификации, который был рассмотрен во втором разделе курса лекций.
    Программное обеспечение Data Mining для решения задач оценивания и
    прогнозирования
    Примером коммерческого программного обеспечения этой группы является инструмент
    Alyuda Forecaster XL (
    http://www.alyuda.com/forecasting-tool-for-excel.htm
    ).
    Инструмент реализован в виде Excel-надстройки и предназначен для решения задач прогнозирования и оценивания с использованием нейронных сетей.
    253

    Подобный инструмент от российских разработчиков - фирмы НейрОК - Excel-надстройка
    ExcelNeuralPackage (
    http://www.neurok.ru/demo/enp/demo_enp.htm
    ).
    В инструменте реализованы две базовые парадигмы нейронных сетей - многослойный персептрон и сети Кохонена. С указанной страницы можно загрузить free-версию и подробное руководство пользователя.
    Выводы
    Как мы видим, рынок программного обеспечения Data Mining представлен множеством инструментов, на нем идет постоянная конкурентная борьба за потребителя. Такая конкуренция порождает новые качественные решения. Все большее число поставщиков стремятся объединить в своих инструментах как можно большее число современных методов и технологий. Data Mining-инструменты чаще всего рассматриваются как составная часть рынка Business Intelligence, который, несмотря на некоторый общий спад в индустрии информационных технологий, уверенно и постоянно развивается.
    В то же время некоторые специалисты отмечают отставание существующего программного обеспечения от теоретических разработок в связи со сложностью программной реализации некоторых новых теоретических разработок методов и алгоритмов Data Mining.
    В целом, можно резюмировать, что рынок Business Intelligence, в том числе рынок инструментов Data Mining, настолько широк и разнообразен, что любая компания может выбрать для себя инструмент, который подойдет ей по функциональности и по возможностям бюджета.
    254

    Инструменты Data Mining. SAS Enterprise Miner
    Программный продукт SAS Enterprise Miner (разработчик SAS Institute Inc., [102]) - это интегрированный компонент системы SAS, созданный специально для выявления в огромных массивах данных информации, которая необходима для принятия решений.
    Разработанный для поиска и анализа глубоко скрытых закономерностей в данных SAS,
    Enterprise Miner включает в себя методы статистического анализа, соответствующую методологию выполнения проектов Data Mining (SEMMA) и графический интерфейс пользователя. Важной особенностью SAS Enterprise Miner является его полная интеграция с программным продуктом SAS Warehouse Administrator, предназначенным для разработки и эксплуатации информационных хранилищ, и другими компонентами системы SAS. Разработка проектов Data Mining может выполняться как локально, так и в архитектуре клиент-сервер.
    1   ...   22   23   24   25   26   27   28   29   ...   34


    написать администратору сайта