Главная страница
Навигация по странице:

  • Что такое Data Mining

  • Рис. 1.1.

  • Статистика

  • Понятие Машинного обучения

  • Понятие Искусственного интеллекта

  • Сравнение статистики, машинного обучения и Data Mining

  • Понятие Data Mining

  • Неочевидных

  • Предварительные знания


    Скачать 3.17 Mb.
    НазваниеПредварительные знания
    АнкорDataMining.pdf
    Дата02.03.2017
    Размер3.17 Mb.
    Формат файлаpdf
    Имя файлаDataMining.pdf
    ТипДокументы
    #3306
    страница1 из 34
      1   2   3   4   5   6   7   8   9   ...   34

    Чубукова Ирина Александровна Соискатель ученой степени кандидата экономических наук в Киевском национальном экономическом университете имени
    Вадима Гетьмана кафедра информационных систем в экономике , Ведущий инженер- программист в Национальном банке Украины.
    Data Mining
    Курс знакомит слушателей с технологией Data Mining, подробно рассматриваются методы, инструментальные средства и применение Data Mining. Описание каждого метода сопровождается конкретным примером его использования.
    Обсуждаются отличия Data Mining от классических статистических методов анализа и
    OLAP-систем, рассматриваются типы закономерностей, выявляемых Data Mining
    (ассоциация, классификация, последовательность, кластеризация, прогнозирование).
    Описывается сфера применения Data Mining. Вводится понятие Web Mining. Подробно рассматриваются методы Data Mining: нейронные сети, деревья решений, методы ограниченного перебора, генетические алгоритмы, эволюционное программирование, кластерные модели, комбинированные методы. Знакомство с каждым методом проиллюстрировано решением практической задачи с помощью инструментального средства, использующего технологию Data Mining.Излагаются основные концепции хранилищ данных и места Data Mining в их архитектуре. Вводятся понятия OLTP, OLAP,
    ROLAP, MOLAP.Обсуждается процесс анализа данных с помощью технологии Data
    Mining. Подробно рассматриваются этапы этого процесса. Анализируется рынок аналитического программного обеспечения, описываются продукты от ведущих производителей Data Mining, обсуждаются их возможности.
    Цель
    Познакомить слушателей с теоретическими аспектами технологии Data Mining, методами, возможностью их применения, дать практические навыки по использованию инструментальных средств Data Mining
    Предварительные знания
    Желательны, но не обязательны знания по информатике, основам теории баз данных, знания по математике (в пределах начальных курсов ВУЗа), технологии обработки информации.
    1

    Оглавление
    Что такое Data Mining?
    7
    Сравнение статистики, машинного обучения и Data Mining
    9
    Развитие технологии баз данных
    9
    Понятие Data Mining
    10
    Data Mining как часть рынка информационных технологий
    11
    Данные
    17
    Что такое данные?
    17
    Набор данных и их атрибутов
    17
    Измерения
    19
    Типы наборов данных
    22
    Форматы хранения данных
    23
    Базы данных. Основные положения
    24
    Классификация видов данных
    27
    Метаданные
    28
    Методы и стадии Data Mining
    29
    Задачи Data Mining. Информация и знания
    39
    Задачи Data Mining
    39
    От данных к решениям
    43
    От задачи к приложению
    44
    Информация
    45
    Знания
    48
    Сопоставление и сравнение понятий "информация", "данные", "знание"
    48
    Задачи Data Mining. Классификация и кластеризация
    50
    Задача классификации
    50
    Процесс классификации
    53
    Методы, применяемые для решения задач классификации
    54
    Точность классификации: оценка уровня ошибок
    56
    Оценивание классификационных методов
    56
    Задача кластеризации
    57
    Оценка качества кластеризации
    60
    Процесс кластеризации
    60
    Применение кластерного анализа
    60
    Выводы
    61
    Задачи Data Mining. Прогнозирование и визуализация
    63
    Задача прогнозирования
    63
    Сравнение задач прогнозирования и классификации
    64
    Прогнозирование и временные ряды
    64
    Задача визуализации
    71
    Сферы применения Data Mining
    74
    Применение Data Mining для решения бизнес-задач
    75
    Data Mining для научных исследований
    79
    Основы анализа данных
    84
    Анализ данных в Microsoft Excel
    84
    Описательная статистика
    84
    Корреляционный анализ
    88 2

    Регрессионный анализ
    90
    Выводы
    96
    Методы классификации и прогнозирования. Деревья решений
    97
    Преимущества деревьев решений
    100
    Процесс конструирования дерева решений
    101
    Алгоритмы
    104
    Выводы
    106
    Методы классификации и прогнозирования. Метод опорных векторов. Метод "ближайшего соседа". Байесовская классификация
    107
    Метод опорных векторов
    107
    Линейный SVM
    108
    Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев
    110
    Решение задачи классификации новых объектов
    112
    Решение задачи прогнозирования
    113
    Оценка параметра k методом кросс-проверки
    114
    Байесовская классификация
    115
    Байесовская фильтрация по словам
    116
    Методы классификации и прогнозирования. Нейронные сети
    118
    Элементы нейронных сетей
    119
    Архитектура нейронных сетей
    120
    Обучение нейронных сетей
    122
    Модели нейронных сетей
    124
    Программное обеспечение для работы с нейронными сетями
    126
    Пример решения задачи
    127
    Пакет Matlab
    132
    Нейронные сети. Самоорганизующиеся карты Кохонена.
    134
    Классификация нейронных сетей
    134
    Подготовка данных для обучения
    135
    Выбор структуры нейронной сети
    136
    Карты Кохонена
    136
    Пример решения задачи
    141
    Выводы
    146
    Методы кластерного анализа. Иерархические методы
    147
    Методы кластерного анализа
    151
    Меры сходства
    153
    Методы объединения или связи
    154
    Иерархический кластерный анализ в SPSS
    155
    Методы кластерного анализа. Итеративные методы.
    159
    Алгоритм k-средних (k-means)
    159
    Алгоритм PAM ( partitioning around Medoids)
    162
    Предварительное сокращение размерности
    162
    Факторный анализ
    162
    Итеративная кластеризация в SPSS
    163
    Сложности и проблемы, которые могут возникнуть при применении кластерного анализа
    .. 165
    Новые алгоритмы и некоторые модификации алгоритмов кластерного анализа
    167
    Методы поиска ассоциативных правил
    170
    Часто встречающиеся приложения с применением ассоциативных правил:
    170 3

    Введение в ассоциативные правила
    170
    Часто встречающиеся шаблоны или образцы
    171
    Поддержка
    172
    Характеристики ассоциативных правил
    173
    Границы поддержки и достоверности ассоциативного правила
    173
    Методы поиска ассоциативных правил
    174
    Разновидности алгоритма Apriori
    176
    Пример решения задачи поиска ассоциативных правил
    178
    Способы визуального представления данных. Методы визуализации
    184
    Визуализация инструментов Data Mining
    184
    Визуализация Data Mining моделей
    185
    Методы визуализации
    186
    Представление данных в одном, двух и трех измерениях
    186
    Представление данных в 4 + измерениях
    187
    Параллельные координаты
    187
    "Лица Чернова"
    188
    Качество визуализации
    190
    Представление пространственных характеристик
    191
    Основные тенденции в области визуализации
    191
    Выводы
    194
    Комплексный подход к внедрению Data Mining, OLAP и хранилищ данных в СППР
    195
    Классификация СППР
    197
    OLAP-системы
    198
    OLAP-продукты
    199
    Интеграция OLAP и Data Mining
    200
    Хранилища данных
    201
    Преимущества использования хранилищ данных
    202
    Процесс Data Mining. Начальные этапы
    205
    Этап 1. Анализ предметной области
    205
    Этап 2. Постановка задачи
    206
    Этап 3. Подготовка данных
    206
    Выводы
    214
    Процесс Data Mining. Очистка данных
    215
    Инструменты очистки данных
    215
    Выводы по подготовке данных
    221
    Процесс Data Mining. Построение и использование модели
    223
    Моделирование
    223
    Виды моделей
    224
    Математическая модель
    226
    Этап 4. Построение модели
    227
    Этап 5. Проверка и оценка моделей
    229
    Этап 6. Выбор модели
    230
    Этап 7. Применение модели
    230
    Этап 8. Коррекция и обновление модели
    231
    Погрешности в процессе Data Mining
    231
    Выводы
    233
    Организационные и человеческие факторы в Data Mining. Стандарты Data Mining
    234
    Организационные Факторы
    234 4

    Человеческие факторы. Роли в Data Mining
    235
    CRISP-DM методология
    238
    SEMMA методология
    240
    Другие стандарты Data Mining
    241
    Стандарт PMML
    241
    Стандарты, относящиеся к унификации интерфейсов
    242
    Рынок инструментов Data Mining
    244
    Поставщики Data Mining
    244
    Классификация инструментов Data Mining
    250
    Программное обеспечение Data Mining для поиска ассоциативных правил
    251
    Программное обеспечение для решения задач кластеризации и сегментации
    252
    Программное обеспечение для решения задач классификации
    253
    Программное обеспечение Data Mining для решения задач оценивания и прогнозирования
    253
    Выводы
    254
    Инструменты Data Mining. SAS Enterprise Miner
    255
    Специализированное хранилище данных
    266
    Подход SAS к созданию информационно-аналитических систем
    266
    Технические требования пакета SASR Enterprise Miner
    267
    Инструменты Data Mining. Система PolyAnalyst
    268
    Архитектура системы
    268
    PolyAnalyst Workplace - лаборатория аналитика
    269
    Аналитический инструментарий PolyAnalyst
    269
    Алгоритмы кластеризации
    271
    Алгоритмы классификации
    271
    Алгоритмы ассоциации
    272
    Модули текстового анализа
    273
    Визуализация
    274
    Эволюционное программирование
    275
    Общесистемные характеристики PolyAnalyst
    276
    WebAnalyst
    278
    Инструменты Data Mining. Программные продукты Cognos и система STATISTICA Data Miner
    280
    Особенности методологии моделирования с применением Cognos 4Thought
    282
    Система STATISTICA Data Miner
    286
    Средства анализа STATISTICA Data Miner
    288
    Инструменты Oracle Data Mining и Deductor
    295
    Oracle Data Mining
    295
    Прогнозирующие модели
    297
    Дескрипторные модели
    297
    Аналитическая платформа Deductor
    298
    Инструмент KXEN
    309
    Data Mining консалтинг
    318
    Data Mining-услуги
    318
    Работа с клиентом
    320
    Примеры решения
    322
    Техническое описание решения
    323
    Выводы
    326 5

    6

    Что такое Data Mining?
    "За последние годы, когда, стремясь к повышению эффективности и прибыльности бизнеса, при создании БД все стали пользоваться средствами обработки цифровой информации, появился и побочный продукт этой активности - горы собранных данных: И вот все больше распространяется идея о том, что эти горы полны золота".
    В прошлом процесс добычи золота в горной промышленности состоял из выбора участка земли и дальнейшего ее просеивания большое количество раз. Иногда искатель находил несколько ценных самородков или мог натолкнуться на золотоносную жилу, но в большинстве случаев он вообще ничего не находил и шел дальше к другому многообещающему месту или же вовсе бросал добывать золото, считая это занятие напрасной тратой времени.
    Сегодня появились новые научные методы и специализированные инструменты, сделавшие горную промышленность намного более точной и производительной. Data
    Mining для данных развилась почти таким же способом. Старые методы, применявшиеся математиками и статистиками, отнимали много времени, чтобы в результате получить конструктивную и полезную информацию.
    Сегодня на рынке представлено множество инструментов, включающих различные методы, которые делают Data Mining прибыльным делом, все более доступным для большинства компаний.
    Термин Data Mining получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей.
    Термин Data Mining часто переводится как добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, "извлечение зерен знаний из гор данных", раскопка знаний в базах данных, информационная проходка данных, "промывание" данных.
    Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) можно считать синонимом Data Mining [1].
    Понятие Data Mining, появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. До этого времени обработка и анализ данных осуществлялся в рамках прикладной статистики, при этом в основном решались задачи обработки небольших баз данных.
    О популярности Data Mining говорит и тот факт, что результат поиска термина "Data
    Mining" в поисковой системе Google (на сентябрь 2005 года) - более 18 миллионов страниц.
    Что же такое Data Mining?
    Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и др., см. рис. 1.1 7

    Рис. 1.1. Data Mining как мультидисциплинарная область
    Приведем краткое описание некоторых дисциплин, на стыке которых появилась технология Data Mining.
    Понятие Статистики
    Статистика - это наука о методах сбора данных, их обработки и анализа для выявления закономерностей, присущих изучаемому явлению.
    Статистика является совокупностью методов планирования эксперимента, сбора данных, их представления и обобщения, а также анализа и получения выводов на основании этих данных.
    Статистика оперирует данными, полученными в результате наблюдений либо экспериментов. Одна из последующих глав будет посвящена понятию данных.
    Понятие Машинного обучения
    Единого определения машинного обучения на сегодняшний день нет.
    Машинное обучение можно охарактеризовать как процесс получения программой новых знаний. Митчелл в 1996 году дал такое определение: "Машинное обучение - это наука, которая изучает компьютерные алгоритмы, автоматически улучшающиеся во время работы".
    Одним из наиболее популярных примеров алгоритма машинного обучения являются нейронные сети.
    8

    Понятие Искусственного интеллекта
    Искусственный интеллект - научное направление, в рамках которого ставятся и решаются задачи аппаратного или программного моделирования видов человеческой деятельности, традиционно считающихся интеллектуальными.
    Термин интеллект (intelligence) происходит от латинского intellectus, что означает ум, рассудок, разум, мыслительные способности человека.
    Соответственно, искусственный интеллект (AI, Artificial Intelligence) толкуется как свойство автоматических систем брать на себя отдельные функции интеллекта человека.
    Искусственным интеллектом называют свойство интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека.
    Каждое из направлений, сформировавших Data Mining, имеет свои особенности.
    Проведем сравнение с некоторыми из них.
    Сравнение статистики, машинного обучения и Data Mining

    Статистика o
    Более, чем Data Mining, базируется на теории.
    o
    Более сосредотачивается на проверке гипотез.

    Машинное обучение o
    Более эвристично.
    o
    Концентрируется на улучшении работы агентов обучения.

    Data Mining. o
    Интеграция теории и эвристик.
    o
    Сконцентрирована на едином процессе анализа данных, включает очистку данных, обучение, интеграцию и визуализацию результатов.
    Понятие Data Mining тесно связано с технологиями баз данных и понятием данные, которые будут подробно рассмотрены в следующей лекции.
    Развитие технологии баз данных
    1960-е гг.
    В 1968 году была введена в эксплуатацию первая промышленная СУБД система IMS фирмы IBM.
    1970-е гг.
    В 1975 году появился первый стандарт ассоциации по языкам систем обработки данных -
    Conference on Data System Languages (CODASYL), определивший ряд фундаментальных понятий в теории систем баз данных, которые до сих пор являются основополагающими для сетевой модели данных. В дальнейшее развитие теории баз данных большой вклад был сделан американским математиком Э.Ф. Коддом, который является создателем реляционной модели данных.
    1980-е гг.
    9

    В течение этого периода многие исследователи экспериментировали с новым подходом в направлениях структуризации баз данных и обеспечения к ним доступа. Целью этих поисков было получение реляционных прототипов для более простого моделирования данных. В результате, в 1985 году был создан язык, названный SQL. На сегодняшний день практически все СУБД обеспечивают данный интерфейс.
    1990-е гг.
    Появились специфичные типы данных - "графический образ", "документ", "звук", "карта".
    Типы данных для времени, интервалов времени, символьных строк с двухбайтовым представлением символов были добавлены в язык SQL. Появились технологии
    DataMining, хранилища данных, мультимедийные базы данных и web-базы данных.
    Возникновение и развитие Data Mining обусловлено различными факторами, основные среди которых являются следующие [2]:

    совершенствование аппаратного и программного обеспечения;

    совершенствование технологий хранения и записи данных;

    накопление большого количества ретроспективных данных;

    совершенствование алгоритмов обработки информации.
    Понятие Data Mining
    Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации) [3].
    Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро
    (Gregory Piatetsky-Shapiro) - один из основателей этого направления:
    Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
    Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.
    Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.
    Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.
      1   2   3   4   5   6   7   8   9   ...   34


    написать администратору сайта