Предварительные знания
Скачать 3.17 Mb.
|
Чубукова Ирина Александровна Соискатель ученой степени кандидата экономических наук в Киевском национальном экономическом университете имени Вадима Гетьмана кафедра информационных систем в экономике , Ведущий инженер- программист в Национальном банке Украины. Data Mining Курс знакомит слушателей с технологией Data Mining, подробно рассматриваются методы, инструментальные средства и применение Data Mining. Описание каждого метода сопровождается конкретным примером его использования. Обсуждаются отличия Data Mining от классических статистических методов анализа и OLAP-систем, рассматриваются типы закономерностей, выявляемых Data Mining (ассоциация, классификация, последовательность, кластеризация, прогнозирование). Описывается сфера применения Data Mining. Вводится понятие Web Mining. Подробно рассматриваются методы Data Mining: нейронные сети, деревья решений, методы ограниченного перебора, генетические алгоритмы, эволюционное программирование, кластерные модели, комбинированные методы. Знакомство с каждым методом проиллюстрировано решением практической задачи с помощью инструментального средства, использующего технологию Data Mining.Излагаются основные концепции хранилищ данных и места Data Mining в их архитектуре. Вводятся понятия OLTP, OLAP, ROLAP, MOLAP.Обсуждается процесс анализа данных с помощью технологии Data Mining. Подробно рассматриваются этапы этого процесса. Анализируется рынок аналитического программного обеспечения, описываются продукты от ведущих производителей Data Mining, обсуждаются их возможности. Цель Познакомить слушателей с теоретическими аспектами технологии Data Mining, методами, возможностью их применения, дать практические навыки по использованию инструментальных средств Data Mining Предварительные знания Желательны, но не обязательны знания по информатике, основам теории баз данных, знания по математике (в пределах начальных курсов ВУЗа), технологии обработки информации. 1 Оглавление Что такое Data Mining? 7 Сравнение статистики, машинного обучения и Data Mining 9 Развитие технологии баз данных 9 Понятие Data Mining 10 Data Mining как часть рынка информационных технологий 11 Данные 17 Что такое данные? 17 Набор данных и их атрибутов 17 Измерения 19 Типы наборов данных 22 Форматы хранения данных 23 Базы данных. Основные положения 24 Классификация видов данных 27 Метаданные 28 Методы и стадии Data Mining 29 Задачи Data Mining. Информация и знания 39 Задачи Data Mining 39 От данных к решениям 43 От задачи к приложению 44 Информация 45 Знания 48 Сопоставление и сравнение понятий "информация", "данные", "знание" 48 Задачи Data Mining. Классификация и кластеризация 50 Задача классификации 50 Процесс классификации 53 Методы, применяемые для решения задач классификации 54 Точность классификации: оценка уровня ошибок 56 Оценивание классификационных методов 56 Задача кластеризации 57 Оценка качества кластеризации 60 Процесс кластеризации 60 Применение кластерного анализа 60 Выводы 61 Задачи Data Mining. Прогнозирование и визуализация 63 Задача прогнозирования 63 Сравнение задач прогнозирования и классификации 64 Прогнозирование и временные ряды 64 Задача визуализации 71 Сферы применения Data Mining 74 Применение Data Mining для решения бизнес-задач 75 Data Mining для научных исследований 79 Основы анализа данных 84 Анализ данных в Microsoft Excel 84 Описательная статистика 84 Корреляционный анализ 88 2 Регрессионный анализ 90 Выводы 96 Методы классификации и прогнозирования. Деревья решений 97 Преимущества деревьев решений 100 Процесс конструирования дерева решений 101 Алгоритмы 104 Выводы 106 Методы классификации и прогнозирования. Метод опорных векторов. Метод "ближайшего соседа". Байесовская классификация 107 Метод опорных векторов 107 Линейный SVM 108 Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев 110 Решение задачи классификации новых объектов 112 Решение задачи прогнозирования 113 Оценка параметра k методом кросс-проверки 114 Байесовская классификация 115 Байесовская фильтрация по словам 116 Методы классификации и прогнозирования. Нейронные сети 118 Элементы нейронных сетей 119 Архитектура нейронных сетей 120 Обучение нейронных сетей 122 Модели нейронных сетей 124 Программное обеспечение для работы с нейронными сетями 126 Пример решения задачи 127 Пакет Matlab 132 Нейронные сети. Самоорганизующиеся карты Кохонена. 134 Классификация нейронных сетей 134 Подготовка данных для обучения 135 Выбор структуры нейронной сети 136 Карты Кохонена 136 Пример решения задачи 141 Выводы 146 Методы кластерного анализа. Иерархические методы 147 Методы кластерного анализа 151 Меры сходства 153 Методы объединения или связи 154 Иерархический кластерный анализ в SPSS 155 Методы кластерного анализа. Итеративные методы. 159 Алгоритм k-средних (k-means) 159 Алгоритм PAM ( partitioning around Medoids) 162 Предварительное сокращение размерности 162 Факторный анализ 162 Итеративная кластеризация в SPSS 163 Сложности и проблемы, которые могут возникнуть при применении кластерного анализа .. 165 Новые алгоритмы и некоторые модификации алгоритмов кластерного анализа 167 Методы поиска ассоциативных правил 170 Часто встречающиеся приложения с применением ассоциативных правил: 170 3 Введение в ассоциативные правила 170 Часто встречающиеся шаблоны или образцы 171 Поддержка 172 Характеристики ассоциативных правил 173 Границы поддержки и достоверности ассоциативного правила 173 Методы поиска ассоциативных правил 174 Разновидности алгоритма Apriori 176 Пример решения задачи поиска ассоциативных правил 178 Способы визуального представления данных. Методы визуализации 184 Визуализация инструментов Data Mining 184 Визуализация Data Mining моделей 185 Методы визуализации 186 Представление данных в одном, двух и трех измерениях 186 Представление данных в 4 + измерениях 187 Параллельные координаты 187 "Лица Чернова" 188 Качество визуализации 190 Представление пространственных характеристик 191 Основные тенденции в области визуализации 191 Выводы 194 Комплексный подход к внедрению Data Mining, OLAP и хранилищ данных в СППР 195 Классификация СППР 197 OLAP-системы 198 OLAP-продукты 199 Интеграция OLAP и Data Mining 200 Хранилища данных 201 Преимущества использования хранилищ данных 202 Процесс Data Mining. Начальные этапы 205 Этап 1. Анализ предметной области 205 Этап 2. Постановка задачи 206 Этап 3. Подготовка данных 206 Выводы 214 Процесс Data Mining. Очистка данных 215 Инструменты очистки данных 215 Выводы по подготовке данных 221 Процесс Data Mining. Построение и использование модели 223 Моделирование 223 Виды моделей 224 Математическая модель 226 Этап 4. Построение модели 227 Этап 5. Проверка и оценка моделей 229 Этап 6. Выбор модели 230 Этап 7. Применение модели 230 Этап 8. Коррекция и обновление модели 231 Погрешности в процессе Data Mining 231 Выводы 233 Организационные и человеческие факторы в Data Mining. Стандарты Data Mining 234 Организационные Факторы 234 4 Человеческие факторы. Роли в Data Mining 235 CRISP-DM методология 238 SEMMA методология 240 Другие стандарты Data Mining 241 Стандарт PMML 241 Стандарты, относящиеся к унификации интерфейсов 242 Рынок инструментов Data Mining 244 Поставщики Data Mining 244 Классификация инструментов Data Mining 250 Программное обеспечение Data Mining для поиска ассоциативных правил 251 Программное обеспечение для решения задач кластеризации и сегментации 252 Программное обеспечение для решения задач классификации 253 Программное обеспечение Data Mining для решения задач оценивания и прогнозирования 253 Выводы 254 Инструменты Data Mining. SAS Enterprise Miner 255 Специализированное хранилище данных 266 Подход SAS к созданию информационно-аналитических систем 266 Технические требования пакета SASR Enterprise Miner 267 Инструменты Data Mining. Система PolyAnalyst 268 Архитектура системы 268 PolyAnalyst Workplace - лаборатория аналитика 269 Аналитический инструментарий PolyAnalyst 269 Алгоритмы кластеризации 271 Алгоритмы классификации 271 Алгоритмы ассоциации 272 Модули текстового анализа 273 Визуализация 274 Эволюционное программирование 275 Общесистемные характеристики PolyAnalyst 276 WebAnalyst 278 Инструменты Data Mining. Программные продукты Cognos и система STATISTICA Data Miner 280 Особенности методологии моделирования с применением Cognos 4Thought 282 Система STATISTICA Data Miner 286 Средства анализа STATISTICA Data Miner 288 Инструменты Oracle Data Mining и Deductor 295 Oracle Data Mining 295 Прогнозирующие модели 297 Дескрипторные модели 297 Аналитическая платформа Deductor 298 Инструмент KXEN 309 Data Mining консалтинг 318 Data Mining-услуги 318 Работа с клиентом 320 Примеры решения 322 Техническое описание решения 323 Выводы 326 5 6 Что такое Data Mining? "За последние годы, когда, стремясь к повышению эффективности и прибыльности бизнеса, при создании БД все стали пользоваться средствами обработки цифровой информации, появился и побочный продукт этой активности - горы собранных данных: И вот все больше распространяется идея о том, что эти горы полны золота". В прошлом процесс добычи золота в горной промышленности состоял из выбора участка земли и дальнейшего ее просеивания большое количество раз. Иногда искатель находил несколько ценных самородков или мог натолкнуться на золотоносную жилу, но в большинстве случаев он вообще ничего не находил и шел дальше к другому многообещающему месту или же вовсе бросал добывать золото, считая это занятие напрасной тратой времени. Сегодня появились новые научные методы и специализированные инструменты, сделавшие горную промышленность намного более точной и производительной. Data Mining для данных развилась почти таким же способом. Старые методы, применявшиеся математиками и статистиками, отнимали много времени, чтобы в результате получить конструктивную и полезную информацию. Сегодня на рынке представлено множество инструментов, включающих различные методы, которые делают Data Mining прибыльным делом, все более доступным для большинства компаний. Термин Data Mining получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей. Термин Data Mining часто переводится как добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, "извлечение зерен знаний из гор данных", раскопка знаний в базах данных, информационная проходка данных, "промывание" данных. Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) можно считать синонимом Data Mining [1]. Понятие Data Mining, появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. До этого времени обработка и анализ данных осуществлялся в рамках прикладной статистики, при этом в основном решались задачи обработки небольших баз данных. О популярности Data Mining говорит и тот факт, что результат поиска термина "Data Mining" в поисковой системе Google (на сентябрь 2005 года) - более 18 миллионов страниц. Что же такое Data Mining? Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и др., см. рис. 1.1 7 Рис. 1.1. Data Mining как мультидисциплинарная область Приведем краткое описание некоторых дисциплин, на стыке которых появилась технология Data Mining. Понятие Статистики Статистика - это наука о методах сбора данных, их обработки и анализа для выявления закономерностей, присущих изучаемому явлению. Статистика является совокупностью методов планирования эксперимента, сбора данных, их представления и обобщения, а также анализа и получения выводов на основании этих данных. Статистика оперирует данными, полученными в результате наблюдений либо экспериментов. Одна из последующих глав будет посвящена понятию данных. Понятие Машинного обучения Единого определения машинного обучения на сегодняшний день нет. Машинное обучение можно охарактеризовать как процесс получения программой новых знаний. Митчелл в 1996 году дал такое определение: "Машинное обучение - это наука, которая изучает компьютерные алгоритмы, автоматически улучшающиеся во время работы". Одним из наиболее популярных примеров алгоритма машинного обучения являются нейронные сети. 8 Понятие Искусственного интеллекта Искусственный интеллект - научное направление, в рамках которого ставятся и решаются задачи аппаратного или программного моделирования видов человеческой деятельности, традиционно считающихся интеллектуальными. Термин интеллект (intelligence) происходит от латинского intellectus, что означает ум, рассудок, разум, мыслительные способности человека. Соответственно, искусственный интеллект (AI, Artificial Intelligence) толкуется как свойство автоматических систем брать на себя отдельные функции интеллекта человека. Искусственным интеллектом называют свойство интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека. Каждое из направлений, сформировавших Data Mining, имеет свои особенности. Проведем сравнение с некоторыми из них. Сравнение статистики, машинного обучения и Data Mining • Статистика o Более, чем Data Mining, базируется на теории. o Более сосредотачивается на проверке гипотез. • Машинное обучение o Более эвристично. o Концентрируется на улучшении работы агентов обучения. • Data Mining. o Интеграция теории и эвристик. o Сконцентрирована на едином процессе анализа данных, включает очистку данных, обучение, интеграцию и визуализацию результатов. Понятие Data Mining тесно связано с технологиями баз данных и понятием данные, которые будут подробно рассмотрены в следующей лекции. Развитие технологии баз данных 1960-е гг. В 1968 году была введена в эксплуатацию первая промышленная СУБД система IMS фирмы IBM. 1970-е гг. В 1975 году появился первый стандарт ассоциации по языкам систем обработки данных - Conference on Data System Languages (CODASYL), определивший ряд фундаментальных понятий в теории систем баз данных, которые до сих пор являются основополагающими для сетевой модели данных. В дальнейшее развитие теории баз данных большой вклад был сделан американским математиком Э.Ф. Коддом, который является создателем реляционной модели данных. 1980-е гг. 9 В течение этого периода многие исследователи экспериментировали с новым подходом в направлениях структуризации баз данных и обеспечения к ним доступа. Целью этих поисков было получение реляционных прототипов для более простого моделирования данных. В результате, в 1985 году был создан язык, названный SQL. На сегодняшний день практически все СУБД обеспечивают данный интерфейс. 1990-е гг. Появились специфичные типы данных - "графический образ", "документ", "звук", "карта". Типы данных для времени, интервалов времени, символьных строк с двухбайтовым представлением символов были добавлены в язык SQL. Появились технологии DataMining, хранилища данных, мультимедийные базы данных и web-базы данных. Возникновение и развитие Data Mining обусловлено различными факторами, основные среди которых являются следующие [2]: • совершенствование аппаратного и программного обеспечения; • совершенствование технологий хранения и записи данных; • накопление большого количества ретроспективных данных; • совершенствование алгоритмов обработки информации. Понятие Data Mining Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации) [3]. Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro) - один из основателей этого направления: Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем. Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным. |