Предварительные знания
Скачать 3.17 Mb.
|
Свойства методов Data Mining Различные методы Data Mining характеризуются определенными свойствами, которые могут быть определяющими при выборе метода анализа данных. Методы можно сравнивать между собой, оценивая характеристики их свойств. Среди основных свойств и характеристик методов Data Mining рассмотрим следующие: точность, масштабируемость, интерпретируемость, проверяемость, трудоемкость, гибкость, быстрота и популярность. Масштабируемость - свойство вычислительной системы, которое обеспечивает предсказуемый рост системных характеристик, например, быстроты реакции, общей производительности и пр., при добавлении к ней вычислительных ресурсов. В таблице 3.1 приведена сравнительная характеристика некоторых распространенных методов [15]. Оценка каждой из характеристик проведена следующими категориями, в порядке возрастания: чрезвычайно низкая, очень низкая, низкая/нейтральная, нейтральная/низкая, нейтральная, нейтральная/высокая, высокая, очень высокая. Как видно из рассмотренной таблицы, каждый из методов имеет свои сильные и слабые стороны. Но ни один метод, какой бы не была его оценка с точки зрения присущих ему характеристик, не может обеспечить решение всего спектра задач Data Mining. Большинство инструментов Data Mining, предлагаемых сейчас на рынке программного обеспечения, реализуют сразу несколько методов, например, деревья решений, индукцию правил и визуализацию, или же нейронные сети, самоорганизующиеся карты Кохонена и визуализацию. В универсальных прикладных статистических пакетах (например, SPSS, SAS, STATGRAPHICS, Statistica, др.) реализуется широкий спектр разнообразнейших методов (как статистических, так и кибернетических). Следует учитывать, что для возможности их использования, а также для интерпретации результатов работы статистических методов (корреляционного, регрессионного, факторного, дисперсионного анализа и др.) требуются специальные знания в области статистики. Универсальность того или иного инструмента часто накладывает определенные ограничения на его возможности. Преимуществом использования таких универсальных пакетов является возможность относительно легко сравнивать результаты построенных 36 моделей, полученные различными методами. Такая возможность реализована, например, в пакете Statistica, где сравнение основано на так называемой "конкурентной оценке моделей". Эта оценка состоит в применении различных моделей к одному и тому же набору данных и последующем сравнении их характеристик для выбора наилучшей из них. Таблица 3.1. Сравнительная характеристика методов Data Mining Алгоритм Точность Масштаби- руемость Интерпрети -руемость Пригод- ность к исполь- зованию Трудо- емкость Разносто - ронность Быстрота Популяр- ность, широта исполь- зования класси- ческие методы (линейная регрессия) нейтраль -ная высокая высокая / нейтраль- ная высокая нейтраль -ная нейтраль -ная высокая низкая нейронны е сети высокая низкая низкая низкая нейтраль -ная низкая очень низкая низкая методы визуали- зации высокая очень низкая высокая высокая очень высокая низкая чрезвы- чайно низкая высокая / нейтраль -ная деревья решений низкая высокая высокая высокая / нейтраль -ная высокая высокая высокая / нейтраль -ная высокая / нейтраль -ная полино- миальные нейронны е сети высокая нейтральна я низкая высокая / нейтраль -ная нейтраль -ная / низкая нейтраль -ная низкая / нейтраль -ная нейтраль -ная 37 k-ближай- шего соседа низкая очень низкая высокая / нейтраль- ная нейтраль -ная нейтраль -ная / низкая низкая высокая низкая 38 Задачи Data Mining. Информация и знания Напомним, что в основу технологии Data Mining положена концепция шаблонов, представляющих собой закономерности. В результате обнаружения этих, скрытых от невооруженного глаза закономерностей решаются задачи Data Mining. Различным типам закономерностей, которые могут быть выражены в форме, понятной человеку, соответствуют определенные задачи Data Mining. Задачи (tasks) Data Mining иногда называют закономерностями (regularity) [16] или техниками (techniques) [17]. Единого мнения относительно того, какие задачи следует относить к Data Mining, нет. Большинство авторитетных источников перечисляют следующие: классификация, кластеризация, прогнозирование, ассоциация, визуализация, анализ и обнаружение отклонений, оценивание, анализ связей, подведение итогов. Цель описания, которое следует ниже, - дать общее представление о задачах Data Mining, сравнить некоторые из них, а также представить некоторые методы, с помощью которых эти задачи решаются. Наиболее распространенные задачи Data Mining - классификация, кластеризация, ассоциация, прогнозирование и визуализация - будут подробно рассмотрены в последующих лекциях. Таким образом, задачи подразделяются по типам производимой информации [18], это наиболее общая классификация задач Data Mining. Дальнейшее детальное знакомство с методами решения задач Data Mining будет представлено в следующем разделе курса. Задачи Data Mining Классификация (Classification) Краткое описание. Наиболее простая и распространенная задача Data Mining. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу. Методы решения. Для решения задачи классификации могут использоваться методы: ближайшего соседа (Nearest Neighbor); k-ближайшего соседа (k-Nearest Neighbor); байесовские сети (Bayesian Networks); индукция деревьев решений; нейронные сети (neural networks). Кластеризация (Clustering) Краткое описание. Кластеризация является логическим продолжением идеи классификации. Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. Пример метода решения задачи кластеризации: обучение "без учителя" особого вида нейронных сетей - самоорганизующихся карт Кохонена. 39 Ассоциация (Associations) Краткое описание. В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Отличие ассоциации от двух предыдущих задач Data Mining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи поиска ассоциативных правил - алгоритм Apriori. Последовательность (Sequence), или последовательная ассоциация (sequential association) Краткое описание. Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с некоторым определенным интервалом во времени). Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий. Фактически, ассоциация является частным случаем последовательности с временным лагом, равным нулю. Эту задачу Data Mining также называют задачей нахождения последовательных шаблонов (sequential pattern). Правило последовательности: после события X через определенное время произойдет событие Y. Пример. После покупки квартиры жильцы в 60% случаев в течение двух недель приобретают холодильник, а в течение двух месяцев в 50% случаев приобретается телевизор. Решение данной задачи широко применяется в маркетинге и менеджменте, например, при управлении циклом работы с клиентом (Customer Lifecycle Management). Прогнозирование (Forecasting) Краткое описание. В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Для решения таких задач широко применяются методы математической статистики, нейронные сети и др. Определение отклонений или выбросов (Deviation Detection), анализ отклонений или выбросов Краткое описание. Цель решения данной задачи - обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов. Оценивание (Estimation) Задача оценивания сводится к предсказанию непрерывных значений признака. 40 Анализ связей (Link Analysis) - задача нахождения зависимостей в наборе данных. Визуализация (Visualization, Graph Mining) В результате визуализации создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных. Пример методов визуализации - представление данных в 2-D и 3-D измерениях. Подведение итогов (Summarization) - задача, цель которой - описание конкретных групп объектов из анализируемого набора данных. Классификация задач Data Mining Согласно классификации по стратегиям, задачи Data Mining подразделяются на следующие группы: • обучение с учителем; • обучение без учителя; • другие. Категория обучение с учителем представлена следующими задачами Data Mining: классификация, оценка, прогнозирование. Категория обучение без учителя представлена задачей кластеризации. В категорию другие входят задачи, не включенные в предыдущие две стратегии. Задачи Data Mining, в зависимости от используемых моделей, могут быть дескриптивными и прогнозирующими. Эти типы моделей будут подробно описаны в лекции, посвященной процессу Data Mining. В соответствии с этой классификацией, задачи Data Mining представлены группами описательных и прогнозирующих задач. В результате решения описательных (descriptive) задач аналитик получает шаблоны, описывающие данные, которые поддаются интерпретации. Эти задачи описывают общую концепцию анализируемых данных, определяют информативные, итоговые, отличительные особенности данных. Концепция описательных задач подразумевает характеристику и сравнение наборов данных. Характеристика набора данных обеспечивает краткое и сжатое описание некоторого набора данных. Сравнение обеспечивает сравнительное описание двух или более наборов данных. Прогнозирующие (predictive) основываются на анализе данных, создании модели, предсказании тенденций или свойств новых или неизвестных данных. 41 Достаточно близким к вышеупомянутой классификации является подразделение задач Data Mining на следующие: исследования и открытия, прогнозирования и классификации, объяснения и описания. Автоматическое исследование и открытие (свободный поиск) Пример задачи: обнаружение новых сегментов рынка. Для решения данного класса задач используются методы кластерного анализа. прогнозирование и классификация Пример задачи: предсказание роста объемов продаж на основе текущих значений. Методы: регрессия, нейронные сети, генетические алгоритмы, деревья решений. Задачи классификации и прогнозирования составляют группу так называемого индуктивного моделирования, в результате которого обеспечивается изучение анализируемого объекта или системы. В процессе решения этих задач на основе набора данных разрабатывается общая модель или гипотеза. Объяснение и описание Пример задачи: характеристика клиентов по демографическим данным и историям покупок. Методы: деревья решения, системы правил, правила ассоциации, анализ связей. Если доход клиента больше, чем 50 условных единиц, и его возраст - более 30 лет, тогда класс клиента - первый. В интерпретации обобщенной модели аналитик получает новое знание. Группировка объектов происходит на основе их сходства. Связь понятий Итак, в предыдущей лекции нами были рассмотрены методы Data Mining и действия, выполняемые в рамках стадий Data Mining. Только что мы рассмотрели основные задачи Data Mining. Напомним, что главная ценность Data Mining - это практическая направленность данной технологии, путь от сырых данных к конкретному знанию, от постановки задачи к готовому приложению, при поддержке которого можно принимать решения. Многочисленность понятий, которые объединились в Data Mining, а также разнообразие методов, поддерживающих данную технологию, начинающему аналитику могут напомнить мозаику, части которой мало связаны между собой. Как же мы можем связать в одно целое задачи, методы, действия, закономерности, приложения, данные, информацию, решения? 42 Рассмотрим два потока: 1. ДАННЫЕ - ИНФОРМАЦИЯ - ЗНАНИЯ И РЕШЕНИЯ 2. ЗАДАЧИ - ДЕЙСТВИЯ И МЕТОДЫ РЕШЕНИЯ - ПРИЛОЖЕНИЯ Эти потоки являются "двумя сторонами одной медали", отображением одного процесса, результатом которого должно быть знание и принятие решения. От данных к решениям Для начала рассмотрим первый поток. На рис. 4.1 .показана связь понятий "данные", "информация" и "решения", которая возникает в процессе принятия решений. Рис. 4.1. Решения, информация и данные Как видно из рисунка, данный процесс является циклическим. Принятие решений требует информации, которая основана на данных. Данные обеспечивают информацию, которая поддерживает решения, и т.д. Рассмотренные понятия являются составной частью так называемой информационной пирамиды, в основании которой находятся данные, следующий уровень - это информация, затем идет решение, завершает пирамиду уровень знания. По мере продвижения вверх по информационной пирамиде объемы данных переходят в ценность решений, т.е. ценность для бизнеса. А, как известно, целью Business Intelligence является преобразование объемов данных в ценность бизнеса. 43 От задачи к приложению Теперь подойдем к этому же процессу с другой стороны. Рассмотрим рис. 4.2 . По словам авторов [17], он не претендует на полноту, зато отображает все уровни, которые затрагивает Data Mining. Рис. 4.2. Задачи, действия, приложения Следует отметить, что уровни анализа (данные, информация, знания) практически соответствуют этапам эволюции анализа данных, которая происходила на протяжении последних лет. Верхний - уровень приложений - является уровнем бизнеса (если мы имеем дело с задачей бизнеса), на нем менеджеры принимают решения. Приведенные примеры приложений: перекрестные продажи, контроль качества, удерживание клиентов. Средний - уровень действий - по своей сути является уровнем информации, именно на нем выполняются действия Data Mining; на рисунке приведены такие действия: 44 прогностическое моделирование (было рассмотрено в предыдущей лекции), анализ связей, сегментация данных и другие. Нижний - уровень определения задачи Data Mining, которую необходимо решить применительно к данным, имеющимся в наличии; на рисунке приведены задачи предсказания числовых значений, классификация, кластеризация, ассоциация. Рассмотрим таблицу, демонстрирующую связь этих понятий. Таблица 4.1. Уровни Data Mining уровень 3 приложения удержание клиентов знания Data Mining результат уровень 2 действия прогностическое моделирование информация метод анализа уровень 1 задачи классификация данные запросы Напомним, что для решения задачи классификации результаты работы первой стадии (индукции правил) используются для отнесения нового объекта, с определенной уверенностью, к одному из известных, предопределенных классов на основании известных значений. Рассмотрим задачу удержания клиентов (определения надежности клиентов фирмы). Первый уровень. Данные - база данных по клиентам. Есть данные о клиенте (возраст, пол, профессия, доход). Определенная часть клиентов, воспользовавшись продуктом фирмы, осталась ей верна; другие клиенты больше не приобретали продукты фирмы. На этом уровне мы определяем тип задачи - это задача классификации. На втором уровне определяем действие - прогностическое моделирование. С помощью прогностического моделирования мы с определенной долей уверенности можем отнести новый объект, в данном случае, нового клиента, к одному из известных классов - постоянный клиент, или это, скорее всего, его разовая покупка. На третьем уровне мы можем воспользоваться приложением для принятия решения. В результате приобретения знаний, фирма может существенно снизить расходы, например, на рекламу, зная заранее, каким из клиентов следует активно рассылать рекламные материалы. Таким образом, на протяжении нескольких лекций мы определились с понятиями "данные", "задачи", "методы", "действия". Информация Сейчас остановимся на еще не рассмотренном понятии информации. Несмотря на распространенность данного понятия, мы не всегда можем точно его определить и отличить от понятия данных. Информация, по своей сути, имеет многогранную природу. С развитием человечества, в том числе, с развитием компьютерных технологий, информация обретает все новые и новые свойства. 45 Обратимся к словарю. Информация (лат. informatio) - 1. любые сообщение о чем-либо; 2. сведения, являющиеся объектом хранения, переработки и передачи (например генетическая информация); 3. в математике (кибернетике) - количественная мера устранения неопределенности (энтропия), мера организации системы; в теории информации - раздел кибернетики, изучающий количественные закономерности, которые связаны со сбором, передачей, преобразованием и вычислением информации. Информация - любые, неизвестные ранее сведения о каком-либо событии, сущности, процессе и т.п., являющиеся объектом некоторых операций, для которых существует содержательная интерпретация. Под операциями здесь подразумевается восприятие, передача, преобразование, хранение и использование. Для восприятия информации необходима некоторая воспринимающая система, которая может интерпретировать ее, преобразовывать, определять соответствие определенным правилам и т.п. Таким образом, понятие информации следует рассматривать только при наличии источника и получателя информации, а также канала связи между ними. |