Главная страница
Навигация по странице:

  • Скорость

  • Надежность

  • Характеристика Классификация Кластеризация

  • Оценка качества кластеризации

  • Применение кластерного анализа

  • Кластерный анализ в маркетинговых исследованиях

  • Практика применения кластерного анализа в маркетинговых исследованиях

  • Задачи Data Mining. Прогнозирование и визуализация

  • Сравнение задач прогнозирования и классификации

  • Прогнозирование и временные ряды

  • Предварительные знания


    Скачать 3.17 Mb.
    НазваниеПредварительные знания
    АнкорDataMining.pdf
    Дата02.03.2017
    Размер3.17 Mb.
    Формат файлаpdf
    Имя файлаDataMining.pdf
    ТипДокументы
    #3306
    страница7 из 34
    1   2   3   4   5   6   7   8   9   10   ...   34
    Оценивание классификационных методов
    Оценивание методов следует проводить, исходя из следующих характеристик [21]: скорость, робастность, интерпретируемость, надежность.
    Скорость характеризует время, которое требуется на создание модели и ее использование.
    Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных.
    Интерпретируемость обеспечивает возможность понимания модели аналитиком.
    Свойства классификационных правил:

    размер дерева решений;
    56


    компактность классификационных правил.
    Надежность методов классификации предусматривает возможность работы этих методов при наличии в наборе данных шумов и выбросов.
    Задача кластеризации
    Только что мы изучили задачу классификации, относящуюся к стратегии "обучение с учителем".
    В этой части лекции мы введем понятия кластеризации, кластера, кратко рассмотрим классы методов, с помощью которых решается задача кластеризации, некоторые моменты процесса кластеризации, а также разберем примеры применения кластерного анализа.
    Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но ее отличие в том, что классы изучаемого набора данных заранее не предопределены.
    Синонимами термина "кластеризация" являются "автоматическая классификация",
    "обучение без учителя" и "таксономия".
    Кластеризация предназначена для разбиения совокупности объектов на однородные группы (кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек".
    Цель кластеризации - поиск существующих структур.
    Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить "структуру данных".
    Само понятие "кластер" определено неоднозначно: в каждом исследовании свои "кластеры". Переводится понятие кластер (cluster) как "скопление", "гроздь".
    Кластер можно охарактеризовать как группу объектов, имеющих общие свойства.
    Характеристиками кластера можно назвать два признака:

    внутренняя однородность;

    внешняя изолированность.
    Вопрос, задаваемый аналитиками при решении многих задач, состоит в том, как организовать данные в наглядные структуры, т.е. развернуть таксономии.
    Наибольшее применение кластеризация первоначально получила в таких науках как биология, антропология, психология. Для решения экономических задач кластеризация длительное время мало использовалась из-за специфики экономических данных и явлений.
    57

    В таблице 5.2
    приведено сравнение некоторых параметров задач классификации и кластеризации.
    Таблица 5.2. Сравнение классификации и кластерзации
    Характеристика
    Классификация
    Кластеризация
    Контролируемость обучения
    Контролируемое обучение
    Неконтролируемое обучение
    Стратегия
    Обучение с учителем
    Обучение без учителя
    Наличие метки класса
    Обучающее множество сопровождается меткой, указывающей класс, к которому относится наблюдение
    Метки класса обучающего множества неизвестны
    Основание для классификации
    Новые данные классифицируются на основании обучающего множества
    Дано множество данных с целью установления существования классов или кластеров данных
    На рис. 5.7
    схематически представлены задачи классификации и кластеризации.
    Рис. 5.7. Сравнение задач классификации и кластеризации
    58

    Кластеры могут быть непересекающимися, или эксклюзивными (non-overlapping, exclusive), и пересекающимися (overlapping) [22]. Схематическое изображение непересекающихся и пересекающихся кластеров дано на рис. 5.8
    Рис. 5.8. Непересекающиеся и пересекающиеся кластеры
    Следует отметить, что в результате применения различных методов кластерного анализа могут быть получены кластеры различной формы. Например, возможны кластеры "цепочного" типа, когда кластеры представлены длинными "цепочками", кластеры удлиненной формы и т.д., а некоторые методы могут создавать кластеры произвольной формы.
    Различные методы могут стремиться создавать кластеры определенных размеров
    (например, малых или крупных) либо предполагать в наборе данных наличие кластеров различного размера.
    Некоторые методы кластерного анализа особенно чувствительны к шумам или выбросам, другие - менее.
    В результате применения различных методов кластеризации могут быть получены неодинаковые результаты, это нормально и является особенностью работы того или иного алгоритма.
    Данные особенности следует учитывать при выборе метода кластеризации.
    Подробнее обо всех свойствах кластерного анализа будет рассказано в лекции, посвященной его методам.
    На сегодняшний день разработано более сотни различных алгоритмов кластеризации.
    Некоторые, наиболее часто используемые, будут подробно описаны во втором разделе курса лекций.
    Приведем краткую характеристику подходов к кластеризации [21].

    Алгоритмы, основанные на разделении данных (Partitioning algorithms), в т.ч. итеративные: o
    разделение объектов на k кластеров;
    o итеративное перераспределение объектов для улучшения кластеризации.

    Иерархические алгоритмы (Hierarchy algorithms): o
    агломерация: каждый объект первоначально является кластером, кластеры, соединяясь друг с другом, формируют больший кластер и т.д.

    Методы, основанные на концентрации объектов (Density-based methods):
    59
    o
    основаны на возможности соединения объектов; o
    игнорируют шумы, нахождение кластеров произвольной формы.

    Грид-методы (Grid-based methods): o
    квантование объектов в грид-структуры.

    Модельные методы (Model-based): o
    использование модели для нахождения кластеров, наиболее соответствующих данным.
    Оценка качества кластеризации
    Оценка качества кластеризации может быть проведена на основе следующих процедур:

    ручная проверка;

    установление контрольных точек и проверка на полученных кластерах;

    определение стабильности кластеризации путем добавления в модель новых переменных;

    создание и сравнение кластеров с использованием различных методов. Разные методы кластеризации могут создавать разные кластеры, и это является нормальным явлением.
    Однако создание схожих кластеров различными методами указывает на правильность кластеризации.
    Процесс кластеризации
    Процесс кластеризации зависит от выбранного метода и почти всегда является итеративным. Он может стать увлекательным процессом и включать множество экспериментов по выбору разнообразных параметров, например, меры расстояния, типа стандартизации переменных, количества кластеров и т.д. Однако эксперименты не должны быть самоцелью - ведь конечной целью кластеризации является получение содержательных сведений о структуре исследуемых данных. Полученные результаты требуют дальнейшей интерпретации, исследования и изучения свойств и характеристик объектов для возможности точного описания сформированных кластеров.
    Применение кластерного анализа
    Кластерный анализ применяется в различных областях. Он полезен, когда нужно классифицировать большое количество информации. Обзор многих опубликованных исследований, проводимых с помощью кластерного анализа, дал Хартиган (Hartigan,
    1975).
    Так, в медицине используется кластеризация заболеваний, лечения заболеваний или их симптомов, а также таксономия пациентов, препаратов и т.д. В археологии устанавливаются таксономии каменных сооружений и древних объектов и т.д. В маркетинге это может быть задача сегментации конкурентов и потребителей. В менеджменте примером задачи кластеризации будет разбиение персонала на различные группы, классификация потребителей и поставщиков, выявление схожих производственных ситуаций, при которых возникает брак. В медицине - классификация симптомов. В социологии задача кластеризации - разбиение респондентов на однородные группы.
    60

    Кластерный анализ в маркетинговых исследованиях
    В маркетинговых исследованиях кластерный анализ применяется достаточно широко - как в теоретических исследованиях, так и практикующими маркетологами, решающими проблемы группировки различных объектов. При этом решаются вопросы о группах клиентов, продуктов и т.д.
    Так, одной из наиболее важных задач при применении кластерного анализа в маркетинговых исследованиях является анализ поведения потребителя, а именно: группировка потребителей в однородные классы для получения максимально полного представления о поведении клиента из каждой группы и о факторах, влияющих на его поведение. Эта проблема подробно описана в работах Клакстона, Фрая и Портиса (1974),
    Киля и Лэйтона (1981).
    Важной задачей, которую может решить кластерный анализ, является позиционирование, т.е. определение ниши, в которой следует позиционировать новый продукт, предлагаемый на рынке. В результате применения кластерного анализа строится карта, по которой можно определить уровень конкуренции в различных сегментах рынка и соответствующие характеристики товара для возможности попадания в этот сегмент. С помощью анализа такой карты возможно определение новых, незанятых ниш на рынке, в которых можно предлагать существующие товары или разрабатывать новые.
    Кластерный анализ также может быть удобен, например, для анализа клиентов компании.
    Для этого все клиенты группируются в кластеры, и для каждого кластера вырабатывается индивидуальная политика. Такой подход позволяет существенно сократить объекты анализа, и, в то же время, индивидуально подойти к каждой группе клиентов.
    Практика применения кластерного анализа в маркетинговых исследованиях
    Приведем некоторые известные статьи, посвященные применению кластерного анализа для маркетинговых исследований.
    В 1971 году была опубликована статья о сегментации клиентов по сфере интересов на основе данных, характеризующих предпочтения клиентов.
    В 1974 году была опубликована статья Секстона (Sexton), целью которой была идентификация групп семей - потребителей продукта, в результате были разработаны стратегии позиционирования бренда. Основой для исследований были рейтинги, которые респонденты присваивали продуктам и брендам.
    В 1981 году была опубликована статья, где проводился анализ поведения покупателей новых автомобилей на основе данных факторных нагрузок, полученных при анализе набора переменных.
    Выводы
    В этой лекции нами были подробно рассмотрены задачи классификации и кластеризации.
    Несмотря на кажущуюся похожесть этих задач, решаются они разными способами и при помощи разных методов. Различие задач прежде всего в исходных данных.
    61

    Классификация, являясь наиболее простой задачей Data Mining, относится к стратегии "обучение с учителем", для ее решения обучающая выборка должна содержать значения как входных переменных, так и выходных (целевых) переменных. Кластеризация, напротив, является задачей Data Mining, относящейся к стратегии "обучение без учителя", т.е. не требует наличия значения целевых переменных в обучающей выборке.
    Задача классификации решается при помощи различных методов, наиболее простой - линейная регрессия. Выбор метода должен базироваться на исследовании исходного набора данных. Наиболее распространенные методы решения задачи кластеризации: метод k-средних (работает только с числовыми атрибутами), иерархический кластерный анализ (работает также с символьными атрибутами), метод SOM. Сложностью кластеризации является необходимость ее оценки.
    62

    Задачи Data Mining. Прогнозирование и визуализация
    Мы продолжаем рассматривать наиболее распространенные и востребованные задачи
    Data Mining. В этой лекции мы подробно остановимся на задачах прогнозирования и визуализации.
    Задача прогнозирования
    Задачи прогнозирования решаются в самых разнообразных областях человеческой деятельности, таких как наука, экономика, производство и множество других сфер.
    Прогнозирование является важным элементом организации управления как отдельными хозяйствующими субъектами, так и экономики в целом.
    Развитие методов прогнозирования непосредственно связано с развитием информационных технологий, в частности, с ростом объемов хранимых данных и усложнением методов и алгоритмов прогнозирования, реализованных в инструментах
    Data Mining.
    Задача прогнозирования, пожалуй, может считаться одной из наиболее сложных задач
    Data Mining, она требует тщательного исследования исходного набора данных и методов, подходящих для анализа.
    Прогнозирование (от греческого Prognosis), в широком понимании этого слова, определяется как опережающее отражение будущего. Целью прогнозирования является предсказание будущих событий.
    Прогнозирование (forecasting) является одной из задач Data Mining и одновременно одним из ключевых моментов при принятии решений.
    Прогностика (prognostics) - теория и практика прогнозирования.
    Прогнозирование направлено на определение тенденций динамики конкретного объекта или события на основе ретроспективных данных, т.е. анализа его состояния в прошлом и настоящем. Таким образом, решение задачи прогнозирования требует некоторой обучающей выборки данных.
    Прогнозирование - установление функциональной зависимости между зависимыми и независимыми переменными.
    Прогнозирование является распространенной и востребованной задачей во многих областях человеческой деятельности. В результате прогнозирования уменьшается риск принятия неверных, необоснованных или субъективных решений.
    Примеры его задач: прогноз движения денежных средств, прогнозирование урожайности агрокультуры, прогнозирование финансовой устойчивости предприятия.
    Типичной в сфере маркетинга является задача прогнозирования рынков (market forecasting). В результате решения данной задачи оцениваются перспективы развития
    63
    конъюнктуры определенного рынка, изменения рыночных условий на будущие периоды, определяются тенденции рынка (структурные изменения, потребности покупателей, изменения цен).
    Обычно в этой области решаются следующие практические задачи:

    прогноз продаж товаров (например, с целью определения нормы товарного запаса);

    прогнозирование продаж товаров, оказывающих влияние друг на друга;

    прогноза продаж в зависимости от внешних факторов.
    Помимо экономической и финансовой сферы, задачи прогнозирования ставятся в самых разнообразных областях: медицине, фармакологии; популярным сейчас становится политическое прогнозирование.
    В самых общих чертах решение задачи прогнозирования сводится к решению таких подзадач:

    выбор модели прогнозирования;

    анализ адекватности и точности построенного прогноза.
    Сравнение задач прогнозирования и классификации
    В предыдущей лекции нами была рассмотрена задача классификации. Прогнозирование сходно с задачей классификации.
    Многие методы Data Mining используются для решения задач классификации и прогнозирования. Это, например, линейная регрессия, нейронные сети, деревья решений
    (которые иногда так и называют - деревья прогнозирования и классификации).
    Задачи классификации и прогнозирования имеют сходства и различия.
    Так в чем же сходство задач прогнозирования и классификации? При решении обеих задач используется двухэтапный процесс построения модели на основе обучающего набора и ее использования для предсказания неизвестных значений зависимой переменной.
    Различие задач классификации и прогнозирования состоит в том, что в первой задаче предсказывается класс зависимой переменной, а во второй - числовые значения зависимой переменной, пропущенные или неизвестные (относящиеся к будущему).
    Возвращаясь к примеру о туристическом агентстве, рассмотренном в предыдущей лекции, мы можем сказать, что определения класса клиента является решением задачи классификации, а прогнозирование дохода, который принесет этот клиент в будущем году, будет решением задачи прогнозирования.
    Прогнозирование и временные ряды
    Основой для прогнозирования служит историческая информация, хранящаяся в базе данных в виде временных рядов.
    Существует понятие Data Mining временных рядов (Time-Series Data Mining).
    64

    Подробно с этим понятием можно ознакомиться в [23].
    На основе ретроспективной информации в виде временных рядов возможно решение различных задач Data Mining. На рис. 6.1
    представлены результаты опроса относительно
    Data Mining временных рядов. Как видим, наибольший процент (23%) среди решаемых задач занимает прогнозирование. Далее идут классификация и кластеризация (по 14%), сегментация и выявление аномалий (по 9%), обнаружение правил (8%). На другие задачи приходится менее чем по 6%.
    Рис. 6.1. Data Mining временных рядов
    Однако чтобы сосредоточиться на понятии прогнозирования, мы будем рассматривать временные ряды лишь в рамках решения задачи прогнозирования.
    Приведем два принципиальных отличия временного ряда от простой последовательности наблюдений:

    Члены временного ряда, в отличие от элементов случайной выборки, не являются статистически независимыми.

    Члены временного ряда не являются одинаково распределенными.
    Временной ряд - последовательность наблюдаемых значений какого-либо признака, упорядоченных в неслучайные моменты времени.
    Отличием анализа временных рядов от анализа случайных выборок является предположение о равных промежутках времени между наблюдениями и их хронологический порядок. Привязка наблюдений ко времени играет здесь ключевую роль, тогда как при анализе случайной выборки она не имеет никакого значения.
    65

    Типичный пример временного ряда - данные биржевых торгов.
    Информация, накопленная в разнообразных базах данных предприятия, является временными рядами, если она расположена в хронологическом порядке и произведена в последовательные моменты времени.
    Анализ временного ряда осуществляется с целью:

    определения природы ряда;

    прогнозирования будущих значений ряда.
    В процессе определения структуры и закономерностей временного ряда предполагается обнаружение: шумов и выбросов, тренда, сезонной компоненты, циклической компоненты. Определение природы временного ряда может быть использовано как своеобразная "разведка" данных. Знание аналитика о наличии сезонной компоненты необходимо, например, для определения количества записей выборки, которое должно принимать участие в построении прогноза.
    Шумы и выбросы будут подробно обсуждаться в последующих лекциях курса. Они усложняют анализ временного ряда. Существуют различные методы определения и фильтрации выбросов, дающие возможность исключить их с целью более качественного
    Data Mining.
    1   2   3   4   5   6   7   8   9   10   ...   34


    написать администратору сайта