Главная страница

10_Кластерный анализ. 10. 1 Процедура кластерного анализа 10 1 Основные понятия


Скачать 391 Kb.
Название10. 1 Процедура кластерного анализа 10 1 Основные понятия
Анкор10_Кластерный анализ.doc
Дата17.12.2017
Размер391 Kb.
Формат файлаdoc
Имя файла10_Кластерный анализ.doc
ТипРешение
#11873
страница7 из 7
1   2   3   4   5   6   7

10.5.3 Определение количества кластеров


Выбор числа кластеров является сложным вопросом. Предположения о числе кластеров могут базироваться на теоретических исследованиях или интуитивных соображениях.

Если нет предположений относительно этого числа, то можно использовать предварительный иерархический кластерный анализ. Процессу группировки объектов в иерархическом кластерном анализе соответствует постепенное возрастание коэффициента, называемого критерием . Скачкообразное увеличение значения критерия характеризует переход от сильно связанного к слабо связанному состоянию объектов. Число кластеров, которые действительно существуют в исследуемом наборе данных, рассчитывают как разность количества наблюдений (объектов) и количества шагов до скачкообразного увеличения коэффициента.

Если кластеризируемая совокупность слишком велика для иерархического анализа, то для предварительного определения числа кластеров можно произвести иерархический кластерный анализ на выборке из этой совокупности. Полученное число кластеров можно использовать для неиерархического анализа. Рекомендуется провести кластерный анализ для нескольких значений числа кластеров: , , .

10.6 Этапы процесса кластеризации


В общем случае все этапы кластерного анализа взаимосвязаны, и решения, принятые на одном из них, определяют действия на последующих этапах.

1. Аналитику следует решить, использовать ли все наблюдения либо же исключить некоторые данные или выборки из набора данных.

2. Выбор метрики и метода стандартизации исходных данных.

3. Определение количества кластеров (для итеративного кластерного анализа).

4. Определение метода кластеризации (правила объединения или связи). По мнению многих специалистов, выбор метода кластеризации является решающим при определении формы и специфики кластеров.

5. Анализ результатов кластеризации. Этот этап подразумевает решение таких вопросов: не является ли полученное разбиение на кластеры случайным; является ли разбиение надежным и стабильным на подвыборках данных; существует ли взаимосвязь между результатами кластеризации и переменными, которые не участвовали в процессе кластеризации; можно ли интерпретировать полученные результаты кластеризации.

6. Проверка результатов кластеризации. Результаты кластеризации должны быть проверены формальными и неформальными методами. Формальные методы зависят от того метода, который использовался для кластеризации. Неформальные включают следующие процедуры проверки качества кластеризации:

    • анализ результатов кластеризации, полученных на определенных выборках набора данных;

    • кросс-проверка;

    • проведение кластеризации при изменении порядка наблюдений в наборе данных;

    • проведение кластеризации при удалении некоторых наблюдений;

    • проведение кластеризации на небольших выборках.

Один из вариантов проверки качества кластеризации - использование нескольких методов и сравнение полученных результатов. Отсутствие подобия не будет означать некорректность результатов, но присутствие похожих групп считается признаком качественной кластеризации.

Как и любые другие методы, методы кластерного анализа имеют определенные слабые стороны, т.е. некоторые сложности, проблемы и ограничения.

При проведении кластерного анализа следует учитывать, что результаты кластеризации зависят от критериев разбиения совокупности исходных данных. При понижении размерности данных могут возникнуть определенные искажения, за счет обобщений могут потеряться некоторые индивидуальные характеристики объектов.

Существует ряд сложностей, которые следует продумать перед проведением кластеризации.

    • Сложность выбора характеристик, на основе которых проводится кластеризация. Необдуманный выбор приводит к неадекватному разбиению на кластеры и, как следствие, - к неверному решению задачи.

    • Сложность выбора метода кластеризации. Этот выбор требует неплохого знания методов и предпосылок их использования. Чтобы проверить эффективность конкретного метода в определенной предметной области, целесообразно применить следующую процедуру: рассматривают несколько априори различных между собой групп и перемешивают их представителей между собой случайным образом. Далее проводится кластеризация для восстановления исходного разбиения на кластеры. Доля совпадений объектов в выявленных и исходных группах является показателем эффективности работы метода.

    • Проблема выбора числа кластеров. Если нет никаких сведений относительно возможного числа кластеров, необходимо провести ряд экспериментов и, в результате перебора различного числа кластеров, выбрать оптимальное их число.

    • Проблема интерпретации результатов кластеризации. Форма кластеров в большинстве случаев определяется выбором метода объединения. Однако следует учитывать, что конкретные методы стремятся создавать кластеры определенных форм, даже если в исследуемом наборе данных кластеров на самом деле нет.

Выбор метода кластеризации зависит от количества данных и от того, есть ли необходимость работать одновременно с несколькими типами данных.

В пакете SPSS, например, при необходимости работы как с количественными (например, доход), так и с категориальными (например, семейное положение) переменными, а также при достаточно большом объеме данных используется метод Двухэтапного кластерного анализа. Этот метод представляет собой масштабируемую процедуру кластерного анализа, позволяющую работать с данными различных типов.

Для этого на первом этапе работы записи предварительно кластеризуются в большое количество суб-кластеров. На втором этапе полученные суб-кластеры группируются в необходимое количество. Если это количество неизвестно, процедура сама автоматически определяет его. При помощи этой процедуры банковский работник может, например, выделять группы людей, одновременно используя такие показатели как возраст, пол и уровень дохода. Полученные результаты позволяют определить клиентов, входящих в группы риска невозврата кредита.

В некоторых случаях требуется дополнительная подготовка данных перед проведением кластерного анализа. Пусть существует база данных клиентов фирмы, которых следует разбить на однородные группы. Каждый клиент описывается при помощи 25 переменных. Использование такого большого числа переменных приводит к выделению кластеров нечеткой структуры. В результате аналитику достаточно сложно интерпретировать полученные кластеры. Более понятные и прозрачные результаты кластеризации могут быть получены, если вместо множества исходных переменных использовать некие обобщенные переменные или факторы, содержащие в сжатом виде информацию о связях между переменными. Т.е. возникает задача понижения размерности данных до кластеризации. Она может решаться при помощи различных методов; один из наиболее распространенных - факторный анализ.

10.7 Сравнительный анализ иерархических и неиерархических методов кластеризации


Перед проведением кластеризации может возникнуть вопрос, какой группе методов кластерного анализа отдать предпочтение. Выбирая между иерархическими и неиерархическими методами, необходимо учитывать следующие их особенности.

Неиерархические методы выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых переменных в набор, участвующий в кластеризации. Однако при этом нужно заранее определить количество кластеров, количество итераций или правило остановки, а также некоторые другие параметры кластеризации.

Если нет предположений относительно числа кластеров, рекомендуют использовать иерархические алгоритмы. Однако если объем выборки не позволяет это сделать, возможный путь - проведение ряда экспериментов с различным количеством кластеров, например, начать разбиение совокупности данных с двух групп и, постепенно увеличивая их количество, сравнивать результаты. За счет такого "варьирования" результатов достигается достаточно большая гибкость кластеризации.

Иерархические методы, в отличие от неиерархических, отказываются от определения числа кластеров, а строят полное дерево вложенных кластеров.

Сложности иерархических методов кластеризации: ограничение объема набора данных; выбор меры близости; негибкость полученных классификаций.

Преимущество этой группы методов в сравнении с неиерархическими методами - их наглядность и возможность получить детальное представление о структуре данных.

При использовании иерархических методов существует возможность достаточно легко идентифицировать выбросы в наборе данных и, в результате, повысить качество данных. Эта процедура лежит в основе двухшагового алгоритма кластеризации. Такой набор данных в дальнейшем может быть использован для проведения неиерархической кластеризации.

Иерархические методы не могут работать с большими наборами данных, в таких случая возможно рассмотрение некоторой выборки из набора исходных данных.

10.8 Иерархический кластерный анализ в SPSS


Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), так и переменных (столбцов). Можно считать, что в последнем случае роль объектов играют строки, а роль переменных - столбцы.

Для исключения вероятности того, что классификацию будут определять переменные, имеющие наибольший разброс значений используется процедура стандартизации. В SPSS применяются следующие виды стандартизации:

  • Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение.

  • Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от -1 до 1.

  • Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.

  • Максимум 1. Значения переменных делятся на их максимум.

  • Среднее 1. Значения переменных делятся на их среднее.

  • Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.

Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.

Результат работы любого алгоритма кластеризации зависит от способов вычисления расстояния между объектами и определения близости между кластерами.

Для определения расстояния между парой кластеров в процессе их объединения в SPSS предусмотрены следующие методы:

  • Среднее расстояние между кластерами (Between-groups linkage), (устанавливается по умолчанию).

  • Среднее расстояние между всеми объектами кластеров с учетом расстояний внутри кластеров (Within-groups linkage).

  • Расстояние между ближайшими соседями - ближайшими объектами кластеров (Nearest neighbor).

  • Расстояние между самыми далекими соседями (Furthest neighbor).

  • Расстояние между центрами кластеров (Centroid clustering) или центроидный метод. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров без учета их объема.

  • Метод медиан - тот же центроидный метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering).

Проведение иерархического кластерного анализа путем агломерации представляется при помощи протокола объединения кластеров (таблица10.1) и дендрограммы. Дендрограмма для примера приведена на рис. 10.5.

В протоколе указаны такие позиции:

  • Stage - стадии объединения (шаг);

  • Cluster Combined - объединяемые кластеры (после объединения кластер принимает минимальный номер из номеров объединяемых кластеров);

  • Coefficients - коэффициенты.

Таблица 10.1. Порядок агломерации Cluster Combined Coefficients (протокол объединения кластеров)

Шаг

Кластер 1

Кластер 2

Коэффициент

1

9

10

,000

2

2

14

1,461E-02

3

3

9

1,461E-02

4

5

8

1,461E-02

5

6

7

1,461E-02

6

3

13

3,490E-02

7

2

11

3,651E-02

8

4

5

4,144E-02

9

2

6

5,118E-02

10

4

12

,105

11

1

3

,120

12

1

4

1,217

13

1

2

7,516


Так, в таблице можно увидеть порядок объединения в кластеры: на первом шаге были объединены наблюдения 9 и 10, они образовывают кластер под номером 9, кластер 10 в обзорной таблице больше не появляется. На следующем шаге происходит объединение кластеров 2 и 14, далее 3 и 9, и т.д.

В колонке Коэффициент приведено расстояние между двумя кластерами, определенное на основании выбранной меры расстояния. В данном случае это квадрат евклидова расстояния, определенный с использованием стандартизированных значений.



Рис. 10.7. Дендрограмма процесса агломерации

Для определения числа кластеров анализируем изменение значений поля Coefficients: в примере это скачок с 1,217 до 7,516. Оптимальным считается количество кластеров, равное разности количества наблюдений (14) и количества шагов до скачкообразного увеличения коэффициента (12).

Следовательно, после создания двух кластеров объединений больше производить не следует, хотя визуально можно предположить наличие трех кластеров.
1   2   3   4   5   6   7


написать администратору сайта