лабораторная работа №3 Иерархическая кластеризация. Лабораторная работа 3 Иерархическая кластеризация Теоретическая часть
Скачать 0.51 Mb.
|
Лабораторная работа №3 «Иерархическая кластеризация» Теоретическая часть Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т. д Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Деревья кластеризации Назначение алгоритма построения деревьев кластеризации заключается в постепенном объединении объектов в достаточно большие кластеры, используя меры расстояния и сходства между объектами. На первом шаге каждый объект является кластером. При переходе к следующему шагу группы объектов объединяются в кластеры на основе меры расстояния и выбранного метода. На каждом следующем шаге процедура повторяется для наиболее «близких» друг к другу кластеров. Например, так выглядит процедура построения дерева на первых шагах для ирисов.
Наглядным образом можно представить результат процедуры в виде дерева. Использующиеся меры расстояния между объектами: Евклидово расстояние Расстояние городских кварталов (манхэттенское): Расстояние Чебышева: Использующиеся способы объединения кластеров : Одиночная связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод Варда. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. Ниже приведены деревья классификации по расстоянию между объектами. Принцип объединения - одиночная связь, расстояние – евклидово. Принцип объединения - одиночная связь, расстояние – чебышевское 1.3 Принцип объединения - одиночная связь, расстояние – манхэттенское 2.1 Принцип объединения - полная связь, расстояние – евклидово Принцип объединения - полная связь, расстояние – чебышевское 2.3 Принцип объединения - полная связь, расстояние – манхэттенское 3.1 Принцип объединения – метод Варда, расстояние – евклидово 3.2 Принцип объединения – метод Варда, расстояние – чебышевское 3.3 Принцип объединения – метод Варда, расстояние – манхэттенское 4.1 Принцип объединения – невзвешенное попарное среднее, расстояние – евклидово 4.2 Принцип объединения – невзвешенное попарное среднее, расстояние – чебышевское 4.3. Принцип объединения – невзвешенное попарное среднее, расстояние – манхэттенское Можно объединять объекты в группы не только по расстоянию между объектами, но и по расстоянию между признаками. Принцип объединения - одиночная связь, расстояние – евклидово
Принцип объединения - одиночная связь, расстояние – чебышевское
Принцип объединения - одиночная связь, расстояние – манхэттенское
Принцип объединения - полная связь, расстояние – евклидово
Принцип объединения - полная связь, расстояние – чебышевское
Принцип объединения - полная связь, расстояние – манхэттенское
|