лабораторная работа №3 Иерархическая кластеризация. Лабораторная работа 3 Иерархическая кластеризация Теоретическая часть
![]()
|
Лабораторная работа №3 «Иерархическая кластеризация» Теоретическая часть Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т. д Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Деревья кластеризации Назначение алгоритма построения деревьев кластеризации заключается в постепенном объединении объектов в достаточно большие кластеры, используя меры расстояния и сходства между объектами. На первом шаге каждый объект является кластером. При переходе к следующему шагу группы объектов объединяются в кластеры на основе меры расстояния и выбранного метода. На каждом следующем шаге процедура повторяется для наиболее «близких» друг к другу кластеров. Например, так выглядит процедура построения дерева на первых шагах для ирисов.
Наглядным образом можно представить результат процедуры в виде дерева. Использующиеся меры расстояния между объектами: Евклидово расстояние ![]() Расстояние городских кварталов (манхэттенское): ![]() Расстояние Чебышева: ![]() Использующиеся способы объединения кластеров : Одиночная связь (метод ближайшего соседа). В этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод Варда. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. Ниже приведены деревья классификации по расстоянию между объектами. Принцип объединения - одиночная связь, расстояние – евклидово. ![]() Принцип объединения - одиночная связь, расстояние – чебышевское ![]() ![]() 2.1 Принцип объединения - полная связь, расстояние – евклидово ![]() Принцип объединения - полная связь, расстояние – чебышевское ![]() ![]() ![]() 3.2 Принцип объединения – метод Варда, расстояние – чебышевское ![]() 3.3 Принцип объединения – метод Варда, расстояние – манхэттенское ![]() ![]() 4.2 Принцип объединения – невзвешенное попарное среднее, расстояние – чебышевское ![]() ![]() Принцип объединения - одиночная связь, расстояние – евклидово ![]()
Принцип объединения - одиночная связь, расстояние – чебышевское ![]()
Принцип объединения - одиночная связь, расстояние – манхэттенское ![]()
Принцип объединения - полная связь, расстояние – евклидово ![]()
Принцип объединения - полная связь, расстояние – чебышевское ![]()
Принцип объединения - полная связь, расстояние – манхэттенское ![]()
|