Курсач по кластеризации. Конспект. Кластеризация это разделение множества входных векторов на группы (кластеры) по степени схожести друг на друга. Метрики, критерии сравнения для объектов. Евклидово расстояние
Скачать 14.71 Kb.
|
Кластеризация — это разделение множества входных векторов на группы (кластеры) по степени «схожести» друг на друга. Метрики, критерии сравнения для объектов. Евклидово расстояние — наиболее распространенное расстояние. Оно является геометрическим расстоянием в многомерном пространстве. Квадрат евклидова расстояния. Иногда может возникнуть желание возвести в квадрат стандартное евклидово расстояние, чтобы придать большие веса более отдаленным друг от друга объектам. Расстояние городских кварталов (манхэттенское расстояние). Это расстояние является просто средним разностей по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). И т.д. Алгоритм k-means Множество векторного пространство разбивается на заранее известное число кластеров. Действие алгоритма таково, что он стремится минимизировать среднеквадратичное отклонение на точках каждого кластера. Основная идея заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике. Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров. * необходимо заранее знать количество кластеров. * алгоритм очень чувствителен к выбору начальных центров кластеров. Алгоритм с-means Вместо однозначного ответа на вопрос к какому кластеру относится объект, он определяет вероятность того, что объект принадлежит к тому или иному кластеру. Кластеризация временных рядов |