Главная страница
Навигация по странице:

  • Например, влияет ли цвет глаз покупателя на средний объем выпиваемого им пива

  • • Сколько респондентов оказалось в каждой группе • Как распределились респонденты по группам • Какие можно сделать выводы

  • кластеры. Иерархический кластерный анализ. Лабораторная работа 5. 1


    Скачать 454.88 Kb.
    НазваниеЛабораторная работа 5. 1
    Анкоркластеры
    Дата04.11.2022
    Размер454.88 Kb.
    Формат файлаpdf
    Имя файлаИерархический кластерный анализ.pdf
    ТипЛабораторная работа
    #770400

    Иерархический кластерный анализ
    Лабораторная работа №5.1

    Алгоритм иерархического кластерного анализа
    При иерархическом кластерном анализе заранее неизвестно число кластеров (групп, на которые разбивается набор объектов).
    Шаг 0. Каждое наблюдение – отдельный кластер
    Шаг 1. Два соседних кластера объединяются в один и т.д.
    Этот процесс продолжается до тех пор, пока не останутся только два кластера.
    Алгоритм работает всегда! Даже если кластеров нет, они все равно найдутся.
    Определить есть ли кластеры и сколько их позволяет
    дендрограмма
    А что делает аналитик?
    1.
    Осуществляет отбор переменных
    2.
    Определяет метод стандартизации (если это необходимо)
    3.
    Определяет каким методом вычислять расстояние между кластерами
    4.
    Определяет каким методом вычислять расстояние между объектами
    5.
    Интерпретирует результат
    2

    Рассмотрим на примере
    Задача сегментации потребителей безалкогольных напитков
    Компания провела опрос с целью выявить, какие напитки предпочитают респонденты. Опрошенные указывали, какие напитки из предложенного списка они пьют регулярно.
    В списке присутствовали:

    Coca-Cola

    диетическая Coca-Cola

    Pepsi-Cola

    диетическая Pepsi-Cola

    7-Up

    диетический 7-Up

    Спрайт

    минеральная вода
    3

    Этап 1. Отбор переменных
    Какие переменные будут использоваться при анализе?
    Очевидно, в решении данной задачи будут участвовать все переменные.
    Но задачи и данные бывают разные.

    Например, влияет ли цвет глаз покупателя на средний объем выпиваемого им пива?
    Возможно, влияет. Чтобы ответить на этот вопрос наверняка, необходимо исследовать данные.
    Критерием при отборе переменных для анализа является в первую очередь ясность интерпретации полученного результата, во вторую –
    интуиция исследователя.
    4

    Этап 2. Стандартизация данных
    Стандартизация набора данных подразумевает масштабирование данных
    , при котором
    1. Максимальное значение в выборке равно 1, минимальное равно 0 (или -1)
    2. Среднее равно 0, выборочная дисперсия равна 1
    Зачем нужна стандартизация данных?
    Представим себе, что значения переменной х находятся в диапазоне от 100 до 700, а значения переменной у – в диапазоне от 0 до 1. Тогда, при расчете величины расстояния между точками, отражающими положение объектов в пространстве, имеющая большие значения, т.е. переменная х, будет практически полностью доминировать над переменной с малыми значениями, т.е. переменной у. Таким образом из-за неоднородности единиц измерения признаков становится невозможно корректно рассчитать расстояния между точками. Эта проблема решается при помощи предварительной стандартизации переменных.
    5

    Этап 3. Расстояние между объектами

    Евклидово расстояние
    (x1, x2, x3)
    (y1, y2, y3)

    Квадрат Евклидова расстояния
    Формально, квадрат расстояния расстоянием не является. Но в некоторых случаях его использовать удобнее.

    Расстояние городских кварталов (
    Манхеттен, сити-блок)
    Расстояние между объектами определяет их «похожесть»
    6

    Что выбрать?
    На слайде 6 представлены самые популярные меры расстояний.
    Есть и другие.
    Евклидово расстояние
    – самое популярное.
    Квадрат Евклидова расстояния применяется для придания большего веса более отдаленным друг от друга объектам.
    Манхеттен чаще используется в случаях, когда в данных есть выбросы. Для этой меры влияние отдельных больших разностей
    (выбросов) уменьшается т.к. они не возводятся в квадрат.
    7

    Этап 4. Расстояние между кластерами

    Среднее невзвешенное расстояние
    (Average linkage clustering).

    Центроидный метод (Centroid
    Method).

    Метод дальнего соседа, максимального расстояния (Complete linkage clustering).

    Метод ближайшего соседа (Single linkage clustering).

    Метод Варда (Ward's method).
    Метод Варда - в обоих кластерах для всех имеющихся наблюдений производится расчет средних значений отдельных переменных. Затем вычисляются квадраты евклидовых расстояний от отдельных наблюдений каждого кластера до этого кластерного среднего значения. Эти дистанции суммируются.
    Потом в один новый кластер объединяются те кластеры, которые дают наименьший прирост общей суммы дистанций.
    8

    Вернемся к задаче
    Загрузите данные
    Применим алгоритм иерархической кластеризации
    См.
    документацию
    9

    Построение дендрограммы
    Дендрограмма
    – это визуализатор, используемый для представления результатов иерархической кластеризации. Она показывает степень близости отдельных объектов и кластеров, а также наглядно демонстрирует в графическом виде последовательность их объединения или разделения. Количество уровней дендрограммы соответствует числу шагов слияния или разделения кластеров.
    В дендрограмме, представленной на рисунке, на первом шаге группируются объекты x
    2
    и x
    3
    , образуя кластер (x
    2
    ,x
    3
    ) с минимальным расстоянием (например, Евклидовым) между объектами, примерно равным 1. Затем объекты x
    4
    и x
    5
    группируются в другой кластер (x
    4
    ,x
    5
    ) с расстоянием между ними, равным
    1,5. Расстояние между кластерами (x
    2
    ,x
    3
    ) и (x
    1
    ) также оказывается равным
    1,5, что позволяет сгруппировать их на том же уровне, что и (x
    4
    ,x
    5
    ). И наконец, два кластера (x
    1
    ,x
    2
    ,x
    3
    ) и (x
    4
    ,x
    5
    ) группируются на самом высоком уровне иерархии кластеров с расстоянием 2.
    10

    Пример
    11

    Вернемся к задаче
    12

    Проанализируйте полученный результат:

    • Сколько респондентов оказалось в каждой группе?
    • Как распределились респонденты по группам?

    • Какие можно сделать выводы?
    13


    написать администратору сайта