Главная страница

Методы экологических исследований. Основы статистической обработ. М. К. Аммосова Институт естественных наук Экологогеографическое отделение Методы экологических исследований основы статистической обработки данных учебнометодическое пособие


Скачать 5.76 Mb.
НазваниеМ. К. Аммосова Институт естественных наук Экологогеографическое отделение Методы экологических исследований основы статистической обработки данных учебнометодическое пособие
Дата08.12.2022
Размер5.76 Mb.
Формат файлаpdf
Имя файлаМетоды экологических исследований. Основы статистической обработ.pdf
ТипУчебно-методическое пособие
#835298
страница6 из 7
1   2   3   4   5   6   7
Перерасчет матрицы расстояний после первого шага кластеризации
Точки
1
2;3
4
5
6
7
8
9
10
1
0 2,2 11,7 17,9 20,3 57,8 71,2 148,4 165,5
2;3
2,2 0
8,9 15,0 17,3 55,8 68,3 146,1 163,1
4
11,7 8,9 0
6,3 9,1 47,0 59,5 137,4 154,3
5
17,9 15,0 6,3 0
3,2 40,8 53,3 132,2 148,7
6
20,3 17,3 9,1 3,2 0
38,8 51,3 131,2 147,5
7
57,8 55,8 47,0 40,8 38,8 0
12,5 95,7 110,4
8
71,2 68,3 59,5 53,3 51,3 12,5 0
85,6 99,3
9
148,4 146,1 137,4 132,2 131,2 95,7 85,6 0
20,6
10
165,5 163,1 154,3 148,7 147,5 110,4 99,3 20,6 0
В итоге полученная пересчитанная матрица расстояний стала короче первоначальной на 1 столбец и 1 строку. В новой таблице снова производится нахождение самой короткой дистанции. Наименьшее расстояние (2,2) отмечено между кластером «2;3» и объектом 1.
Производим объединение объектов в новый кластер «2;3;1». Снова производим перестроение матрицы расстояний согласно алгоритму
«ближнего соседа» основываясь на значениях из таблицы 7.4 (таблица
7.5). Вписываем в новую матрицу наиболее краткие расстояния для пары объектов «2;3» и 1. Так расстояние от точки 1 до объекта 4 равно
11,7, а от кластера «2;3» – 8,9, значит новый кластер «2;3;1» будет находиться на расстоянии 8,9 от кластера 4. Подобным образом вычисляются расстояния от кластера «2;3;1» до всех объектов (5, 6, 7,
8, 9 и 10).

71
Таблица 7.5
Перерасчет матрицы расстояний после второго шага кластеризации
Точки
2;3;1
4
5
6
7
8
9
10
2;3;1
0 8,9 15,0 17,3 55,8 68,3 146,1 163,1
4
8,9 0
6,3 9,1 47,0 59,5 137,4 154,3
5
15,0 6,3 0
3,2 40,8 53,3 132,2 148,7
6
17,3 9,1 3,2 0
38,8 51,3 131,2 147,5
7
55,8 47,0 40,8 38,8 0
12,5 95,7 110,4
8
68,3 59,5 53,3 51,3 12,5 0
85,6 99,3
9
146,1 137,4 132,2 131,2 95,7 85,6 0
20,6
10
163,1 154,3 148,7 147,5 110,4 99,3 20,6 0
Новая матрица расстояний также короче предыдущей на 1 столбик и на 1 строчку. В ней снова находим наименьшее расстояние между объектами, объединяем наиболее близкие объекты в кластер и производим перерасчет матрицы расстояний по алгоритму «метода одиночной связи», как было осуществлено на первом и втором шаге кластеризации. Подобные манипуляции проводят до тех пор, пока в таблице не будут объединены все объекты (кластеры). На последнем шаге кластеризации матрица расстояний будет состоять из 2 столбцов и 2 строчек. Ниже последовательно приведены матрицы всех последующих шагов кластеризации (Таблицы 7.6-7.11).
Таблица 7.6
Перерасчет матрицы расстояний после третьего шага кластеризации
Точки
2;3;1
4
5;6
7
8
9
10
2;3;1
0 8,9 15,0 55,8 68,3 146,1 163,1
4
8,9 0
6,3 47,0 59,5 137,4 154,3
5;6
15,0 6,3 0
38,8 51,3 131,2 147,5
7
55,8 47,0 38,8 0
12,5 95,7 110,4
8
68,3 59,5 51,3 12,5 0
85,6 99,3
9
146,1 137,4 131,2 95,7 85,6 0
20,6
10
163,1 154,3 147,5 110,4 99,3 20,6 0

72
Таблица 7.7
Перерасчет матрицы расстояний после четвертого шага кластеризации
Точки
2;3;1
5;6;4
7
8
9
10
2;3;1
0 8,9 55,8 68,3 146,1 163,1
5;6;4
8,9 0
38,8 51,3 131,2 147,5
7
55,8 38,8 0
12,5 95,7 110,4
8
68,3 51,3 12,5 0
85,6 99,3
9
146,1 131,2 95,7 85,6 0
20,6
10
163,1 147,5 110,4 99,3 20,6 0
Таблица 7.8
Перерасчет матрицы расстояний после пятого шага кластеризации
Точки
5;6;4;2;3;1
7
8
9
10
5;6;4;2;3;1
0 38,8 51,3 131,2 147,5
7
38,8 0
12,5 95,7 110,4
8
51,3 12,5 0
85,6 99,3
9
131,2 95,7 85,6 0
20,6
10
147,5 110,4 99,3 20,6 0
Таблица 7.9
Перерасчет матрицы расстояний после шестого шага кластеризации
Точки
5;6;4;2;3;1
7;8
9
10
5;6;4;2;3;1
0 38,8 131,2 147,5
7;8
38,8 0
85,6 99,3
9
131,2 85,6 0
20,6
10
147,5 99,3 20,6 0
Таблица 7.10
Перерасчет матрицы расстояний после седьмого шага кластеризации
Точки
5;6;4;2;3;1
7;8
9;10
5;6;4;2;3;1
0 38,8 131,2
7;8
38,8 0
85,6
9;10
131,2 85,6 0

73
Таблица 7.11
Перерасчет матрицы расстояний после восьмого шага кластеризации
Точки
5;6;4;2;3;1;7;8
9;10
5;6;4;2;3;1;7;8
0 85,6
9;10
85,6 0
Таким образом, на последнем шаге происходит объединение 2-х оставшихся кластеров на расстоянии 85,6 (таблица 7.11). После построения всех матриц расстояний и проведения всех шагов кластеризации наступает следующий этап кластерного анализа. Для удобства восприятия информации необходимо построить график объединения объектов исследования в кластеры (рисунок 7.3), где по горизонтальной оси откладываются название объектов (номера), а по вертикальной расстояние на котором они объединены.
Имея график объединения объектов исследования в кластеры
(дендрограмму), можно проследить, как объекты объединялись в группы, на каком расстоянии друг от друга и в какой последовательности. В зависимости от целей и задач исследования полученный древовидный график, состоящий из отдельных веток
(кластеров), соединяющих объекты исследования пошагово, можно подразделить на нужное исследователям количество групп объектов исследования (не большее, чем количество объектов исследования).
Универсальных методов выделения нужного количества кластеров на дендрограмме не существует. В разных случая применяются разные подходы. Широко используется, например, метод согласно которому количество кластеров определяется как разность между количеством объектов выборки (в нашем случае 10) и шагом кластеризации, после которого наблюдается скачкообразное увеличение расстояния объединения. В нашем случае такое скачкообразное увеличение расстояния наблюдается после 6-го шага. То есть согласно данному подходу можно выделить 4 кластера.
Также количество кластеров можно определить «на глаз» после того, как расстояние объединения начинает значительно возрастать

74
(рисунок 7.4). Для удобства можно провести линию разграничения кластеров, разделяющую отдельные группы объектов исследования.
Рисунок 7.3. Дендрограмма кластеризации методом одиночной связи
Рисунок 7.4. Один из способов выделения кластеров на дендрограмме

75
Таким образом, на дендрограмме (рисунок 7.4) произведено выделение трех кластеров. Первый кластер объединяет объекты
1,2,3,4,5,6, второй – 7,8 и третий 9 и 10. Далее производят подробное изучение каждой отдельной группы объектов исследования, сравнение групп между собой и прочие манипуляции, зависящие от целей и задач исследования. Отдельные ветки, из которых состоят крупные кластеры, нередко именуют «субкластерами». Например, первый кластер состоит из двух субкластеров: субкластера «5;6;4» и субкластера «2; 3;1».
Метод полной связи (метод дальнего соседа). Метод полной связи практически полностью совпадает с методом одиночной связи. Как и метод одиночной связи, алгоритм полной связи начинается после построения матрицы расстояний между объектами исследования. На первом шаге метода (как и для метода одиночной связи) производится объединение наиболее близкорасположенных объектов. Далее необходимо построить (как и для метода одиночной связи) новую матрицу расстояний, теперь в этой матрице объединенные на первом шаге объекты будут представлять единый кластер с указанными расстояниями до оставшихся объектов (точек). Суть метода полной связи в том, что в новых ячейках матрицы будут записаны не минимальные расстояния (как в методе одиночной связи), а максимальные расстояния от объектов, слагающих данный кластер, до оставшихся необъединенных в кластеры объектов. Чтобы понять изложенное произведем описанные манипуляции на примере (таблица
7.3).
Наименьшее расстояние в таблице 7.3 зафиксировано между объектами 2 и 3, оно составляет 1,1. На первом шаге производим объединение этих объектов в единый кластер. Осуществим перестроение матрицы расстояний таким образом, чтобы внутри этой матрицы объекты 2 и 3 были представлены единым кластером «2;3», а расстояние внутри матрицы было пересчитано в соответствии с алгоритмом «полной связи»: то есть указываем максимальное расстояние от одного из объектов кластера «2;3» до всех оставшихся объектов матрицы. Например, расстояние от точки 2 до точки 1 составляет 2,2, а расстояние от точки 3 до точки 1 составляет 3,0. Так

76 как дистанция 3,0 больше, то ее и следует записать в новую матрицу расстояний (таблица 7.12). Дистанция от точки 2 до точки 4 составляет
9,4, а от точки 3 до точки 4 – 8,9. Так как 9,4 больше 8,9, то в новую матрицу расстояний записываем
9,4.
Подобным образом устанавливаются расстояние от нового кластера до всех оставшихся точек. Расстояния между всеми остальными точками (не вошедшими в кластер) записываются без изменений.
Таблица 7.12
Перерасчет матрицы расстояний после первого шага кластеризации
методом полной связи
Точки
1
2;3
4
5
6
7
8
9
10
1
0 3,0 11,7 17,9 20,3 57,8 71,2 148,4 165,5
2;3
3,0 0
9,4 15,7 18,0 56,4 69,0 146,3 163,4
4
11,7 9,4 0
6,3 9,1 47,0 59,5 137,4 154,3
5
17,9 15,7 6,3 0
3,2 40,8 53,3 132,2 148,7
6
20,3 18,0 9,1 3,2 0
38,8 51,3 131,2 147,5
7
57,8 56,4 47,0 40,8 38,8 0
12,5 95,7 110,4
8
71,2 69,0 59,5 53,3 51,3 12,5 0
85,6 99,3
9
148,4 146,3 137,4 132,2 131,2 95,7 85,6 0
20,6
10
165,5 163,4 154,3 148,7 147,5 110,4 99,3 20,6 0
В итоге полученная пересчитанная матрица расстояний стала короче первоначальной на 1 столбец и 1 строку. В новой таблице снова производится нахождение самой короткой дистанции. Наименьшее расстояние (3,0) отмечено между кластером «2;3» и объектом 1.
Производим «шаг 2» – объединение объектов в новый кластер «2;3;1».
Снова пересчитаем матрицу расстояний согласно алгоритму «полной связи» основываясь на значениях из таблицы 7.12. Вписываем в новую матрицу (таблица 7.13) наибольшие расстояния для пары объектов
«2;3» и 1. Так расстояние от точки 1 до объекта 4 равно 11,7, а от кластера «2;3» – 9,4, значит новый кластер «2;3;1» будет находиться на расстоянии 11,7 от кластера 4. Расстояние от точки 1 до объекта 5 равно 17,9, а от кластера «2;3» – 15,7. В новую матрицу записываем максимальное значение (17,9). Подобным образом находим расстояние от нового кластера до всех оставшихся точек.

77
Таблица 7.13
Перерасчет матрицы расстояний после второго шага кластеризации
методом полной связи
Точки
2;3;1
4
5
6
7
8
9
10
2;3;1
0 11,7 17,9 20,3 57,8 71,2 148,4 165,5
4
11,7 0
6,3 9,1 47,0 59,5 137,4 154,3
5
17,9 6,3 0
3,2 40,8 53,3 132,2 148,7
6
20,3 9,1 3,2 0
38,8 51,3 131,2 147,5
7
57,8 47,0 40,8 38,8 0
12,5 95,7 110,4
8
71,2 59,5 53,3 51,3 12,5 0
85,6 99,3
9
148,4 137,4 132,2 131,2 95,7 85,6 0
20,6
10
165,5 154,3 148,7 147,5 110,4 99,3 20,6 0
Новая матрица расстояний снова короче предыдущей на 1 столбик и на 1 строчку. В ней также находим наименьшее расстояние, производим объединение наиболее близких объектов, далее осуществляем перерасчет матрицы расстояний по алгоритму «метода полной связи», как было осуществлено на первом и втором шаге кластеризации. Подобные манипуляции проводят пошагово до тех пор, пока в таблице не будут объединены все объекты (кластеры). На последнем шаге кластеризации матрица расстояний будет состоять из 2 столбцов и 2 строчек. Ниже последовательно приведены матрицы всех последующих шагов кластеризации (Таблицы 7.14-7.19).
Таблица 7.14
Перерасчет матрицы расстояний после третьего шага кластеризации
методом полной связи
Точки
2;3;1
4
5;6
7
8
9
10
2;3;1
0 11,7 20,3 57,8 71,2 148,4 165,5
4
11,7 0
9,1 47,0 59,5 137,4 154,3
5;6
20,3 9,1 0
40,8 53,3 132,2 148,7
7
57,8 47,0 40,8 0
12,5 95,7 110,4
8
71,2 59,5 53,3 12,5 0
85,6 99,3
9
148,4 137,4 132,2 95,7 85,6 0
20,6
10
165,5 154,3 148,7 110,4 99,3 20,6 0

78
Таблица 7.15
Перерасчет матрицы расстояний после четвертого шага кластеризации
методом полной связи
Точки
2;3;1
5;6;4
7
8
9
10
2;3;1
0 20,3 57,8 71,2 148,4 165,5
5;6;4
20,3 0
47,0 59,5 137,4 154,3
7
57,8 47,0 0
12,5 95,7 110,4
8
71,2 59,5 12,5 0
85,6 99,3
9
148,4 137,4 95,7 85,6 0
20,6
10
165,5 154,3 110,4 99,3 20,6 0
Таблица 7.16
Перерасчет матрицы расстояний после пятого шага кластеризации
методом полной связи
Точки
2;3;1
5;6;4
7;8
9
10
2;3;1
0 20,3 71,2 148,4 165,5
5;6;4
20,3 0
59,5 137,4 154,3
7;8
71,2 59,5 0
95,7 110,4
9
148,4 137,4 95,7 0
20,6
10
165,5 154,3 110,4 20,6 0
Таблица 7.17
Перерасчет матрицы расстояний после шестого шага кластеризации
методом полной связи
Точки
2;3;1;5;6;4
7;8
9
10
2;3;1;5;6;4
0 71,2 148,4 165,5
7;8
71,2 0
95,7 110,4
9
148,4 95,7 0
20,6
10
165,5 110,4 20,6 0
Таблица 7.18
Перерасчет матрицы расстояний после седьмого шага кластеризации
методом полной связи
Точки
2;3;1;5;6;4
7;8
9;10
2;3;1;5;6;4
0 71,2 165,5
7;8
71,2 0
110,4
9;10
165,5 110,4 0

79
Таблица 7.19
Перерасчет матрицы расстояний после восьмого шага кластеризации
методом полной связи
Точки
2;3;1;5;6;4;7;8
9;10
2;3;1;5;6;4;7;8
0 165,5
9;10
165,5 0
Таким образом, на последнем шаге происходит объединение 2-х оставшихся кластеров на расстоянии 165,5. После построения всех матриц расстояний и проведения всех шагов кластеризации, как и в случае применения алгоритма одиночной связи, необходимо построить дендрограмму (рисунок 7.5).
Рисунок 7.5. Дендрограмма кластеризации методом полной связи
Далее на дендрограмме выделяют количество групп объектов исследования в зависимости от целей и задач, стоящих перед исследователями. Одним из способов выделения кластеров является проведение линии разделения кластеров в месте резкого увеличения расстояния объединения кластеров (рисунок 7.6). На рисунке 7.6

80 показан один из вариантов разделения дендрограммы на отдельные группы.
Таким образом, на дендрограмме (рисунок 7.8) произведено выделение трех кластеров. Первый кластер объединяет объекты
1,2,3,4,5,6, второй – 7,8 и третий 9 и 10. Далее производят подробное изучение каждой отдельной группы объектов исследования, сравнение групп между собой и прочие манипуляции, зависящие от целей и задач исследования. Также можно рассмотреть группы объектов внутри кластеров – субкластеры.
Рисунок 7.6. Один из способов выделения кластеров на дендрограмме
Метод невзвешенного попарного среднего арифметического
(unweighted pair-group method using arithmetic averages, UPGMA). Этот метод также схож с описанными выше алгоритмами кластеризации.
Также как и в предыдущих методах на каждом шаге происходит объединение наиболее близких объектов в кластеры. Различия метода заключаются в особенностях перерасчета расстояний от образованного кластера и остальных объектов.
Перерасчет расстояния будет осуществляться по формуле (7.4):

81
, (7.4) где d(AB,C) – это расстояние от кластера, образованного путем соединения объектов (кластеров) A и B, до объекта (кластера) C;
N
A
– количество объектов в кластере A;
N
B
– количество объектов в кластере B;
d(A,C) – расстояние от кластера A до кластера C;
d(B,C) – расстояние от кластера B до кластера C.
На примере таблицы 7.3 по аналогии с предыдущими алгоритмами кластеризации проведем кластерный анализ методом невзвешенного попарного среднего арифметического. Итак, имея матрицу расстояний
(таблица 7.3), на первом шаге кластеризации проведем объединение двух наиболее близких объектов: 2 и 3 (расстояние 1,1). Далее произведем перерасчет расстояний между образованным кластером
«2;3» и оставшимися объектами по формуле (7.4).
Расчет расстояния от кластера «2;3» до объекта 1:
Расчет расстояния от кластера «2;3» до объекта 4:
Расчет расстояния от кластера «2;3» до объекта 5:
Расчет расстояния от кластера «2;3» до объекта 6:
Расчет расстояния от кластера «2;3» до объекта 7:
Расчет расстояния от кластера «2;3» до объекта 8:
Расчет расстояния от кластера «2;3» до объекта 9:
Расчет расстояния от кластера «2;3» до объекта 9:

82
После того, как все расстояния будут рассчитаны, произведем построение новой матрицы расстояний (таблица 7.20).
Таблица 7.20
1   2   3   4   5   6   7


написать администратору сайта