Главная страница

Методы экологических исследований. Основы статистической обработ. М. К. Аммосова Институт естественных наук Экологогеографическое отделение Методы экологических исследований основы статистической обработки данных учебнометодическое пособие


Скачать 5.76 Mb.
НазваниеМ. К. Аммосова Институт естественных наук Экологогеографическое отделение Методы экологических исследований основы статистической обработки данных учебнометодическое пособие
Дата08.12.2022
Размер5.76 Mb.
Формат файлаpdf
Имя файлаМетоды экологических исследований. Основы статистической обработ.pdf
ТипУчебно-методическое пособие
#835298
страница5 из 7
1   2   3   4   5   6   7
Критические значения U-критерия Манна-Уитни при p=0,05
[Billiet, 2003]
n
1
n
2
7
8
9
10
11
12
13
14
15
16
17
18
3
1 2
2 3
3 4
4 5
5 6
6 7
4
3 4
4 5
6 7
8 9
10 11 11 12
5
5 6
7 8
9 11 12 13 14 15 17 18
6
6 8
10 11 13 14 16 17 19 21 22 24
7
8 10 12 14 16 18 20 22 24 26 28 30
8
10 13 15 17 19 22 24 26 29 31 34 36
9
12 15 17 20 23 26 28 30 34 37 39 42
10
14 17 20 23 26 29 33 36 39 42 45 48
11
16 19 23 26 30 33 37 40 44 48 51 55
12
18 22 26 29 33 37 41 45 49 53 57 61
13
20 24 28 33 37 41 45 50 54 59 63 67
14
22 26 31 36 40 45 50 55 59 64 67 74
15
24 29 34 39 44 49 54 59 64 70 75 80
16
26 31 37 42 47 53 59 64 70 75 81 86
17
28 34 39 45 51 57 63 67 75 81 87 93
18
30 36 42 48 55 61 67 74 80 86 93 99
19
32 38 45 52 58 65 72 78 85 92 99 106
20
34 41 48 55 62 69 76 83 90 98 105 112

56
Пример вычисления U-критерия Манна-Уитни. Даны значения длины стволов двух групп одновозрастных берез (таблица 6.14).
Первая группа включает 10 деревьев, произрастающих у предприятия, осуществляющего, вероятно, негативное воздействие на рост деревьев.
Вторая группа, расположенная вдали от негативного воздействия предприятия, включает 12 берез. Существует гипотеза, что березы второй группы выше. Необходимо это проверить, применив U- критерий Манна-Уитни.
Таблица 6.14
Значения длины ствола двух групп сосен

Значения длины ствола деревьев, расположенных близ предприятия, м
Значение длины ствола на фоновом участке, м
1 5
6 2
5,5 6,1 3
6 7
4 4,5 7,1 5
6,1 6,2 6
4,7 6,5 7
4,8 6,4 8
5,1 6,0 9
4,4 6,2 10 4,4 6,7 11 6,1 12 6,3
Перед началом всех манипуляций произведем выделения объектов выборки 1 (березы у предприятия) и объектов выборки 2 (березы на фоновом участке) графически, для того, чтобы знать какой выборке принадлежат объекты. Для этого можно воспользоваться различными цветами, например, окрасить значения выборки 1 в зеленый цвет, а значения выборки 2 в красный (таблица 6.15).
Таблица 6.15
Графическое выделение объектов выборки 1 и выборки 2

Значения длины ствола деревьев, расположенных близ предприятия, м
Значение длины ствола на фоновом участке, м
1 5
6 2
5,5 6,1

57 3
6 7
4 4,5 7,1 5
6,1 6,2 6
4,7 6,5 7
4,8 6,4 8
5,1 6,0 9
4,4 6,2 10 4,4 6,7 11 6,1 12 6,3
Объединим обе выборки в единый ряд данных и произведем сортировку значений от меньшего к большему (таблица 6.16).
Таблица 6.16
Единый ряд отсортированных в порядке возрастания данных

Единый ряд данных
1 4,4 2
4,4 3
4,5 4
4,7 5
4,8 6
5 7
5,1 8
5,5 9
6 10 6
11 6
12 6,1 13 6,1 14 6,1 15 6,2 16 6,2 17 6,3 18 6,4 19 6,5 20 6,7 21 7
22 7,1

58
Далее, производим ранжирование единого ряда с присвоением рангов от меньшего значения к большему. Ранги указываем в отдельном столбике таблицы согласно руководству, приведенному при описании процедуры вычисления
U-критерия.
Для всех повторяющихся значений единого ряда данных (4,4; 6; 6,1 и 6,2) ранг
(
) будет вычислен как среднее арифметическое порядковых номеров данных значений в отсортированном ряде. Порядковые номера отражены в 1-ом столбце таблицы 6.16.
Для всех остальных значений ранг будет соответствовать их порядковому номеру в отсортированном ряде (таблица 6.17).
Таблица 6.17
Ранжированный единый ряд отсортированных в порядке возрастания
данных

Единый ряд данных
Ранг
1 4,4 1,5 2
4,4 1,5 3
4,5 3
4 4,7 4
5 4,8 5
6 5
6 7
5,1 7
8 5,5 8
9 6
10 10 6
10 11 6
10 12 6,1 13 13 6,1 13 14 6,1 13 15 6,2 15,5 16 6,2 15,5 17 6,3 17

59 18 6,4 18 19 6,5 19 20 6,7 20 21 7
21 22 7,1 22
Далее высчитываем сумму рангов, принадлежащих первой выборке
(выделены зеленым цветом) T
1
, и сумму рангов внутри второй выборки
(выделены красным цветом) T
2
Большую из ранговых сумм (194) используем для вычисления U- критерия (U) по формуле (6.7):
Сопоставляем вычисленное значение U-критерия (U=4) с его табличным критическим значением (U
кр
) при уровне статистической значимости p<0,05. Критическое значение равно 29. Так как расчетное значение меньше табличного (т.е. 4<29), то различия выборок статистически значимы. Соответственно деревья фонового участка действительно выше таковых, произрастающих близ предприятия.
Задания к разделу 6 для самостоятельного выполнения
1. Используя критерии для зависимых данных (t-критерий Стьюдента и T- критерия Уилкоксона), определить значимость различий характеристик, указанных в таблице 6.18
Таблица 6.18.
Значения сбросов водопользователей до внедрения водоочистных
установок и после внедрения

Сбросы предприятия до внедрения водоочистных установок, т/год
Выбросы предприятия после внедрения водоочистных установок, т/год
1 2,4 1,6 2
2,8 2,2

60 3
4,2 3,5 4
6,2 6,5 5
3,1 2,5 6
5,3 4,8 7
5,2 4
8 2,3 1,5 9
3,1 2,9 10 2,8 2,7 2. Используя критерии для независимых данных (t-критерий Стьюдента и
U-критерий Манна-Уитни), определить значимость различий характеристик, указанных в таблице 6.19
Таблица 6.19
Значения массы тела взрослых самцов двух популяций волка

Значения массы тела 1-ой популяции, кг
Значения массы тела 2-ой популяции, кг
1 53,6 42 2
46,3 43 3
44,2 42,5 4
49,1 42,5 5
48,1 43,3 6
47 42 7
46 44,3 8
49,2 44 9
46,5 43,1 10 48,3 42 11 49,3 42,9 12 46 13 50,1 14 49,2 15 48

61
7. Группировка объектов исследования с применением процедур
иерархического кластерного анализа
В случаях, когда большое количество объектов исследования с заданными характеристиками нужно подразделить на отдельные группы применяют кластерный анализ. Кластерный анализ – это целая группа методов группировки объектов или признаков (характеристик) объектов. В данном разделе будут рассмотрены общие принципы кластерного анализа (иерархического кластерного анализа) и основные широко употребляемые методы.
Принципы кластерного анализа основаны на том, что между исследуемыми объектами (точками), обладающими конкретными значениями признаков (координатами), можно установить расстояние.
Объекты, расположенные на небольшом удалении друг от друга, образуют сходную группу (кластер), объекты, расположенные на большом удалении, представляют разные группы (кластеры).
Для лучшего понимания темы рассмотрим простой графический пример. Дано 10 предприятий с различной численностью персонала и количеством производимых отходов (таблица 7.1).
Таблица 7.1
Количество отходов, производимое предприятием с различной
численностью работников
Предприятия Количество работников, ед.
Количество отходов, ц/год
1 5
6 2
7 7
3 8
6,5 4
15 12 5
21 14 6
24 13 7
56 35 8
67 41 9
100 120 10 120 125

62
По значениям таблицы 7.1 построим двумерный график распределения предприятий по значениям, указанным в столбиках 2 и
3 (рисунок 7.1).
Рисунок 7.1. Количество отходов, производимое предприятием с различной численностью работников
На данном рисунке можно выделить 3 отдельные группы точек
(предприятий) (рисунок 7.2). Группа 1 (кластер 1) предприятия с небольшой численностью персонала и с относительно небольшим количеством производимых отходов, группа 2 – предприятия со средним количеством работников и производимых отходов и группа 3
– предприятия с большой численностью персонала и большим количеством производимых отходов.
В указанном примере произведено определение расстояний между точками, без каких бы то ни было вычислений. На графике и так видно, какие точки расположены близко, а какие на значительном расстоянии.
В указанном примере мы визуально оценили геометрическое
(евклидово) расстояние между объектами, рассчитываемое по формуле
(7.1).

, (7.1)

63 где d(A,B) – евклидово расстояние между точками A и B;
x
i
– координата x соответствующей точки;
y
i
– координата y соответствующей точки.
Рисунок 7.2. Выделенные кластеры
В случае если объекты исследования характеризуются 3 признаками, то они будут обладать 3 координатами. В этом случае формула для евклидова расстояния принимает следующий вид (7.2):

, (7.2) где d(A,B) – евклидово расстояние между точками A и B;
x
i
– координата x соответствующей точки;
y
i
– координата y соответствующей точки;
z
i
– координата z соответствующей точки.
В этом случае также можно построить трехмерный график функции, на котором будут изображены точки. Но что делать, если характеристик объектов исследования будет больше 3? Как представить себе эту картину в пространстве? В этом случае наглядный график построить не представляется возможным, однако расстояние между объектами и в этом случае можно определить. В

64 формулу евклидова расстояния только лишь нужно будет добавить новые координаты. Координат будет столько, сколько параметров, характеризующих объекты исследования. В этом случае говорят о евклидовом расстоянии в многомерном пространстве (7.3):

,
(7.3) где d(A,B) – евклидово расстояние между точками A и B;
x
i
– координата x соответствующей точки;
y
i
– координата y соответствующей точки;
z
i
– координата z соответствующей точки;
n
i
– координата n соответствующей точки (количество совпадает с количеством характеристик).
Пример расчета евклидова расстояния. Допустим, имеются сведения о характеристиках 2-х организаций (таблица 7.2).
Таблица 7.2
Сведения об организациях
Организация
Количество работников, ед.
Количество отходов, ц/год
Количество автотранспорта, ед.
Ежегодный расход бумаги, ящ./год
Офис
5 6
1 3
Типография
7 7
1 3,5
Произведем расчет евклидова расстояния, применив формулу (7.3) и сведения из таблицы 7.2:

=2,3.
Евлидово расстояние не единственная мера близости объектов, однако, в кластерном анализе оно используется наиболее часто, поэтому для объяснения процедур кластерного анализа далее будет использовано именно оно. Итак, что же нужно сделать после вычисления расстояния между объектами? Для удобства изложения ниже приведены все основные этапы кластерного анализа.
Этапы кластерного анализа. Для проведения кластерного анализа необходимо произвести следующие действия:

65 1. Рассчитать расстояние между всеми объектами (как было указано ранее);
2. Произвести объединение наиболее близких точек. Далее, согласно одному из алгоритмов объединения (метод одиночной связи, метод полной связи или метод невзвешенного попарного среднего арифметического) произвести последовательное (на каждом шаге присоединяется 1 объект) объединение всех исследуемых объектов в кластеры (группы);
3. Построить график расстояний объединения объектов
(дендрограмму);
4. Определить на дендрограмме количество кластеров, которые следует выделить для указанных объектов исследования.
1. Расчет расстояния между всеми объектами (точками).
Расстояние должно быть рассчитано между всеми объектами исследования. Для простоты расчетов расстояний возьмем таблицу 7.1.
Расстояние между объектами таблицы 7.2 рассчитывалось бы точно также, но координат было бы больше.
Итак, применяя формулу (7.3) рассчитаем расстояние между первой точкой и всеми остальными, далее между второй точкой и всеми оставшимися, между третьей точкой и всеми объектами и т.д., пока не будет вычислено расстояние между всеми точками.
Сначала произведем расчет евклидова расстояния между первым объектом и всеми остальными:

;

;



;





66
Далее произведем расчет евклидова расстояния между вторым объектом и всеми остальными, кроме первого. Расстояние от второго до первого (d(2,1)) уже рассчитано, оно соответствует дистанции d(1,2). Нет разницы, как измерять расстояние: от первого объекта до второго или от второго до первого. Оно будет равным.

;



;




Произведем расчет евклидова расстояния между третьим объектом и всеми остальными, кроме первого и второго (эти расстояния уже рассчитаны).



;




Произведем расчет евклидова расстояния между четвертым объектом и всеми оставшимися, кроме первого, второго и третьего.


;



67


Произведем расчет евклидова расстояния между пятым объектом и оставшимися, кроме первого, второго, третьего и четвертого.

;




Произведем расчет евклидова расстояния между шестым объектом и всеми остальными, кроме первого, второго, третьего, четвертого и пятого.




Произведем расчет евклидова расстояния между седьмым объектом и всеми остальными, кроме первого, второго, третьего, четвертого, пятого и шестого.



Произведем расчет евклидова расстояния между восьмым объектом и всеми остальными, кроме первого, второго, третьего, четвертого, пятого, шестого и седьмого.


Произведем расчет евклидова расстояния между девятым объектом и оставшимися, кроме первого, второго, третьего, четвертого, пятого, шестого, седьмого и восьмого.

68

Таким образом, получены расстояния между всеми имеющимися точками. Далее для более удобного восприятия информации результаты вычислений записывают в виде матрицы расстояний, то есть в виде таблицы с указанием расстояний между объектами
(точками) (таблица 7.3).
Таблица 7.3
Матрица расстояний между точками
Точки
1
2
3
4
5
6
7
8
9
10
1
0 2,2 3,0 11,7 17,9 20,3 57,8 71,2 148,4 165,5
2
2,2 0
1,1 9,4 15,7 18,0 56,4 69,0 146,3 163,4
3
3,0 1,1 0
8,9 15,0 17,3 55,8 68,3 146,1 163,1
4
11,7 9,4 8,9 0
6,3 9,1 47,0 59,5 137,4 154,3
5
17,9 15,7 15,0 6,3 0
3,2 40,8 53,3 132,2 148,7
6
20,3 18,0 17,3 9,1 3,2 0
38,8 51,3 131,2 147,5
7
57,8 56,4 55,8 47,0 40,8 38,8 0
12,5 95,7 110,4
8
71,2 69,0 68,3 59,5 53,3 51,3 12,5 0
85,6 99,3
9
148,4 146,3 146,1 137,4 132,2 131,2 95,7 85,6 0
20,6
10
165,5 163,4 163,1 154,3 148,7 147,5 110,4 99,3 20,6 0
Первый столбец и первая строка таблицы 7.3 содержат название объектов исследования, наименования точек между которыми произведено определение расстояния. Евклидово расстояние указано в ячейках, расположенных на пересечении номеров соответствующих объектов. Для одного объекта номер берем из первого столбца, для второго из первой строки. Так, на пересечении строк и столбцов с одинаковыми номерами указано число 0, что обусловлено тем, что расстояние объекта «до самого себя» равно 0. Таким образом, в матрице расстояний имеется «диагональ» из нолей, относительно которой, все числа зеркально отражены. В результате чего матрицей удобно пользоваться: легко можно отсчитывать расстояние, как от строки, так и от столбца. Результаты будут одинаковыми.

69
2. Объединение объектов (точек), с применением различных
алгоритмов кластерного анализа. В наиболее обобщенном виде процедура объединения объектов в кластеры (группы) выглядит следующим образом: после построения матрицы расстояний между объектами исследования (таблица 7.3) необходимо произвести объединение двух наиболее близкорасположенных объектов. После их объединения производится объединение следующей пары наиболее близкорасположенных объектов. Данная процедура производится последовательно «шаг за шагом» (по одной точке), пока не будут соединены все объекты. С каждым шагом происходит объединение все более удаленных объектов.
Как объединять объекты? Как правило, первый шаг любого алгоритма всегда одинаковый: объединяются два наиболее близких объекта. Далее в зависимости от алгоритма существуют различия. В учебнике рассмотрим 3 основных метода (алгоритма) кластерного анализа [Estivill-Castro, 2002]: метод одиночной связи (метод ближнего соседа) [Florek et al., 1951; McQuitty, 1957; Sneath; 1957]; метод полной связи (метод дальнего соседа) [Sørensen, 1948] и метод невзвешенного попарного среднего арифметического [Sokal, Michener, 1958].
Метод одиночной связи (метод ближнего соседа). После шага один производится построение новой матрицы расстояний, теперь в этой матрице объединенные на первом шаге объекты будут представлять единый кластер с указанием расстояний до оставшихся объектов (точек). Суть метода ближнего соседа в том, что в новых ячейках матрицы будут записаны минимальные расстояния от образованного кластера, до оставшихся необъединенных в кластеры объектов. Чтобы понять изложенное, произведем описанные манипуляции на примере (таблица 7.3).
Наименьшее расстояние в таблице 7.3 зафиксировано между объектами 2 и 3, оно составляет 1,1. На первом шаге производим объединение этих объектов в единый кластер. Осуществим перестроение матрицы расстояний таким образом, чтобы внутри этой матрицы объекты 2 и 3 были представлены единым кластером «2;3», а расстояние внутри матрицы было пересчитано в соответствии с

70 алгоритмом «одиночной связи»: то есть указываем кратчайшее расстояние от одного из объектов кластера «2;3» до всех оставшихся объектов матрицы. Например, расстояние от точки 2 до точки 1 составляет 2,2, а расстояние от точки 3 до точки 1 составляет 3,0. Так как дистанция 2,2 короче, то ее и следует записать в новую матрицу расстояний (таблица 7.4).
Таблица 7.4
1   2   3   4   5   6   7


написать администратору сайта