Методы экологических исследований. Основы статистической обработ. М. К. Аммосова Институт естественных наук Экологогеографическое отделение Методы экологических исследований основы статистической обработки данных учебнометодическое пособие
Скачать 5.76 Mb.
|
Выбросы предприятий до и после внедрения системы очистки № Выбросы предприятия до внедрения очистных установок, т/год Выбросы предприятия после внедрения очистных установок, т/год 1 2,3 1,5 2 2,8 2,2 3 4,2 3,5 4 6,2 6,5 42 5 3,1 2,5 6 5,3 4,5 7 5,1 4 8 2,3 1,4 9 3,1 2,3 1 0 2,8 2,8 Для начала найдем значения разностей показателей, указанных в столбцах 2 и 3 таблицы 6.2 (таблица 6.3). Таблица 6.3 Вычисление разности показателей № Выбросы предприятия до внедрения очистных установок, т/год Выбросы предприятия после внедрения очистных установок, т/год Разность показателей 1 2,3 1,5 2 2,8 2,2 3 4,2 3,5 4 6,2 6,5 5 3,1 2,5 6 5,3 4,5 7 5,1 4 8 2,3 1,4 9 3,1 2,3 10 2,8 2,8 Далее найдем M d и Ϭ d : ; √ Подставим все необходимые показатели в формулу (6.1): | |√ Далее найдем значение f. 43 По известному f, пользуясь таблицей критических значений, определим табличное значение t-критерия Стьюдента при p=0,05. Сравним рассчитанный и табличный t-критерий. Так как расчетный критерий больше табличного (4,41>2,262), то различия значимы при p=0,05. То есть установки по очистке воздуха действительно повлияли на количество выбросов. T-критерий для независимых выборок – это модификация t- критерия, которая позволяет сравнивать группы разных объектов исследования. Например, озерные экосистемы различных населенных пунктов, популяции зайца различных территорий, популяции разных видов грызунов и др. При этом в сравниваемых группах (популяциях) может быть различное количество объектов исследования. Логика, этапы и последовательность расчета t-критерия Стьюдента для независимых данных совпадает с таковыми при расчете критерия для зависимых данных. Отличия заключаются лишь в формулах для расчета t и f. При расчете t-критерия Стьюдента для независимых данных используют формулу (6.3): √ , (6.3) где t – t-критерий Стьюдента для независимых данных; M 1 – среднее арифметическое значение первой группы объектов исследования; M 2 – среднее арифметическое значение второй группы объектов исследования; m 1 – стандартная ошибка среднего первой группы объектов исследования; m 2 – стандартная ошибка среднего второй группы объектов исследования. Подробнее о расчете стандартной ошибки среднего можно узнать в разделе 1. 44 Расчет числа степеней свободы (f) для независимых данных осуществляют по формуле (6.4): , (6.4) где n 1 – количество объектов в первой группе; n 2 – количество объектов во второй группе. Пример расчета t-критерия для независимых данных. Необходимо выяснить существенны ли различия массы тела самцов двух групп волков (таблица 6.4). Таблица 6.4 Значения массы тела взрослых самцов двух популяций волка № Значения массы тела 1-ой популяции, кг Значения массы тела 2-ой популяции, кг 1 53,6 42 2 46,3 43 3 44,2 42,5 4 49,1 42,5 5 48,1 43,3 6 47 42 7 46 44,3 8 49,2 44 9 46,5 1 0 48,3 Сначала рассчитаем M 1 и М 2 : ; 43. Для расчета m 1 и m 2 необходимо сначала рассчитать соответствующие стандартные отклонения: √ 2,55; 45 √ 0,87. Далее рассчитаем m 1 и m 2 √ √ ; √ √ . Подставляем полученные значения в формулу (6.3): √ Далее найдем значение f. По известному f, пользуясь таблицей критических значений (таблица 6.1), определим табличное значение t-критерия Стьюдента при p=0,05. Сравним рассчитанный и табличный t-критерий. Так как расчетный критерий больше табличного (5,53>2,120), то различия групп объектов исследования значимы (при p=0,05). То есть массы самцов двух групп волка действительно значительно отличаются. Волки первой группы, как правило, обладают большей массой. Непараметрические критерии сравнения значимости различия выборок. В случае если выборка не подчиняется закону нормального распределения данных, вместо t-критерия Стьюдента используются непараметрические критерии. Они могут использовать данные, имеющие нормальное (близкое нормальному) распределение и отклоняющиеся от закона нормального распределения. Обычно если объектов исследования мало, то предпочтительнее использовать непараметрические критерии. Еще одним плюсом становится относительная простота их расчета. В разделе будет рассмотрено 2 основных непараметрических критерия: T-критерий для зависимых данных Уилкоксона (иногда Вилкоксона или W-критерий Уилкоксона) [Wilcoxon, 1945] и U-критерий Манна-Уитни для независимых данных [Mann, Whitney, 1947]. T-критерий Уилкоксона для зависимых данных применяется для тех же целей, что и t-критерий Стьюдента для зависимых данных. То есть в случаях, когда нужно сравнить значения какого-либо параметра 46 объектов исследования измеренного до какого-то события и после. То есть когда дело имеют, как правило, с одними и теми же объектами исследования. Например: с пациентами до использования лекарства и после его использования; с компонентами экосистем до загрязнения и после загрязнения и т.д. Рассчитывается критерий Уилкоксона по следующему алгоритму: 1. Составить таблицу, где в двух параллельных столбцах указываются значения характеристик объектов исследования «до» (1 столбец) и «после» (2 столбец). 2. Вычислить разность между соответствующими значениями «после» и «до» (от значений «после» отнимаем значения «до»). Записать значения этой разности в отдельном столбце таблицы. Определить, какое количество разностей получилось со знаком «+», а какое со знаком «–». Значения того знака, который преобладают на этом этапе называют «типичный сдвиг». Оставшиеся данные – «сдвиг нетипичный». 3. Переписать полученный столбец разностей показателей, выраженный в абсолютных значениях, то есть без указания «±». 4. Произвести сортировку столбца разностей, полученного на предыдущем этапе, от меньшего значения к большему. 5. В новом столбце таблицы произвести нумерацию данных от меньшего к большему, используя порядковые числа (1, 2, 3 и т.д.). Присвоить значениям разностей ранги от меньшего значения к большему, так, что наименьшему значению присваивают ранг 1, всем последующим в порядке возрастания 2, 3, 4 и т.д. В случае наличия равных разностей (при совпадении значений разности) ранг для этих равных разностей будет вычислен как среднее арифметическое значение их порядковых номеров. То есть по формуле (6.5): , (6.5) где n i – порядковые номера равных разностей; N – количество равных разностей. 47 6. Произвести контроль правильности присвоения рангов сопоставив общую сумму рангов и контрольную сумму рангов, вычислив контрольную сумму рангов (∑ ) по формуле (6.6): ∑ , (6.6) где n – количество объектов исследования. Если сумма и контрольная сумма совпадают, то ранжирование выполненно правильно. 7. Обозначить все ранги (используя любой графический прием: выделив их подчеркиванием, цветом и др.), присвоенные «нетипичным сдвигам». Посчитать сумму рангов «нетипичных сдвигов» (обозначается буквой «T»). 8. Используя таблицу критических значений T-критерия Уилкоксона (таблица 6.5), найти критическое значения T (T кр ) при заданном уровне значимости (например, при p<0,05 ) и количестве объектов исследования (n). 9. Если расчетный Т-критерий Уилкоксона (T эмп ) меньше или равен T кр , то сдвиг в «типичном направлении» статистически достоверно преобладает. Таблица 6.5 Критические значения T-критерия Уилкоксона (фрагмент оригинала) [Т-критерий Вилкоксона, 2006-2019] n p<0,05 p<0,01 5 0 — 6 2 — 7 3 0 8 5 1 9 8 3 10 10 5 11 13 7 12 17 9 13 21 12 14 25 15 48 15 30 19 16 35 23 17 41 27 18 47 32 19 53 37 20 60 43 Пример расчета T-критерия Уилкоксона. Для лучшего усвоения материала произведем расчет T-критерия Уилкоксона на примере (таблица 6.6). Дана концентрация меди в воде 10 водоемов, на которых расположены предприятия, оказывающие негативное воздействие на качество воды. На всех 10 предприятиях внедрили новую систему управления технологическими процессами, которая должна снизить негативное воздействие на водоемы. Задача: проверить снизилась ли статистически значимо (при p<0,05) концентрация меди в воде водоемов после внедрения системы управления. Таблица 6.6 Концентрация меди в воде водоемов № Концентрация меди в воде водоемов до внедрения системы управления, мг/л Концентрация меди в воде водоемов после внедрения системы управления, мг/л 1 2,7 2,3 2 2,0 1,5 3 1,3 1,0 4 1,5 1,1 5 1,1 1,3 6 2,2 1,5 7 1,4 1,1 8 2,1 1,1 9 2,3 2,4 10 2,5 2,0 Итак, применив T-критерий Уилкоксона, проверим, значимо ли изменилась концентрация меди в воде водоемов. Воспользуемся приведенным ранее алгоритмом. 49 Так как таблица со значениями показателя «до» и «после» уже составлена, произведем расчет разностей показателей «после» и «до». Для удобства указанные манипуляции будем пошагово отображать в табличном виде (таблица 6.7). Таблица 6.7 Нахождение разности значений показателя «после» и «до» № Концентрация меди в воде водоемов до внедрения системы управления, мг/л Концентрация меди в воде водоемов после внедрения системы управления, мг/л Разность [после – до] 1 2,7 2,3 2 2,0 1,5 3 1,3 1,0 4 1,5 1,1 5 1,1 1,3 6 2,2 1,5 7 1,4 1,1 8 2,1 1,1 9 2,3 2,4 10 2,5 2,0 Далее определяем количество, каких знаков (+ или –) преобладает среди значений разности. Так как преобладают отрицательные значения, то типичным сдвигом будет считаться сдвиг в отрицательную сторону. Вписываем в новый столбец таблицы (таблица 6.8) значения разностей показателей «после» и «до» в абсолютных значениях (то есть без указания знаков «±»). Таблица 6.8 Абсолютные значения разности показателя «после» и «до» № Концентраци я меди в воде водоемов до внедрения системы управления, мг/л Концентрация меди в воде водоемов после внедрения системы управления, мг/л Разность [после – до] Абсолютные значения разности 50 1 2,7 2,3 0,4 2 2,0 1,5 0,5 3 1,3 1,0 0,3 4 1,5 1,1 0,4 5 1,1 1,3 0,2 6 2,2 1,5 0,7 7 1,4 1,1 0,3 8 2,1 1,1 1,0 9 2,3 2,4 0,1 10 2,5 2,0 0,5 Далее произведем сортировку абсолютных значений разности от меньшего значения к большему (таблица 6.9). Таблица 6.9 Сортировка абсолютных значений разности показателя «после» и «до» № Концентрац ия меди в воде водоемов до внедрения системы управления, мг/л Концентрация меди в воде водоемов после внедрения системы управления, мг/л Разность [после – до] Абсолютные значения разности 9 2,3 2,4 0,1 5 1,1 1,3 0,2 3 1,3 1 0,3 7 1,4 1,1 0,3 1 2,7 2,3 0,4 4 1,5 1,1 0,4 2 2 1,5 0,5 10 2,5 2 0,5 6 2,2 1,5 0,7 8 2,1 1,1 1,0 В новом столбце таблицы произведем нумерацию абсолютных значений разности данных от меньшего к большему, используя порядковые числа (1, 2, 3 и т.д.) (таблица 6.10). 51 Таблица 6.10 Присвоение номеров абсолютным значения разности показателя «после» и «до» № Концентрация меди в воде водоемов до внедрения системы управления, мг/л Концентрация меди в воде водоемов после внедрения системы управления, мг/л Разность [после – до] Абсолютные значения разности Н ом ер а 9 2,3 2,4 0,1 1 5 1,1 1,3 0,2 2 3 1,3 1 0,3 3 7 1,4 1,1 0,3 4 1 2,7 2,3 0,4 5 4 1,5 1,1 0,4 6 2 2 1,5 0,5 7 1 0 2,5 2 0,5 8 6 2,2 1,5 0,7 9 8 2,1 1,1 1 10 Далее необходимо присвоить значениям разностей ранги от меньшего значения к большему, так, что наименьшему значению присваивают ранг 1, всем последующим в порядке возрастания 2, 3, 4 и т.д. В нашем случае имеются одинаковые значения разности (по 2 раза повторяются значения 0,3; 0,4 и 0,5). Ранг для этих равных разностей будет вычислен как среднее арифметическое значение их порядковых номеров. Для 0,3 порядковые номера (см. таблицу 6.10) 3 и 4; для 0,4 – 5 и 6; для 0,5 – 7 и 8. То есть для разности 0,1 ранг равен 1, для разности 0,2 ранг равен 2, для разностей 0,3; 0,4 и 0,5 рассчитывается по формуле (6.5): Для оставшихся значений (0,7 и 1,0) ранги будут соответствовать их порядковым номерам. 52 Запишем все полученные ранги в новый столбец таблицы (таблица 6.11). Таблица 6.11 Ранги абсолютных значений разности показателя «после» и «до» № Концентрация меди в воде водоемов до внедрения системы управления, мг/л Концентрация меди в воде водоемов после внедрения системы управления, мг/л Разность [после – до] Абсолют ные значения разности Н ом ер а Ранг и раз но ст и 9 2,3 2,4 0,1 1 1 5 1,1 1,3 0,2 2 2 3 1,3 1 0,3 3 3,5 7 1,4 1,1 0,3 4 3,5 1 2,7 2,3 0,4 5 5,5 4 1,5 1,1 0,4 6 5,5 2 2 1,5 0,5 7 7,5 10 2,5 2 0,5 8 7,5 6 2,2 1,5 0,7 9 9 8 2,1 1,1 1 10 10 Произведем контроль правильности присвоения рангов сопоставив общую сумму рангов и контрольную сумму рангов. Общую сумму рангов (∑ ) получаем простым суммированием всех рангов, присвоенных разностям: ∑ Контрольную сумму рангов (∑ ) вычисляем по формуле (6.6). ∑ Так как общая сумма рангов и контрольная сумма совпадают, то ранги присвоены правильно. Далее, выделим все ранги, присвоенные «нетипичному сдвигу» (в нашем случае положительным разностям), используя окрашивание соответствующих ячеек таблицы (таблица 6.12). 53 Таблица 6.12 Выделение рангов «нетипичного сдвига» № Концентрация меди в воде водоемов до внедрения системы управления, мг/л Концентрация меди в воде водоемов после внедрения системы управления, мг/л Разность [после – до] Абсолют ные значения разности Н ом ер а Ранг и раз но ст и 9 2,3 2,4 0,1 1 1 5 1,1 1,3 0,2 2 2 3 1,3 1 0,3 3 3,5 7 1,4 1,1 0,3 4 3,5 1 2,7 2,3 0,4 5 5,5 4 1,5 1,1 0,4 6 5,5 2 2 1,5 0,5 7 7,5 10 2,5 2 0,5 8 7,5 6 2,2 1,5 0,7 9 9 8 2,1 1,1 1 10 10 Далее найдем сумму рангов «нетипичных сдвигов» (T эмп ): Используя таблицу критических значений T-критерия Уилкоксона (таблица 6.1), найдем критическое значения T кр при, при p<0,05 и количестве объектов исследования n=10. Так как расчетный Т-критерий Уилкоксона (T эмп ) меньше T кр , то сдвиг в «типичном направлении» статистически достоверно преобладает. То есть концентрация меди в воде указанных водоемов действительно снизилась статистически значимо (при p<0,05) после внедрения системы управления на предприятиях. U-критерий Манна-Уитни для независимых данных является широко используемым непараметрическим аналогом соответствующего t-критерия Стьюдента. То есть он применяется в тех случаях, когда нужно определить, существенно ли отличаются значения параметра двух выборок, представленных разными 54 объектами (2 популяции волка, 2 группы озер, 2 группы предприятий и т.д.). При этом эти 2 выборки могут состоять из различного количества объектов. Алгоритм для расчета U-критерия следующий: 1. Из двух сравниваемых выборок анализируемых характеристик составляется единый ряд данных. 2. Единый ряд сортируется по возрастанию значений признака (от меньшего к большему). 3. После чего происходит ранжирование единого ряда с присвоением рангов от меньшего значения к большему. Наименьшему значению данных присваивается ранг 1, последующим ранги 2; 3 и т.д. В случае если имеются одинаковые значения в отсортированном ряде, то их ранг будет вычислен как среднее арифметическое порядковых номеров данных значений в отсортированном ряде. Например, имеется отсортированный ряд данных, состоящий из 6 чисел: 0,1; 0,2; 0,3; 0,4; 0,4 и 0,5. Ранг 1 присвоим значению 0,1, ранг 2 – значению 0,2, ранг 3 – значению 0,3. Так как 0,4 повторяется 2 раза и стоит на 4-м и 5-м месте в ряде данных, то для него ранг ( ) будет рассчитан следующим образом: =4,5. Для значения 0,5 ранг будет равен 6 (по порядковому номеру в отсортированном ряду). Таким образом, получим следующую последовательность рангов: 1; 2; 3; 4,5; 4,5 и 6. 4. Далее высчитываем сумму рангов внутри первой выборки и сумму рангов внутри второй выборки. 5. Используем большую из ранговых сумм (T x ) для вычисления U- критерия (U) по формуле (6.7): , (6.7) где n 1 – количество объектов первой выборки; n 2 – количество объектов второй выборки; 55 n x – количество объектов в выборке, обладающей большей ранговой суммой T x 6. Сопоставляем вычисленное значение U-критерия (U) с его табличным критическим значением (U кр ) при соответствующем уровне статистической значимости (например, при p<0,05) (таблица 6.13). Если расчетное значение меньше или равно табличному, то различия выборок статистически значимы. Как пользоваться таблицей критических значений U-критерия Манна-Уитни? Критические значения U-критерия определяются исходя из количеств объектов исследования в первой (n 1 ) и второй выборках (n 2 ), указанных соответственно в первом столбце и второй строке таблицы 6.13. Критическое значение U-критерия находится в ячейках, расположенных в месте пересечения перпендикуляров, опускаемых от значений соответствующих количеств объектов первой и второй выборки. Например, если первая выборка содержит 7 значений, а вторая 10, то критическое значение U-критерия равно 14. Таблица 6.13 |