Практическое занятие №3. Выборочные сравнения для случая двух групп
Скачать 20.89 Kb.
|
Тема: Выборочные сравнения для случая двух групп. Сравнение двух независимых выборок по количественным и порядковым показателям Сравнение двух выборок — очень распространённая в исследовательской практике задача. Обычно одна выборка является экспериментальной или опытной (в медицине — «основная группа») сравнивается со второй — контрольной (в медицине — «группа сравнения»). Также это могут быть выборки пациентов разного пола, разных возрастов и т. д. Отметим, что методы для сравнения двух выборок не подходят для попарного сравнения в случае сравнения трех и более выборок (эти методы сравнения будут рассмотрены позднее); также нужно отличать независимые выборки от зависимых. Выборки, по способу включения в них объектов могут быть независимыми (independent samples) или зависимыми (paired samples, dependent samples). В независимых выборках в двух сравниваемых группах объекты никак связаны друг с другом, т.е. не повторяются. Объем выборок поэтому может отличаться. В зависимых выборках – объем одинаков, поскольку один и тот же объект представлен в обоих выборках. Все методы для сравнения двух выборок делятся на параметрические (parametric), которые задействуют в расчётах параметры нормального распределения (математическое ожидаемое μ и стандартное отклонение σ), и непараметрические (nonparametric). Также важно помнить, что сравнение мы можем проводить с целью обнаружения различий: 1) центральной тенденции (наиболее частая задача); 2) рассеяния; 3) формы распределения. На этом лабораторном занятии мы познакомимся с критериями оценки только центральной тенденции. I. Количественные признаки с нормальным распределением Информация о нормальности распределения проверяется непосредственно по данным, если позволяет объём выборки (n ≥ 30). Если данные распределены ненормально, можно попытаться их нормализовать с помощью подходящих преобразований (логарифмирование, преобразование Бокса — Кокса, угловые преобразования для частот и др.). Для сравнения средних значений показателя в выборках, извлечённых из популяций с нормальным распределением признака, используется параметрическая техника — варианты t-критерия Стьюдента (Student’s t-test): Классический или обычный t-критерий для независимых выборок. Требует равных дисперсий признака в популяциях. t-критерий в модификации Уэлча (критерий Уэлча, Welch’s t-test). Используется для сравнения средних значений независимых выборок в случае различия дисперсий. t-критерий для сравнения единственного наблюдения с выборкой II. Количественные признаки с ненормальным распределением и порядковые признаки Вариантов анализа в этом случае много, рассмотрим наиболее популярные и современные. Способ 1. t-критерий Стьюдента после нормализующего преобразования. В большинстве случаев оптимальным преобразованием является преобразование Бокса — Кокса из семейства степенных преобразований. В пакете PAST путь: Transform — Box-Cox. Способ 2. Рандомизационный вариант t-критерия Стьюдента. В пакете PAST путь тот же, закладка t test, в результатах нужно смотреть р-значение точного рандомизационного критерия — Exact permutation. Если пакет не выдаёт его значений — смотрим результаты рандомизационногокритерия Монте-Карло — Monte Carlo permutation; при этом число перестановок можно увеличить с 9 999 до 99 999 или даже 999 999: при последовательных нажатиях на кнопку [Recompute] третий знак p-значения не должен изменяться. Само значение статистики t можно не приводить. В нашем случае р = 0,0001. Способ 3. По доверительному интервалу для разности средних, рассчитанному бутстрепом: если этот ДИ содержит 0, значит разность между средними может быть нулевая, то есть различий нет. Если 95% ДИ разности не содержит 0, средние отличаются статистически значимо (p < 0,05). Путь такой же, закладка t test, смотрим 95% conf. interval (bootstrap). Число выборок бутстрепа Bootstrap N можно Б. Сравнение двух зависимых выборок по количественным и порядковым показателям Цель: Овладеть методами анализа различий между зависимыми выборками по количественным, порядковым признакам с помощью парных критериев Стьюдента, Уилкоксона. Работа на ПК. В предыдущей части практического занятия (А) мы имели дело только с независимыми выборками, когда объекты в двух сравниваемых группах не были никак связаны друг с другом. Сейчас мы познакомимся с анализом зависимых выборок. Чаще всего зависимые выборки образуются одними и теми же объектами, изученными в разное время и/или в разных условиях. Например, одни и те же пациенты, изученные до воздействия и после воздействия. В таком экспериментальном плане каждый пациент будет иметь своё собственное контрольное значение. Другой распространённый пример зависимых выборок — части одного образца, исследованные разными методами. I. Количественные признаки с нормальным распределением Информация о нормальности распределения берётся из литературы, предыдущих исследований или проверяется непосредственно по данным, если позволяет объём выборки (n ≥ 30). Если данные распределены ненормально, можно попытаться их нормализовать с помощью подходящих преобразований (логарифмирование, преобразование Бокса — Кокса, угловые преобразования для частот и др.). Для сравнения средних значений показателя в двух зависимых выборках для признаков, изменяющихся по закону нормального распределения, используется параметрическая техника — парный t-критерий Стьюдента (matched-pair t-test, paired sample t-test). Сравнение двух зависимых выборок по количественным и порядковым показателям Цель: Овладеть методами анализа различий между зависимыми выборками поколичественным, порядковым признакам с помощью парных критериев Стьюдента, Уилкоксона. Работа на ПК. предыдущей части практического занятия (А) мы имели дело только с независимыми выборками, когда объекты в двух сравниваемых группах не были никак связаны друг с другом. Сейчас мы познакомимся с анализом зависимых выборок. Чаще всего зависимые выборки образуются одними и теми же объектами, изученными в разное время и/или в разных условиях. Например, одни и те же пациенты, изученные до воздействия после воздействия. В таком экспериментальном плане каждый пациент будет иметь своё собственное контрольное значение. Другой распространённый пример зависимых выборок — части одного образца, исследованные разными методами. I. Количественные признаки с нормальным распределением Информация о нормальности распределения берётся из литературы, предыдущих исследований или проверяется непосредственно по данным, если позволяет объём выборки (n ≥30).Если данные распределены ненормально, можно попытаться их нормализовать с помощьюподходящих преобразований (логарифмирование, преобразование Бокса — Кокса, угловые преобразования для частот и др.). Для сравнения средних значений показателя в двух зависимых выборках для признаков, изменяющихся по закону нормального распределения, используется параметрическая техника — парный t-критерий Стьюдента (matched-pair t-test, paired sample t-test). Пример. Для большинства показателей, используемых в медицинской диагностике, стандартные методики предусматривают анализ венозной крови. Вместе с тем современное аналитическое оборудование позволяет работать с очень небольшими объёмами образцов, которые можно получить из капиллярной крови, взятой из пальца пациента. В силу простоты и удобства для пациента последнее было бы предпочтительным, если бы удалось доказать, что результаты анализов венозной и капиллярной крови не различаются. ходе небольшого эксперимента у 16 пациентов были отобраны образцы венозной и капиллярной крови, в которой определялся ряд биохимических показателей. Мы проанализируем данные по содержанию общего билирубина (ОБ) в сыворотке (в мкмоль/л). Данный показатель характеризует сумму промежуточных продуктов метаболизма гемоглобина и позволяет диагностировать различные заболевания, прямо или косвенно связанные с нарушением процессов кроветворения, функции печени и желчевыводящих путей. ВАЖНО! Как и в случае разности средних независимых выборок, среднюю разность зависимых выборок часто приводят не в единицах шкалы признака, а в относительных единицах — в процентах от исходного или референтного значения (иногда их называют «дельта-процент»). В нашем случае стандартная методика предусматривает анализ венозной крови, а значит, референтным значением будет концентрация показателя в венозной крови: 16,881 мкмоль/л. Относительно него в капиллярной крови значение было меньше на 7,106 мкмоль/л, или на 7,106 / 16,881 × 100 % = 42,1 %. Следует пересчитать в процентах и границы ДИ для разности: 5,1526 / 16,881 × 100 % = 30,5 % и 9,0599 / 16,881 × 100 % = 53,1 %. II. Количественные признаки с ненормальным распределением и порядковые признаки Для количественных признаков с ненормальным распределением можно использовать парный t-критерий Стьюдента после нормализующих преобразований. Но чаще от количественных шкал (интервальная шкала и шкала отношений) переходят к порядковой шкале и рассчитывают значение критерия Уилкоксона для разностей пар (синоним: парный критерий Уилкоксона, Wilcoxon matched pairs test, Wilcoxon signed rank test). Это прямой ранговый аналог парного критерия Стьюдента,причём весьма мощный: асимптотическая эффективность критерия составляет 3/π, то есть около 95 %. Рассчитаем его для этих же данных. |