Информатика. Медицинская информатика
Скачать 4.4 Mb.
|
ТЕМА 6 СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ И ИХ ПРОВЕРКА В статистике, как и в жизни, важные утверждения редко удается доказать окончательно и неоспоримо. Можно только выдвинуть утверждение, справед- ливое с некоторой степенью достоверности. Такое утверждение называют статистической гипотезой. Наиболее частыми задачами медицинских и биологических исследова- ний, для решения которых оказывается необходимым сформулировать стати- стические гипотезы, являются следующие: анализ соответствия распределения значений признака в изучаемой груп- пе какому-либо определенному закону (например, анализ соответствия нормальному закону) сравнение групп по параметрам распределений признака (например, по средним значениям, дисперсиям). Для решения любой подобной задачи формулируются две статистические гипотезы: 1. Нулевая гипотеза Н 0 – предположение, что разница между генераль- ными параметрами сравниваемых групп равна нулю и различия, наблюдаемые между выборочными характеристиками, носят исключительно случайный ха- рактер; 2. Альтернативная гипотеза Н 1 – противоположная нулевой –гипотеза о существовании различий между генеральными параметрами сравниваемых групп. Обычно статистическая гипотеза формулируется таким образом, что бы она была противоположна той исследовательской (медицинской, биологиче- ской) гипотезе, которая послужила поводом для проведения исследования. На- пример, необходимо проверить эффективность применения препарата. Пусть есть две группы испытуемых. Одна принимает препарат, а вторая нет. Тогда в качестве нулевой гипотезы Н 0 можно принять гипотезу об отсутствии различия между результатами первой и второй группы. Тогда альтернативная гипотеза Н 1 - наличие различий между группами. Для проверки нулевой гипотезы применяют специальные статистические критерии. В результате возникают следующие 4 ситуации: (табл. 6.1). Ошибка первого рода иначе называется уровнем статистической значи- мости. Уровень значимости - это максимально приемлемая для исследователя вероятность ошибочно отклонить нулевую гипотезу, когда она на самом деле верная, т.е. допускаемая исследователем величина ошибки первого рода. Вели- чина уровня значимости устанавливается исследователем произвольно, однако обычно принимается равным 0,05, 0,01 или 0,001. Вероятность ошибки второго рода не имеет какого-то особого общепри- нятого названия, на письме обозначается греческой буквой β. Однако с этой ве- личиной тесно связана другая, имеющая большое статистическое значение – мощность (чувствительность) критерия. Она вычисляется по формуле (1 − β). 74 Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода. Таблица 6.1. Возможные решения при различных соотношениях результатов статисти- ческого теста и истинной ситуации в генеральной совокупности В генеральной совокупности Н 0 неверна Н 0 верна В статистическом тесте Н 0 отклонена Истинно- положительный результат Ложно- положительный результат (ошиб- ка первого рода или -ошибка) Н 0 не отклонена Ложно- отрицательный результат (ошиб- ка второго рода или -ошибка) Истинно- отрицательный вариант Как видно из вышеприведенного, ошибки первого и второго рода являют- ся взаимно-симметричными, то есть, если поменять местами гипотезы H 0 и H 1 , то ошибки первого рода превратятся в ошибки второго рода, и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, по- скольку принято считать, что нулевая гипотеза H 0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) – на- пример, что обследуемый человек здоров, или что проходящий через рамку ме- таллодетектора пассажир не имеет запрещённых металлических предметов. Со- ответственно, альтернативная гипотеза H 1 обозначает противоположную ситуа- цию, которая обычно трактуется как менее вероятная, неординарная, требую- щая какой-либо реакции. С учётом этого ошибку первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием – например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня. Слово «положительный» в данном случае не имеет отношения к жела- тельности или нежелательности самого события. Термин широко используется в медицине. Например, тесты, предназна- ченные для диагностики заболеваний, иногда дают положительный результат (т. е. показывают наличие заболевания у пациента), когда, на самом деле паци- ент этим заболеванием не страдает. Такой результат называется ложноположи- тельным. Из-за возможности ложных срабатываний не удаётся полностью автома- тизировать борьбу со многими видами угроз. Как правило, вероятность ложно- го срабатывания коррелирует с вероятностью пропуска события (ошибки вто- рого рода). То есть, чем более чувствительна система, тем больше опасных со- бытий она детектирует и, следовательно, предотвращает. Но при повышении чувствительности неизбежно вырастает и вероятность ложных срабатываний. 75 Поэтому чересчур чувствительная (параноидально) настроенная система защи- ты может выродиться в свою противоположность и привести к тому, что по- бочный вред от неё будет превышать пользу. Соответственно, ошибку второго рода иногда называют пропуском собы- тия или ложноотрицательным срабатыванием – человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металло- детектора его не обнаружила (например, из-за того, что чувствительность рам- ки отрегулирована на обнаружение только очень массивных металлических предметов). Слово «отрицательный» в данном случае не имеет отношения к жела- тельности или нежелательности самого события. Термин широко используется в медицине. Например, тесты, предназна- ченные для диагностики заболеваний, иногда дают отрицательный результат (т.е. показывают отсутствие заболевания у пациента), когда, на самом деле па- циент страдает этим заболеванием. Такой результат называется ложноотрица- тельным. В ходе применения статистического метода вычисляется значение тесто- вой статистики (например, при применении критерия Стьюдента – значение t), а также соответствующее ему и числу степеней свободы значение р – вероят- ность справедливости нулевой гипотезы. Метод проверки статистических гипотез заключается в сравнении полу- ченного значения р с принятым уровнем значимости: - если рассчитанное в статистическом тесте значение р оказывается больше принятого уровня значимости, то нулевую гипотезу Н 0 не откло- няют и различия групп называются статистически незначимыми. - если значение р оказывается меньше уровня значимости, то нулевую гипотезу Н 0 отклоняют, при этом следует принять альтернативную гипо- тезу Н 1 . В данном случае различия групп называют статистически зна- чимыми (при р<0,05) или статистически высокозначимыми (при р<0,01). В биомедицинской статистике обычно выбирают уровень значимости, равный 0,05 или 0,01. Чем меньше выбрано значение уровня, тем ниже вероят- ность ошибки первого рода, то есть ошибочного отклонения верной нулевой гипотезы. Однако не следует забывать, что при этом возрастает вероятность ошибки второго рода, т.е. ошибочного принятия ложной нулевой гипотезы. При сравнении двух выборок могут выдвигаться направленные и нена- правленные гипотезы. Ненаправленная альтернативная гипотеза предпола- гает, что значения переменной в первой выборке отличны от значений во вто- рой (или отличны от некоторого фиксированного числа). Направленная аль- тернативная гипотеза предполагает, что значения переменной в первой вы- борке больше значений во второй (или фиксированного числа). Направленные и ненаправленные гипотезы проверяются, соответственно, с помощью одно- сторонних и двусторонних критериев. Стандартная, но существеннейшая статистическая задача – сравнение значений переменной (или нескольких однотипных переменных) в нескольких 76 группах (или подгруппах), выбранных из генеральной совокупности согласно некоему условию. Подобные выборки могут быть независимыми (несвязанны- ми) или зависимыми (связанными, сопряженными, парными). Например, значе- ния уровня сахара в крови у пациентов мужского пола в клинике и у пациентов женского пола являются независимыми, а значения уровня сахара крови, изме- ренные у одних и тех же пациентов утром и вечером - связанные. Сравнение связанных и несвязанных выборок производится с помощью разных критериев (табл. 6.2). Таблица 6.2. Рекомендуемые к использованию статистические критерии в зави- симости от задачи исследования и типа данных. Задача Метод параметрический непараметрический Сравнение двух незави- симых групп по одному признаку t-критерий Стьюдента для независимых выбо- рок Критерии Манна-Уитни, Колмогорова-Смирнова, Вальда-Вольфовица, критерий 2 , точный критерий Фишера Сравнение двух зависи- мых групп по одному признаку t-критерий Стьюдента для зависимых выборок Критерий Вилкоксона, критерий знаков, крите- рий Мак-Нимара Сравнение трех и более независимых групп по одному признаку ANOVA ANOVA по Краскелу- Уоллису, медианный критерий, критерий 2 Сравнение трех и более зависимых групп по од- ному признаку Критерий Кокрена Критерий Кокрена, ANOVA по Фридману Охарактеризуем кратко основные статистические критерии: Параметрические критерии для проверки гипотезы о различии (или сход- стве) между средними значениями t-критерий Стьюдента – общее название для класса методов статисти- ческой проверки гипотез (статистических критериев), основанных на сравнении с распределением Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках. Для приме- нения данного критерия необходимо, чтобы исходные данные имели нормаль- ное распределение. В случае применения двухвыборочного критерия для неза- висимых выборок также необходимо соблюдение условия равенства дисперсий. Существуют, однако, альтернативы критерию Стьюдента для ситуации с не- равными дисперсиями. Двухвыборочный t-критерий для независимых выборок Пусть 2 1 , — средние арифметические выборок, σ 1 ,σ 2 — стандартные от- клонения, а n 1 ,n 2 — размеры выборок. 77 В случае с незначительно отличающимся размером выборки применяется упрощённая формула приближенных расчётов (6.1): 2 2 2 1 2 1 2 1 n n t (6.1). Количество степеней свободы рассчитывается как 2 2 1 n n df Двухвыборочный t-критерий для зависимых выборок Для вычисления эмпирического значения t-критерия в ситуации проверки гипотезы о различиях между двумя зависимыми выборками (например, двумя пробами одного и того же теста с временным интервалом) применяется сле- дующая формула (6.2): n t d d (6.2). где d — средняя разность значений, σ d — стандартное отклонение разно- стей, а n — количество наблюдений Количество степеней свободы рассчитывается как 1 n df Непараметрические критерии для проверки гипотезы о различии (или сходстве) между средними значениями Сравнение двух независимых групп U-критерий Уилкоксона (Манна-Уитни) используется для проверки гипотезы о принадлежности сравниваемых независимых выборок одной и той же генеральной совокупности. Этот метод определяет, достаточно ли мала зона перекрещивающихся значений между двумя рядами (ранжированным рядом значений параметра в первой выборке и таким же во второй выборке). Чем меньше значение крите- рия, тем вероятнее, что различия между значениями параметра в выборках дос- товерны. Ограничения применимости критерия: 1. В каждой из выборок должно быть не менее 3 значений признака. Допускается, чтобы в одной выборке было два значения, но во вто- рой тогда не менее пяти. 2. В выборочных данных не должно быть совпадающих значений (все числа – разные) или таких совпадений должно быть очень мало. Критерий серий Вальда-Вольфовица предзначен для проверки нулевой гипотезы о равенстве целого ряда параметров двух выборок, включая медианы и коэффициента асимметрии. Сравнение двух зависимых групп Т-критерий Уилкоксона используется в случае попарно связанных выбо- рок. При этом ранжируют попарные разности – положительные и отрицатель- ные (кроме нулевых) в один ряд так, чтобы наименьшая абсолютная разница (без учета знака) получила первый ранг, одинаковым величинам присваивают один ранг. Отдельно вычисляю т сумму рангов положительных (Т+) и отрица- 78 тельных (Т-) разностей. Меньшую из двух таких сумм без учета знака считают тестовой статистикой данного критерия. Нулевую гипотезу принимают на дан- ном уровне значимости, если вычисленная статистика превзойдет табличное значение. Порядок проведения сравнения средних значений двух групп представлен на рис. 6.1. Сравнение средних значений нескольких выборок (множественные сравнения) Если план исследования включает сравнение большего числа групп (больше, чем две группы), совершенно недопустимо просто сравнивать их по- парно. Для корректного решения этой задачи можно воспользоваться, напри- мер, дисперсионным анализом. Однако дисперсионный анализ позволяет про- верить лишь гипотезу о равенстве всех сравниваемых средних. Но, если гипоте- за не подтверждается, нельзя узнать, какая именно группа отличалась от дру- гих. Это позволяет сделать методы множественного сравнения, которые в свою очередь также бывают параметрические и непараметрические. Эти методы дают возможность провести множественные сравнения так, чтобы вероятность хотя бы одного неверного заключения оставалась на первоначальном выбран- ном уровне значимости, например, 5%. Параметрические критерии. Критерий Стьюдента для множественных сравнений основан на ис- пользовании неравенства Бонферрони: если k-раз применить критерий с уров- нем значимости , то вероятность хотя бы в одном случае найти различие там, где его нет, не превышает произведения k на . Этот метод работает, если число сравнений невелико, обычно не больше 8. При большем числе сравнений кри- терий Ньюмана-Кейлса и Тьюки дают более точную оценку вероятности . Критерий Даннета более чувствительный, чем предыдущий, особенно при большом числе групп. Критерий Даннета является модификацией критерия Ньюмана-Кейлса. Для проверки критерия средние значения упорядочиваются по абсолютной величине их отличия от контрольной группы, сравнения начи- нают с группы, наиболее отличающейся от контроля. Если различия с очеред- ной группой не найдены, сравнения прекращаются. Непараметрические критерии Критерий Краскела-Уоллиса – непараметрический критерий для срав- нения средних значений нескольких независимых выборок – основан на по- строении объединенного вариационного ряда из вариант рассматриваемых вы- борок и присвоении рангов всем вариантам в объединенном ряду, предназначен для проверки равенства медиан нескольких выборок. Критерий Фридмана – это непараметрический аналог дисперсионного анализа повторных измерений, применяется для анализа повторных измерений, связанных с одним и тем же индивидуумом. Логика критерия очень проста. Каждый больной ровно один раз подвергается каждому методу лечения (или наблюдается в фиксированные моменты времени). Результаты наблюдения у каждого больного упорядочиваются. Причем мы отдельно упорядочиваем зна- 79 чения у каждого больного независимо от всех остальных. Таким образом, полу- чается столько упорядоченных рядов, сколько больных участвует в исследова- нии. Далее, для каждого метода лечения вычисляется сумма рангов. Если раз- брос сумм велик - различия статистически значимы. Порядок проведения множественных сравнений средних значений пред- ставлен на рис. 6.2. ANOVA (дисперсионный анализ) Дисперсионный анализ был разработан английским математиком Р.Фишером. Его чаще используют в научно-практических исследованиях обще- ственного здоровья и здравоохранения для изучения влияния одного или не- скольких факторов на результативный признак. Дисперсионный анализ основан на принципе «отражения разнообразий значений факторного на разнообразии значений результативного признака» и устанавливает силу влияния фактора в выборочных совокупностях. Сущность метода дисперсионного анализа заключается в измерении от- дельных дисперсий (общая, факториальная, остаточная), и дальнейшем опреде- лении силы (доли) влияния изучаемых факторов (оценки роли каждого из фак- торов, либо их совместного влияния) на результативный признак. Дисперсионный анализ – это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) зна- чений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В каче- стве меры отклонений берется дисперсия ( 2 ) – средний квадрат отклонений. Отклонения, вызываемые воздействием факторного признака (фактора) сравни- ваются с величиной отклонений, вызываемых случайными обстоятельствами. Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влия- ние на результативный признак. Условия применения дисперсионного анализа: 1. Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния раз- личных факторов (пол и возраст, физическая активность и питание и т.д.). 2. Изучаемые факторы должны быть независимые (несвязанные) меж- ду собой. Например, нельзя изучать совместное влияние стажа работы и воз- раста, роста и веса детей и т.д. на заболеваемость населения. 3. Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (от англ. random), т.е. выбранные наугад. 4. Можно применять как количественные, так и качественные (атри- бутивные) признаки. Оценка значимости различия при альтернативной форме учета ре- акций. Для оценки значимости расхождения частот какого-либо явления в двух группах может быть использован статистический метод, который носит назва- 80 ние критерия 2 . Этот критерий может быть применен, например, при сравне- нии групп, получивших различные сравниваемые по своей активности препара- ты; групп, получивших различные дозы изучаемого препарата или одну и ту же дозу различными путями введения и т.д. Для описания результатов такого ис- следования удобно применять таблицу сопряженности, в которой для каждой из групп указывается число пациентов с каждым из градаций признака. Таким образом, для 2-х рассматриваемых групп и 2-х возможных исходов получается таблица размерности 2х2 (рис. 6.1). Для ответа на вопрос о значимости разли- чий между группами вычисляется величина статистики 2 , которая является по- казателем максимально возможных при данном уровне значимости отклонений частот. Критерий 2 может применяться и к таблице сопряженности произволь- ной размерности. Точный критерий Фишера основан на переборе всех возможных вари- антах заполнения таблицы сопряженности при данной численности групп. По- зволяет получить точные значения вероятности событий, столь же или еще ме- нее вероятных, чем те, которые наблюдались в действительности. Критерий Мак-Нимара применяется для анализа связанных измерений в случае измерения реакции для связанной переменной. Является аналогом пара- метрического критерия Стьюдента для зависимых выборок или непараметри- ческого Т-критерий Уилкоксона. Критерий Кокрена является аналогом непараметрического критерия Фридмана для случая альтернативного учета реакций. Сравнивается влияние различных воздействий на одну группу (мультиперекрестный план – повторные измерения) или однородные группы (рандомизированный блочный план). Ну- левая гипотеза состоит в том, что в генеральной совокупности доли всех изу- чаемых воздействий одинаковы. Полученное значение статистики Q проверяет- ся по таблицам 2 для выбранного уровня значимости и числа степеней свобо- ды. Порядок проведения парных и множественных сравнений качественных признаков представлен на рис. 6.1, 6.2. 81 Рис 6.1. Схема проведения парного сравнения средних значений. Рис. 6.2. Схема проведения множественного сравнения. Контрольные вопросы 1. Что такое статистическая гипотеза? 2. Что такое нулевая гипотеза? 3. Что такое альтернативная гипотеза? 4. Что такое ложноположительный и ложноотрицательный результат про- верки статистического теста? 5. Что такое ошибка первого рода? 6. Что такое ошибка второго рода? 7. Что такое мощность критерия? 8. Какие параметрические критерии используются для проверки статисти- ческих гипотез? 9. Какие непараметрические критерии используются для проверки стати- стических гипотез? 10. Приведите примеры статистических критериев, используемых для мно- жественных сравнений средних значений нескольких выборок. Список литературы 1. Гланц С. Медико-биологическая статистика. Пер. с англ. – М.: Практика, 1998. – 459 с. 2. Лях Ю.Е., Гурьянов В.Г., Хоменко В.Н., Панченко О.А. Основы компью- терной биостатистики: анализ информации в биологии, медицине и фар- мации статистическим пакетом Medstat. – Донецк: 2006. – 214 с. 3. Платонов А.Е. Статистический анализ в медицине и биологии: задача, терминология, логика, компьютерные методы. – М.: Издательство РАМН, 2000. – 52 с. 82 4. Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA. – М.: МедиаСфера, 2002. – 312 с. 5. Сергиенко В.И., Бондарева И.Б. Математическая статистика в клиниче- ских исследованиях. - М.: ГЭОТАР-МЕД, 2001. – 256 с. |