Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Скачать 2.36 Mb.
|
1. ОПРЕДЕЛЕНИЕОСНОВНЫХПОНЯТИЙ Выборка (sample) – часть популяции (генеральной совокупности), полученная путем отбора. Исследования выполняются обычно на выборках. 1.1. Видыданных При различных исследованиях в статистическом анализе могут участвовать данные разных типов. Для корректного использования статистических методов важно представлять, какого типа данные будут обрабатываться. Упрощенно можно разделить их на два основных типа: качественные и количественные. Качественныеданные (nominal data) Также называются классификационными, неупорядоченными. Это признаки, которые нельзя выразить количественно: диагноз, место проживания, пол. Говорят, что такие показатели измерены в номинальной шкале. При использовании статистических пакетов для анализа данных признаки могут (или должны) быть оцифрованы: например, 1 – «Калининградская область», 2 – «Ленинградская область», 3 – «СПб». Смысла эти числа не имеют, это только удобная форма записи. Частным случаем номинальных являются дихотомические данные (признаки, имеющие только два значения, типа «да – нет», называются также бинарными). Для их оцифровки принято использовать числа 0 и 1: 0 – «нет», 1 – «да». Для некоторых статистических программ такая кодировка обязательна. Порядковыеданные (ordinal data) Встречаются также названия: признаки с упорядоченными состояниями, ординальные. Показатели, измеряемые в шкале порядка – промежуточные между качественными и количественными (стадии болезни, оценки – «плохо», «удовлетворительно», «хорошо»). Такие признаки могут быть осмысленно оцифрованы, поскольку порядок состояний имеет смысл. Часто к таким показателям следует относить балльные оценки, полученные при проведении тестов или экспертиз. Количественныеданные (numerical data) Признаки, выражаемые в числовой форме: возраст, вес, количество детей в семье. В свою очередь, они делятся на непрерывные и дискретные. 16 Непрерывныеданные (continuous data) Количественные данные, которые могут принимать любое значение на непрерывной шкале. Другое название – признаки, измеряемые в интервальной шкале (температура, АДС, рост). Дискретныеданные (discrete data) Количественные данные, измеряемые в шкале отношений. Они принимают, как правило, конечное число значений, хотя иногда и очень большое: количество смертей в течение года в исследуемой когорте, количество пропущенных по болезни рабочих дней. 1.2. Подготовкаданных Для использования статистических программ обработки исходные данные должны быть представлены в виде таблицы. Каждая строка таблицы соответствует одному объекту выборки (например, одному человеку), а каждый столбец – одному показателю. При этом вся необходимая для вычислений информация должна содержаться в таблице. Например, если вся выборка состоит из двух частей – «опыт» и «контроль», то одним из столбцов таблицы будет показатель «группа». Этот показатель для объектов, относящихся к опыту, заполняется словом «опыт» или каким-либо числовым кодом, например, 1. Для объектов, относящихся к контролю, он заполняется словом «контроль» или другим числовым кодом, например, 0. Если какой-либо показатель у объекта не известен (не измерялся или не имеет смысла), соответствующая ячейка таблицы должна остаться незаполненной. Эти требования одинаковы для всех существующих программ статистической обработки. Образец подготовки данных. Номер пациента Пол Возраст Вес Рост ИМТ (вычисляемый показатель) Группа наблюдения 1 2 41 68 168 1.76 1 2 2 44 165 1 3 1 52 73 174 1.81 1 4 1 50 65 168 1.74 2 5 2 42 59 168 1.65 2 17 В тех случаях, когда требуется обработать динамические наблюдения, появляются разные варианты подготовки данных, связанные с разными видами анализа. Например, если показатель (ЧСС) был измерен у испытуемых до, во время и после нагрузки, при обработке можно использовать (схема 1) как критерий Стьюдента для связанных выборок или критерий Вилкоксона, так и дисперсионный анализ с повторными измерениями. Для применения программ дисперсионного анализа все измерения должны быть внесены в один столбец, а номер измерения записан как отдельная переменная. В этом случае таблица на схеме символически обозначена значком Номер пациента Номер измерения Измерение ЧСС 1 1 85 2 1 65 3 1 71 4 1 73 5 1 69 1 2 91 2 2 76 3 2 81 4 2 69 5 2 78 1 3 91 2 3 81 3 3 81 4 3 75 5 3 89 При статистической обработке связанных выборок (критерии Стьюдента или Вилкоксона) таблица должна иметь столбцы, соответствующие всем измерениям показателя, а критерии применяются к парам столбцов, например: сравнение «Измерения 1» и «Измерения 2». Такой вид таблицы на схеме отражен значком 18 Номер пациента Измерение 1 Измерение 2 Измерение 3 1 85 91 91 2 65 76 81 3 71 81 81 4 73 69 75 5 69 78 89 1.3. Использованиеданныхразныхвидовванализе Разные виды данных используются в статистическом анализе неодинаково. Качественные данные обычно задают группировки в исследованиях. В этом случае они называются группирующими. Группирующие переменные могут определять как группы сравнения, так и разделение исходной выборки на более однородные части для проведения анализа по каждой части выборки отдельно. Иногда качественный показатель, в частности, бинарный, рассматривается в качестве фактора: например, наличие заболевания как целевой фактор, курение как фактор риска. Рис.1.1. Использование качественных переменных в статистическом анализе Количественные показатели могут являться 1) целевыми для исследования – например, зависимые переменные (dependent variable) в дисперсионном, ковариационном, регрессионном анализе; 2) объясняющими или независимыми переменными в ковариационном, регрессионном, дискриминантном анализе; 3) также могут быть группирующими, если количественный показатель является дискретным. Если же показатель непрерывен, то для использования его как группирующего вводятся градации состояний, и он преобразуется в порядковый. А Качественная переменная – конечное число состояний Группирующая переменная Фактор – независимый, мешающий или целевой 19 Рис.1.2. Использование количественных переменных в статистическом анализе 1.4. Предположения Для того чтобы получить статистические выводы о значениях параметров или связях между ними, сначала требуется сделать определенные предположения. Основные предположения касаются того, какого рода случайность присуща интересующим нас показателям в популяции. Типы случайностей описываются разными законами распределения. В зависимости от того, какой закон распределения мы выбрали для описания показателей, мы располагаем и соответствующим набором статистических средств (видов статистического анализа) для вычисления характеристик изучаемых показателей и получения статистических выводов. Как правило, с определенным типом данных связан определенный закон распределения или несколько основных законов. Самый простой случай – дихотомический показатель, то есть показатель, имеющий ровно два возможных значения. Его моделируют биномиальным законом распределения (точные определения в «Приложении»). Для непрерывных показателей существует большой выбор различных законов распределения, но в первую очередь проверяется согласие выборочного распределения с нормальным (гауссовским) законом распределения. Для этого используются критерии согласия (см. «Приложение»). Основные статистические методы анализа непрерывных показателей разработаны для случая, когда показатели подчинены нормальному распределению. Это касается регрессионного, дисперсионного, ковариационного, дискриминантного, факторного анализа. Когда говорят о параметрических методах и критериях, как правило, подразумевается, что анализируемые показатели имеют именно нормальное распределение. Количественная переменная Независимая или объясняющая переменная Зависимая или целевая переменная Группирующая переменная или фактор в случае дискретности 20 Для дискретных данных чаще всего используется моделирование полиномиальным распределением (конечное число исходов) или распределением Пуассона. В случае, когда мы имеем дело с порядковыми данными, при их анализе используют методы, свободные от предположений о конкретном виде распределения – непараметрические или ранговые методы. Эти методы применяются и в тех случаях, когда непрерывные показатели имеют распределения, существенно отличающиеся от нормального (проверка производится с помощью критериев согласия). Предельные теоремы теории вероятностей позволяют использовать более мощные параметрические методы для данных, распределение которых отличается от нормального, при достаточно большом объеме выборки. Величина «достаточного объема» может отличаться для различных методов и различных характеристик показателей. Например, t-статистика Стьюдента менее чувствительна к отклонениям от нормальности, нежели F-статистика Фишера. Поэтому выводы, полученные при применении методов, основанных на F- статистике, (регрессионный, дисперсионный, дискриминантный анализ), для малых выборок могут быть недостоверными. Далее, при сравнении частот событий в двух выборках (например, уровней заболеваемости) достаточными для применения нормальной аппроксимации будут объемы выборок n 1 , n 2 > 100 или даже 50, но при условии, что события происходят не очень редко и не очень часто: если частота в пределах от 0.1 до 0.9. Подробнее условия применимости нормальной аппроксимации при сравнении частот обсуждаются в главе 3 «Сравнение частот событий». 1.5. Анализмощностииоценкаобъемавыборкив планированииэксперимента Оценка необходимого объема выборки возможна и необходима только в том случае, когда исследователь заранее сформулировал проверяемую гипотезу, причем весьма точно: нужно не только зафиксировать интересующий исследователя параметр, но и величину его изменения, которую требуется обнаружить. При этом расчеты объема выборки будут зависеть от того, какой критерий планируется применить. Назовем исходную гипотезу "нулевая гипотеза" - H 0 . Как правило, она состоит в предположении, которое мы заинтересованы опровергнуть – в том, что интересующий нас параметр не изменился 21 (или не отличается в двух группах, или равен конкретной величине). Соберем данные. Используя статистическую теорию, проверим, верна ли гипотеза H 0 или ее следует отвергнуть. Отвергая H 0 , мы обосновываем то, во что действительно верим. Эта ситуация, типичная во многих областях приложения, называется критерий отвержения- принятия - "Reject-Support testing," (RS testing): отвергая нулевую гипотезу, мы подтверждаем теорию. Нулевая гипотеза либо справедлива, либо ошибочна, и статистическая процедура указывает на это. Нулевая гипотеза либо отвергается, либо не отвергается. Следовательно, до проведения эксперимента мы постулируем, что имеют место только 4 возможности, показанные ниже: Реальная ситуация H O H 1 Решение H 0 Правильное принятие Ошибка II рода β H 1 Ошибка I рода α Правильное отвержение Соответственно, возможны ошибки двух типов, и они показаны в этой таблице. Обычно придерживаются такой точки зрения, что ошибка I рода α должна принимать значение 0.05 или ниже, тогда как ошибка II рода β должна быть столь малой, насколько это возможно при фиксированном уровне ошибки I рода. "Статистическая мощность", которая равна 1 - β, соответственно, должна быть максимально высокой. Идеальный вариант, когда мощность равна, по крайней мере, 0.80, чтобы обнаружить разумные уклонения от нулевой гипотезы. Для определения объема выборки требуется заранее задать следующие параметры: 1. Мощность (1-β) – вероятность обнаружения эффекта заданной величины как статистически значимого, если он существует. β – это вероятность ошибки II рода, состоящей в неправильном принятии нулевой гипотезы (не обнаружение реально существующих отличий). Мощность обычно выбирается равной 0.7-0.8 (70-80%). 2. Уровень значимости α принятия нулевой гипотезы. Обычно выбирается равным 0.05. α – это вероятность ошибки I рода, состоящей в неправильном отвержении нулевой гипотезы (обнаружение отличий там, где их в действительности нет). 22 3. Характеристика вариабельности наблюдений – как правило, стандартное отклонение. 4. Наименьший значимый эффект – это та величина эффекта, которую считают клинически важной и которую желательно обнаружить. Чаще всего это разность средних значений или пропорций. Задав эти параметры, можно воспользоваться несколькими способами вычисления необходимого объема выборки. Для наиболее часто используемых критериев – парного и непарного критериев Стьюдента и критерия χ 2 Пирсона можно применить оценки с помощью номограммы Альтмана или быстрой формулы Лера. Для их применения вычисляется «стандартизованная разность» - для двухвыборочного критерия Стьюдента это δ/σ , где δ – наименьшая клинически значимая разность средних значений, σ – стандартное отклонение, одинаковое в обеих группах. Соотношение δ/σ иногда обозначается символом φ и называется «параметром нецентральности». При сравнении частот стандартизованная разность равна (р 1 - р 2 ) / [(рH(1-рH)] 1/2 , где (р 1 - р 2 ) – наименьшая клинически важная разность долей (пропорций) явления в двух группах, рH = (р 1 + р 2 ) / 2 Тогда, согласно быстрой формуле Лера, для получения мощности 80% и уровня значимости 0.05 требуется взять в каждой из групп 16/(стандартизованную разность) наблюдений. Для достижений 90% мощности в числителе вместо 16 нужно взять 21. 23 ГЛАВА 2. СТАТИСТИЧЕСКАЯОБРАБОТКАТАБЛИЦ Одной из самых распространенных задач прикладной статистики является проверка гипотез, касающихся распределений одного или нескольких дискретных показателей с конечным числом возможных значений (исходов), причем количество таких значений невелико. Такие показатели могут быть по существу дискретными (профессия, пол) или дискретизированными в результате обработки (возраст → возрастная группа); на них может быть определен порядок значений (оценка ответа в баллах) или они могут быть номинальными, качественными (цвет волос). Все эти обстоятельства следует учитывать при выборе метода обработки. Наиболее известным и универсальным методом решения статистических задач, связанных с дискретными показателями, является критерий χ2. Далее будут показаны основные способы его применения и возможные ограничения. 2.1. Использованиекритерияχ 2 . Схема 4. Виды статистических гипотез, в которых используется критерий χ 2 Н с – гипотеза согласия Проверка согласия выборочного и теоретического распределений Проверка наличия линейного тренда пропорций по категориям второго фактора Н с – гипотеза согласия Н о – гипотеза однородности Н н – гипотеза независимости Проверка согласия выборочного и теоретического распределений Проверка того, что две или более выборок имеют одно и то же распределение Проверка независимости двух показателей Н т – гипотезао наличиилинейного тренда 24 На приведенной выше схеме приведены основные статистические гипотезы, для проверки которых используется критерий χ 2 Статистика Пирсона х 2 = Σ k=1 r (n k –np k ) 2 /np k объединяет индивидуальные расхождения между наблюдаемыми и ожидаемыми частотами в общую меру расстояния. При больших отклонениях отдельных наблюдаемых частот от ожидаемых значения статистики будут большими, при малых отклонениях всех наблюдений статистика будет мала по величине. Вопрос о границе малых значений, которые еще можно трактовать как случайные отклонения, решается в терминах выборочного распределения статистики х 2 , приближенно совпадающего с распределением χ 2 (хи-квадрат), и поэтому статистику Пирсона х 2 часто называют статистикой Пирсона χ 2 или просто статистикой (критерием) χ 2 2.2. ПроверкагипотезысогласияН с . Статистика Пирсона применяется в качестве критерия согласия для проверки гипотезы о виде распределения. В этом случае осуществляется сравнение теоретических и выборочных частот (как для дискретных, так и для непрерывных переменных). Рис.2.1. Гистограмма возрастного распределения 25 Если проверяется согласованность выборки с генеральной совокупностью, то p i – относительные частоты событий А i в генеральной совокупности. На рис.2.1 приведено возрастное распределение работников крупной компании, которое может рассматриваться как генеральная совокупность в случае, когда в исследованиях принимает участие небольшая часть работников этой компании (выборка), для которой требуется проверка согласованности возрастного распределения, чтобы можно было говорить о ее репрезентативности. При проверке согласованности выборочного распределения с теоретическим p i – вероятности появления событий А i для теоретического закона. Исходные данные – выборочное распределение {n i } i=1,…,r и ожидаемое распределение {np i } i=1,…,r – заносятся в таблицу. Таблица 2.1. Подготовка данных для проверки гипотезы согласия Ряд значений Выборочное распределение Ожидаемое распределение выборки А 1 n 1 np 1 А 2 n 2 np 2 … … … А r n r np r Сумма n n На приведенных ниже рисунках выборочные частоты - это число наблюдений для каждой из возможных градаций дискретной переменной (общее число заболеваний) или число наблюдений в каждом из выбранных интервалов непрерывной переменной (возраст). Теоретические частоты {p i } i=1,…,r можно получить с помощью таблиц для соответствующих законов распределения (в данном случае - Пуассона и нормального). 26 Рис.2.2. Гистограмма распределения общего количества заболеваний Рис.2.3. Гистограмма возрастного распределения выборки 27 Вычисляется выборочная статистика критерия ∑ = − = r k k k k в np np n 1 2 2 ) ( χ ( 2.1) где r – количество ячеек (разных значений для дискретного распределения или интервалов для непрерывного). Число степеней свободы d вычисляется по формуле d = r – l – 1 (2.2), где l – количество параметров теоретического распределения, которые оценены по выборке (например, среднее и среднеквадратическое отклонение для нормального закона, l = 2). При сравнении данных выборки с распределением генеральной совокупности l = 0. Если проверяется согласованность с теоретическим распределением, то l ≥ 0. Число степеней свободы d должно быть не менее 1. Для принятия решения о виде распределения выборки формулируется нулевая и альтернативная гипотезы. Нулевая гипотеза H с : выборка согласуется с теоретическим распределением. Альтернативная гипотеза H нс : выборка не согласуется с теоретическим распределением. Гипотеза Н с принимается на уровне α, если χ 2 в < χ 2 1-α (d) (2.3) Здесь χ 2 1-α (d) – (1-α) квантиль распределения χ 2 с d степенями свободы. Если неравенство (2.3) не выполнено, гипотеза отклоняется – принимается решение, что распределение выборки отличается от теоретического (альтернативная гипотеза). Выбор уровня значимости определяет приемлемую для исследования вероятность ошибочно отклонить нулевую гипотезу: уровень значимости α – это вероятность того, что нулевая гипотеза H с верна, но при этом выборочное значение статистики χ 2 в больше квантили χ 2 1-α (d) , то есть, в соответствии с правилом (2.3), нулевая гипотеза будет отклонена. Далее на примерах покажем, как применяется данный критерий. (а) Проверка гипотезы о согласии распределения дискретного показателя с конечным числом возможных значений (исходов) A 1 , A 2 , …, A r с распределением генеральной совокупности (популяции). 28 Пример 1. В распоряжении исследователей имеются данные о наблюдениях за группой взрослых испытуемых с различным образовательным статусом: 10 человек с высшим образованием, 15 человек со средним специальным образованием, 10 человек с общим средним образованием, 20 человек с неполным средним образованием и 5 человек с начальным образованием. В целях дальнейшего исследования требуется проверить согласованность имеющейся выборки по образовательному статусу со всем населением города. В данном примере изучаемым признаком является образовательный статус человека. Он имеет 5 возможных значений (r=5). В качестве генеральной совокупности рассматривается население города. Из статистических справочников получены данные по городу (в процентах): среди взрослого населения лиц с высшим образованием 11%, со средним специальным образованием 20%, с общим средним образованием 19%, с неполным средним образованием 38% и с начальным образованием 12%. Таблица для дальнейших вычислений имеет вид: Таблица П1-1. Образование Выборочное распределение Теоретическое распределение Ожидаемое распределение Высшее 10 0.11 6.6 Средн.специальное 15 0.20 12 Общее среднее 10 0.19 11.4 Неполное среднее 20 0.38 22.8 Начальное 5 0.12 7.2 Сумма 60 1 60 По формуле (2.1) получим: χ 2 в = 3.69 Число степеней свободы d = 5 – 1 = 4. На уровне α = 0.05 квантиль χ 2 1- α (d) = χ 2 0.95 (4) = 9.49 Неравенство (2.3) выполнено, существенных отличий выборочного распределения от генерального не обнаружено. ► Ограничения При применении критерия χ 2 используется тот факт, что каждая из случайных величин (n k –np k )/(np k ) 1/2 имеет распределение, близкое к нормальному N(0,1). Эта аппроксимация следует из теоремы Лапласа. Поскольку данная теорема является предельной, то для достаточной корректности при применении критерия должны |