Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Скачать 2.36 Mb.
|
– {x 1 ,x 2 ,…,x n } ряд значений (реализаций) с.в. х, подчиняющейся некоторому закону распределения (например, нормальному N(µ, σ), биномиальному B(n, p), Пуассона и т.д. или не имеющему параметрического вида). Характеристики положенияс.в. СреднееМс.в. х (expected value, mean) М = Е(х) математическое ожидание (для любой с.в., определение среднего). Для частных случаев распределений с.в. среднее вычисляется по формулам: - для количества ответов «да» биномиального закона B(n,р): M = np - для нормального закона N(µ, σ): М = µ - для распределения Пуассона: 143 М = λ (параметр распределения Пуассона) Выборочноесреднее (sample mean) М х = (x 1 +x 2 +…+x n ) / n – среднее арифметическое M x = x – количество ответов «да» (успехов) для биномиального закона B(n,р) Оценкапараметрарбиномиальногораспределения - это относительная частота х – количества ответов «да» в выборке объема n. h = x / n Если ответы «да» закодированы 1, а ответы «нет» - 0, то h = M x Мода (mode) М о = х 0 - это наиболее вероятное значение с.в. х (значение, для которого его вероятность р 0 или плотность вероятности р(х 0 ) достигает максимума). Распределение может иметь несколько максимумов. В этом случае оно называется многомодальным. Нормальное распределение, распределение Пуассона – унимодальные. Пример многомодальности на следующем рисунке. Рис.3. Многомодальность выборочного распределения 144 Квантиль (Percentile) х р – квантиль с.в., имеющей функцию распределения F(x), если х р является решением уравнения F(x) = р (квантиль уровня р). Децили квантили уровней 0.1, 0.2, …, 0.9. Рис.4. Квантиль уровня 0.2 для стандартного нормального распределения N(0,1) Медиана (median) М е = х е – квантиль, соответствующая значению р=0.5: решение уравнения F(x е ) = 0.5 145 Рис.5. Медиана выборочного распределения Выборочнаямедиана хˆ е - решение уравнения F n (хˆ е ) = 0.5, где F n (х) – выборочная функция распределения. Характеристикиформыс.в. Дисперсия (variance) - это математическое ожидание квадрата отклонения от среднего (для любой с.в., определение дисперсии): D = E(x-M) 2 дисперсия x – количества ответов «да» для биномиального закона, q = 1-p: D = npq для нормального закона N(µ, σ): D = σ 2 для распределения Пуассона: D = λ 146 Асимметрия (skewness) А – коэффициент асимметрии - третий нормированный центральный момент. Характеризует несимметричность распределения с.в. Для нормального и любого другого симметричного распределения А=0. Если A<0, кривая распределения скошена влево, а если А>0, то вправо. А = 3 3 2 3 3 ) ( σ µ = − D M x E Эксцесс (kurtosis) Е – коэффициент эксцесса, - четвертый нормированный центральный момент минус 3. Характеризует выраженность «хвостов» распределения с.в. Для нормального распределения Е=0. Для распределений, более размазанных вдоль ОХ, нежели нормальное, Е<0. Е = 3 3 ) ( 4 4 2 4 − = − − σ µ D M x E Иногда используется значение эксцесса без вычитания 3. Тогда для нормального распределения Е * =3, для более островершинных распределений Е * больше 3, для более пологих – меньше 3. Выборочнаядисперсия Общие определения: ∑ = − = n i i M x n S 1 2 2 ) ( 1 - дисперсия оценки х, если известно среднее М генеральной совокупности. ∑ = − − = n i x i x M x n S 1 2 2 ) ( 1 1 - несмещенная оценка дисперсии оценки х, если неизвестно генеральное среднее М, а M x оценено по выборке. Для биномиального распределения: n x n x S x ) ( 2 − = – дисперсия оценки х – количества ответов «да» - для B(n,р) n h h n x n x S p ) 1 ( ) ( 3 2 − = − = - дисперсия h - оценки р для B(n,р). 147 Стандартноеотклонениеσ σ = D 1/2 Выборочноестандартноеотклонение s или s x . (standart deviation) s = (S 2 ) 1/2 ; s x = (S x 2 ) 1/2 ; s р = (S р 2 ) 1/2 Коэффициентвариации Характеристика рассеяния распределения случайной величины. Выражается в долях или процентах и показывает, какую часть среднего составляет среднеквадратичное отклонение. % 100 × = М σ ϑ , M С v σ = Стандартнаяошибка Стандартноеотклонениесреднего (стандартнаяилиосновная ошибка) m m = σ / √n (из предельной теоремы, распределение выборочного среднего при независимых испытаниях, при любом распределении с.в., имеет асимптотически нормальное распределение со средним М генеральной совокупности и стандартным отклонением m) Стандартная (основная) ошибкавыборочногосреднего m x = s / √n; m x = s x / √n Стандартнаяошибка h - оценкирдля B(n,р) n h h m h ) 1 ( − × = Стандартнаяошибкаразности h 1 – h 2 для B(n,р) При сравнении двух независимых выборок с параметрами (n 1 , h 1 ) и (n 2, h 2 ) + × − × = − 2 1 1 1 ) 1 ( 2 1 n n h h m h h , при оценке общей частоты 148 2 1 2 2 1 1 n n h n h n h + + = Стандартная (основная) ошибка (выборочного) стандартного отклонения n m 2 σ σ = ; n s m s 2 = Стандартная (основная) ошибка (выборочного) коэффициента вариации n m 2 0001 0 5 0 ϑ ϑ ϑ × + × = Стандартная (основная) ошибка (выборочного) коэффициента корреляции n r r 2 1 − = σ Предельнаяошибкавыборки∆(при доверительной вероятности 1-α) то же, что Доверительныйинтервал Доверительный интервал (confidence interval, confidence limit) - статистический показатель, позволяющий оценить, в каких пределах может находиться истинное значение параметра в популяции (генеральной совокупности). 95% доверительный интервал означает, что истинное значение параметра с вероятностью 95% лежит в его пределах. Доверительныйинтервалдлясреднего (1) Для непрерывных случайных величин (с.в.) (т.е. признаков, измеряемых в шкале интервалов), если распределение признака в генеральной совокупности – нормальное. (1.1) Если дисперсия (D или σ) считается известной. ∆ = М ± u 1- α /2 *m, 149 где u 1-α/2 – (1 – α/2) квантиль стандартизованного нормального распределения N(0,1). При α = 0.05: u 0.975 = 1.96 (1.2) Дисперсия неизвестна и оценивается по выборке. ∆ = М x ± t 1-α/2 (n-1)*m x , где t 1- α /2 (n-1) – это (1 – α/2) квантиль распределения Стьюдента с (n-1) степенью свободы. При α = 0.05: t 0.975 (20) = 2.09; t 0.975 (60) = 2.00; t 0.975 (∞) = 1.96 (n ≥ 100) Доверительный интервал для параметра биномиального распределенияр (2) Для биномиальных с.в. (признаков типа «да»-«нет», причем в генеральной совокупности ответ «да» дается с вероятностью р, а оценка этой вероятности h = x/n) Используются точные и приближенные формулы. Приближенныеформулыдопустимы, если nh(1-h) > 9. (2.1) Большое число наблюдений (n > 100) – приближенные границы, u 1- α/2 – квантиль стандартного нормального распределения ∆ = h ± u 1- α /2 ·[h · (1–h)/n] 1/2 (2.2) Не очень много наблюдений (50 < n ≤ 100) – приближенные границы с поправочным слагаемым. ∆ = {h + 0.5·(u 1- α /2 ) 2 /n ± u 1- α /2 ·[h(1 – h)/n + (u 1- α /2 /2n) 2 ] 1/2 }·n/[n + (u 1- α /2 ) 2 ] (2.3) Малое число наблюдений или редкие события (n ≤ 50 или x < 5 или n-x < 5) – точные границы ) 2 , ( / 1 ) 2 , ( 2 1 2 / 2 1 2 / 1 + × + + − + × = m m F hn n hn n m m F h h α α ) , 2 ( ) 1 ( ) , 2 ( ) 1 ( 2 1 2 / 1 2 1 2 / 1 2 m m F hn hn n m m F hn h + × + + − + × + = − − α α где m 1 =2hn, m 2 =2(n–hn) , 150 F α (k 1 ,k 2 ) – квантиль распределения Фишера с k 1 и k 2 степенями свободы. Квантили распределения Фишера связаны между собой соотношением F α (k1, k2)=1/F 1- α (k2, k1) ∆ = (h 1 , h 2 ) – доверительный интервал. Доверительный интервал для разности параметров 2- х биномиальныхраспределенийр 1 ир 2 При достаточно больших n 1 и n 2 для доверительной вероятности 0.95 доверительный интервал для разности (h 1 – h 2 ) (отличие этой разности от 0) составляет ( ) } 1 1 ) 1 ( 2 { 2 , 2 2 1 2 1 2 1 + × − × × = − = ∆ − − n n h h h h h h m σ σ , где 2 1 2 2 1 1 n n h n h n h + + = Критерии согласия КритерийКолмогорова (статистикаКолмогорова-Смирнова) Предназначен для сравнения выборочной (эмпирической) функции распределения с теоретической (для непрерывных распределений). Статистика критерия D n = max F n (x) – F(x) Распределение этой статистики одно и то же для всех непрерывных распределений. При n → ∝: D n √n → функции распределения Колмогорова. Это утверждение верно, если параметры теоретической функции распределения известны, а не оцениваются по выборке. В случае, когда используются выборочные оценки параметров, предельные функции для различных семейств распределений отличаются. Для наиболее распространенных распределений они определены и табулированы. 151 В случае нормального распределения и выборочных оценок параметров следует использовать «вероятности Лиллиефорса (Lilliefors)» для определения значимости D n В отличие от критерия χ 2 , критерий КС неприменим для дискретных распределений. КритерийШапиро-Уилка (W) Данный критерий более предпочтителен для проверки нормальности, нежели статистика Колмогорова-Смирнова. Этот тест рекомендуется использовать при объеме выборки от 3 до 5000. В большинстве ситуаций он является наиболее мощным. Это отношение двух оценок дисперсии нормального распределения, основанное на случайной выборке из n наблюдений. Числитель пропорционален квадрату наилучшей линейной оценки стандартного отклонения. Знаменатель – сумма квадратов отклонений наблюдений от выборочного среднего. Мощность теста снижается при наличии выбросов в выборке. Критерии Шапиро-Уилка и Колмогорова вычисляются в большинстве статистических пакетов. Более редко используются критерии Андерсона-Дарлинга (Anderson-Darling Test), Мартинеса- Иглевица (Martinez-Iglewicz Test) и тесты, разработанные Д’Агостиньо (D'Agostino): тест, основанный на коэффициенте асимметрии, тест, основанный на коэффициенте косости и тест, основанный на комбинации этих коэффициентов. Простейшаяпроверканормальности В случае, когда |E| < 0.1 (Е – эксцесс), распределение можно считать близким к нормальному. Если |E| > 0.5, отклонения от нормальности значительные; В случае, когда |A| < 0.1 (А – асимметрия), распределение симметрично. Если |A| > 0.5, распределение сильно асимметрично. Критерийχ 2 Критерий χ 2 в форме критерия согласия предназначен для сравнения эмпирической функции распределения с теоретической функцией распределения и вычисляется по формуле ∑ = − = k i i i i np np n 1 2 2 ) ( χ , где n i , i = 1, 2, … , k, - частоты наблюдаемых случаев в k интервалах, 152 p i , i = 1, 2, … , k, - теоретические вероятности выбранного распределения, k – число интервалов значений показателя или, если показатель имеет конечное число значений, количество возможных значений; n – общее число наблюдений. Число степеней свободы для определения критического значения равно (k – r – 1), где r – количество параметров теоретического закона, которые были вычислены с помощью выборки. Для биномиального закона r = 1, для нормального закона r = 2, если все параметры оценивались по выборке. Особенности применения критерия χ 2 изложены в главе «Использование критерия χ 2 ». ТочныйметодФишера (Фишера-Ирвина) Проведена серия из n испытаний, в которой событие А появилось x раз. Согласуется ли на уровне α частота появления события в данной серии с заранее известной частотой (параметром биномиального распределения) p? Оценкой параметра распределения p является x/n. Точный метод предполагает проверку согласия с учетом дискретности распределения x. В этом случае мы получаем точные границы для значений x, которые согласуются с известным параметром p на уровне, не меньшем, чем α. Именно, для ситуации, когда событие А в каждом испытании может появиться с одной и той же вероятностью p, для серии из n испытаний определяются числа x 1 и x 2 такие, что I. {вероятность того, что событие А появится в серии из n испытаний менее x 1 раз}={ P(x < x 1 )} ≤ α/2, при этом x 1 - это наибольшее такое число, так что для х 1 +1: { P(x < x 1 +1)} > α/2; II. {вероятность того, что событие А появится в серии из n испытаний более x 2 раз} = { P(x > x 2 )} ≤ α/2, при этом x 2 – это наименьшее такое число, так что для х 2 -1: { P(x > x 2 –1)} > α/2; Формулы для вычисления этих вероятностей P(x < x 1 ) = ∑ − = − − × × 1 0 1 ) 1 ( x k k n k k n p p C ≤ α/2 153 P(x > x 2 ) = ∑ + = − − × × n x k k n k k n p p C 1 2 ) 1 ( ≤ α/2 В точности уровень значимости может оказаться существенно меньше α из-за дискретности распределения. Интервал [x 1 , x 2 ] образует область принятия гипотезы H c на уровне α: наблюдаемое количество х появлений события А в серии из n испытаний согласуется с предположением о том, что вероятность появления события А в одном испытании равна р, если x 1 ≤ х ≤ x 2 . Если x < x 1 или x > x 2 , мы отвергаем гипотезу H c . При этом вероятность ошибочно отвергнуть эту гипотезу равна точному уровню значимости и не превосходит α . Характеристикисвязи (зависимости) случайныхвеличин Если с.в. X и Y характеризуются следующими параметрами: математическими ожиданиями m X , m Y и дисперсиями σ 2 X , σ 2 Y , то Ковариацияс.в. X и Y (корреляционныймомент) k XY – числовая характеристика распределения случайного вектора (X,Y). ковариация k XY = M[(X-M X )·(Y-M Y )] Коэффициенткорреляциис.в. X и Y (ρ, характеристикалинейной связи) Y X XY k σ σ ρ = Выборочнаяковариация k XY = 1 1 ) )( ( 1 1 − − = − − − ∑ ∑ ∑ ∑ = = n n y x y x n M y M x n i i i i i n i Y i X i Выборочныйкоэффициенткорреляции ШкалаЧеддока– качественная оценка зависимости переменных. Величина R < 0.3 0.3 – 0.5 0.5 – 0.7 0.7 – 0.9 > 0.9 Характеристика связи слабая умеренная заметная высокая очень высокая 154 Непараметрическиемерысвязи. Коэффициентыранговойкорреляции Эти показатели предназначены для измерения силы связи между рангами (порядковыми местами в вариационном ряду) двух показателей. При этом даже те показатели, которые были измерены в количественной шкале, приводятся к порядковым. Предполагается, что оба показателя измеряются по крайней мере в порядковой шкале. КоэффициентСпирменаρ S Для выборки объема n коэффициент ρ S между переменными (показателями) х и у вычисляется с помощью меры различия S ρ ∑ = − = n i i i s r S 1 2 ) ( ρ , где r i и s i – порядковые номера (ранги) i-го элемента в вариационных рядах каждого показателя в отдельности. n n B B S y x S − + + × − = 3 ) ( 6 1 ρ ρ , где В х и В у – поправки на объединение рангов (при совпадении значений в вариационном ряду). ) 1 ( 12 1 1 2 − × × = ∑ = m i i i x n n B , где m – количество различных вариант в вариационном ряду (групп объединенных рангов), n i – количество наблюдений, соответствующих i-му варианту (рангу). Аналогично вычисляется В у . Коэффициент ранговой корреляции Спирмена может принимать значения от –1 до 1. КоэффициентКендаллаτ Для выборки объема n коэффициент τ между переменными (показателями) х и у вычисляется с помощью меры различия S τ ∑ ∑ = + = − = N i N i j i j s r S 1 1 ) sgn( τ , где r i и s i – порядковые номера (ранги) i-го элемента в вариационных рядах каждого показателя в отдельности. 155 ) 2 ) 1 ( )( 2 ) 1 ( ( y x B n n B n n S − − − − = τ τ , В х и В у – поправки на объединение рангов (при совпадении значений в вариационном ряду). ∑ = − = m i i i x n n B 1 ) 1 ( 2 1 , m – количество различных вариант в вариационном ряду (групп объединенных рангов), n i – количество наблюдений, соответствующих i-му варианту (рангу). Аналогично вычисляется В у . Коэффициента ранговой корреляции Кендалла может принимать значения от –1 до 1. Для умеренно больших значений n (n > 10) и коэффициентов τ и ρ S , не слишком близких к 1, верно приближенное соотношение: ρ S ≅ 1.5τ. Коэффициентγ вычисляется по формуле t d s П П П − − = 1 γ , где П s – частота пар значений показателей, у которых ранги согласованы (оба больше или оба меньше); П d – частота пар, у которых ранги рассогласованы; П t – частота пар с совпадающими рангами хотя бы по одному из показателей. Коэффициент γ особенно рекомендуется использовать в случае, когда по каждой переменной имеется значительное количество совпадающих значений. Вообще говоря, при его применении предполагается, что показатели х и у дискретны по существу (измерены в шкале порядка, а не интервалов). При вычислении τ, γ и ρ используются поправки на повторяемость значений в вариационном ряду. Большое количество повторяющихся значений переменной может сильно исказить получаемые результаты, особенно для коэффициентов Спирмена и Кендалла. В общем случае коэффициент Кендалла считается более строгой оценкой связи показателей, нежели коэффициент Спирмена. При вычислении ранговых статистик можно использовать как вариационные ряды, так и таблицы сопряженности. При использовании 156 таблиц сопряженности формулы для вычислений записывают с использованием матричных обозначений, и они имеют другой вид. Коэффициентысвязимеждукачественнымипеременными Эти коэффициенты предназначены для измерения силы связи между показателями, для которых не определен порядок на множестве их значений. При этом даже те показатели, которые были измерены в порядковой или интервальной шкалах, приводятся к номинальным. Коэффициенты вычисляются с использованием статистики Пирсона Х 2 (χ 2 ) и статистическая значимость этих коэффициентов также определяется статистикой Пирсона. Проверканезависимостидвухпоказателейспомощьюкритерияχ |