Главная страница

Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие


Скачать 2.36 Mb.
НазваниеА. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Дата08.03.2023
Размер2.36 Mb.
Формат файлаpdf
Имя файлаСтатистический анализ медико-биологических данных.pdf
ТипМетодическое пособие
#975186
страница5 из 15
1   2   3   4   5   6   7   8   9   ...   15
X
1
Количество событий
X
2
α –уровень значимости
Количество наблюдений n
1
Количество наблюдений n
2
Выходнаяинформация:
Доверительный 95% интервал для оценки параметра биномиального распределения (частоты) р
1
, соответствующего первому столбцу таблицы, и его сравнение с параметром р
2
, соответствующим второму столбцу.
►Как и в предыдущей программе, вычисления производятся, в зависимости от величины x
1
и n
1
, по приближенным или по точным формулам. Существенных ограничений нет.
Пример 7 (данные НРЭР по Северо-Западному региону РФ и Комитета по здравоохранению администрации СПб).
Среди ликвидаторов СПб в возрастной группе 40-44 лет в 2000 г. умер 1 человек из 501 наблюдаемого. В базовом распределении (по СПб, аналог генеральной совокупности) повозрастной уровень смертности для мужчин 40-44 лет составил в 2000 г. составил 13 человек на 1000 населения. Можно ли утверждать, что выборочное распределение не отличается от базового (генерального) при выбранном уровне значимости 0.05?
Входнаятаблица (Пример 7)
Исходное распределение
Распределение сравнения
Aльфа - уровень значимости
Событий
1 13 0.05
Наблюдений
501 1000
Выходная таблица
(1-альфа)% доверительный интервал (Пример 7) р исходное лев.граница р прав.граница р p сравнения
Оценки
0.002 0.00005 0.011
0.013
Вывод: на уровне значимости 0.05 можно утверждать, что в 2000 г. вероятность смерти среди ликвидаторов 40-44 лет отличалась от 0.013, т.е. тестовая и базовая выборки имели разные параметры.

54
Графической иллюстрацией полученного вывода может быть следующий рисунок. Для выборочного параметра указан 95% доверительный интервал.
0 0.002 0.004 0.006 0.008 0.01 0.012 0.014
Р
Параметр популяции
Выборочный параметр
Рис. П7-1. Сравнение параметра популяции Р
0
с выборочным параметром Р.
Результаты, полученные для примера 7 при использовании программы NCSS.
NCSS



… One Proportion Report
Confidence Limits Section
Lower 95%
Upper 95%
Calculation
Confidence
Sample
Confidence
Method
Limit
Proportion (P) Limit
Exact (Binomial)
0.000 0.002 0.011
Approximation (Uncorrected)
0.000 0.002 0.006
Approximation (Corrected)
0.000 0.002 0.007
Wilson Score
0.000 0.002 0.011
Hypothesis Test Section
Alternative
Hypothesis
Exact
(Binomial)
Normal Approximation using (P0)
Normal Approximation using (P)
Prob
Level
Decision
(5%)
Z-
Value
Prob
Level
Decision
(5%)
Z-
Value
Prob
Level
Decision
(5%)
Н1: P<>P0 0.026 Reject H0 -1.98 0.048 Reject H0 -5.02 0.000 Reject H0
Н2: P
0.011 Reject H0 -1.98 0.024 Reject H0 -5.02 0.000 Reject H0
Н3: P>P0 0.999 Accept H0 -1.98 0.979 Accept H0 -5.02 1.000 Accept H0
Вывод. Принимается гипотеза Н2: Р<Р0.

55
3.3.
Расчетыдлязадач II типасиспользованием статистическихпакетов
При сравнении оценок параметров двух и более биномиальных распределений можно использовать несколько возможных подходов.
Поскольку в основе их всех лежат парные сравнения, далее будем рассматривать различные методы проверки гипотезы о равенстве параметров именно двух распределений. Если перед нами встает задача сравнения параметров двух и более выборок, то определение наилучшего метода решения существенно связано как с содержанием, так и с численными параметрами задачи.
(
а) Сравнениеоценокпараметроввыборочныхраспределений.
Использованиенормальнойаппроксимациииточногокритерия
Фишера.
Суть метода состоит в проверке гипотезы Н
0
: р
1
= р
2
, где р
1 и р
2
- два параметра биномиальных распределений. При проверке используется аппроксимация нормальным распределением и фактически проверяется гипотеза о том, что разность оценок параметров равна 0.
Недостаток этого метода – в ограничениях, которые связаны с аппроксимацией:
► Ограничения
При использовании аппроксимация нормальным распределением все ожидаемые частоты в ячейках таблицы должны быть более 5 (С2.1).
В случаях, когда можно использовать нормальную аппроксимацию для сравнения параметров двух и более выборок, спектр применяемых методов анализа расширяется: например, для сравнения частот можно использовать критерий Стьюдента и однофакторный дисперсионный анализ.
Метод (а) реализован в следующих программах:
Statistica v.5.x, 6.0



Basic Statistics


Difference tests: r, %,
means (or Other significance tests, v.5.x)



Difference between two
proportions.
NCSS



NCSS Navigator


NCSS – Data Analysis, …


Test of
Frequencies and Proportions



Two Proportions Test.
SYSTAT



Statistics


Tables


Crosstabs …,


One-way
Tables.
Для переменных из файла данных вычисляются частоты их значений и доверительные интервалы для них (в %).

56
В программе bin_k_ru.stb (приложение к Statistica v 5.x).
Если мы имеем дело с выборками достаточного объема, а исследуемое событие случается достаточно часто, то можно использовать любую из перечисленных выше программ. Достаточный объем выборки означает, что наблюдений в ней 50 или больше.
Достаточная частота события означает, что в каждой выборке оно появлялось и не появлялось более 5 раз.
Если эти ограничения не выполнены, то могут применяться только те программы, в которых вычисляется точный критерий Фишера. Далее приведены примеры вычислений с помощью перечисленных выше программ.
Программа bin_k_ru.stb. Эта программа удобна в том случае, когда нужно получить результаты сравнения параметров более 2-х выборок.
► Ограничения
Программа может использоваться, если количество наблюдений в каждом столбце больше 50, количество случаев и не-случаев в каждом столбце больше 5 (x i
> 5, n i
-x i
> 5, n i
> 50 для всех i = 1, 2, …, k).
Входнаяинформация – таблица
1-я выборка
2-я выборка
… k-я выборка
Количество событий
X
1
Количество событий
X
2

Количество событий
X
k
Количество наблюдений n
1
Количество наблюдений n
2

Количество наблюдений n k
Выходнаяинформация:
Оценки параметров распределений р
1
, р
2
.,…, р
k
;
Значения статистик парных сравнений и соответствующие им р-значения.
Пример 8. (данные НРЭР по Северо-Западному региону РФ)
Среди ликвидаторов СПб в возрастной группе 40-44 лет в 1990 г. умерло
8 человек из 875 наблюдаемых, в 1995 г. умерло 6 человек из 672 наблюдаемых, и в 2000 г. умер 1 человек из 501 наблюдаемых. Можно ли утверждать, на уровне значимости 0.05, что за этот период уровень смертности не менялся?
Входнаятаблица (Пример 8)
1-е распределен. 2-е распределен. 3-е распределен.
Событий
8 6
1
Наблюдений
875 672 501

57
Выходная таблица
Параметры биномиальных распределений и p-значения для статистик p
COL2
COL3 1
0.009 0.78 0.11 2
0.008 0.17 3
0.002
Вывод: значимых отличий в уровне смертности ликвидаторов СПб 40-
44 лет в 1990, 1995 и 2000 гг. не обнаружено. При этом требуемые ограничения (наблюдений более 50, случаев в каждом столбце более 5) не выполнены для 3-го распределения, поэтому для корректного сравнения уровней смертности требуются дополнительные вычисления.
Вариант уточнения вычислений:
Пример 9. (данные НРЭР по Северо-Западному региону РФ)
Укрупним возрастную группу и рассмотрим уровни смертности ликвидаторов 40-49 лет за те же годы.
Среди ликвидаторов СПб в возрастной группе 40-49 лет в 1990 г. умерло
9 человек из 1172 наблюдаемых, в 1995 г. умерло 18 человек из 1768 наблюдаемых, в 2000 г. умерло 7 человек из 1321 наблюдаемых. Можно ли утверждать, на уровне значимости 0.05, что за этот период уровень смертности не менялся?
Входнаятаблица (Пример 9)
1-е распределен. 2-е распределен. 3-е распределен.
Событий
9 18 7
Наблюдений
1172 1768 1321
Выходная таблица
Параметры биномиальных распределений и p-значения для статистик p
COL2
COL3 1
0.008 0.49 0.46 2
0.010 0.13 3
0.005
Вывод: значимых отличий в уровне смертности ликвидаторов СПб 40-
49 лет в 1990, 1995 и 2000 гг. не обнаружено. Все ограничения выполнены.
Иллюстрация примеров 8, 9 представлена на следующем рисунке.
Снижение повозрастной смертности ликвидаторов в 2000 г. не является статистически значимым.

58 0
2 4
6 8
10 12 1990 1995 2000
Год наблюдения
Возраст
40-44
Возраст
40-49
Рис. П9-1. Повозрастные уровни смертности ликвидаторов на 1000 чел.
Программа NCSS. Эта программа дает возможность получить корректный результат и для малой выборки тоже. Сравнивать между собой можно только две выборки. Стандартные обозначения для таблиц
2х2, которые использованы в части Table Section программы NCSS, следующие:
Ряд значений
Выборка 1
Выборка 2
Сумма
А
a b
m
1 не А
c d
m
2
Сумма n
1
n
2
n
NCSS






Two Proportions Test. (Пример 8.)
Производится последовательно сравнение пар распределений: 1-е – 2-е; 1-е –
3-е; 2-е – 3-е.
Two Proportions Report (
сравнение 1-гои 3-гораспределений)
Table Section
(описание входных данных в виде таблицы)
N1
N2
M1
M2
N
A
B
C
D
(A+C)
(B+D)
(A+B)
(C+D)
(N1+N2)
1 8
500 867 501 875 9
1367 1376

59
Data Section (
описаниевходныхданныхивычислениечастот)
Sample Sample
Size
Number
in
Group
One
Number
in
Group
Two
Proportion
In
Group One
Proportion
In
Group Two
One
501 1
500 0.0020 0.9980
Two
875 8
867 0.0091 0.9909
Total
1376 9
1367 0.0065 0.9935
Confidence Limits of Difference Section
(доверительный интервал для разности частот. Используется аппроксимация нормальным распределением)
Difference Standard
Error
Lower 95%
Confidence Limit
Upper 95%
Confidence Limit
-0.0071 0.0038
-0.0146 0.0003
Hypothesis Test Section
(проверка гипотез. Проверяется нулевая гипотеза Н0: Р1=Р2 против двусторонней альтернативной гипотезы Н1 и односторонних альтернативных гипотез Н2 и Н3)
Alternative
Hypothesis
Fisher's Exact
Test
Normal Approximation
Yates Chi-Square
Test
Prob.
Level
Decision
(5%)
Z-
Value
Prob.
Level
Decision
(5%)
Chi-Square
Value
Prob.
Level
Н1: P1-P2<>0 0.168 Can't Reject -1.58 0.114 Can't Reject 1.525 0.217
Н2: P1-P2<0 0.104 Can't Reject -1.58 0.057 Can't Reject
Н3: P1-P2>0 0.983 Can't Reject -1.58 0.943 Can't Reject
Для получения достоверных статистических выводов в этой задаче можно использовать только Prob.Level для Fisher's Exact Test. Поэтому принимается предположение о равенстве параметров (нулевая гипотеза). Она не отвергается при сравнении со всеми альтернативными гипотезами.
Для Примера 9 получим с помощью той же программы следующие результаты:

60
Two Proportions Report (
сравнение 2-гои 3-гораспределений)
Table Section
N1
N2
M1
M2
N
A
B
C
D
(A+C)
(B+D)
(A+B)
(C+D)
(N1+N2)
18 7
1750 1314 1768 1321 25 3064 3089
Data Section
Sample Sample
Size
Number
in
Group
One
Number
in
Group
Two
Proportion
In
Group One
Proportion
In
Group Two
One
1768 18 1750 0.0102 0.9898
Two
1321 7
1314 0.0053 0.9947
Total
3089 25 3064 0.0081 0.9919
Confidence Limits of Difference Section
Difference Standard
Error
Lower 95%
Confidence Limit
Upper 95%
Confidence Limit
0.0049 0.0031
-0.0012 0.0110
Hypothesis Test Section
Alternative
Hypothesis
Fisher's Exact Test Normal Approximation
Yates Chi-Square Test
Prob.
Level
Decision
(5%)
Z-Value Prob.
Level
Decision
(5%)
Chi-Square
Value
Prob.
Level
P1-P2<>0 0.158 Can't Reject 1.498 0.134
Can't
Reject
1.678 0.195
P1-P2<0 0.958 Can't Reject 1.498 0.933
Can't
Reject
P1-P2>0 0.096 Can't Reject 1.498 0.067
Can't
Reject
В этом случае можно использовать любой столбец (и Fisher's Exact Test

точный тест Фишера, и Normal Approximation – нормальную аппроксимацию), выводы не противоречат друг другу: существенных отличий параметров не обнаружено.
Statistica v.5.x, 6.0






Difference between two proportions.
Сравнение пар распределений: 1-е – 2-е; 1-е – 3-е; 2-е – 3-е.
Осуществляются только вычисления на основе нормальной аппроксимации. Для каждого распределения требуется ввести оценку параметра и объем выборки: При сравнении 1-го и 3-го распределений

61
Примера 8 входная таблица имеет вид:
Pr.1
0.0091
N1
875
Pr.2
0.002
N2
501
Вычисляется р-значение для проверки одно- или двусторонней гипотезы.
Two-sided p=0.1154
One-sided p=0.0577
Эти значения соответствуют столбцу Prob.Level в разделе Normal
Approximation
предыдущего раздела (вычисления с помощью программы NCSS) и дают некорректный результат для данной задачи (в одной из ячеек число наблюдений менее 5), однако такие выводы должен делать пользователь, программа не проверяет выполнение ограничений.
В следующем примере можно использовать приближение нормальными с.в.
Пример 10. (данные НРЭР по Северо-Западному региону РФ)
Среди ликвидаторов Северо-Западного региона, по данным РГМДР, за период наблюдений 1987-2004 гг. зафиксировано следующее число наблюдаемых и умерших ликвидаторов на отдельных территориях
(Калининградская область, Ленинградская область, Санкт-Петербург,
Новгородская область и Псковская область):
Таблица П10-1. Исходные данные
Калинингр. обл.
Ленинград. обл.
Санкт-
Петербург
Новгород. обл.
Псковск. обл.
Умерли
280 359 533 260 165
Наблюдались
1564 2321 4765 1397 1040
Человеко-лет наблюдения
19281 27597 56129 18880 12080
Среднее число лет наблюдения
13.79 14.30 14.43 12.58 14.64
На основании этих данных вычислены показатели смертности на пяти территориях, представленные в следующей таблице.

62
Таблица П10-2. Показатели смертности и доверительные интервалы для них.
Калинингр. область
Ленингр. область
Санкт-
Петербург
Новгород. область
Псковск. область
% умерших
17.90 15.47 11.19 18.61 15.87 95% доверительный интервал для % умерших
16.08 –
19.88 14.05 –
17.0 10.32 –
12.11 16.66 –
20.74 13.77 –
18.21
Уровни смертности на 1000 чел.-лет наблюдения
14.52 13.01 9.50 13.77 13.66
Можно ли утверждать, на уровне значимости 0.05, что показатели смертности ликвидаторов на различных территориях за этот период не отличаются?
0 2
4 6
8 10 12 14 16
К
а л
и н
и н
- гр ад ск ая о
б л
Л
е н
и н
гр ад
- ск ая о
б л
С
ан к
т-
П
е те р
б у
р г
Н
о вг о
р о
д ск ая о
б л
П
ск о
вс к
ая о
б л
Рис.П10-1. Уровни смертности на 1000 человеко-лет наблюдения

63
Рис.П10-2. Процент умерших и 95% доверительный интервал
В таблице приведены два показателя смертности – процент умерших среди всех, кто был под наблюдением (частота смерти на территории) и уровни смертности на 1000 человеко-лет наблюдения.
Второй показатель более точно отражает численное основание для учета смертности, т.к. ликвидаторы в разное время вставали на учет, кто-то умер, кто-то переехал, поэтому число наблюдавшихся за весь период не совпадает с числом наблюдавшихся в каждый отдельный год.
Например, сравнивая два показателя смертности по Новгородской области, мы обнаружим, что в процентном выражении он существенно превышал соответствующий показатель Ленинградской области,
Псковской области и даже Калининградской области. Однако в среднем ликвидаторы Новгородской области наблюдались меньшее число лет, чем на остальных территориях. Поэтому уровень смертности в
Новгородской области сравним с уровнями Ленинградской и Псковской областей и ниже уровня Калининградской области.
Частоту смерти можно сравнить по территориям с помощью статистики Стьюдента. Объемы выборок вполне позволяют это сделать.
6 9
12 15 18 21 24
Ка ли ни нг р.
об л.
Ле ни нг р.
об л.
С
ан кт

ет ер бу рг
Н
ов го ро д.
об л.
П
ск ов ск
.о бл

64
Таблица П10-3. Попарное сравнение частоты смерти на отдельных территориях. Р-значения статистики Стьюдента с поправкой Бонферрони на множественность сравнений (k = 10)
Калинингр. обл.
Ленингр. обл.
Санкт-
Петербург
Новгород. обл.
Псковская обл.
Калинингр. обл.
0.450
1   2   3   4   5   6   7   8   9   ...   15


написать администратору сайта