Главная страница

Статистический анализ медико-биологических данных. А. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие


Скачать 2.36 Mb.
НазваниеА. М. Никифорова мчс россии Н. В. Макарова Статистический анализ медикобиологических данных с использованием пакетов статистических программ Statistica, spss, ncss, systat методическое пособие
Дата08.03.2023
Размер2.36 Mb.
Формат файлаpdf
Имя файлаСтатистический анализ медико-биологических данных.pdf
ТипМетодическое пособие
#975186
страница10 из 15
1   ...   7   8   9   10   11   12   13   14   15
»)
Parameter
Regression
Coefficient (B
or Beta)
Standard
Error
Lower 95%
Confidence
Limit
Upper 95%
Confidence
Limit
Odds
Ratio
Exp(B)
B0: Intercept
247.528 10.687 226.583 268.473 10000+
B1: DOSE
0.006 0.004
-0.002 0.015 1.007
B2: moment
-0.001 0.000
-0.001 0.000 0.999
B4: Y_BIRTH
-0.127 0.005
-0.138
-0.116 0.881
B3: srok_days
0.000 0.000
-0.001 0.000 1.000
Данный раздел дублирует информацию предыдущего раздела, кроме доверительного 95% интервала для параметра b или β (4-й и 5-й столбцы, Lower 95% Confidence Limit и Upper 95% Confidence Limit). Он построен с помощью статистики Вальда.
Раздел
«оценкаотношенияшансов» (Odds Ratios Section) (Reference
Group: ИНД_ИБС = 0 «нетИБС»)
Parameter
Regression
Coefficient (B or
Beta)
Odds
Ratio
Exp(B)
Lower
95%
Confidence
Limit
Upper
95%
Confidence
Limit
B0: Intercept
247.528 10000+
10000+
10000+
B1: DOSE
0.006 1.007 0.998 1.015
B2: moment
-0.001 0.999 0.999 1.000
B4: Y_BIRTH
-0.127 0.881 0.872 0.890
B3: srok_days
0.000 1.000 0.999 1.000
В этом разделе оценки регрессионных коэффициентов и отношений шансов те же, что в предыдущих таблицах. Доверительные интервалы для отношения шансов получены с помощью статистики Вальда, из доверительных интервалов для регрессионных коэффициентов путем потенцирования.
Оценка регрессионнойлогистическоймодели (Estimated Logistic
Regression Model) (Model For ИНД_ИБС = 1)

107 247.528
+
0.0065*DOSE

0.0005*moment
-
0.127*Y_BIRTH

0.00003*srok_days
В этом разделе приведено уравнение логистической регрессии в виде регулярного текста, что позволяет ее использовать для преобразований.
Все коэффициенты этого уравнения записаны в 1-м столбце предыдущих таблиц (Regression Coefficient (B or Beta)).
Таблица классификации (Classification Table)
Estimated (оценка)
Actual
0
1
Total
Нет
ИБС
1680 908 2588
есть
ИБС
715 1367 2082
Total
2395 2275 4670
Percent Correctly classified (правильно классифицировано) = 65.2%
В таблице представлены результаты классификации наблюдений на основании логистического регрессионного уравнения.
В целом по данному примеру можно сделать вывод, что четыре непрерывные независимые переменные, заданные для описания бинарного отклика – наличия ИБС – недостаточно хорошо его описывают. В качестве суммарных характеристик выступает, во-первых, качество классификации (65.2% правильной классификации) и R
2
модели (0.112).
Пример 15(2).
На втором этапе создания адекватной модели и ее анализа непрерывные независимые переменные преобразованы в дискретные: вместо дозы – дозовая группа (ДОЗ_ГРУП) с тремя градациями: (1) – от 0 до 5 сЗв, (2)
– от 5.1 до 19.9 сЗв, (3) 20+ сЗв. Вместо года рождения – возрастная группа участия в работах (Age_group_input) с тремя градациями: (1) – от
18 до 29 лет, (2) – от 30 до 39 лет, (3) – 40+ лет. Вместо дня начала работ
(в днях после аварии) – период начала работ (period) с четырьмя градациями: (1) 0-15 дни приезда, (2) – 16-350 дни приезда, (3) – 351-700 дни приезда, (4) – 700+ дни приезда. Вместо продолжительности работ в днях – группы по продолжительности работ (srok_group) с четырьмя градациями: (1) до 1 месяца, (2) 31-60 дней, (3) 61-365 дней, (4) более 1 года. В качестве модели рассматривается сумма факторов без взаимодействий, в качестве наблюдаемых – все находившиеся под наблюдением к началу 2007 года ликвидаторы Северо-Запада.
Для этой модели логистический анализ (программа NCSS) позволил получить следующие результаты.
Model R-Squared 0.75

108
Анализ отклика
ИНД
_ИБС
Unique
Act vs Pred % Correctly
Categories
Count
Rows
Prior R-Squared
Classified
Нет
ИБС
2588 106 0.5000 0.1216 62.519
есть
ИБС
2082 105 0.5000 0.1216 67.003
Total
4670 211 64.518
Таблица анализа отклика несущественно отличается от предыдущего примера: доля правильной классификации снизилась на 0.7%, R
2
модели увеличилась с 0.112 до 0.75. Но в следующем разделе отражена более детальная информация о влиянии отдельных уровней независимых переменных на бинарный отклик.
Раздел проверкизначимостипараметров (Parameter Significance Tests
Section) - поотношениюкреферентнойгруппе (Reference Group: ИНД_ИБС =
0)
Parameter
Regression
Coefficient (B or
Beta)
Standard
Error
Wald Z-
Value
(Beta=0)
Wald
Prob
Level
Odds
Ratio
Exp(B)
B0: Intercept
-0.9385 0.1620
-5.793
0.0000
0.3912
B1:
Age_group_input=2
(«30-39 лет»)
1.1909 0.0863 13.800
0.0000
3.2901
B2:
Age_group_input=3
(«40+ лет»)
2.1821 0.1072 20.357
0.0000
8.8646
B3: period=2 («16-350 дни приезда»)
0.1944 0.1324 1.469 0.1418 1.2146
B4: period=3 («351-700 дни приезда»)
0.0853 0.1512 0.564 0.5726 1.0890
B5: period=4 («700+ дни приезда»)
-0.3720 0.1743
-2.135
0.0328
0.6893
B6:srok_group=2 ("31-
60 дней")
-0.4736 0.1051
-4.506
0.0000
0.6227
B7:srok_group=3 ("61-
365 дней")
-0.4521 0.0900
-5.024
0.0000
0.6363
B8:srok_group=4
("БОЛЕЕ ГОДА")
-0.3496 0.2958
-1.182 0.2373 0.7050
B9:
ДОЗ
_ГРУП=2
(«5.1- 19.9 сЗв»)
0.0510 0.0981 0.520 0.6027 1.0524
B10:
ДОЗ
_ГРУП=3
(«20+ сЗв»)
0.2693 0.1110 2.426
0.0153
1.3090
Из этой таблицы уже можно сделать вывод о значимости отдельных параметров и их градаций. Красным цветом выделены статистически значимые на уровне 0.05 градации параметров. По отношению к референтным градациям независимых переменных (с наименьшим номером) значимыми оказались все градации возрастных групп (В1 и

109
В2), с положительными коэффициентами; последний уровень переменной «период» (В5) – с отрицательным коэффициентом; 2-й и 3-й уровни переменной «срок- группа» (В6 и В7) – также с отрицательными коэффициентами. Для дозовых групп значимым является последний уровень (В10), с положительным коэффициентом. При этом связанные со значимыми положительными влияниями риски (отношение шансов) превышают 1, т.е. увеличивают вероятность заболевания (для возрастных групп и наибольшей дозы внешнего облучения), а для 4-го периода начала работ и средних уровней продолжительности работ отношение шансов менее 1, эти факторы снижают вероятность наличия
ИБС.
Обратив внимание на численное значение полученных рисков, на следующем этапе для дискретных независимых переменных «дозовая группа», «период начала работ» и «продолжительность работ» осуществим уменьшение количества уровней - статистически незначимые уровни будут объединены с учетом полученных результатов. Вместо ДОЗ_ГРУП с тремя градациями сформируем переменную dose_20 с 2-мя градациями, объединив первые две группы.
Для dose_20 получим уровни: (1) – от 0 до 19.9 сЗв, (2) 20+ сЗв. Это сделано с учетом того, что отношение шансов для дозовой группы «5.1-
19.9 сЗв» близко к 1 по сравнению с референтной группой «0 - 5 сЗв».
Вместо (period) с четырьмя градациями сформируем period_4 с 2-мя градациями, выделив 4-й период приезда: 1 уровень 0-700 дни приезда
(объединены 1, 2 и 3 периоды), 2 уровень – 700+ дни приезда (4 период).
Вместо srok_group с четырьмя градациями сформирована переменная srok_1_month с 2-мя градациями: (1) до 1 месяца, (2) 32 дня и более
(объединены 2, 3 и 4 уровни переменной srok_group, поскольку отношения шансов для них близки по величине). Возрастная группа участия в работах (Age_group_input) остается без изменений: все ее уровни значимы, отношения шансов отличаются друг от друга значительно.
В качестве модели, как и ранее, рассматривается сумма факторов без взаимодействий, множество наблюдаемых не меняется. Получим следующие результаты.
Model R-Squared 0.916
Анализ отклика
ИНД
_ИБС
Unique
Act vs Pred % Correctly
Categories
Count
Rows
Prior R-Squared
Classified
Нет
ИБС
3886 21 0.5000 0.1601 74.112
есть
ИБС
3244 20 0.5000 0.1601 58.600
Total
7130 41 67.055

110
Раздел проверкизначимостипараметров Parameter Significance Tests
Section (Reference Group: ИНД_ИБС = 0 (НетИБС))
Parameter
Regression
Coefficient
(B or Beta)
Standard
Error
Wald Z-
Value
(Beta=0)
Wald
Prob
Level
Odds
Ratio
Exp(B)
B0: Intercept
-0.9443 0.0691
-13.657
0.0000
0.3889
B1: Age_group_input=2
(«30-39 лет»)
1.2297 0.0674 18.250
0.0000
3.4203
B2: Age_group_input=3
(«40+ лет»)
2.4667 0.0827 29.844
0.0000
11.7838
B3: (dose_20_=2) «20+
сЗв
»
0.2250 0.0649 3.470
0.0005
1.2524
B4: (period_4=2) «700+
дни приезда»
-0.5583 0.0796
-7.016
0.0000
0.5722
B5: (srok_1_month=2)
« >1 мес
-0.3265 0.0610
-5.354
0.0000
0.7215
Эти результаты лучше полученных ранее: все параметры значимы, процент правильной классификации повысился до 67%, R2 модели увеличилась до
0.916. При этом качество деления на группы с ИБС и без ИБС остается неудовлетворительным, особенно это касается группы с заболеванием. Далее возможны следующие шаги: (а) – усложнять модель, добавляя взаимосвязи независимых переменных, и (б) добавлять еще какие-либо независимые переменные. Влияние на переменную-отклик «наличие ИБС» может оказать место проживания наблюдаемых, поэтому добавим в анализ независимую переменную «регион» (REGION) с 5 градациями: (1) Калининградская область, (2) Ленинградская область, (3) Санкт-Петербург, (4) Новгородская область и (5) Псковская область. Это те субъекты РФ, которые относятся к
Северо-Западному подразделению РГМДР.
Model R-Squared 0.883
Анализ отклика
ИНД
_ИБС
Unique
Act vs Pred % Correctly
Categories
Count
Rows
Prior R-Squared
Classified
0 3883 90 0.5000 0.2081 67.963 1
3244 81 0.5000 0.2081 73.089
Total
7127 171
70.296

111
Раздел проверкизначимостипараметров
(Reference Group: ИНД_ИБС = 0)
Parameter
Regression
Coefficient
(B or Beta)
Standard
Error
Wald Z-
Value
(Beta=0)
Wald
Prob
Level
Odds
Ratio
Exp(B)
B0: Intercept
-2.0083 0.1326
-15.146
0.0000
0.1342
B1:
Age_group_input=2
(«30-39 лет»)
1.2847 0.0690 18.618
0.0000
3.6137
B2:
Age_group_input=3
(«40+ лет»)
2.4718 0.0851 29.050
0.0000
11.8436
B3: (dose_20_=2) «20+
сЗв
»
0.2110 0.0670 3.148
0.0016
1.2350
B4:
(period_4=2)
«700+ дниприезда»
-0.6119 0.0819
-7.474
0.0000
0.5423
B5:
(REGION=2)
Ленобласть
1.2324 0.1233 9.999
0.0000
3.4295
B6: (REGION=3) СПб
1.1657 0.1161 10.042
0.0000
3.2082
B7:
(REGION=4)
Новгородская обл.
0.1691 0.1330 1.272 0.2035 1.1843
B8:
(REGION=5)
Псковская обл.
-0.3864 0.1653
-2.338
0.0194
0.6795
B9: (srok_1_month=2)
« >1 мес
-0.1121 0.0636
-1.762 0.0780 0.8940
В результате использования дополнительной переменной качество классификации существенно улучшилось (до 70.3%). Для того, чтобы оценить вклад каждой из независимых переменных в описании отклика
(ИНД_ИБС) следует обратиться к таблицам «Анализ отклонений» и
«Логарифм правдоподобия и R-квадрат».
Таблицы в разделах «Анализ отклонений» (Analysis of Deviance Section) и
«Логарифм правдоподобия и R-квадрат» (Log Likelihood & R-Squared Section) вычисляются в том случае, когда модель уже определена, и в качестве способа выбора наилучшего подмножества задана опция “None”.
Анализ отклонений (Analysis of Deviance Section)
Term Omitted
DF Deviance
Increase From Model Deviance (Chi
Square)
Prob
Level
All
9 9822.751 1583.772
0.0000
Age_group_input
2 9243.121 1004.143
0.0000
dose_20_
1 8248.897 9.919
0.0016
period_4 1 8296.439 57.461
0.0000
REGION
4 8617.537 378.559
0.0000
srok_1_month
1 8242.080 3.102 0.0782
None(Model)
9 8238.978

112
Исключенный член (Term Omitted) – тот член, который проверяется в данной строке. Этот тест получается при сравнении статистики отклонения, когда данный член исключен, с отклонением в полной модели. В строке All рассматривается модель, включающая только свободный член.
DF – число степеней свободы для статистики χ2, приведенной в этой строке.
Отклонение (Deviance) – это (-2)*логарифм правдоподобия, достигаемый в текущей модели.
Увеличение в отклонении модели (Increase From Model Deviance (Chi Square))
– разница отклонений модели данной строки и полной модели. Распределена эта величина для больших выборок приблизительно как χ2.
Уровень значимости (Prob Level) – для критерия χ2. Это вероятность того, что значение функции χ2 с числом степеней свободы DF равно или больше этой величины. Если уровень значимости меньше 0.05, данный член следует считать статистически значимым для модели. В данном случае незначимой оказалась продолжительность работ.
Логарифм правдоподобияи R-квадрат (Log Likelihood & R-Squared Section)
Term Omitted
DF
Log
Likelihood
R-Squared of
Remaining
Term(s)
Reduction
From Model
R-Squared
Reduction
From
Saturated R-
Squared
All
1
-4911.375 0.0000
Age_group_input
2
-4621.560 0.3230 0.5596 0.6770 dose_20_
1
-4124.448 0.8770 0.0055 0.1230 period_4 1
-4148.220 0.8505 0.0320 0.1495
REGION
4
-4308.769 0.6716 0.2110 0.3284 srok_1_month
1
-4121.040 0.8808 0.0017 0.1192
None(Model)
9
-4119.489 0.8826 0.0000 0.1174
None(Saturated) 171
-4014.125 1.0000 0.0000
Исключенный член (Term Omitted) – так же, как в предыдущем разделе.
Только в строке “None(Saturated)” приведены результаты для насыщенной модели.
DF – число степеней свободы.
Логарифм правдоподобия (Log Likelihood) – для модели, проверяемой в данной строке. Это логарифм правдоподобия логистической регрессии без того члена, который приведен в списке.
R-квадрат для оставшихся членов (R-Squared of Remaining Term(s)) – для модели, проверяемой в текущей строке. Эта величина аналогична R2 для

113 множественной регрессии, но не одно и то же: в случае, когда величина R- квадрат составляет 1.0, это показывает, что логистическая регрессионная модель достигла того же правдоподобия, что и насыщенная модель. Это не означает, что данные будут описаны моделью точно, а лишь максимально возможным образом.
Уменьшение от R-квадрат модели (Reduction From Model R-Squared) – уменьшение R-квадрат модели из-за исключения текущего члена.
Уменьшение от R-квадрат насыщенной модели (Reduction From Saturated R-
Squared) – вычисляется с помощью R-квадрат, достигаемого в насыщенной модели. Показывает, насколько существенно влияет удаление этого члена на наилучшие из возможных значения R-квадрат.
Эти таблицы показывают, что наиболее существенным параметром для предсказания наличия ИБС среди ликвидаторов Северо-Запада является возрастная группа, а следующий по важности фактор – место проживания.
Все остальные значимые показатели существенно уступают первым двум по важности при описании зависимой переменной (отклика) – на порядок (4 период) и даже на два порядка (доза выше 20 сЗв и продолжительность работ менее месяца).
Для того, чтобы получить максимально возможный результат классификации, имеет смысл наиболее полно учесть информацию о возрасте, как о наиболее важном факторе. Рассмотрим в качестве переменной, задающей возраст, (а) непрерывную переменную «год рождения» и (б) дискретную переменную «возраст участия» с 6 уровнями: (1) 18-29 лет, (2)
30-34 года, (3) 35-39 лет, (4) 40-44 года, (5) 45-49 лет, (6) 50 и более лет. При использовании непрерывной переменной информация учитывается наиболее полно, однако интерпретация полученных результатов логистической регрессии менее понятна, в отличие от дискретной переменной, для которой вычисляются отношения шансов по каждому уровню.
Кроме того, можно исключить из модели незначимую теперь переменную, задающую продолжительность работ, а в переменной «регион» объединить 1 и 4 уровни (Калининградская и Новгородская области), поскольку они не отличаются по отношению к переменной-отклику
(ИНД_ИБС).
Окончательно получим следующие два варианта.

114
(а)
Model
Y_BIRTH + period_4 + dose_20_ + region_1_2_3_5
Model R-Squared 0.7997
Анализ отклика
ИНД
_ИБС
Unique
Act vs Pred % Correctly
Categories
Count
Rows
Prior R-Squared
Classified
0 3883 336 0.5000 0.2340 71.465 1
3244 319 0.5000 0.2340 70.037
Total
7127 655
70.815
Раздел проверкизначимостипараметров
(Reference Group: ИНД_ИБС = 0)
Parameter
Regression
Coefficient
(B or Beta)
Standard
Error
Wald Z-
Value
(Beta=0)
Wald
Prob
Level
Odds
Ratio
Exp(B)
B0: Intercept
251.3507 8.1569 30.814
0.0000
10000+
B1:
(dose_20_=2)
«20+
сЗв
»
0.2144 0.0667 3.213
0.0013
1.2392
B2:
(period_4=2) «700+
дни приезда»
-0.5537 0.0816
-6.789
0.0000
0.5748
B3: (region_1_2_3_5=2)
Ленобласть
1.1158 0.0845 13.210
0.0000
3.0519
B4: (region_1_2_3_5=3)
СПб
0.9990 0.0726 13.757
0.0000
2.7155
B5: (region_1_2_3_5=5)
Псковская обл.
-0.5607 0.1390
-4.033
0.0001
0.5708
B6: Y_BIRTH
-0.1292 0.0042
-30.908
0.0000
0.8788
(б)
Model
period_4 + dose_20_ + region_1_2_3_5 + Age_input_gr_6
Model R-Squared 0.914
Анализ отклика
ИНД
_ИБС
Unique
Act vs Pred % Correctly
Categories
Count
Rows
Prior R-Squared
Classified
0 3883 67 0.5000 0.2217 67.654 1
3244 64 0.5000 0.2217 73.890
Total
7127 131
70.492

115
Раздел проверкизначимостипараметров
(Reference Group: ИНД_ИБС = 0)
Parameter
Regression
Coefficient
(B or Beta)
Standard
Error
Wald Z-
Value
(Beta=0)
Wald
Prob
Level
Odds
Ratio
Exp(B)
B0: Intercept
-1.9490 0.0808
-24.115
0.0000
0.1424
B1: (Age_input_gr_6=2)
30-34 года
0.9928 0.0795 12.485
0.0000
2.6989
B2: (Age_input_gr_6=3)
35-39 лет
1.4909 0.0754 19.781
0.0000
4.4409
B3: (Age_input_gr_6=4)
40-44 года
2.0389 0.0981 20.781
0.0000
7.6821
B4: (Age_input_gr_6=5)
45-49 лет
2.8415 0.1292 21.996
0.0000
17.1412
B5: (Age_input_gr_6=6)
50 иболеелет
3.7886 0.2471 15.332
0.0000
44.1934
B6: (dose_20_=2)
«20+
сЗв
»
0.2229 0.0664 3.357
0.0008
1.2497
B7: (period_4=2)
«700+
дни приезда»
-0.5488 0.0824
-6.663
0.0000
0.5777
B8: (region_1_2_3_5=2)
Ленобласть
1.1101 0.0840 13.214
0.0000
3.0348
B9: (region_1_2_3_5=3)
СПб
0.9961 0.0726 13.725
0.0000
2.7077
B10:
(region_1_2_3_5=5)
Псковская обл.
-0.5283 0.1390
-3.801
0.0001
0.5896
Для того, чтобы показать способ использования полученных результатов и сравнить логистические регрессионные оценки в моделях (а) и (б), оценим с их помощью вероятности наличия ИБС и шансы иметь этот диагноз у нескольких ликвидаторов.

ВозрастучастияГодрожденияГодучастияДозаМестожительства
1 37 1949 1986 20.0 Калинингр.
2 38 1948 1986 15.6 Лен.обл.
3 25 1961 1986 17.6 СПб
4 49 1937 1986 18.0 СПб

116
Модель
(б)
Parameter
Regression
Coefficient
(B or Beta)

1

2

3

4
Ind ind*B Ind ind*B Ind ind*B Ind ind*B
B0: Intercept
-1.949 1 -1.949 1 -1.949 1
-
1.949 1 -1.949
B1:
Возраст участия
30-34 года
0.993 0
0 0
0 0
0 0
0
B2:
Возраст участия
35-39 лет
1.491 1 1.491 1 1.491 0
0 0
0
B3:
Возраст участия
40-44 года
2.039 0
0 0
0 0
0 0
0
B4:
Возраст участия
45-49 лет
2.842 0
0 0
0 0
0 1 2.842
B5:
Возраст участия
50 иболее лет
3.789 0
0 0
0 0
0 0
0
B6:
Доза
«20+ сЗв»
0.223 1 0.223 0
0 0
0 0
0
B7:
Время участия
«700+
дни приезда
»
-0.549 0
0 0
0 0
0 0
0
B8:
Место жительства
Ленобласть
1.110 0
0 1 1.110 0
0 0
0
B9:
Место жительства
СПб
0.996 0
0 0
0 1 0.996 1 0.996
B10:
Место жительства
Псковская обл.
-0.528 0
0 0
0 0
0 0
0
L= Ln(отношенияшансов) = сумма по столбцу
-0.235 0.652
-
0.953 1.889
P(1) = Вероятность (ИНД_ИБС=1) =
1/(1+exp(-L))
0.441 0.657 0.278 0.869
P(1)/P(0) = Шансы (Инд_ИБС=1) /
(Инд_ИБС=0) = exp(L)
0.790 1.919 0.386 6.610
В столбце ind содержатся 0 или 1 в зависимости от того, присутствует ли данный уровень в текущем наблюдении. Например, для наблюдения №1 возраст участия (37 лет) соответствует параметру В2, поэтому в строке В2 стоит «1», а в строках В1, В3, В4 и В5 стоят «0». Также «1» стоит в строке
B6: Доза «20+ сЗв». Остальные строки содержат нули, поскольку для данного наблюдения указанные значения переменных «Время участия» и «Место жительства» не имеют места.
В строке B0: Intercept для всех наблюдений ind = 1.

117
Модель
(а)
Parameter
Regression
Coefficient
(B or Beta)

1

2

3

4
Ind
ind*B Ind
ind*B Ind
ind*B Ind
ind*B
B0: Intercept
251.4 1 251.4 1 251.4 1 251.4 1 251.4
B1: доза
«20+
сЗв
»
0.214 1 0.214 0
0 0
0 0
0
B2:
Время участия
«700+
дни приезда»
-0.554 0
0 0
0 0
0 0
0
B3:
Место жительства
Ленобласть
1.116 0
0 1 1.116 0
0 0
0
B4:
Место жительства
СПб
0.999 0
0 0
0 1 0.999 1 0.999
B5:
Место жительства
Псковская обл
.
-0.561 0
0 0
0 0
0 0
0
B6:
Год рождения
-0.129 1949 -251.8 1948 -251.7 1961 -253.4 1937 -250.3
L= Ln(отношенияшансов) =
сумма постолбцу
-0.246 0.785
-1.012 2.089
P(1)
=
Вероятность
(ИНД_ИБС=1) = 1/(1+exp(-L))
0.439 0.687 0.267 0.890
P(1)/P(0)
=
Шансы
(Инд_ИБС=1)/(Инд_ИБС=0)
0.782 2.192 0.364 8.079
Отличие этой таблицы от предыдущей состоит в том, что в строке В6 вносятся реальные данные о годе рождения, а не индексы, как в остальных строках. При этом заметим, что выводы относительно каждого из наблюдений в рамках двух моделей совпадают: наблюдаемые №1 и №3 имеют шансы ИБС менее 1, т.е. скорее не имеют этого диагноза, в отличие от наблюдаемых №2 и №4. Наибольшие шансы иметь ИБС у наблюдаемого №4.
Это относится к обеим моделям и связано, прежде всего, с его возрастом.
Дополнительный фактор, увеличивающий его шансы на заболевание – место жительства, СПб. Наблюдаемые №1 и №2 относятся к одной возрастной группе, у первого имеется фактор повышенной дозы, а у второго – фактор места жительства в Ленобласти. И этот фактор оказывается более значимым
– наблюдаемый №1 относится к лицам с шансами не иметь ИБС, а наблюдаемый №2 – к группе, в которой шансы иметь это заболевание превышают 1. Наблюдаемый №3 – самый молодой, поэтому, несмотря на место жительства в СПб, его шансы наличия ИБС минимальны.

118 0
1 2
3 4
5 6
7 8
9
Модель (а)
Модель (б)
№ 1
№ 2
№ 3
№ 4
Линия равных шансов наличия и отсутствия ИБС
Рис. П15-1. Шансы наличия ИБС для четырех наблюдаемых в соответствии с моделями (а) и (б)
5.6.
Выборподмножестванезависимыхпеременных
Задача выбора подмножества состоит в отборе из всего множества независимых переменных небольшого их количества, обеспечивающего, тем не менее, хорошее предсказание зависимой переменной. Обычно используется техника пошагового добавления и исключения переменных, поскольку перебор всех возможных подмножеств для логистической регрессии требует очень больших вычислений. Используются два алгоритма: пошаговый отбор и пошаговый отбор с переключением.
В случаях, когда классов более двух, используется общее отношение правдоподобия для оценки переменных, поэтому включаются все независимые переменные, которые важны для описания хотя бы одного класса.
Иерархические модели
Обычно взаимодействие включается в модель только после того, как все его составляющие вошли в модель: А*В*С будет включено только после включения в модель А, В, С, А*В, А*С, В*С. Такие модели называются иерархическими.
Пошаговый отбор (Forward Selection)
1. На первом шаге в модели нет ни одного члена.

119 2. В модель включается тот член, для которого достигается максимум логарифма правдоподобия.
3. Процесс продолжается, пока не будет достигнуто критическое значение критерия или будет включено максимально возможное количество членов.
Этот метод не обязательно дает наилучший выбор модели и применяется, когда число наблюдений и переменных очень велико.
Пошаговый отбор с переключением (Forward Selection with Switching)
Алгоритм работает аналогично предыдущему, но после включения каждого члена в модель происходит процесс тестирования связок из включенных и не включенных в модель членов – насколько они увеличивают величину критерия (логарифма правдоподобия). Если связка найдена, она фиксируется, и проверяется результат присоединения к ней еще одного члена (величина критерия).
После окончания процесса увеличивается на единицу количество возможных членов в модели, и процесс повторяется. Алгоритм завершается, если достигнут максимум возможного числа членов или включены все переменные.

120
ГЛАВА 6. ЛОГЛИНЕЙНАЯМОДЕЛЬ (LLM)
Логлинейные модели позволяют изучать связи между двумя и более дискретными переменными. На него часто ссылаются как на многомерный анализ частот, поскольку этот метод является расширением аналогичного теста χ
2
для проверки независимости таблиц сопряженности с двумя входами (глава 2, проверка гипотезы о независимости Н
н
).
Этот метод часто используется для анализа обзоров, анкет, исследований, где присутствуют сложные внутренние взаимосвязи между откликами (переменными). Обычно исследуются только двумерные таблицы откликов, что исключает из рассмотрения трехмерные и большей размерности связи. Использование LLM для анализа данных такого типа аналогично применению множественной регрессии по сравнению с использованием простых корреляций для непрерывных данных, с той разницей, что использование LLM не предполагает выделение одной какой-либо переменной в качестве зависимой.
6.1.
Ограниченияипредположения
Использование LLM предполагает очень малое количество ограничений. Метод может применяться практически во всех случаях, когда переменные дискретны (или могут быть дискретизированы).
LLM основан на трех основных предположениях.
1. Наблюдения независимы. Практически это означает, что все наблюдения соответствуют разным субъектам и получены случайным образом из популяции, без специфических групп субъектов.
2. Все наблюдения распределены одинаково. Это означает, что они получены одним и тем же способом.
3. Количество наблюдений достаточно велико. Это связано с тем, что в LLM используется аппроксимация, применимая для больших выборок.
Алгоритм
LLM начинается с логарифмирования всех частот в ячейках таблицы сопряженности, поэтому нулевые частоты недопустимы.
Ограничения LLM менее строги, чем при использовании обычного теста χ
2
для проверки независимости, поэтому, если применим этот тест, то можно использовать и LLM.

121
6.2.
Основныепринципы
Применение LLM предполагает осуществление двух этапов.
Важно помнить о целях, которые ставятся при выполнении каждого из них.
(а) Выбор соответствующей модели
Первым этапом является выбор модели, соответствующей данным.
Есть несколько методов выбора. Одним из наиболее популярных является пошаговый метод, при котором сложные составные элементы модели постепенно исключаются до тех пор, пока в модели не останутся только значимые элементы. Такой поиск подходящей модели применим только к иерархическим моделям. Иерархическими называются модели, которые наряду с каждым членом включают и все его компоненты. Например, если модель включает взаимодействие АВ, то она должна также включать члены А и В.
В процессе выбора модели следует исследовать остатки для определения качества описания данных с помощью текущей модели.
(б) Интерпретация выбранной модели
На этом этапе требуется определить, что означает выбор модели для объяснения связей в данных.
6.3.
Обозначения
Рассмотрим таблицу с двумя входами, у которой переменная строк
А имеет I категорий (уровней) i=1,…, I, а переменная столбцов В имеет
J категорий j=1,…, J. Точная мультипликативная модель, определяющая частоты в ячейках f ij
, записывается как m
ij
= Nα
i
β
j
γ
ij
(6.1), где m ij
= E(f ij
) – ожидаемая частота в строке i и столбце j. Если m ij оцениваются с использованием метода максимального правдоподобия, результат обозначается mH
ij
. Также заметим, что N = Σ
i,j f
ij
В этой таблице интерес представляет только один момент: являются ли независимыми А и В. Это можно проверить с помощью соответствующего теста χ
2
. В модели (6.1) независимость будет установлена, если все γ
ij будут равны 1.
После логарифмирования выражения (6.1) получим линейный относительно неизвестных коэффициентов вид модели ln(m ij
) = θ + λ
i
A
+ λ
j
B
+ λ
ij
AB
(6.2)

122
Слагаемые λ. называются эффектами. Верхние индексы обозначают переменные, нижние индексы – категории этих переменных. Порядок эффекта равен числу переменных в верхнем индексе.
Поскольку полученная формула аддитивна, она называется логлинейной моделью. Из-за логарифмирования в данной модели присутствует ограничение: ни один из m ij не равен 0.
Заметим, что в данной модели общее количество коэффициентов
λ. составляет 1 + I + J + I*J, что превышает количество частот в ячейках
(которое составляет I*J). Если число параметров модели превышает или равно количеству ячеек, такая модель называется насыщенной
(saturated). Насыщенная модель точно воспроизводит наблюдаемые частоты.
Проверяя, равны ли определенные параметры λ нулю, мы проверяем различные связи между переменными. Например, проверяя, являются ли все коэффициенты {λ
ij
AB
}
i, j нулевыми, мы проверяем независимость переменных А и В. Проверяя, равны ли 0 все {λ
i
A
}, мы проверяем, равны ли между собой все вероятности появления категорий
А. Таким образом, эта модель позволяет ответить на многие вопросы относительно факторовА и В.
6.4.
Качествоподгонки
В случае, когда рассматривается несколько вариантов моделей, следует оценить качество каждой из них. Качество модели определяется качеством подгонки данных и проверяется с использованием одной из двух статистик χ
2
:
- статистики Пирсона χ
2
(6.3)
- и статистики максимального правдоподобия
G
2
=

i,j,k f
i j k ln ( f i j k
/ mH
i j k
)
(6.4)
Обе эти статистики распределены как χ
2
, когда N велико и ни одна из частот mH
ijk не является малой. Обе статистики имеют (n – p) степени свободы, где n – количество ячеек таблицы, p – количество параметров в модели, для которой вычислены mH
i j k

123
С помощью этих статистик проверяется следующее утверждение: отличаются ли статистически значимо от 0 те члены насыщенной модели, которые не включены в текущую модель?
Например, пусть текущая иерархическая модель имеет вид {АВ,
ВС}. Тогда раскрытая версия этой модели представляет собой
А+В+С+АВ+ВС. Заметим, что члены АС и АВС насыщенной модели исключены. Вычислим статистики χ
2
и G
2
, используя mH
ijk
, вычисленные по этой модели. Значения этих статистик позволяют определить, действительно ли эффекты АС и АВС нулевые. Другими словами, эти статистики проверяют, не пропущены ли в текущей модели какие-либо важные эффекты.
В отличие от статистики χ
2
Пирсона, отношение правдоподобия G
2
имеет одно важное свойство – оно является аддитивным для частичных связанных моделей. Поясним это утверждение на примере. Пусть оценивается модель (1) {АВ, АС, ВС}, соответствующее значение G
2
(1) получено равным 17.8 с 8 степенями свободы. При проверке модели (2)
{А, В, С} получено значение G
2
(2), равное 69.9 с 24 степенями свободы. Если мы рассмотрим расширенные варианты записей обеих моделей, то обнаружим, что члены АВ, АС и ВС входят в первую модель и не входят во вторую. Далее, заметим, что вторая модель связана с первой моделью (целиком вложена). Разность G
2
(2) - G
2
(1) =
52.1. Это тоже значение статистики χ
2
с 24 – 8 = 16 степенями свободы.
Она позволяет проверить, значимы ли эффекты АВ, АС, ВС.
Это свойство аддитивности чрезвычайно важно. Оно позволяет проверять значимость отдельных членов модели. Предположим, при проверке модели {АВ, ВС, АС} мы обнаружили, что значение теста качества подгонки незначимо. Это означает, что эта модель, в полной записи имеющая вид А + В + С + АВ + ВС + АС, адекватно описывает данные. Следующий возникающий вопрос: все ли из 6 членов в этой модели необходимы? Для проверки значимости ВС следует проверить модель А + В + С + АВ + АС и вычислить разность между получившимися значениями статистики G
2
. Эта разность и будет тестом для определения значимости ВС.
Предостережение: разница между двумя значениями G
2
распределена как χ
2
только в том случае, когда более полная модель описывает данные адекватно. Другими словами – если значение статистики G
2
для большей модели незначимо.
Благодаря свойству аддитивности применение статистики G
2
широко распространено в LLM. Поскольку статистика χ
2
Пирсона не обладает этим свойством, то возникает вопрос – зачем ее вообще

124 вычислять? По двум причинам: во-первых, ряд исследований показывает, что статистика Пирсона дает более точную оценку качества подгонки.
Во-вторых, поскольку обе статистики являются асимптотическими, при не очень больших размерах выборки разумно провести вычисления двумя методами для уверенности в полученном выводе.
6.5.
Техникавыборамоделивпрограммах
STATISTICAи NCSS
При работе с LLM одной из наиболее важных является задача выбора модели среди большого числа возможных. Количество членов в насыщенной модели удваивается при добавлении нового фактора.
Например, для четырехфакторного исследования насыщенная модель содержит 16 членов, а для пятифакторного – 32 члена. Соответственно, количество различных иерархических моделей для четырех факторов составляет более 100, для пяти факторов – более 1000. Поскольку перед исследователем прежде всего стоит задача выбора модели, адекватно описывающей данные и содержащей наименьшее возможное количество членов, требуется метод для ограничения перебора рассматриваемых моделей.
Программа STATISTICA: модульЛоглинейныйанализ содержит команду автоматической подгонки модели с целью облегчения поиска "хорошей модели" по имеющимся данным. Общая логика этого алгоритма следующая. Сначала STATISTICA подгоняет модель, в которой нет связей между факторами. Если она отвергается (т.е. соответствующая статистикахи-квадрат имеет значимую величину), то подгоняется модель со всеми возможными взаимодействиями двух факторов. Если эта модель тоже не принимается, то STATISTICA проверит модель со всеми трехфакторными взаимодействиями и т.д.
Теперь предположим, что в ходе этого процесса установлено, что модель со всеми двухфакторными взаимодействиями подходит для имеющихся данных.
Тогда
STATISTICA начнет устранять двухфакторные взаимодействия, которые не являются статистически значимыми. Результирующей моделью станет такая модель, которая включает наименьшее необходимое для согласия число взаимодействующих факторов.
В программе NCSS предусмотрено использование нескольких методов выбора модели, приведенных ниже. Конечная модель будет результатом их применения для предлагаемых данных.
Методы выбора модели - стандартизованные оценки параметров

125
Этот метод следующим способом просматривает модели. Прежде всего вычисляются стандартизованные оценки всех λ для насыщенной модели.
Далее составляется список наибольших эффектов (превышающих некоторый порог, например 2.0 или 3.0). Наконец, выбирается иерархическая модель, включающая наименьшее возможное число членов, каждый из которых входит в список со значимыми эффектами. Эта модель проверяется на адекватность данным с использованием теста χ
2
. Если значение статистики незначимо, эта модель принимается. В противном случае в текущую модель добавляются эффекты из списка, пока не получится адекватная модель.
Методы выбора модели - проверка маргинальных и частных ассоциаций
При применении этого метода вычисляются два теста для каждого члена (вплоть до членов четвертого порядка). Предполагается, что членами большего порядка можно пренебречь. Эти тесты измеряют частные и маргинальные ассоциации. Частная ассоциация рассматривает значимость одного члена после рассмотрения всех остальных членов того же порядка.
Маргинальная ассоциация проверяет значимость одного члена при исключении влияния других факторов в модели.
Тест частной ассоциации строится следующим образом. Рассмотрим две модели: первая содержит все члены того же порядка, что и оцениваемый член. Вторая – содержит все члены первой, кроме оцениваемого. Вычисляем разность G
2
(2) - G
2
(1) и разность степеней свободы для G
2
(2) и G
2
(1).
Например, пусть требуется проверить, что частная ассоциация факторов А и В в четырехфакторной таблице – нулевая. Вычисляем G
2
для моделей (1) {АВ, АС, AD, BC, BD, CD} и (2) {АС, AD, BC, BD, CD}. Разница статистик позволяет проверить значимость частной ассоциации.
Тест маргинальной ассоциации строится с помощью сворачивания таблиц, пока интересующий нас член не окажется взаимодействием наивысшего порядка и в модели не останется ни одного члена того же порядка. Затем этот член исключается и оценивается модель более низкого порядка. Значение G
2
оценивает маргинальную ассоциацию между факторами в оцениваемом члене.
Например, для того, чтобы проверить, что маргинальная ассоциация между А и В в четырехфакторной модели равна 0, прежде всего сворачиваем исходную таблицу к двухвходовой таблице, задаваемой факторами А и В.
Далее для этой свернутой таблицы оцениваем модель {А, В} (без взаимодействия АВ) с помощью статистики G
2
. Это значение статистики и является маргинальной ассоциацией А и В.
Используя результаты этих двух тестов, можно получить хороший индикатор того, является ли рассматриваемый член значимым или нет. Как и раньше, для получения конечной модели формируется список всех значимых

126 членов. Далее следует составить минимальную иерархическую модель, которая включает эти члены.
Методы выбора модели - одновременные порядковые тесты
Эта программа дает список одновременных тестов для всех членов заданного порядка и всех членов заданного порядка и выше. Эти тесты позволяют сразу же уменьшить количество рассматриваемых моделей.
Например, если тест для моделей второго порядка и выше значим, а для моделей третьего порядка и выше – незначим, следовательно, следует ограничиться рассмотрением моделей второго и менее порядков. Это сокращает поиск оптимальной модели.
Методы выбора модели - пошаговая процедура отбора
Это наиболее популярный метод выбора модели. Он по умолчанию используется в программе. Процедура начинается с определенной модели
(часто с насыщенной модели, поскольку она описывает данные заведомо хорошо) и ищет модели с членами меньших порядков, которые также хорошо описывают данные. В программе используется техника обратного исключения, поскольку она работает лучше, чем техника прямого включения.
Для работы процедуры прежде всего следует задать уровень значимости (α) для того, чтобы тест качества подгонки сообщал о значимости модели (модель не описывает данные удовлетворительно). Далее исключается каждый из членов наивысшего порядка в иерархической модели и рассматривается расширенная модель, отличающаяся только этим членом.
Тогда разница между статистиками G
2
начальной и полученной моделей позволяют оценить исключенный член отдельно. Отбирается для дальнейшей работы та подмодель, которая имеет наибольшую значимость. Процедура заканчивается, когда ни одна из подмоделей не обладает значимостью выше
α.
6.6.
Анализостатков
Когда получена возможная модель, следует оценить ее адекватность. Кроме статистики для оценки качества подгонки следует изучить остатки между оцененными и действительными частотами.
Если какая-либо ячейка дает существенное отклонение оценки, следует модифицировать модель. (возможно, вернуть исключенный член в модель). После получения удовлетворительных остатков производится интерпретация отдельных членов модели. Она связана со сворачиванием таблиц и вычислением соответствующих процентов.

127
6.7.
Структураданных
Пример 16. Приведены табулированные данные о частотном распределении 150 обследованных во ВЦЭРМ ликвидаторов в зависимости от их генотипа АСЕ (получен в НИО генетической диагностики, начальник Слозина Н.М.), возраста участия в ликвидации и наличия стенокардии (I20 по МКБ10) - по данным НРЭР.
Таблица П15-1.
ЧастотаВозрастучастия,
лет (Age_gr)
I20
ACE
6 18-29 0 (нет)
II
11 18-29 0
ID
6 18-29 0
DD
1 18-29 1 (есть)
II
4 18-29 1
ID
4 18-29 1
DD
10 30-39 0
II
27 30-39 0
ID
7 30-39 0
DD
7 30-39 1
II
24 30-39 1
ID
9 30-39 1
DD
2 40+
0
II
1 40+
0
ID
3 40+
0
DD
8 40+
1
II
12 40+
1
ID
8 40+
1
DD
При работе с программой NCSS может быть введено до 7 факторов, но как минимум 2. Кроме того, при работе с табличными данными еще должна быть введена частота. В данном примере учитываются 3 фактора: Возрастучастия, I20 и ACE. Они обозначаются последовательно символами А, В, С.
При работе с программой STATISTICA возможно использование таких же таблиц, а также исходного файла данных. Модуль
Логлинейныйанализ блока Углубленныеметодыанализа содержит полную реализацию процедур логлинейного анализа многовходовых таблиц частот. Могут анализироваться таблицы с числом измерений от
2 до 7. Таблицы могут содержать структурные нули. Частотные таблицы могут быть вычислены по исходным данным либо введены

128 непосредственно. В данной программе факторы обозначаются последовательными номерами: 1, 2, 3, и т.д.
6.8.
Заданиепараметров LLM дляпрограммы NCSS
Модель. Эта опция позволяет определить иерархическую модель для оценивания. Если применяется пошаговая процедура отбора, эта модель будет стартовой.
Полнаямодель (Full Model). Эта опция определяет в качестве модели для оценивания насыщенную модель.
До (1, 2, 3) – входов (Up to (1, 2, 3) – Way). Эта опция устанавливает, что в модель включаются члены вплоть до указанного порядка. Например, если указаны «2 входа», при трех факторах это означает, что будет проанализирована иерархическая модель {АВ, АС, ВС}.
Пользовательскаямодель (Custom Model). Используя данную опцию, можно определить нужную модель (иерархическую), руководствуясь следующими правилами.
Каждый иерархический член предполагает включение в модель и всех комбинаций составляющих его факторов меньшего порядка. Например, если для 5-факторной модели (А – Е) определена иерархическая модель {АВС,
DE}, это означает, что в модель включены следующие члены: А, В, С, АВ,
АС, ВС, АВС, D, E, DE.
(Delta Value). Это число, обычно из интервала (0.1, 0.9), которое прибавляется к числу наблюдений в каждой ячейке таблицы, если там присутствуют нули. Это позволяет анализировать таблицы с нулями
(поскольку процедура предполагает логарифмирование). При использовании этой опции лучше провести анализ при 2 – 3 значениях параметра, чтобы определить, насколько его значение влияет на результат анализа.
Опцияпроцедурымаксимальногоправдоподобиямаксимальное числоитераций (Max Iterations). В этой опции определяется максимальное число итераций. Обычно алгоритм сходится менее чем за 5 шагов, поэтому
25 итераций будет более чем достаточно.
Опцияпроцедурымаксимальногоправдоподобиямаксимальная разность (Max Difference). Эта опция определяет максимальную разность между наблюдаемыми и предсказанными частотами таблицы. Как только максимум становится меньше этого числа, процедура максимального правдоподобия прекращается (сходится).
Осуществитьпошаговыйпоиск (Perform Step-Down Search). Опция определяет, используется ли данная процедура. Процедура начинается с той модели, которая определена в опции «Модель». Осуществление процедуры определяется двумя параметрами – «Максимальное число моделей» и «α для остановки».

129
Максимальноечисломоделей (Max Models). Эта опция определяет максимальное количество моделей, которые могут быть протестированы до окончания работы процедуры.
αдляостановки (Stopping Alpha). Эта опция задает значение α, которое является уровнем значимости для оценки качества проверяемой модели. Если в процессе поиска не будет найдено ни одной модели, для которой р-значение выше заданного α, поиск заканчивается. Напомним, что мы ищем модель, которая хорошо описывает данные, и прекращение процесса означает, что не получено достаточного качества описания.
Хотя вы, возможно, привыкли всегда использовать уровень α, равный
0.05, следует использовать и большие значения (например, 0.15 или 0.25), поскольку требуется модель, хорошо описывающая данные, а это не всегда связано со значимостью. Модель, которая «почти значима» (с α=0.06 или
α=0.08), может не включать в себя важные члены. Если же вы выбираете значение α, равное 0.25, то можете быть уверены, что модель хорошо описывает данные.
К сожалению, соответствующее значение α также связано с объемом выборки. Для малых выборок уровень значимости 0.25 может привести к отклонению всех гипотез и отсутствию согласованности между моделью и данными. Поэтому для малых выборок можно получить плохую подгонку и большое α. С другой стороны, для больших выборок даже уровень 0.05 может оказаться чрезмерно большим, и его следует уменьшить.
6.9.
Содержаниеотчетовпрограмм NCSS и STATISTICA
при реализацииалгоритма LLM
При работе с программой NCSS
Раздел проверкинесколькихчленов (
Multiple-Term Test Section)
Like. Ratio
Prob
Pearson
Prob
K-Terms
DF Chi-Square
Level Chi-Square
Level
1WAY & Higher
17 82.45
0.0000
95.77
0.0000
2WAY & Higher
12 29.28
0.0036
26.24
0.0099
3WAY & Higher
4 2.42 0.6597 2.48 0.6489
Like. Ratio
Prob
K-Terms
DF Chi-Square
Level
1WAY Only
5 53.17
0.0000
2WAY Only
8 26.86
0.0007
3WAY Only
4 2.42 0.6597
Note: Simultaneous test that all interactions of order k are zero. These Chi-
Squares are differences in the above table.

130
Этот отчет помогает в процессе выбора модели – изолируя члены высших порядков, можно оценить, какие из них следует включить в окончательную модель.
Верхняя таблица показывает значимость всех членов данного порядка и более высоких порядков. Например, 29.28 дает значимость всех членов 2 и 3 порядка, 2.42 – значимость взаимодействия 3-го порядка (членов более высокого порядка здесь нет).
Просматривая уровни значимости в этой таблице (Prob Level), можно сразу же определить наивысший порядок значимых членов. В данном примере значимыми являются члены 1 и 2 порядков.
Вторая таблица получена из первой с помощью вычитания. Это касается только критерия максимального правдоподобия (Like. Ratio
Chi-Square), так как критерий χ
2
Пирсона свойством аддитивности не обладает.
При работе с программой STATISTICA
Критерии маргинальных и частных связей
Число
Част
.св.
Част
.св.
Марг
.св.
Марг
.св.
1
2 30.60 0.000 30.60 0.000
2
1 0.10 0.751 0.10 0.751
3
2 22.47 0.000 22.47 0.000
12
2 20.13 0.000 19.83 0.000
13
4 6.39 0.172 6.09 0.193
23
2 0.95 0.623 0.65 0.724
Результаты подгонки К-факторн.взаимодействий Это одновременная проверка того
, что все К-факторные взаимодействия равны нулю
Число
МП
Вероятн
Пирсона
Вероятн
1 5
53.17
0.000
69.53
0.000
2 8
26.86
0.001
23.77
0.003
3 4
2.42 0.660 2.48 0.649
Раздел проверкиотдельныхчленов (
Single -Term Test Section)
При работе с программой NCSS
Single-Term Test Section
1   ...   7   8   9   10   11   12   13   14   15


написать администратору сайта