Главная страница
Навигация по странице:

  • Выборка Ранг Ранги 1-й выборки

  • Заболе-ваемость Ранг 1995 1061


  • =СРЗНАЧ( B 1: J 1) и копируем ее в ячейки K2-K3, а в ячейку K4 вводим формулу =СУММ( B 4: J 4).

  • Сервис/Анализ/ Парный двухвыборочный t -тест для средних

  • Массив1

  • Лекция № 8. Лекция Статистические гипотезы


    Скачать 283.14 Kb.
    НазваниеЛекция Статистические гипотезы
    Дата05.06.2022
    Размер283.14 Kb.
    Формат файлаdocx
    Имя файлаЛекция № 8.docx
    ТипЛекция
    #570505
    страница2 из 3
    1   2   3



    Элементы первого и второго столбцов представляют собой варианты первой и второй выборок, при этом варианты, встречающиеся однажды, записываются в соответствующий столбец, а повторяющиеся в выборках – таким образом, чтобы значения в столбцах чередовались. Элементы третьего столбца представляют собой ранги (порядковые номера) вариант в объединенной выборке, состоящей из 13 вариант. Элементы четвертого столбца определяются по таблице (приложение 4). Суммируя элементы четвертого столбца, получим 2.91. Критическое значение же для N=13, разницы в объемах выборок – 1 и уровня значимости 0.05 составляет 2.96 (приложение 5). Таким образом, нулевая гипотеза остается в силе, т.е. различия между выборками случайны.

    Применим к тем же данный критерий Уайта. Для этого аналогично объединим данные двух выборок в одну, упорядочим объединенную выборку по возрастанию и каждой варианте присвоим ранг, причем одинаковым по значению вариантам присваиваем средний ранг, в результате получим таблицу (табл.4).

    Табл.4

    Выборка

    Ранг

    Ранги 1-й выборки

    Ранги 2-й выборки

    7

    1

    1

     

    10

    2

    2

     

    11

    3.5

    3.5

     

    11

    3.5

     

    3.5

    12

    5.5

    5.5

     

    12

    5.5

    5.5

     

    15

    8

    8

     

    15

    8

    8

     

    15

    8

     

    8

    16

    10.5

     

    10.5

    16

    10.5

     

    10.5

    17

    12.5

     

    12.5

    17

    12.5

     

    12.5


    Суммируя элементы третьего столбца, получим 33.5, четвертого – 57.5. Меньшее из этих чисел (33.5) сравниваем с табличным значением критерия Уайта для N1=7 и N2=6, составляющим 27 (приложение 6). Поскольку вычисленное значение больше табличного, то нулевая гипотеза сохраняется, т.е. различия между выборками случайны. Таким образом, оба критерия в применении к указанному примеру дают одинаковый результат.

    Для сравнения двух и более независимых выборок целесообразно использовать критерий Неймени, главным условием которого является одинаковый объем всех исследуемых выборок.

    Пример 4. Пусть изучалась заболеваемость сердечно-сосудистыми заболеваниями (впервые зарегистрировано)в городах А, В и С в период с 1995 по 2004 гг. Данные представлены в таблице 5 в качестве первого, третьего и пятого столбцов.

    Табл. 5

    Год

    Город А

    Город В

    Город С

    Заболе-ваемость

    Ранг

    Заболе-ваемость

    ранг

    Заболе-ваемость

    Ранг

    1995

    1061

    11

    1071

    13

    1008

    2

    1996

    1076

    16.5

    1082

    20

    1015

    3

    1997

    1022

    5

    1102

    30

    1024

    6

    1998

    1038

    7.5

    1073

    14

    1043

    9

    1999

    1077

    18

    1001

    1

    1076

    16.5

    2000

    1086

    21.5

    1016

    4

    1038

    7.5

    2001

    1049

    10

    1099

    28

    1086

    21.5

    2002

    1074

    15

    1101

    29

    1091

    25

    2003

    1067

    12

    1089

    23

    1090

    24

    2004

    1080

    19

    1095

    26,5

    1095

    26.6




    ΣR1=135.5

    ΣR1=188.5

    ΣR1=141


    Объединяем все данные в общую выборку и ранжируем по возрастанию, одинаковым вариантам присваиваем средний ранг (аналогично критерию Уайта), записываем ранги каждой из выборок соответственно во второй, четвертый и шестой столбцы и находим сумму рангов каждой из выборок отдельно. Затем составляем таблицу модулей разностей рангов для каждой пары выборок:

    Табл.6




    Город А

    Город В

    Город С

    Город А



    53

    5.5

    Город В






    47.5

    Город С










    Полученные разности сравнивают с табличным значением критерия Неймени (приложение 8). Если величина разности при данном числе наблюдений и количестве выборок превышает табличное, то различия считаются достоверными. В нашем примере при n=10 и k=3 табличное значение составляет 92.3. Поскольку самая большая из разностей не превышает критического значения, то различия в заболеваемости недостоверны.

    . Если же исследуется действие на выборку некоторого фактора, т.е. необходимо сравнить данные, полученные до и после эксперимента, то применяется парный критерий Стьюдента в случае нормального распределения данных и непараметрический z-критерий знаков при неизвестном распределении.

    Формула парного критерия Стьюдента имеет вид:

    , (9)

    где di – разность значений показателя до и после эксперимента для одного и того же i–го объекта, d*- среднее значение разности. Полученное значение t сравнивается с табличным значением критерия Стьюдента для заданного уровня вероятности и числа степеней свободы, равного N-1. Если полученное значение t больше табличного, то нулевая гипотеза отвергается, т.е. различия между выборочными средними достоверны.

    Пример 5. Пусть в некоторой обследуемых дважды проводился анализ крови на содержание гемоглобина – до и после приема железосодержащего препарата. Результаты приведены в табл. 7. Предполагая, что значение гемоглобина распределяется нормально, проверить гипотезу о том, что повышение уровня гемоглобина вызвано приемом препарата.

    Будем исходить из нулевой гипотезы, утверждающей, что различия между выборками случайны, т.е. влияние препарата несущественно.

    Среднее значение гемоглобина до приема составило 9.33 ед., после приема– 12.55. Разница составляет 3.22. Определим значение t по формуле (44) и сравним с табличным значением критерия Стьюдента для принятого уровня значимости и числа степеней свободы, равного N-1. Вычисленное значение t составляет 4.6, табличное – 2.30 для уровня значимости 0.05 и k=9-1=8. Поскольку фактическое значение t больше критического, то нулевая гипотеза отвергается, таким образом, положительное влияние препарата доказано.

    Табл.7

    До приема

    10

    14

    10

    8

    11

    11

    11

    10

    10

    После приема

    13

    14

    13

    7

    14

    12

    14

    12

    14

    Разница d

    3

    0

    3

    -1

    3

    1

    3

    2

    4

    Квадрат разницы

    9

    0

    9

    1

    9

    1

    9

    4

    16


    Покажем, как выполнить приведенные вычисления в электронной таблице EXCEL. В ячейки B1-J1 вводим числа 10,14,17,8,11,12,11,12,13 соответственно, а в ячейки B2-J2 вводим числа 15,14,26,7,15,19,16,18,17 соответственно. В ячейку B3 вводим формулу

    =B2-B1

    и копируем ее в ячейки С3-J3. В ячейку B4 вводим формулу

    =B3^2

    и копируем ее в ячейки С4-J4. В ячейку K1 вводим формулу

    =СРЗНАЧ(B1:J1)

    и копируем ее в ячейки K2-K3, а в ячейку K4 вводим формулу

    =СУММ(B4:J4).

    В ячейку B6 вводим формулу

    =ABS(K1-K2)/((K4/9-K3)/8)^(1/2)

    в результате чего в ячейке B6 появляется значение 4.10. В ячейку B7 вводим формулу

    =CТЬЮДРАСПОБР(0,05;8)

    в результате чего ячейка В7 содержит табличное значение критерия Стьюдента для принятого уровня значимости и числа степеней свободы.

    Ту же процедуру можно проделать с помощью пакета анализа в Microsoft Excel. Для этого переходим в пункт меню Сервис/Анализ/ Парный двухвыборочный t-тест для средних и указываем параметры, представленные на рис. 11.



    Рис. 11

    В результате получим данные, представленные в табл. 8. Поскольку фактическое значение, называемое t-статистикой (-4.11), по модулю больше критического, равного 2.306005626, то нулевая гипотеза отвергается, т.е. различия между выборочными средними достоверны.

    Табл.8.

    Парный двухвыборочный t-тест для средних

     

     

     

     

     

     

    Переменная 1

    Переменная 2

    Среднее

    12

    16,33333333

    Дисперсия

    6,5

    25

    Наблюдения

    9

    9

    Корреляция Пирсона

    0,843299381

     

    Гипотетическая разность средних

    0

     

    Df

    8

     

    t-статистика

    -4,110960958

     

    P(T<=t) одностороннее

    0,001693071

     

    t критическое одностороннее

    1,85954832

     

    P(T<=t) двухстороннее

    0,003386143

     

    t критическое двухстороннее

    2,306005626

     



    Другим способом осуществления аналогичной проверки с помощью Microsoft Excel является та же функция ТТЕСТ. При этом в поле Массив1 следует указать B1:J1, в поле Массив2B2:J2, в поле Хвосты ввести цифру 2, а в поле Тип – цифру 1, после чего щелкнуть кнопку ОК. Нулевая гипотеза отвергается, если получившееся значение меньше принятого уровня значимости.

    Рассмотрим применение z-критерия знаков к попарно связанным выборкам. Суть его заключается в следующем: если действие фактора имеет место, то значения изучаемого признака изменяются в ту или другую сторону, причем чем больше в выборке доля таких изменений (одного знака), тем результативнее действующий фактор. Фактическое значение количества изменений сравнивается с табличным (приложение 9). Нулевая гипотеза отвергается, если фактическое значение больше критического для указанного объема выборок. При этом нулевые разности не учитываются.

    Применим критерий знаков к примеру 5. Как видно из табл. 7, у большинства обследованных (7 из 9) содержание гемоглобина увеличилось. При обращении к таблице критерия знаков число нулевых разностей не учитывается, таким образом, N=8. Критическое значение для таблицы критерия знаков для уровня значимости 5% и n=8 составляет 7. Таким образом, нулевая гипотеза отвергается.

    Если объем выборок превышает 90, то в качестве критического значения берется целая часть величины , где k=0.8224 для α=0.01 и k=0.98 для α=0.05.

    Количество положительных разностей D+ сравнивается с полученным числом; нулевая гипотеза отвергается, если D+ превышает критическое значение.

    В случае, если направление изменения признака неизвестно (чаще такая ситуация встречается для медико-биологических объектов) то в качестве D берется max{D+,D-}
    1   2   3


    написать администратору сайта