Главная страница
Навигация по странице:

  • . Однофакторный дисперсионный анализ

  • Однофакторный дисперсионный анализ

  • Поставщик 1 Поставщик 2 Поставщик 3 Поставщик 4

  • Группы

  • Поставщик 3 5 114,2 22,84 4,553

  • Поставщик 4 5 105,8 21,16 8,903

  • Источник вариации

  • Между группами 63,2855 3 21,09516667

  • Внутри групп 97,504 16 6,094

  • Итого 160,7895 19

  • Comparison Difference of Difference Range Results

  • Миниобранауки россии


    Скачать 1.37 Mb.
    НазваниеМиниобранауки россии
    Дата05.06.2022
    Размер1.37 Mb.
    Формат файлаdoc
    Имя файлаMetodichkaTV_i_MS_2019.doc
    ТипКурсовая
    #571534
    страница6 из 9
    1   2   3   4   5   6   7   8   9

    6. Проверка гипотезы о равенстве средних величин при неизвестной дисперсии



    Для проверки гипотезы о равенстве средних (математических ожиданий) двух независимых нормальных распределений с неизвестными дисперсиями и используется t-тест

    Относительно дисперсий и можно выдвинуть следующие два предположения:

    1) Обе дисперсии неизвестны, но предполагается, что они равны между собой, т.е. = .

    2) Обе дисперсии неизвестны и предполагается, что они не равны между собой, т.е. .

    • В случае, когда обе дисперсии неизвестны, но предполагается что они равны между собой, мы имеем дело с двумя оценками и одной и той же дисперсии = .

    То в этом случае строится объединённая оценка:



    гдеS2 – это объединённая оценка дисперсии = = .

    В математической статистике доказывается, что если нулевая гипотеза о равенстве математических ожиданий H0: mx=myвыполняется, то величина tвычисляется по формуле:



    где и – средние арифметические величины, n1 – число наблюдений в первой выборке, n2 – число наблюдений во второй выборке, S – выборочное стандартное отклонение.

    Статистика tимеет распределение Стьюдента. Число степеней свободы определяется по формуле:



    Эту t-статистику и используют в качестве критерия при проверке нулевой гипотезы о равенстве математических ожиданий. Схема проверки аналогична проверке при использовании Z-теста.

    • В случае, когда дисперсии неизвестны и предполагается, что они не равны, используется аналог Z-теста с заменой дисперсий их оценками.

    - это распределение близко к распределению Стьюдента.

    Число степеней свободы вычисляется по следующей формуле:



    В данном случае t-статистику, используемую для проверки нулевой гипотезы о равенстве средних величин при различных неизвестных дисперсиях, называют критерием Фишера-Беренса.
    Задание:

    Требуется для вашего варианта проверить гипотезу H0: mx=my, предположив, что соответствующие генеральные совокупности имеют нормальное распределение

    1. с одинаковыми дисперсиями;

    2. с различными дисперсиями.


    7Однофакторный дисперсионный анализ
    Ранее нами были рассмотрены процедуры для оценки значимости различий между средними значениями двух выборок. Однако часто необходимо сравнивать средние значения трёх и более числа выборок. В случае, когда необходимо сравнить средние значения большого числа выборок, используется метод дисперсионного анализа (ANOVA – Analysis of Variance), который устанавливает влияние отдельных факторов на изменчивость какого – либо признака, значения которого могут быть получены опытным путем в виде случайной величины Y. В зависимости от числа факторов, различают однофакторный и многофакторный дисперсионный анализ.

    Однофакторный дисперсионный анализ

    Величину Y называют результативным признаком, а конкретную реализацию фактора A – уровнем (группой) фактора A или способом обработки и обозначают через A(i) . Всего имеется c уровней фактора A. Обозначим их А(1)(2),…,А(с) .

    Задачу однофакторного дисперсионного анализа можно продемонстрировать на следующем примере.

    Пример

    Необходимо определить существует ли разница между прочностью парашютов, сотканных из синтетических волокон разных поставщиков. Результаты эксперимента (сила разрыва) приведены в таблице .
    Таблица 2




    Поставщик 1

    Поставщик 2

    Поставщик 3

    Поставщик 4




    18,5

    26,3

    20,6

    25,4




    24,0

    25,3

    25,2

    19,9




    17,2

    24,0

    20,8

    22,6




    19,9

    21,2

    24,7

    17,5




    18,0

    24,5

    22,9

    20,4

    среднее

    19,5

    24,26

    22,84

    21,16

    ст.откл

    2,69

    1,92

    2,13

    2,98


    .

    Пусть m1, m2,…, mс –математические ожидания результативного признака Υ при соответствующих уровнях фактора А. В данном примере результативный признак Υ- сила разрыва, уровни фактора А – группы поставщиков.

    Если при изменении уровня фактора групповые математические ожидания не изменяются, т.е. выполняется условие равенства мат.ожиданий : H0: m1=m2=…=mсто считается, что результативный признак не зависит от фактора А. В противном случае такая зависимость имеется (H1: не все мат.ожидания равны).

    Поскольку мат.ожидания не известны, необходимо подтвердить гипотезу об их равенстве на основе выборочных данных.

    Эту гипотезу Н0: m1 = m2=…= mс можно подтвердить с помощью F – критерия Фишера, если выполняются следующие условия:

    1. наблюдения должны быть случайными, независимы и проводиться в одинаковых условиях.

    2. экспериментальные данные должны иметь нормальный закон распределения

    3. их дисперсии должны быть одинаковыми.

    Если эти условия выполняются, то можно приступать непосредственно к процедуре дисперсионного анализа, т.е. к проверке гипотезы о равенстве средних величин: Н0: m1 = m2=…= mс

    Проверить эту гипотезу можно, изучая вариации отдельных значений признака. Общая изменчивость значений признака может быть вызвана как изменчивостью значений признака между различными группами (межгрупповая вариация), так и изменчивостью значений признака внутри группы (внутригрупповая вариация). Для измерения степени вариации используется показатель – сумма квадратов отклонений.

    Общая (полная) вариация определяется полной суммой квадратов отклонений.



    где - общее среднее.

    .
    - среднее значение в j –ой группе



    Межгрупповая вариация, вызванная влиянием фактора A на X определяется по формуле

    ,

    Внутригрупповая вариация определяется равенством



    В общем случае выполняется равенство , т.е. полная вариация значений признаков определяется суммой межгрупповой и внутригрупповой вариации.

    Для проверки гипотезы о равенстве средних величин используется F-критерий Фишера, статистика которого определяется отношением.



    Статистика F-критерия подчиняется распределению Фишера с числом степеней свободы , где n – общее число наблюдений, c - число уровней фактора A.

    Показатель MS определяется как сумма квадратов отклонения, приходящаяся на одну степень свободы.

    ,

    ,

    где SSA – сумма квадратов отклонения, вызванная влиянием фактора A на X, а SSвн - сумма квадратов отклонения, вызванная влиянием остаточных факторов на Y.

    Для проверки гипотезы определяется правосторонняя критическая область, т.е. вычисляется Fкрпри уровне значимости (см. функцию Excel F.ОБР.ПХ) и проверяется попадание рассчитанного значения Fрасч – статистики в интервал (Fкр;+∞). Если попадает, то гипотеза отклоняется, в противном случае принимается.

    Прежде чем использовать F – критерий Фишера необходимо установить на основе имеющихся выборочных данных, являются ли генеральные дисперсии результативного признака при различных условиях фактора одинаковыми или нет. Проверяется гипотеза

    H0123…=σ против гипотезы Н1: не все дисперсии одинаковы.

    Для проверки равенства трёх или более дисперсий используется критерий Бартлетта w.

    ,

    где q вычисляется по формуле:



    где

    с –число уровней фактора А;

    n1, …,nj, …, nс -число наблюдений для 1,…, j,…, с-ого уровня фактора А.

    - внутригрупповая дисперсия, соответствующая j-ому уровню фактора А.



    - среднее арифметическое значение результирующего показателя (признака) при j-ом уровне фактора А.

    ,

    При выполнении гипотезы о равенстве дисперсии Н0: = =…= критерий имеет распределение χ2 (хи – квадрат) с числом степеней свободы .

    Для проверки гипотезы при заданном уровне значимости находится правосторонняя критическая точка wкр., которая определяет область отклонения - интервал (wкр;+∞). Если рассчитанное значение w попадает в эту область, то мы отклоняем гипотезу при уровне значимости . В противном случае гипотеза принимается.

    Более мощным является модифицированный критерий Левенэ.

    Вычисляются абсолютные величины разностей между наблюдениями и медианами в каждой группе (см. пример). Результат представлен в таблице 3.

    таблица 3.


    Поставщик 1

    Поставщик 2

    Поставщик 3

    Поставщик 4

    0,0

    1,8

    2,3

    5,0

    5,5

    0,8

    2,3

    0,5

    1,3

    0,5

    2,1

    2,2

    1,4

    3,3

    1,8

    2,9

    0,5

    0,0

    0,0

    0,0


    Выполняется однофакторный дисперсионный анализ полученных значений абсолютных разностей

    таблица 4


    Однофакторный дисперсионный анализ


































    ИТОГИ



















    Группы

    Счет

    Сумма

    Среднее

    Дисперсия







    Столбец 1

    5

    8,7

    1,74

    4,753







    Столбец 2

    5

    6,4

    1,28

    1,707







    Столбец 3

    5

    8,5

    1,7

    0,945







    Столбец 4

    5

    10,6

    2,12

    4,007

















































    Дисперсионный анализ
















    Источник вариации

    SS

    df

    MS

    F

    P-Значение

    F критическое

    Между группами

    1,77

    3

    0,59

    0,20679986

    0,890188801

    3,238866952

    Внутри групп

    45,648

    16

    2,853































    Итого

    47,418

    19














    Поскольку Fрасч = 0,2067 < 3,2388, нулевая гипотеза о равенстве дисперсий не отклоняется. Между дисперсиями внутри каждой группы существенной разницы нет, т. е. условие об однородности данных выполняется .

    Для проведения однофакторного дисперсионного анализа существует инструмент в пакете анализа Excel, который так и называется « Однофакторный дисперсионный анализ».

    Здесь задаются следующие параметры:

    1. входной интервал (вводится вся таблица с исходными данными);

    2. вид группирования (по столбцам/ по строкам);

    3. метки;

    4. поле ;

    указать выходной интервал

    Результаты анализа для примера (табл.5), приведенного выше, выведены в таблицу


    Таблица 5


    Однофакторный дисперсионный анализ































    ИТОГО



















    Группы

    Счет

    Сумма

    Среднее

    Дисперсия







    Поставщик 1

    5

    97,6

    19,52

    7,237







    Поставщик 2

    5

    121,3

    24,26

    3,683







    Поставщик 3

    5

    114,2

    22,84

    4,553







    Поставщик 4

    5

    105,8

    21,16

    8,903

















































    ДИСПЕРСИОННЫЙ АНАЛИЗ
















    Источник вариации

    SS

    df

    MS

    F

    P-значение

    F крит.

    Между группами

    63,2855

    3

    21,09516667

    3,461628925

    0,0413656

    3,238866952

    Внутри групп

    97,504

    16

    6,094































    Итого

    160,7895

    19

     

     

     

     


    Поскольку Fрасч = 3,4616крит=3,2388, гипотезу о равенстве средних величин H0: m1=m2= m3 =m4 отклоняется в пользу гипотезы H1.

    При обнаружении значительных различий между математическими ожиданиями необходимо определить, какие именно группы отличаются друг от друга. Для этого используется процедура множественного сравнения Тьюки – Крамера, описанная ниже.

    1. Вычисляются разности , где i ≠ j – номера групп, между средними значениями c(c – 1) групп;

    2. Вычисляется критический размах процедуры Тьюки – Крамера по формуле



    где Qu –верхнее критическое значение распределения стьюдентизированного размаха, имеющего c степеней свободы в числителе df1 = c и df2 = n степеней свободы в знаменателе, n-общее число наблюдений, n1 и n2 число наблюдений в i-ой и j-ой группах соответственно.

    1. Каждая из c(c – 1)/2 пар разностей математических ожиданий сравнивается с рассчитанным критическим размахом.

    Элементы пары считаются значительно различными, если модуль разности между ними превышает критический размах. Результаты расчетов приведены ниже.





    Absolute

    Std. Error

    Critical










    Comparison

    Difference

    of Difference

    Range

    Results









    4,74

    1,10399275

    4,4712

    Means are different



    3,32

    1,10399275

    4,4712

    Means are not different



    1,64

    1,10399275

    4,4712

    Means are not different



    1,42

    1,10399275

    4,4712

    Means are not different



    3,1

    1,10399275

    4,4712

    Means are not different



    1,68

    1,10399275

    4,4712

    Means are not different


    Таблица стьюдентизованного распределения Qu κ=df1, ν=df2.


    ЗАДАНИЕ

    1. Сгенерировать 4 нормально распределенные переменные. Первые 3 переменные генерируется в соответствии с Вашим вариантом. При генерации четвертой переменной математическое ожидание увеличивается на 2, а стандартное отклонение не изменяется




    1. Используя модифицированный критерий Левенэ проверить гипотезу о равенстве дисперсий.




    1. . Используя инструмент анализа « Однофакторный дисперсионный анализ» проверить гипотезу о равенстве математических ожиданий.




    1. При обнаружении значительных различий между математическими ожиданиями необходимо определить, какие именно группы отличаются друг от друга, используя процедуру множественного сравнения Тьюки – Крамера



    1   2   3   4   5   6   7   8   9


    написать администратору сайта