Главная страница
Навигация по странице:

  • Однофакторный дисперсионный анализ

  • Поставщик 1 Поставщик 2 Поставщик 3

  • Группы

  • Поставщик 1 5 97,6 19,52

  • Поставщик 2 5 121,3 24,26

  • Поставщик 3 5 114,2 22,84

  • Поставщик 4 5 105,8 21,16

  • Источник вариации

  • F крит.

  • 3,461628925 0,0413656 3,238866952

  • Итого 160,7895 19

  • Если значение ν > 60 используйте последнюю строку ЗАДАНИЕ

  • Сервис→Анализ данных…→Генерация случайных чисел

  • контрольная. ПР3. Однофакторный дисперсионный анализ


    Скачать 273.33 Kb.
    НазваниеОднофакторный дисперсионный анализ
    Анкорконтрольная
    Дата03.03.2023
    Размер273.33 Kb.
    Формат файлаdocx
    Имя файлаПР3.docx
    ТипДокументы
    #965729

    Однофакторный дисперсионный анализ
    Часто необходимо сравнивать средние значения трёх и более числа выборок. В случае, когда необходимо сравнить средние значения большого числа выборок, используется метод дисперсионного анализа (ANOVA – Analysis of Variance), который устанавливает влияние отдельных факторов на изменчивость какого – либо признака, значения которого могут быть получены опытным путем в виде случайной величины Y. В зависимости от числа факторов, различают однофакторный и многофакторный дисперсионный анализ.

    Однофакторный дисперсионный анализ

    Величину Y называют результативным признаком, а конкретную реализацию фактора A – уровнем (группой) фактора A или способом обработки и обозначают через A(i) . Всего имеется c уровней фактора A. Обозначим их А(1)(2),…,А(с) .

    Задачу однофакторного дисперсионного анализа можно продемонстрировать на следующем примере.

    Пример

    Необходимо определить существует ли разница между прочностью парашютов, сотканных из синтетических волокон разных поставщиков. Результаты эксперимента (сила разрыва) приведены в таблице .
    Таблица 2




    Поставщик 1

    Поставщик 2

    Поставщик 3

    Поставщик 4




    18,5

    26,3

    20,6

    25,4




    24,0

    25,3

    25,2

    19,9




    17,2

    24,0

    20,8

    22,6




    19,9

    21,2

    24,7

    17,5




    18,0

    24,5

    22,9

    20,4

    среднее

    19,5

    24,26

    22,84

    21,16

    ст.откл

    2,69

    1,92

    2,13

    2,98


    .

    Пусть m1, m2,…, mс –математические ожидания результативного признака Υ при соответствующих уровнях фактора А. В данном примере результативный признак Υ- сила разрыва, уровни фактора А – группы поставщиков.

    Если при изменении уровня фактора групповые математические ожидания не изменяются, т.е. выполняется условие равенства мат.ожиданий : H0: m1=m2=…=mсто считается, что результативный признак не зависит от фактора А. В противном случае такая зависимость имеется (H1: не все мат.ожидания равны).

    Поскольку мат.ожидания не известны, необходимо подтвердить гипотезу об их равенстве на основе выборочных данных.

    Эту гипотезу Н0: m1 = m2=…= mс можно подтвердить с помощью F – критерия Фишера, если выполняются следующие условия:

    1. наблюдения должны быть случайными, независимы и проводиться в одинаковых условиях.

    2. экспериментальные данные должны иметь нормальный закон распределения

    3. их дисперсии должны быть одинаковыми.

    Если эти условия выполняются, то можно приступать непосредственно к процедуре дисперсионного анализа, т.е. к проверке гипотезы о равенстве средних величин: Н0: m1 = m2=…= mс

    Проверить эту гипотезу можно, изучая вариации отдельных значений признака. Общая изменчивость значений признака может быть вызвана как изменчивостью значений признака между различными группами (межгрупповая вариация), так и изменчивостью значений признака внутри группы (внутригрупповая вариация). Для измерения степени вариации используется показатель – сумма квадратов отклонений.

    Общая (полная) вариация определяется полной суммой квадратов отклонений.



    где - общее среднее.

    .
    - среднее значение в j –ой группе



    Межгрупповая вариация, вызванная влиянием фактора A на X определяется по формуле

    ,

    Внутригрупповая вариация определяется равенством



    В общем случае выполняется равенство , т.е. полная вариация значений признаков определяется суммой межгрупповой и внутригрупповой вариации.

    Для проверки гипотезы о равенстве средних величин используется F-критерий Фишера, статистика которого определяется отношением.



    Статистика F-критерия подчиняется распределению Фишера с числом степеней свободы , где nобщее число наблюдений, c - число уровней фактора A.

    Показатель MS определяется как сумма квадратов отклонения, приходящаяся на одну степень свободы.

    ,

    ,

    где SSA – сумма квадратов отклонения, вызванная влиянием фактора A на X, а SSвн - сумма квадратов отклонения, вызванная влиянием остаточных факторов на Y.
    Пример.

    Необходимо определить, имеют ли парашюты, сотканные из синтетических волокон от 4 разных поставщиков, одинаковую прочность. Проведена экспериментальная проверка парашютов на прочность. Результаты в таблице 1.

    Табл. 1




    Поставщик 1

    Поставщик 2

    Поставщик 3

    Поставщик 4




    18,50

    26,30

    20,60

    25/40




    24.00

    25,30

    25,20

    19/90




    17.20

    24,00

    20,80

    22/60




    19.90

    21,20

    24,70

    17,50




    18.00

    24,50

    22,90

    20,40

    Среднее значение.

    19.52

    24,26

    22,84

    21/16

    Станд. отклонение

    2,59

    1,92

    2,13

    2,98


    Для проверки гипотезы о равенстве средних значений определяется правосторонняя критическая область, т.е. вычисляется Fкрпри уровне значимости (см. функцию Excel F.ОБР.ПХ) и проверяется попадание рассчитанного значения Fрасч – статистики в интервал (Fкр;+∞). Если попадает, то гипотеза отклоняется, в противном случае принимается.

    Прежде чем использовать F – критерий Фишера необходимо установить на основе имеющихся выборочных данных, являются ли генеральные дисперсии результативного признака при различных условиях фактора одинаковыми или нет. Проверяется гипотеза

    H0123…=σ против гипотезы Н1: не все дисперсии одинаковы.

    Для этого воспользуемся критерием Левенэ.

    Вычисляются абсолютные величины разностей между наблюдениями и медианами в каждой группе (см. пример). Результат представлен в таблице 2.
    Табл. 2.


    Поставщик 1

    Поставщик 2

    Поставщик 3

    Поставщик 4

    0,0

    1,8

    2,3

    5,0

    5,5

    0,8

    2,3

    0,5

    1,3

    0,5

    2,1

    2,2

    1,4

    3,3

    1,8

    2,9

    0,5

    0,0

    0,0

    0,0


    Далее выполняем однофакторный дисперсионный анализ полученных значений абсолютных разностей. Для проведения однофакторного дисперсионного анализа используем инструмент в пакете анализа Excel, который так и называется « Однофакторный дисперсионный анализ».

    Здесь задаются следующие параметры:

    1. входной интервал (вводится вся таблица с исходными данными);

    2. вид группирования (по столбцам);

    3. выходной интервал.

    Результаты анализа для примера, приведенного выше (табл.2), сведены в таблицу 3.

    Табл. 3


    Однофакторный дисперсионный анализ


































    ИТОГИ



















    Группы

    Счет

    Сумма

    Среднее

    Дисперсия







    Столбец 1

    5

    8,7

    1,74

    4,753







    Столбец 2

    5

    6,4

    1,28

    1,707







    Столбец 3

    5

    8,5

    1,7

    0,945







    Столбец 4

    5

    10,6

    2,12

    4,007

















































    Дисперсионный анализ
















    Источник вариации

    SS

    df

    MS

    F

    P-Значение

    F критическое

    Между группами

    1,77

    3

    0,59

    0,20679986

    0,890188801

    3,238866952

    Внутри групп

    45,648

    16

    2,853































    Итого

    47,418

    19














    Поскольку Fрасч = 0,2068 < 3,2388, нулевая гипотеза о равенстве дисперсий не отклоняется. Между дисперсиями внутри каждой группы существенной разницы нет, т. е. условие об однородности данных выполняется .

    Далее проводим однофакторный дисперсионный анализ для исходных данных (табл. 1).

    Результаты анализа для примера (табл.1), выведены в таблицу 4.

    Табл. 4


    Однофакторный дисперсионный анализ































    ИТОГО



















    Группы

    Счет

    Сумма

    Среднее

    Дисперсия







    Поставщик 1

    5

    97,6

    19,52

    7,237







    Поставщик 2

    5

    121,3

    24,26

    3,683







    Поставщик 3

    5

    114,2

    22,84

    4,553







    Поставщик 4

    5

    105,8

    21,16

    8,903

















































    ДИСПЕРСИОННЫЙ АНАЛИЗ
















    Источник вариации

    SS

    df

    MS

    F

    P-значение

    F крит.

    Между группами

    63,2855

    3

    21,09516667

    3,461628925

    0,0413656

    3,238866952

    Внутри групп

    97,504

    16

    6,094































    Итого

    160,7895

    19

     

     

     

     


    Поскольку Fрасч = 3,4616крит=3,2388, гипотезу о равенстве средних величин H0: m1=m2= m3 =m4 отклоняется в пользу гипотезы H1.

    При обнаружении значительных различий между математическими ожиданиями необходимо определить, какие именно группы отличаются друг от друга. Для этого используется процедура множественного сравнения Тьюки – Крамера, описанная ниже.

    1. Вычисляются разности , где i ≠ j – номера групп, между средними значениями c(c – 1) групп;

    2. Вычисляется критический размах процедуры Тьюки – Крамера по формуле



    где Qu –верхнее критическое значение распределения стьюдентизированного размаха, имеющего c степеней свободы в числителе df1 = c и df2 = n степеней свободы в знаменателе, n-общее число наблюдений, n1 и n2 число наблюдений в i-ой и j-ой группах соответственно.

    1. Каждая из c(c – 1)/2 пар разностей математических ожиданий сравнивается с рассчитанным критическим размахом.

    Элементы пары считаются различными, если модуль разности между ними превышает критический размах.

    Чтобы провести анализ, необходимо вычислить критический размах и сравнить с абсолютными отклонениями. Для этого по таблице 4 определим величины MSвн = 6,094 и ni = nj = 5. Далее находим величину Qu - верхнее критическое значение стьюдентизованного распределения с числом степеней свободы из таблицы 4, где n = 20 – общее число наблюдений, c = 4 - число уровней фактора A (число поставщиков). Таким образом, df1 = 4, df2 = 16. По таблице 6 определяем Qu = 4,05.



    Результаты сравнения приведены ниже.

    Табл. 5

    Сравниваем

    Абсолютное

    Std. Error

    Критический

    Результаты




    отклонение

    отклонения

    размах






    4,74

    1,10399275

    4,4712

    Значения различны



    3,32

    1,10399275

    4,4712

    Значения не различны



    1,64

    1,10399275

    4,4712

    Значения не различны



    1,42

    1,10399275

    4,4712

    Значения не различны



    3,1

    1,10399275

    4,4712

    Значения не различны



    1,68

    1,10399275

    4,4712

    Значения не различны


    Поскольку 4,74 > 4,71, статистически значимая разница существует между первым и вторым поставщиком. Все остальные пары состоят из практически одинаковых величин.
    Таблица стьюдентизованного распределения Qu κ = df1, ν = df2.

    Табл. 6



    Если значение ν > 60 используйте последнюю строку
    ЗАДАНИЕ

    Работа выполняется в табличном процессоре MS Excel с использованием статистических функций и пакета анализа.

    Статистическая информация для выполнения заданий генерируется студентами самостоятельно с помощью инструмента анализа «Генерация» пакета ECXEL в соответствии с вариантом задания (№ по списку).

    Вариант

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19

    mx

    5

    10

    15

    20

    25

    30

    35

    40

    45

    50

    55

    60

    65

    70

    75

    80

    85

    90

    95

    σx

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19




    Вариант

    20

    21

    22

    23

    24

    25

    26

    27

    28

    29

    30

    mx

    100

    110

    115

    120

    125

    130

    135

    140

    145

    150

    155

    σx

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11


    mx – математическое ожидание

    σx – стандартное отклонение.

    Статистическую информацию для выполнения задания генерируем с помощью инструмента анализа: Сервис→Анализ данных…→Генерация случайных чисел. Для генерации используем исходные данные своего варианта, характеризующие генерируемый ряд случайных чисел (выборку).

    Пример

    Математическое ожидание mx =5;

    Стандартное отклонение σx = 19.

    В соответствии с исходными данными сгенерирован ряд из 31 значение случайной величины (табл.1), распределённой нормально. На рис.1 представлено окно «Генерация случайных чисел», в которое введены mx, σx.


    Рис.1. Диалоговое окно «Генерация случайных чисел»



    1. Сгенерировать 4 нормально распределенные переменные. Первые 3 переменные генерируется в соответствии с Вашим вариантом. При генерации четвертой переменной математическое ожидание увеличивается на 2, а стандартное отклонение не изменяется




    1. Используя модифицированный критерий Левенэ проверить гипотезу о равенстве дисперсий.



    1. Используя инструмент анализа « Однофакторный дисперсионный анализ» проверить гипотезу о равенстве математических ожиданий.



    1. При обнаружении значительных различий между математическими ожиданиями необходимо определить, какие именно группы отличаются друг от друга, используя процедуру множественного сравнения Тьюки – Крамера


    написать администратору сайта