Главная страница
Навигация по странице:

  • 4.2. Однофакторный дисперсионный анализ

  • Данные наблюдений для однофакторного дисперсионного анализа

  • Однофакторный дисперсионный анализ: дисперсии групп

  • Однофакторный дисперсионный анализ: расчет параметров для проверки гипотезы

  • 4.3. Двухфакторный дисперсионный анализ

  • Результаты наблюдений для двухфакторного анализа

  • Лаб. работа №4. Лабораторная работа дисперсионный анализ


    Скачать 0.58 Mb.
    НазваниеЛабораторная работа дисперсионный анализ
    АнкорЛаб. работа №4
    Дата12.12.2022
    Размер0.58 Mb.
    Формат файлаpdf
    Имя файлаЛаб. работа №4.pdf
    ТипЛабораторная работа
    #840833
    страница1 из 3
      1   2   3

    Лабораторная работа № 4.
    ДИСПЕРСИОННЫЙ АНАЛИЗ
    4.1. Дисперсионный анализ
    Изучение реальных процессов предполагает получение не только прогнозной оценки исследуемого показателя, но и количественной характеристики степени влияния на него различных факторов, а также оценки возможных последствий их изменений в будущем. В результате опыта проводятся наблюдения над целым рядом случайных величин. При этом возникает задача изучения взаимосвязи между случайными величинами, которая решается в три этапа:

    проводится оценка существенности влияния одного фактора на другой с помощью дисперсионного анализа;

    проводится численная оценка связи с помощью корреляционного анализа;

    строятся функциональные зависимости посредством регрессионного анализа.
    Дисперсионный анализ служит для статистического установления влияния отдельных факторов на изменчивость какого-либо признака, значения которого могут быть получены опытным путем в виде выборки из генеральной совокупности случайной величины

    . Под факторами понимаются различные независимые показатели, количество которых может быть различным. Конкретная реализация фактора А называется уровнем (группой) этого фактора. В зависимости от количества факторов различают однофакторный и многофакторный дисперсионный анализ. Величина

    называется результативным признаком (фактором) Y. Идея дисперсионного анализа состоит в том, что дисперсия признака Y разлагается на сумму дисперсий, вызванных влиянием факторов, дисперсий, вызванных взаимодействием факторов, и случайной дисперсии, вызванной неучтенными случайными факторами. Затем указанные дисперсии сравниваются.
    4.2. Однофакторный дисперсионный анализ
    Однофакторный дисперсионный анализ позволяет статистически обосновать степень влияния на результативный признак Y одного фактора А для различных уровней или групп А
    1
    , А
    2
    ,

    , А
    k
    , например, установление зависимости выполненных на стройке за смену работ (признак Y) от работающей бригады (группы А
    1
    , А
    2
    ,

    , А
    k
    ). В табл. 13 представлены выборочные значения результативного признака Y для различных групп.
    Таблица 13. Данные наблюдений для однофакторного дисперсионного анализа
    Номера наблюдений
    Уровни (группы) фактора А
    А
    1
    А
    2

    А
    k
    1
    y
    11
    y
    12

    y
    1k
    2
    y
    21
    y
    22

    y
    2k





    nj
    1 1
    n
    y
    2 2
    n
    y

    k
    n
    k
    y
    Групповая средняя
    1
    y
    2
    y

    k
    y
    Здесь n
    1
    , n
    2
    ,

    , n
    k
    – число наблюдений в уровнях А
    1
    , А
    2
    ,

    , А
    k
    соответственно, при этом n = n
    1
    +
    n
    2
    +

    + n
    k
    – число всех наблюдений.
    Из таблицы находятся групповые средние



    j
    n
    i
    ij
    j
    j
    y
    n
    y
    1 1
    , j = 1, 2,

    , k, и общая средняя



    k
    j
    j
    j
    n
    y
    n
    y
    1 1
    =
    


    k
    j
    n
    i
    ij
    j
    y
    n
    1 1
    1
    Изменчивость значений y
    ij
    от одного уровня к другому объясняется влиянием фактора A на результативный признак Y, а изменчивость тех же значений в пределах одного уровня характеризуется влиянием неучтенных случайных (остаточных) факторов.

    Пусть а
    1
    , а
    2
    ,

    , а
    k
    – математические ожидания результативного признака Y соответственно при уровнях А
    1
    , А
    2
    ,

    , А
    k
    . Если для различных групп фактора А математические ожидания не изменяются, то считается, что результативный признак Y не зависит от фактора А, в противном случае такая зависимость существует.
    Поскольку числовые значения математических ожиданий неизвестны, то возникает задача проверки гипотезы H
    0
    : a
    1
    = a
    2
    =

    = a
    k
    в предположении выполнения следующих условий для каждой группы фактора:

    наблюдения независимы и проводятся в одинаковых условиях;

    результативный признак Y имеет нормальный закон распределения с постоянной дисперсией для различных групп.
    Поскольку числовые значения дисперсий различных групп неизвестны, то можно установить их равенство, проверив гипотезу о равенстве дисперсий H
    0
    :
    2 2
    2 2
    1
    k






    с помощью статистики Бартлетта















    k
    j
    j
    j
    S
    S
    n
    C
    V
    1 2
    2
    ln
    1 1
    , имеющей распределение, близкое к

    2
    - распределению с (k – 1) степенями свободы, где





















    k
    n
    n
    n
    n
    k
    C
    k
    k
    j
    j
    1 1
    1 1
    3 1
    1 2
    1 1
    ,

    2
    S










    k
    j
    j
    k
    j
    j
    j
    n
    S
    n
    1 1
    2 1
    1
    ,
    2
    j
    S – выборочная дисперсия j-й группы (j = 1, 2,

    , k).
    При заданном уровне значимости

    находится критическая точка V
    кр
    =

    2
    (

    ; k – 1), определяющая правостороннюю критическую область
    (V
    кр
    ;
    +

    ).
    По выборочным данным вычисляется наблюдае- мое значение статистики
    V
    набл
    Если
    V
    набл

    V
    кр
    , то гипотеза
    H
    0
    :
    2 2
    2 2
    1
    k






    отвергается, в противном случае она принимается.
    Если гипотеза H
    0
    :
    2 2
    2 2
    1
    k






    подтверждается, то можно приступать непосредственно к процедуре однофакторного дисперсионного анализа, т. е. к проверке гипотезы H
    0
    : а
    1
    = а
    2
    =

    =
    а
    k
    Общая сумма квадратов отклонений (общая вариация) отдельных наблюдений y
    ij
    от общей средней y , вызванная влиянием на Y фактора A и случайных неучтенных (остаточных) факторов, вычисляется по формуле Q =
    



    k
    j
    n
    i
    ij
    j
    y
    y
    1 1
    2
    )
    (
    . Сумма Q разлагается на сумму
    Q = Q
    ф
    + Q
    о
    , где Q
    ф
    =



    k
    j
    j
    j
    n
    y
    y
    1 2
    )
    (
    – сумма квадратов отклонений между группами
    (межгрупповая вариация), вызванная влиянием фактора А на Y и характеризующая рассеяние групповых средних около общей средней; Q
    о
    =
    



    k
    j
    n
    i
    j
    ij
    i
    y
    y
    1 1
    2
    )
    (
    – сумма квадратов отклонений внутри групп (остаточной вариации), вызванная влиянием на Y остаточных факторов и характеризующая рассеяние отдельных наблюдений группы около ее средней.
    По выборке значений результативного признака Y находятся три несмещенные оценки
    2
    S
    Q
    n 1 1


    ,
    1 2


    k
    Q
    S
    ф
    ф
    ,
    k
    n
    Q
    S
    o
    о


    2
    дисперсии

    2
    случайной величины

    , причем
    2
    о
    S всегда является несмещенной оценкой, а
    2
    S ,
    2
    ф
    S – только при выполнении гипотезы H
    0
    : а
    1
    = а
    2
    =

    = а
    k
    , т. е. только в том случае, когда фактор А не влияет на результативный признак Y.
    Проверка нулевой гипотезы H
    0
    основывается на сравнении оценок
    2
    ф
    S ,
    2
    о
    S
    . Для этого
    используется F-статистика с v
    1
    = k – 1, v
    2
    = nk степенями свободы
    2 2
    o
    ф
    S
    S
    F

    =




    








    k
    j
    n
    i
    j
    ij
    k
    j
    j
    j
    j
    y
    y
    k
    n
    n
    y
    y
    k
    1 1
    2 1
    2 1
    1 1
    По статистическим данным вычисляется наблюдаемое значение статистики F
    набл
    . Для заданного уровня значимости

    по
    F-распреде- лению
    Фишера находится критическая точка статистики
    F
    кр
    =
    F(

    ;
    k – 1; nk) и строится правосторонняя критическая область (F
    кр
    ; +

    ). Если F
    набл
    < F
    кр
    , то нулевая гипотеза не отвергается, и в этом случае говорят, что влияние фактора A на признак Y не подтвердилось выборочными наблюдениями. Если в процессе анализа выявлено влияние фактора
    A на результативный признак Y, то степень данного влияния измеряется с помощью выборочного
    коэффициента
    детерминации
    R
    2
    =
    признака
    в
    фактора
    в
    )
    (
    )
    (
    2 2


    , показывающего, какая доля вариации Q объясняется зависимостью результативного признака Y от влияющего фактора A.
    При работе в Excel с целью анализа данных с помощью критерия Бартлетта используются статистические функции
    ДИСП(число1; число2;…), ХИ2ОБР(вероятность;степени_свободы).
    Для проведения однофакторного анализа используется однофакторный дисперсионный анализ
    из Анализа данных меню Сервис. После заполнения одноименного диалогового окна результат анализа появляется в виде двух таблиц. Формулы, по которым выполняются расчеты в Excel, представлены в таблицах 14 и 15 соответственно.
    Таблица 14. Однофакторный дисперсионный анализ: дисперсии групп
    ИТОГИ
    Группы
    Счет
    Сумма
    Среднее
    Дисперсия
    Столбец 1
    n
    1


    1 1
    1
    n
    i
    i
    y
    1 1
    1 1
    1
    n
    y
    y
    n
    i
    i



    1
    )
    (
    1 1
    1 2
    2 1
    1 1





    n
    y
    y
    S
    n
    i
    i
    Столбец 2
    n
    2


    2 1
    2
    n
    i
    i
    y
    2 2
    1 2
    2
    n
    y
    y
    n
    i
    i



    1 2
    2 1
    2 2
    2
    )
    (
    2 2





    n
    y
    y
    S
    n
    i
    i





    Столбец
    k
    n
    k


    k
    i
    n
    ik
    y
    1
    k
    n
    ik
    k
    n
    y
    y
    k
    i



    1 1
    1 2
    2
    )
    (
    2 2





    k
    n
    i
    n
    y
    y
    S
    k
    i
    k
    Таблица 15. Однофакторный дисперсионный анализ: расчет параметров
    для проверки гипотезы
    Дисперсионный анализ
    Источник
    вариации
    Между группами
    Внутри групп
    Итого
    SS
    Q
    ф
    =



    k
    j
    j
    j
    n
    y
    y
    1 2
    )
    (
    Q
    о
    =
     

     
    k
    j
    i
    i
    j
    ij
    n
    y
    y
    1 1
    2
    )
    (
    Q = Q
    ф
    + Q
    о
    df
    k – 1
    nk
    MS
    1 1

    k
    Q
    ф
    k
    n

    1
    Q
    о

    F
    F
    набл
    ф
    о
    Q
    k
    n
    Q
    k



    1 1
    1
    P-Значение P(F
    набл

    F
    кр
    )
    FРАСП(x; k – 1; nk)
    Значимость
    F
    F
    кр
    = F(

    ; k – 1; nk)
    FРАСПОБР(

    ; k
    1; nk)
    Замечание. В Excel на экран выводится таблица, строки которой записаны в столбцах табл. 16.
    4.3. Двухфакторный дисперсионный анализ
    Дисперсионный анализ рассматривает влияние двух независимых факторов A и B на изменчивость результативного признака Y. Пусть фактор A имеет I уровней A
    1
    , A
    2
    ,

    , A
    I
    , фактор B
    J уровней B
    1
    , B
    2
    ,

    , B
    J
    , а число всевозможных сочетаний уровней этих факторов – I

    J. На каждом сочетании A
    i
    и B
    j
    , i = 1, 2,

    , I, j = 1, 2,

    , J, имеется
    n
    выборочных значений результативного признака Y. Поэтому общее число наблюдаемых значений признака Y равно N = I

    J

    n. Результаты наблюдений и групповые средние (описанные ниже) могут быть представлены в виде табл. 16.
    Таблица 16. Результаты наблюдений для двухфакторного анализа
    Уровни (группы) фактора B
    Групповые средние уровней фактора A
    B
    1
    B
    2

    B
    J
    У
    ро вн и
    (г ру пп ы
    ) ф
    акт ор а
    A
    A
    1
    y
    111
    y
    121

    y
    1J1 1
    A
    y




    y
    11n
    y
    12n

    y
    1Jn
    A
    2
    y
    211
    y
    221

    y
    2J1 2
    A
    y




    y
    21n
    y
    22n

    y
    2Jn






    A
    I
    y
    I11
    y
    I21

    y
    IJ1
    I
    A
    y




    y
    I1n
    y
    I2n

    y
    IJn
    Групповые средние уровней фактора B
    1
    B
    y
    2
    B
    y

    J
    B
    y
    Пусть a
    i
    – математическое ожидание результативного признака Y на уровне A
    i
    , i = 1, 2,

    , I; b
    j
    – математическое ожидание результативного признака Y на уровне В
    j
    , j = 1, 2,

    , J; c
    ij
    – математическое ожидание результативного признака Y на сочетании уровней A
    i
    и В
    j
    ,
    i = 1, 2,

    , I, j = 1, 2,

    , J. Если при изменении уровня фактора A групповые математические ожидания не изменяются, т. е. a
    1
    = a
    2
    =

    a
    I
    , то считается, что результативный признак Y не зависит от фактора A, в противном случае такая зависимость имеется. Аналогично, если при изменении уровня фактора В сохраняется равенство b
    1
    = b
    2
    =

    = b
    J
    , то считается, что Y не зависит от фактора В.
    Если c
    11
    = c
    12
    =

    = c
    1J
    = c
    21
    =

    = c
    2J
    =

    = c
    I1
    =

    = c
    IJ
    , то считается, что результативный признак Y не зависит от взаимодействия факторов A и В. Поскольку числовые значения математических ожиданий неизвестны, то возникает задача проверки следующих гипотез:
    A
    H
    0
    :
    I
    a
    a
    a



    2 1
    ;
    B
    H
    0
    :
    J
    b
    b
    b



    2 1
    ;

    :
    2 1
    2 22 21 1
    12 11 0
    IJ
    I
    I
    J
    J
    AB
    c
    c
    c
    c
    c
    c
    c
    c
    c
    H













    Проверка данных гипотез, как и в задаче однофакторного дисперсионного анализа, возможна только при выполнении следующих условий:

    при различных сочетаниях уровней факторов A и B наблюдения независимы и проводятся в одинаковых условиях;

    при каждом сочетании уровней A
    i
    и B
    j
    , i = 1, 2,

    , I, j = 1, 2,

    , J, результативный признак Y имеет нормальный закон распределения с постоянной для различных сочетаний генеральной дисперсией

    2
    Источниками изменчивости признака Y являются факторы A и B, их взаимодействие, а также влияние неучтенных случайных (остаточных) факторов.
    Общая сумма квадратов отклонений (общая вариация) отдельных наблюдений y
    ijt
    от общей средней y , вызванная влиянием на признак Y факторов A и B, а также остаточных факторов, вычисляется по формуле
    





    I
    i
    J
    j
    n
    t
    ijt
    y
    y
    Q
    1 1
    1 2
    )
    (
    . Сумма Q равна Q = Q
    A
    + Q
    B
    + Q
    o
    , где




    I
    i
    A
    A
    y
    y
    n
    J
    Q
    i
    1 2
    )
    (
    ,




    J
    j
    B
    B
    y
    y
    n
    I
    Q
    j
    1 2
    )
    (
    – суммы квадратов отклонений, вызванных влиянием соответственно факторов
    A и
    B на
    Y;
    Q
    o
    = Q
    AB
    + Q
    z
    – сумма квадратов отклонений, вызванная влиянием на
    Y
    одновременного взаимодействия факторов A и B, а также остаточных факторов,
    






    I
    i
    J
    j
    B
    A
    ij
    AB
    j
    i
    y
    y
    y
    y
    n
    Q
    1 1
    2
    )
    (
    ,
    





    I
    i
    J
    j
    n
    t
    ij
    ijt
    y
    y
    Q
    1 1
    1 2
    z
    )
    (
    В приведенных формулах
    




    I
    i
    J
    j
    n
    t
    ijt
    y
    N
    y
    1 1
    1 1
    – общая средняя;
    




    J
    j
    n
    t
    jt
    A
    y
    n
    J
    y
    i
    1 1
    1
    – средние значения признака Y на уровнях фактора A (по строкам);
    




    I
    i
    n
    t
    t
    i
    B
    y
    n
    I
    y
    j
    1 1
    1
    – средние значения признака Y на уровнях фактора
    B
    (по столбцам);



    n
    t
    ijt
    ij
    y
    n
    y
    1 1
    – средние значения признака Y при различных сочетаниях уровней A
    i
    и B
    j
    , i = 1, 2,

    , I, j = 1, 2,

    , J.
    По выборочным данным результативного признака
    Y
    находятся четыре несмещенные оценки
    1 2


    N
    Q
    S
    ,
    2
    A
    S
    1


    I
    Q
    A
    ,
    1 2


    J
    Q
    S
    B
    B
    ,

    o
    S
    2
    z
    2
    S
    S
    AB

    (

    

    1 1
    2



    J
    I
    Q
    S
    AB
    AB
    ,


    1
    z
    2
    z


    n
    IJ
    Q
    S
    ) – дисперсии

    2
    случайной величины

    , причем оценка
    2
    о
    S всегда является несмещенной оценкой, оценка
    2
    A
    S – при выполнении гипотезы
    A
    H
    0
    : a
    1
    = a
    2
    =

    a
    k
    (когда фактор A не влияет на результативный признак Y), оценка
    2
    B
    S
    – при выполнении гипотезы
    B
    H
    0
    :
    m
    b
    b
    b



    2 1
    (когда фактор B не влияет на результативный признак Y), оценка
    2
    S – при выполнении гипотез
    A
    H
    0
    и
    B
    H
    0
    . Оценка
    2
    AB
    S
    характеризует взаимодействие факторов
    A
    и
    B
    . Проверка гипотезы
    A
    H
    0
    (
    B
    H
    0
    ) основывается на сравнении оценок
    2
    A
    S
    (
    2
    B
    S
    ) и
    2
    о
    S
    . Для этого используется статистика
    2
    о
    2
    S
    S
    F
    A
    A

    


    



    2
    o
    2
    S
    S
    F
    B
    B
    , имеющая F-распределение с
    1 1



    I
    A
    (
    1 1



    J
    B
    ) и

    

    1 1
    2




    J
    I
    степенями свободы.
    По статистическим данным вычисляется наблюдаемое значение статистики
    A
    набл
    F
    (
    B
    набл
    F
    ). Для заданного уровня значимости

    по
    F-распределению Фишера находится критическая точка статистики
    A
    кр
    F
    =

    



    1 1
    ;
    1
    ;




    J
    I
    I
    F

    





    1 1
    ;
    1
    ;





    J
    I
    J
    F
    F
    B
    кр
    и строится правосторонняя критическая область


    
    ;
    A
    кр
    F




    
    ;
    B
    кр
    F
    . Если
    A
    набл
    F
    <
    A
    кр
    F (
    B
    набл
    F
    <
    B
    кр
    F ), то нулевая гипотеза не отвергается, и в этом случае говорят, что влияние фактора A (B) на признак
    Y не подтвердилось выборочными наблюдениями.
    Проверка гипотезы
    AB
    H
    0
    основывается на сравнении оценок
    2
    AB
    S
    и
    2
    z
    S . Для этого используется статистика
    2
    z
    2
    S
    S
    F
    AB
    B

    , имеющая
    F-распределение с

    

    1 1
    1




    J
    I
    и


    1 2



    n
    IJ
    степенями свободы. По статистическим данным вычисляется наблюдаемое значение статистики
    AB
    набл
    F
    . Для заданного уровня значимости

    по F- рас- пределению находится критическая точка статистики
    AB
    кр
    F
    =

    



    )
    1
    (
    ;
    1 1
    ;




    n
    IJ
    J
    I
    F
    и строится правосторонняя критическая область


    
    ;
    AB
    кр
    F
    . Если
    AB
    набл
    F
    <
    AB
    кр
    F
    , то нулевая гипотеза не отвергается, и в этом случае говорят, что взаимное влияние факторов A и B на признак Y не подтвердилось выборочными наблюдениями.
    Двухфакторный дисперсионный анализ имеет две разновидности: без повторений (n = 1) и с
    повторениями (n

    2). В первом случае каждому уровню фактора соответствует только одна выборка данных, во втором – определенным уровням факторов соответствует n выборок.
    При работе в Excel с целью проведения двухфакторного анализа без повторений (или с повторениями) используется Двухфакторный дисперсионный анализ без повторений (или
    Двухфакторный дисперсионный анализ с повторениями)из Анализа данных меню Сервис.
    После заполнения диалогового окна Двухфакторный дисперсионный анализ без повторений результат анализа появляется в виде двух таблиц. Формулы, по которым выполняются расчеты в
    Excel, представлены в таблицах 17 и 18 соответственно.
    Таблица 17.
      1   2   3


    написать администратору сайта