Главная страница
Навигация по странице:

  • 4.2 Однофакторный дисперсионный анализ

  • Программам высшего профессионального образо вания по специальности Программное обеспечение вычислительной техники и автоматизированных систем


    Скачать 0.95 Mb.
    НазваниеПрограммам высшего профессионального образо вания по специальности Программное обеспечение вычислительной техники и автоматизированных систем
    Дата11.05.2022
    Размер0.95 Mb.
    Формат файлаpdf
    Имя файлаmetod475.pdf
    ТипПрограмма
    #523652
    страница8 из 11
    1   2   3   4   5   6   7   8   9   10   11
    4
    Обработка результатов эксперимента методом дисперси-
    онного анализа
    4.1 Основные понятия дисперсионного анализа
    При обработке результатов активных экспериментов исследователь часто сталкивается со случаями, когда в качестве входных исследуемых фак- торов системы
    i
    x
    выступают качественные факторы.
    При этом применение регрессионного анализа невозможно, так как он оперирует величинами, измеряемыми только в количественных шкалах. В рас- сматриваемых условиях для оценки влияния входных факторов и их взаимо- действий на выходной параметр системы Y применяется дисперсионный ана- лиз (ДА).
    Следует подчеркнуть, что в отличие от регрессионного анализа в ДА оценивается лишь влияние фактора в целом (влияет или нет) и не выясняются количественные соотношения.
    Суть метода состоит в выделении и оценке отдельных факторов, вызы- вающих изменчивость (вариацию) выходного параметра
    2
    y
    σ
    на составляющие, обусловленные независимыми входными факторами, их взаимодействиями и неучтенными случайными причинами. Например, для двухфакторного ДА по- лучим разложение вида:
    ,
    2 2
    2 1
    2 2
    2 1
    2
    ε
    σ
    σ
    σ
    σ
    σ
    +
    +
    +
    =
    x
    x
    x
    x
    y
    (4.1) где
    2 1
    x
    σ
    – доля дисперсии, вызванная влиянием фактора x
    1
    ;
    2 2
    x
    σ
    – доля дисперсии, вызванная влиянием фактора x
    2
    ;
    2 2
    1x
    x
    σ
    – доля дисперсии, вызванная влиянием фактора x
    1
    и x
    2
    ;
    2
    ε
    σ
    – доля дисперсии, вызванная неучтенными случайны- ми величинами.
    Статистический анализ данных составляющих позволяет делать выво- ды о том, действительно ли оказывает влияние на выходной параметр системы тот или иной фактор, то или иное взаимодействие факторов.
    Таким образом, изучение переменных факторов по их дисперсиям и на- зывается дисперсионным анализом.
    Основоположником ДА является английский статистик Р.Фишер, кото- рый в двадцатых годах нашего столетия применил для решения агробиологи- ческих задач. В настоящее время данный метод находит очень широкое при- менение для обработки наблюдений в самых различных областях.

    86
    Он охватывает большое число хорошо разработанных приемов плани- рования и обработки экспериментов, основные понятия которых будут рассмотрены в данном разделе учебного пособия.
    В зависимости от числа исследуемых факторов ДА различают одно- факторный и многофакторный. Факторы, рассматриваемые в ДА, могут быть двух родов:
    1
    Со случайными уровнями.
    2
    С фиксированными уровнями.
    В первом случае предполагается, что выбор уровней производится из бесконечной совокупности возможных уровней и сопровождается рандомиза- цией. При этом результаты эксперимента имеют большое значение, поскольку выводы по эксперименту можно распространить на всю генеральную совокуп- ность. Если все уровни факторов выбираются случайными, то математическая модель эксперимента называется случайной моделью (моделью со случайны- ми уровнями факторов). Когда все уровни фиксированы, модель называется моделью с фиксированными уровнями факторов. Когда часть факторов рас- сматривается на фиксированных уровнях, а часть на случайных, то моделью смешанного типа.
    Влияние изучаемых входных факторов x i
    на выходной параметр систе- мы Y может быть двояким. Они могут изменять как истинный результат – среднее наблюдений, так и дисперсию этих наблюдений. Мы, однако, все вре- мя будем предполагать, что дисперсия наблюдений остается неизменной. Это предположение обычно оправдывается, если в ходе эксперимента для получе- ний наблюдений используется одна и та же методика, одни и те же приборы.
    Если же стабильность дисперсий вызывает сомнение, следует провести про- верку их однородности по критерию Кохрена или Бартлета. В случае значимо- го изменения дисперсии в процессе наблюдений нужно попытаться ее стаби- лизировать, подобрав соответствующую преобразующую функцию. Это дает возможность рассматривать все наблюдения как выборку из одной генераль- ной совокупности.
    Исходя из сказанного, в ДА изучается лишь влияние входных факторов x
    i на генеральное среднее наблюдаемого распределения выходного параметра
    Y.
    Таким образом, при проведении ДА предполагается, что выполняются следующие условия.
    1
    Результаты наблюдений выходного параметра системы Y являются независимыми случайными величинами, имеющими нормальный закон рас- пределения.
    2
    Случайные ошибки наблюдений подчиняются нормальному закону распределения.
    3
    Входные исследуемые факторы x i
    влияют только на изменение средних значений, а дисперсия наблюдений остается постоянной.
    4
    Эксперименты равноточны.
    Проверка данных условий перед проведением ДА обязательна.

    87
    Рассмотрим наиболее простой случай однофакторного ДА, когда гене- ральная дисперсия наблюдений
    2 0
    σ
    известна заранее. Пусть при изменении фактора Х получились результаты наблюдений
    n
    y
    y
    y
    ...,
    ,
    ,
    2 1
    , которые удовле- творяют перечисленным выше требованиям. Найдем оценку дисперсии вы- ходного параметра Y:
    (
    )































    


    





    =
    =
    =


    =


    =
    n
    y
    y
    n
    S
    или
    y
    y
    n
    S
    n
    j
    n
    j
    n
    j
    j
    j
    y
    j
    y
    2 2
    2 2
    2 1
    1 1
    1 1
    1 1
    . (4.2)
    Сравним эту дисперсию, имеющую n - 1 степень свободы, с генераль- ной дисперсией наблюдений
    2 0
    σ
    Если
    2 0
    2
    σ
    и
    S
    y
    отличаются незначимо, то и влияние фактора Х нужно признать незначимым, так как он не сумел сущест- венно увеличить случайный разброс наблюдений.
    Если же
    2
    y
    S
    отличается значимо от
    2 0
    σ
    , то это может быть вызвано только влиянием фактора Х, которое теперь нужно признать значимым. Для оценки дисперсии
    2
    x
    σ
    воспользуемся тем, что дисперсия суммы двух незави- симых случайных величин равна сумме их дисперсий. В нашем случае скла- дывается эффект случайности, имеющий дисперсию
    2 0
    σ
    , и эффект воздействия фактора Х с дисперсией
    2
    x
    σ
    , которые независимы. Поэтому общая дисперсия наблюдений будет равна
    2 2
    0 2
    x
    y
    σ
    σ
    σ
    +
    =
    . (4.3)
    Оценкой данной дисперсии будет являться выборочная дисперсия
    2
    y
    S , определяемая по зависимости (4.2)
    Следовательно, имеем
    2 0
    2 2
    σ
    σ


    y
    x
    S
    . (4.4)
    Сравнение дисперсий
    2 0
    2
    σ
    и
    S
    y
    осуществляется по критерию Фишера, где влияние фактора Х признается значимым, если при уровне значимости
    α

    88
    и степенях свободы

    +
    =
    2
    f
    знаменателя выполняется условие
    (
    )
    2 1
    2 0
    2
    ,
    ,
    f
    f
    F
    S
    табл
    y
    α
    σ
    >
    . (4.5)
    В противном случае влиянием фактора Х следует пренебречь.
    Значение F – критерия находится по таблице приложения Б.
    Расчеты по приведенной выше схеме очень просты, однако в большин- стве случаев заранее величина дисперсии наблюдений
    2 0
    σ нам не будет из- вестна. Поэтому рассмотренная методика хороша лишь с методологической точки зрения.
    4.2 Однофакторный дисперсионный анализ
    Рассмотрим действие на выходной параметр системы Y только одного входного фактора Х, который принимает m различных значений (постоянных уровней). Так как, в общем случае генеральная дисперсия наблюдений
    2 0
    σ
    нам не известна, то для вычисления оценки нужно обязательно иметь дубли- рующие (параллельные) наблюдения. Здесь можно поступить по-разному: можно на первом же уровне x
    1
    , привести достаточно много наблюдений, вы- числить оценку дисперсии и использовать ее для изучения других уровней.
    Лучше, однако, повторять наблюдения на всех уровнях, так как при этом по- является дополнительная возможность контроля за неизменностью дисперсии
    2 0
    σ . Наиболее простые расчеты получаются в случае, когда на каждом уровне фактора x
    i
    производится одинаковое число наблюдений n
    1
    =n
    2
    =…=n
    i
    =…=n
    m
    =n.
    Результаты наблюдений обычно оформляют в виде следующей таблицы.
    Таблица 4.1 – Исходные данные для ДА с равным числом повторений опытов
    Уровни фактора Х
    Номер опыта
    x
    1
    x
    2

    x
    i

    x
    m
    1 2

    j
    … n
    y
    11
    y
    21

    y
    j1

    y
    n1
    y
    12
    y
    22

    y
    j2

    y
    n2






    y
    1i
    y
    2i

    y
    ji

    y
    ni






    y
    1m
    y
    2m

    y
    jm

    y
    nm
    Групповые средние
    1
    y
    2
    y

    i
    y

    m
    y
    В таблице 4.1 обозначено:
    j=1,n – число опытов на каждом уровне фактора х;
    i=1,m – число уровней фактора х.

    89
    В последней строке таблице 4.1 записаны средние арифметические зна- чения полученных наблюдений выходного параметра Y для каждого из уров- ней фактора Х:

    =
    =
    n
    j
    ji
    i
    y
    n
    y
    1 1
    , (4.6) где
    у
    ji
    j-е значение выходного параметра у на i – м уровне.
    Пусть результаты измерений выходного параметра у
    ji распределены по нормальному закону, имеют одинаковую, хотя и неизвестную дисперсию
    [ ] [ ]
    [ ]
    [ ]
    ?
    2 1
    =
    =
    =
    =
    =
    =
    m
    i
    y
    y
    y
    y
    Д
    Д
    Д
    Д
    Требуется при заданном уровне значимости
    α
    по выборочным средним
    (оценкам математического ожидания) проверить нулевую гипотезу о равенст- ве всех математических ожиданий:
    [ ]
    [ ]
    [ ]
    [ ]
    m
    i
    y
    M
    y
    M
    y
    M
    y
    M
    H
    =
    =
    =
    =
    =
    :
    2 1
    0
    Будем полагать, что для i-го уровня n наблюдений имеют среднюю
    i
    β
    , которая равна сумме общей средней
    µ
    и вариации ее, обусловленной i-м уровнем фактора х, то есть
    i
    i
    d
    +
    =
    µ
    β
    (4.7)
    В рассматриваемых условиях любое наблюдение из таблицы 4.1 может быть представлено в виде следующей модели:
    ,
    ji
    i
    ji
    i
    ji
    d
    y
    ε
    β
    ε
    µ
    +
    =
    +
    +
    =
    (4.8) где
    i
    β
    – средняя для i-го уровня фактора х;
    µ
    – генеральное среднее результатов наблюдений или общая средняя (математическое ожидание для среднего во всей таблица 4.1);
    i
    d – эффект фактора х на i-м уровне (отклонение математиче- ского ожидания выходного параметра при i-м уровне фактора
    i
    β
    от общего математического ожидания
    µ
    );
    ji
    ε
    – вариация результатов внутри отдельного уровня (случай- ный остаток, характеризующий влияние на
    ji
    y всех неуч- тенных моделью (4.8) факторов).

    90
    Согласно общей идее ДА разложим оценку дисперсии выходного пара- метра
    2
    y
    S
    на составляющие, которые характеризовали бы вклад фактора х и фактора случайности:
    ,
    1 2
    2 1
    1




    =
    =
    =






    N
    y
    y
    S
    m
    i
    n
    j
    ji
    y
    (4.9) где
    N – общее число опытов;
    N=n
    1
    =n
    2
    =…=n
    i
    =…=n
    m
    =mn;
    y – общая средняя для всей выборки;
    1 1
    1 1
    1

    =


    =
    =
    =
    =
    m
    i
    m
    i
    n
    j
    i
    ji
    y
    m
    y
    N
    y
    При расположении наблюдений так, как показано в таблице 4.1, их рас- сеяние между строками обуславливается ошибкой воспроизводимости экспе- римента, а рассеяние между столбцами – дополнительным действием иссле- дуемого фактора х. Рассеяние отдельных наблюдений относительно общего среднего y обусловлено действием, как случайных причин, так и влиянием фактора х. Действие фактора случайности проявляется в рассеянии (с диспер- сией
    2
    ε
    σ
    ) наблюдений серий параллельных опытов
    ji
    y на каждом уровне x
    i
    вокруг среднего арифметического
    i
    y своей серии. Влияние же фактора х (с дисперсией
    2
    x
    σ
    ) вызывает повышенное рассеяние средних арифметических
    i
    y серий относительно общего среднего
    y . Каждое их этих трех рассеяний можно охарактеризовать соответствующей суммой квадратов отклонений.
    С этой целью преобразуем общую сумму квадратов отклонений наблю- дений
    ji
    y от общего среднего y (числитель (4.9)) к следующему виду:
    =

    =

    +


    =



    =












    =
    =
    =
    2 2
    1 1
    1 1
    m
    n
    j
    m
    i
    n
    j
    i
    y
    y
    y
    y
    y
    y
    SS
    i
    i
    ji
    ji
    общ
    (
    )
    (
    )
    =



    +




    +



    =
    =
    =
    =
    =
    =
    =












    2 2
    1 1
    1 1
    1 1
    2
    m
    i
    n
    j
    m
    i
    n
    j
    m
    i
    n
    j
    y
    y
    y
    y
    y
    y
    y
    y
    i
    j
    i
    ji
    i
    ji
    (4.10)
    x
    i
    i
    ji
    SS
    SS
    y
    y
    n
    y
    y
    m
    i
    m
    i
    n
    j
    +
    =


    +



    =
    =
    =
    =












    ε
    2 2
    1 1
    1

    91
    Вследствие того, что
    (
    )
    (
    )
    0 1
    1 1
    1
    =




    =




    =
    =
    =
    =












    n
    j
    m
    i
    m
    i
    n
    j
    i
    ji
    i
    i
    i
    ji
    y
    y
    y
    y
    y
    y
    y
    y
    , поскольку
    (
    )
    0 1
    1 1
    1 1
    =

    =

    =





    =
    =
    =
    =
    n
    j
    ji
    n
    j
    ji
    i
    n
    j
    ji
    n
    j
    i
    y
    n
    n
    y
    y
    n
    y
    y
    y
    ji
    Суммы
    ε
    SS
    SS
    SS
    x
    общ
    ,
    ,
    , входящие в выражение (4.10), означают сле- дующее:
    (
    )
    2 1
    1


    =
    =

    =
    m
    i
    ji
    n
    j
    общ
    y
    y
    SS
    ; (4.11)
    – это общая сумма квадратов отклонений отдельных наблюдений
    ji
    y от общего среднего y . Она характеризует рассеяние наблюдений в результате действия, как фактора случайности
    ε
    , так и исследуемого входного фактора х;
    ( )
    2 1

    =

    =
    m
    i
    i
    x
    y
    y
    n
    SS
    ; (4.12)
    – это сумма квадратов отклонений между средними по уровням
    i
    y
    и общей средней y . Сумма SS
    x/n рассеяние средних
    i
    y уровней за счет случай- ных причин (с дисперсией
    n
    /
    2
    ε
    σ
    для средних уровней) и исследуемого вход- ного фактора х (с дисперсией
    2
    x
    σ
    );
    (
    )
    2 1
    1


    =
    =

    =
    m
    i
    i
    ji
    n
    j
    y
    y
    SS
    ε
    ; (4.13)
    – это сумма квадратов отклонений внутри уровней, то есть сумма квад- ратов разностей между отдельными наблюдениями
    ji
    y и средним
    i
    y соответ- ствующего уровня. Она характеризует остаточное рассеяние случайных по- грешностей опытов, то есть их воспроизводимость.
    Таким образом, общую сумму квадратов отклонений наблюдаемых значений выходного параметра от общей средней y мы разложили на две со- ставляющие:
    x
    SS
    – факторную сумму квадратов отклонений и
    ε
    SS
    – остаточ- ную сумму квадратов отклонений.

    92
    Зная суммы квадратов
    ε
    SS
    SS
    SS
    x
    общ
    ,
    ,
    , можно определить соответст- вующие оценки дисперсий: общую, межуровневую и внутриуровневую
    ε
    2 2
    2
    ,
    ,
    S
    S
    S
    x
    общ
    :
    ;
    1 1
    2

    =

    =
    mn
    SS
    N
    SS
    S
    общ
    общ
    общ
    (4.14)
    ;
    1 2

    =
    m
    SS
    S
    x
    x
    (4.15)
    (
    )
    1 2

    =
    n
    m
    SS
    S
    ε
    ε
    (4.16)
    Оценки
    ε
    2 2
    S
    и
    S
    x
    в литературе достаточно часто называют фактор- ной и остаточной дисперсиями.
    Математически строго можно показать, что если влияние входного ис- следуемого фактора х на выходной параметр Y несущественно, то полученные нами дисперсии (4.14)-(4.16) являются несмещенными оценками генеральной дисперсии наблюдений
    2 0
    σ , то есть:
    [ ]
    [ ]
    [ ]
    ;
    ;
    2 0
    2 2
    0 2
    2 0
    2
    σ
    σ
    σ
    ε
    =
    =
    =
    S
    M
    S
    M
    S
    M
    x
    y
    (4.17)
    Следовательно, для выяснения влияния фактора Х на выходной пара- метр Y необходимо сравнить дисперсии
    ε
    2 2
    S
    и
    S
    x
    . Для того, чтобы влия- ние фактора было признано значимым, необходимо и достаточно, чтобы оцен- ка дисперсии
    x
    S
    2
    значимо отличалась от
    ε
    2
    S
    . Проверку нуль-гипотезы об однородности этих оценок можно осуществить по критерию Фишера:
    ε
    2 2
    S
    S
    F
    x
    расч
    =
    . (4.18)
    Если вычисленное по результатам наблюдений дисперсионное отноше- ние F
    расч
    превосходит критическое табличное
    (
    )
    2 1
    ,
    ,
    f
    f
    F
    табл
    α
    , найденное по распределению Фишера для выбранного уровня значимости
    α
    и степеней свободы
    1 1

    = m
    f
    числителя и
    (
    )
    1 2

    =
    n
    m
    f
    знаменателя (2.18),
    (
    )
    2 1
    ,
    ,
    f
    f
    F
    F
    табл
    расч
    α
    >
    , (4.19)

    93
    то влияние фактора Х следует признать значимым. Если условие (4.19) не вы- полняется, то есть
    (
    )
    2 1
    ,
    ,
    f
    f
    F
    F
    табл
    расч
    α

    , (4.20) то влияние фактора Х следует признать незначимым. Так как в рассматривае- мых условиях проверяется нулевая гипотеза
    [ ] [ ]
    :
    2 0
    2 2
    0
    σ
    ε
    =
    =
    S
    M
    S
    M
    H
    x
    при конкурирующей гипотезе вида
    [ ]
    2 0
    2 1
    :
    σ
    >
    x
    S
    M
    H
    , то при расчетах следует пользоваться односторонним F-критерием (приложе- ние Б).
    Таким образом, если выполняется условие (4.19), то дисперсии
    ε
    2 2
    S
    и
    S
    x
    значимо отличаются друг от друга, нулевая гипотеза равенства средних
    [ ]
    [ ]
    [ ]
    [ ]
    m
    i
    y
    M
    y
    M
    y
    M
    y
    M
    H
    =
    =
    =
    =
    =
    :
    2 1
    0
    должна быть отвергнута и влияние фактора Х признано значимым. В этих ус- ловиях по результатам наблюдений (смотреть таблицу 4.1) можно оценить:
    – дисперсию воспроизводимости
    2
    ε
    σ
    - выборочной остаточной дис- персией
    (
    )
    ,
    1 2
    2
    ε
    ε
    ε
    σ


    =
    n
    m
    SS
    S
    то есть
    [ ]
    2 2
    ε
    ε
    σ
    =
    S
    М
    (4.21) и определить доверительный интервал для
    2
    ε
    σ
    по
    х
    2
    -распределению с
    m(n-1) степенями свободы;
    – дисперсию исследуемого фактора
    Х по формуле
    (
    )
    2 2
    2 1
    ε
    σ
    S
    S
    n
    x
    x


    , (4.22)

    94
    – расхождение
    2
    x
    σ
    генеральных центров серий, обусловленное влияни- ем фактора
    Х. Так как
    1 2

    =
    m
    SS
    S
    x
    x
    , то можно показать, что
    [ ]
    ( )
    ,
    1 2
    1 2
    2

    =


    +
    =
    m
    i
    i
    x
    c
    c
    m
    n
    S
    М
    ε
    σ
    где

    =
    =
    m
    i
    i
    c
    m
    c
    1 1
    – среднее значение из генеральных центров распре- деления с i
    , или
    (
    )
    ( )
    2 2
    1 2
    2 1
    1
    c
    m
    i
    i
    x
    c
    c
    m
    S
    S
    mn
    m
    М
    δ
    ε
    =

    =
    

    




    =
    Оценкой величины
    2
    c
    δ
    служит выборочная характеристика
    (
    )
    ;
    1 2
    2 2
    ε
    S
    S
    m
    m
    d
    x
    c


    =
    (4.23)
    – расхождение
    g
    i
    i
    C
    C

    между генеральными центрами любых двух се- рий.
    Так как статистика
    (
    )
    (
    )
    ,
    2
    ε
    S
    C
    C
    y
    y
    n
    t
    g
    i
    g
    i



    =
    =
    (4.24) следует распределению Стьюдента с числом степеней свободы
    (
    )
    1 2

    =
    n
    m
    f
    , то интервал
    (
    )
    (
    )




















    2
    ;
    2 1
    ;
    1
    ;
    n
    S
    t
    y
    y
    n
    S
    t
    y
    y
    n
    m
    p
    g
    i
    n
    m
    p
    g
    i
    ε
    ε
    (4.25) служит доверительным (1)100 % интервалом для
    g
    i
    C
    C

    ;

    95
    – сравнение всех средних при помощи множественного рангового кри- терия Дункана, попарное сравнение по t-критерию и другие.
    При интерпретации результатов ДА необходимо иметь в виду, что очень низкое значение дисперсионного отношения может быть связано с тем, что влияние какого-то важного неконтролируемого в ходе эксперимента не было рандомизировано.
    Это может увеличить дисперсию внутри уровней, а дисперсию между уровнями оставить неизменной, что уменьшает дисперсионное отношение. В данном случае результаты проведенных экспериментов уже не будут подчи- няться модели (4.8).
    При интерпретации результатов ДА для математической модели со случайными уровнями факторов обычно интересуются не проверкой гипотез относительно средних, а оценкой компонент дисперсий. В отличие от модели с фиксированными уровнями выводы по случайной модели распространяются на генеральную совокупность уровней.
    1   2   3   4   5   6   7   8   9   10   11


    написать администратору сайта