Программам высшего профессионального образо вания по специальности Программное обеспечение вычислительной техники и автоматизированных систем
Скачать 0.95 Mb.
|
4 Обработка результатов эксперимента методом дисперси- онного анализа 4.1 Основные понятия дисперсионного анализа При обработке результатов активных экспериментов исследователь часто сталкивается со случаями, когда в качестве входных исследуемых фак- торов системы i x выступают качественные факторы. При этом применение регрессионного анализа невозможно, так как он оперирует величинами, измеряемыми только в количественных шкалах. В рас- сматриваемых условиях для оценки влияния входных факторов и их взаимо- действий на выходной параметр системы Y применяется дисперсионный ана- лиз (ДА). Следует подчеркнуть, что в отличие от регрессионного анализа в ДА оценивается лишь влияние фактора в целом (влияет или нет) и не выясняются количественные соотношения. Суть метода состоит в выделении и оценке отдельных факторов, вызы- вающих изменчивость (вариацию) выходного параметра 2 y σ на составляющие, обусловленные независимыми входными факторами, их взаимодействиями и неучтенными случайными причинами. Например, для двухфакторного ДА по- лучим разложение вида: , 2 2 2 1 2 2 2 1 2 ε σ σ σ σ σ + + + = x x x x y (4.1) где 2 1 x σ – доля дисперсии, вызванная влиянием фактора x 1 ; 2 2 x σ – доля дисперсии, вызванная влиянием фактора x 2 ; 2 2 1x x σ – доля дисперсии, вызванная влиянием фактора x 1 и x 2 ; 2 ε σ – доля дисперсии, вызванная неучтенными случайны- ми величинами. Статистический анализ данных составляющих позволяет делать выво- ды о том, действительно ли оказывает влияние на выходной параметр системы тот или иной фактор, то или иное взаимодействие факторов. Таким образом, изучение переменных факторов по их дисперсиям и на- зывается дисперсионным анализом. Основоположником ДА является английский статистик Р.Фишер, кото- рый в двадцатых годах нашего столетия применил для решения агробиологи- ческих задач. В настоящее время данный метод находит очень широкое при- менение для обработки наблюдений в самых различных областях. 86 Он охватывает большое число хорошо разработанных приемов плани- рования и обработки экспериментов, основные понятия которых будут рассмотрены в данном разделе учебного пособия. В зависимости от числа исследуемых факторов ДА различают одно- факторный и многофакторный. Факторы, рассматриваемые в ДА, могут быть двух родов: 1 Со случайными уровнями. 2 С фиксированными уровнями. В первом случае предполагается, что выбор уровней производится из бесконечной совокупности возможных уровней и сопровождается рандомиза- цией. При этом результаты эксперимента имеют большое значение, поскольку выводы по эксперименту можно распространить на всю генеральную совокуп- ность. Если все уровни факторов выбираются случайными, то математическая модель эксперимента называется случайной моделью (моделью со случайны- ми уровнями факторов). Когда все уровни фиксированы, модель называется моделью с фиксированными уровнями факторов. Когда часть факторов рас- сматривается на фиксированных уровнях, а часть на случайных, то моделью смешанного типа. Влияние изучаемых входных факторов x i на выходной параметр систе- мы Y может быть двояким. Они могут изменять как истинный результат – среднее наблюдений, так и дисперсию этих наблюдений. Мы, однако, все вре- мя будем предполагать, что дисперсия наблюдений остается неизменной. Это предположение обычно оправдывается, если в ходе эксперимента для получе- ний наблюдений используется одна и та же методика, одни и те же приборы. Если же стабильность дисперсий вызывает сомнение, следует провести про- верку их однородности по критерию Кохрена или Бартлета. В случае значимо- го изменения дисперсии в процессе наблюдений нужно попытаться ее стаби- лизировать, подобрав соответствующую преобразующую функцию. Это дает возможность рассматривать все наблюдения как выборку из одной генераль- ной совокупности. Исходя из сказанного, в ДА изучается лишь влияние входных факторов x i на генеральное среднее наблюдаемого распределения выходного параметра Y. Таким образом, при проведении ДА предполагается, что выполняются следующие условия. 1 Результаты наблюдений выходного параметра системы Y являются независимыми случайными величинами, имеющими нормальный закон рас- пределения. 2 Случайные ошибки наблюдений подчиняются нормальному закону распределения. 3 Входные исследуемые факторы x i влияют только на изменение средних значений, а дисперсия наблюдений остается постоянной. 4 Эксперименты равноточны. Проверка данных условий перед проведением ДА обязательна. 87 Рассмотрим наиболее простой случай однофакторного ДА, когда гене- ральная дисперсия наблюдений 2 0 σ известна заранее. Пусть при изменении фактора Х получились результаты наблюдений n y y y ..., , , 2 1 , которые удовле- творяют перечисленным выше требованиям. Найдем оценку дисперсии вы- ходного параметра Y: ( ) ∑ ∑ ∑ = = = − − = − − = n y y n S или y y n S n j n j n j j j y j y 2 2 2 2 2 1 1 1 1 1 1 1 . (4.2) Сравним эту дисперсию, имеющую n - 1 степень свободы, с генераль- ной дисперсией наблюдений 2 0 σ Если 2 0 2 σ и S y отличаются незначимо, то и влияние фактора Х нужно признать незначимым, так как он не сумел сущест- венно увеличить случайный разброс наблюдений. Если же 2 y S отличается значимо от 2 0 σ , то это может быть вызвано только влиянием фактора Х, которое теперь нужно признать значимым. Для оценки дисперсии 2 x σ воспользуемся тем, что дисперсия суммы двух незави- симых случайных величин равна сумме их дисперсий. В нашем случае скла- дывается эффект случайности, имеющий дисперсию 2 0 σ , и эффект воздействия фактора Х с дисперсией 2 x σ , которые независимы. Поэтому общая дисперсия наблюдений будет равна 2 2 0 2 x y σ σ σ + = . (4.3) Оценкой данной дисперсии будет являться выборочная дисперсия 2 y S , определяемая по зависимости (4.2) Следовательно, имеем 2 0 2 2 σ σ − ≈ y x S . (4.4) Сравнение дисперсий 2 0 2 σ и S y осуществляется по критерию Фишера, где влияние фактора Х признается значимым, если при уровне значимости α 88 и степенях свободы ∞ + = 2 f знаменателя выполняется условие ( ) 2 1 2 0 2 , , f f F S табл y α σ > . (4.5) В противном случае влиянием фактора Х следует пренебречь. Значение F – критерия находится по таблице приложения Б. Расчеты по приведенной выше схеме очень просты, однако в большин- стве случаев заранее величина дисперсии наблюдений 2 0 σ нам не будет из- вестна. Поэтому рассмотренная методика хороша лишь с методологической точки зрения. 4.2 Однофакторный дисперсионный анализ Рассмотрим действие на выходной параметр системы Y только одного входного фактора Х, который принимает m различных значений (постоянных уровней). Так как, в общем случае генеральная дисперсия наблюдений 2 0 σ нам не известна, то для вычисления оценки нужно обязательно иметь дубли- рующие (параллельные) наблюдения. Здесь можно поступить по-разному: можно на первом же уровне x 1 , привести достаточно много наблюдений, вы- числить оценку дисперсии и использовать ее для изучения других уровней. Лучше, однако, повторять наблюдения на всех уровнях, так как при этом по- является дополнительная возможность контроля за неизменностью дисперсии 2 0 σ . Наиболее простые расчеты получаются в случае, когда на каждом уровне фактора x i производится одинаковое число наблюдений n 1 =n 2 =…=n i =…=n m =n. Результаты наблюдений обычно оформляют в виде следующей таблицы. Таблица 4.1 – Исходные данные для ДА с равным числом повторений опытов Уровни фактора Х Номер опыта x 1 x 2 … x i … x m 1 2 … j … n y 11 y 21 … y j1 … y n1 y 12 y 22 … y j2 … y n2 … … … … … … y 1i y 2i … y ji … y ni … … … … … … y 1m y 2m … y jm … y nm Групповые средние 1 y 2 y … i y … m y В таблице 4.1 обозначено: j=1,n – число опытов на каждом уровне фактора х; i=1,m – число уровней фактора х. 89 В последней строке таблице 4.1 записаны средние арифметические зна- чения полученных наблюдений выходного параметра Y для каждого из уров- ней фактора Х: ∑ = = n j ji i y n y 1 1 , (4.6) где у ji – j-е значение выходного параметра у на i – м уровне. Пусть результаты измерений выходного параметра у ji распределены по нормальному закону, имеют одинаковую, хотя и неизвестную дисперсию [ ] [ ] [ ] [ ] ? 2 1 = = = = = = m i y y y y Д Д Д Д Требуется при заданном уровне значимости α по выборочным средним (оценкам математического ожидания) проверить нулевую гипотезу о равенст- ве всех математических ожиданий: [ ] [ ] [ ] [ ] m i y M y M y M y M H = = = = = : 2 1 0 Будем полагать, что для i-го уровня n наблюдений имеют среднюю i β , которая равна сумме общей средней µ и вариации ее, обусловленной i-м уровнем фактора х, то есть i i d + = µ β (4.7) В рассматриваемых условиях любое наблюдение из таблицы 4.1 может быть представлено в виде следующей модели: , ji i ji i ji d y ε β ε µ + = + + = (4.8) где i β – средняя для i-го уровня фактора х; µ – генеральное среднее результатов наблюдений или общая средняя (математическое ожидание для среднего во всей таблица 4.1); i d – эффект фактора х на i-м уровне (отклонение математиче- ского ожидания выходного параметра при i-м уровне фактора i β от общего математического ожидания µ ); ji ε – вариация результатов внутри отдельного уровня (случай- ный остаток, характеризующий влияние на ji y всех неуч- тенных моделью (4.8) факторов). 90 Согласно общей идее ДА разложим оценку дисперсии выходного пара- метра 2 y S на составляющие, которые характеризовали бы вклад фактора х и фактора случайности: , 1 2 2 1 1 − ∑ − ∑ = = = N y y S m i n j ji y (4.9) где N – общее число опытов; N=n 1 =n 2 =…=n i =…=n m =mn; y – общая средняя для всей выборки; 1 1 1 1 1 ∑ = ∑ ∑ = = = = m i m i n j i ji y m y N y При расположении наблюдений так, как показано в таблице 4.1, их рас- сеяние между строками обуславливается ошибкой воспроизводимости экспе- римента, а рассеяние между столбцами – дополнительным действием иссле- дуемого фактора х. Рассеяние отдельных наблюдений относительно общего среднего y обусловлено действием, как случайных причин, так и влиянием фактора х. Действие фактора случайности проявляется в рассеянии (с диспер- сией 2 ε σ ) наблюдений серий параллельных опытов ji y на каждом уровне x i вокруг среднего арифметического i y своей серии. Влияние же фактора х (с дисперсией 2 x σ ) вызывает повышенное рассеяние средних арифметических i y серий относительно общего среднего y . Каждое их этих трех рассеяний можно охарактеризовать соответствующей суммой квадратов отклонений. С этой целью преобразуем общую сумму квадратов отклонений наблю- дений ji y от общего среднего y (числитель (4.9)) к следующему виду: = ∑ = − + − ∑ = ∑ − ∑ = = = = 2 2 1 1 1 1 m n j m i n j i y y y y y y SS i i ji ji общ ( ) ( ) = ∑ − ∑ + ∑ − − ∑ + ∑ − ∑ = = = = = = = 2 2 1 1 1 1 1 1 2 m i n j m i n j m i n j y y y y y y y y i j i ji i ji (4.10) x i i ji SS SS y y n y y m i m i n j + = ∑ − + ∑ − ∑ = = = = ε 2 2 1 1 1 91 Вследствие того, что ( ) ( ) 0 1 1 1 1 = ∑ − ∑ − = ∑ − − ∑ = = = = n j m i m i n j i ji i i i ji y y y y y y y y , поскольку ( ) 0 1 1 1 1 1 = − = − = − ∑ ∑ ∑ ∑ = = = = n j ji n j ji i n j ji n j i y n n y y n y y y ji Суммы ε SS SS SS x общ , , , входящие в выражение (4.10), означают сле- дующее: ( ) 2 1 1 ∑ ∑ = = − = m i ji n j общ y y SS ; (4.11) – это общая сумма квадратов отклонений отдельных наблюдений ji y от общего среднего y . Она характеризует рассеяние наблюдений в результате действия, как фактора случайности ε , так и исследуемого входного фактора х; ( ) 2 1 ∑ = − = m i i x y y n SS ; (4.12) – это сумма квадратов отклонений между средними по уровням i y и общей средней y . Сумма SS x/n рассеяние средних i y уровней за счет случай- ных причин (с дисперсией n / 2 ε σ для средних уровней) и исследуемого вход- ного фактора х (с дисперсией 2 x σ ); ( ) 2 1 1 ∑ ∑ = = − = m i i ji n j y y SS ε ; (4.13) – это сумма квадратов отклонений внутри уровней, то есть сумма квад- ратов разностей между отдельными наблюдениями ji y и средним i y соответ- ствующего уровня. Она характеризует остаточное рассеяние случайных по- грешностей опытов, то есть их воспроизводимость. Таким образом, общую сумму квадратов отклонений наблюдаемых значений выходного параметра от общей средней y мы разложили на две со- ставляющие: x SS – факторную сумму квадратов отклонений и ε SS – остаточ- ную сумму квадратов отклонений. 92 Зная суммы квадратов ε SS SS SS x общ , , , можно определить соответст- вующие оценки дисперсий: общую, межуровневую и внутриуровневую ε 2 2 2 , , S S S x общ : ; 1 1 2 − = − = mn SS N SS S общ общ общ (4.14) ; 1 2 − = m SS S x x (4.15) ( ) 1 2 − = n m SS S ε ε (4.16) Оценки ε 2 2 S и S x в литературе достаточно часто называют фактор- ной и остаточной дисперсиями. Математически строго можно показать, что если влияние входного ис- следуемого фактора х на выходной параметр Y несущественно, то полученные нами дисперсии (4.14)-(4.16) являются несмещенными оценками генеральной дисперсии наблюдений 2 0 σ , то есть: [ ] [ ] [ ] ; ; 2 0 2 2 0 2 2 0 2 σ σ σ ε = = = S M S M S M x y (4.17) Следовательно, для выяснения влияния фактора Х на выходной пара- метр Y необходимо сравнить дисперсии ε 2 2 S и S x . Для того, чтобы влия- ние фактора было признано значимым, необходимо и достаточно, чтобы оцен- ка дисперсии x S 2 значимо отличалась от ε 2 S . Проверку нуль-гипотезы об однородности этих оценок можно осуществить по критерию Фишера: ε 2 2 S S F x расч = . (4.18) Если вычисленное по результатам наблюдений дисперсионное отноше- ние F расч превосходит критическое табличное ( ) 2 1 , , f f F табл α , найденное по распределению Фишера для выбранного уровня значимости α и степеней свободы 1 1 − = m f числителя и ( ) 1 2 − = n m f знаменателя (2.18), ( ) 2 1 , , f f F F табл расч α > , (4.19) 93 то влияние фактора Х следует признать значимым. Если условие (4.19) не вы- полняется, то есть ( ) 2 1 , , f f F F табл расч α ≤ , (4.20) то влияние фактора Х следует признать незначимым. Так как в рассматривае- мых условиях проверяется нулевая гипотеза [ ] [ ] : 2 0 2 2 0 σ ε = = S M S M H x при конкурирующей гипотезе вида [ ] 2 0 2 1 : σ > x S M H , то при расчетах следует пользоваться односторонним F-критерием (приложе- ние Б). Таким образом, если выполняется условие (4.19), то дисперсии ε 2 2 S и S x значимо отличаются друг от друга, нулевая гипотеза равенства средних [ ] [ ] [ ] [ ] m i y M y M y M y M H = = = = = : 2 1 0 должна быть отвергнута и влияние фактора Х признано значимым. В этих ус- ловиях по результатам наблюдений (смотреть таблицу 4.1) можно оценить: – дисперсию воспроизводимости 2 ε σ - выборочной остаточной дис- персией ( ) , 1 2 2 ε ε ε σ ≈ − = n m SS S то есть [ ] 2 2 ε ε σ = S М (4.21) и определить доверительный интервал для 2 ε σ по х 2 -распределению с m(n-1) степенями свободы; – дисперсию исследуемого фактора Х по формуле ( ) 2 2 2 1 ε σ S S n x x − ≈ , (4.22) 94 – расхождение 2 x σ генеральных центров серий, обусловленное влияни- ем фактора Х. Так как 1 2 − = m SS S x x , то можно показать, что [ ] ( ) , 1 2 1 2 2 ∑ = − − + = m i i x c c m n S М ε σ где ∑ = = m i i c m c 1 1 – среднее значение из генеральных центров распре- деления с i , или ( ) ( ) 2 2 1 2 2 1 1 c m i i x c c m S S mn m М δ ε = − = − − ∑ = Оценкой величины 2 c δ служит выборочная характеристика ( ) ; 1 2 2 2 ε S S m m d x c − − = (4.23) – расхождение g i i C C − между генеральными центрами любых двух се- рий. Так как статистика ( ) ( ) , 2 ε S C C y y n t g i g i − − − = = (4.24) следует распределению Стьюдента с числом степеней свободы ( ) 1 2 − = n m f , то интервал ( ) ( ) ⋅ − − ⋅ − − − − 2 ; 2 1 ; 1 ; n S t y y n S t y y n m p g i n m p g i ε ε (4.25) служит доверительным (1-р)100 % интервалом для g i C C − ; 95 – сравнение всех средних при помощи множественного рангового кри- терия Дункана, попарное сравнение по t-критерию и другие. При интерпретации результатов ДА необходимо иметь в виду, что очень низкое значение дисперсионного отношения может быть связано с тем, что влияние какого-то важного неконтролируемого в ходе эксперимента не было рандомизировано. Это может увеличить дисперсию внутри уровней, а дисперсию между уровнями оставить неизменной, что уменьшает дисперсионное отношение. В данном случае результаты проведенных экспериментов уже не будут подчи- няться модели (4.8). При интерпретации результатов ДА для математической модели со случайными уровнями факторов обычно интересуются не проверкой гипотез относительно средних, а оценкой компонент дисперсий. В отличие от модели с фиксированными уровнями выводы по случайной модели распространяются на генеральную совокупность уровней. |