Дисперсионный анализ. Анализ понятие о дисперсионном анализе Дисперсионный анализ был разработан в 20х год
Скачать 363.04 Kb.
|
ДИСПЕРСИОННЫЙ АНАЛИЗ Понятие о дисперсионном анализе Дисперсионный анализ был разработан в 20-х годах ХХ-го столетия английским математиком и генетиком Рональдом Фишером. То, что оказывает влияние на конечный результат, называется фактором или факторами, если их несколько. Конкретную реализацию фактора называют уровнем фактора. Значение измеряемого признака называют откликом. Для сравнения влияния факторов на результат необходим определенный статистический материал. Обычно его получают следующим образом: каждый из k способов обработки применяют несколько раз (не обязательно одно и тоже число раз) к исследуемому объекту и регистрируют результаты. Итогом подобных испытаний являются k выборок, вообще говоря, разных объемов (численностей). Одной из главных конечных целей в задачах однофакторного анализа является оценка величины влияния конкретного способа обработки на изучаемый отклик. Эта задача также может быть сформулирована в форме сравнения влияния двух или нескольких способов обработки между собой, т.е. оценки различия действий между уровнями фактора. Но прежде чем судить о количественном влиянии фактора на измеряемый признак, полезно спросить себя, есть ли такое влияние вообще. Нельзя ли объяснить расхождения наблюдаемых в опыте значений для разных уровней одного фактора действием чистой случайности. На статистическом языке это предположение означает, что все данные в таблице принадлежат одному и тому же распределению. Это предположение обычно именуют нулевой гипотезой. Для проверки нулевой гипотезы могут быть использованы различные критерии: как параметрические, опирающиеся на предположение о нормальности распределения 183 данных (F-отношение), так и непараметрические, не требующие подобных допущений (ранговые критерии Краскела–Уоллиса). Если нулевая гипотеза об отсутствии эффектов обработки отвергается, то проводится оценка действия этих эффектов или контрастов между ними и строятся доверительные интервалы для этих характеристик. Если же критерий не позволяет отвергнуть нулевую гипотезу об отсутствии эффектов обработки, то обычно на этом анализ может быть завершен. Но иногда вывод об отсутствии эффектов обработки нас не может устроить, так как он противоречит теоретическим предпосылкам или результатам предыдущих исследований. Тогда следует выяснить, нет ли каких-либо еще факторов, влияющих на имеющиеся наблюдения. Ниже будет рассмотрен метод двухфакторного анализа, используемые для решения задач, в которых на конечный результат влияют не один, а два фактора. Дисперсионный анализ предназначен для исследования двух и более выборок путем сравнения выборочных дисперсий. В общем случае простейшая задача для дисперсионного анализа может выглядеть следующим образом. Пусть имеется несколько (l) независимых выборок: 11 X ,…, 1 1n X ; … l X 1 ,…, l X ln ; произведенных из нормальных генеральных совокупностей с неизвестными средними m 1 ,…, m l и неизвестными одинаковыми дисперсиями σ 2 Зададимся вопросом, что заставляет нас, взглянув на несколько выборок, думать, что различия между ними случайны. Рассмотрим два расположения выборок. 184 Рис.44. Разброс выборочных средних (нижняя линия) меньше разброса в каждой из выборок Рис.45. Разброс выборочных средних (нижняя линия) превышает ьшет разброс в каждой из выборок Сравнив рисунки, всякий скажет, что выборки на рис. 44 не различаются, а на рис. 45 различаются. Почему? Сравним разброс 185 значений внутри выборок с разбросом выборочных средних. Разброс выборочных средних на рис. 44 значительно меньше разброса в каждой из выборок. На рис. 45 картина обратная – разброс выборочных средних превышает разброс в каждой из выборок. Итак, чтобы оценить величину различий, нужно каким-то образом сравнить разброс выборочных средних с разбросом значений внутри групп. Дисперсионный анализ можно использовать для определения значимости различия средних значений какого-либо параметра жизнедеятельности у животных в нескольких группах, подвергавшихся воздействию препаратов разной дозировки. В последнем случае каждый из препаратов является неким фактором, который может оказывать существенное влияние на изучаемый параметр, а может и не оказывать такого влияния. Дисперсионный анализ обычно применяют для изучения влияния факторов, характеризующихся несколькими уровнями (в рассмотренном примере – дозами используемых препаратов). В зависимости от количества изучаемых факторов различают однофакторный и многофакторный дисперсионные анализы. Однофакторный дисперсионный анализ Пусть исследуется влияние некоторого фактора А, имеющего mМпостоянных уровней, на формирование значений некоторой нормально распределенной величины Х, причем на всех уровнях распределение значений величины Х является нормальным, а генеральные дисперсии неизвестны, но одинаковы. Пусть также количество проведенных наблюдений при действии фактора на каждом из его уровней одинаково и равно nаМ полученные результаты представлены в таблице, приведенной ниже. 186 Номер испытания Уровень фактора A 1 A 2 … A m 1 x 11 x 21 … x m1 2 x 12 x 22 … x m2 … … n x 1n x 2n … X mn Групповое среднее 1 x … m x Общее среднее. x Все значения величины x ij , (где i=1, 2, ..., n; j=1, 2, ..., m), наблюдаемые при каждом фиксированном уровне действия фактора А i ,., составляют группу, и в последней строке таблицы представлены соответствующие выборочные групповые средние, вычисленные по формуле i j ij i i n x n x 1 1 и в общем случае различающиеся между собой. Однако самого факта этих различий еще недостаточно для того, чтобы сделать вывод о существенном влиянии изучаемого фактора на величину Х, поскольку необходимо убедиться в том, что данные различия вызваны именно изучаемым фактором, а не случайными причинами. С этой целью в подобных случаях и применяют дисперсионный анализ. Итак, всего измерений m j n n n n N 2 1 Условимся называть групповым средним величину среднего значения, вычисленного по столбцу данной таблицы. Общее среднее по всей выборке складывается из средних значений данных по столбцам: m j j n i ij x N x 1 1 1 , где N – суммарное число всех измерений по всем факторам (градациям фактора). 187 Среднее для каждого уровня: i n j ij x i n i x 1 1 Назовем общей дисперсией величину, зависящую от суммы квадратов разностей каждого значения и общего среднего: m j j n i x ij x N S 1 1 2 ) ( 1 1 2 общ Дисперсия групповых средних или межгрупповая дисперсия (факторная дисперсия): m j x j x j n m S 1 2 ) ( 1 1 2 гр Остаточная дисперсия: 2 гр ) 1 ( 2 общ 1 1 2 ост S m S N m N S В основе однофакторного дисперсионного анализа лежит сравнение межгрупповой и остаточной дисперсий. Условимся, что фактор, воздействующий на измеряемые величины, существенно влияет на среднее значение в том случае, если генеральная межгрупповая дисперсия больше генеральной остаточной дисперсии. В противном случае делают заключение об отсутствии значимого влияния фактора на генеральные средние. Сравнение межгрупповой и остаточной дисперсий проводится по критерию Фишера. Последовательность проверки гипотезы такова: 1. Формулируем нулевую и альтернативную гипотезы. Нулевая гипотеза Н 0 : групповые генеральные средние равны (µ 1 =µ 2 =….=µ m ,), а также различие выборочных средних получилось случайно, реального влияния фактор не оказывает. Альтернативная гипотеза предполагает, что различие между выборочными средними не случайно и обусловлено влиянием фактора. 2. Задается уровень значимости α. 3. Вычисляются S 2 гр. и S 2 ост. . Если S 2 гр. S 2 ост. ., то признается нулевая гипотеза. Если S 2 гр. > S 2 ост. . , то вычисляется функция: 188 2 2 ост S гр S F 4. После вычисления F набл. находится F критич. по таблицам критических значений распределения Фишера. F критич. должно соответствовать числам степеней свободы. k гр. = m-1 и k ост. = N – m. 5. Сравниваются F набл. и F критич . Если F набл. <F критич , то принимается гипотеза Н о о существенном влиянии фактора на средние значения. Если F набл. > F критич , то нулевая гипотеза отвергается и делают вывод, что фактор не влияет существенно на средние значения. Математическая модель, на которой основано вычисление критических значений F, предполагает следующее: 1.Каждая выборка независима от остальных выборок. 2. Каждая выборка случайным образом извлечена из исследуемой совокупности. 3.Совокупность нормально распределена. 4.Дисперсии всех выборок равны. При существенном нарушении хотя бы одного из этих условий нельзя пользоваться дисперсионным анализом. В этом случае надо использовать его непараметрический аналог. Основная идея дисперсионного анализа состоит в сравнении групповой дисперсии, порождаемой воздействием фактора и остаточной дисперсии, обусловленной случайными причинами. Если различие между этими дисперсиями значимо, то фактор оказывает существенное влияноие на измеряемую величину. В этом случае средние наблюдаемых значений на каждом уровне также значимо различаются. Гипотеза: H 0 : фактор НЕ влияет, H 1 : фактор влияет. Критерий 2 2 ост гр S S F имеет распределение Фишера с (m–1),(N– m) степенями свободы. 189 Если F эксп >F крит, то нулевая гипотеза отвергается, следовательно, есть влияние фактора. Если F эксп <F крит, то нет оснований отвергать нулевую гипотезу, следовательно, нет влияния фактора. Базовая идея дисперсионного анализа заключается: в разложении общей дисперсии изучаемых признаков на составляющие в соответствии с возможными источниками вариации; вычислении F-отношений в качестве тестовой статистики; проверки значимости нулевой гипотезы (об отсутствии существенного влияния данного фактора на общий разброс данных). Чтобы определить величину различий средних значений нескольких независимых выборок, нужно попытаться сравнить разброс самих выборочных средних с разбросом значений признака вокруг соответствующего группового среднего внутри групп. Чем больше разброс средних и меньше разброс значений внутри групп, тем меньше вероятность того, что данные группы представляют собой случайные выборки из одной и той же генеральной совокупности. е тклп М ткс т зоятчс титМ кньфлчьнтс с титМ зс зпнмзг Фактор – это качество или свойство, в соответствии с которым в нашей модели производится классификация. ij i ij z x ξ µ , ij x – измеренная величина, µ – общее среднее, i ξ – индивидуальный вклад i-го уровня фактора (случайная величина), ij z – индивидуальный вклад остаточного эффекта (т.е. вклад факторов, которые мы не в состоянии описать с помощью известных в данный момент качественных или количественных параметров системы). Тогда гипотеза примет следующий вид: H 0 : 1 ξ = 2 ξ =…= k ξ = 0 (т.е. уровни фактора не вносят свой вклад), H 1 : хотя бы один уровень фактора вносит вклад. Далее используется F-критерий. Итак, схема порядка операций для однофакторного дисперсионного анализа: 190 исходные данные группируются в виде комбинационной таблицы таким образом, чтобы градации регулируемого фактора располагались по горизонтали в верхней части таблицы, образуя ее графы или столбцы, а значения результативного признака (варианты) группировались соответственно по градациям фактора; рассчитывают вспомогательные величины: объем выборки, общую среднюю, групповые средние, общую сумму квадратов, межгрупповую сумму квадратов, внутригрупповую (остаточную) сумму квадратов; определяют числа степеней свободы; определяют средние квадраты отклонений или дисперсии по отношениям сумм квадратов отклонений к соответствующим числам степеней свободы; определяют эффективность действия фактора на результативный признак. Для этого служит дисперсионное отношение, или критерий Фишера; результат дисперсионного анализа сводят в таблицу. Источник вариации, диспер- сии Сумма квадратов (отклонений) Число степеней свободы Средние квадраты Диспер- сионное отношение. (F) Меж- группо- вая m j x j x j n межгр SS 1 2 M – 1 1 2 m межгр SS гр s 2 2 внутргр гр s s F Внутри группо- вая (остатаоч -ная) m j j n i i x ij x внутригр SS 1 1 2 N – m m N внутригр SS внутргр s 2 Общая m j j n i x ij x общ SS 1 1 2 N – 1 1 2 N общ SS общ s F следует распределе- нию Фишера с (m-1),(N-m) степенями свободы. 191 Двухфакторный дисперсионный анализ Иерархическая модель В иерархической модели подразумевается, что один фактор – основной, а внутри основного фактора каждый уровень может быть разделен на подуровни главного фактора. и р м е Пусть есть четыре препарата, лечащие одно и то же: A 1 , A 2 , A 3 , A 4 . При клинических испытаниях изучается некоторая величина X. Каждый из препаратов выпускается различными фирмами B 1 , B 2, B 3, … , B 10 . Мы должны выбрать препараты от конкретной фирмы, чтобы препараты были качественными. Здесь – иерархическая структура: главный фактор – препарат, подуровни – фирмы-поставщики. Рис. 46. Иерархическая модель Рассмотрим математическую модель иерархического дисперсионного анализа. Пусть главный фактор имеет k-уровней, а подчиненный фактор - m i уровней в i-ом уровне главного фактора, n ij – количество измерений в j-ом уровне подчиненного фактора i-го уровня главного фактора, тогда ijt ij i ijt z X δ ξ µ , где 1 i k; 1 j m i ; 1 t n ij , 192 ijt X – значение изучаемой величины, µ – общее среднее, i ξ – случайная величина, характеризующая влияние i-го уровня главного фактора, ij δ – случайная величина, характеризующая влияние j-го подуровня i-го уровня главного фактора, ijt z – индивидуальный вклад остаточного эффекта (т.е. фактора, который мы не в состоянии описать с помощью известных в данный момент качественных или количественных параметров системы), т.е. случайные причины. Сделаем вспомогательные вычисления: i m j ij n i N 1 – количество измерений в i-ом уровне главного фактора, k i i N N 1 . – количество всех измерений, k i i m 1 – количество подуровней подчиненного фактора, i x – оценка среднего значения i-го уровня главного фактора, x – оценка общего среднего, ij x – оценка среднего значения j-го уровня подчиненного фактора i-го уровня главного фактора. k i x i x i N k фак гл s 1 2 1 1 2 , k i i m j i x ij x k k i i m фак подч s 1 1 2 1 1 2 , 193 k i i m j ij n t i x ijt x k i i m N ост s 1 1 1 2 1 1 2 Здесь проверяются следующие гипотезы: H 1 0 : главный фактор не влияет на результат, H 1 1 : главный фактор влияет на результ. Критерий 2 2 1 ост фак гл s s F имеет распределение Фишера с (k–1), ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ k i i m N 1 степенями свободы. H 2 0 : подчиненный фактор не влияет на результат. H 2 1 : подчиненный фактор влияет на результат. Критерий 2 2 2 ост фак подч s s F имеет распределение Фишера с ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ k k i i m 1 , ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ k i i m N 1 степенями свободы. Перекрестная модель и р м е 1-й фактор – лекарство (А,B,C,D). 2-й фактор способ применения (мы хотим выяснить каким путем лучше вводить препарат) (I,II,III). Для каждого препарата исследуются все три способа. A B C D I xxx xxxxxx xxx xxxxxx II xxxxx xxx xxxxxx xxx 194 III xxx xxx xxx xx В каждой ячейке должно быть как минимум 2 измерения. е зялр зян льоз М р тклп д Пусть I фактор имеет r-уровней, а II фактор c-уровней. n ij =n – количество измерений в i-ом уровне I фактора и j-м уровне II фактора (пусть для простоты будет одинаковое количество), ijt ij j i ijt z x ξη η ξ µ , где 1 i r; 1 j c; 1 t n ij , ijt x – результат измерения, µ – общее среднее, i ξ – случайная величина, характеризующая вклад I фактора, j η – случайная величина, характеризующая вклад II фактора, ij ξη – случайная величина, характеризующая вклад межфакторного взаимодействия, ijt z – случайная величина, характеризующая вклад неучтенных факторов. Сделаем вспомогательные вычисления. i x – оценка среднего значения i-го уровня I фактора, . j x – оценка среднего значения j-го уровня II фактора, x – оценка общего среднего, ij x – оценка среднего значения i-го уровня I фактора j-го уровня II фактора (среднее в ячейке), r i i Iфакт x x nc r s 1 2 2 1 1 , c j j IIфакт x x nr r s 1 2 2 1 1 , r i c j j i ij фак меж x x x x n c r s 1 1 2 2 ) 1 ( 1 1 , 195 r i c j n t ijt ост x x n rc s 1 1 1 2 2 ) 1 ( 1 , Здесь проверяются следующие гипотезы: H 1 0 : I фактор не влияет на результат. H 1 1 : I фактор влияет на результат Критерий 2 2 1 ост факт I s s F имеет распределение Фишера с (r–1),rc(n–1) степенями свободы. H 2 0 : II фактор не влияет на результат. H 2 1 : II фактор влияет на результат. Критерий 2 2 2 ост факт II s s F имеет распределение Фишера с (c–1),rc(n–1) степенями свободы. H 12 0 : II фактор не влияет на результат. H 12 1 : II фактор влияет на результат. Критерий 2 2 12 ост факт меж s s F имеет распределение Фишера с (r–1)(c–1),rc(n–1) степенями свободы. Результат дисперсионного анализа сводят в таблицу. Источник вариации (дисперсии) Число степеней свободы Средние квадраты Диспер- сионное отношение. (F) I фактор r–1 r i x i x nc r Iфакт s 1 2 1 1 2 F следуейт распределению Фишера с (m-1),(N-m) степенями свободы. II - фактор c–1 c j x j x nr r IIфакт s 1 2 1 1 2 Межфактор ное взаимодейс твие (r-1)(c-1) r i c j x j x i x ij x n c r фак меж s 1 1 2 ) 1 ( 1 1 2 Остаточная дисперсия rc(n-1) r i c j n t x ijt x n rc ост s 1 1 1 2 ) 1 ( 1 2 196 Общая rcn-1 и р м еП На одной из опытных станций испытывалась урожайность шести местных сортов пшеницы. Опыт проводился в четырехкратной повторности по каждому сорту. Результаты испытания приведены в таблице. Цейтнер Сорт 1 2 3 4 5 6 1 26,1 25,0 27,2 23,6 30,0 23,0 2 29,2 24,3 26,4 27,2 33,0 26,0 3 30,0 28,5 31,0 25,2 36,0 26,0 4 27,3 29,0 26,4 24,8 29,8 24,8 Среднее 28,2 26,7 27,8 25,2 32,2 25,0 общ среднее 27,5 Из данных таблицы видно, что на одни и теже условия выращивания сорта пшеницы реагируют по-разному. Подвергнем эти данные дисперсионному анализу. H 0 : нет влияния фактора (сорт пшеницы), т.е. варьирование носит случайный характер. SS ст. свободы S2 F F 5,18;0.05 H 0 Фактор 140,0 5 28,01 6,4 2,8 Reject Остаток 79,6 18 4,4 Общее 219,6 23 9,55 Можно заключить, что разница в урожайности между сортами пшеницы не случайна. Т.е. есть влияние фактора. и р м еП На учебно-опытном участке изучалось влияние различных способов внесения в почву органических удобрений на урожай зеленой массы кукурузы. Каждый вариант опыта 197 имел трехкратную повторность. Результаты опыта оказались следующими: кг Способ внесения удобрения 1 2 3 4 1 21,2 23,6 24 29,2 2 28 22,6 30 28 3 31,2 28 29,2 27 Среднее 26,8 24,7 27,7 28,1 Общее ср. 26,8 Видно, что результаты опыта варьируют как по вариантам, так и по повторностям. Чтобы установить случайны или не случайны различия между средними групп, подвергнем эти данные дисперсионному анализу. H 0 : нет влияния фактора (способ удобрения), т.е. варьирование носит случайный характер. SS Ст. св Дисп F F 8,3;0.0 5 H 0 Фактор 20,23 3 6,74 1,71 8,84 Нет осн отв. Остаток 92,32 8 11,54 Здесь отноше- ние боль- шего к меньше- му Общ 112,55 11 10,23 Нулевая гипотеза остается в силе, т.е. варьирование носит случайный характер. Т.е. нет влияния фактора. 198 |