Лаб. работа №4. Лабораторная работа дисперсионный анализ
Скачать 0.58 Mb.
|
Лабораторная работа № 4. ДИСПЕРСИОННЫЙ АНАЛИЗ 4.1. Дисперсионный анализ Изучение реальных процессов предполагает получение не только прогнозной оценки исследуемого показателя, но и количественной характеристики степени влияния на него различных факторов, а также оценки возможных последствий их изменений в будущем. В результате опыта проводятся наблюдения над целым рядом случайных величин. При этом возникает задача изучения взаимосвязи между случайными величинами, которая решается в три этапа: проводится оценка существенности влияния одного фактора на другой с помощью дисперсионного анализа; проводится численная оценка связи с помощью корреляционного анализа; строятся функциональные зависимости посредством регрессионного анализа. Дисперсионный анализ служит для статистического установления влияния отдельных факторов на изменчивость какого-либо признака, значения которого могут быть получены опытным путем в виде выборки из генеральной совокупности случайной величины . Под факторами понимаются различные независимые показатели, количество которых может быть различным. Конкретная реализация фактора А называется уровнем (группой) этого фактора. В зависимости от количества факторов различают однофакторный и многофакторный дисперсионный анализ. Величина называется результативным признаком (фактором) Y. Идея дисперсионного анализа состоит в том, что дисперсия признака Y разлагается на сумму дисперсий, вызванных влиянием факторов, дисперсий, вызванных взаимодействием факторов, и случайной дисперсии, вызванной неучтенными случайными факторами. Затем указанные дисперсии сравниваются. 4.2. Однофакторный дисперсионный анализ Однофакторный дисперсионный анализ позволяет статистически обосновать степень влияния на результативный признак Y одного фактора А для различных уровней или групп А 1 , А 2 , , А k , например, установление зависимости выполненных на стройке за смену работ (признак Y) от работающей бригады (группы А 1 , А 2 , , А k ). В табл. 13 представлены выборочные значения результативного признака Y для различных групп. Таблица 13. Данные наблюдений для однофакторного дисперсионного анализа Номера наблюдений Уровни (группы) фактора А А 1 А 2 А k 1 y 11 y 12 y 1k 2 y 21 y 22 y 2k nj 1 1 n y 2 2 n y k n k y Групповая средняя 1 y 2 y k y Здесь n 1 , n 2 , , n k – число наблюдений в уровнях А 1 , А 2 , , А k соответственно, при этом n = n 1 + n 2 + + n k – число всех наблюдений. Из таблицы находятся групповые средние j n i ij j j y n y 1 1 , j = 1, 2, , k, и общая средняя k j j j n y n y 1 1 = k j n i ij j y n 1 1 1 Изменчивость значений y ij от одного уровня к другому объясняется влиянием фактора A на результативный признак Y, а изменчивость тех же значений в пределах одного уровня характеризуется влиянием неучтенных случайных (остаточных) факторов. Пусть а 1 , а 2 , , а k – математические ожидания результативного признака Y соответственно при уровнях А 1 , А 2 , , А k . Если для различных групп фактора А математические ожидания не изменяются, то считается, что результативный признак Y не зависит от фактора А, в противном случае такая зависимость существует. Поскольку числовые значения математических ожиданий неизвестны, то возникает задача проверки гипотезы H 0 : a 1 = a 2 = = a k в предположении выполнения следующих условий для каждой группы фактора: наблюдения независимы и проводятся в одинаковых условиях; результативный признак Y имеет нормальный закон распределения с постоянной дисперсией для различных групп. Поскольку числовые значения дисперсий различных групп неизвестны, то можно установить их равенство, проверив гипотезу о равенстве дисперсий H 0 : 2 2 2 2 1 k с помощью статистики Бартлетта k j j j S S n C V 1 2 2 ln 1 1 , имеющей распределение, близкое к 2 - распределению с (k – 1) степенями свободы, где k n n n n k C k k j j 1 1 1 1 3 1 1 2 1 1 , 2 S k j j k j j j n S n 1 1 2 1 1 , 2 j S – выборочная дисперсия j-й группы (j = 1, 2, , k). При заданном уровне значимости находится критическая точка V кр = 2 ( ; k – 1), определяющая правостороннюю критическую область (V кр ; + ). По выборочным данным вычисляется наблюдае- мое значение статистики V набл Если V набл V кр , то гипотеза H 0 : 2 2 2 2 1 k отвергается, в противном случае она принимается. Если гипотеза H 0 : 2 2 2 2 1 k подтверждается, то можно приступать непосредственно к процедуре однофакторного дисперсионного анализа, т. е. к проверке гипотезы H 0 : а 1 = а 2 = = а k Общая сумма квадратов отклонений (общая вариация) отдельных наблюдений y ij от общей средней y , вызванная влиянием на Y фактора A и случайных неучтенных (остаточных) факторов, вычисляется по формуле Q = k j n i ij j y y 1 1 2 ) ( . Сумма Q разлагается на сумму Q = Q ф + Q о , где Q ф = k j j j n y y 1 2 ) ( – сумма квадратов отклонений между группами (межгрупповая вариация), вызванная влиянием фактора А на Y и характеризующая рассеяние групповых средних около общей средней; Q о = k j n i j ij i y y 1 1 2 ) ( – сумма квадратов отклонений внутри групп (остаточной вариации), вызванная влиянием на Y остаточных факторов и характеризующая рассеяние отдельных наблюдений группы около ее средней. По выборке значений результативного признака Y находятся три несмещенные оценки 2 S Q n 1 1 , 1 2 k Q S ф ф , k n Q S o о 2 дисперсии 2 случайной величины , причем 2 о S всегда является несмещенной оценкой, а 2 S , 2 ф S – только при выполнении гипотезы H 0 : а 1 = а 2 = = а k , т. е. только в том случае, когда фактор А не влияет на результативный признак Y. Проверка нулевой гипотезы H 0 основывается на сравнении оценок 2 ф S , 2 о S . Для этого используется F-статистика с v 1 = k – 1, v 2 = n – k степенями свободы 2 2 o ф S S F = k j n i j ij k j j j j y y k n n y y k 1 1 2 1 2 1 1 1 По статистическим данным вычисляется наблюдаемое значение статистики F набл . Для заданного уровня значимости по F-распреде- лению Фишера находится критическая точка статистики F кр = F( ; k – 1; n – k) и строится правосторонняя критическая область (F кр ; + ). Если F набл < F кр , то нулевая гипотеза не отвергается, и в этом случае говорят, что влияние фактора A на признак Y не подтвердилось выборочными наблюдениями. Если в процессе анализа выявлено влияние фактора A на результативный признак Y, то степень данного влияния измеряется с помощью выборочного коэффициента детерминации R 2 = признака в фактора в ) ( ) ( 2 2 , показывающего, какая доля вариации Q объясняется зависимостью результативного признака Y от влияющего фактора A. При работе в Excel с целью анализа данных с помощью критерия Бартлетта используются статистические функции ДИСП(число1; число2;…), ХИ2ОБР(вероятность;степени_свободы). Для проведения однофакторного анализа используется однофакторный дисперсионный анализ из Анализа данных меню Сервис. После заполнения одноименного диалогового окна результат анализа появляется в виде двух таблиц. Формулы, по которым выполняются расчеты в Excel, представлены в таблицах 14 и 15 соответственно. Таблица 14. Однофакторный дисперсионный анализ: дисперсии групп ИТОГИ Группы Счет Сумма Среднее Дисперсия Столбец 1 n 1 1 1 1 n i i y 1 1 1 1 1 n y y n i i 1 ) ( 1 1 1 2 2 1 1 1 n y y S n i i Столбец 2 n 2 2 1 2 n i i y 2 2 1 2 2 n y y n i i 1 2 2 1 2 2 2 ) ( 2 2 n y y S n i i Столбец k n k k i n ik y 1 k n ik k n y y k i 1 1 1 2 2 ) ( 2 2 k n i n y y S k i k Таблица 15. Однофакторный дисперсионный анализ: расчет параметров для проверки гипотезы Дисперсионный анализ Источник вариации Между группами Внутри групп Итого SS Q ф = k j j j n y y 1 2 ) ( Q о = k j i i j ij n y y 1 1 2 ) ( Q = Q ф + Q о df k – 1 n – k MS 1 1 k Q ф k n 1 Q о F F набл ф о Q k n Q k 1 1 1 P-Значение P(F набл F кр ) FРАСП(x; k – 1; n –k) Значимость F F кр = F( ; k – 1; n – k) FРАСПОБР( ; k – 1; n – k) Замечание. В Excel на экран выводится таблица, строки которой записаны в столбцах табл. 16. 4.3. Двухфакторный дисперсионный анализ Дисперсионный анализ рассматривает влияние двух независимых факторов A и B на изменчивость результативного признака Y. Пусть фактор A имеет I уровней A 1 , A 2 , , A I , фактор B – J уровней B 1 , B 2 , , B J , а число всевозможных сочетаний уровней этих факторов – I J. На каждом сочетании A i и B j , i = 1, 2, , I, j = 1, 2, , J, имеется n выборочных значений результативного признака Y. Поэтому общее число наблюдаемых значений признака Y равно N = I J n. Результаты наблюдений и групповые средние (описанные ниже) могут быть представлены в виде табл. 16. Таблица 16. Результаты наблюдений для двухфакторного анализа Уровни (группы) фактора B Групповые средние уровней фактора A B 1 B 2 B J У ро вн и (г ру пп ы ) ф акт ор а A A 1 y 111 y 121 y 1J1 1 A y y 11n y 12n y 1Jn A 2 y 211 y 221 y 2J1 2 A y y 21n y 22n y 2Jn A I y I11 y I21 y IJ1 I A y y I1n y I2n y IJn Групповые средние уровней фактора B 1 B y 2 B y J B y Пусть a i – математическое ожидание результативного признака Y на уровне A i , i = 1, 2, , I; b j – математическое ожидание результативного признака Y на уровне В j , j = 1, 2, , J; c ij – математическое ожидание результативного признака Y на сочетании уровней A i и В j , i = 1, 2, , I, j = 1, 2, , J. Если при изменении уровня фактора A групповые математические ожидания не изменяются, т. е. a 1 = a 2 = a I , то считается, что результативный признак Y не зависит от фактора A, в противном случае такая зависимость имеется. Аналогично, если при изменении уровня фактора В сохраняется равенство b 1 = b 2 = = b J , то считается, что Y не зависит от фактора В. Если c 11 = c 12 = = c 1J = c 21 = = c 2J = = c I1 = = c IJ , то считается, что результативный признак Y не зависит от взаимодействия факторов A и В. Поскольку числовые значения математических ожиданий неизвестны, то возникает задача проверки следующих гипотез: A H 0 : I a a a 2 1 ; B H 0 : J b b b 2 1 ; : 2 1 2 22 21 1 12 11 0 IJ I I J J AB c c c c c c c c c H Проверка данных гипотез, как и в задаче однофакторного дисперсионного анализа, возможна только при выполнении следующих условий: при различных сочетаниях уровней факторов A и B наблюдения независимы и проводятся в одинаковых условиях; при каждом сочетании уровней A i и B j , i = 1, 2, , I, j = 1, 2, , J, результативный признак Y имеет нормальный закон распределения с постоянной для различных сочетаний генеральной дисперсией 2 Источниками изменчивости признака Y являются факторы A и B, их взаимодействие, а также влияние неучтенных случайных (остаточных) факторов. Общая сумма квадратов отклонений (общая вариация) отдельных наблюдений y ijt от общей средней y , вызванная влиянием на признак Y факторов A и B, а также остаточных факторов, вычисляется по формуле I i J j n t ijt y y Q 1 1 1 2 ) ( . Сумма Q равна Q = Q A + Q B + Q o , где I i A A y y n J Q i 1 2 ) ( , J j B B y y n I Q j 1 2 ) ( – суммы квадратов отклонений, вызванных влиянием соответственно факторов A и B на Y; Q o = Q AB + Q z – сумма квадратов отклонений, вызванная влиянием на Y одновременного взаимодействия факторов A и B, а также остаточных факторов, I i J j B A ij AB j i y y y y n Q 1 1 2 ) ( , I i J j n t ij ijt y y Q 1 1 1 2 z ) ( В приведенных формулах I i J j n t ijt y N y 1 1 1 1 – общая средняя; J j n t jt A y n J y i 1 1 1 – средние значения признака Y на уровнях фактора A (по строкам); I i n t t i B y n I y j 1 1 1 – средние значения признака Y на уровнях фактора B (по столбцам); n t ijt ij y n y 1 1 – средние значения признака Y при различных сочетаниях уровней A i и B j , i = 1, 2, , I, j = 1, 2, , J. По выборочным данным результативного признака Y находятся четыре несмещенные оценки 1 2 N Q S , 2 A S 1 I Q A , 1 2 J Q S B B , o S 2 z 2 S S AB ( 1 1 2 J I Q S AB AB , 1 z 2 z n IJ Q S ) – дисперсии 2 случайной величины , причем оценка 2 о S всегда является несмещенной оценкой, оценка 2 A S – при выполнении гипотезы A H 0 : a 1 = a 2 = a k (когда фактор A не влияет на результативный признак Y), оценка 2 B S – при выполнении гипотезы B H 0 : m b b b 2 1 (когда фактор B не влияет на результативный признак Y), оценка 2 S – при выполнении гипотез A H 0 и B H 0 . Оценка 2 AB S характеризует взаимодействие факторов A и B . Проверка гипотезы A H 0 ( B H 0 ) основывается на сравнении оценок 2 A S ( 2 B S ) и 2 о S . Для этого используется статистика 2 о 2 S S F A A 2 o 2 S S F B B , имеющая F-распределение с 1 1 I A ( 1 1 J B ) и 1 1 2 J I степенями свободы. По статистическим данным вычисляется наблюдаемое значение статистики A набл F ( B набл F ). Для заданного уровня значимости по F-распределению Фишера находится критическая точка статистики A кр F = 1 1 ; 1 ; J I I F 1 1 ; 1 ; J I J F F B кр и строится правосторонняя критическая область ; A кр F ; B кр F . Если A набл F < A кр F ( B набл F < B кр F ), то нулевая гипотеза не отвергается, и в этом случае говорят, что влияние фактора A (B) на признак Y не подтвердилось выборочными наблюдениями. Проверка гипотезы AB H 0 основывается на сравнении оценок 2 AB S и 2 z S . Для этого используется статистика 2 z 2 S S F AB B , имеющая F-распределение с 1 1 1 J I и 1 2 n IJ степенями свободы. По статистическим данным вычисляется наблюдаемое значение статистики AB набл F . Для заданного уровня значимости по F- рас- пределению находится критическая точка статистики AB кр F = ) 1 ( ; 1 1 ; n IJ J I F и строится правосторонняя критическая область ; AB кр F . Если AB набл F < AB кр F , то нулевая гипотеза не отвергается, и в этом случае говорят, что взаимное влияние факторов A и B на признак Y не подтвердилось выборочными наблюдениями. Двухфакторный дисперсионный анализ имеет две разновидности: без повторений (n = 1) и с повторениями (n 2). В первом случае каждому уровню фактора соответствует только одна выборка данных, во втором – определенным уровням факторов соответствует n выборок. При работе в Excel с целью проведения двухфакторного анализа без повторений (или с повторениями) используется Двухфакторный дисперсионный анализ без повторений (или Двухфакторный дисперсионный анализ с повторениями)из Анализа данных меню Сервис. После заполнения диалогового окна Двухфакторный дисперсионный анализ без повторений результат анализа появляется в виде двух таблиц. Формулы, по которым выполняются расчеты в Excel, представлены в таблицах 17 и 18 соответственно. Таблица 17. |