Миниобранауки россии
Скачать 1.37 Mb.
|
6. Проверка гипотезы о равенстве средних величин при неизвестной дисперсииДля проверки гипотезы о равенстве средних (математических ожиданий) двух независимых нормальных распределений с неизвестными дисперсиями и используется t-тест Относительно дисперсий и можно выдвинуть следующие два предположения: 1) Обе дисперсии неизвестны, но предполагается, что они равны между собой, т.е. = . 2) Обе дисперсии неизвестны и предполагается, что они не равны между собой, т.е. ≠ . В случае, когда обе дисперсии неизвестны, но предполагается что они равны между собой, мы имеем дело с двумя оценками и одной и той же дисперсии = . То в этом случае строится объединённая оценка: гдеS2 – это объединённая оценка дисперсии = = . В математической статистике доказывается, что если нулевая гипотеза о равенстве математических ожиданий H0: mx=myвыполняется, то величина tвычисляется по формуле: где и – средние арифметические величины, n1 – число наблюдений в первой выборке, n2 – число наблюдений во второй выборке, S – выборочное стандартное отклонение. Статистика tимеет распределение Стьюдента. Число степеней свободы определяется по формуле: Эту t-статистику и используют в качестве критерия при проверке нулевой гипотезы о равенстве математических ожиданий. Схема проверки аналогична проверке при использовании Z-теста. В случае, когда дисперсии неизвестны и предполагается, что они не равны, используется аналог Z-теста с заменой дисперсий их оценками. - это распределение близко к распределению Стьюдента. Число степеней свободы вычисляется по следующей формуле: В данном случае t-статистику, используемую для проверки нулевой гипотезы о равенстве средних величин при различных неизвестных дисперсиях, называют критерием Фишера-Беренса. Задание: Требуется для вашего варианта проверить гипотезу H0: mx=my, предположив, что соответствующие генеральные совокупности имеют нормальное распределение с одинаковыми дисперсиями; с различными дисперсиями. 7. Однофакторный дисперсионный анализ Ранее нами были рассмотрены процедуры для оценки значимости различий между средними значениями двух выборок. Однако часто необходимо сравнивать средние значения трёх и более числа выборок. В случае, когда необходимо сравнить средние значения большого числа выборок, используется метод дисперсионного анализа (ANOVA – Analysis of Variance), который устанавливает влияние отдельных факторов на изменчивость какого – либо признака, значения которого могут быть получены опытным путем в виде случайной величины Y. В зависимости от числа факторов, различают однофакторный и многофакторный дисперсионный анализ. Однофакторный дисперсионный анализ Величину Y называют результативным признаком, а конкретную реализацию фактора A – уровнем (группой) фактора A или способом обработки и обозначают через A(i) . Всего имеется c уровней фактора A. Обозначим их А(1),А(2),…,А(с) . Задачу однофакторного дисперсионного анализа можно продемонстрировать на следующем примере. Пример Необходимо определить существует ли разница между прочностью парашютов, сотканных из синтетических волокон разных поставщиков. Результаты эксперимента (сила разрыва) приведены в таблице . Таблица 2
. Пусть m1, m2,…, mс –математические ожидания результативного признака Υ при соответствующих уровнях фактора А. В данном примере результативный признак Υ- сила разрыва, уровни фактора А – группы поставщиков. Если при изменении уровня фактора групповые математические ожидания не изменяются, т.е. выполняется условие равенства мат.ожиданий : H0: m1=m2=…=mсто считается, что результативный признак не зависит от фактора А. В противном случае такая зависимость имеется (H1: не все мат.ожидания равны). Поскольку мат.ожидания не известны, необходимо подтвердить гипотезу об их равенстве на основе выборочных данных. Эту гипотезу Н0: m1 = m2=…= mс можно подтвердить с помощью F – критерия Фишера, если выполняются следующие условия: наблюдения должны быть случайными, независимы и проводиться в одинаковых условиях. экспериментальные данные должны иметь нормальный закон распределения их дисперсии должны быть одинаковыми. Если эти условия выполняются, то можно приступать непосредственно к процедуре дисперсионного анализа, т.е. к проверке гипотезы о равенстве средних величин: Н0: m1 = m2=…= mс Проверить эту гипотезу можно, изучая вариации отдельных значений признака. Общая изменчивость значений признака может быть вызвана как изменчивостью значений признака между различными группами (межгрупповая вариация), так и изменчивостью значений признака внутри группы (внутригрупповая вариация). Для измерения степени вариации используется показатель – сумма квадратов отклонений. Общая (полная) вариация определяется полной суммой квадратов отклонений. где - общее среднее. . - среднее значение в j –ой группе Межгрупповая вариация, вызванная влиянием фактора A на X определяется по формуле , Внутригрупповая вариация определяется равенством В общем случае выполняется равенство , т.е. полная вариация значений признаков определяется суммой межгрупповой и внутригрупповой вариации. Для проверки гипотезы о равенстве средних величин используется F-критерий Фишера, статистика которого определяется отношением. Статистика F-критерия подчиняется распределению Фишера с числом степеней свободы , где n – общее число наблюдений, c - число уровней фактора A. Показатель MS определяется как сумма квадратов отклонения, приходящаяся на одну степень свободы. , , где SSA – сумма квадратов отклонения, вызванная влиянием фактора A на X, а SSвн - сумма квадратов отклонения, вызванная влиянием остаточных факторов на Y. Для проверки гипотезы определяется правосторонняя критическая область, т.е. вычисляется Fкрпри уровне значимости (см. функцию Excel F.ОБР.ПХ) и проверяется попадание рассчитанного значения Fрасч – статистики в интервал (Fкр;+∞). Если попадает, то гипотеза отклоняется, в противном случае принимается. Прежде чем использовать F – критерий Фишера необходимо установить на основе имеющихся выборочных данных, являются ли генеральные дисперсии результативного признака при различных условиях фактора одинаковыми или нет. Проверяется гипотеза H0:σ1=σ2=σ3…=σ против гипотезы Н1: не все дисперсии одинаковы. Для проверки равенства трёх или более дисперсий используется критерий Бартлетта w. , где q вычисляется по формуле: где с –число уровней фактора А; n1, …,nj, …, nс -число наблюдений для 1,…, j,…, с-ого уровня фактора А. - внутригрупповая дисперсия, соответствующая j-ому уровню фактора А. - среднее арифметическое значение результирующего показателя (признака) при j-ом уровне фактора А. , При выполнении гипотезы о равенстве дисперсии Н0: = =…= критерий имеет распределение χ2 (хи – квадрат) с числом степеней свободы . Для проверки гипотезы при заданном уровне значимости находится правосторонняя критическая точка wкр., которая определяет область отклонения - интервал (wкр;+∞). Если рассчитанное значение w попадает в эту область, то мы отклоняем гипотезу при уровне значимости . В противном случае гипотеза принимается. Более мощным является модифицированный критерий Левенэ. Вычисляются абсолютные величины разностей между наблюдениями и медианами в каждой группе (см. пример). Результат представлен в таблице 3. таблица 3.
Выполняется однофакторный дисперсионный анализ полученных значений абсолютных разностей таблица 4
Поскольку Fрасч = 0,2067 < 3,2388, нулевая гипотеза о равенстве дисперсий не отклоняется. Между дисперсиями внутри каждой группы существенной разницы нет, т. е. условие об однородности данных выполняется . Для проведения однофакторного дисперсионного анализа существует инструмент в пакете анализа Excel, который так и называется « Однофакторный дисперсионный анализ». Здесь задаются следующие параметры: входной интервал (вводится вся таблица с исходными данными); вид группирования (по столбцам/ по строкам); метки; поле ; указать выходной интервал Результаты анализа для примера (табл.5), приведенного выше, выведены в таблицу Таблица 5
Поскольку Fрасч = 3,4616 При обнаружении значительных различий между математическими ожиданиями необходимо определить, какие именно группы отличаются друг от друга. Для этого используется процедура множественного сравнения Тьюки – Крамера, описанная ниже. Вычисляются разности , где i ≠ j – номера групп, между средними значениями c(c – 1) групп; Вычисляется критический размах процедуры Тьюки – Крамера по формуле где Qu –верхнее критическое значение распределения стьюдентизированного размаха, имеющего c степеней свободы в числителе df1 = c и df2 = n степеней свободы в знаменателе, n-общее число наблюдений, n1 и n2 число наблюдений в i-ой и j-ой группах соответственно. Каждая из c(c – 1)/2 пар разностей математических ожиданий сравнивается с рассчитанным критическим размахом. Элементы пары считаются значительно различными, если модуль разности между ними превышает критический размах. Результаты расчетов приведены ниже.
Таблица стьюдентизованного распределения Qu κ=df1, ν=df2. ЗАДАНИЕ Сгенерировать 4 нормально распределенные переменные. Первые 3 переменные генерируется в соответствии с Вашим вариантом. При генерации четвертой переменной математическое ожидание увеличивается на 2, а стандартное отклонение не изменяется Используя модифицированный критерий Левенэ проверить гипотезу о равенстве дисперсий. . Используя инструмент анализа « Однофакторный дисперсионный анализ» проверить гипотезу о равенстве математических ожиданий. При обнаружении значительных различий между математическими ожиданиями необходимо определить, какие именно группы отличаются друг от друга, используя процедуру множественного сравнения Тьюки – Крамера |