Лекция статистика. Лекция № 3. В зависимости от типа и количества переменных различают
Скачать 1 Mb.
|
ЛЕКЦИЯ № 3 Постановка задачи дисперсионного анализа Дисперсионный анализ – метод в математической статистике (от латинского Dispersio – рассеивание, на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных на одну зависимую количественную переменную (отклик). Проверка статистических гипотез о существенности различий между двумя средними на практике имеет ограниченное применение. Это связано с тем, что для выявления действия всех возможных условий и факторов на результативный признак, проводят исследования с использованием не двух, а большего числа выборок. Идея дисперсионного анализа, как и сам термин «дисперсия», принадлежит английскому статистику Р. Фишеру. Метод был разработан в 1920-х годах и используется для определения степени влияния на изучаемый показатель некоторых факторов, в том числе и не поддающихся количественному измерению (достаточно, чтобы его можно было измерить хотя бы в шкале наименований). В зависимости от типа и количества переменных различают: • однофакторный и многофакторный дисперсионный анализ (одна или несколько независимых переменных); • одномерный и многомерный дисперсионный анализ (одна или несколько зависимых переменных); • дисперсионный анализ с повторными измерениями (для зависимых выборок); • дисперсионный анализ с постоянными факторами, случайными факторами, и смешанные модели с факторами обоих типов. Исходными положениями дисперсионного анализа являются • нормальное распределение значений изучаемого признака в генеральной совокупности; • равенство дисперсий в сравниваемых генеральных совокупностях; • случайный и независимый характер выборки. Нулевой гипотезой в дисперсионном анализе является утверждение о равенстве средних значений. Однофакторный дисперсионный анализ. Постановка задачи Такие задачи часто встречаются на практике. Типичный пример – сравнение эффективности нескольких различных способов действия, направленных на достижение одной цели (например, оценка эффективности работы компании при взаимодействии с различными поставщиками, результативности обучения на основании различных методик, зависимость успеха продвижения товара при использовании различных маркетинговых подходов). В пакетах прикладных программ часто конкретную реализацию фактора называют уровнем фактора или способом обработки, а значения измеряемого признака (то есть величину результата) – откликом. Сущность дисперсионного анализа заключается в разложении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Формулировка гипотез в дисперсионном анализе Нулевая гипотеза: Средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы. Альтернативная гипотеза: Средние величины результативного признака в разных условиях действия фактора различны. Полученное значение F-критерия сравнивается с табличным значением F табл -критерия. Если F табл ‹ F факт, то гипотеза Н 0 о равенстве выборочных дисперсий генеральной дисперсии отклоняется, признается существенным, статистически значимым влияние признака-фактора на результативный признак. Алгоритм реализации дисперсионного анализа Алгоритм основан на сравнении величин дисперсий, порожденных влиянием внешнего фактора (систематическая, или межгрупповая дисперсия) и дисперсии выборки, освобожденной от воздействия внешнего фактора (остаточная, или внутригрупповая дисперсия). Систематическая дисперсия определяется как дисперсия между средними каждой из k групп, соответствующих различным уровням фактора. Эта дисперсия характеризует степень разброса усредненных по группам значений, ее величина зависит лишь от степени влияния фактора на изменение случайной величины. Остаточная дисперсия определяется как совокупная внутригрупповая дисперсия, причем в каждой группе наблюдаемые значения варьируются относительно своей групповой средней. Вычисление этой дисперсии исключает влияние рассматриваемого фактора, ее величина определяется лишь погрешностью измерений и влиянием других, неучтенных факторов. Предположим, что анализируется влияние на случайную величину X фактора A, изучаемого на k уровнях (A 1 , A 2 ,…, A k ). На каждом уровне A i проведены n наблюдений (x i1 , x i2 ,…,x in ) случайной величины X. Расположим экспериментальные данные в виде таблицы Результаты промежуточных расчетов однофакторного дисперсионного анализа Сумма всех, за исключением нижнего, элементов последнего справа столбца определит остаточную вариацию Q. Систематическая вариация может быть получена также на основании Q A = Q –Q R Фактически метод состоит в сопоставлении каждой из полученных и возведенных в квадрат сумм с суммой квадратов всех значений, полученных во всем эксперименте. Графическое представление метода На рисунке схематически представлены три градации какого-либо фактора. Дисперсионный анализ позволяет определить, что преобладает: влияние фактора или случайная вариативность внутри групп (тенденция, выраженная кривой или размах отрезков, ограниченных кружками)? Пример. Предположим, что в педагогическом эксперименте участвовали три группы студентов по 10 человек в каждой. В группах применили различные методы обучения: в первой – традиционный (F 1 ), во второй – основанный на компьютерных технологиях (F 2 ), в третьей – метод, широко использующий задания для самостоятельной работы (F 3 ). Знания оценивались по десятибалльной системе. Требуется обработать полученные данные об экзаменах и сделать заключение о том, значимо ли влияние метода преподавания, приняв за уровень значимости α=0,05. Результаты экзаменов заданы таблицей, F j – уровень фактора x ij – оценка i-го учащегося обучающегося по методике F j Многофакторный дисперсионный анализ Однофакторная модель может оказаться незначимой, если влияние фактора A, определяемое F- отношением, является несущественным на фоне большого внутригруппового разброса (остаточная вариация). Этот разброс может быть вызванне только случайными причинами, но также действием еще одного «мешающего» фактора В. В этой ситуации фактор B дополнительно включается в модель (двухфакторный дисперсионный анализ), чтобы попытаться уменьшить действие неучтенных факторов и повысить влияние на отклик закономерных причин. Аналогично возникает необходимость рассмотрения трех- и многофакторных моделей. Соответственно, в процессе дисперсионного анализа варьируется не один, а несколько факторов. При полном многофакторном дисперсионном анализе отклик наблюдается для каждого сочетания уровней изучаемых факторов. Рассмотрим матрицу наблюдений двухфакторного анализа. Главный фактор – фактор A, к примеру, влияние настройки станка; дополнительный фактор – фактор B, например, влияние качества сырья. Фактор А принимает п, а фактор В – т различных значений, т.е. п – число станков, т – число партий сырья. Уровни фактора A (способы обработки) – отображаются в таблице по столбцам, а уровни фактора B (блоки) – по строкам Базовая таблица двухфакторного дисперсионного анализа Для проверки нулевой гипотезы дисперсия по фактору А сравнивается с остаточной дисперсией. С этой целью вычисляется F-статистика имеющее F-распределение с n-1, (n-1)(m-1) степенями свободы. Аналогично проверяется гипотеза об отсутствии влияния фактора В. Контрольные вопросы 1. Доказать основное тождество однофакторного дисперсионного анализа. 2. Почему для проверки нулевых гипотез в дисперсионном анализе используется отношение дисперсий? 3. С помощью графика функции распределения Фишера пояснить, в каких случаях принимается, а в каких отвергается нулевая гипотеза. 4. Какие предположения о случайной величине Х используются в диспер- сионном анализе? 5. Какие гипотезы проверяются в двухфакторном дисперсионном анализе? 6. Как вычислить остаточную сумму квадратов в трехфакторном дисперсии- онном анализе? 7. Как вычисляется статистика Фишера при проверке гипотезы о влиянии фактора А? Взаимодействия факторов АВ? Общего взаимодействия трех факторов АВС? 8. От чего зависит критическое значение статистики Фишера? |