Краткий курс по методам математической статистики краткий курс методы математической статистики
Скачать 1.75 Mb.
|
Тема 13. Дисперсионный анализ (Часть 1) Глава 3. Методы проверки статистических гипотез. Дисперсионный и регрессионный анализы Дисперсионный анализ (Analysis Of Variance или сокращенно ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную. В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Таким образом, исходя из этого, при описании результатов ANOVA мы будем говорить о наличие зависимости между зависимой и независимой переменной. Основной целью ANOVA является исследование значимости различия между средними с помощью сравнения дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. Сравнивая компоненты дисперсии друг с другом посредством F-критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов. Исходя из вышесказанного, целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, то принимается гипотеза о существовании различия между средними. Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. Типичная схема эксперимента сводится к изучению влияния независимой переменной (одной или нескольких) на зависимую переменную. Обязательным условием ANOVA является то, чтоб зависимая переменная была представлена в шкале отношений, интервалов или порядка, а влияющие (независимые) переменные имели бы нечисловую природу (номинальная или категориальная шкала). Зависимая переменная www.statwork.net 34 рассматривается как изменяющаяся под влиянием независимых переменных. Независимая переменная представляет собой качественно определенный (номинальный) признак, имеющий две и более градаций. Каждой градации независимой переменной соответствует выборка объектов, для которых определены значения зависимой переменной. Выделяют однофакторный ANOVA, многофакторный ANOVA, ANOVA с повторными измерениями и многомерный ANOVA (или MANOVA). Эти варианты ANOVA мы рассмотрим в следующей теме. www.statwork.net 35 Тема 14. Дисперсионный анализ (Часть 2) Глава 3. Методы проверки статистических гипотез. Дисперсионный и регрессионный анализы Однофакторный ANOVA Этот вид дисперсионного анализа позволяет проверить гипотезу о существовании влияния изучаемого фактора на зависимую переменную. Математическая модель однофакторного ANOVA предполагает выделение в общей изменчивости зависимой переменной двух ее составляющих: межгрупповая составляющая изменчивости обусловлена различием средних значений под влиянием фактора; внутригрупповая составляющая изменчивости обусловлена влиянием неучтенных причин. Соотношение этих двух составляющих изменчивости и есть основной показатель, определяющий статистическую значимость влияния фактора. При выявлении уровня ошибки выше или равно 5% (т.е. р≥0,05), подтверждается гипотеза о равенстве средних значений. А при уровне ошибки меньше 5% (т.е. р<0,05) подтверждается гипотеза о различие по крайней мере двух средних значений. Ограничения метода: 1) дисперсии выборок должны быть однородны; для этого смотрят на результаты критерия Ливена, направленный на выявление однородности дисперсий (т.е. если при проведении теста Ливена p≥0,05, значит Вы можете смело применять для своих данных дисперсионный анализ); 2) формально численность выборок не должно быть меньше двух объектов. Альтернатива – сравнение независимых выборок по критерию H-Краскела-Уоллеса. Основным показателем для принятия решения является F-критерий Фишера и, конечно же, его уровень достоверности. Если Ваш фактор состоит из более 2-х градаций, то Вам необходимо дополнительно проводить множественные сравнения средних значений, чтобы можно было сделать вывод о том, как различаются друг от друга средние значения для разных градаций фактора. Это касается не только однофакторного ANOVA, но и других видов дисперсионного анализа, если Ваш фактор имеет более 2-х градаций. Одним из актуальных вопросов на этапе множественных сравнений становится выбор критерия. В программе Statistica представлены следующие методы: LSD (Least Significant Difference) www.statwork.net 36 Fisher, поправка Бонферрони, метод Шеффе, метод Tukey HSD (Honestly Significant Differences), метод HSD для неравных размеров выборок, метод Ньюмана-Кеулса, метод Дункана и Даннет. Здесь все зависит от Вас самих, какой метод множественного сравнения Вам использовать. Однако, необходимо отметить следующие моменты. Так, среди исследователей распространены методы Шеффе и LSD Фишера. Здесь необходимо учитывать то, что критерий Шеффе является грубым критерием и особенно пригоден в тех случаях, когда имеется подозрение о неравенстве дисперсий выборок между собой, а при использовании критерия LSD Фишера возникает вероятность ошибки первого рода (т.е. ложноположительный результат, выявление различий, даже если их нет). Та же ситуация с увеличением ошибки первого рода наблюдается и с использованием метода Tukey HSD. Метод Бонферрони работает, если число сравнений невелико, обычно не больше 8. При большем числе сравнений критерий Ньюмана-Кеулса и Тьюки дают более точную оценку вероятности альфа. Критерий Дункана, как и критерий Ньюмена-Кеулса, основан на статистике размаха. Соответственно, если Вы используете в анализе неравные выборки, тогда выбрать можно метод HSD для неравных размеров выборок. Многофакторный ANOVA Данный дисперсионный анализ предназначен для изучения влияния нескольких независимых факторов (переменных) на зависимую переменную. Отличительной особенностью многофакторного ANOVA от однофакторного является возможность оценить не только влияние каждой независимой переменной в отдельности, но и взаимодействие факторов – зависимость влияния одних факторов от уровней других факторов. Таким образом, в результате мы получаем влияние 1-ой независимой переменной, влияние 2-ой независимой переменной, …., взаимовлияние независимых переменных. При использовании многофакторного анализа порой получаются достаточно интересные результаты, которые невозможно было бы получить с помощью предыдущего дисперсионного анализа. Ограничениями метода выступают однородность дисперсий и выборки не должны заметно различаться по численности. Как правильно применять дисперсионный анализ на практике, Вы можете узнать из ВИДЕОКУРСА ПО СТАТИСТИКЕ «СРЕДНИЙ УРОВЕНЬ» www.statwork.net 37 Тема 15. Дисперсионный анализ (Часть 3) Глава 3. Методы проверки статистических гипотез. Дисперсионный и регрессионный анализы ANOVA с повторными измерениями Данный вид дисперсионного анализа используется, когда разным градациям фактора соответствует одна и та же выборка (зависимые выборки). С другой стороны, эти выборки можно рассматривать как независимые и применить обычный вариант ANOVA, но ANOVA с повторными измерениями имеет преимущество – он позволяет исключить из общей дисперсии данных ту ее часть, которая обусловлена индивидуальными различиями в уровне зависимой переменной, т.е. из остаточной внутригрупповой изменчивости вычитается компонент, обусловленный индивидуальными различиями. Это позволяет данному варианту дисперсионного анализа быть более чувствительным к влиянию изучаемых факторов, за счет уменьшения дисперсии ошибки факторной модели. Существует два типа моделей ANOVA с повторными измерениями: 1) Одномерная модель основана на предположении, что каждому уровню внутригруппового фактора соответствует повторное измерение одной и той же зависимой переменной (следовательно, эти изменения положительно коррелируют). Данный одномерный подход основан на применении F-отношений, но имеет ограничения по допущению о сферичности ковариационно-дисперсионной матрицы, т.е. дисперсии зависимой переменной для разных уровней внутригруппового фактора не различаются и корреляции между повторными измерениями есть и они положительны. Данное предположение проверяется с помощью теста сферичности ковариационно-дисперсионной матрицы Моучли. В программе Statistica если Вы не выберете зависимые переменные для проверки внутригрупповых эффектов, то Вам будет недоступна проверка на сферичность с помощью теста Моучли. 2) Многомерная модель свободна от допущения о коррелированности измерений зависимой переменной (т.е. о сферичности). В этом случае применяется не F-критерий, а многомерные тесты, такие как «След Пиллая» (Pillai's Trace) и «λ-Вилкса» (Wilks' Lambda). При использовании межгрупповых факторов дополнительно проверяется допущение об идентичности ковариационно-дисперсионных матриц, соответствующих разным уровням межгрупповых факторов. Для проверки идентичности используется в данном виде ANOVA используют М-тест Бокса (Box's M-test). www.statwork.net 38 Многомерный ANOVA (MANOVA) MANOVA применяется для изучения эффектов влияния факторов не на одну, а на несколько переменных (многомерную зависимую переменную). Таким образом, для каждого объекта имеются несколько зависимых переменных, которые подвергаются дисперсионному анализу. Итак, MANOVA позволяет проверить не только гипотезы о влиянии факторов на каждую зависимую переменную в отдельности, но и гипотезу о влиянии факторов на всю совокупность зависимых переменных, как на одну многомерную переменную, или как я ее называю модель. MANOVA может применяться как альтернатива ANOVA с повторными измерениями в случае, если не выполняется ее основное допущение о сферичности ковариационно-дисперсионной матрицы. Однако следует учитывать, что MANOVA является менее мощной, но более сложной процедурой, особенно для выборок небольшой численности. Допущения у MANOVA такие же, как и у других видов ANOVA: 1) допущение о нормальном распределении зависимых переменных – не проверяется, так как MANOVA также как и остальные виды ANOVA устойчив к отклонениям от нормального вида; 2) равенство ковариационно-дисперсионных матриц – как и для ANOVA с повторными измерениями используется М-тест Бокса (Box's M-Test). 3) дополнительно для одномерного этапа необходимо выполнение допущения об однородности дисперсий – проверяется с помощью критерия Ливена (Levene's Test). 4) также дополнительно необходимо выполнение допущения о коррелированности зависимых переменных – для этого применяется тест сферичности остатков ковариационной матрицы Бартлета (Bartlett's Test of Sphericity). Основными показателями MANOVA являются: - многомерные критерии – след Пиллая, λ-Вилкса, след Хотеллинга и критерий Роя (или наибольший корень Роя); - одномерные критерии – F-отношения для проверки гипотез о влиянии факторов и их взаимодействий на каждую из зависимых переменных в отдельности. www.statwork.net 39 Тема 16. Регрессионный анализ. Простая линейная регрессия. Глава 3. Методы проверки статистических гипотез. Дисперсионный и регрессионный анализы Регрессионный анализ – статистический метод исследования зависимости между зависимой переменной и одной или несколькими независимыми переменными. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные – критериальными. Существую различные виды регрессионного анализа – одномерная и многомерная, линейная и нелинейная, параметрическая и непараметрическая. Для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия. Порядковую регрессию можно использовать, когда зависимые переменные относятся к порядковой шкале. И, конечно же, можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии. В данном курсе рассмотрим линейные модели простую и множественную регрессию. Простая линейная регрессия. Простой регрессионный анализ предназначен для выявления взаимосвязи одной зависимой переменной и одной независимой переменной. Аналогом простой регрессии является однофакторный ANOVA при условии, что независимая переменная будет измерена в номинальной шкале. Основные требования к простому регрессионному анализу: - переменные должны быть измерены в шкале интервалов или отношений; - предположительно нормальное распределение переменных; www.statwork.net 40 - отсутствие линейных взаимосвязей между переменными, когда одна переменная является линейной производной другой переменной; исходя из этого, следует избегать включения в анализ переменных, корреляции между которыми больше 0,8. - число варьирующих признаков в сравниваемых переменных должно быть одинаковым. Основными показателями простого регрессионного анализа являются: β-коэффициенты (Beta) – стандартизированные коэффициенты регрессии, знак которых соответствует знаку корреляции независимой и зависимой переменной; B – коэффициенты регрессии; R – коэффициент множественной корреляции; R 2 – коэффициент множественной детерминации (чем он выше, тем больше процентов дисперсии зависимой переменной объясняет данная модель); F – критерий Фишера и его достоверность; В простом линейном регрессионном анализе квадратный корень из коэффициента детерминации, обозначаемый "R", равен корреляционному коэффициенту Пирсона. При множественном анализе эта величина менее наглядна, нежели сам коэффициент детерминации. Величина "смещенный R-квадрат" всегда меньше, чем несмещенный. Принципиальный вопрос о том, может ли вообще имеющаяся связь между переменными рассматриваться как линейная, проще и нагляднее всего решать, глядя на соответствующую диаграмму рассеяния. Кроме того, в пользу гипотезы о линейной связи говорит также высокий уровень дисперсии, описываемой уравнением регрессии. www.statwork.net 41 Тема 17. Регрессионный анализ. Множественная линейная регрессия. Глава 3. Методы проверки статистических гипотез. Дисперсионный и регрессионный анализы Множественная регрессия состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Во множественной линейной регрессии предпосылки регрессионного анализа и его проведение полностью совпадают с простой линейной регрессией. Особенностью множественной регрессии является корреляция независимых переменных. Для множественного анализа с несколькими независимыми переменными не рекомендуется оставлять метод включения всех переменных, установленный по умолчанию. Этот метод соответствует одновременной обработке всех независимых переменных, выбранных для анализа, и поэтому он может рекомендоваться для использования только в случае простого анализа с одной независимой переменной. Основные требования и показатели множественного регрессионного анализа такие же, как и для простой регрессии. Кратко напомню. Требования - отсутствие линейных взаимосвязей между переменными, переменные должны быть измерены в шкале интервалов или отношений и предположительно должны иметь нормальное распределение. Показатели - стандартизированные коэффициенты регрессии, коэффициенты регрессии, коэффициент множественной корреляции, коэффициент множественной детерминации, критерий Фишера и его достоверность. Желательно отбирать для множественного регрессионного анализа те независимые переменные, которые сильно коррелируют с зависимой переменной, в то же время, они должны слабо коррелировать друг с другом. Если независимых переменных много, то целесообразно перед множественным регрессионным анализом провести факторный анализ (направлен на редукцию данных). Существует 3 вида методов множественной регрессии. Стандартный метод – учитывает все зависимые переменные. Пошаговые методы (прямой и обратный) позволяют подобрать наиболее оптимальную комбинацию независимых переменных. Поэтому, на мой взгляд, для множественного анализа следует выбрать один из пошаговых методов. www.statwork.net 42 При прямом методе независимые переменные, которые имеют наибольшие коэффициенты частичной корреляции с зависимой переменной пошагово увязываются в регрессионное уравнение. При обратном методе начинают с результата, содержащего все независимые переменные и затем исключают независимые переменные с наименьшими частичными корреляционными коэффициентами, пока соответствующий регрессионный коэффициент не оказывается незначимым. Необходимо отметить, что разные варианты пошагового метода могут давать разные результаты, поэтому Вы можете применить каждый из них, а потом выбрать более подходящий конечный результат. Множественный регрессионный анализ может применяться как в исследовательских целях, так и для решения прикладных задач. Обычно множественная регрессия применяется для изучения возможности предсказания некоторого результата по ряду предварительно измеренных характеристик. Также помимо предсказания и определения степени его точности множественная регрессия позволяет определить и то, какие показатели, или независимые переменные, наиболее существенны и важны для предсказания, а какие переменные можно просто исключить из анализа. Аналогом множественной регрессии является многофакторный дисперсионный анализ в том случае, когда независимые переменные измерены в номинальной шкале. К тому же, если зависимая переменная измерена в номинальной шкале, то стоит воспользоваться вторым аналогом множественной регрессии – дискриминантным анализом. Однако, дискриминантный анализ это не просто аналог множественной регрессии, он выполняет не только функцию поиска предикторов, но еще и позволяет оптимально точно классифицировать объекты на группы, соответствующие разным градациям зависимой переменной, предсказать с какой точностью были разделены объекты исследователем (например, исследователем были выделены группы испытуемых с высокой, средней и низкой ответственностью), а также научить данный метод самостоятельно классифицировать последующие объекты по выявленной модели переменных. Поэтому дискриминантный анализ еще называется классификационный анализ с обучением. В своем видеокурсе по статистике «ПРОДВИНУТЫЙ УРОВЕНЬ» я показываю, как можно научить дискриминантный анализ, чтобы он потом самостоятельно классифицировал ваши данные на основе уже подобранной Вами модели переменных. Возвратимся к множественной регрессии. Основными целями множественного линейного регрессионного анализа являются: 1) Определение того, в какой мере зависимая переменная связана с совокупностью независимых переменных и, какова статистическая значимость этой взаимосвязи. Рассматриваемые показатели – коэффициент множественной корреляции и его статистическая значимость по критерию F (Фишера). www.statwork.net 43 2) Определение существенности вклада каждой независимой переменной в оценку зависимой переменной, отсев несущественных для предсказания независимых переменных. Рассматриваемые показатели – регрессионные β-коэффициенты и их статистическая значимость по t-критерию Стьюдента. 3) Анализ точности предсказания и вероятных ошибок оценки зависимой переменной. Рассматриваемые показатели – коэффициент множественной детерминации. В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в исследованиях. В общем, множественная регрессия позволяет исследователю задать вопрос о том, «что является лучшим предиктором для...». Например, исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими предикторами успешной учебы в средней школе. А психолога мог быть заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида. На этом наш курс закончен. Надеюсь, получить Ваш отзыв был ли данный курс полезным и интересным, а так же как его можно улучшить и что бы Вы хотели узнать дополнительно. Желаю Вам успеха в статистике и не только! Ирина Горбачева Кандидат психологических наук |