бшьгнтеим. Лекция 7 Статистические критерии различий (с доп). Статистические методы в психологииСтатистические критерии различий институт психологии бгпу имени Максима Танка
Скачать 1.84 Mb.
|
ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Статистические методы в психологии Статистические критерии различий ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Статистические критерии различий Одной из наиболее часто встречающихся статистических задач, с которыми сталкивается психолог, является задача сравнения результатов обследования какого-либо психологического признака в разных условиях измерения (например, дои после определенного воздействия) или обследования контрольной и экспериментальной групп. Помимо этого нередко возникает необходимость оценить характер изменения того или иного психологического показателя водной или нескольких группах в разные периоды времени или выявить динамику изменения этого показателя под влиянием экспериментальных воздействий. Для решения подобных задач используется достаточно большой набор статистических способов, называемых в наиболее общем виде критериями различий. Эти критерии позволяют оценить степень статистической достоверности различий между разнообразными показателями, измеренными согласно плану проведения психологического исследования ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Существует достаточно большое количество критериев различий. Каждый из них имеет свою специфику, различаясь между собой по различным основаниям. Одним из таких оснований является тип измерительной шкалы, для которой предназначен тот или иной критерий. Критерии различаются также по максимальному объему выборки, который они могут охватить, а также и по количеству выборок, которые можно сравнивать между собой сих помощью. Так, существуют критерии, позволяющие оценить различия сразу в трех и большем числе выборок. Некоторые критерии позволяют сопоставлять неравные по численности выборки. Еще одним признаком, дифференцирующим критерии, служит само качество выборки она может быть связной (зависимой) или несвязной (независимой. Выборки также могут быть взяты из одной или нескольких генеральных совокупностей. Именно эта характеристика выборки служит наиболее важным основанием, по которому прежде всего выбираются критерии. Кроме того, критерии различаются по мощности. Мощность критерия — это его способность выявлять различия или отклонять нулевую гипотезу, если она неверна. Все критерии различий условно подразделены на две группы параметрические и непараметрические критерии. Критерий различия называют параметрическим, если он основан на конкретном типе распределения генеральной совокупности (как правило, нормальном) или использует параметры этой совокупности (средние, дисперсии и т.д.). Критерий различия называют непараметрическим, если он не базируется на предположении о типе распределения генеральной совокупности и не использует параметры этой совокупности. При нормальном распределении генеральной совокупности параметрические критерии обладают большей мощностью по сравнению с непараметрическими. С другой стороны, при оценке различий в распределениях, далеких от нормального, непараметрические критерии могут выявить значимые различия, в то время как параметрические критерии таких различий не обнаружат. Статистические критерии различий общая характеристика ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Рекомендации по выбору критерия различий Прежде всего, следует определить, является ли выборка связной зависимой) или несвязной (независимой Следует определить однородность — неоднородность выборки Затем следует оценить объем выборки и, зная ограничения каждого критерия по объему, выбрать соответствующий критерий При этом целесообразнее всего начинать работу с выбора наименее трудоемкого критерия Если используемый критерий не выявил различия — следует применить более мощный, но одновременно и более трудоемкий критерий Если в распоряжении психолога имеется несколько критериев, то следует выбирать те из них, которые наиболее полно используют информацию, содержащуюся в полученных данных При малом объеме выборки следует увеличивать величину уровня значимости (не менее 1%), так как небольшая выборка и низкий уровень значимости приводят к увеличению вероятности принятия ошибочных решений ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Непараметрические критерии для связных выборок. Критерий знаков Один из наиболее простых критериев различия — критерий знаков G. Этот критерий относится к непараметрическими применяется только для связанных (зависимых) выборок. Он дает возможность установить, насколько однонаправленно изменяются значения признака при повторном измерении связанной, однородной выборки. Критерий знаков применяется к данным, полученным в ранговой, интервальной и шкале отношений. Пример. Психолог проводит групповой тренинг. Его задача — выяснить будет ли эффективен данный конкретный вариант тренинга для снижения уровня тревожности участников? Для решения этой задачи психолог с помощью теста Тейлора дважды выявляет уровень тревожности у 14 участников дои после проведения тренинга. Результаты измерения приведены в таблице ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Критерий знаков В столбце, обозначенном словом Сдвиг, для каждого участника отдельно определяют, насколько изменился его уровень тревожности после проведения тренинга. Сдвиг — это величина разности между уровнями тревожности одного итого же участника после и до тренинга. Ноне наоборот Величины сдвигов обязательно должны быть даны в соответствующем столбце таблице с учетом знаков. В критерии знаков по результатам, полученным в столбце таблицы, обозначенном словом Сдвиг, подсчитываются суммы нулевых, положительных и отрицательных сдвигов. При использовании критерия знаков необходимо учитывать только сумму положительных и отрицательных сдвигов, а сумму нулевых — отбрасывать. Проведем необходимый подсчет для нашей задачи: общее число (сумма) нулевых сдвигов = общее число (сумма) положительных сдвигов = общее число (сумма) отрицательных сдвигов = Таким образом, отбросив нулевые сдвиги, получаем 13 ненулевых сдвигов. При этом подсчет показал, что сдвиги имели место и что большая часть из них положительна испытуемых п/п Уровень тревожности до тренинга Уровень тревожности после тренинга Сдвиг 1 30 34 + 4 2 39 39 0 3 35 26 - 9 4 34 33 - 1 5 40 34 -6 6 35 40 + 5 7 22 25 + 3 8 22 23 + 1 9 32 33 + 1 10 23 24 + 1 11 16 15 -1 12 34 27 - 7 13 33 35 + 2 14 34 37 + 3 ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Критерий знаков Анализируя соотношение положительных и отрицательных сдвигов, решаем вопрос можно ли утверждать, что после проведения тренинга наблюдается достоверный сдвиг в сторону уменьшения уровня тревожности участников? Для решения этого вопроса введем два обозначения. Первое — сумма сдвигов, получившаяся наибольшей носит название типичного сдвига и обозначается буквой п. Типичный сдвиг используется при работе с таблицей, в которой приводятся критические величины 5% и 1% уровней значимости данного критерия. Второе — сумма сдвигов, получившаяся наименьшей, носит название — нетипичного сдвига и обозначается как — G эмп .Эта величина (G эмп ) располагается на оси значимости. В нашем случае G эмп = 5. В целом типичный и нетипичный сдвиги рассматриваются как дополнительные друг к другу. В том случае, когда величины типичного и нетипичного сдвигов оказываются равными, критерий знаков неприменим. Оценка статистической достоверности различий по критерию знаков производится по таблице критических значений. В ней в столбце, обозначенным буквой п приведены величины типичных сдвигов, а в столбцах, имеющих обозначение, соответствующее уровнями значимости Р и Р, — так называемые критические величины. Условно их также можно считать нетипичными сдвигами. Они обозначаются как G кр и сними сравнивается полученное значение нетипичного сдвига G эмп . Оцениваем уровень достоверности различий. Поскольку в нашем примере п = 8, (это число типичных сдвигов, нужный участок таблицы выглядит так: либо можно записать так G кр = Эта запись означает, что при уровне значимости в 5%, сумма нетипичных сдвигов не должна превышать 1, а при уровне значимости в 1% — В нашем случае G эмп = 5, что существенно больше Р 05 , 0 ; 1 2 1 P Р G G кр кр ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Критерий знаков Использование оси значимости позволяет отчетливо видеть, что G эмп попало в зону незначимости, те. полученный в исследовании общий положительный сдвиг, который соответствует увеличению уровня тревожности испытуемых после проведения тренинга, статистически недостоверен. Иначе говоря, данный способ воздействия не привел к существенным изменениям в уровне тревожности испытуемых. Следует иметь ввиду, что в критерии знаков ось значимости образно говоря, перевернута. Нуль располагается не как обычно (на числовой оси слева, а справа и увеличение числового ряда идет в противоположную сторону, те. справа налево. Последнее связано стем, что чем больше количество нетипичных сдвигов, тем меньше вероятность того, что суммарный сдвиг окажется статистически достоверен. Для применения критерия G необходимо соблюдать следующие условия: 1. Измерение может быть проведено в шкале порядка, интервалов и отношений. 2. Выборка должна быть однородной и связной. 3. Число элементов в сравниваемых выборках должно быть равным критерий знаков может применяться при величине типичного сдвига от 5 дона большую величину не рассчитана таблица достоверности). 5. При большом числе сравниваемых парных значений критерий знаков достаточно эффективен. 6. При равенстве типичных и нетипичных сдвигов критерий знаков неприменим, следует использовать другие критерии ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Непараметрические критерии для связных выборок. Парный критерий Т – Вилкоксона Для решения задач, в которых осуществляется сравнение двух рядов чисел, кроме критерия знаков G можно использовать парный критерий Т – Вилкоксона. Этот критерий является более мощным, чем критерий знаков, и применяется для оценки различий эмпирических данных, полученных в двух разных условиях на одной и той же выборке испытуемых. Он позволяет выявить не только направленность изменений, но и их выраженность, те. он позволяет установить, насколько сдвиг показателей в каком-то одном направлении является более интенсивным, чем в другом. Критерий Т основан на ранжировании абсолютных величин разности между двумя рядами выборочных значений в первом и втором измерении (например, дои после какого- либо воздействия. Ранжирование абсолютных величин означает, что знаки разностей не учитываются, однако в дальнейшем наряду с общей суммой рангов находится отдельно сумма рангов как для положительных, таки для отрицательных сдвигов. Если интенсивность сдвига водном из направлений оказывается большей, то и соответствующая сумма рангов также оказывается больше. Этот сдвиг, как ив случае критерия знаков, называется типичным, а противоположный, меньший по сумме рангов сдвиг – нетипичным. Как и для критерия знаков эти два сдвига оказываются дополнительными друг к другу. Критерий Т – Вилкоксона базируется на величине нетипичного сдвига, который называется в дальнейшем Т эмп ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Критерий Т – Вилкоксона Пример. Проверяется гипотеза о различии значений показателя, измеренного дважды на одной и той же выборке. Задача состоит в том, чтобы определить, будет ли улучшаться результат после воздействия Результаты измерения приведены в таблице. Решение. Обработка данных по критерию Т – Вилкоксона осуществляется следующим образом. 1. В четвертый столбец таблицы вносятся величины сдвигов с учетом знака (вычисляется разность d i ). Их вычисляют путем вычитания из чисел третьего столбца соответствующих чисел второго столбца (те. после - «до»). 2. В пятом столбце в соответствие каждому значению сдвига ставят его абсолютную величину (модуль). 3. В шестом столбце ранжируют абсолютные НЕНУЛЕВЫЕ величины сдвигов, представленных в пятом столбце. Нулевые сдвиги из рассмотрения исключаются, и количество наблюдений n (см. п) уменьшается на количество этих нулевых сдвигов. 4. Указываются ранги положительных (седьмой столбец) и отрицательных разностей (восьмой столбец исп. п/п Результат до Результат после Сдвиг с учетом знака (разность Абсолютные величины сдвига Ранги абсолютных величин разностей Ранги d Ранги d i (-) 1 4 7 3 3 6,5 6,5 0 2 6 8 2 2 4 4 0 3 3 5 2 2 4 4 0 4 6 5 -1 1 1,5 0 1,5 5 7 7 0 0 0 0 6 2 4 2 2 4 4 0 7 1 4 3 3 6,5 6,5 0 8 3 4 1 1 1,5 1,5 Сумма 1,5 Т эмп ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Критерий Т – Вилкоксона 5. Далее подсчитываются суммы рангов отдельно для положительных (седьмой столбец) и отрицательных разностей восьмой столбец. Соответственно, Т и Т. За эмпирическое значение критерия принимается меньшая сумма Т эмп =1,5. 6. По таблице определяются критические значения Т для n = 7, где n = число испытуемых/наблюдений – число нулевых сдвигов (либо сумма ненулевых сдвигов). Для самопроверки можно воспользоваться ссылкой https://www.psychol-ok.ru/statistics/wilcoxon/ или Т кр = 01 , 0 ; 0 05 , 0 ; 3 2 1 P Р Т Т кр кр № исп. п/п Результат до Результат после Сдвиг с учетом знака (разность Абсолютные величины сдвига Ранги абсолютных величин разностей Ранги d Ранги d i (-) 1 4 7 3 3 6,5 6,5 0 2 6 8 2 2 4 4 0 3 3 5 2 2 4 4 0 4 6 5 -1 1 1,5 0 1,5 5 7 7 0 0 0 0 6 2 4 2 2 4 4 0 7 1 4 3 3 6,5 6,5 0 8 3 4 1 1 1,5 1,5 Сумма 1,5 Т эмп ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Критерий Т – Вилкоксона Анализ оси значимости показывает, что полученная величина Т эмп попадает в зону неопределенности, те. Т кр1 < Т эмп >Т кр2 . Это позволяет утверждать, что зафиксированные в исследовании изменения неслучайны и значимы на 5% уровне. Таким образом, выраженность признака, измеренного "после, статистически значимо выше, чем измеренного "до" . ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Непараметрические критерии для несвязных выборок. Критерий U – Вилкоксона – Манна – Уитни Для оценки достоверности различий между несвязными выборками используется ряд непараметрических критериев. Одним из наиболее распространенных является критерий Данный метод выявления различий между выборками был предложен в 1945 году Фрэнком Уилкоксоном (F. Wilcoxon). В 1947 году он был существенно переработан и расширен Х. Б. Манном (H. B. Mann) и ДР. Уитни (D. R. Whitney), по именам которых сегодня обычно и называется. Существуют различные варианты названия критерий Манна — Уитни — Уилкоксона (Mann — Whitney — Wilcoxon, MWW), критерий суммы рангов Уилкоксона (Wilcoxon rank-sum test), критерий Уилкоксона — Манна —Уитни (Wilcoxon — Mann — Whitney test), критерий числа инверсий. Данный критерий применяют для оценки различий по уровню выраженности какого-либо признака для двух независимых (несвязных) выборок. При этом выборки могут различаться по числу входящих в них испытуемых. Этот критерий особенно удобен в том случае, когда число испытуемых невелико ив обеих выборках не превышает величину 20, хотя таблицы критических значений рассчитаны для величин выборок, не превышающих 60 испытуемых. Суть использования метод определяет, достаточно ли мала зона перекрещивающихся значений между двумя рядами (ранжированным рядом значений параметра впервой выборке и таким же во второй выборке. Чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны. Мощность критерия выше, чему критерия Розенбаума. ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Критерий U – Вилкоксона – Манна – Уитни Пример. Две неравные по численности группы магистрантов решали статистическую задачу. Показателем успешности служило время решения в секундах. Испытуемые меньшей по численности группы дополнительно мотивировались возможностью последующего получения зачета без опроса. Психолога интересует, влияет ли дополнительная мотивация на успешность решения задачи Исходные данные приведены в таблице. Решение. Обозначим значения переменной для одной выборки X, а для другой выборки — Y и упорядочим значения обеих выборок по возрастанию. Заметно, что значения одной выборки распределены явно неравномерно среди значений другой выборки значения выборки Х преобладают в левой части объединенного ряда, а значения выборки Y – в правой. Формально, критерий U — это общее число тех случаев, в которых значения одной группы превосходят значения другой группы, при попарном сравнении значений первой и второй групп. Соответственно, вычисляются два значения критерия и U y . U x = m*n – R x + (n*(n+1))/2 ; U y = m*n – R y + (m*(m+1))/2 ; U x + U y = m*n , где n – объем выборки Х m – объем выборки Y; хи суммы рангов для Хи для Y в объединенном ряду. В качестве эмпирического значения критерия берется наименьшее из и U y . Чем больше различия, тем меньше эмпирическое значение U. № исп. п/п Группа с доп. мотивацией , Группа без доп. Мотивации, Y 1 34 44 2 35 17 3 42 54 4 16 36 5 23 38 6 25 43 7 30 37 8 45 33 Значения 17 23 25 30 33 34 35 36 37 38 42 43 44 45 54 Выборках х х x x y y уху у у у ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Критерий U – Вилкоксона – Манна – Уитни Шаг 1. Значения двух выборок объединяются в один ряд, упорядоченный в порядке возрастания или убывания. Обозначается принадлежность каждого значения к той и другой выборке (строки 1 и Шаг 2. Значения выборок ранжируются, и выписываются отдельно ранги для одной и другой выборки (строки Шаг 3. Вычисляются суммы рангов пои по Y(R y ). R x = 55; R y = Шаг 4. Вычисляются U x =m*n–R x + (n*(n+1))/2= 9*8-55+(8*(8+1))/2= 53; U y =m*n – R y + (m*(m+1))/2 = 9*8-98+(9*(9+1))/2= 19 Шаг 5. Наименьшее значение U в данном случае U y =19 принимается U эмп . По таблице находятся критические значения U для n = 8 и m = 9 , где n и m – число испытуемых в соответствующих выборках (в таблице это соответственно икр 2 1 P Р U U кр кр Значения 16 17 23 25 30 33 34 35 36 37 38 42 43 44 45 54 Суммы рангов Выборка х х х x x y y уху у у у Ранги 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Ранги Х 3 4 5 7 8 12 Ранги Y 2 6 9 10 11 13 14 16 17 98 ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка Критерий U – Вилкоксона – Манна – Уитни Для применения критерия U необходимо соблюдать следующие условия. Измерение может быть проведено в шкале порядка, интервалов и отношений. Выборки должны быть несвязными (независимыми. Нижняя граница применимости критерия n 1 >=3 и n 2 >=3 или n 1 =2 и n 2 >=5 . 4. Верхняя граница применимости критерия n 1 <=60 и n 2 <=60 В нашем случае U эмп больше критического как для р <= 0,05 кр 18), таки для р <= 0,01 (кр = Шаг 6. Принимается статистическое решение и формулируется содержательный вывод. Зафиксированные в исследовании изменения случайны принимается Ни отвергается Н. Таким образом, может утверждать, что дополнительная мотивация не приводит к статистически значимому увеличению успешности решения задачи ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка – критерий Краскала – Уоллеса Критерий H Краскала-Уоллеса (Kruskal-Wallis Н) является непараметрическим аналогом однофакторного дисперсионного анализа (ANOVA) для независимых выборок, поэтому другое его название — однофакторный дисперсионный анализ Краскала-Уоллеса (Kruskal-Wallis one-way analysis of variance). Он позволяет проверять гипотезы о различии более двух независимых несвязных) выборок по уровню выраженности изучаемого признака. H-Краскала-Уоллеса по идее сходен с критерием U-Манна-Уитни. Как и последний, он оценивает степень пересечения (совпадения) нескольких рядов значений измеренного признака. Чем меньше совпадений, тем больше различаются ряды, соответствующие сравниваемым выборкам. Основная идея критерия H-Краскала-Уоллеса основана на представлении всех значений сравниваемых выборок в виде одной общей последовательности упорядоченных (ранжированных) значений, с последующим вычислением среднего ранга для каждой из выборок. Если выполняется статистическая гипотеза об отсутствии различий, то можно ожидать, что все средние ранги примерно равны и близки к общему среднему рангу. Эмпирическое значение критерия H-Краскала-Уоллеса вычисляется после ранжирования всех значений сравниваемых выборок по формуле: где N— суммарная численность всех выборок k — количество сравниваемых выборок сумма рангов для выборки i, n i — численность выборки Чем сильнее различаются выборки, тем больше вычисленное значение Ни тем меньше р- уровень значимости ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка – критерий Краскала – Уоллеса Пример Четыре группы испытуемых выполняли тест Бурдона в разных экспериментальных условиях. Задача в том, чтобы установить — зависит ли эффективность выполнения теста от условий или, иными словами, существуют ли статистически достоверные различия в успешности выполнения теста между группами. В каждую группу входило четыре испытуемых. Результаты измерения приведены в таблице. Решение. Для дальнейшей работы с критерием необходимо выстроить все полученные значения в один столбец по порядку и проставить им ранги. Следующий этап в подсчете Н эмп состоит в распределении данных вновь на исходные группы, но уже с полученными рангами испытуемых п/п 1 группа группа группа группа 23 45 34 21 2 20 12 24 22 3 34 34 25 26 4 35 11 40 Суммы 102 123 96 Данные Ранги 11 1 12 2 20 3 21 4 22 5 23 6 24 7 25 8 26 9 27 10 34 12 34 12 34 12 35 14 40 15 45 Сумма рангов испытуемых п/п 1 группа Ранги 2 группа Ранги 3 группа Ранги 4 группа Ранги 1 23 6 45 16 34 12 21 4 2 20 3 12 2 24 7 22 5 3 34 12 34 12 25 8 26 9 4 35 14 11 1 40 15 27 Суммы 35 102 31 123 42 96 28 ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка – критерий Краскала – Уоллеса Подсчитываем величину Н по формуле При расчетах вручную для определения р-уровня пользуются таблицами критических значений. Если объем каждой выборки больше 5 и количество выборок больше трех, то эмпирическое значение критерия сравнивается с критическими значениями для критерия c 2 для df= k — 1 (k — число выборок. Если сравниваются 3 выборки и объем каждой выборки меньше 5, то пользуются таблицей критических значений H-Краскала-Уоллеса. По таблице для определяются критические значения H для df= 4 — 1 = 3 (используется таблица для c 2 ) и строится ось значимости. Полученное значение H эмп попало в зону незначимости, следовательно принимается гипотеза Но сходстве, а гипотеза Но наличии различий отклоняется. Таким образом, психолог может утверждать, что различий по показателю переключаемости внимания нет испытуемых п/п 1 группа Ранги 2 группа Ранги 3 группа Ранги 4 группа Ранги 1 23 6 45 16 34 12 21 4 2 20 3 12 2 24 7 22 5 3 34 12 34 12 25 8 26 9 4 35 14 11 1 40 15 27 Суммы 35 102 31 123 42 96 28 Н кр = 01 , 0 ; 345 , 11 05 , 0 ; 815 , 7 2 1 P Р H H кр кр ИНСТИТУТ ПСИХОЛОГИИ БГПУ имени Максима Танка – критерий Краскала – Уоллеса Для применения критерия Н необходимо соблюдать следующие условия. Измерение может быть проведено в шкале порядка, интервалов и отношений. Выборки должны быть несвязными (независимыми. При сопоставлении трех выборок допускается, чтобы водной из них было n=3, а в двух других п. Однако в таком случае различия могут быть зафиксированы лишь на 5% уровне значимости. Таблица критических значений предусмотрена только для трех выборок и при этом {n 1 , n 2 , З <=5, то есть максимальное число испытуемых во всех трех выборках может быть меньше или равно 5. 5. При большем числе выборок и разном количестве испытуемых в каждой выборке следует пользоваться таблицей критических значений для критерия хи-квадрат. В этом случае число степеней свободы при этом определяется по формуле df= k — 1 (k — число выборок Спасибо за внимание |