Introduction_in_MathStat_Л 3 Пров стат гип. Тема 3 Проверка статистических гипотез общие положения
Скачать 126.07 Kb.
|
1 Введение в математическую статистику Тема 3 Проверка статистических гипотез: общие положения В психологических и педагогических исследованиях используется выборочный метод. Пусть мы хотим изучить влияние материнской поддержки интеллектуальных успехов ребенка на развитие его мышления, оценить эффективность тренинга партнерского общения или коррекционной программы для школьников с ограниченными возможностями здоровья. Возможно, наша цель – определить, какая методика лучше развивает психологическую готовность детей к школе или выявить особенности самооценки старшеклассников разного социометрического статуса. При этом неявно предполагается, что выводы будут носить общий характер и касаться не только конкретных испытуемых, но всех людей изучаемой категории. Например, такой категорией может быть определенная возрастная группа, уровень образования, социальный слой, пол и др. Очевидно, обследовать всех людей интересующей нас категории невозможно, так как их слишком много! Напомним, что «категория» на языке математической статистики называется «генеральной совокупностью». Это – математическая абстракция, и мы уже сравнивали ее с «текущей рекой» без начала и конца. На практике в целях исследования мы извлекаем случайную выборку из генеральной совокупности. Таким образом, возникает задача изучения свойств генеральной совокупности по выборочным данным. Подчеркнем, что генеральная совокупность – это целое, а выборка – только ее часть. Как по части судить о целом, чтобы наши выводы были доказательными? В каких случаях закономерности, свойственные испытуемым выборки, могут быть обобщены на всю категорию? Для решения этой проблемы используется процедура проверки статистических гипотез. Под статистической гипотезой понимается высказывание о свойствах генеральной совокупности, то есть о закономерностях изучаемых процессов 2 у определенной категории людей, проверяемое по выборке. Статистические гипотезы бывают двух видов: нулевая и альтернативная или конкурирующая. Нулевая гипотеза Н 0 – это выдвинутая гипотеза, подлежащая проверке. Она формулируется как предположение об отсутствии различий показателей экспериментальной и контрольной групп, отсутствии влияния фактора на отклик, отсутствии связи между признаками и т.д. Если она записывается при помощи математических символов, то в записи имеется знак равенства. Ей противопоставляется альтернативная гипотеза Н 1 . Альтернативные гипотезы тоже бывают двух видов: ненаправленные и направленные. Ненаправленные гипотезы просто констатируют тот факт, что есть различия или влияние фактора на отклик, или связь признаков и др. Математически они записываются при помощи знака «не равно» ( ≠ ). Направленные альтернативы указывают направление различий и записываются с использованием знаков «больше» ( > ) или «меньше» ( < ). Например, гипотеза Н 0 : Нет различий между экспериментальной и контрольной группами по уровню креативности. Ненаправленная альтернатива Н 1 : Различия есть. Направленная альтернатива Н 1 : Уровень креативности в экспериментальной группе выше, чем в контрольной. Проверкой статистической гипотезы называется процедура сопоставления эмпирических данных с выдвинутой гипотезой. В результате такой проверки мы либо принимаем Н 0 , либо отклоняем Н 0 и принимаем Н 1 Проверка нулевой гипотезы состоит из 4-х основных этапов, которые мы рассмотрим по порядку. На первом этапе на основании эмпирических данных и задачи исследования формулируют Н 0 и Н 1 . Данные могут представлять собой результаты тестирования экспериментальной и контрольной групп, и исследователя интересует, есть ли различия между ними по уровню измеренного признака. Это могут быть баллы двукратного замера 3 некоторого параметра у одной и той же группы испытуемых на констатирующем и контрольном этапах эксперимента, и оценивается эффективность работы исследователя. Третий пример: есть баллы по двум тестам, измеряющим разные психические процессы или личностные качества, и изучается связь между ними. Второй этап посвящен выбору статистического критерия и вычислению эмпирического значения статистики. Чтобы выбрать статистический критерий, подходящий для проверки сформулированной гипотезы Н 0 , нужно учесть тип задачи, количество выборок и тип измерительных шкал. Как это делается, будет ясно из дальнейшего знакомства с различными критериями. По существу, статистический критерий – это правило, позволяющее однозначно установить, при каких выборках следует принять Н 0 , а при каких – отклонить. Если же критерий выбран, тем самым выбрана статистика критерия – некоторая функция Т на множестве выборок из генеральной совокупности, обладающая следующими 2-мя свойствами. При подстановке в нее выборочных данных функция Т принимает числовые значения, и эти значения позволяют судить о расхождении экспериментальных данных с гипотезой Н 0 . Закон распределения статистики Т в предположении справедливости гипотезы Н 0 известен и отражен в специальных таблицах – своих для каждого критерия. Выражение «функция на множестве выборок» можно понимать так. Как только мы выбрали статистический критерий, например, критерий Манна – Уитни, это означает, что у нас есть формула, в которую нужно подставить данные выборки, провести вычисления и получить число Т эмп . Это и есть эмпирическое значение статистики критерия на данной выборке. Оно нам поможет сделать вывод о том, принять Н 0 или отклонить ее. При работе в SPSS формул мы не видим. Программа сама делает вычисления и пишет 4 результата в файле Вывода. Как только эмпирическое значение статистики найдено, второй этап завершен. На третьем этапе при работе в любом статистическом пакете, в том числе в SPSS, вычисляют уровень значимости. В математической традиции его принято обозначать α, а в психологии и педагогике – p (от английского probability – вероятность). Поясним, что он собой представляет. Мы изучаем генеральную совокупность по выборке, то есть по части мы хотим сделать обоснованный вывод о целом. Очевидно, сделать это со 100%-ной уверенностью невозможно, и всегда есть риск ошибки такого вывода. Другими словами, гипотеза Н 0 – это предположение о свойствах генеральной совокупности, но проверяется оно по выборке, следовательно, оно может быть ошибочным. Логически возможны всего 4 варианта: 1) Н 0 объективно верна, и мы ее принимаем, 2) Н 0 верна, но мы ее отклоняем, 3) Н 0 неверна, но мы ее принимаем, 4) Н 0 неверна, и мы ее отклоняем. В первом и последнем случаях мы приходим к правильному решению, а во втором и третьем – к ошибочному. Отклонение истинной гипотезы Н 0 называется ошибкой 1-го рода, а принятие ложной гипотезы Н 0 – ошибкой 2- го рода. Вероятность совершить ошибку первого рода, то есть увидеть неслучайные различия там, где они на самом деле случайны, и называется уровнем значимости и обозначается α или p. Уровень значимости p может принимать любые значения между 0 и 1, так как это вероятность. Среди них есть 3 значения, играющие особую роль: α = 0,05, α = 0,01 и α = 0,001. Они называются конвенциональными уровнями значимости от слова «конвенция», то есть «договоренность» или «соглашение». Действительно, по договоренности во всем научном сообществе любое значение р принято соотносить с одним из 3-х конвенциональных уровней значимости. В любой научной статье мы увидим ссылки на них. Например, p = 0,01 означает, что если гипотезу Н 0 проверять 5 по каждой из 100 выборок из генеральной совокупности, то в среднем в одном случае из 100 мы совершим ошибку первого рода. Вероятность того, что не будет допущена ошибка второго рода, называется мощностью критерия. Вероятность ошибки 2-го рода обозначается β, а мощность критерия (1 – β). При математической разработке критерия он строится так, чтобы мощность критерия при фиксированном α была максимальной. Добавим, что при заданном объеме выборки уменьшить одновременно вероятности ошибок первого и второго рода, то есть α и β, невозможно: с уменьшением α вероятность β будет возрастать. Чтобы одновременно уменьшить вероятности ошибок первого и второго рода, нужно увеличить объем выборки. Осталось пояснить, почему различают ошибки первого и второго рода. Оказывается, что их последствия различны. Пусть, например, при клинических испытаниях нового лекарства сформулирована гипотеза Н 0 : «лекарство безвредно при беременности», а альтернатива Н 1 : «лекарство вредно при беременности». Если допущена ошибка первого рода, то в инструкции к объективно безвредному при беременности лекарству будет написано «Противопоказание: беременность», и число его потенциальных покупателей сократится. Небольшие убытки понесут при этом только фармацевтическая компания и аптечные сети. Если же допущена ошибка второго рода, то беременным будет разрешено принимать опасное лекарство, что может привести к патологиям ребенка. Вот почему ошибку первого рода называют риском производителя, а ошибку второго рода – риском потребителя. Четвертый этап – это принятие решения. Напомним, что на 2-м этапе проверки нулевой гипотезы программа SPSS вычисляет эмпирическое значение статистики, а на 3-м – соответствующий уровень значимости α. Далее действуют по правилу: если α ≤ 0,05, то гипотезу Н 0 отклоняют на 6 уровне значимости α, в противном случае Н 0 принимают. Это правило универсально и подходит для любого статистического критерия. Заметим, если Н 0 принята, это не значит, что она доказана, но означает лишь наличие факта, говорящего в ее пользу. Одно свидетельство в пользу любой теоремы не доказывает ее справедливости. Правильнее говорить: «Эмпирические данные согласуются с нулевой гипотезой». А вот отклоняем Н 0 мы значительно более уверенно, ведь достаточно одного лишь контрпримера, чтобы показать, что теорема неверна. Что означает выражение: «отклонить гипотезу Н 0 на уровне значимости α», мы объясним на примерах при решении задач. Кроме того, в дальнейшем мы будем обозначать уровень значимости через p, как это принято в психологии и педагогике. |