Выбор формы уравнения регрессии
Скачать 8.7 Mb.
|
41. Проверка значимости для коэффициента корреляции Как неоднократно отмечалось, для статистического вывода о наличии или отсутствии корреляционной связи между исследуемыми переменными необходимо произвести проверку значимости выборочного коэффициента корреляции. В связи с тем что надежность статистических характеристик, в том числе и коэффициента корреляции, зависит от объема выборки, может сложиться такая ситуация, когда величина коэффициента корреляции будет целиком обусловлена случайными колебаниями в выборке, на основании которой он вычислен. При существенной связи между переменными коэффициент корреляции должен значимо отличаться от нуля. Если корреляционная связь между исследуемыми переменными отсутствует, то коэффициент корреляции генеральной совокупности ρ равен нулю. При практических исследованиях, как правило, основываются на выборочных наблюдениях. Как всякая статистическая характеристика, выборочный коэффициент корреляции является случайной величиной, т. е. его значения случайно рассеиваются вокруг одноименного параметра генеральной совокупности (истинного значения коэффициента корреляции). При отсутствии корреляционной связи между переменными у и х коэффициент корреляции в генеральной совокупности равен нулю. Но из-за случайного характера рассеяния принципиально возможны ситуации, когда некоторые коэффициенты корреляции, вычисленные по выборкам из этой совокупности, будут отличны от нуля. Могут ли обнаруженные различия быть приписаны случайным колебаниям в выборке или они отражают существенное изменение условий формирования отношений между переменными? Если значения выборочного коэффициента корреляции попадают в зону рассеяния, обусловленную случайным характером самого показателя, то это не является доказательством отсутствия связи. Самое большее, что при этом можно утверждать, сводится к тому, что данные наблюдений не отрицают отсутствия связи между переменными. Но если значение выборочного коэффициента корреляции будет лежать вне упомянутой зоны рассеяния, то делают вывод, что он значимо отличается от нуля, и можно считать, что между переменными у и х существует статистически значимая связь. Используемый для решения этой задачи критерий, основанный на распределении различных статистик, называется критерием значимости. Процедура проверки значимости начинается с формулировки нулевой гипотезы H0. В общем виде она заключается в том, что между параметром выборки и параметром генеральной совокупности нет каких- либо существенных различий. Альтернативная гипотеза H1 состоит в том, что между этими параметрами имеются существенные различия. Например, при проверке наличия корреляции в генеральной совокупности нулевая гипотеза заключается в том, что истинный коэффициент корреляции равен нулю (Н0: ρ = 0). Если в результате проверки окажется, что нулевая гипотеза не приемлема, то выборочный коэффициент корреляции rух значимо отличается от нуля (нулевая гипотеза отвергается и принимается альтернативная Н1). Другими словами, предположение о некоррелированности случайных переменных в генеральной совокупности следует признать необоснованным. И наоборот, если на основе критерия значимости нулевая гипотеза принимается, т. е. rух лежит в допустимой зоне случайного рассеяния, то нет оснований считать сомнительным предположение о некоррелированности переменных в генеральной совокупности. При проверке значимости исследователь устанавливает уровень значимости α, который дает определенную практическую уверенность в том, что ошибочные заключения будут сделаны только в очень редких случаях. Уровень значимости выражает вероятность того, что нулевая гипотеза Н0 отвергается в то время, когда она в действительности верна. Ясно, что имеет смысл выбирать эту вероятность как можно меньшей. Пусть известно распределение выборочной характеристики, являющейся несмещенной оценкой параметра генеральной совокупности. Выбранному уровню значимости α соответствуют под кривой этого распределения заштрихованные площади (см. рис. 24). Незаштрихованная площадь под кривой распределения определяет вероятность Р = 1 — α. Границы отрезков на оси абсцисс под заштрихованными площадями называют критическими значениями, а сами отрезки образуют критическую область, или область отклонения гипотезы. При процедуре проверки гипотезы выборочную характеристику, вычисленную по результатам наблюдений, сравнивают с соответствующим критическим значением. При этом следует различать одностороннюю и двустороннюю критические области. Форма задания критической области зависит от постановки задачи при статистическом исследовании. Двусторонняя критическая область необходима в том случае, когда при сравнении параметра выборки и параметра генеральной совокупности требуется оценить абсолютную величину расхождения между ними, т. е. представляют интерес как положительные, так и отрицательные разности между изучаемыми величинами. Когда же надо убедиться в том, что одна величина в среднем строго больше или меньше другой, используется односторонняя критическая область (право- или левосторонняя). Вполне очевидно, что для одного и того же критического значения уровень значимости при использовании односторонней критической области меньше, чем при использовании двусторонней. Если распределение выборочной характеристики симметрично, Рис. 24. Проверка нулевой гипотезы H0 то уровень значимости двусторонней критической области равен α, а односторонней - (см. рис. 24). Ограничимся лишь общей постановкой проблемы. Более подробно с теоретическим обоснованием проверки статистических гипотез можно познакомиться в специальной литературе. Далее мы лишь укажем критерии значимости для различных процедур, не останавливаясь на их построении. Проверяя значимость коэффициента парной корреляции, устанавливают наличие или отсутствие корреляционной связи между исследуемыми явлениями. При отсутствии связи коэффициент корреляции генеральной совокупности равен нулю (ρ = 0). Процедура проверки начинается с формулировки нулевой и альтернативной гипотез: Н0 : различие между выборочным коэффициентом корреляции rи ρ = 0 незначимо, Н1 : различие между r и ρ = 0 значимо, и следовательно, между переменными у и х имеется существенная связь. Из альтернативной гипотезы следует, что нужно воспользоваться двусторонней критической областью. В разделе 8.1 уже упоминалось, что выборочный коэффициент корреляции при определенных предпосылках связан со случайной величиной t, подчиняющейся распределению Стьюдента с f= п — 2 степенями свободы. Вычисленная по результатам выборки статистика (8.38) сравнивается с критическим значением, определяемым по таблице распределения Стьюдента при заданном уровне значимости α и f= п — 2 степенях свободы. Правило применения критерия заключается в следующем: если |t| > tf,а, то нулевая гипотеза на уровне значимости αотвергается, т. е. связь между переменными значима; если |t| ≤ tf,а, то нулевая гипотеза на уровне значимости α принимается. Отклонение значения rот ρ = 0 можно приписать случайной вариации. Данные выборки характеризуют рассматриваемую гипотезу как весьма возможную и правдоподобную, т. е. гипотеза об отсутствии связи не вызывает возражений. Процедура проверки гипотезы значительно упрощается, если вместо статистики t воспользоваться критическими значениями коэффициента корреляции, которые могут быть определены через квантили распределения Стьюдента путем подстановки в (8.38) t=tf,а и r = ρf,а: (8.39) Существуют подробные таблицы критических значений, выдержка из которых приведена в приложении к данной книге (см. табл. 6). Правило проверки гипотезы в этом случае сводится к следующему: если r > ρf,а, то можем утверждать, что связь между переменными существенная. Если r≤ rf,а, то результаты наблюдений считаем непротиворечащими гипотезе об отсутствии связи. 42. Проверка значимости для коэффициента детерминации. При выполнении процедуры проверки значимости коэффициента детерминации выдвигается нулевая гипотеза Н0 против альтернативной Н1 которые заключаются в следующем. Н0: существенного различия между выборочным коэффициентом детерминации и коэффициентом детерминации генеральной совокупности B(г) = 0 нет. Эта гипотеза равносильна гипотезе Н0: = β1=β2=…βm=0, т. е. ни одна из объясняющих переменных, включенных в регрессию, не оказывает существенного влияния на зависимую переменную. Н1: выборочный коэффициент детерминации существенно больше коэффициента детерминации генеральной совокупности B(г) = 0. Из постановки задачи ясно, что следует использовать одностороннюю критическую область. Принятие гипотезы Н1 означает, что по крайней мере одна из m объясняющих переменных, включенных в регрессию, оказывает существенное влияние на переменную у. Для оценки значимости парного коэффициента детерминации используется статистика (8.50) имеющая F-распределение Фишера с f1=m=1 и f2=n-2степенями свободы. Значение статистики, вычисленное по (8.50), сравнивается с критическим значением этой статистики, найденным по табл. 4 приложения при заданном уровне значимости α и соответствующем числе степеней свободы. Если F > Ff1;f2;α , то вычисленный коэффициент детерминации значимо отличается от нуля. Этот вывод обеспечивается с вероятностью 1- α. Пример В разделе 3.2 был вычислен по п = 14 предприятиям коэффициент детерминации для регрессии, отражающей зависимость производительности труда от уровня механизации работ, Bvx = 0,938. По (8.50) получим Зададимся уровнем значимости α = 0,05. Числа степеней свободы соответственно следующие: f1 = 1 и f 2 = 12. По табл. 4 приложения находим критическое значение F1;12;0,05 = 4,747. Вследствие того что F>F1;12;0,05, делаем вывод, что Вух существенно отличается от нуля, и, следовательно, включенные в регрессию переменные достаточно объясняют зависимую переменную. Можно показать, что при fx = 1 всегда F = t2. Тогда (8.50) можно записать в виде (8.51) Эта величина имеет F-распределение с f=п-2 степенями свободы. Если мы теперь учтем, что В = r2 (см. (4.13)), то отсюда следует, что с помощью критерия (8.51) можно проверить также значимость коэффициента корреляции. Оценка значимости коэффициента множественной детерминации производится с помощью статистики (8.52) которая имеет F-распределение с f1= m и f2= n-т-1 степенями свободы. Здесь т - количество учитываемых объясняющих переменных. Значение статистики (8.52), вычисленное по эмпирическим данным, сравнивается с табличным значением Ff1;f2;α. Критическое значение определяется по табл. 4 приложения по заданному α и степеням свободы f1 и f2. Правило проверки аналогично процедуре оценки значимости коэффициента парной детерминации. Пример В разделе 3.3 были вычислены два коэффициента множественной детерминации, Ву.12 = 0,9447 и Ву.123 = 0,9541, по п = 14 наблюдениям соответственно для т = 2 и т = 3 объясняющих переменных. Имеем: Итак, в обоих случаях F > Ff1;f2;α. Коэффициенты множественной детерминации существенно отличны от нуля, и, следовательно, рассматриваемые регрессии достаточно определены включенными переменными. Для оценки значимости коэффициента частной детерминации используется статистика (8.53) которая имеет f-распределение с f1 = т и f2 = n-m-p-1степенями свободы. Здесь р число переменных, исключенных при вычислении коэффициентов частной детерминации. Процедура проверки значимости аналогична описанным выше. 43. Проверка линейной регрессии В экономике причинно-следственные отношения между явлениями часто описываются с помощью линейных или линеаризуемых зависимостей. Разработаны статистические критерии, позволяющие либо подтвердить факт непротиворечивости линейной формы зависимости опытным данным, либо отвергнуть предложенный вид зависимости как не соответствующий этим данным. Для проверки линейности регрессии применяется следующий метод. Пусть каждому значению объясняющей переменной соответствует несколько значений зависимой переменной, по которым вычисляют частные средние , и т.д. Обозначим через частное среднее, соответствующее j-му значению объясняющей переменной: (8.71) где — число значений у, относящихся к (k = 1, ..., m); Найдем теперь средний квадрат отклонений значений от их частных средних: (8.72) Показатель (8.72) является мерой рассеяния опытных данных около своих частных средних, т. е. мерой, не зависящей от выбранного вида регрессии. В качестве меры рассеяния опытных данных вокруг эмпирической регрессионной прямой выбирается средний квадрат отклонений: (8.73) Оба показателя и представляют собой независимые статистические оценки одной и той же дисперсии в . Если несущественно больше , то в качестве гипотетической зависимости может быть принята линейная. Если в генеральной совокупности существует линейная регрессия и условные распределения переменной у хотя бы приблизительно нормальны, то отношение средних квадратов отклонений (8.72) и (8.73) (8.74) имеет F-распределение c f1 = p-m-1 и f2 = n - р степенями свободы. Значение F, подсчитанное по формуле (8.74), сравнивается с критическим Ff1;f2;α, найденным по табл. 4 приложения при заданном уровне значимости α и f1, f2 степенях свободы. Если F ≤ Ff1;f2;α, то разница между обоими средними квадратами отклонений статистически незначима и выбранная нами линейная регрессионная зависимость может быть принята как правдоподобная, не противоречащая опытным данным. Если F > Ff1;f2;α, то различие между обоими средними квадратами отклонений существенно, неслучайно, и гипотеза о линейной зависимости между переменными несостоятельна. Разработаны также другие критерии проверки гипотезы о линейности регрессии. Заинтересованный читатель может найти их в соответствующей литературе [122], [76]. |