Выбор формы уравнения регрессии
Скачать 8.7 Mb.
|
11. РАСПРЕДЕЛЕНИЕ КОЭФФИЦИЕНТОВ РЕГРЕССИИ И КОРРЕЛЯЦИИ Пусть выполняются следующие предпосылки: соотношение между переменными в генеральной совокупности выражается линейной регрессией; возмущающая переменная и имеет нормальное распределение с математическим ожиданием и дисперсией ; значения зависимой переменной yi при фиксированных значениях объясняющих переменных xk (k = 1, ..., т) распределены нормально или приблизительно нормально. Тогда оценки параметров регрессии bk (k = 1, ..., т) распределены нормально с математическим ожиданием и дисперсией . Отсюда следует, что величина (2.1) имеет стандартное нормальное распределение. Поскольку дисперсия возмущающей переменной а также дисперсии оценок параметров регрессии неизвестны, вместо них используем выборочные дисперсии и . Формула (2.1)'приобретает вид: (2.2) Статистика (2.2) имеет t-распределение с п—т— 1 степенями свободы. Это следует учитывать особенно при малом объеме выборки. Коэффициент корреляции вычисляется по результатам выборки. Поэтому его часто называют выборочным коэффициентом корреляции. Итак, коэффициент корреляции является функцией от выборки. Его значения, вычисленные по результатам различных выборок, отличаются друг от друга. Следовательно, выборочный коэффициент корреляции представляет собой случайную величину с определенным распределением вероятностей. Распределение коэффициента парной корреляции можно считать приближенно нормальным при выполнении следующих условий: случайные переменные у и х имеют совместное нормальное или приближенно нормальное распределение; корреляционная связь между переменными не очень тесная, т. е. коэффициент корреляции не слишком близок ± 1; 3) объем выборки достаточно велик. Первое условие приводит к так называемой нормальной корреляции, при которой переменные соединены линейным соотношением. Плотность двумерного нормального распределения изображается в системе координат поверхностью, называемой поверхностью нормального распределения (см. рис. 20, а). На рис. 20, а и 20, б параметры генеральной совокупности обозначены греческими буквами. В сечении нормальной поверхности распределения плоскостями, параллельными координатной плоскости xOz, получаются кривые распределения случайной переменной х, соответствующие определенным значениям у. Аналогично в сечении нормальной поверхности распределения плоскостями, параллельными координатной плоскости yOz, получаются кривые распределения переменной у, соответствующие определенным значениям х. Кривые распределения отличаются друг от друга лишь своей крутизной. Они являются графическими изображениями условных распределений соответственно переменных х и у при фиксированных значениях у их. Если спроецировать на плоскость хОу средние значения условных распределений переменной х и соединить линией полученные точки, то образованная таким образом линия будет называться линией регрессии х на у. Сопряженная с ней линия регрессии у на х является множеством точек, соответствующим средним значениям условных распределений переменной у. Пересекая поверхность распределения плоскостями, параллельными координатной плоскости хОу, в проекции на этой плоскости получаем семейство концентрических эллипсов различных размеров с одинаковой ориентацией главных осей и с общим центром в точке с координатами и . Их называют эллипсами рассеяния. Точка пересечения линий регрессии у на х и х на у совпадает с центром эллипсов рассеяния. Вследствие симметричности нормального распределения линии регрессии делят площадь эллипсов пополам (см. рис. 20, б). Точное распределение выборочного коэффициента частной корреляции такое же, как и обычного коэффициента парной корреляции, вычисленного по выборке объема п — k, где k — число исключенных переменных. При перечисленных выше условиях его можно также аппроксимировать нормальным. Распределения коэффициента множественной корреляции, корреляционного отношения и индекса корреляции, напротив, даже при выборках сравнительно большого объема сильно отличаются от нормального. По второму условию с увеличением интенсивности корреляционной связи сходимость распределения выборочного коэффициента корреляции к нормальному уменьшается. Распределение выборочного коэффициента корреляции становится все более асимметричным. Р. Фишер указал нормализующее преобразование случайной величины z, благодаря которому распределение г может быть приближенно приведено к нормальному: , (2.3) где In — (натуральный) логарифм с основанием е (е = 2,71828...); lg — десятичный логарифм (логарифм с основанием 10). При r = ± \ соответственно z = ± ∞. При r = 0 получаем z = 0. Р. Фишер показал, что распределение величины z, отдельные реализации которой определяются соотношением (2.3), при п → ∞ асимптотически нормально с параметрами (2.4) (2.5) Даже при небольших п приближение достаточно хорошее. Как видно из (2.5), стандартное отклонение зависит не от величины параметра р (коэффициента корреляции генеральной совокупности), а только от объема выборки п. С увеличением объема выборки становится меньше. Значения z-преобразования Фишера могут быть определены с помощью таблицы логарифмов. Обратный пересчет z в r проводят с помощью соотношения , (2.6) где tanh z — гиперболический тангенс от аргумента z, его можно определить по таблице логарифмов либо с помощью соотношения (2.7) При невыполнении третьего условия, т. е. когда объем выборки n мал, распределение выборочного коэффициента корреляции сильно отличается от нормального, что видно из рис. 21. Если р ≠ 0, то с уменьшением объема выборки увеличивается асимметричность распределения r. Это осложняет проверку надежности выборочного коэффициента корреляции. Если коэффициент корреляции р двумерного нормального распре¬деления равен нулю (р = 0), то в этом случае статистика (2.8) имеет t - распределение с n - 2степенями свободы. 12. Множественная регрессия. Функция , описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии1. Уравнение регрессии показывает ожидаемое значение зависимой переменной при определенных значениях зависимых переменных . В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии). В зависимости от вида функции модели делятся на линейные и нелинейные. Модель множественной линейной регрессии имеет вид: y i = 0 + 1x i 1 +2x i 2 +…+ k x i k + i (2.1) - количество наблюдений. коэффициент регрессии jпоказывает, на какую величину в среднем изменится результативный признак , если переменную xjувеличить на единицу измерения, т. е. j является нормативным коэффициентом. Коэффициент может быть отрицательным. Это означает, что область существования показателя не включает нулевых значений параметров. Если же а0>0, то область существования показателя включает нулевые значения параметров, а сам коэффициент характеризует среднее значение показателя при отсутствии воздействий параметров. Анализ уравнения (2.1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи: (2.2) . Где – вектор зависимой переменной размерности п 1, представляющий собой п наблюдений значений . - матрица п наблюдений независимых переменных , размерность матрицы равна п (k+1) . Дополнительный фактор , состоящий из единиц, вводится для вычисления свободного члена. В качестве исходных данных могут быть временные ряды или пространственная выборка. - количество факторов, включенных в модель. a— подлежащий оцениванию вектор неизвестных параметров размерности (k+1) 1; — вектор случайных отклонений (возмущений) размерности п 1. отражает тот факт, что изменение будет неточно описываться изменением объясняющих переменных , так как существуют и другие факторы, неучтенные в данной модели. Таким образом, Y =, X = , , a = . Уравнение (2.2) содержит значения неизвестных параметров 0,1,2,… ,k . Эти величины оцениваются на основе выборочных наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки. Модель линейной регрессии, в которой вместо истинных значений параметров подставлены их оценки (а именно такие регрессии и применяются на практике), имеет вид , (2.3) где A — вектор оценок параметров; е — вектор «оцененных» отклонений регрессии, остатки регрессии е = Y - ХА; —оценка значений Y, равная ХА. Построение уравнения регрессии осуществляется, как правило, методом наименьших квадратов (МНК), суть которого состоит в минимизации суммы квадратов отклонений фактических значений результатного признака от его расчетных значений, т.е.: . 13. Линейная модель множественной регрессии. Проверка линейности модели Рассмотрим линейную модель множественной регрессии: 1) 2) , , , , Значения признака Матрица объясняющих Вектор Вектор Вектор переменных, столбцами регрессора j случайных коэфф-тов которой являются Xj ошибок регрессии 3), В классической модели компоненты вектора возмущений некоррелированы М() = 0 при , а дисперсии компонент постоянны , ковариационная матрица возмущений Суть обобщения регрессионной модели состоит в том, что ковариации и дисперсии объясняющих переменных могут быть произвольными (т.о. обобщенная модель множественной регрессии отличается от классической только видом ковариационной матрицы). - положительно определенная матрица (АТ = А и хТАх > 0). В классической модели множественной регрессии обычным МНК был получен вектор оценок параметров, он является несмещенной и состоятельной оценкой для . Рассмотрим ковариационную матрицу В классической модели и К = . В качестве выборочной оценки ковариационной матрицы К была взята матрица , где , причем M(S2) = и = К, т.е. - несмещенная оценка К. В обобщенной модели и К = . Если в качестве оценки матрицы К взять ту же матрицу, то , т.е. - смещенная оценка для К. Т.о., обычный МНК в обобщенной линейной регрессионной модели дает смещенную оценку ковариационной матрицы К вектора оценок параметров. Следовательно, оценка не будет оптимальной в смысле теоремы Гаусса-Маркова. Для получения наиболее эффективной оценки ковариационной матрицы К нужно использовать оценку, получаемую так называемым обобщенным МНК. Теорема Айткена: в классе линейных несмещенных оценок вектора для обобщенной регрессионной модели оценка имеет наименьшую ковариационную матрицу. Для применения обобщенного МНК надо знать ковариационную матрицу вектора возмущений , что встречается крайне редко в практике эконометрического моделирования. Если считать все n(n+1)/2 элементов матрицы неизвестными параметрами обобщенной модели (в дополнение к (р+1) параметрам регрессии), то общее число параметров превысит число наблюдений n, что сделает оценку этих параметров неразрешимой задачей. Для практической реализации обобщенного МНК вводятся дополнительные условия на структуру матрицы . В экономике причинно-следственные отношения между явлениями часто описываются с помощью линейных или линеаризуемых зависимостей. Разработаны статистические критерии, позволяющие либо подтвердить факт непротиворечивости линейной формы зависимости опытным данным, либо отвергнуть предложенный вид зависимости как не соответствующий этим данным. Для проверки линейности регрессии применяется следующий метод. Пусть каждому значению объясняющей переменной соответствует несколько значений зависимой переменной, по которым вычисляют частные средние и т.д. Обозначим через частное среднее, соответствующее значению объясняющей переменной: где — число значений у, относящихся к Найдем теперь средний квадрат отклонений значений от их частных средних: Показатель (8.72) является мерой рассеяния опытных данных около своих частных средних, т. е. мерой, не зависящей от выбранного вида регрессии. В качестве меры рассеяния опытных данных вокруг эмпирической регрессионной прямой выбирается средний квадрат отклонений: Оба показателя представляют собой независимые статистические оценки одной и той же дисперсии в у. Если несущественно больше то в качестве гипотетической зависимости может быть принята линейная. Если в генеральной совокупности существует линейная регрессия и условные распределения переменной у хотя бы приблизительно нормальны, то отношение средних квадратов отклонений (8.72) и (8.73) имеет -распределение степенями свободы. Значение подсчитанное по формуле (8.74), сравнивается с критическим найденным по табл. 4 приложения при заданном уровне значимости а и степенях свободы. Если то разница между обоими средними квадратами отклонений статистически незначима и выбранная нами линейная регрессионная зависимость может быть принята как правдоподобная, не противоречащая опытным данным. Если а, то различие между обоими средними квадратами отклонений существенно, неслучайно, и гипотеза о линейной зависимости между переменными несостоятельна. Разработаны также другие критерии проверки гипотезы о линейности регрессии. Заинтересованный читатель может найти их в соответствующей литературе [122], [76]. |