Выбор формы уравнения регрессии
![]()
|
11. РАСПРЕДЕЛЕНИЕ КОЭФФИЦИЕНТОВ РЕГРЕССИИ И КОРРЕЛЯЦИИ Пусть выполняются следующие предпосылки: соотношение между переменными в генеральной совокупности выражается линейной регрессией; возмущающая переменная и имеет нормальное распределение с математическим ожиданием ![]() ![]() значения зависимой переменной yi при фиксированных значениях объясняющих переменных xk (k = 1, ..., т) распределены нормально или приблизительно нормально. Тогда оценки параметров регрессии bk (k = 1, ..., т) распределены нормально с математическим ожиданием ![]() ![]() ![]() имеет стандартное нормальное распределение. Поскольку дисперсия возмущающей переменной ![]() ![]() ![]() ![]() ![]() Статистика (2.2) имеет t-распределение с п—т— 1 степенями свободы. Это следует учитывать особенно при малом объеме выборки. ![]() Коэффициент корреляции вычисляется по результатам выборки. Поэтому его часто называют выборочным коэффициентом корреляции. Итак, коэффициент корреляции является функцией от выборки. Его значения, вычисленные по результатам различных выборок, отличаются друг от друга. Следовательно, выборочный коэффициент корреляции представляет собой случайную величину с определенным распределением вероятностей. Распределение коэффициента парной корреляции можно считать приближенно нормальным при выполнении следующих условий: случайные переменные у и х имеют совместное нормальное или приближенно нормальное распределение; корреляционная связь между переменными не очень тесная, т. е. коэффициент корреляции не слишком близок ± 1; 3) объем выборки достаточно велик. Первое условие приводит к так называемой нормальной корреляции, при которой переменные соединены линейным соотношением. Плотность двумерного нормального распределения изображается в системе координат поверхностью, называемой поверхностью нормального распределения (см. рис. 20, а). На рис. 20, а и 20, б параметры генеральной совокупности обозначены греческими буквами. В сечении нормальной поверхности распределения плоскостями, параллельными координатной плоскости xOz, получаются кривые распределения случайной переменной х, соответствующие определенным значениям у. Аналогично в сечении нормальной поверхности распределения плоскостями, параллельными координатной плоскости yOz, получаются кривые распределения переменной у, соответствующие определенным значениям х. Кривые распределения отличаются друг от друга лишь своей крутизной. Они являются графическими изображениями условных распределений соответственно переменных х и у при фиксированных значениях у их. Если спроецировать на плоскость хОу средние значения условных распределений переменной х и соединить линией полученные точки, то образованная таким образом линия будет называться линией регрессии х на у. Сопряженная с ней линия регрессии у на х является множеством точек, соответствующим средним значениям условных распределений переменной у. Пересекая поверхность распределения плоскостями, параллельными координатной плоскости хОу, в проекции на этой плоскости получаем семейство концентрических эллипсов различных размеров с одинаковой ориентацией главных осей и с общим центром в точке с координатами ![]() ![]() Точное распределение выборочного коэффициента частной корреляции ![]() По второму условию с увеличением интенсивности корреляционной связи сходимость распределения выборочного коэффициента корреляции к нормальному уменьшается. Распределение выборочного коэффициента корреляции становится все более асимметричным. Р. Фишер указал нормализующее преобразование случайной величины z, благодаря которому распределение г может быть приближенно приведено к нормальному: ![]() где In — (натуральный) логарифм с основанием е (е = 2,71828...); lg — десятичный логарифм (логарифм с основанием 10). При r = ± \ соответственно z = ± ∞. При r = 0 получаем z = 0. Р. Фишер показал, что распределение величины z, отдельные реализации которой определяются соотношением (2.3), при п → ∞ асимптотически нормально с параметрами ![]() ![]() Даже при небольших п приближение достаточно хорошее. Как видно из (2.5), стандартное отклонение ![]() ![]() ![]() где tanh z — гиперболический тангенс от аргумента z, его можно определить по таблице логарифмов либо с помощью соотношения ![]() ![]() При невыполнении третьего условия, т. е. когда объем выборки n мал, распределение выборочного коэффициента корреляции сильно отличается от нормального, что видно из рис. 21. Если р ≠ 0, то с уменьшением объема выборки увеличивается асимметричность распределения r. Это осложняет проверку надежности выборочного коэффициента корреляции. Если коэффициент корреляции р двумерного нормального распре¬деления равен нулю (р = 0), то в этом случае статистика ![]() имеет t - распределение с n - 2степенями свободы. 12. Множественная регрессия. Функция ![]() ![]() ![]() В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии). В зависимости от вида функции ![]() Модель множественной линейной регрессии имеет вид: y i = 0 + 1x i 1 +2x i 2 +…+ k x i k + i ![]() ![]() коэффициент регрессии jпоказывает, на какую величину в среднем изменится результативный признак ![]() Коэффициент ![]() Анализ уравнения (2.1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи: ![]() Где ![]() ![]() ![]() ![]() ![]() ![]() ![]() a— подлежащий оцениванию вектор неизвестных параметров размерности (k+1) 1; ![]() ![]() ![]() ![]() Таким образом, Y = ![]() ![]() ![]() ![]() Уравнение (2.2) содержит значения неизвестных параметров 0,1,2,… ,k ![]() ![]() где A — вектор оценок параметров; е — вектор «оцененных» отклонений регрессии, остатки регрессии е = Y - ХА; ![]() Построение уравнения регрессии осуществляется, как правило, методом наименьших квадратов (МНК), суть которого состоит в минимизации суммы квадратов отклонений фактических значений результатного признака от его расчетных значений, т.е.: ![]() 13. Линейная модель множественной регрессии. Проверка линейности модели Рассмотрим линейную модель множественной регрессии: 1) ![]() 2) ![]() ![]() ![]() ![]() ![]() Значения признака Матрица объясняющих Вектор Вектор Вектор переменных, столбцами регрессора j случайных коэфф-тов которой являются Xj ошибок регрессии 3) ![]() ![]() В классической модели компоненты вектора возмущений некоррелированы М( ![]() ![]() ![]() ![]() ![]() Суть обобщения регрессионной модели состоит в том, что ковариации и дисперсии объясняющих переменных могут быть произвольными (т.о. обобщенная модель множественной регрессии отличается от классической только видом ковариационной матрицы). ![]() ![]() ![]() ![]() ![]() В классической модели ![]() ![]() ![]() где ![]() ![]() ![]() ![]() В обобщенной модели ![]() ![]() ![]() ![]() Теорема Айткена: в классе линейных несмещенных оценок вектора ![]() ![]() имеет наименьшую ковариационную матрицу. Для применения обобщенного МНК надо знать ковариационную матрицу вектора возмущений ![]() ![]() Для практической реализации обобщенного МНК вводятся дополнительные условия на структуру матрицы ![]() В экономике причинно-следственные отношения между явлениями часто описываются с помощью линейных или линеаризуемых зависимостей. Разработаны статистические критерии, позволяющие либо подтвердить факт непротиворечивости линейной формы зависимости опытным данным, либо отвергнуть предложенный вид зависимости как не соответствующий этим данным. Для проверки линейности регрессии применяется следующий метод. Пусть каждому значению объясняющей переменной соответствует несколько значений зависимой переменной, по которым вычисляют частные средние и т.д. Обозначим через частное среднее, соответствующее значению объясняющей переменной: ![]() где — число значений у, относящихся к Найдем теперь средний квадрат отклонений значений от их частных средних: ![]() Показатель (8.72) является мерой рассеяния опытных данных около своих частных средних, т. е. мерой, не зависящей от выбранного вида регрессии. В качестве меры рассеяния опытных данных вокруг эмпирической регрессионной прямой выбирается средний квадрат отклонений: ![]() Оба показателя представляют собой независимые статистические оценки одной и той же дисперсии в у. Если несущественно больше то в качестве гипотетической зависимости может быть принята линейная. Если в генеральной совокупности существует линейная регрессия и условные распределения переменной у хотя бы приблизительно нормальны, то отношение средних квадратов отклонений (8.72) и (8.73) ![]() имеет -распределение степенями свободы. Значение подсчитанное по формуле (8.74), сравнивается с критическим найденным по табл. 4 приложения при заданном уровне значимости а и степенях свободы. Если то разница между обоими средними квадратами отклонений статистически незначима и выбранная нами линейная регрессионная зависимость может быть принята как правдоподобная, не противоречащая опытным данным. Если а, то различие между обоими средними квадратами отклонений существенно, неслучайно, и гипотеза о линейной зависимости между переменными несостоятельна. Разработаны также другие критерии проверки гипотезы о линейности регрессии. Заинтересованный читатель может найти их в соответствующей литературе [122], [76]. |