Выбор формы уравнения регрессии
Скачать 8.7 Mb.
|
17. Выбор формы уравнения регрессии Как и в парной зависимости, возможны разные виды уравнений множественной регрессии линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции. В линейной множественной регрессии параметры при x называются коэффициентами чистой регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне. Стандартные компьютерные программы обработки регрессионного анализа позволяют перебирать различные функции и выбрать ту из них, для которой остаточная дисперсия и ошибка аппроксимации минимальны, а коэффициент детерминации максимален. Если исследователя не устраивает предлагаемый стандартный набор функций регрессии, то можно использовать любые другие, приводимые путем соответствующих преобразований к линейному виду. Однако чем сложнее функция, тем менее интерпретируемы ее параметры. При сложных полиномиальных функциях с большим числом факторов необходимо помнить, что каждый параметр преобразованной функции является средней величиной, которая должна быть подсчитана по достаточному числу наблюдений. Если число наблюдений невелико, что, как правило, имеет место в эконометрике, то увеличение числа параметров функции приведет к их статистической незначимости и соответственно потребует упрощения вида функции. Если один и тот же фактор вводится в регрессию в разных степенях, то каждая степень рассматривается как самостоятельный фактор. В эконометрике регрессионные модели часто стоятся на основе макроуровня экономических показателей, когда ставится задача оценки влияния наиболее экономически существенных факторов на моделируемый показатель при ограниченном объеме информации. Поэтому полиномиальные модели высоких порядков используются редко. 18. Оценка параметров уравнения множественной регрессии. Оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии. Так, для уравнения y=a+b1*x1+b2*x2+…+bp*xp+E система нормальных уравнений составит: ∑y=n*a+b1*∑x1+b2*∑x2+…+bp*∑xp, ∑y*x1=a*∑x1+b1*∑x1^2+b2*∑x1*x2+…+bp*∑xp*x1, ……………………………………………… ∑y*xp=a*∑xp+b1*∑x1*xp+b2*∑x2*xp+…+bp*∑xp^2. Ее решение может быть осуществлено методом определителей: a=∆a/∆, b1=∆b1/∆, …bp=∆bp/∆. Где ∆ - определитель системы; ∆a, ∆b1,… ∆bp - частные определители При этом: n ∑x1 ∑x2 …. ∑xp ∑x1 ∑x1^2 ∑x2*x1… ∑xp*x1 ∆= ∑x2 ∑x1*x2 ∑x2^2 … ∑xp*x2 ……………………………. ∑xp ∑x1*xp ∑x2*xp ….∑xp^2 a ∆a, ∆b1…∆bp получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы. Возможен иной подход к определению параметров, когда на основе матрицы парных коэффициентов корреляции строится уравнение регрессии в стандартизованном масштабе: ty=B1*tx1+B2*tx2+…+bp*txp+E Где ty, tx1…txp -стандартизованные переменные: ty=(y-y cp)/σy, tx1=(xi-xi cp)/σx1, для которых среднее значение равно нулю: ty cp = txi =0, a ср. квадратическое отклонение равно единице: σty= σtx =1; β - стандартизованные коэффициенты регрессии. Применяя МНК к уравнению МР в стандартизованном масштабе, после соответствующих преобразований получим систему нормальных уравнений вида Ryx1=B1+B2*Rx2x1+B3*Rx3x1+…+Bp*Rxpx1, Ryx2=B1*Rx2x1+B2+B3*Rx3x2+…+Bp*Rxpx2, ………………………………………………………….. Ryxp=B1*Rxpx1+B2*Rxpx2+B3*Rx3xp+…+Bp. Решая ее методом определителей, найдем параметры – стандартизованные коэффициенты регрессии (В-коэффициенты). Они показывают, на сколько сигм изменится в среднем результат, если соответствующий фактор хi изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии Вi сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой. Рассмотренный смысл стандартизованных коэффициентов регрессии позволяет их использовать при отсеве факторов - из модели исключаются факторы с наименьшим значением Вj 19. Обобщенный метод наименьших квадратов Сущность обобщённого МНК Известно, что симметрическую положительно определенную матрицу можно разложить как , где P- некоторая невырожденная квадратная матрица. Тогда обобщённая сумма квадратов может быть представлена как сумма квадратов преобразованных (с помощью P) остатков . Для линейной регрессии это означает, что минимизируется величина: где , то есть фактически суть обобщённого МНК сводится к линейному преобразованию данных и применению к этим данным обычного МНК. Если в качестве весовой матрицы W используется обратная ковариационная матрица V случайных ошибок e (то есть ), преобразование P приводит к тому, что преобразованная модель удовлетворяет классическим предположениям (Гаусса-Маркова), следовательно оценки параметров с помощью обычного МНК будут наиболее эффективными в классе линейных несмещенных оценок. А поскольку параметры исходной и преобразованной модели одинаковы, то отсюда следует утверждение — оценки ОМНК являются наиболее эффективными в классе линейных несмещенных оценок (теорема Айткена). Формула обобщённого МНК имеет вид: Ковариационная матрица этих оценок равна: 20. Частные уравнения регрессии На основе линейного уравнения множественной регрессии: y = a + b1*x1 + b2*x2+…+bp*xp+, могут быть найдены частные уравнения регрессии: yx1.x2,x3,…,xp = f(x1), yx2.x1,x3,…,xp = f(x2), ……………………… yxp.x1,x2,…,xp-1 = f(xp), т.е. уравнения регрессии, которые связывают результативный признак с соответствующими факторами х при закреплении других учитываемых во множественной регрессии факторов на среднем уровне. Частные уравнения регрессии имеют следующий вид: yx1.x2,x3,…,xp = a + b1*x1 + b2*x2 с чертой наверху + b3*x3 с чертой …+bp*xp с чертой+, yx2.x1,x3,…,xp = a + b1*x1 с чертой + b2*x2 + b3*x3 с чертой …+bp*xp с чертой+, ……………………………………………………………………………………………………. yxp.x1,x2,…,xp-1 = a + b1*x1 с чертой + b2*x2с чертой +…+bp-1*xp-1 с чертой + bp*xp +, При подстановке в эти уравнения средних значений соответствующих факторов они принимают вид парных уравнений линейной регрессии, т.е. имеем: y с домиком (^) наверху x1..x2x3..xp = A1+b1*x1; y с домиком (^) наверху x2..x1x3..xp = A2+b2*21; …………………………………………………. y с домиком (^) наверху xp..x1x2..xp-1 = Ap+bp*xp; где A1= a + b2*x2 с чертой наверху + b3*x3 с чертой …+bp*xp с чертой, A2= a + b1*x1 с чертой наверху + b3*x3 с чертой …+bp*xp с чертой, …………………………………………………………………………….. Ap= a + b1*x1 с чертой наверху + b2*x2 с чертой …+bp-1*xp-1 с чертой. В отличие от парной регрессии частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффект влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности: Эyxi=bi*(xi/y c^ наверху xi.x1x2…xi-1xi+1…xp), где bi – коэффициент регрессии для фактора xi в уравнении множественной регрессии; y c^ наверху xi.x1x2…xi-1xi+1…xp – частное уравнение регрессии. 21. Множественная корреляция. Как многократно подчеркивалось, в практике социально-экономических исследований чаще всего встречаются сложные взаимосвязи между явлениями. Отсюда возникает задача определения интенсивности, или тесноты, связи между более чем двумя явлениями (переменными). Для этой цели используется коэффициент множественной корреляции, или совокупный коэффициент корреляции, который характеризует тесноту связи одной из переменных с совокупностью других. Рассмотрим вначале корреляцию между тремя переменными. По аналогии с формой записи коэффициента множественной детерминации” обозначим коэффициент множественной корреляции через ry∙12 Он показывает интенсивность связи при условии, что переменная i одновременно зависит от переменных х1 и х2. В предположении линейной связи между переменными мы можем исходя из коэффициента детерминации (3.) (2.34) с учетом ( = - коэф. кореляции) записать: (2.35) Далее обратимся к (2.36): () + () (2.36) Подставим (2.36) в (2.35): (2.37) Разделив числитель и знаменатель (2.37) на и учитывая выражения дисперсий и , а также ковариации s12, получим (2.38) Применив формулы (2.28), (2.29) и (2.4), после соответствующих сокращений получим (2.39) Умножим первое из уравнений (2.31) на b1’, а второе — на b2’. Затем сложим правые и левые части этих уравнений: (2.40) Правые части равенств (2.39) и (2.40) равны. Отсюдa (2.41) или (2.42) Учитывая теперь (2.26) и (2.27), получим формулу коэффициента множественной корреляции в виде, очень удобном для практических вычислений: (2.43) Из (2.43) видно, что коэффициент множественной корреляции заключен в пределах 0 ≤ ≤ 1. С помощью коэффициента множественной корреляции нельзя сделать вывод о характере взаимосвязи, т.е. о положительной или отрицательной корреляции между переменными. Только если все коэффициенты парной корреляции имеют одинаковый знак, то можно этот знак отнести также к коэффициенту множественной корреляции и утверждать о соответствующем характере множественной связи. Чем больше значение коэффициента приближается к единице, тем взаимосвязь сильнее. Легко увидеть, что (2.43) для случая r12= 0 принимает вид = + (2.44) Итак, если объясняющие переменные х1 и x2 не коррелированы, т. е. связь между ними отсутствует, то квадрат коэффициента множественной корреляции равен сумме квадратов коэффициентов парных корреляций. Другими словами, он равен сумме интенсивности взаимосвязи между у и х1 , а также между у и х2. Следовательно, при некоррелированности объясняющих переменных анализ взаимосвязи облегчается. Коэффициент множественной корреляции используется, кроме того, как показатель точности оценки функции регрессии, по нему можно судить, достаточно ли выбранные объясняющие переменные обусловливают количественную вариацию зависимой переменной. Если коэффициент множественной корреляции, который, как мы покажем далее, тесно связан с коэффициентом множественной детерминации, принимает значения, близкие к 1, то вариация зависимой переменной почти полностью определяется изменениями объясняющих переменных. Включенные в анализ объясняющие переменные оказывают сильное влияние на зависимую переменную. Коэффициент множественной корреляции не меньше, чем абсолютная величина любого коэффициента парной и частной корреляции с таким же первичным индексом. Это справедливо независимо от того, существует между объясняющими переменными причинная связь или нет. Мы не будем останавливаться на доказательстве этого утверждения. Выражение коэффициента множественной корреляции для любого числа объясняющих переменных можно получить путем обобщения (2.42): (2.45) Используя матричную форму записи (2.32) и обобщая формулу (2.43), получим = r’ R-1 r . (2.46) 22. Частная корреляция. Как неоднократно подчеркивалось, экономические явления чаще всего приходится описывать многофакторными моделями. В связи с этим возникают две задачи: 1) определение тесноты связи одной из переменных с совокупностью остальных переменных, включенных b анализ; это является задачей изучения множественной корреляции; 2) определение тесноты связи между двумя переменными при фиксировании или исключении влияния остальных. Интенсивность такой связи оценивается с помощью коэффициентов частной корреляции. Если переменные коррелируют друг с другом, то на величине коэффициента парной корреляции частично сказывается влияние других переменных. Если, например, между х1 и х2 существует тесная связь, и, кроме того, у зависит от х1, то у будет также коррелировать с х2. Вполне возможно, что корреляция между у и х2 не прямая, а косвенная, возникающая вследствие воздействия х1. Поэтому необходимо исследовать частную корреляцию между у и х2 при исключении влияния х1 на у. Исключаемые переменные могут закрепляться как на средних, так и на других уровнях, выбранных в соответствии с интересующими нас участками изменения переменных, между которыми определяется связь в «чистой» форме. Здесь следует учитывать профессионально-теоретические соображения об изучаемом явлении. Измерение частного воздействия отдельных переменных выполняется на основе частной регрессии и частной корреляции. Следуя форме записи коэффициента частной детерминации, обозначим через ry1∙2 коэффициент частной корреляции, с помощью которого оценивается интенсивность связи между переменными у и х1 при исключении влияния х2. В соответствии с данным определением, например, r12.у также будет коэффициентом частной корреляции, измеряющим тесноту связи между переменными х1 и х2 при исключении влияния у. В то время как при рассмотрении множественной корреляции используется мера зависимости одной из переменных с совокупностью других, при изучении частной корреляции определяется частное воздействие каждой отдельной переменной при предположении ее связи с остальными переменными. Рассмотрим задачи исследования частной корреляции на примере взаимосвязи трех переменных. Проанализируем коэффициент частной корреляции между переменными у и х1 при исключении влияния х2. Основываясь на формуле (2.48) b1 (2.48) построим коэффициент детерминации по аналогии с (2.49) (2.49) и потребуем в соответствии с ( = - коэф. кореляции), чтобы этот коэффициент детерминации был равен квадрату коэффициента частной корреляции. Это требование вполне оправдано, так как коэффициент детерминации должен вычисляться по данным, из которых исключено влияние переменной х2. Итак, получаем (2.50) Учитывая, что = 0, (2.50) можно привести к виду (2.51) Формула (2.51) мало пригодна для практических вычислений. Для получения более удобного выражения выполним некоторые преобразования. Подставим (2.48) в (2.51). Учитывая далее а также то, что коэффициенты частной регрессии равны коэффициентам множественной регрессии, получим (2.52) Введем следующие обозначения. Пусть by1.2 — коэффициент частной регрессии у на x1; b0(12) — постоянная, а b12 — коэффициент регрессии x1 на х2; b0(У2) — постоянная, а by2 — коэффициент регрессии у на х2. В соответствии c получим выражение (2.53) которое будет необъясненной дисперсией для регрессии х1 на х2. Отсюда делаем заключение, что знаменатель в (2.52) представляет собой необъясненную дисперсию для регрессии у на х2. Исходя из этих соображений (2.52) записываем в виде (2.54) Мы знаем, что общую дисперсию можно разложить на две составляющие — объясненную и необъясненную дисперсии. Используем это обстоятельство в дальнейших наших рассуждениях. Разделим обе части тождества на и, учитывая (2.6), после некоторых простых преобразований получим (2.55) По аналогии можно записать (2.56) Подставим (2.56) в (2.54) (2.57) Теперь подставим (2.24) в (2.57) и выполним некоторые преобразования: (2.58) Таким образом, мы получили формулу коэффициента частной корреляции, удобную для практических вычислений. По аналогии можно легко записать выражения для других коэффициентов частной корреляции. Вычисление коэффициентов частной корреляции сводится к нахождению коэффициентов парной корреляции. Благодаря выведенным формулам легко установить соотношения между этими коэффициентами. Так, если rу2 = r12 = 0, то rу1.2 = rу1. Если r12 = 0 (т.е. переменные х1 и х2 не коррелированы), то |ry1.2| > |rу1| и |rу2.1|> |rу2| . Итак, с уменьшением взаимодействия между х1 и х2 следует ожидать увеличения коэффициента частной корреляции по сравнению с соответствующим коэффициентом парной корреляции. Это увеличение тем сильнее, чем больше |rу1| или |rу2|. Далее, |ry1.2| > |rу1|, если rу2 = 0 и |rу2.1|> |rу2|, если ry1 = 0. В обоих случаях неравенства тем больше, чем сильнее взаимодействие между х1 и х2, а следовательно, чем больше r12. Если коэффициенты корреляции rу2 и r12 имеют противоположные знаки, то всегда |ry1.2| > |rу1|. Обобщим теперь выражение коэффициента частной корреляции на любое число объясняющих переменных. Воспользуемся для этого формулой (2.57). После извлечения корня квадратного из обеих частей равенства получим (2.59) По аналогии запишем (2.60) Так как r1y.2 = ry1.2, то, перемножая соответственно правые и левые части (2.59) и (2.60), получим (2.61) В соответствии с (2.28) и (2.29) (2.62) Обобщая, можно записать (2.63) Формула (2.63) позволяет нам вычислять коэффициент частной корреляции по коэффициентам частной регрессии. По аналогии с (2.58), обобщая на любое число объясняющих переменных, получим (2.64 Как видно из (2.64), вычисление коэффициента частной корреляции порядка m сводится к определению коэффициентов частной корреляции порядка m-1. При использовании (2.64) сначала необходимо знать коэффициенты парной корреляции, а затем приступать к вычислению коэффициентов корреляции более высокого порядка. При более чем четырех переменных вычисление частных коэффициентов корреляции желательно производить на КВМ. |