Главная страница
Навигация по странице:

  • 12. Множественная регрессия. Функция

  • 13. Линейная модель множественной регрессии. Проверка линейности модели

  • Выбор формы уравнения регрессии


    Скачать 8.7 Mb.
    НазваниеВыбор формы уравнения регрессии
    Анкорkira_shpory.doc
    Дата07.05.2018
    Размер8.7 Mb.
    Формат файлаdoc
    Имя файлаkira_shpory.doc
    ТипДокументы
    #19000
    страница4 из 13
    1   2   3   4   5   6   7   8   9   ...   13

    11. РАСПРЕДЕЛЕНИЕ КОЭФФИЦИЕНТОВ РЕГРЕССИИ И КОРРЕЛЯЦИИ

    Пусть выполняются следующие предпосылки: соотношение между переменными в генеральной совокупности вы­ражается линейной регрессией;

    возмущающая переменная и имеет нормальное распределение с математическим ожиданием  и дисперсией  ;

    значения зависимой переменной yi при фиксированных значениях объясняющих переменных xk (k = 1, ..., т) распределены нормально или приблизительно нормально. Тогда оценки параметров регрессии bk (k = 1, ..., т) распределены нормально с математическим ожида­нием и дисперсией . Отсюда следует, что величина

     (2.1)

    имеет стандартное нормальное распределение.

    Поскольку дисперсия возмущающей переменной  а также дис­персии оценок параметров регрессии  неизвестны, вместо них ис­пользуем выборочные дисперсии  и . Формула (2.1)'приобрета­ет вид:

     (2.2)

    Статистика (2.2) имеет t-распределение с пт— 1 степенями сво­боды. Это следует учитывать особенно при малом объеме выборки.



    Коэффициент корреляции вычисляется по результатам выборки. Поэтому его часто называют выборочным коэффициентом корреляции. Итак, коэффициент корреляции является функцией от выборки. Его значе­ния, вычисленные по результатам различных выборок, отличаются друг от друга. Следовательно, выборочный коэффициент корреляции представляет собой случайную величину с определенным распределе­нием вероятностей. Распределение коэффициента парной корреляции можно считать приближенно нормальным при выполнении следующих условий:

    случайные переменные у и х имеют совместное нормальное или приближенно нормальное распределение;

    корреляционная связь между переменными не очень тесная, т. е. коэффициент корреляции не слишком близок ± 1;

    3) объем выборки достаточно велик.

    Первое условие приводит к так называемой нормальной корреля­ции, при которой переменные соединены линейным соотношением. Плотность двумерного нормального распределения изображается в си­стеме координат поверхностью, называемой поверхностью нормаль­ного распределения (см. рис. 20, а). На рис. 20, а и 20, б параметры генеральной совокупности обозначены греческими буквами. В сече­нии нормальной поверхности распределения плоскостями, параллель­ными координатной плоскости xOz, получаются кривые распределения случайной переменной х, соответствующие определенным значениям у. Аналогично в сечении нормальной поверхности распределения плоско­стями, параллельными координатной плоскости yOz, получаются кри­вые распределения переменной у, соответствующие определенным зна­чениям х. Кривые распределения отличаются друг от друга лишь своей крутизной. Они являются графическими изображениями условных рас­пределений соответственно переменных х и у при фиксированных зна­чениях у их. Если спроецировать на плоскость хОу средние значения условных распределений переменной х и соединить линией полученные точки, то образованная таким образом линия будет называться линией регрессии х на у. Сопряженная с ней линия регрессии у на х является множеством точек, соответствующим средним значениям условных рас­пределений переменной у.

    Пересекая поверхность распределения плоскостями, параллельны­ми координатной плоскости хОу, в проекции на этой плоскости полу­чаем семейство концентрических эллипсов различных размеров с оди­наковой ориентацией главных осей и с общим центром в точке с коор­динатами  и . Их называют эллипсами рассеяния. Точка пересече­ния линий регрессии у на х и х на у совпадает с центром эллипсов рас­сеяния. Вследствие симметричности нормального распределения линии регрессии делят площадь эллипсов пополам (см. рис. 20, б).

    Точное распределение выборочного коэффициента частной корре­ляции  такое же, как и обычного коэффициента парной кор­реляции, вычисленного по выборке объема п k, где k — число ис­ключенных переменных. При перечисленных выше условиях его мож­но также аппроксимировать нормальным. Распределения коэффициен­та множественной корреляции, корреляционного отношения и ин­декса корреляции, напротив, даже при выборках сравнительно боль­шого объема сильно отличаются от нормального.

    По второму условию с увеличением интенсивности корреляционной связи сходимость распределения выборочного коэффициента корре­ляции к нормальному уменьшается. Распределение выборочного ко­эффициента корреляции становится все более асимметричным. Р. Фи­шер указал нормализующее преобразование случайной величины z, благодаря которому распределение г может быть приближенно приве­дено к нормальному:

    , (2.3)

    где In — (натуральный) логарифм с основанием е (е = 2,71828...); lg — десятичный логарифм (логарифм с основанием 10). При r = ± \ соответственно z = ± ∞. При r = 0 получаем z = 0.

    Р. Фишер показал, что распределение величины z, отдельные реа­лизации которой определяются соотношением (2.3), при п → асимптотически нормально с параметрами

     (2.4)

     (2.5)

    Даже при небольших п приближение достаточно хорошее. Как видно из (2.5), стандартное отклонение  зависит не от величины параметра р (коэффициента корреляции генеральной совокупности), а только от объема выборки п. С увеличением объема выборки  становится мень­ше. Значения z-преобразования Фишера могут быть определены с помо­щью таблицы логариф­мов. Обратный пересчет z в r проводят с помо­щью соотношения  , (2.6)

    где tanh z — гиперболи­ческий тангенс от аргу­мента z, его можно опре­делить по таблице лога­рифмов либо с помощью соотношения

     (2.7)



    При невыполнении третьего условия, т. е. когда объем выборки n мал, распределение выборочного коэффициента корреляции сильно отличается от нормального, что видно из рис. 21. Если р ≠ 0, то с уменьшением объема выборки увеличивается асимметричность распределения r. Это осложняет проверку надежности выборочного коэффициента корреляции.

    Если коэффициент корреляции р двумерного нормального распре¬деления равен нулю (р = 0), то в этом случае статистика

     (2.8)

    имеет t - распределение с n - 2степенями свободы.

    12. Множественная регрессия.

    Функция , описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии1. Уравнение регрессии показывает ожидаемое значение зависимой переменной при определенных значениях зависимых переменных .

    В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии).

    В зависимости от вида функции модели делятся на линейные и нелинейные.

    Модель множественной линейной регрессии имеет вид:

    y i = 0 + 1x i 1 +2x i 2 +…+ k x i k + i (2.1)

    - количество наблюдений.

    коэффициент регрессии jпоказывает, на какую величину в среднем изменится результативный признак , если переменную xjувеличить на единицу измерения, т. е. j является нормативным коэффициентом.

    Коэффициент может быть отрицательным. Это означает, что область существования показателя не включает нулевых значений параметров. Если же а0>0, то область существования показателя включает нулевые значения параметров, а сам коэффициент характеризует среднее значение показателя при отсутствии воздействий параметров.

    Анализ уравнения (2.1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи:

    (2.2) .

    Где – вектор зависимой переменной размерности п 1, представляющий собой п наблюдений значений .

    - матрица п наблюдений независимых переменных , размерность матрицы равна п (k+1) . Дополнительный фактор , состоящий из единиц, вводится для вычисления свободного члена. В качестве исходных данных могут быть временные ряды или пространственная выборка.

    - количество факторов, включенных в модель.

    a— подлежащий оцениванию вектор неизвестных параметров размерности (k+1) 1;

    — вектор случайных отклонений (возмущений) размерности п 1. отражает тот факт, что изменение будет неточно описываться изменением объясняющих переменных , так как существуют и другие факторы, неучтенные в данной модели.

    Таким образом,

    Y =, X = , , a = .

    Уравнение (2.2) содержит значения неизвестных пара­метров 0,1,2,… ,k . Эти величины оцениваются на основе выборочных наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки. Модель линейной регрес­сии, в которой вместо истинных значений параметров под­ставлены их оценки (а именно такие регрессии и приме­няются на практике), имеет вид

    , (2.3)

    где A — вектор оценок параметров; е — вектор «оценен­ных» отклонений регрессии, остатки регрессии е = Y - ХА; —оценка значе­ний Y, равная ХА.

    Построение уравнения регрессии осуществляется, как правило, методом наименьших квадратов (МНК), суть которого состоит в минимизации суммы квадратов отклонений фактических значений результатного признака от его расчетных значений, т.е.:

    .

    13. Линейная модель множественной регрессии. Проверка линейности модели

    Рассмотрим линейную модель множественной регрессии:

    1)

    2) , , , ,

    Значения признака Матрица объясняющих Вектор Вектор Вектор переменных, столбцами регрессора j случайных коэфф-тов которой являются Xj ошибок регрессии

    3),

    В классической модели компоненты вектора возмущений некоррелированы М() = 0 при , а дисперсии компонент постоянны , ковариационная матрица возмущений



    Суть обобщения регрессионной модели состоит в том, что ковариации и дисперсии объясняющих переменных могут быть произвольными (т.о. обобщенная модель множественной регрессии отличается от классической только видом ковариационной матрицы). - положительно определенная матрица (АТ = А и хТАх > 0). В классической модели множественной регрессии обычным МНК был получен вектор оценок параметров, он является несмещенной и состоятельной оценкой для . Рассмотрим ковариационную матрицу





    В классической модели и К = . В качестве выборочной оценки ковариационной матрицы К была взята матрица

    ,

    где , причем M(S2) = и = К, т.е. - несмещенная оценка К.

    В обобщенной модели и К = . Если в качестве оценки матрицы К взять ту же матрицу, то , т.е. - смещенная оценка для К. Т.о., обычный МНК в обобщенной линейной регрессионной модели дает смещенную оценку ковариационной матрицы К вектора оценок параметров. Следовательно, оценка не будет оптимальной в смысле теоремы Гаусса-Маркова. Для получения наиболее эффективной оценки ковариационной матрицы К нужно использовать оценку, получаемую так называемым обобщенным МНК.

    Теорема Айткена: в классе линейных несмещенных оценок вектора для обобщенной регрессионной модели оценка



    имеет наименьшую ковариационную матрицу.

    Для применения обобщенного МНК надо знать ковариационную матрицу вектора возмущений , что встречается крайне редко в практике эконометрического моделирования. Если считать все n(n+1)/2 элементов матрицы неизвестными параметрами обобщенной модели (в дополнение к (р+1) параметрам регрессии), то общее число параметров превысит число наблюдений n, что сделает оценку этих параметров неразрешимой задачей.

    Для практической реализации обобщенного МНК вводятся дополнительные условия на структуру матрицы .

    В экономике причинно-следственные отношения между явлениями часто описываются с помощью линейных или линеаризуемых зависимостей. Разработаны статистические критерии, позволяющие либо подтвердить факт непротиворечивости линейной формы зависимости опытным данным, либо отвергнуть предложенный вид зависимости как не соответствующий этим данным. Для проверки линейности регрессии применяется следующий метод. Пусть каждому значению объясняющей переменной соответствует несколько значений зависимой переменной, по которым вычисляют частные средние и т.д. Обозначим через частное среднее, соответствующее значению объясняющей переменной:



    где — число значений у, относящихся к

    Найдем теперь средний квадрат отклонений значений от их частных средних:



    Показатель (8.72) является мерой рассеяния опытных данных около своих частных средних, т. е. мерой, не зависящей от выбранного вида регрессии. В качестве меры рассеяния опытных данных вокруг эмпирической регрессионной прямой выбирается средний квадрат отклонений:



    Оба показателя представляют собой независимые статистические оценки одной и той же дисперсии в у. Если несущественно больше то в качестве гипотетической зависимости может быть принята линейная.

    Если в генеральной совокупности существует линейная регрессия и условные распределения переменной у хотя бы приблизительно нормальны, то отношение средних квадратов отклонений (8.72) и (8.73)



    имеет -распределение степенями свободы. Значение подсчитанное по формуле (8.74), сравнивается с критическим найденным по табл. 4 приложения при заданном уровне значимости а и степенях свободы. Если то разница между обоими средними квадратами отклонений статистически незначима и выбранная нами линейная регрессионная зависимость может быть принята как правдоподобная, не противоречащая опытным данным. Если а, то различие между обоими средними квадратами отклонений существенно, неслучайно, и гипотеза о линейной зависимости между переменными несостоятельна. Разработаны также другие критерии проверки гипотезы о линейности регрессии. Заинтересованный читатель может найти их в соответствующей литературе [122], [76].
    1   2   3   4   5   6   7   8   9   ...   13


    написать администратору сайта