Контрольная работа по статистике. Анализ. 1. Оценка уравнения регрессии
Скачать 25.37 Kb.
|
1. Оценка уравнения регрессии. Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор s получается из выражения: s = (XTX)-1XTY К матрице с переменными Xj добавляем единичный столбец:
Матрица Y
Матрица XT
Умножаем матрицы, (XTX) В матрице, (XTX) число 10, лежащее на пересечении 1-й строки и 1-го столбца, получено как сумма произведений элементов 1-й строки матрицы XT и 1-го столбца матрицы X Умножаем матрицы, (XTY) Находим обратную матрицу (XTX)-1 = Вектор оценок коэффициентов регрессии равен = = Уравнение регрессии (оценка уравнения регрессии) Y = 10.7099 + 0.4617X1 + 0.1462X2 Интерпретация коэффициентов регрессии. Константа оценивает агрегированное влияние прочих (кроме учтенных в модели хi) факторов на результат Y и означает, что Y при отсутствии xi составила бы 10.7099. Коэффициент b1 указывает, что с увеличением x1 на 1, Y увеличивается на 0.4617. Коэффициент b2 указывает, что с увеличением x2 на 1, Y увеличивается на 0.1462. 2. Матрица парных коэффициентов корреляции R. Число наблюдений n = 10. Число независимых переменных в модели равно 2, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 4. Матрица, независимых переменных Х имеет размерность (10 х 4). Матрица A, составленная из Y и X
Транспонированная матрица.
Матрица XTX.
Полученная матрица имеет следующее соответствие:
Найдем парные коэффициенты корреляции. Значения парного коэффициента корреляции свидетельствует о весьма сильной линейной связи между x1 и y. Значения парного коэффициента корреляции свидетельствует о умеренной линейной связи между x2 и y. Значения парного коэффициента корреляции свидетельствует о не сильной линейной связи между x2 и x1.
Дисперсии и среднеквадратические отклонения.
Матрица парных коэффициентов корреляции R:
Частные коэффициенты корреляции. Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и xi) при условии, что влияние на них остальных факторов (xj) устранено. На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели. Частные коэффициенты корреляции вычисляются по формуле: где Rij - алгебраическое дополнение элемента rij матрицы R. = Теснота связи весьма сильная. = Теснота связи умеренная. = Теснота связи умеренная. При сравнении коэффициентов парной и частной корреляции видно, что из-за влияния межфакторной зависимости между xi происходит завышение оценки тесноты связи между переменными. Анализ мультиколлинеарности. 1. Анализ мультиколлинеарности на основе матрицы коэффициентов корреляции. Если в матрице есть межфакторный коэффициент корреляции rxjxi>0.7, то в данной модели множественной регрессии существует мультиколлинеарность. В нашем случае все парные коэффициенты корреляции |r|<0.7, что говорит об отсутствии мультиколлинеарности факторов. 2. Ридж-регрессия. Наиболее детальным показателем наличия проблем, связанных с мультиколлинеарностью, является коэффициент увеличения дисперсии, определяемый для каждой переменной как: где Rj2 коэффициент множественной детерминации в регрессии Xj на прочие X. О мультиколлинеарности будет свидетельствовать VIF от 4 и выше хотя бы для одного j. По данному критерию мультиколлинеарность отсутствует. 3. Критерием плохой обсуловленности является высокая величина отношения λmax/λmin максимального и минимального собственных чисел матрицы XTX — называемого показателем обусловленности. Это соотношение также позволяет судить о степени серьезности проблем мультиколлинеарности: показатель обусловленности в пределах от 10 до 100 свидетельствует об умеренной коллинеарности, свыше 1000 — об очень серьезной коллинеарности. Модель регрессии в стандартном масштабе. Модель регрессии в стандартном масштабе предполагает, что все значения исследуемых признаков переводятся в стандарты (стандартизованные значения) по формулам: где хji - значение переменной хji в i-ом наблюдении. Таким образом, начало отсчета каждой стандартизованной переменной совмещается с ее средним значением, а в качестве единицы изменения принимается ее среднее квадратическое отклонение S. Если связь между переменными в естественном масштабе линейная, то изменение начала отсчета и единицы измерения этого свойства не нарушат, так что и стандартизованные переменные будут связаны линейным соотношением: ty = ∑βjtxj Для оценки β-коэффициентов применим МНК. При этом система нормальных уравнений будет иметь вид: rx1y=β1+rx1x2•β2 + ... + rx1xm•βm rx2y=rx2x1•β1 + β2 + ... + rx2xm•βm ... rxmy=rxmx1•β1 + rxmx2•β2 + ... + βm Для наших данных (берем из матрицы парных коэффициентов корреляции): 0.933 = β1 + 0.335β2 0.525 = 0.335β1 + β2 Данную систему линейных уравнений решаем методом Гаусса: β1 = 0.853; β2 = 0.239; Искомое уравнение в стандартизованном масштабе: ty=β1tx1+β2tx2 Расчет β-коэффициентов можно выполнить и по формулам: = = Стандартизированная форма уравнения регрессии имеет вид: ty = 0.853x1 + 0.239x2 Найденные из данной системы β–коэффициенты позволяют определить значения коэффициентов в регрессии в естественном масштабе по формулам: 3. Анализ параметров уравнения регрессии. Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных и относительных ошибок аппроксимации Для несмещенной оценки дисперсии проделаем следующие вычисления: Несмещенная ошибка ε = Y - Y(x) = Y - X*s (абсолютная ошибка аппроксимации)
Средняя ошибка аппроксимации Оценка дисперсии равна: se2=(Y-Y(X))T(Y-Y(X))=78.111 Несмещенная оценка дисперсии равна: Оценка среднеквадратичного отклонения (стандартная ошибка для оценки Y): Найдем оценку ковариационной матрицы вектора k = S2 • (XTX)-1 = = Дисперсии параметров модели определяются соотношением S2i = Kii, т.е. это элементы, лежащие на главной диагонали Множественный коэффициент корреляции (Индекс множественной корреляции). = Коэффициент множественной корреляции можно определить через матрицу парных коэффициентов корреляции: где Δr - определитель матрицы парных коэффициентов корреляции; Δr11 - определитель матрицы межфакторной корреляции. Коэффициент множественной корреляции Аналогичный результат получим при использовании других формул: Связь между признаком Y и факторами Xi весьма сильная. Коэффициент детерминации. R2= 0.95942 = 0.9205 Более объективной оценкой является скорректированный коэффициент детерминации: Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y. Добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации. Выводы. В результате расчетов было получено уравнение множественной регрессии: Y = 10.7099 + 0.4617X1 + 0.1462X2. Возможна экономическая интерпретация параметров модели: увеличение X1 на 1 ед.изм. приводит к увеличению Y в среднем на 0.462 ед.изм.; увеличение X2 на 1 ед.изм. приводит к увеличению Y в среднем на 0.146 ед.изм. |