Методическое пособие язык программирования к ф. м н., доцент Мусин Наиль Минбариевич Новомосковск 2015 содержание mind Map 3 Начало работы 5
Скачать 2.89 Mb.
|
Множественная регрессияПроведём анализ экономических результатах деятельности российских банков по следующим данным:
Удалим из таблицы ненужные столбцы, пронумеруем банки и сохраним пронумерованный список банков в файл Номера банков.doc Введем переменные: x - Собственный капитал, % y - Средства частных лиц, % z - Кредиты предприятиям и организациям, млн руб. Данные сохраним в файл data.txt Пусть y и z – факторы, а z – признак. Считываем данные из файла data.txt: data= read.table("data.txt", head=TRUE) attach(data) Определим коэффициенты парной корреляции: cor(data) z x y z 1.000 x -0.350 1.000 y -0.082 0.134 1.000 Они очень малы. Линейная зависимость признака от факторов практически отсутствует. Определим частные корреляции: >library(ggm) > alpha=cor(data) > parcor(alpha) z x y z 1.000 x -0.343 1.000 y -0.037 0.113 1.000 Построим модель множественной линейной регрессии признака z на факторы x и y в виде > summary(lm(zx+y)) Call: lm(formula = z x + y) Residuals: Min 1Q Median 3Q Max -18.266 -5.809 -1.157 3.873 56.966 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.05 0.9704 21.694 < 2e-16 *** x -0.1961 0.003763 -5.211 4.61e-07 *** y -4.379∙10-6 8.237∙10-6 -0.532 0.596 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 9.103 on 203 degrees of freedom Multiple R-squared: 0.1238, Adjusted R-squared: 0.1152 F-statistic: 14.35 on 2 and 203 DF, p-value: 1.487∙10-6 Коэффициенты a = -0.196, b =-4.379∙10-6, c = 21.05. Коэффициент b практически равен нулю. Согласно критерию Стьюдента он незначим, так как уровень значимости p-value = 0.596, что значительно превышает приемлемый уровень 0.001. Коэффициенты a и c значимы. Коэффициент множественной корреляции (Multiple R-squared) для данной модели составляет , то есть качество данной модели неудовлетворительное. Значимость среднеквадратичного отклонения, равного 14.35, подтверждает и F-критерий Фишера, согласно которому общий уровень значимости (определяемый по этой статистике): p-value: .487∙10-6, что намного меньше обычно достаточного на практике значения 0.001. Так как признак z от фактора y практически не зависит, построим модель однофакторной линейной регрессии признака z на факторы x в виде > summary(lm(zx)) Call: lm(formula = z x) Residuals: Min 1Q Median 3Q Max -18.244 -5.800 -1.076 3.289 56.961 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.03883 0.96839 21.73 < 2e-16 *** x -0.19877 0.03723 -5.34 2.47 ∙10-7 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 9.087 on 204 degrees of freedom Multiple R-squared: 0.1226, Adjusted R-squared: 0.1183 F-statistic: 28.51 on 1 and 204 DF, p-value: 2.474∙10-7 Уравнение регрессии имеет вид z = -0.19877x + 21.03883. Оба коэффициенты значимы, однако среднеквадратичное отклонение (Adjusted R-squared) для данной модели составляет , то есть качество данной модели неудовлетворительное. |