Глава 2. Множественная регрессия и корреляция
2.1. Теоретические основы
Множественной регрессией называется уравнение связи
)
,...,
,
(
2 1
n
x
x
x
f
y
=
между результативным признаком y и факторными признаками n
2 1
x
,...,
x
,
x
Уравнение линейной множественной регрессии имеет вид: n
n
2 2
1 1
0
x a
x a
x a
a y
+
+
+
+
=
, где n
2 1
a
,...,
a
,
a
- коэффициенты регрессии, показывающие абсолютное изменение результативного признака y под влиянием изменения соответствующих факторных признаков на 1 единицу.
Согласно методу наименьших квадратов требуется найти такие значения коэффициентов n
2 1
a
,...,
a
,
a
, которые бы минимизировали сумму квадратов отклонений фактических значений признака от расчетных min
2 2
2 2
1
→
+
+
+
=
n
e
e
e
S
, где i
i i
y
y e
−
=
Рассмотрим случай двух факторных признаков
2 2
1 1
0
x a
x a
a y
+
+
=
. Тогда остатки в этом случае будут равны i
2 2
i
1 1
0
i i
i i
x a
x a
a y
y
y e
−
−
−
=
−
=
. Сумма квадратов остатков
(
)
(
)
∑
∑
∑
=
=
=
→
−
−
−
=
−
=
=
n
1
i n
1
i n
1
i
2
i
2 2
i
1 1
i
2
i i
2
i min x
a x
a a
y y
y e
S
Необходимые условия первого порядка для минимума имеют следующий вид:
=
∂
∂
=
∂
∂
=
∂
∂
0
a
S
,
0
a
S
,
0
a
S
2 1
0
(
)
(
)
(
)
=
⋅
−
−
−
−
=
∂
∂
=
⋅
−
−
−
−
=
∂
∂
=
−
−
−
−
=
∂
∂
∑
∑
∑
=
=
=
0
x x
a x
a a
y
2
a
S
,
0
x x
a x
a a
y
2
a
S
,
0
x a
x a
a y
2
a
S
i
2
n
1
i i
2 2
i
1 1
0
i
2
i
1
n
1
i i
2 2
i
1 1
0
i
1
n
1
i i
2 2
i
1 1
0
i
0
Разделив каждое уравнение на
(
)
n
2
−
и переходя к средним, получим систему трех линейных уравнений с тремя неизвестными
2 1
0
a
,
a
,
a
:
=
−
−
−
=
−
−
−
=
−
−
−
0
x a
x x
a x
a y
x
,
0
x x
a x
a x
a y
x
,
0
x a
x a
a y
2 2
2 2
1 1
21 0
2 2
1 2
2 1
1 1
0 1
2 2
1 1
0
Для решения этой системы может быть применен метод Крамера, метод
Гаусса, метод матричного исчисления, либо другой метод решения систем линейных уравнений.
Тесноту совместного влияния факторов на результат оценивает коэффициент множественной корреляции:
(
)
(
)
∑
∑
−
−
−
=
σ
σ
−
=
2 2
2
y
2
y x
x yx y
y y
y
1 1
R
ост p
2 1
Значение коэффициента множественной корреляции лежит в пределах от 0 до 1 и должно быть больше или равно максимальному парному индексу корреляции i
m
2 1
yx x
x yx r
R
≥
. Чем ближе коэффициент
R
к единице, тем теснее связь между результативным признаком и факторными.
Качество построенной модели в целом оценивает коэффициент (индекс) детерминации. Коэффициент множественной детерминации рассчитывается как квадрат индекса множественной корреляции:
2
x x
yx m
2 1
R
Величина
%
100
R
2
x x
yx m
2 1
⋅
показывает, сколько процентов изменения результативного признака объясняется изменением факторных признаков, включенных в уравнение регрессии.
При построении уравнения множественной регрессии может
возникнуть проблема мультиколлинеарности факторов, их тесной линейной зависимости.
Если коэффициент корреляции между факторными признаками, включенными в уравнение регрессии,
7 0
r
2 1
x x
≥
, то факторы считаются мультиколлинераными. Если на этапе отбора факторов обнаружена мультиколлинеарность, то необходимо исключить фактор меньше коррелируемый с
y и включить фактор, коррелированный с
у и не коррелированный с уже включенным факторным признаком. Рекомендуется отбор факторных признаков осуществлять на основе матрицы парных коэффициентов корреляций, полученной с помощью инструмента анализа данных
Корреляция в ППП MS Excel.
В случае множественной линейной регрессии ее значимость оценивается с помощью F-критерия Фишера. Для этого рассчитывается величина:
mmnRRFрасчетоне1 1
2 2
−
−
⋅
−
=
, где
m – число факторных признаков в уравнении регрессии,
n – число наблюдений,
R – коэффициент множественной корреляции. По таблице F- критерия Фишера определяется
(
)
1
m n
k
,
m k
F
2 1
табл
−
−
=
=
. Если расчетное значение больше табличного при уровне значимости
α
и m и n-m-1 степенях свободы, то уравнение считается статистически значимым, иначе – незначимым.
Оценка значимости коэффициентов регрессии осуществляется с помощью t-критерия Стьюдента и сводится к вычислению значений
(
)
1
m n
R
1
r
R
t
2 2
yx
2 2
1
−
−
⋅
−
−
=
α
,
(
)
1
m n
R
1
r
R
t
2 2
yx
2 1
2
−
−
⋅
−
−
=
α
, если эти расчетные значения больше табличного при уровне значимости
α
и n-m-1 степенях свободы, то коэффициенты регрессии считаются статистически значимыми.
Существует большое количество пакетов прикладных программ, с помощью которых можно облегчить эконометрические расчеты. Они делятся на специализированные (Eviews, Stata, Statistica, Statgraphics) и универсальные, из которых наиболее распространен Microsoft Excel. Решение примера приведем с использованием ППП MS Excel, как наиболее доступного.
Сводную таблицу основных статистических характеристик для одного или нескольких массивов данных можно получить с помощью инструмента
Описательная статистика
. Для этого необходимо выполнить следующие шаги: введите исходные данные, в главном меню выберите последовательно пункты Сервис/Анализ данных/Описательная статистика, после чего щелкните по кнопке Ок. Заполните диалоговое окно ввода данных и параметров вывода.
Пусть имеются следующие данные о ставках месячных доходов по трем акциям за шестимесячный период:
Акция
Доходы по месяцам, %
А
5,4 5,3 4,9 4,9 5,4 6,0
В
6,3 6,2 6,1 5,8 5,7 5,7
С
9,2 9,2 9,1 9,0 8,7 8,6
Есть основания предполагать, что доходы по акции С зависят от доходов по акциям А и В (линейные зависимости).
Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого в главном меню последовательно выберите
пункты
Сервис/Анализ
данных/Корреляция
, после чего щелкните по кнопке Ок. Заполните диалоговое окно ввода данных и параметров вывода. Матрица парных коэффициентов для данной задачи будет иметь вид:
А
В
С
А 1
В -0,30807 1
С -0,62167 0,913009 1
Вычисление параметров линейного уравнения парной регрессии проводится с помощью инструмента анализа данных Регрессия. Порядок действий следующий: в главном меню последовательно выберите пункты
Сервис/Анализ данных/Регрессия
, после чего щелкните по кнопке Ок.
Заполните диалоговое окно ввода данных и параметров вывода.
Результаты множественного регрессионного анализа представлены ниже:
Согласно расчетам, полученным в Excel, зависимость доходов по акции
С от доходов по акциям А и В имеет вид:
2 1
x
77 0
x
24 0
62 5
y
+
−
=
, что означает, что при увеличении доходов по акции А на 1% доходы по акции С уменьшатся на 0,24%, а при увеличении доходов по акции B на 1% доходы по акции С увеличатся на 0,77%.
Оценка тесноты связи дает следующие результаты:
98 0
R
≈
,
96 0
R
2
≈
, т.е. связь между доходами по акции С и доходами по акциям А и В сильная и
96% изменения доходов по акции С объясняется изменением доходов по акциям А и В.
Уравнение значимо на 5% уровне, т.к. значение «значимость F» меньше
0,05. Кроме того, на 6% уровне значимы оба коэффициента, ошибка первого коэффициента чуть больше 5%, а у второго – меньше 1%. Доверительный интервал для коэффициента
2
a можно проинтерпретировать так: при увеличении доходов по акции В на 1% доходы по акции с увеличатся на величину от 0,41% до 1,14%.
Таким образом, нами продемонстрирован один из многочисленных инструментов анализа данных, имеющихся в ППП MS Excel. Ознакомиться с другими инструментами можно самостоятельно.
Практика построения множественных регрессионных моделей взаимосвязи показывает, что реально существующие взаимосвязи между социально-экономическими явлениями можно описать следующими типами моделей:
1. Линейная: n
n
1 1
0
x a
x a
a y
+
+
+
=
2. Степенная: n
2 1
a n
a
2
a
1 0
x x
x a
y
=
3. Показательная: n
n
1 1
0
x a
x a
a e
y
+
+
+
=
4. Параболическая:
2
n n
2 1
1 0
x a
x a
a y
+
+
+
=
5. Гиперболическая: n
n
1 1
0
x a
x a
a y
+
+
+
=
Примером множественной нелинейной степенной регрессии является производственная функция Кобба-Дугласа: b
a
L
AK
Y
=
, показывающая зависимость реального объема выпуска
Y
от капитальных затрат
K
и затрат труда
L
. Для нахождения коэффициентов функции Кобба-
Дугласа a
и b
прологарифмируем обе части равенства:
(
)
b a
L
AK
ln
Y
ln
=
,
L
ln b
K
ln a
A
ln
Y
ln
+
+
=
Заменим: y
Y
ln
=
, k
K
ln
=
, l
L
ln
=
, c
A
ln
=
Получим множественную линейную регрессию bl ak c
y
+
+
=
. Коэффициенты a,b,c этой регрессии можно найти, решив систему
трех линейных уравнений с тремя неизвестными, как было написано выше.
Экономическая интерпретация коэффициентов а и b функции Кобба-
Дугласа b
a
L
AK
Y
=
: при увеличении капиталовложений на 1% от своего среднего значения реальный объем выпуска увеличится на a% от своего среднего значения, а при увеличении затрат труда на 1% от своего среднего значения реальный объем выпуска увеличится на b% от своего среднего значения.
2.2. Решение типовых задач Задача 1. По группе стран мира имеются данные о средней ожидаемой продолжительности жизни населения, величине ВВП на начало 2003 года, суточной калорийности питания на душу населения, а также о коэффициенте младенческой смертности и численности населения. Данные представлены в приложении 1. Требуется:
1. На основании матрицы парных коэффициентов корреляции выделить два наиболее существенных фактора, от которых зависит средняя ожидаемая продолжительность жизни.
2. Написать уравнение множественной регрессии и вычислить его параметры.
3. Проинтерпретировать полученные коэффициенты уравнения.
4. Оценить значимость полученного уравнения и его коэффициентов.
5. Сделать выводы о возможности прогнозирования по данной модели.
Решение: 1. Матрица парных коэффициентов корреляции имеет вид:
y x1x2x3x4Y 1
x10,1154 1
x20,3109 0,1641 1
x3-0,7400 -0,0870
-0,1107 1
x4-0,2055 0,8591
-0,0526 0,2928 1
Коэффициент корреляции
1154 0
R
y x
1
≈
. Это говорит о том, что связь между средней ожидаемой продолжительностью жизни и величиной ВВП отсутствует (0,1154<0.3), а значит, величина ВВП не влияет на среднюю продолжительность жизни.
Коэффициент корреляции
3109 0
R
y x
2
≈
. Это значит, что связь между средней ожидаемой продолжительностью жизни и суточной калорийностью питания прямая, но очень слабая (0,3<0.3109<0.5), следовательно, суточная калорийность питания влияет на среднюю ожидаемую продолжительность жизни очень незначительно, но в целом при увеличении (уменьшении) суточной калорийности питания средняя продолжительность жизни увеличивается (уменьшается).
Коэффициент корреляции
74 0
R
y x
3
−
≈
показывает, что между средней продолжительностью жизни и коэффициентом младенческой смертности существует сильная обратная связь (0.7< |-0.74| ). Это говорит о том, что, в целом, при увеличении (уменьшении) коэффициента младенческой смертности средняя ожидаемая продолжительность жизни уменьшается
(увеличивается).
Коэффициент корреляции
2055 0
R
y x
4
−
≈
не значителен. А значит, связи между средней продолжительностью жизни и численностью населения нет
(|-0.2055| < 0.3). Следовательно, изменение численности населения не отражается на средней продолжительности жизни.
На основании матрицы корреляции видно что, факторами, влияющими на среднюю продолжительность жизни, являются суточная калорийность питания и коэффициент младенческой смертности, а значит, для построения модели нужно использовать именно эти признаки. Но для правильного построения модели нужно проверить ее на мультиколлинеарность.
Коэффициент корреляции
1107 0
R
3 2
y x
−
≈
показывает, что признаки x
2
(суточная калорийность питания) и x
3
(коэффициент младенческой смертности) не
коррелируют между собой, а следовательно мультиколлинеарность в модели отсутствует.
Уравнение регрессии с учетом выбранных признаков имеет вид:
3 2
2 1
0
x a
x a
a y
+
+
=
Для нахождения коэффициентов a
0
, a
1
и a
2
необходимо решить следующую систему:
=
−
−
−
=
−
−
−
=
−
−
−
0
x a
x x
a x
a yx
0
x x
a x
a x
a yx
0
x a
x a
a y
2 3
2 3
2 1
3 0
3 3
2 2
2 2
1 2
0 2
3 2
2 1
0
Решив систему получаем результат: a
0
=68.102, a
1
=0.0033, a
2
=-0.262.
Коэффициент a
0
не поддаётся интерпретации, поскольку сам по себе в данной модели он не имеет смысла (так как он показывает, что при нулевой суточной калорийности питания и нулевым коэффициентом младенческой смертности средняя ожидаемая продолжительность жизни была бы равна
68,102 года, а это невозможно).
Коэффициент а
1
показывает что при увеличении (уменьшении) суточной калорийности питания на 1 кал. средняя ожидаемая продолжительность жизни в участвующих в исследовании странах увеличивается (уменьшается) на 0,0033 года.
Коэффициент а
2
показывает что при уменьшении (увеличении) коэффициента младенческой смертности на 1 единицу средняя продолжительность жизни в странах участвующих в исследовании увеличится (уменьшится) на 0,262 года.
Для оценки значимости уравнения регрессии необходимо оценить F- критерий Фишера:
F
рас
=20,31,
F
табл.
=3,35,
F
рас
> F
табл
, следовательно уравнение регрессии статистически значимо.
Для оценки статистической значимости коэффициентов a
1
и a
2
воспользуемся t – критерием Стьюдента:
89
,
1
t рас a
1
=
,
84
,
5
t рас a
2
=
, t
табл
=2.05.
Проверка на значимость коэффициентов а
1
, а
2
показала коэффициент а
2
статистически значим (5,84>2.05), а коэффициент а
1
статистически не значим(1,89<2.05). Такой результат, возможно, получился от того, что связь между суточной калорийностью питания и средней ожидаемой продолжительностью жизни слабая. В целом же уравнение статистически значимо.
Пример 2
. Построить производственную функцию Кобба-Дугласа для оценки национального дохода США по следующим данным: Y – национальный доход США, млрд. долл., K – капиталовложения, млрд. долл.,
L – общее число занятых в экономике, тыс. чел.
Год Y K
L
lnY
lnK
lnL
1992 6337,75 5512,75 120596 8,754279 8,614819 11,70002 1993 6657,4 5773,35 122038 8,803484 8,661008 11,71209 1994 7072,23 6122,25 122762 8,863931 8,719685 11,71800 1995 7397,65 6453,93 124862 8,908918 8,772445 11,73496 1996 7816,83 6840,1 126501 8,964034 8,830558 11,74801 1997 8304,33 7292,18 129353 9,024532 8,894558 11,77031 1998 8746,98 7752,8 131282 9,076464 8,955809 11,78510 1999 9268,43 8236,65 133317 9,134369 9,016349 11,80049 2000 9816,98 8795,23 136788 9,191869 9,081965 11,82619 2001 10100,78 8981,23 137124 9,220368 9,102892 11,82864 2002 10480,83 9290,85 122874 9,257303 9,136785 11,71891 2003 10985,45 9600,47 137586 9,304327 9,169567 11,83200
Источник данных: www.bls.gov, www.economagic.com.
Произведем все необходимые вычисления в Excel, используя Сервис/
Анализ данных/Регрессия.
В диалоговом окне ввода данных и параметров вывода входной интервал Y – колонка «lnY», а входной интервал X – колонки «lnK» и «lnL».
Результаты множественной линейной регрессии
L
ln b
K
ln a
A
ln
Y
ln
+
+
=
представлены ниже:
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,999015329
R-квадрат
0,998031628
Нормированный R-квадрат
0,997539535
Стандартная ошибка
0,00836426
Наблюдения
11
Дисперсионный анализ
Df
SS
MS
F
Значимость F
Регрессия
2 0,283780318 0,14189016 2028,137 1,50117E-11
Остаток
8 0,000559687 6,9961E-05
Итого
10 0,284340004
Коэффициенты
Станд. ошиб. t-стат.
Р-Знач.
Нижн95%
Y-пересечение lnA
0,861660847 0,773500891 1,11397525 0,297636
-0,922036559
a
0,956183447 0,017305256 55,2539316 1,28E-11 0,916277428
b
0,129032798 0,07129211 0,40723718 0,004513 0,053432804
Возвращаясь к исходным коэффициентам функции Кобба-Дугласа b
a
L
AK
Y
=
, получим: lnA=0,862,
A= 2,367.
Таким образом, производственная функция имеет вид: Y = 2,367 K
0,956
L
0,129
Это означает, что увеличении капиталовложений на 1% от своего среднего значения национальный доход США увеличивается на 0,956% от своего среднего значения, а при увеличении численности занятых в экономике на
1% от своего среднего значения национальный доход увеличится на 0,129 от своего среднего значения.
2.3. Задачи для самостоятельного решения Задача 1. По статистической выборке данных с сайта www.vladhome.ru введите фиктивные переменные в исследование, опишите их. Вычислите матрицу парных корреляций, проанализируйте ее. На основании матрицы парных коэффициентов корреляции выделите два наиболее существенных фактора, от которых зависит цена квартиры. Напишите уравнение множественной регрессии. Вычислите его параметры. Проинтерпретируйте коэффициенты регрессии. Вычислите коэффициент множественной корреляции.
Оцените с помощью коэффициента множественной детерминации качество построенной модели. Оцените значимость полученного уравнения регрессии. Оцените значимость коэффициентов регрессии. Сделайте вывод о возможности прогнозирования по данной модели. Проделайте расчеты в ППП MS Excel.
Задача 2. В результате исследования факторов,
определяющих экономический рост, по 73 странам получено следующее уравнение регрессии:
60 0
R
,
In
75 4
D
38 0
I
16 11
S
17 0
P
52 0
4 1
y
2
)
7 2
(
)
79 0
(
)
91 3
(
)
34 4
(
)
9 5
(
=
−
−
+
+
−
=
−
−
−
где y
- темпы экономического роста (темпы роста среднедушевого ВВП в % к базисному периоду); P – реальный среднедушевой ВВП, %; S – бюджетный дефицит, % к ВВП; I – объем инвестиций, % к ВВП; D – внешний долг, % к
ВВП; In – уровень инфляции, %. Проверьте гипотезу о достоверности полученной модели в целом. До получения результатов этого исследования ваш однокурсник заключил с вами пари, что эмпирические результаты по данной модели покажут наличие обратной связи между темпами экономического роста и объемом внешнего долга страны (% к ВВП).
Выиграл ли это пари ваш однокурсник?
Задача 3. По 20 предприятиям легкой промышленности получена следующая информация, характеризующая зависимость объема выпуска продукции y (млн. руб.) от количества отработанных за год человеко-часов x
1
(тыс.чел.час.) и среднегодовой стоимости производственного оборудования x
2
(млн. руб.):
Уравнение регрессии
2 1
x
5 2
x
06 0
35
y
+
+
=
Множественный коэффициент корреляции 0,9
Сумма квадратов отклонений расчетных значений результата от фактических
3000
Определите коэффициент детерминации в этой модели. Составьте таблицу результатов дисперсионного анализа. Проанализируйте полученные результаты регрессивного анализа.
Задача 4.
По 50 семьям изучалось потребление мяса – y (кг на душу населения) от дохода – x
1
(руб. на одного члена семьи) и от потребления рыбы – x
2
(кг на душу населения). Результаты оказались следующими:
Уравнение регрессии
2 1
x
4 0
x
2 0
180
y
−
+
−
=
Стандартные ошибки параметров
20 0,01 0,25
Множественный коэффициент корреляции 0,85
Используя t-критерий Стьюдента, оцените значимость параметров уравнения.
Рассчитайте F-критерий Фишера. Оцените по частным F-критериям Фишера целесообразность включения в модель а) фактора x
1
после фактора x
2
; б) фактора x
2
после фактора x
1.
Задача 5.
Имеются следующие данные о ценах и дивидендах по обыкновенным акциям, а также данные о доходности компании. Построить линейное уравнение множественной регрессии и пояснить экономический смысл его параметров
№ цена акции, долл. США доходность капитала, % уровень дивидендов, %
1 25 15,2 2,6 2 20 13,9 2,1 3 15 15,8 1,5 4 34 12,8 3,1 5 20 6,9 2,5 6 33 14,6 3,1 7 28 15,4 2,9 8 30 17,3 2,8 9 23 13,7 2,4 10 24 12,7 2,4 11 25 15,3 2,6 12 26 15,2 2,8 13 26 12,0 2,7 14 20 15,3 1,9 15 20 13,7 1,9 16 13 13,3 1,6 17 21 15,1 2,4 18 31 15,0 3,0 19 26 11,2 3,1 20 11 12,1 2,0
Задача 6. Бюджетное обследование пяти случайно выбранных семей дало следующие результаты (в ден. ед.)
Семья
Накопления,
y Доход,
1
xИмущество,
2
x1 3 40 60 2 6 55 36 3 5 45 36 4 3.5 30 15 5 1.5 30 90
Оцените регрессию накоплений на доход и имущество. Спрогнозируйте накопления семьи, имеющей доход 40 ден. ед. и имущество стоимостью 25 ден. ед. Предположим, что доход семьи возрос на 10 ден. ед., в то время как стоимость имущества не изменилась. Оцените, как изменятся ее накопления.
Оцените, как
возрастут накопления семьи, если ее доход вырос на 5 ден. ед., а стоимость имущества увеличилась на 15 ден. ед.