Главная страница

Модели с лаговыми переменными


Скачать 3.63 Mb.
НазваниеМодели с лаговыми переменными
Дата20.04.2023
Размер3.63 Mb.
Формат файлаpdf
Имя файлаilovepdf_merged.pdf
ТипДокументы
#1076844
страница2 из 6
1   2   3   4   5   6
1.2. Пример №2: модель с одной фиктивной и одной количественной
переменными
Пример №1 является достаточно простым случаем. Рассмотрим более сложный вариант.
На графике ниже представлена информация о ценах предложения квартир в г. Архангельске. В данную выборку были включены такие же квартиры, как и в примере №1 (т.е. панельные 5-ти этажные дома, расположенные в одном районе города), но в данном случае отсутствовало ограничение по количеству комнат.
Из графика видно, что в выборку были включены квартиры разной площади: однокомнатные площадью около 30 кв. м, 2-х комнатные площадью 40-48 кв. м и 3-х и 4-х комнатные площадью более 55 кв. м (на графике видно три группы аналогов). Также на графике видно, что квартиры на средних этажах обычно чуть дороже квартир на крайних этажах.
2
Мультиколлинеарность [multicollinearity] — понятие математической статистики — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат. Эта связь затрудняет оценивание параметров регрессии в частности, при анализе эконометрической модели. [1]

5
Рис. 1. Информация об аналогах для Примера №2
Попробуем учесть различие в площади объектов и этаже расположения в модели, для чего построим модель вида:
Y=a
1
*X
1
+ a
2
*S + c
Где:
S
- общая площадь квартиры;
X
1
- фиктивная переменная средний этаж.
Результаты анализа представлены в нижеследующей таблице (формат таблицы соответствует результатам действия надстройки «Регрессия» из «Пакета анализа» MS Excel).
Табл. 4. Результаты регрессионного анализа
Регрессионная статистика
Множественный R
0,825
R-квадрат
0,681
Нормированный R-квадрат
0,676
Стандартная ошибка
2 600
Наблюдения
146
Дисперсионный анализ
df
SS
MS
F
Значимость
F
Регрессия
2 2 062 718 366 1 031 359 183 153 0,00000
Остаток
143 966 582 616 6 759 319
Итого
145 3 029 300 983
Коэффициенты
Стандартная
ошибка
t-
статистика
P-
Значение
Нижние 95%
Верхние
95%
Y-пересечение
53 795 1 016 53 0,00000 51 787 55 803
Средний этаж
2 859 440 6
0,00000 1 989 3 729
Общая площадь, кв. м
-363 21
-17 0,00000
-405
-321 25 000 30 000 35 000 40 000 45 000 50 000 55 000 25 30 35 40 45 50 55 60 65 70
Уд
е
л
ьн
ая
с
то
и
м
о
ст
ь,
р
уб
./
кв
. м
Площадь квартиры, кв. м
Крайние этажи
Средние этажи

6
Графическое представление полученных результатов представлено на Рис. 2. Как видно из рисунка, стоимость квартир на крайних этажах ниже стоимости квартир на средних этажах. Разница в стоимости равна коэффициенту при фиктивной переменной и в данном случае составляет
2 859 руб./ кв. м. При этом эта разница одинакова для квартир разной площади (на графике линии, соответствующие средним и крайним этажам параллельны).
Рис. 2. Визуализация построенной регрессионной модели
Переменные, аналогичные использованным в моделях переменным «Средний этаж» и «Крайний этаж», принято называть переменными сдвига и, использовать, когда исследователь предполагает, что влияние данного качественного параметра на зависимую переменную одинаково для всех значений количественной переменной. Фактически речь идет о параллельном сдвиге базовой модели: при неизменном коэффициенте при количественной переменной меняется константа модели.
2. Переменные наклона
Как было указано выше, переменные сдвига применяются, когда влияние качественного параметра постоянно для любых наблюдений (аналогов). При этом на практике такое встречается далеко не всегда. Если рассмотреть те же квартиры, то можно предположить, что для квартир с разным количеством комнат разница в удельной стоимости будет различной. Для учета таких случаев применяются фиктивные переменные наклона.
Попытаемся улучшить модель, построенную по результатам примера №2, для чего заменим фиктивную переменную «Средний этаж» следующей переменной Z
1
:
Z
1
= X
1
*S
где:
X
1
- фиктивная переменная «Средний этаж» (см. выше);
S
- площадь квартиры.
Модель в этом случае будет выглядеть следующим образом:
Y=a
1
*Z
1
+ a
2
*S + c = a
1
*X
1
*S + a
2
*S + c
Результаты расчетов коэффициентом и статистик модели представлены в Табл. 5.
30 000 35 000 40 000 45 000 50 000 55 000 60 000 0
10 20 30 40 50 60 70
У
д
е
л
ь
н
а
я
с
то
и
м
о
с
ть
,
р
у
б
./
кв
.
м
Площадь квартиры, кв. м
Средние этажи
Крайние этажи

7
Табл. 5. Результаты регрессионного анализа
Регрессионная статистика
Множественный R
0,829
R-квадрат
0,687
Нормированный R-квадрат
0,683
Стандартная ошибка
2 573
Наблюдения
146
Дисперсионный анализ
df
SS
MS
F
Значимость
F
Регрессия
2 2 082 406 181 1 041 203 091 157 0,00000
Остаток
143 946 894 802 6 621 642
Итого
145 3 029 300 983
Коэффициенты
Стандартная
ошибка
t-
статистика
P-
Значение
Нижние 95%
Верхние
95%
Y-пересечение
55 358 1 018 54 0,00000 53 347 57 370
Общая площадь, кв. м
-398 22
-18 0,00000
-442
-353
Средний этаж * Общая площадь
61 9
7 0,00000 43 79
На графике данная зависимость будет выглядеть следующим образом:
Рис. 3. Визуализация построенной регрессионной модели с использованием переменной наклона
Как видно из Рис. 3, линии, соответствующие средним и крайним этажам, в данном случае не параллельны. Фактически полученная модель:
Y = a
1
*X
1
*S + a
2
*S + c
идентична двум моделям:
Y = (a
1
+ a
2
)*S + c = - 336 * S + 55 358
для квартир на средних этажах
Y = (a
2
)*S + c = - 398 * S + 55 358
для квартир на крайних этажах
30 000 35 000 40 000 45 000 50 000 55 000 60 000 0
10 20 30 40 50 60 70
Уд
е
л
ьн
ая
с
то
и
м
о
ст
ь
, р
уб
./
кв
. м
Площадь квартиры, кв. м
Средние этажи
Крайние этажи

8
В данном случае в зависимости от значения качественной переменной изменяется коэффициент при количественном параметре, т.е. меняется наклон графика линии регрессии. При этом константа модели остается постоянной для различных значений качественного параметра.
Комбинируя фиктивные переменные наклона и переменные сдвига можно получить модель, полностью идентичную индивидуальным моделям для разных значений количественной переменной.
Например, если по тем же данным построить отдельные модели для квартир на различных этажах, получатся следующие модели:
Для квартир на крайних этажах:
y = -404,5*S + 55 688 (R² = 0,776)
Для квартир на средних этажах:
y = -330,4*S + 55 060 (R² = 0,592)
Аналогичные результаты получаются, если построить общую модель для всех этажей расположения вида:
Y = a
1
*X
1
+ a
2
*X
1
*S + a
3
*S + c
Y = -628 * X
1
+ 74,1 * X
1
* S + (-404,5) * S + 55 688 (R² = 0,688)
Легко заметить, что данная модель при Х
1
=1 превращается в модель для квартир на средних этажах, а при Х
1
=0 – в модель для квартир на крайних этажах, указанных выше.
3. Учет нескольких градаций значений качественного параметра
В представленных выше примерах рассматривались варианты, когда качественный параметр принимает только два значения: «Крайние этажи» или «Средние этажи». При этом качественные параметры, естественно, бывают и более «сложными» и могут принимать различные значения.
Например, такой качественный параметр, как «Район города» может принимать большое количество значений.
Учет таких качественных параметров при построении регрессионных моделей может быть выполнен различными способами. Одним из вариантов является замена данного качественного параметра комплексом бинарных переменных: качественный параметр, принимающий n вариантов значений
(градаций), заменяется (n-1) бинарным признаком.
Например, если в выборке представлены квартиры 5-ти районов города, то комплекс бинарных признаков будет выглядеть следующим образом:
Табл. 6. Замена качественных параметров бинарными признаками
Район города
Бинарные признаки
Район №1
Район №2
Район №3
Район №4
Район №1 1
0 0
0
Район №2 0
1 0
0
Район №3 0
0 1
0
Район №4 0
0 0
1
Район №5 0
0 0
0
Возвратимся к примерам, описанным выше. Анализировалась разница в стоимости квартир, расположенных на крайних и средних этажах. Можно предположить, что такая разница будет неодинаковой для квартир с различным количеством комнат. В выборке представлены квартиры 1-2-
3-4-х комнатные. Попробуем учесть различие в стоимости квартир для различного количества комнат путем добавления качественной переменной «Этаж расположения» со следующими градациями:

Однокомнатные квартиры, расположенные на средних этажах;

Двухкомнатные квартиры, расположенные на средних этажах;

9

Трехкомнатные квартиры, расположенные на средних этажах;

Четырехкомнатные квартиры, расположенные на средних этажах;

Квартиры, расположенные на крайних этажах.
Табл. 7. Учет бинарными признаками этажа расположения квартиры
Этаж расположения
Бинарные признаки
Х
1
Х
2
Х
3
Х
4
Однокомнатные квартиры, средние этажи
1 0
0 0
Двухкомнатные квартиры, средние этажи
0 1
0 0
Трехкомнатные квартиры, средние этажи
0 0
1 0
Четырехкомнатные квартиры, средние этажи
0 0
0 1
Квартиры, расположенные на крайних этажах
0 0
0 0
Модель в данном случае будет выглядеть следующим образом:
Y = a
1
*X
1
+ a
2
*X
2
+ a
3
*X
3
+ a
4
*X
4
+ a
5
*S + c
Результаты регрессионного анализа представлены в Табл. 8.
Табл. 8. Результаты регрессионного анализа
Регрессионная статистика
Множественный R
0,842
R-квадрат
0,709
Нормированный R-квадрат
0,699
Стандартная ошибка
2 509
Наблюдения
146
Дисперсионный анализ
df
SS
MS
F
Значимость
F
Регрессия
5 2 148 083 689 429 616 738 68 0,00000
Остаток
140 881 217 293 6 294 409
Итого
145 3 029 300 983
Коэффициенты
Стандартная
ошибка
t-
статистика
P-
Значение
Нижние 95%
Верхние
95%
С
53 705 1 320 41 0,00000 51 095 56 314 a
5
-361 28
-13 0,00000
-417
-305 a
1 4 150 916 5
0,00001 2 339 5 962 a
2 2 117 575 4
0,00033 979 3 254 a
3 2 499 602 4
0,00006 1 309 3 689 a
4 5 465 1 095 5
0,00000 3 301 7 629
Такой подход позволяет не только выявить различия во влиянии отдельных градаций качественного параметра, но и сделать вывод о статистической значимости различия между разными градациями признака. Например, из Табл. 8 видно, что коэффициенты при 2-х и 3-х комнатных квартирах близки.
Проверим гипотезу о том, что a
2
= a
3
Для проверки данной гипотезы рассчитаем статистику Стьюдента, полученную величину сравним с критическим значением
3
:
3
Для нахождения критического значения статистики Стьюдента необходимо воспользоваться статистическими таблицами или использовать функцию MS Excel СТЬЮДРАСПОБР()

10
=
|

|
(
;
)
= ,
<
кр
= ,
Т.к. t
кр
, делаем вывод о том, что разница в удельной стоимости квартир на средних этажах между
2-х и 3-х комнатными квартирами статистически не значима (при прочих равных условиях). Поэтому без ущерба для точности модели переменные Х
2
и Х
3
можно объединить в одну
4
4. Заключение
Подавляющее большинство объектов оценки нельзя описать только при помощи количественных параметров. Такие параметры, как класс объекта или его состояние, местоположение объекта, материал основных элементов и многие другие зачастую оказывают существенное влияние на стоимость. Такие параметры принято называть качественными. При проведении регрессионного анализа необходимо учитывать различия в качественных параметрах, для чего в модель обычно включают одну или несколько фиктивных переменных.
Фиктивные переменные подразделяются на переменные сдвига и переменные наклона. Переменные сдвига позволяют учесть влияние качественного параметра в случае, если данный параметр оказывает «одинаковое» влияние на зависимую переменную (в большинстве оценочных задач в качестве зависимой переменной выступает стоимость или удельная стоимость).
Если оценщик подозревает, что с ростом того или иного количественного параметра влияние качественной переменной изменяется, следует отдать предпочтение фиктивным переменным другого типа – переменным наклона.
5. Литература
1.
Лопатников Л. И.Экономико-математический словарь: Словарь современной экономической науки.
— 5-е изд., перераб. и доп. — М.: Дело, 2003. — 520 с.
2. Ю.Н. Тюрин, А.А. Макаров Анализ данных на компьютере / Под. ред. В.Э.Фигурнова. - 3-е изд., перераб. и доп. – М.:ИНФРА-М, 2003 3. Вербик Марно. Путеводитель по современной эконометрике. Пер. с англ. В.А. Банникова.
Научн. ред. и предисл. С.А. Айвазяна. – М.: Научная книга, 2008. – 616 с.
4
Т.е. заменить переменные Х
2
и Х
3
одной переменной X
2,3
= Х
2
+ Х
3

Фиктивны переменные.
Для отражения влияния неколичественной переменной в модель вводится фиктивные переменные.
Фиктивная переменная – переменная бинарного типа, принимающая два значения: 1, если признак выполняется, 0, если признак не выполняется. В случае если неколичественная переменная может принимать несколько значений, то вводится несколько фиктивных переменных, количество которых на единицу меньше значений неколичественной переменной. Например, пусть фиктивная переменная характеризует сортность продукции (высший, 1-ый сорт, 2-ой сорт). В этом случае введем две фиктивных переменных




сорта высшего не продукция
,
0
,
сорта высшего продукция
,
1 1
z
и





сорта го
1
не продукция
,
0
,
сорта го
-
1
продукция
,
1 2
z
Тогда случай продукции 2-го сорта определяется равенством нулю переменных
1
z
и
2
z .
Для выявления необходимости включения неколичественного показателя используется тест Чоу.
Пусть имеется n наблюдений объясняющей переменной (например, производительность труда рабочего). Есть предположение о неоднородности выборки
(производительность труда зависит от квалификации рабочего). Предполагается, что однородность может быть достигнута при разбиении выборки на две группы
(производительность рабочего с высокой квалификацией, производительность рабочего с низкой квалификацией), т.е. при введении фиктивной переменной




ии квалификац низкой рабочий
,
0
,
ии квалификац высокой рабочий
,
1
z
Для проверки предположения о необходимости введения фиктивной переменной строится три регрессии. Первая – по всей совокупности наблюдений, второе и третье – для соответствующих выделенных подмножеств совокупности. Для каждого уравнения находится остаточная сумма квадратов



i
i
i
e
y
y
SS
2
)
ˆ
(
Пусть
0
e
SS
– остаточная сумма квадратов, рассчитанная по общему уравнению регрессии,
1
e
SS
и
2
e
SS
остаточные суммы квадратов, рассчитанные по уравнениям, построенным по подмножествам наблюдений. Очевидно, чем больше разница между
0
e
SS
и
2 10
e
e
SS
SS

, тем более настоятельна необходимость
введения фиктивной переменной. Для оценки величины различия рассчитывается значение статистики


m
m
m
m
m
n
SS
SS
SS
SS
SS
F
e
e
e
e
e
выч











1 2
2 1
2 1
2 1
2 1
0
где m ,
1
m
и
2
m
– количество параметров (без свободного члена) в указанных уравнениях; n – число наблюдений по всей совокупности.
По таблицам Фишера для заданного уровня значимости

и
m
m
m
df




1 2
1 1
2 2
1 2




m
m
n
df
степеней свободы находится критическое значение статистики
кр
F
. Если
кр
выч
F
F

, то целесообразно введение фиктивной переменной.
Модель, в которой фиктивная переменная выступает в качестве слагаемого, называются моделями регрессии с фиктивными переменными сдвига. Рассмотрим для простоты случай с одной объясняющей и одной фиктивной переменной:
t
t
t
t
cz
bx
a
y





Тогда при
1

z
, получаем
t
t
bx
c
a
y



, а при
0

z
, получаем
t
t
bx
a
y


. При этом значения
t
y при одних и тех же значениях
t
x , будут отличаться на константу.
Геометрически это соответствует двум параллельным прямым.
Модели, в которой фиктивная переменная является сомножителем при объясняющей переменной , называются моделями регрессии с фиктивными переменными наклона.
Для простоты рассмотрим случай одной объясняющей и одной фиктивной переменной:
t
t
t
t
t
z
cx
bx
a
y





В этом случае при
1

z
получаем
t
t
bx
c
b
a
y
)
(



, а при
0

z
получаем
t
t
bx
a
y


. Геометрически эти уравнения определяют прямые с различными угловыми коэффициентами, т.е. пересекающиеся прямые.
Общий вид модели с фиктивными переменными для одной объясняющей и одной фиктивной переменной
t
t
t
t
t
t
cz
z
cx
bx
a
y







1   2   3   4   5   6


написать администратору сайта