Главная страница
Навигация по странице:

  • Независимые переменные в регрессионных моделях , рассмотренные

  • Использование сезонных фиктивных переменных

  • Фиктивные переменные для коэффициента наклона

  • На практике нередки случаи, когда имеются две выборки пар значений зависимой и объясняющих переменных. Например, одна выборка пар значений переменных объемом n 1

  • 3.2. Решение типовых задач Пример 1.

  • Уравнение зависимости цены квартиры от общей площади и района имеет

  • 3.3. Задачи для самостоятельного решения Задача 1.

  • !Эконометрика. Эконометрика


    Скачать 0.76 Mb.
    НазваниеЭконометрика
    Дата23.10.2019
    Размер0.76 Mb.
    Формат файлаpdf
    Имя файла!Эконометрика.pdf
    ТипДокументы
    #91521
    страница3 из 6
    1   2   3   4   5   6

    Глава 3. Использование фиктивных переменных в
    эконометрическом моделировании
    3.1. Теоретические основы
    Независимые переменные в регрессионных моделях, рассмотренные
    нами ранее, имеют непрерывные области изменения (национальный
    доход, уровень безработицы, размер заработной платы, стоимость
    товара и т.п.). Однако некоторые переменные могут принимать всего
    два значения или, в общей ситуации, дискретное множество значений.
    Необходимость рассматривать такие переменные возникает довольно
    часто в тех случаях, когда требуется принимать во внимание какой-
    либо качественный признак.
    Фиктивной называется переменная, которая является качественной по своей природе и, следовательно, не изменяется в числовой шкале.
    Примеры использования фиктивных переменных:
    ¾
    Исследуется зависимость между доходом и потреблением в
    Приморском крае и выборка включает русские и корейские семьи. Ставится задача: имеет ли существенное значение это этническое происхождение.
    ¾
    Исследуются факторы, определяющие инфляцию, и в некоторые годы правительство проводило политику регулирования доходов.
    Нужно проверить, оказало ли это влияние на зависимость.
    ¾
    При исследовании зависимости заработной платы от различных факторов может возникнуть вопрос, влияет ли на ее размер, и если да, то в какой степени, наличие у работника высшего образования. Также можно поставить вопрос, существует ли дискриминация в оплате труда между мужчинами и женщинами.
    ¾
    Исследуется зависимость между военными расходами и уровнем ВВП в разрезе стран мира (см. приложение 2). В выборку включены крупные и малочисленные страны. Требуется определить, будет ли одинаковой изучаемая зависимость для двух групп стран.
    Преимущества использования фиктивных переменных:
    1. возможность моделирования сезонных явлений;
    2. введение в исследование фиктивных переменных для коэффициента наклона.
    3. простой способ проверки, является ли воздействие качественного фактора значимым;
    Эконометрическая модель с фиктивной переменной имеет вид:
    u
    D
    x
    y
    +
    +
    +
    =
    δ
    β
    α
    ,
    где D – фиктивная переменная, т.е. искусственно введенная переменная, принимающая значения 0 или 1.
    Ситуация определяется тем, что происходит при переменной D, равной 0 или 1. Если D = 0, то уравнение
    u
    D
    x
    y
    +
    +
    +
    =
    δ
    β
    α
    упрощается до вида
    u
    x
    y
    +
    +
    =
    β
    α
    Использование сезонных фиктивных переменных
    При анализе временных рядов многие исследователи предпочитают квартальные данные годовым, поскольку их будет в 4 раза больше за рассматриваемый период. Вместе с тем иногда заметное воздействие на зависимость оказывает именно сезонность. Если не учесть ее, то она вносит свой вклад в случайную компоненту u.
    Рассмотрим зависимость
    u
    D
    D
    D
    t
    y
    +
    +
    +
    +
    +
    =
    4 4
    3 3
    2 2
    δ
    δ
    δ
    β
    α
    , где y – расходы электроэнергии по кварталам. Переменные
    4 3
    2
    ,
    ,
    D
    D
    D
    - фиктивные переменные, определяемые следующим образом:
    1) D
    2
    =1, если наблюдение относится ко 2 кварталу, и нулю в остальных случаях.
    2) D
    3
    =1, если наблюдение относится к 3 кварталу, и нулю в остальных случаях.
    3) D
    4
    =1, если наблюдение относится к 4 кварталу, и нулю в остальных случаях.
    Коэффициенты
    4 3
    2
    ,
    ,
    δ
    δ
    δ
    дают численную величину эффекта, вызываемого сменой сезонов. Коэффициент
    2
    δ
    показывает дополнительную потребность электроэнергии во 2 квартале относительно 1 квартала, связанную со временем года. По аналогии
    3
    δ
    и
    4
    δ
    показывают соответствующие дополнительные количества электроэнергии в 3 и 4 кварталах относительно 1 квартала. Все эти сдвиги даются относительно 1 квартала, потому что он выбран в качестве эталонной категории.
    Таким образом, можем показать распределение значений фиктивных переменных в следующей таблице: x
    y
    0
    D=1
    D=0
    α
    α+δ
    Влияние фиктивной переменной на уравнение регрессии

    Квартал
    1 2 3 4 1 2 3 4 1 2 3 4 2
    D
    0 1 0 0 0 1 0 0 0 1 0 0 3
    D
    0 0 1 0 0 0 1 0 0 0 1 0 4
    D
    0 0 0 1 0 0 0 1 0 0 0 1
    Такое сезонное колебание можно изобразить графически на рисунке.
    Из уравнения зависимости потребления электроэнергии можно получить модели для каждого квартала:
    1 квартал -
    ,




    t
    y
    β
    α
    +
    =
    2 квартал -
    ,



    2
    δ
    β
    α
    +
    +
    =
    t
    y
    3 квартал -
    ,



    3
    δ
    β
    α
    +
    +
    =
    t
    y
    4 квартал -
    ,



    4
    δ
    β
    α
    +
    +
    =
    t
    y
    Усредняя четыре полученных уравнения, получим усредненную линию регрессии
    ,



    t
    y
    β
    α
    +
    =
    где
    4

    4

    4 3
    2
    δ
    δ
    δ
    α
    α
    +
    +
    +
    =
    , а
    β
    β

    =
    . Расстояние между определенной линией регрессии любого квартала и усредненной линией, которое представлено разностью значений постоянного члена в уравнении регрессий, дает оценку сезонных отклонений в рассматриваемом квартале.
    Она составляет для 1 квартала -
    α
    α


    , для 2 квартала -
    α
    δ
    α

    +
    2

    , для 3 квартала -
    α
    δ
    α

    +
    3

    , для 4 квартала -
    α
    δ
    α

    +
    4

    . Сумма сезонных отклонений должна быть равна 0, проверим это:
    =
    +
    +
    +

    =

    +
    +

    +
    +

    +
    +

    4 3
    2 4
    3 2
    4

    4




    δ
    δ
    δ
    α
    α
    α
    δ
    α
    α
    δ
    α
    α
    δ
    α
    α
    α
    =
    +
    +
    +
    +
    +
    +


    =
    4 3
    2 4
    3 2
    4

    4 4

    4
    δ
    δ
    δ
    δ
    δ
    δ
    α
    α
    0

    4

    4 4
    3 2
    4 3
    2
    =
    +
    +
    +




    =
    δ
    δ
    δ
    δ
    δ
    δ
    α
    α
    Выбор эталонной категории не оказывает воздействия на сущность уравнений регрессии. Сам выбор определяет форму представления коэффициента регрессии. Пусть в нашем примере выбрана эталонная категория для второго квартала. Тогда вводим новую фиктивную переменную
    1 1
    =
    D
    , если наблюдение относится к 1 кварталу, и 0 иначе и опустим переменную
    2
    D
    , т.к. фиктивная переменная для эталонной
    1 2
    3 4
    1 2
    3 4
    1 2
    3 4
    x y
    1 2
    3 4
    Сезонные колебания, смоделированные при помощи фиктивных переменных
    категории не включается в уравнение регрессии. Переменные
    3
    D
    и
    4
    D
    включаются в уравнение с теми же определениями, что и раньше. Получим
    u
    D
    D
    D
    t
    y
    +
    +
    +
    +
    +
    =
    4 4
    3 3
    1 1
    δ
    δ
    δ
    β
    α
    Положим
    0 3
    2 1
    =
    =
    =
    D
    D
    D
    и получим вариант уравнения для 1 квартала:
    t
    t
    y
    β
    δ
    α
    δ
    β
    α
    +
    +
    =
    +
    +
    =
    1 1
    Но интерпретация коэффициентов регрессии при введении новой эталонной переменной будет уже иной. Так, например, для уравнения
    u
    D
    D
    D
    t
    y
    +
    +
    +
    +
    +
    =
    4 4
    3 3
    2 2
    δ
    δ
    δ
    β
    α
    коэффициент
    3
    δ
    оценивает разность между потребленной электроэнергией в третьем и первом кварталах, а в уравнении
    u
    D
    D
    D
    t
    y
    +
    +
    +
    +
    +
    =
    4 4
    3 3
    1 1
    δ
    δ
    δ
    β
    α
    коэффициент
    3
    δ
    есть разность между потребленной электроэнергией в 3-ем и 2-ом кварталах. Если включить в уравнение фиктивную переменную для эталонной категории то:
    1. Если бы было возможно вычислить коэффициент регрессии, то им невозможно дать интерпретацию.
    2. Фактически станет невозможной процедура вычисление коэффициентов уравнений регрессии.
    Аналогично можно смоделировать сезонные колебания спроса на мороженое.
    Фиктивные переменные для коэффициента наклона
    Ранее предполагалось, что качественные переменные, введенные в уравнение регрессии, отвечают только за сдвиги в значении постоянного члена в уравнении регрессии, а наклон линии регрессии одинаков для каждой категории переменных. Рассмотрим теперь фиктивные переменные коэффициента наклона. Для этого введем в рассмотрение модель:
    u
    x
    D
    y
    +
    +
    +
    =
    β
    δ
    α
    , где y – вес новорожденного (в граммах), x – количество выкуренных мамой в день сигарет, D - фиктивная переменная, принимающая значение D=1, если не первый ребенок и D = 0, если первый ребенок.
    В этой формулировке явно предположение о том, что воздействие курения на вес новорожденного одинаково, независимо от того, первый ребенок или нет.
    Добавим в уравнение член
    Dx
    γ
    - произведение D и x с коэффициентом
    γ
    :
    u
    Dx
    x
    D
    y
    +
    +
    +
    +
    =
    γ
    β
    δ
    α
    , перепишем в виде
    u
    x
    D
    D
    y
    +
    +
    +
    +
    =
    )
    (
    γ
    β
    δ
    α
    Если принять D=0, то
    u
    x
    D
    y
    +
    +
    +
    =
    β
    δ
    α
    и угловой коэффициент
    β
    =
    k
    Если же D=1, то
    u
    x
    D
    y
    +
    +
    +
    +
    =
    )
    (
    γ
    β
    δ
    α
    и угловой коэффициент
    γ
    β
    +
    =
    k
    Поэтому величина
    γ
    рассматривается как разность между коэффициентом при показателе интенсивности курения в случае не первого ребенка и коэффициентом при показателе интенсивности курения в случае первого
    ребенка. Показатель Dx – фиктивная переменная для коэффициента наклона.
    Он рассматривается как третья объясняющая переменная. Модель может иметь вид:
    Dx
    x
    D
    y
    1
    ,
    8 4
    143 3363


    +
    =
    Результат оценивания регрессии показывает, что снижение веса новорожденного, связанное с курением матери, значительно больше, для первого ребенка – 12,1 г на каждую сигарету в день против 4 г для непервого.
    Регрессионная зависимость веса новорожденного (y) от интенсивности курения (x – число выкуренных в день сигарет), фиктивной переменной D
    (D=0 – первый ребенок, D=1 – не первый), фиктивной переменной М пола ребенка (М=0 – для девочек, М=1 для мальчиков), и фиктивной переменной для коэффициента наклона , определяемой как произведение M на х, имеет вид
    Mx
    x
    M
    D
    y
    7 5
    5 10 108 124 3312

    +

    +
    +
    =
    Возможны 4 случая различных попарных значений фиктивных переменных D и M:
    1.
    0
    =
    D
    ,
    0
    =
    M
    ,
    x
    y
    5 10 3312


    =
    2.
    1
    =
    D
    ,
    0
    =
    M
    ,
    x
    y
    5 10 3436


    =
    3.
    0
    =
    D
    ,
    1
    =
    M
    ,
    x
    x
    x
    y
    8 4
    3420 7
    5 5
    10 3420


    =
    +

    =
    4.
    1
    =
    D
    ,
    1
    =
    M
    ,
    x
    x
    x
    y
    8 4
    3544 7
    5 5
    10 3544


    =
    +

    =
    Результат регрессии показывает, что снижение веса новорожденного, связанного с курением матери, значительно больше, если должна родиться девочка – 10,5 г против 4,8 г для мальчиков.
    Вопрос в аудиторию. Какую модель необходимо построить, чтобы ответить на вопрос: каково снижение веса, связанное с показателем курения, на первого мальчика или непервую девочку? Какую фиктивную переменную для коэффициента наклона необходимо ввести?
    Тест Чоу
    На практике нередки случаи, когда имеются две выборки пар
    значений зависимой и объясняющих переменных. Например, одна
    выборка пар значений переменных объемом n
    1
    получена при одних
    условиях, а другая объемом n
    2
    - при других несколько измененных
    условиях. Необходимо выяснить, действительно ли две выборки
    однородны в регрессионном смысле? Другими словами, можно ли
    объединить эти две подвыборки в одну и рассматривать единую модель
    регрессии? Ответ на этот вопрос может дать тест Чоу.
    Иногда выборка наблюдений состоит: из двух или более подвыборок, и трудно установить, следует ли оценивать одну объединяющую регрессию или отдельные регрессии для каждой подвыборки.
    Пусть имеется 2 выборки А и В. Обозначим суммы квадратов остатков для регрессий подвыборок А и В через:


    =
    =
    ).
    (
    ),
    (
    2 2
    B
    e
    U
    A
    e
    U
    i
    B
    i
    A

    Пусть суммы квадратов остатков в объединенной регрессии для наблюдений, относящихся к двум подвыборкам, равны соответственно


    =
    =
    ).
    (
    ),
    (
    2 2
    B
    i
    P
    A
    i
    P
    P
    e
    U
    P
    e
    U
    B
    A
    Т.к. отдельные регрессии для подвыборок должны соответствовать наблюдениям так же хорошо, если не лучше, чем объединенная регрессия, то
    P
    B
    B
    P
    A
    A
    A
    U
    U
    U
    U


    ,
    Складывая неравенства
    P
    P
    B
    P
    A
    U
    U
    U
    U
    U
    A
    =
    +

    +
    B
    , где
    P
    U
    - общая сумма квадратов остатков,
    ( )


    P
    e
    U
    i
    P
    2
    Предположим, что имеются данные временного ряда по двум переменным и что в период выборки произошли структурные изменения, разд4еляющие наблюдения на подвыборки А и В.
    Из рисунка видно, что если бы потребовалось объединить регрессию, то остатки были бы значительно больше.
    В регрессии имеется k объясняющих переменных плюс одна константа, следовательно, имеем k + 1 степень свободы.
    Рассмотрим F- статистику
    (
    )
    (
    )
    (
    ) (
    )
    2 2
    /
    1
    /


    +
    +


    =
    k
    n
    U
    U
    k
    U
    U
    U
    F
    B
    A
    B
    A
    P
    с (k+1) и (n-2k-2) степенями свободы. x
    y
    Подвыборка
    Подвыборка
    Регрессии, оцениваемые для теста Чоу x
    y
    Объединенная регрессия

    Если
    кр
    F
    F
    >
    , то не следует оценивать объединенную регрессию, а если
    кр
    F
    F
    <
    , то следует ее оценить.
    кр
    F
    определяется из таблицы F- распределения
    Фишера при уровне значимости
    α
    и с (k+1) и (n-2k-2) степенями свободы.
    3.2. Решение типовых задач
    Пример 1.
    По статистическим данным сайта www.vladhome.ru построить модель ценообразования квартир г. Владивостока.
    Рассматривается модель ценообразования однокомнатных квартир. В выборку включены 230 трехкомнатных квартир г.
    Владивостока. Среднее значение цены квартиры равно 36542 долларов. Среднее квадратическое отклонение показывает, на сколько цена квартиры y в среднем отклоняется от своего среднего значения. Результаты показали, что на 10881 долларов в среднем отклоняется цена квартиры от своего среднего значения.
    К факторным признакам относятся: общая площадь
    1
    x
    (
    2
    м
    ) – жилая площадь
    2
    x
    (
    2
    м
    ) , площадь кухни
    3
    x
    (
    2
    м
    ), этажность –
    4
    x
    , тип здания –
    5
    x
    , наличие балкона либо лоджии –
    6
    x
    , район города –
    7
    x
    Фиктивные переменные вводятся следующим образом:
    4
    x
    – этажность: переменная равна 0, если этаж первый или последний; 1, если этаж второй или предпоследний; 2, если этаж средний;
    5
    x
    – тип здания: 0,если здание панельное; 1, если здание кирпичное;
    6
    x
    – наличие балкона либо лоджии: 0, если нет ни балкона, ни лоджии; 1, если имеется балкон; 2, если имеется лоджия; 3, если имеются и лоджия и балкон;
    7
    x
    – район: 0, если район периферийный; 1, если район – центр города.
    Матрица парных коэффициентов корреляций имеет вид:
    y
    1
    x
    2
    x
    3
    x
    4
    x
    5
    x
    6
    x
    7
    x y
    1.00 1
    x
    0.56 1.00 2
    x
    0.44 0.78 1.00 3
    x
    0.25 0.45 0.24 1.00 4
    x
    0.21 0.02 -0.06 0.08 1.00 5
    x
    0.32 0.14 0.17 0.01 -0.08 1.00 6
    x
    -0.08 -0.02 -0.13 0.05 0.21 -0.48 1.00 7
    x
    0.46 0.19 0.23 -0.08 0.07 0.31 -0.30 1.00
    Между ценой квартиры и общей площадью связь умеренная прямая, т.е. с увеличением общей площади цена квартиры увеличивается. ежду ценой квартиры и жилой площадью квартиры связь слабая прямая, т.е. с увеличением жилой площади цена квартиры увеличивается. Между ценой и площадью кухни квартиры связь слабая прямая, т.е. при увеличении площади кухни увеличивается цена. Между ценой квартиры и этажностью прямая, но практически отсутствует. Связь между типом дома и ценой квартиры прямая слабая, т.е. у квартир расположенных в кирпичных домах цена выше, чем в панельных. Cвязь между ценой квартиры и наличием балкона либо лоджии обратная и она практически отсутствует. Связь между ценой квартиры и районом расположения прямая слабая, т.е. квартира находящиеся в центре города оцениваются дороже, нежели в других районах города.
    На основании матрицы парных коэффициентов корреляции можно сделать вывод о том, что общая площадь квартир и район являются наиболее существенными факторами, от которых зависит цена квартиры.

    Составим уравнение множественной регрессии:
    7 7
    1 1
    0
    x a
    x a
    a y
    +
    +
    =
    Расчеты произведем в Excel:
    ВЫВОД ИТОГОВ
    Регрессионная статистика
    Множественный R
    0.66035895
    R-квадрат
    0.436073943
    Нормированный R-квадрат
    0.431083447
    Стандартная ошибка
    8236.902065
    Наблюдения
    229
    Дисперсионный анализ
    F
    Значимость F
    Регрессия
    87.38088079 7.72866E-29
    Остаток
    Итого
    Коэффициенты
    t-статистика
    P-Значение
    Нижние 95%
    Верхние 95%
    Y-пересечение
    -4369.689056
    -1.058238577 0.291076458
    -12506.36199 3766.983881 1
    x
    607.8560818 9.56093149 2.09428E-18 482.5764482 733.1357154 7
    x
    12144.00236 7.179966463 9.96149E-12 8811.124935 15476.87979
    Уравнение зависимости цены квартиры от общей площади и района имеет
    вид:
    7 1
    x
    12144
    x
    608 4369
    y
    +
    +

    =
    При увеличении общей площади квартиры на 1 м кв. цена квартиры увеличивается на 608 $, а квартира расположенная в центре стоит на 12183$ дороже, чем в периферийном районе.
    Коэффициент множественной корреляции равен 0,66, что свидетельствует о тесной связи между факторными признаками и результативным. Коэффициент детерминации говорит о том, что 44% изменения цены квартиры объясняется размером общей площади и районом, где располагается квартира.
    На 5% уровне модель значима, т.е. форма связи выбрана правильна. Подтверждается сила связи между признаками. Коэффициенты регрессии тоже значимы, это означает, что выводы, сделанные по этой модели можно переносить с выборочной совокупности на генеральную.
    3.3. Задачи для самостоятельного решения
    Задача 1.
    Проанализируйте данные приложения, написав зависимость между военными расходами и уровнем ВВП; проверьте тест Чоу для крупных и мелких стран.
    Задача 2.
    Изучается зависимость спроса на персональные компьютеры
    y от дохода на одного члена семьи – x. Результаты опроса мужчин и
    женщин представлены на рис a., а результаты опроса всех взрослых в зависимости от жилищных условий приведены на рис б.
    0
    y
    x
    z
    1
    z
    2
    а
    0
    y
    x
    v
    1
    v
    2
    б
    Определите, в каком случае возможно построение уравнения регрессии с включением фиктивной переменной. Напишите общий вид уравнения регрессии с фиктивной переменной. Укажите, как можно ввести в модель фиктивную переменную и как интерпретировать коэффициент регрессии при ней.
    Задача 3.
    Смоделируйте сезонные колебания потребления электроэнергии Вашей семьей за последние три года с использованием фиктивных переменных. Постройте уравнение регрессии. Оцените его коэффициенты. Проведите анализ и сделайте вывод.

    1   2   3   4   5   6


    написать администратору сайта