Главная страница
Навигация по странице:

  • 1.2. Уравнение регрессии

  • Индекс корреляции

  • Теоретическое корреляционное отношение

  • Эконометрика. эконометрика-4,1+вар._3.11. Задача 1 7 Задача 2 18 Заключение 24 Список литературы 24 Введение


    Скачать 111.21 Kb.
    НазваниеЗадача 1 7 Задача 2 18 Заключение 24 Список литературы 24 Введение
    АнкорЭконометрика
    Дата01.12.2022
    Размер111.21 Kb.
    Формат файлаdocx
    Имя файлаэконометрика-4,1+вар._3.11.docx
    ТипЗадача
    #822497
    страница2 из 4
    1   2   3   4

    Практическое задание


    ВАРИАНТ I

    Задача 1:


    По 12 областям изучается зависимость среднемесячной начисленной заработной платы от доли государственного сектора в общей численности занятых на малых предприятиях, % Х


    Номер области

    Среднемесячная начисленная заработная плата, тыс. руб., y

    Доля государственного сектора в общей численности занятых на малых предприятиях, % x

    1

    23

    25

    2

    38

    29

    3

    24

    35

    4

    44

    29

    5

    52

    40

    6

    85

    17

    7

    29

    37

    8

    48

    38

    9

    42

    26

    10

    52

    31

    11

    49

    27

    12

    63

    28

    1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

    2. Рассчитайте параметры уравнений линейной и степенной парной регрессии.

    3. Оцените тесноту связи с помощью показателей корреляции и детерминации.

    4. Дайте с помощью общего коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

    5. Оцените с помощью средней ошибки аппроксимации качество уравнений.

    6. Оцените с помощью F-критерия Фишера статистическую надежность результатов регрессионного моделирования. По значениям характеристик, рассчитанных в пп. 3,5 и данном пункте, выберите лучшее уравнение регрессии и дайте его обоснование.

    7. Оцените с помощью t-критерия Стьюдента статистическую надежность коэффициентов регрессии.

    8. По линейной функции постройте доверительный интервал для коэффициента регрессии.

    9. По линейной функции рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 5 процентов от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости 0,05.

    10. Оцените полученные результаты, выводы оформите в аналитической записке.


    Решение:

    Использование графического метода.

    Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.

    Совокупность точек результативного и факторного признаков называется полем корреляции.

    На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

    Линейное уравнение регрессии имеет вид y = bx + a

    Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, a и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.

    Здесь ε - случайная ошибка (отклонение, возмущение).

    Причины существования случайной ошибки:

    1. Невключение в регрессионную модель значимых объясняющих переменных;

    2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.

    3. Неправильное описание структуры модели;

    4. Неправильная функциональная спецификация;

    5. Ошибки измерения.

    Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:

    1) по наблюдениям xi и yi можно получить только оценки параметров α и β

    2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;

    Для оценки параметров α и β - используют МНК (метод наименьших квадратов).

    Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (ε) и независимой переменной (x).

    Формально критерий МНК можно записать так:

    S = ∑(yi - y*i)2 → min

    Система нормальных уравнений.

    a·n + b·∑x = ∑y

    a·∑x + b·∑x2 = ∑y·x

    Для расчета параметров регрессии построим расчетную таблицу (табл. 1)

    x

    y

    x2

    y2

    x*y

    23

    25

    529

    625

    575

    38

    29

    1444

    841

    1102

    24

    35

    576

    1225

    840

    44

    29

    1936

    841

    1276

    52

    40

    2704

    1600

    2080

    85

    17

    7225

    289

    1445

    29

    37

    841

    1369

    1073

    48

    38

    2304

    1444

    1824

    42

    26

    1764

    676

    1092

    52

    31

    2704

    961

    1612

    49

    27

    2401

    729

    1323

    63

    28

    3969

    784

    1764

    549

    362

    28397

    11384

    16006


    Для наших данных система уравнений имеет вид

    12a + 549·b = 362

    549·a + 28397·b = 16006

    Домножим уравнение (1) системы на (-45.75), получим систему, которую решим методом алгебраического сложения.

    -549a -25116.75 b = -16561.5

    549*a + 28397*b = 16006

    Получаем:

    3280.25*b = -555.5

    Откуда b = -0.1693

    Теперь найдем коэффициент «a» из уравнения (1):

    12a + 549*b = 362

    12a + 549*(-0.1693) = 362

    12a = 454.971

    a = 37.9143

    Получаем эмпирические коэффициенты регрессии: b = -0.1693, a = 37.9143

    Уравнение регрессии (эмпирическое уравнение регрессии):

    y = -0.1693 x + 37.9143

    Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.

    1. Параметры уравнения регрессии.

    Выборочные средние.


    Выборочные дисперсии:

    =

    =

    Среднеквадратическое отклонение

    Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:

    1.1. Коэффициент корреляции.

    Ковариация.
    Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
    Линейный коэффициент корреляции принимает значения от –1 до +1.

    Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

    0.1 < rxy < 0.3: слабая;

    0.3 < rxy < 0.5: умеренная;

    0.5 < rxy < 0.7: заметная;

    0.7 < rxy < 0.9: высокая;

    0.9 < rxy < 1: весьма высокая;

    В нашем примере связь между признаком Y и фактором X умеренная и обратная.

    Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:
    1.2. Уравнение регрессии (оценка уравнения регрессии).

    =

    Линейное уравнение регрессии имеет вид y = -0.169 x + 37.914

    Коэффициентам уравнения линейной регрессии можно придать экономический смысл.

    Коэффициент регрессии b = -0.169 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y понижается в среднем на -0.169.

    Коэффициент a = 37.914 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.

    Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.

    Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.

    Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь обратная.

    1.3. Коэффициент эластичности.

    Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.

    Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.

    Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.

    Коэффициент эластичности находится по формуле:

    Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.

    1.5. Эмпирическое корреляционное отношение.

    Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].

    где
    Индекс корреляции.

    Для линейной регрессии индекс корреляции равен коэффициенту корреляции rxy = -0.45.

    Полученная величина свидетельствует о том, что фактор x умеренно влияет на y

    Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:
    Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.

    В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].

    Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции rxy.

    1.6. Коэффициент детерминации.

    Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.

    Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.

    R2= -0.452 = 0.2029

    т.е. в 20.29% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - низкая. Остальные 79.71% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).

    Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)

    x

    y

    y(x)

    (yi-ycp)2

    (y-y(x))2

    (xi-xcp)2

    23

    25

    34.019

    26.694

    81.348

    517.563

    38

    29

    31.479

    1.361

    6.146

    60.063

    24

    35

    33.85

    23.361

    1.323

    473.063

    44

    29

    30.463

    1.361

    2.14

    3.063

    52

    40

    29.108

    96.694

    118.63

    39.063

    85

    17

    23.52

    173.361

    42.508

    1540.563

    29

    37

    33.003

    46.694

    15.974

    280.563

    48

    38

    29.786

    61.361

    67.476

    5.063

    42

    26

    30.802

    17.361

    23.056

    14.063

    52

    31

    29.108

    0.694

    3.579

    39.063

    49

    27

    29.616

    10.028

    6.845

    10.563

    63

    28

    27.245

    4.694

    0.569

    297.563

    549

    362

    362

    463.667

    369.594

    3280.25


    2. Оценка параметров уравнения регрессии.

    2.3. Анализ точности определения оценок коэффициентов регрессии.

    Несмещенной оценкой дисперсии возмущений является величина:

    S2 = 36.959 - необъясненная дисперсия или дисперсия ошибки регрессии (мера разброса зависимой переменной вокруг линии регрессии).
    S = 6.08 - стандартная ошибка оценки.

    Стандартная ошибка регрессии рассматривается в качестве меры разброса данных наблюдений от смоделированных значений. Чем меньше значение стандартной ошибки регрессии, тем качество модели выше.

    Sa - стандартное отклонение случайной величины a.

    Sb - стандартное отклонение случайной величины b.

    2.4. Доверительные интервалы для зависимой переменной.

    Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения. Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.

    Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.

    (a + bxp ± ε)

    Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и Xp = 105

    tкрит(n-m-1;α/2) = tкрит(10;0.025) = 2.634

    y(105) = -0.169*105 + 37.914 = 20.133

    Вычислим ошибку прогноза для уравнения y = bx + a

    =
    или

    =
    20.133 ± 17.199

    (2.93;37.33)

    С вероятностью 95% можно гарантировать, что значение Y при x=105 будет находиться в интервале от 2.93 до 37.33.

    Вычислим ошибку прогноза для уравнения y = bx + a + ε

    =
    20.133 ± 23.5

    (-3.37;43.63)

    2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

    1) t-статистика. Критерий Стьюдента.

    С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y).

    Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.

    Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.

    В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности.

    Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.

    H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;

    H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.

    В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.

    Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).

    Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.

    Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.

    Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α.

    tкрит(n-m-1;α/2) = tкрит(10;0.025) = 2.634

    Поскольку 1.6 < 2.634, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.

    Поскольку 7.34 > 2.634, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

    Доверительный интервал для коэффициентов уравнения регрессии.

    Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:

    (b - tкрит Sb; b + tкрит Sb)

    (-0.17 - 2.634*0.106; -0.17 + 2.634*0.106)

    (-0.449;0.11)

    С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

    (a - tкрит Sa; a + tкрит Sa)

    (37.914 - 2.634*5.164; 37.914 + 2.634*5.164)

    (24.313;51.515)

    С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

    2) F-статистика. Критерий Фишера.

    Коэффициент детерминации R2 используется для проверки существенности уравнения линейной регрессии в целом.

    Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

    Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

    =

    где m – число факторов в модели.

    Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

    1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.

    2. Далее определяют фактическое значение F-критерия:

    или по формуле:

    =

    где
    где m=1 для парной регрессии.

    3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

    Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.

    4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

    В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

    Табличное значение критерия со степенями свободы k1=1 и k2=10, Fтабл = 4.96

    Поскольку фактическое значение F < Fтабл, то коэффициент детерминации статистически не значим (найденная оценка уравнения регрессии статистически не надежна).

    Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:
    Дисперсионный анализ.

    При анализе качества модели регрессии используется теорема о разложении дисперсии, согласно которой общая дисперсия результативного признака может быть разложена на две составляющие – объясненную и необъясненную уравнением регрессии дисперсии.

    Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:

    ∑(yi - ycp)2 = ∑(y(x) - ycp)2 + ∑(y - y(x))2

    где

    ∑(yi - ycp)2 - общая сумма квадратов отклонений;

    ∑(y(x) - ycp)2 - сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);

    ∑(y - y(x))2 - остаточная сумма квадратов отклонений.

    Источник вариации

    Сумма квадратов

    Число степеней свободы

    Дисперсия на 1 степень свободы

    F-критерий

    Модель (объясненная)

    94.072

    1

    94.072

    2.545

    Остаточная

    369.59

    10

    36.96

    1

    Общая

    463.67

    12-1






    Показатели качества уравнения регрессии.

    Показатель

    Значение

    Коэффициент детерминации

    0.2029

    Средний коэффициент эластичности

    -0.257

    Средняя ошибка аппроксимации

    не был рассчитан


    Выводы.

    Изучена зависимость Y от X. На этапе спецификации была выбрана парная линейная регрессия. Оценены её параметры методом наименьших квадратов. Статистическая значимость уравнения проверена с помощью коэффициента детерминации и критерия Фишера. Установлено, что в исследуемой ситуации 20.29% общей вариабельности Y объясняется изменением X. Установлено также, что параметры модели статистически не значимы. Возможна экономическая интерпретация параметров модели - увеличение X на 1 ед.изм. приводит к уменьшению Y в среднем на 0.169 ед.изм. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. При x=105, Y будет находиться в пределах от 2.93 до 37.33 ед.изм. и с вероятностью 95% не выйдет за эти пределы.

    Обнаружение автокорреляции

    1. Графический метод

    Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения εi с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения εi (либо оценки отклонений).

    Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скорее всего будет свидетельствовать об отсутствии автокорреляции.

    Автокорреляция становится более наглядной, если построить график зависимости εi от εi-1

    2. Коэффициент автокорреляции.

    =

    Если коэффициент автокорреляции rei < 0.5, то есть основания утверждать, что автокорреляция отсутствует.

    Для определения степени автокорреляции вычислим коэффициент автокорреляции и проверим его значимость при помощи критерия стандартной ошибки. Стандартная ошибка коэффициента корреляции рассчитывается по формуле:
    Коэффициенты автокорреляции случайных данных должны обладать выборочным распределением, приближающимся к нормальному с нулевым математическим ожиданием и средним квадратическим отклонением, равным
    Если коэффициент автокорреляции первого порядка r1 находится в интервале:

    -2.634*0.289 < r1 < 2.634*0.289

    то можно считать, что данные не показывают наличие автокорреляции первого порядка.

    Используя расчетную таблицу, получаем:

    =

    Так как -0.76 < r1 = -0.319 < 0.76, то свойство независимости остатков выполняется. Автокорреляции отсутствует.

    3. Критерий Дарбина-Уотсона.

    Этот критерий является наиболее известным для обнаружения автокорреляции.

    При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой. При этом проверяется некоррелированность соседних величин ei.

    y

    y(x)

    ei = y-y(x)

    e2

    (ei - ei-1)2

    25

    34.019

    -9.019

    81.348



    29

    31.479

    -2.479

    6.146

    42.774

    35

    33.85

    1.15

    1.323

    13.171

    29

    30.463

    -1.463

    2.14

    6.828

    40

    29.108

    10.892

    118.63

    152.64

    17

    23.52

    -6.52

    42.508

    303.162

    37

    33.003

    3.997

    15.974

    110.598

    38

    29.786

    8.214

    67.476

    17.788

    26

    30.802

    -4.802

    23.056

    169.418

    31

    29.108

    1.892

    3.579

    44.803

    27

    29.616

    -2.616

    6.845

    20.322

    28

    27.245

    0.755

    0.569

    11.363







    369.594

    892.868


    Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:

    Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости α, числа наблюдений n = 12 и количества объясняющих переменных m=1.

    Автокорреляция отсутствует, если выполняется следующее условие:

    d1 < DW и d2 < DW < 4 - d2.

    Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5 < DW < 2.5. Поскольку 1.5 < 2.42 < 2.5, то автокорреляция остатков
    1   2   3   4


    написать администратору сайта