Главная страница
Навигация по странице:

  • Уравнение парной регрессии . Использование графического метода

  • 1. Параметры уравнения регрессии

  • 2.1 Коэффициент корреляции

  • Бета – коэффициент Бета – коэффициент

  • 2.2 Ошибка аппроксимации

  • 2.3 Коэффициент детерминации

  • Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)

  • 3. Оценка параметров уравнения регрессии . 2.3. Анализ точности определения оценок коэффициентов регрессии

  • Индивидуальные доверительные интервалы для Y при данном значении X

  • Доверительный интервал для коэффициентов уравнения регрессии

  • Показатели качества уравнения регрессии

  • контрольная. контрольная ульяна. Корреляционный анализ


    Скачать 32.9 Kb.
    НазваниеКорреляционный анализ
    Анкорконтрольная
    Дата20.01.2022
    Размер32.9 Kb.
    Формат файлаdocx
    Имя файлаконтрольная ульяна.docx
    ТипДокументы
    #337436

    Корреляционный анализ.

    номер региона

    х

    у

    1

    78

    133+р2

    2

    80+р2

    148

    3

    87

    135+р1

    4

    79

    154

    5

    106

    157+р1

    6

    106+р1

    195

    7

    67

    139

    8

    98

    158+р2

    9

    73+р2

    152

    10

    87

    162

    11

    86

    146+р2

    12

    110+р1

    173

    где: х - это среднедушевой прожиточный минимум в день одного трудоспособного; у - это среднедневная заработная плата в день

    р1 -Ульяна; р2- Ефремочева, отсюда р1=6; р2=10

    Уравнение парной регрессии.

    Использование графического метода.

    Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.

    Совокупность точек результативного и факторного признаков называется полем корреляции.

    На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

    Линейное уравнение регрессии имеет вид y = bx + a

    Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, a и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.

    Здесь ε - случайная ошибка (отклонение, возмущение).

    Причины существования случайной ошибки:

    1. Невключение в регрессионную модель значимых объясняющих переменных;

    2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.

    3. Неправильное описание структуры модели;

    4. Неправильная функциональная спецификация;

    5. Ошибки измерения.

    Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:

    1) по наблюдениям xi и yi можно получить только оценки параметров α и β

    2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;

    Для оценки параметров α и β - используют МНК (метод наименьших квадратов).

    Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (ε) и независимой переменной (x).

    Формально критерий МНК можно записать так:

    S = ∑(yi - y*i)2 → min

    Система нормальных уравнений.

    a·n + b·∑x = ∑y

    a·∑x + b·∑x2 = ∑y·x

    Для расчета параметров регрессии построим расчетную таблицу (табл. 1)


    x

    y

    x2

    y2

    x • y

    84

    143

    7056

    20449

    12012

    90

    148

    8100

    21904

    13320

    87

    141

    7569

    19881

    12267

    79

    154

    6241

    23716

    12166

    106

    163

    11236

    26569

    17278

    112

    195

    12544

    38025

    21840

    67

    139

    4489

    19321

    9313

    98

    168

    9604

    28224

    16464

    83

    152

    6889

    23104

    12616

    87

    162

    7569

    26244

    14094

    86

    156

    7396

    24336

    13416

    116

    173

    13456

    29929

    20068

    1095

    1894

    102149

    301702

    174854

    Для наших данных система уравнений имеет вид
    12a + 1095·b = 1894

    1095·a + 102149·b = 174854

    Домножим уравнение (1) системы на (-91.25), получим систему, которую решим методом алгебраического сложения.

    -1095a -99918.75 b = -172827.5

    1095*a + 102149*b = 174854

    Получаем:

    2230.25*b = 2026.5

    Откуда b = 0.9086

    Теперь найдем коэффициент «a» из уравнения (1):

    12a + 1095*b = 1894

    12a + 1095*0.9086 = 1894

    12a = 899.036

    a = 74.9197

    Получаем эмпирические коэффициенты регрессии: b = 0.9086, a = 74.9197

    Уравнение регрессии (эмпирическое уравнение регрессии):

    y = 0.9086 x + 74.9197

    Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.

    1. Параметры уравнения регрессии.

    Выборочные средние.


    Выборочные дисперсии:

    =

    =

    Среднеквадратическое отклонение

    Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:

    2.1 Коэффициент корреляции.

    Ковариация.
    Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

    =

    Линейный коэффициент корреляции принимает значения от –1 до +1.

    Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

    0.1 < rxy < 0.3: слабая;

    0.3 < rxy < 0.5: умеренная;

    0.5 < rxy < 0.7: заметная;

    0.7 < rxy < 0.9: высокая;

    0.9 < rxy < 1: весьма высокая;

    В нашем примере связь между признаком Y и фактором X высокая и прямая.

    Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:
    Уравнение регрессии (оценка уравнения регрессии).

    =

    Линейное уравнение регрессии имеет вид y = 0.909 x + 74.92

    Коэффициентам уравнения линейной регрессии можно придать экономический смысл.

    Коэффициент регрессии b = 0.909 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 0.909.

    Коэффициент a = 74.92 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.

    Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.

    Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.

    Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.

    Бета – коэффициент

    Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
    Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 81.6% среднеквадратичного отклонения Sy.

    2.2 Ошибка аппроксимации.

    Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
    Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.
    В среднем, расчетные значения отклоняются от фактических на 4.74%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.

    2.3 Коэффициент детерминации.

    Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.

    Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.

    R2= 0.8162 = 0.6658

    т.е. в 66.58% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 33.42% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).

    Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)


    x

    y

    y(x)

    (yi-ycp)2

    (y-y(x))2

    |y - yx|:y

    84

    143

    151.246

    220.028

    67.991

    0.0577

    90

    148

    156.698

    96.694

    75.647

    0.0588

    87

    141

    153.972

    283.361

    168.262

    0.092

    79

    154

    146.702

    14.694

    53.254

    0.0474

    106

    163

    171.236

    26.694

    67.829

    0.0505

    112

    195

    176.688

    1381.361

    335.342

    0.0939

    67

    139

    135.799

    354.694

    10.248

    0.023

    98

    168

    163.967

    103.361

    16.268

    0.024

    83

    152

    150.337

    34.028

    2.765

    0.0109

    87

    162

    153.972

    17.361

    64.455

    0.0496

    86

    156

    153.063

    3.361

    8.626

    0.0188

    116

    173

    180.322

    230.028

    53.615

    0.0423

    1095

    1894

    1894

    2765.667

    924.303

    0.569

    3. Оценка параметров уравнения регрессии.
    2.3. Анализ точности определения оценок коэффициентов регрессии.

    Несмещенной оценкой дисперсии возмущений является величина:

    S2 = 92.43 - необъясненная дисперсия или дисперсия ошибки регрессии (мера разброса зависимой переменной вокруг линии регрессии).
    S = 9.61 - стандартная ошибка оценки.

    Стандартная ошибка регрессии рассматривается в качестве меры разброса данных наблюдений от смоделированных значений. Чем меньше значение стандартной ошибки регрессии, тем качество модели выше.

    Sa - стандартное отклонение случайной величины a.

    Sb - стандартное отклонение случайной величины b.

    Индивидуальные доверительные интервалы для Y при данном значении X.

    (a + bxi ± ε)

    где

    =
    tкрит (n-m-1;α/2) = (10;0.025) = 2.228


    xi

    y = 74.92 + 0.91xi

    εi

    ymin = y - εi

    ymax = y + εi

    84

    151.246

    22.536

    128.71

    173.782

    90

    156.698

    22.302

    134.396

    179

    87

    153.972

    22.378

    131.594

    176.35

    79

    146.702

    22.977

    123.726

    169.679

    106

    171.236

    23.277

    147.959

    194.513

    112

    176.688

    24.2

    152.488

    200.888

    67

    135.799

    24.86

    110.938

    160.659

    98

    163.967

    22.504

    141.463

    186.471

    83

    150.337

    22.607

    127.73

    172.944

    87

    153.972

    22.378

    131.594

    176.35

    86

    153.063

    22.422

    130.641

    175.485

    116

    180.322

    24.962

    155.361

    205.284

    С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
    2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

    1) t-статистика. Критерий Стьюдента.

    С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y).

    Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.

    Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.

    В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности.

    Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.

    H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;

    H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.

    В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.

    Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).

    Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.

    Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.

    Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α.

    tкрит (n-m-1;α/2) = (10;0.025) = 2.228

    Поскольку 4.46 > 2.228, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

    Поскольку 3.99 > 2.228, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

    Доверительный интервал для коэффициентов уравнения регрессии.

    Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:

    (b - tкрит Sb; b + tкрит Sb)

    (0.91 - 2.228*0.204; 0.91 + 2.228*0.204)

    (0.455;1.362)

    С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

    (a - tкрит Sa; a + tкрит Sa)

    (74.92 - 2.228*18.783; 74.92 + 2.228*18.783)

    (33.072;116.767)

    С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

    2) F-статистика. Критерий Фишера.

    Коэффициент детерминации R2 используется для проверки существенности уравнения линейной регрессии в целом.

    Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

    Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

    =

    где m – число факторов в модели.

    Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

    1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.

    2. Далее определяют фактическое значение F-критерия:

    или по формуле:

    =

    где
    где m=1 для парной регрессии.

    3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

    Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.

    4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

    В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

    Табличное значение критерия со степенями свободы k1=1 и k2=10, Fтабл = 4.96

    Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

    Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:
    Показатели качества уравнения регрессии.


    Показатель

    Значение

    Коэффициент детерминации

    0.6658

    Средняя ошибка аппроксимации

    4.74



    Выводы.
    Изучена зависимость Y от X. На этапе спецификации была выбрана парная линейная регрессия. Оценены её параметры методом наименьших квадратов. Статистическая значимость уравнения проверена с помощью коэффициента детерминации и критерия Фишера. Установлено, что в исследуемой ситуации 66.58% общей вариабельности Y объясняется изменением X. Установлено также, что параметры модели статистически значимы. Возможна экономическая интерпретация параметров модели - увеличение X на 1 ед.изм. приводит к увеличению Y в среднем на 0.909 ед.изм.


    написать администратору сайта