Главная страница
Навигация по странице:

  • 3. ПАРНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

  • 4. НАЧАЛА РЕГРЕССИОННОГО АНАЛИЗА. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ

  • Гефан Г.Д. Эконометрика, 2005. Учебное пособие для студентов специальностей Бухгалтерский учёт, анализ и аудит


    Скачать 0.9 Mb.
    НазваниеУчебное пособие для студентов специальностей Бухгалтерский учёт, анализ и аудит
    Дата04.06.2020
    Размер0.9 Mb.
    Формат файлаpdf
    Имя файлаГефан Г.Д. Эконометрика, 2005.pdf
    ТипУчебное пособие
    #128060
    страница2 из 10
    1   2   3   4   5   6   7   8   9   10
    Пример 5. В продолжениепримера 4 найдём условные математиче- ские ожидания и функцию регрессии Y по X. Воспользовавшись получен- ными выше значениями условных вероятностей
    )
    1
    (


    X
    y
    Y
    P
    j
    , получаем
    5 15 17 14
    )
    1
    (
    2 1
    2 1






    X
    Y
    M
    Таким же образом можно найти математические ожидания Y при дру- гих значениях X.

    10
    Более простой способ позволяет сразу вывести общую формулу для
    )
    (
    )
    (
    x
    x
    X
    Y
    M



    . Вспомним, что x – это число рабочих 1-ой категории, а
    (2 – x) – число рабочих 2-ой и 3-ей категорий среди двух отобранных. От- сюда
    1 1
    5 4
    )
    2
    (
    5 5
    10
    )
    (







    x
    x
    x
    x
    X
    Y
    M
    Итак,
    11 5
    4
    )
    (


    x
    x

    . Это означает, что имеет место линейная кор- реляция случайных величин, причём
    20
    )
    2
    (
    ,
    5 15
    )
    1
    (
    ,
    11
    )
    0
    (






    X
    Y
    M
    X
    Y
    M
    X
    Y
    M
    Замечание. Не путайте линейную корреляцию с линейной зависимо- стью величин! Последнее означало бы присутствие функциональной, а не корреляционной связи между X и Y.
    2.4. Как измерить тесноту корреляции?
    Форма корреляционной связи (линейная или нелинейная) не даёт нам информации о том, насколько тесно связаны между собой случайные величины. В качестве ‘‘измерителя’’ тесноты связи двух величин логично было бы предложить такой показатель, который принимает нулевое значе- ние при полном отсутствии зависимости между X и Y.
    Корреляционным моментом (или ковариацией, т.е. совместной ва- риацией) случайных величин X и Y называется математическое ожи- дание произведения их отклонений:


    )]
    (
    )][
    (
    [
    )
    ,
    (
    Y
    M
    Y
    X
    M
    X
    M
    Y
    X




    Преобразуем данное выражение:
    ),
    (
    )
    (
    )
    (
    )]
    (
    )
    (
    )
    (
    )
    (
    [
    )
    ,
    (
    Y
    M
    X
    M
    XY
    M
    Y
    M
    X
    M
    Y
    X
    M
    Y
    XM
    XY
    M
    Y
    X







    что (как и требовалось) равно нулю для независимых случайных величин.
    Корреляционный момент двух независимых случайных величин ра- вен нулю. Если
    0
    )
    ,
    (


    Y
    X
    , то случайные величины называются коррелированными (в противном случае  некоррелированными).
    Коррелированные величины зависимы (обратное не всегда верно).
    2.5. Почему корреляционный момент неудобен для оценки
    тесноты корреляции?
    Корреляционный момент имеет размерность, равную произведению размерностей случайных величин. Например, существует корреляция меж- ду температурой воды и числом отдыхающих на пляже. В каких единицах будет измеряться ковариация? Очевидно, в «человеко-градусах» (или

    11
    «градусо-человеках»). По величине показателя, имеющего такую размер- ность, мы вряд ли получим представление о тесноте корреляции.
    Коэффициентом корреляции системы случайных величин называет- ся безразмерная величина
    )
    (
    )
    (
    )
    (
    )
    (
    )
    (
    )
    (
    )
    (
    )
    ,
    (
    )
    ,
    (
    Y
    X
    Y
    M
    X
    M
    XY
    M
    Y
    X
    Y
    X
    Y
    X
    r








    Здесь
    )
    ( X

    и
    )
    (Y

    — среднеквадратические отклонения случайных вели- чин. Кроме отсутствия размерности, достоинством этой характеристики является нормировка. Покажем, что при линейной функциональной зави- симости величин X и Y (
    b
    aX
    Y


    ), которую можно рассматривать как предельно тесную корреляцию,
    1
    )
    ,
    (



    a
    a
    Y
    X
    r
    Действительно, пусть
    b
    aX
    Y


    . Тогда:
    )
    (
    )
    (
    ),
    (
    )
    (
    2
    X
    a
    Y
    X
    D
    a
    Y
    D




    ,
    ),
    (
    )
    (
    )]
    (
    [
    ]}
    )
    (
    )][
    (
    {[
    )
    ,
    (
    2 2
    X
    a
    X
    aD
    X
    M
    X
    aM
    b
    X
    aM
    b
    aX
    X
    M
    X
    M
    Y
    X












    1
    )
    (
    )
    (
    )
    ,
    (
    )
    ,
    (




    a
    a
    Y
    X
    Y
    X
    Y
    X
    r



    Область значений коэффициента корреляции:
    1
    )
    ,
    (

    Y
    X
    r
    . Знаки ко- эффициента корреляции и коэффициента регрессии a совпадают.
    Пример 6. Найдём коэффициент корреляции системы случайных ве- личин, представленной в примерах 4 и 5. Легко убедиться, что:
    ;
    3 2
    )
    6 2
    3 2
    3 6
    (
    )
    (
    ;
    14
    )
    1 20 2
    17 3
    14 2
    11 1
    8
    (
    )
    (
    ;
    3
    /
    2 2
    1
    )
    (
    )
    (
    )
    (
    ;
    2 1
    )
    (
    2 2
    2 2
    9 1
    9 1
    9 4
    9 1
    2 9
    4 2
    2 2
    3 2
    9 1
    9 4
































    Y
    Y
    M
    X
    M
    x
    p
    x
    X
    X
    M
    i
    i


    ;
    )
    2 14 2
    17 40
    (
    )
    (
    9 102 9
    1






    XY
    M
    866 0
    )
    (
    )
    (
    2 3
    4 3
    3 28 9
    102





    XY
    r

    12
    3. ПАРНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
    3.1. Какая величина может служить количественной оценкой
    корреляции по данным статистического наблюдения?
    Как уже отмечалось в п.2.4, для независимых случайных величин X и
    Y выполняется равенство
    )
    (
    )
    (
    )
    (
    Y
    M
    X
    M
    XY
    M

    . Имея дело со статистиче- скими данными, кажется естественным заменить математические ожида- ния их статистическими аналогами (выборочными средними):









    n
    i
    i
    i
    n
    i
    i
    n
    i
    i
    y
    x
    n
    xy
    y
    n
    y
    x
    n
    x
    1 1
    1 1
    ,
    1
    ,
    1
    и считать мерой корреляции величину
    y
    x
    xy
    , представляющую собой статистический аналог ковариации. Правда, для того чтобы исключить влияние единиц измерения признаков, следует, как и в п.2.4, от абсолют- ного показателя (ковариации) перейти к относительному показателю (ко- эффициенту корреляции).
    Выборочным коэффициентом линейной корреляции называется ве- личина
    y
    x
    xy
    y
    x
    xy
    r




    , где
    1
    ,
    1 2
    2 2
    1 2
    2 2
    2 2
    1 2
    2
    y
    y
    y
    y
    n
    x
    x
    x
    x
    n
    n
    i
    i
    y
    n
    i
    i
    x


























    Величины
    y
    x

    ,
    называются выборочными среднеквадратическими отклонениями признаков, а их квадраты
    2 2
    ,
    y
    x


    – выборочными дис- персиями признаков.
    Выборочный коэффициент корреляции может принимать значения в пределах от –1 до 1. Если количественные признаки тесно коррелированы
    (т.е. близки к линейной функциональной зависимости), то
    xy
    r
    1


    . В ста- тистической практике принято считать корреляционную связь заметной при
    5 0

    xy
    r
    и достаточно тесной при
    8 0

    xy
    r
    . Теоретически при пол- ном отсутствии корреляции
    xy
    r
    должен быть равен нулю. Однако на прак- тике, в силу выборочности данных, нет оснований ожидать, что для некор- релированных величин мы обязательно получим нулевое или близкое к нулю значение коэффициента
    xy
    r

    13
    Пример 7. В таблице приводятся выборочные данные о площади (Х, кв. м) и цене (Y, тыс. долларов) 10 квартир.
    Требуется:
     найти среднюю площадь квартиры
    x
    и среднюю цену
    y ;
     найти выборочный коэффициент линейной корреляции
    xy
    r
    Решение.
    При расчётах удобно составить таблицу следующего вида:
    Получаем:
    9319 0
    ,
    96 11
    ,
    96 159 2
    2



    xy
    y
    x
    r


    . Имеется тесная корреляционная связь между площадью квартиры и её ценой.
    3.2. Что делать, если выборочный коэффициент корреляции
    мал?
    Результаты рассмотрения примера 7 достаточно очевидны. Однако при значениях
    5 0

    xy
    r
    (и меньше) мы не могли бы с уверенностью ут- верждать, что признаки корреляционно связаны. Из
    0

    xy
    r
    ещё нельзя за- ключить, что не равен нулю и генеральный коэффициент корреляции
    )
    ,
    (
    Y
    X
    r
    . Необходимо проверить гипотезу о том, что отклонение
    xy
    r
    от ну- ля незначимо и случайно:
    0
    )
    ,
    (
    :
    ,
    0
    )
    ,
    (
    :
    1 0


    Y
    X
    r
    H
    Y
    X
    r
    H
    . В качестве кри- терия используется случайная величина
    2 1
    2
    xy
    xy
    r
    r
    n
    r
    T



    , подчиняющаяся распределению Стьюдента. Строится двусторонняя кри- тическая область. Правая критическая точка
    )
    ,
    (
    2
    k
    t
    cr

    , где k = n – 2, может
    x
    i
    58 74 36 44 70 52 57 65 37 45
    y
    i
    20 21 12 15 22 18 17 23 14 16
    i
    i
    x
    i
    y
    2
    i
    x
    2
    i
    y
    i
    i
    y
    x
    1 58 20 3364 400 1160 2
    74 21 5476 441 1554 3
    36 12 1296 144 432 4
    44 15 1936 225 660 5
    70 22 4900 484 1540 6
    52 18 2704 324 936 7
    57 17 3249 289 969 8
    65 23 4225 529 1495 9
    37 14 1369 196 518 10 45 16 2025 256 720 средние
    53.8 17.8 3054.4 328.8 998.4

    14 быть найдена в таблице (приложение 1). На заданном уровне значимости

    при
    )
    ,
    (
    2
    k
    t
    T
    cr
    r


    нет оснований отклонить нулевую гипотезу; в про- тивном случае H
    0 отвергается.
    Пример 8. По выборке объёма n = 10 парных значений двух призна- ков найден выборочный коэффициент корреляции
    4 0

    xy
    r
    . Проверим ги- потезу
    0
    )
    ,
    (
    :
    0

    Y
    X
    r
    H
    на уровне значимости

    = 0.05. Найдём наблюдае- мое значение критерия:
    23 1
    16 0
    1 8
    4 0



    r
    T
    По таблице критических точек распределения Стьюдента находим
    31 2
    )
    8
    ,
    05 0
    (
    2

    cr
    t
    . Поскольку
    cr
    r
    t
    T
    2

    , нет оснований отклонить нулевую гипотезу. Выборочный коэффициент корреляции незначим. Между при- знаками нет линейной корреляции.
    4. НАЧАЛА РЕГРЕССИОННОГО АНАЛИЗА.
    МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
    4.1. Что такое регрессия?
    Корреляция и регрессия – смежные научные понятия, употребляе- мые, как правило, совместно. Термин «регрессия» уже появлялся в пара- графе 2 («функция регрессии»), но о его смысле мы не говорили. Оба по- нятия связаны с именем выдающегося английского антрополога Фрэнсиса
    Гальтона. Изучая наследственность, Гальтон собрал статистический мате- риал, который доказывал (как ему казалось), что в среднем рост сыновей уменьшается по сравнению с ростом отцов. Говоря точнее, дети высоких родителей тоже выше своих сверстников, но всё же они ближе к среднему росту, чем родители. Такое явление Гальтон назвал regression to mediocrity
    (возврат к среднему состоянию) и даже вывел соответствующее уравнение.
    Хотя наблюдение Гальтона не нашло подтверждения в других исследова- ниях, разработанный им метод стал одной из основ обработки статистиче- ских данных.
    Регрессией в теории вероятностей и математической статистике на- зывается зависимость среднего значения величины Y от значения другой величины X (или нескольких величин).
    4.2. В чём состоит метод наименьших квадратов?
    Пусть изучается взаимозависимость двух количественных признаков
    )
    ,
    (
    Y
    X
    . В результате n опытов или наблюдений получены пары чисел: (x
    i
    ,
    y
    i
    ), где i = 1, 2, ..., n. На основе предварительного анализа этих данных и с

    15 учётом самой природы признаков мы можем сделать предположение о не- которой линии связи
    )
    ,
    (

    x
    f
    y
    x

    , где под
    x
    y
    подразумевается среднее значение признака Y, соответствующее значению X = x, а под

    – совокуп- ность варьируемых параметров. Например, если диаграмма рассеивания свидетельствует о линейной форме корреляции (см. рис.1), то в качестве линии связи можно выбрать прямую
    b
    ax
    y
    x


    Вопрос состоит в том, как получить оценки коэффициентов a и b.
    Метод наименьших квадратов (МНК) состоит в минимизации сум- мы квадратов отклонений наблюдаемых значений количественного признака от теоретических значений того же признака, соответст- вующих некоторой гипотетической формуле.
    Например, для случая, когда в качестве линии связи выбирается прямая, минимизируется функция двух переменных:






    n
    i
    i
    i
    b
    ax
    y
    b
    a
    S
    1 2
    min
    )
    (
    )
    ,
    (
    Рассмотрим эту задачу подробнее. Необходимые условия экстремума:























    n
    i
    i
    i
    n
    i
    i
    i
    i
    y
    b
    ax
    b
    S
    x
    y
    b
    ax
    a
    S
    1 1
    0
    )
    (
    2
    ,
    0
    )
    (
    2
    Для простоты опуская индексацию, получим:














    )
    (
    ,
    )
    (
    )
    (
    2
    y
    nb
    a
    x
    xy
    b
    x
    a
    x
    После деления на n система принимает вид









    ,
    2
    y
    b
    a
    x
    xy
    b
    x
    a
    x
    Решение системы может быть легко найдено по правилу Крамера: есть то
    ,
    ,
    *
    *






    b
    a
    b
    a
    2 2
    2
    *
    2 2
    *
    )
    (
    ,
    )
    (
    x
    x
    xy
    x
    x
    y
    b
    x
    x
    y
    x
    xy
    a






    или
    x
    a
    y
    b
    *
    *



    16
    Достаточным условием того, что критическая точка (
    *
    *
    , b
    a
    ) является точ- кой минимума, является положительность полного дифференциала 2-го порядка от
    )
    ,
    (
    b
    a
    S
    . Имеем
    )
    (
    2 2
    2 2
    2 2
    2 2
    2 2
    2
    r
    q
    p
    db
    db
    b
    S
    dadb
    b
    a
    S
    da
    a
    S
    S
    d















    , где
    db
    da
    n
    b
    S
    r
    x
    n
    x
    b
    a
    S
    q
    x
    n
    x
    a
    S
    p



















    ,
    2
    ,
    4 4
    2
    ,
    2 2
    2 2
    2 2
    2 2
    2
    Условие
    0 2

    S
    d
    выполняется при
    0

    p
    и
    0 4
    2

    pr
    q
    . Последнее нера- венство сводится к стандартному требованию положительности диспер- сии:
    0 2
    2

    x
    x
    Следовательно, значения
    *
    a и
    *
    b , определённые из необходимого условия экстремума, соответствуют минимуму функции
    )
    ,
    (
    b
    a
    S
    4.3. Как связаны выборочные уравнения регрессии
    с коэффициентом корреляции?
    Уравнение вида
    b
    ax
    y
    x


    , в котором значения коэффициентов a =
    a
    * и b = b
    *
    вычислены по статистическим данным методом наимень- ших квадратов, называется выборочным уравнением линейной рег-
    рессии Y по X. Угловой коэффициент a
    *
    называется выборочным ко- эффициентом регрессии или оценкой коэффициента регрессии.
    Сравнивая формулы для выборочных коэффициентов корреляции
    (см. п.3.1) и регрессии, нетрудно убедиться, что
    xy
    x
    y
    x
    r
    y
    x
    xy
    a






    2
    *
    Выразив из второго уравнения системы









    ,
    2
    y
    b
    a
    x
    xy
    b
    x
    a
    x
    величину b и подставив её в уравнение
    b
    ax
    y
    x


    , получим
    )
    (
    x
    x
    a
    y
    y
    x




    17 или
    )
    (
    x
    x
    r
    y
    y
    xy
    x
    y
    x





    Линия регрессии проходит через точку (
    y
    x, ) с угловым коэффици- ентом, прямо пропорциональным коэффициенту корреляции.
    1   2   3   4   5   6   7   8   9   10


    написать администратору сайта