Главная страница
Навигация по странице:

  • Глава 53. Методы многомерного статистического анализа и моделирования социально- экономических явлений 53.1. Корреляционный анализ

  • 53.2. Регрессионный анализ

  • Мультиколлинеарность

  • Курс социально-экономической статистики. М. Г. НазароваРекомендовано Министерством образования Российской Федерации в качестве учебника


    Скачать 5.92 Mb.
    НазваниеМ. Г. НазароваРекомендовано Министерством образования Российской Федерации в качестве учебника
    АнкорКурс социально-экономической статистики.pdf
    Дата10.07.2018
    Размер5.92 Mb.
    Формат файлаpdf
    Имя файлаКурс социально-экономической статистики.pdf
    ТипУчебник
    #21303
    страница45 из 49
    1   ...   41   42   43   44   45   46   47   48   49

    РАЗДЕЛ XII. СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И ПРОГНОЗИРОВАНИЕ
    СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ПРОЦЕССОВ
    В условиях перехода страны к рыночной экономике возрастает интерес и потребность в статистических методах анализа и прогнозирования, в количественных оценках социально- экономических явлений, получаемых с использованием многомерных статистических методов на
    ПЭВМ.
    В данном разделе излагаются основные теоретические положения таких многомерных статистических методов, как корреляционный, регрессионный, компонентный и кластерный анализ, ряд задач эконометрики.
    Значительное внимание уделяется логическому анализу исходной информации и экономической интерпретации получаемых результатов, а также рассмотрению подробно разработанных типовых примеров, взятых из экономической практики и решенных с использованием ЭВМ.
    Примеры иллюстрируют необходимость комплексного применения многомерных статистических

    426 методов. При этом корреляционный анализ используется, с одной стороны, на этапе предварительного анализа для выявления мультиколлинеарности, а с другой — при оценке адекватности регрессионной модели; компонентный анализ используется в задачах снижения размерности, а также при построении уравнения регрессии на главных компонентах и в задачах классификации. При окончательном выборе модели рекомендуется использовать как экономические, так и статистические критерии. Наряду с точечными оценками рассматриваются методы построения интервальных оценок коэффициентов и уравнения регрессии.
    В 53.5 «Основы эконометрики» рассматриваются производственные функции и системы одновременных эконометрических уравнений, двухшаговый метод наименьших квадратов.
    Настоящий раздел предназначен для студентов, изучающих многомерные статистические методы, и специалистов, желающих повысить свою квалификацию в области применения современных эконометрических методов для анализа и прогнозирования социально-экономических явлений.
    Глава 53. Методы многомерного статистического анализа и моделирования социально-
    экономических явлений
    53.1. Корреляционный анализ
    Корреляционный анализ является одним из методов статистического анализа взаимозависимости нескольких признаков.
    Основная задача корреляционного анализа состоит в оценке корреляционной матрицы генеральной совокупности по выборке и определении на основе этой матрицы частных и множественных коэффициентов корреляции и детерминации.
    Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от -1 до +1, причем чем ближе коэффициент корреляции к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь положительная, а если меньше нуля — отрицательная.
    Множественный коэффициент корреляции характеризует тесноту, линейной связи между одной переменной (результативной) и остальными, входящими в модель; он изменяется в пределах от 0 до 1.
    Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации. Он характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель.
    Исходной для анализа является матрица размерности п х k, i-я строка которой характеризует i-е наблюдение (объект) по всем k показателям (j =
    1, 2, ..., k).
    В корреляционном анализе матрицу Х рассматривают как выборку объема п из k-мерной генеральной совокупности, подчиняющейся k-мерному нормальному закону распределения.
    По выборке определяют оценки параметров генеральной совокупности, а именно: вектор средних
    x
    , вектор средних квадратических отклонений s и корреляционную матрицу R порядка k:

    427 где
    (53.1)
    (53.2)
    x
    ij
    значение i-го наблюдения j-го фактора,
    r
    il
    выборочный парный коэффициент корреляции, характеризующий тесноту линейной связи между показателями x
    j
    и x
    l
    . При этом r
    jl
    является оценкой генерального парного коэффициента корреляции.
    Матрица R является симметричной (r
    jl
    = r
    lj
    ) и положительно определенной.
    Кроме того, находятся точечные оценки частных и множественных коэффициентов корреляции любого порядка. Например, частный коэффициент корреляции (k - 2)-го порядка между переменными х
    1
    и х
    2
    равен
    (53.3) где R
    jl
    алгебраическое дополнение элемента r
    jl
    корреляционной матрицы R. При этом R
    jl
    = (-l)
    j+l
    M
    jl
    , где M
    jl
    — минор, т.е. определитель матрицы, получаемой из матрицы R путем вычерчивания j-й строки и l-го столбца.
    Множественный коэффициент корреляции (k - 1)-го порядка результативного признака x
    1
    определяется по формуле
    (53.4) где | R | — определитель матрицы R.
    Значимость частных и парных коэффициентов корреляции, т.е. гипотеза H
    0
    : ρ = 0, проверяется по t- критерию Стьюдента. Наблюдаемое значение критерия находится по формуле
    (53.5) где r — соответственно оценка частного или парного коэффициента корреляции ρ; l — порядок частного коэффициента корреляции, т.е. число фиксируемых факторов (для парного коэффициента корреляции l=0).
    Напомним, что проверяемый коэффициент корреляции считается значимым, т.е. гипотеза H
    0
    : ρ = 0 отвергается с вероятностью ошибки α, если t
    набл по модулю будет больше, чем значение t
    кр
    , определяемое по таблицам t-распределения для заданного α и υ = n l - 2.
    Значимость коэффициентов корреляции можно также проверить с помощью таблиц Фишера —
    Иейтса.
    При определении с надежностью у доверительного интервала для значимого парного или частного коэффициента корреляции р используют Z-преобразование Фишера и предварительно устанавливают интервальную оценку дляZ:
    (53.6)

    428 где t
    γ
    вычисляют по таблице значений интегральной функции Лапласа из условия значениеZ' определяют по таблице Z-преобразования по найденному значению r. ФункцияZ' — нечетная, т.е.
    Обратный переход от Z к ρ осуществляют также по таблице Z-преобразования, после использования которой получают интервальную оценку для ρ с надежностью γ:
    Таким образом, с вероятностью γ гарантируется, что генеральный коэффициент корреляции ρ будет находиться в интервале (r
    min
    , r
    max
    ).
    Значимость множественного коэффициента корреляции (или его квадрата — коэффициента детерминации) проверяется по F-критерию. Например, для множественного коэффициента корреляции проверка значимости сводится к проверке гипотезы, что генеральный множественный коэффициент корреляции равен нулю, т.е. H
    0
    : ρ
    1/2,…,k
    = 0, а наблюдаемое значение статистики находится по формуле
    (53.7)
    Множественный коэффициент корреляции считается значимым, т.е. имеет место линейная статистическая зависимость между х
    1
    и остальными факторами х
    2
    , ..., х
    k
    , если F
    набл
    > F
    кр
    , где F
    кр определяется по таблице F-распределения для заданных α, υ
    1
    = k - 1, υ
    2
    = n - k.
    53.2. Регрессионный анализ
    Регрессионный анализ — это статистический метод исследования зависимости случайной величины
    у от переменных (аргументов) х
    j
    (j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения x
    j
    .
    Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием
    y

    = φ(x
    1
    , ..., х
    k
    ), являющимся функцией от аргументов х
    j
    и с постоянной, не зависящей от аргументов дисперсией σ
    2
    Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, x
    1
    , х
    2
    , ..., х
    j
    ,
    ..., х
    k
    ) берется выборка объемом n, и каждое i-е наблюдение (объект) характеризуется значениями переменных
    i
    , x
    i1
    , х
    i2
    , ..., х
    ij
    , ..., x
    ik
    ), где х
    ij
    значение j-й переменной для i-го наблюдения (i = 1, 2,..., n),
    у
    i
    значение результативного признака для i-го наблюдения.
    Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид
    (53.8) где β
    j
    — параметры регрессионной модели;
    ε
    j
    — случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию σ
    2
    Отметим, что модель (53.8) справедлива для всех i = 1,2, ..., n, линейна относительно неизвестных параметров β
    0
    , β
    1
    ,…, β
    j
    , …, β
    k
    и аргументов.

    429
    Как следует из (53.8), коэффициент регрессии B
    j
    показывает, на какую величину в среднем
    изменится результативный признак у, если переменную х
    j
    увеличить на единицу измерения, т.е.
    является нормативным коэффициентом.
    В матричной форме регрессионная модель имеет вид
    (53.9) где Y — случайный вектор-столбец размерности п х 1 наблюдаемых значений результативного признака

    1
    , у
    2
    ,.... у
    n
    ); Х— матрица размерности п х (k + 1) наблюдаемых значений аргументов, элемент матрицы
    х,, рассматривается как неслучайная величина (i = 1, 2, ..., n; j=0,1, ...,k; x
    0i
    , = 1); β — вектор-столбец размерности (k + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); ε — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков).
    Компоненты вектора ε
    i
    не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Mε
    i
    = 0) и неизвестной постоянной σ
    2
    (Dε
    i
    = σ
    2
    ).
    На практике рекомендуется, чтобы значение п превышалоk неменее чем в три раза.
    В модели (53.9)
    В первом столбце матрицы Х указываются единицы при наличии свободного члена в модели (53.8).
    Здесь предполагается, что существует переменная x
    0
    , которая во всех наблюдениях принимает значения, равные единице.
    Основная задача регрессионного анализа заключается в нахождении по выборке объемом п оценки неизвестных коэффициентов регрессии β
    0
    , β
    1
    , …, β
    k
    модели (53.8) или вектора β в (53.9).
    Так как в регрессионном анализе х
    j
    рассматриваются как неслучайные величины, a Mε
    i
    = 0, то согласно (53.8) уравнение регрессии имеет вид
    (53.10) длявсех i = 1, 2, ..., п, или в матричной форме:
    (53.11) где
    Y

    — вектор-столбец с элементами
    y

    1
    ...,
    y

    i
    ,...,
    y

    n
    .
    Для оценки вектора-столбца β наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений у
    i
    от модельных значений
    y

    i
    , т.е. квадратичную форму: где символом «Т» обозначена транспонированная матрица.
    Наблюдаемые и модельные значения результативного признака у показаны на рис. 53.1.

    430
    Рис. 53.1. Наблюдаемые и модельные значения результативного признака у
    Дифференцируя, с учетом (53.11) и (53.10), квадратичную форму Q по β
    0
    , β
    1
    , …, β
    k
    и приравнивая частные производные к нулю, получим систему нормальных уравнений решая которую получим вектор-столбец оценок b, где b = (b
    0
    , b
    1
    , ..., b
    k
    )
    T
    . Согласно методу наименьших квадратов, вектор-столбец оценок коэффициентов регрессии получается по формуле
    (53.12)
    Х
    T
    — транспонированная матрица X;

    T
    Х)
    -1
    матрица, обратная матрице Х
    T
    Х.
    Зная вектор-столбец b оценок коэффициентов регрессии, найдем оценку
    i
    y€ уравнения регрессии
    (53.13) или в матричном виде:
    Оценка ковариационной матрицы вектора коэффициентов регрессии b определяется выражением
    (53.14) где
    (53.15)
    Учитывая, что на главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии, имеем

    431
    (53.16)
    Значимость уравнения регрессии, т.е. гипотеза Н
    0
    : β = 0 (β
    0
    ,= β
    1
    = β
    k
    = 0), проверяется по F- критерию, наблюдаемое значение которого определяется по формуле
    (53.17)
    По таблице F-распределения для заданных α, v
    1
    = k + l,v
    2
    = n – k - l находят F
    кр
    Гипотеза H
    0
    отклоняется с вероятностьюα, если F
    набл
    > F
    кр
    . Из этого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.
    Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы Н
    0
    : β
    j
    = 0, где j = 1, 2,
    ..., k, используют t-критерий и вычисляют t
    набл
    (b
    j
    ) = b
    j
    /
    s
    bj
    . По таблице t-распределения для заданного α и v = п - k - 1 находят t
    кр
    .
    Гипотеза H
    0
    отвергается с вероятностью α, если t
    набл
    > t
    кр
    . Из этого следует, что соответствующий коэффициент регрессии β
    j
    значим, т.е. β
    j
    0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение t
    набл
    . После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимыми коэффициентами.
    Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов.
    Наряду с точечными оценками b
    j
    генеральных коэффициентов регрессии β
    j
    регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью γ.
    Интервальная оценка с доверительной вероятностью γ для параметра β
    j
    имеет вид
    (53.19) где t
    α
    находят по таблице t-распределения при вероятности α = 1 - γ и числе степеней свободы v = п - k -
    1.
    Интервальная оценка для уравнения регрессии
    y
    в точке, определяемой вектором-столбцом начальных условий X
    0
    = (1, x
    0 1
    , x
    0 2
    ,,..., x
    0
    k
    )
    T
    записывается в виде
    (53.20)
    Интервал предсказания
    y

    n+1
    с доверительной вероятностью у определяется как
    (53.21) где t
    α
    определяется по таблице t-распределения при α = 1 - γ и числе степеней свободы v = п - k - 1.
    По мере удаления вектора начальных условий х
    0
    от вектора средних x ширина доверительного интервала при заданном значении γ будет увеличиваться (рис. 53.2), где x = (1,
    k
    x
    x ,...,
    1
    ).

    432
    Рис. 53.2. Точечная
    y
    и интервальная
    ]



    [






    y
    y
    y
    оценки уравнения регрессии
    x
    y
    1 0




    Мультиколлинеарность
    Одним из основных препятствий эффективного применения множественного регрессионного анализа является мультиколлинеарность. Она связана с линейной зависимостью между аргументами х
    1
    , х
    2
    , ..., х
    k
    .
    В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица (X
    T
    X) становятся слабообусловленными, т.е.ихопределители близки к нулю.
    Это приводит к неустойчивости оценок коэффициентов регрессии (53.12), завышению дисперсии s
    2
    bj
    , оценок этих коэффициентов (53.14), так как в их выражения входит обратная матрица (X
    T
    X)
    -1
    , получение которой связано с делением на определитель матрицы
    T
    Х). Отсюда следуют заниженные значения t(b
    j
    ). Кроме того, мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции.
    На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т.е. | r
    jl
    | > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать один из показателей — х
    j
    или x
    l
    Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах.
    1   ...   41   42   43   44   45   46   47   48   49


    написать администратору сайта