Главная страница
Навигация по странице:

  • Месяц Оборот, млрд.долл. Платеж, млрд.руб.

  • 1. Рассмотрение параллельных данных

  • 2. Графический метод

  • 3. Коэффициент корреляции знаков (Фехнера)

  • 4. Линейный коэффициент корреляции

  • 5. Подбор уравнения регрессии

  • 6. Коэффициент эластичности

  • Методические указания Особенности коррелирования рядов динамики.

  • таможенная статистика - лекции. Таможенная статистика внешней торговли Тема Роль и место таможенной статистики в научный обиход термин статистика


    Скачать 1.6 Mb.
    НазваниеТаможенная статистика внешней торговли Тема Роль и место таможенной статистики в научный обиход термин статистика
    Анкортаможенная статистика - лекции.pdf
    Дата15.03.2018
    Размер1.6 Mb.
    Формат файлаpdf
    Имя файлатаможенная статистика - лекции.pdf
    ТипДокументы
    #16688
    страница7 из 11
    1   2   3   4   5   6   7   8   9   10   11
    Тема 7. Методы изучения взаимосвязей показателей таможенной статистики
    Один из наиболее общих законов объективного мира – закон всеобщей связи и зависимости между явлениями. Естественно, что, исследуя явления в самых различных областях, статистика неизбежно сталкивается с зависимостями как между количественными, так и между качественными показателями, признаками. Ее задача – обнаружить (выявить) такие зависимости и дать им количественную характеристику.
    Среди взаимосвязанных признаков (показателей) одни могут рассматриваться как определенные факторы, влияющие на изменение других (факторные), а вторые
    (результативные)
    – как следствие, результат влияния первых.
    Существует 2 вида связи между отдельными признаками: функциональная и стохастическая
    (статистическая), частным случаем которой является корреляционная.
    Связь между двумя переменными x и y называется функциональной, если определенному значению переменной x строго соответствует одно или несколько значений другой переменной y, и с изменением значения x значение y меняется строго определенно. Такие связи обычно встречаются в точных науках. Например, известно, что площадь квадрата равна квадрату его стороны (S = a
    2
    ). Это соотношение характерно для каждого единичного случая (квадрата), это так называемая жестко детерминированная связь. Такие связи можно встретить и в таможенном деле. Например, связь между суммой адвалорной
    38
    таможенной пошлины (y) и таможенной стоимостью товара (x), облагаемого по фиксированной
    38
    ad valorem (лат.) – «от стоимости»

    t


    67 адвалорной ставке таможенной пошлины, например 5%, легко можно выразить формулой y = 0,05х. Для изучения функциональных связей применяется индексный
    метод, которыйрассматривается в теме 8.
    Существуют и иного рода связи, где взаимно действуют многие факторы, комбинация которых приводит к вариации значений результативного признака
    (показателя) при одинаковом значении факторного признака. Например, при изучении зависимости величины таможенных платежей, поступающих в федеральный бюджет, от количества товаров, перемещаемых через таможенную границу государства, (или от стоимостного товарооборота) последние будут рассматриваться как факторный признак, а величина таможенных платежей – как результативный. Между ними нет жестко детерминированной связи, т.е. при одном и том же количестве перемещенных через таможенную границу товаров (или стоимости товарооборота) величина таможенных платежей, перечисленных разными таможнями будет различной, так как кроме количества товаров, перемещаемых через таможенную границу государства, (или стоимость товарооборота) на величину таможенных платежей влияет много других факторов
    (различная номенклатура товаров, для которых применяются различные таможенные пошлины, сборы и льготы; различные таможенные режимы перемещения товаров через таможенную границу и др.), комбинация которых вызывает вариацию величины таможенных платежей.
    Там, где взаимодействует множество факторов, в том числе и случайных, выявить зависимости, рассматривая единичный случай, невозможно. Такие связи можно обнаружить только при массовом наблюдении как статистические закономерности
    39
    . Выявленная таким образом связь именуется стохастической
    40
    Корреляционная связь
    41
    – понятие более узкое, чем стохастическая связь, это ее частный случай. Именно корреляционные связи являются предметом изучения статистики.
    Корреляционная связь – это связь, проявляющаяся при большом числе наблюдений в виде определенной зависимости между средним значением результативного признака и признаками-факторами.
    Другими словами, корреляционную связь условно можно рассматривать как своего рода функциональную связь средней величины одного признака (результативного) со значением другого (или других). При этом, если рассматривается связь средней
    39
    Проявление стохастических связей подвержено действию закона больших чисел: лишь в достаточно большом числе единиц индивидуальные особенности сгладятся, случайности взаимопогасятся и зависимость, если она имеет существенную силу, проявится достаточно отчетливо
    40
    Термин «стохастический» происходит от греч. «stochos» – мишень. Стреляя в мишень, даже хороший стрелок редко попадает в ее центр, выстрелы ложатся в некоторой близости от него.
    Другими словами стохастическая связь означает приблизительный характер значений признака
    41
    Термин «корреляция» ввел в статистику английский биолог и статистик Ф. Гальтон в конце XIX в., под которым понималась «как бы связь», т.е. связь в форме, отличающейся от функциональной. Еще ранее этот термин применил француз Ж.Кювье в палеонтологии, где под законом корреляции частей животных он понимал возможность восстановить по найденным в раскопках частям облик всего животного

    68 величины результативного показателя y с одним признаком-фактором x, корреляция называется парной, а если факторных признаков 2 и более (x
    1
    , x
    2
    , …, x
    m
    ) –
    множественной
    42
    По характеру изменений x и y в парной корреляции различают прямую и
    обратную связь. При прямой связи значения обоих признаков изменяются в одном направлении, т.е. с увеличением (уменьшением) значений x увеличиваются
    (уменьшаются) и значения y. При обратной связи значения факторного и результативного признаков изменяются в разных направлениях.
    Изучение корреляционных связей сводится в к решению следующих задач:
    1)
    выявление наличия (отсутствия) корреляционной связи между изучаемыми признаками;
    2)
    измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов
    (эта часть исследования именуется корреляционным анализом);
    3)
    определение уравнения регрессии – математической модели, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких переменных – факторных признаков (эта часть исследования именуется регрессионным анализом).
    Общий термин «корреляционно-регрессионный анализ» подразумевает всестороннее исследование корреляционных связей (т.е. решение всех трех задач).
    Корреляционно-регрессионный анализ находит широкое применение в таможенной статистике. Рассмотрим его практическое применение на примере данных таможенной статистики внешней торговли России в 2006 году – таблица 23.
    Таблица 23. Величина внешнеторгового оборота и таможенных платежей
    Месяц
    Оборот,
    млрд.долл.
    Платеж,
    млрд.руб.
    Январь
    27,068 172,17
    Февраль
    29,889 200,90
    Март
    34,444 231,83
    Апрель
    33,158 232,10
    Май
    37,755 233,40
    Июнь
    37,554 236,99
    Июль
    37,299 246,53
    Август
    40,370 253,62
    Сентябрь
    37,909 256,43
    Октябрь
    38,348 261,89
    Ноябрь
    39,137 259,36
    Декабрь
    46,298 278,87 42
    Множественная корреляция изучается в курсе эконометрики на основе применения компьютерных программ (напр., специальная надстройка к Excel, SPSS и др.), в курсе статистики изучается только парная корреляция

    69
    В качестве факторного признака x примем стоимостной внешнеторговый товарооборот в млрд. долл. США, а в качестве результативного признака y – величину таможенных платежей в федеральный бюджет в млрд. руб.
    Для выявления наличия и характера корреляционной связи между двумя признаками в статистике используется ряд методов.
    1. Рассмотрение параллельных данных (значений x и y в каждой из n единиц). Единицы наблюдения необходимо расположить по возрастанию значений факторного признака х (как в таблице справа) и затем сравнить с ним (визуально) поведение результативного признака у.
    В нашей задаче в 6 случаях по мере увеличения значений x увеличиваются и значения y, а в 5 случаях этого не происходит, поэтому затруднительно говорить о прямой связи между х и у.
    2. Графический метод – это графическое изображение корреляционной зависимости. Для этого, имея n взаимосвязанных пар значений x и y и пользуясь прямоугольной системой координат, каждую такую пару изображают в виде точки на плоскости с координатами x и y. Совокупность полученных точек представляет собой
    корреляционное поле (рис. 19), а соединяя последовательно нанесенные точки отрезками, получают ломаную линию, именуемую эмпирической линией регрессии
    (рис. 20).
    Рис. 19. Корреляционное поле
    Рис. 20. Эмпирическая линия регрессии
    Визуально анализируя график, можно предположить характер зависимости между признаками x и y. В нашей задаче эмпирическая линия регрессии (рис.20) похожа на восходящую прямую, что позволяет выдвинуть гипотезу о наличии прямой зависимости между величиной стоимостного внешнеторгового товарооборота и величиной таможенных платежей в федеральный бюджет.
    3. Коэффициент корреляции знаков (Фехнера) – простейший показатель тесноты связи, основанный на сравнении поведения отклонений индивидуальных значений каждого признака (x и y) от своей средней величины. При этом во
    0 50 100 150 200 250 300 25 35 45 55 0
    50 100 150 200 250 300 25 30 35 40 45 50
    x
    y
    27,068 172,17 29,889 200,90 33,158 232,10 34,444 231,83 37,299 246,53 37,554 236,99 37,755 233,40 37,909 256,43 38,348 261,89 39,137 259,36 40,370 253,62 46,298 278,87

    70 внимание принимаются не величины отклонений (
    x
    x
    i

    ) и (
    y
    y
    i

    ), а их знаки («+» или «–»). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары знаков и подсчитывают число их совпадений (С) и несовпадений (Н). Тогда коэффициент Фехнера рассчитывается как отношение разности чисел пар совпадений и несовпадений знаков к их сумме, т.е. к общему числу наблюдаемых единиц:







    Н
    С
    Н
    С
    K
    Ф
    (105)
    Очевидно, что если знаки всех отклонений по каждому признаку совпадут, то
    К
    Ф
    =1, что характеризует наличие прямой связи. Если все знаки не совпадут, то
    К
    Ф
    =–1(обратная связь). Если же

    С=

    Н, то К
    Ф
    =0. Итак, как и любой показатель тесноты связи, коэффициент Фехнера может принимать значения от 0 до

    1.
    Однако, если К
    Ф
    =1, то это ни в коей мере нельзя воспринимать как свидетельство функциональной зависимости между х и у.
    Средние значения факторного и результативного признаков определяем по формуле средней арифметической простой (10):
    602
    ,
    36 12 229
    ,
    439




    n
    x
    x
    ;
    674
    ,
    238 12 09
    ,
    2864




    n
    y
    y
    В двух последних столбцах таблицы 24 приведены знаки отклонений каждого
    х и у от своей средней величины. Число совпадений знаков – 10, а несовпадений – 2, тогда определяем коэффициент корреляции знаков (Фехнера) по формуле (105):
    К
    Ф
    =
    667
    ,
    0 3
    2 12 8
    2 10 2
    10





    Таблица 24. Вспомогательная таблица для расчета коэффициента Фехнера
    № месяца
    x
    y
    x –
    x
    y – y
    1 27,068 172,17


    2 29,889 200,90


    3 34,444 231,83


    4 33,158 232,10


    5 37,755 233,40
    +

    6 37,554 236,99
    +

    7 37,299 246,53
    +
    +
    8 40,370 253,62
    +
    +
    9 37,909 256,43
    +
    +
    10 38,348 261,89
    +
    +
    11 39,137 259,36
    +
    +
    12 46,298 278,87
    +
    +
    Итого 439,229 2864,09
    Обычно такое значение показателя тесноты связи характеризует заметную прямую зависимость между x и y, однако, следует иметь в виду, что поскольку К
    Ф
    зависит только от знаков и не учитывает величину самих отклонений х и у от их средних

    71 величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление.
    4. Линейный коэффициент корреляции – самый популярный измеритель тесноты линейной связи между двумя количественными признаками x и y. Он основан на предположении, что при полной независимости
    43
    признаков x и у отклонения значений факторного признака от средней (
    x
    x

    ) носят случайный характер и должны случайно сочетаться с различными отклонениями (
    y
    y

    ). При наличии значительного перевеса совпадений или несовпадений таких отклонений делается предположение о наличии связи между x и y.
    В отличие от К
    Ф
    в линейном коэффициенте корреляции учитываются не только знаки отклонений от средних величин, но и значения самих отклонений, выраженные для сопоставимости в единицах среднего квадратического отклонения t:
    x
    x
    x
    x
    t



    и
    y
    y
    y
    y
    t



    Линейный коэффициент корреляции r представляет собой среднюю величину из произведений нормированных отклонений для x и у:
    n
    n
    r
    y
    x
    y
    y
    y
    x
    x
    x
    t
    t




















    , (106) или
    y
    x
    n
    y
    y
    x
    x
    r






    )
    )(
    (
    (107)
    Числитель формулы (107), деленный на n, представляющий собой среднее произведение отклонений значений двух признаков от их средних значений, называется коэффициентом ковариации – это мера совместной вариации факторного x и результативного y признаков:
    )
    )(
    (
    )
    )(
    (
    )
    ,
    cov(
    y
    y
    y
    x
    n
    y
    y
    x
    x
    y
    x







    (108)
    Недостатком коэффициента ковариации является то, что он не нормирован, в отличие от линейного коэффициента корреляции. Очевидно, что линейный коэффициент корреляции представляет собой частное от деления ковариации между
    х и у на произведение их средних квадратических отклонений:
    y
    x
    y
    x
    r


    )
    ,
    cov(

    (109)
    Путем несложных математических преобразований
    44
    можно получить и другие модификации формулы линейного коэффициента корреляции, например:
    y
    x
    y
    x
    xy
    r




    ,
    (110)








    2 2
    )
    (
    )
    (
    )
    )(
    (
    y
    y
    x
    x
    y
    y
    x
    x
    r
    ,
    (111)
    43
    При измерении тесноты связи между рядами динамики это равнозначно отсутствию автокорреляции между уровнями ряда, т.е. прежде чем оценивать тесноту связи между рядами динамики, необходимо проверить каждый ряд на автокорреляцию – см. методические указания
    44
    Проделать это самостоятельно

    72

    






     




    2
    2
    2
    2
    y
    y
    n
    x
    x
    n
    y
    x
    xy
    n
    r
    )
    (
    )
    (
    , (112)





















     
    n
    y
    y
    n
    x
    x
    n
    y
    x
    xy
    r
    2
    2
    2
    2
    )
    (
    )
    (
    (113)
    Линейный коэффициент корреляции может принимать значения от –1 до +1, причем знак определяется в ходе решения. Например, если
    y
    x
    xy

    , то r по формуле
    (110) будет положительным, что характеризует прямую зависимость между х и у, в противном случае (r<0) – обратную связь. Если
    y
    x
    xy

    , то r=0, что означает отсутствие линейной зависимости между х и у, а при r=1 – функциональная зависимость между х и у. Следовательно, всякое промежуточное значение r от 0 до 1 характеризует степень приближения корреляционной связи между х и у к функциональной. Существует эмпирическое правило (шкала Чэддока) для оценки тесноты связи, представленное в таблице 25.
    Таблица 25. Шкала Чэддока
    | r |
    Теснота связи
    менее 0,1 отсутствует линейная связь
    0,1 ÷ 0,3 слабая
    0,3 ÷ 0,5 умеренная
    0,5 ÷ 0,7 заметная более 0,7 сильная (тесная)
    Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между х и у к линейной. Поэтому близость значения r к 0 в одних случаях может означать отсутствие связи между х и
    у, а в других свидетельствовать о том, что зависимость не линейная.
    В нашей задаче для расчета r построим вспомогательную таблицу 26.
    Таблица 26. Вспомогательные расчеты линейного коэффициента корреляции
    № месяца
    x
    y
    2
    )
    (
    x
    x

    2
    )
    (
    y
    y

    t
    x
    t
    y
    t
    x
    t
    y
    )
    )(
    (
    y
    y
    x
    x


    xy
    1 27,068 172,17 90,897 4422,782 -1,993 -2,408 4,799 634,049 4660,298 2
    29,889 200,90 45,064 1426,875 -1,403 -1,368 1,919 253,577 6004,700 3
    34,444 231,83 4,657 46,840 -0,451 -0,248 0,112 14,769 7985,153 4
    33,158 232,10 11,861 43,217 -0,720 -0,238 0,171 22,641 7695,972 5
    37,755 233,40 1,329 27,815 0,241 -0,191 -0,046
    -6,081 8812,017 6
    37,554 236,99 0,906 2,836 0,199 -0,061 -0,012
    -1,603 8899,922 7
    37,299 246,53 0,486 61,717 0,146 0,284 0,041 5,476 9195,322 8
    40,370 253,62 14,198 223,383 0,788 0,541 0,426 56,317 10238,639 9
    37,909 256,43 1,708 315,276 0,273 0,643 0,176 23,207 9721,005 10 38,348 261,89 3,049 538,983 0,365 0,841 0,307 40,535 10042,958 11 39,137 259,36 6,426 427,911 0,530 0,749 0,397 52,439 10150,572 12 46,298 278,87 94,012 1615,718 2,027 1,455 2,950 389,740 12911,123
    Итого 439,229 2864,09 274,594 9153,353 11,241 1485,066 106317,681

    73
    В нашей задаче:
    x

    =
    12
    /
    594
    ,
    274
    = 4,784;
    y

    =
    12
    /
    353
    ,
    9153
    = 27,618
    Тогда линейный коэффициент корреляции по формуле (106): r = 11,241/12 = 0,937.
    Аналогичный результат получаем по формуле (107):
    r = 1485,066/(12*4,784*27,618) = 0,937
    Или по формуле (110):
    r = (106317,681/12 – 36,602*238,674) / (4,784*27,618) = 0,937.
    Найденное значение свидетельствует о том, что связь между величиной стоимостного внешнеторгового товарооборота и величиной таможенных платежей в федеральный бюджет очень близка к функциональной (сильная по шкале Чэддока).
    Проверка коэффициента корреляции на значимость (существенность).
    Интерпретируя значение коэффициента корреляции, следует иметь в виду, что он рассчитан для ограниченного числа наблюдений и подвержен случайным колебаниям, как и сами значения x и y, на основе которых он рассчитан. Другими словами, как любой выборочный показатель, он содержит случайную ошибку и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями. Для того, чтобы оценить существенность (значимость) самого r и, соответственно, реальность измеряемой связи между х и у, необходимо рассчитать среднюю квадратическую ошибку коэффициента корреляции σ
    r
    . Оценка существенности (значимости) r основана на сопоставлении значения r с его средней квадратической ошибкой:
    r
    r

    Существуют некоторые особенности расчета σ
    r
    в зависимости от числа наблюдений (объема выборки) – n.
    1.
    Если число наблюдений достаточно велико (n>30), то σ
    r
    рассчитывается по формуле (114):
    n
    r
    1
    2
    r



    (114)
    Обычно, если
    >3, то r считается значимым (существенным), а связь – реальной.
    Задавшись определенной вероятностью, можно определить
    доверительные пределы (границы) r = (
    r
    t
    r


    ), где t – коэффициент доверия, рассчитываемый по интегралу Лапласа (см. Приложение 11).
    2.
    Если число наблюдений небольшое (n<30), то σ
    r
    рассчитывается по формуле (115):
    2 1
    2



    n
    r
    r

    ,
    (115) а значимость r проверяется на основе t-критерия Стьюдента, для чего определяется расчетное значение критерия по формуле (116) и сопоставляется c t
    ТАБЛ
    r
    r


    74
    2
    r
    РАСЧ
    r
    1
    2
    n
    r
    r
    t





    (116)
    Табличное значение t
    ТАБЛ
    находится по таблице распределения t-критерия
    Стьюдента (см. Приложение 9) при уровне значимости α=1-β и числе степеней свободы ν=n–2. Если t
    РАСЧ
    > t
    ТАБЛ ,
    то r считается значимым, а связь между х и у – реальной. В противном случае (t
    РАСЧ
    < t
    ТАБЛ
    ) считается, что связь между х и у отсутствует, и значение r, отличное от нуля, получено случайно.
    В нашей задаче число наблюдений небольшое, значит, оценивать существенность (значимость) линейного коэффициента корреляции будем по формулам (115) и (116):
    2 12 937
    ,
    0 1
    2



    r

    = 0,349/3,162 = 0,110;
    r
    РАСЧ
    r
    t


    = 0,937/0,110 = 8,482.
    Из приложения 9 видно, что при числе степеней свободы ν = 12 – 2 = 10 (в 10-й строке) и вероятности β = 95% (уровень значимости α =1 – β = 0,05) t
    табл
    =2,2281, а при вероятности 99% (α=0,01) t
    табл
    =3,169, значит, t
    РАСЧ
    > t
    ТАБЛ
    , что дает возможность считать линейный коэффициент корреляции r = 0,937 значимым.
    5. Подбор уравнения регрессии
    45
    представляет собой математическое описание изменения взаимно коррелируемых величин по эмпирическим
    (фактическим) данным. Уравнение регрессии должно определить, каким будет среднее значение результативного признака у при том или ином значении факторного признака х, если остальные факторы, влияющие на у и не связанные с х,
    не учитывать, т.е. абстрагироваться от них. Другими словами, уравнение регрессии можно рассматривать как вероятностную гипотетическую функциональную связь величины результативного признака у со значениями факторного признака х.
    Уравнение регрессии можно также назвать теоретической линией регрессии.
    Рассчитанные по уравнению регрессии значения результативного признака называются теоретическими.Они обычно обозначаются
    x
    yˆ
    или
    x
    y
    (читается:
    «игрек, выравненный по х») и рассматриваются как функция от х, т.е.
    x
    yˆ
    = f(x).
    Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно отразить ту или иную зависимость между признаками х и у, —
    одна из основных задач регрессионного анализа. Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.
    Для аналитической связи между х и у могут использоваться виды уравнений, приведенные в таблице 19 (при условии замены t на x). Обычно зависимость,
    45
    Термин «регрессия» ввел в статистику Ф. Гальтон, который изучив большое число семей, установил, что в группе семей с высокорослыми отцами сыновья в среднем ниже ростом, чем их отцы, а в группе семей с низкорослыми отцами сыновья в среднем выше отцов, т.е. отклонение роста от среднего в следующем поколении уменьшается – регрессирует

    75 выражаемую уравнением прямой, называют линейной (или прямолинейной), а все остальные — криволинейными зависимостями.
    Выбрав тип функции (таблица 19), по эмпирическим данным определяют параметры уравнения. При этом отыскиваемые параметры должны быть такими, при которых рассчитанные по уравнению теоретические значения результативного признака
    x
    yˆ
    были бы максимально близки к эмпирическим данным.
    Существует несколько методов нахождения параметров уравнения регрессии.
    Наиболее часто используется метод наименьших квадратов (МНК). Его суть заключается в следующем требовании: искомые теоретические значения результативного признака
    x
    yˆ
    должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е.




    min
    )
    ˆ
    (
    2
    x
    y
    y
    S
    Поставив данное условие, легко определить, при каких значениях a
    0
    , a
    1
    и т.д. для каждой аналитической кривой эта сумма квадратов отклонений будет минимальной. Данный метод уже использовался нами в теме 6 «Статистическое изучение динамики ВЭД», поэтому, воспользуемся формулой (94) для нахождения параметров теоретической линии регрессии, заменив параметр t на x:
    












    xy
    x
    a
    x
    a
    y
    x
    a
    na
    2 1
    0 1
    0
    (117)
    Выразив из первого уравнения системы (117) a
    0
    , получим
    46
    :
    x
    a
    y
    n
    x
    a
    n
    y
    a
    1 1
    0






    (118)
    Подставив (118) во второе уравнение системы (117), затем, разделив обе его части на n, получим:


    n
    xy
    n
    x
    a
    n
    x
    x
    a
    y






    2 1
    1
    Применяя 3 раза формулу средней арифметической, получим:


    xy
    x
    a
    x
    x
    a
    y



    2 1
    1
    Раскрыв скобки и перенеся члены без a
    1
    в правую часть уравнения, выразим a
    1
    :
    2 2
    2 1
    x
    y
    x
    xy
    x
    x
    y
    x
    xy
    a






    (119)
    Параметр a
    1
    в уравнении линейной регрессии называется коэффициентом
    регрессии, который показывает на сколько изменяется значение результативного признака y при изменении факторного признака x на единицу.
    Исходные данные и расчеты для нашего примера представим в таблице 27.
    Таблица 27. Вспомогательные расчеты для нахождения уравнения регрессии
    № п/п
    x
    y
    x
    2
    xy
    x
    yˆ
    2
    )
    ˆ
    (
    x
    y
    y

    2
    )
    ˆ
    (
    y
    y
    x

    46
    Параметры a
    0
    и a
    1
    можно получить не только методом подстановки как приводится далее, но и методом определителей 2-го порядка (проделать данное задание самостоятельно)

    76
    № п/п
    x
    y
    x
    2
    xy
    x
    yˆ
    2
    )
    ˆ
    (
    x
    y
    y

    2
    )
    ˆ
    (
    y
    y
    x

    1 27,068 172,17 732,677 4660,298 187,124 223,612 2657,453 2
    29,889 200,90 893,352 6004,700 202,377 2,181 1317,497 3
    34,444 231,83 1186,389 7985,153 227,006 23,274 136,153 4
    33,158 232,10 1099,453 7695,972 220,052 145,147 346,774 5
    37,755 233,40 1425,440 8812,017 244,908 132,441 38,864 6
    37,554 236,99 1410,303 8899,922 243,821 46,669 26,495 7
    37,299 246,53 1391,215 9195,322 242,443 16,706 14,202 8
    40,370 253,62 1629,737 10238,639 259,048 29,459 415,076 9
    37,909 256,43 1437,092 9721,005 245,741 114,256 49,940 10 38,348 261,89 1470,569 10042,958 248,115 189,761 89,122 11 39,137 259,36 1531,705 10150,572 252,381 48,710 187,871 12 46,298 278,87 2143,505 12911,123 291,100 149,580 2748,498
    Итого 439,229 2864,09 16351,437 106317,681 2864,115 1121,795 8027,945
    По формуле (119):
    2 1
    784
    ,
    4 238,674
    *
    36,602
    -
    /12 106317,681

    a
    = 5,407.
    По формуле (118):
    a
    0
    = 238,674 – 5,407*36,602 = 40,767.
    Отсюда получаем уравнение регрессии:
    x
    yˆ
    =40,767+5,407x, подставляя в которое вместо x эмпирические значения факторного признака (2-й столбец таблицы 27), получаем выравненные по прямой линии теоретические значения результативного признака
    x
    yˆ
    (6-й столбец таблицы 27)
    47
    . Для иллюстрации различий между эмпирическими и теоретическими линиями регрессии построим график (рисунок 6).
    Рис.6. График эмпирической и теоретической линий регрессии
    Из рисунка 6 видно, что небольшие различия между эмпирической и теоретической линиями регрессии существуют, поэтому необходимо оценить
    47
    Сумма эмпирических (2864,09) и выравненных по прямой линии (2864,115) значений должна совпадать, но в нашем случае этого не происходит из-за округлений расчетов до 3-х знаков после запятой
    0 50 100 150 200 250 300 25 30 35 40 45 50
    Эмпирическая линия регрессии
    Теоретическая линия регрессии

    77
    существенность коэффициента регрессии и уравнения связи, для чего определяют среднюю ошибку параметров уравнения регрессии и сравнивают их с этой ошибкой.
    Расчет ошибок параметров уравнения регрессии основан на использовании остаточной дисперсии, характеризующей расхождение (отклонение) между эмпирическими и теоретическими значениями результативного признака. Для линейного уравнения регрессии (
    x
    a
    a
    y
    x
    1 0
    ˆ


    ) средние ошибки параметров a
    1
    и a
    2
    определяются по формулам (120) и (121) соответственно:
    2 0


    n
    ОСТ
    a


    ,
    (120)
    2 0


    n
    x
    ОСТ
    a



    ,
    (121)


    n
    y
    y
    x
    ОСТ



    2
    ˆ

    (122)
    Значимость параметров проверяется путем сопоставления его значения со средней ошибкой. Обозначим это соотношение как t:
    i
    i
    a
    i
    a
    a
    t


    ,
    (123)
    При большом числе наблюдений (n>30) параметр a
    i
    считается значимым, если
    i
    a
    t
    >3.
    Если выборка малая (n<30), то значимость параметра a
    i
    проверяется путем сравнения с табличным значения t-критерия Стьюдента при числе степеней свободы
    ν=n-2 и заданном уровне значимости α (Приложение 9). Если рассчитанное по формуле (123) значение больше табличного, то параметр считается значимым.
    В нашем примере по формуле (122):
    12 795
    ,
    1121

    ОСТ

    = 9,669.
    Находим среднюю ошибку параметра a
    0
    по формуле (120):
    2 12 669
    ,
    9 0


    a

    = 3,06.
    Теперь находим среднюю ошибку параметра a
    1
    по формуле (121):
    2 12 784
    ,
    4 669
    ,
    9 0


    a

    =0,639.
    Теперь по формуле (123) для параметра a
    0
    :
    06
    ,
    3 767
    ,
    40 0

    a
    t
    =13,3.
    И по той же формуле для параметра a
    1
    :
    639
    ,
    0 407
    ,
    5 0

    a
    t
    =8,46.
    Так как выборка малая, то задавшись стандартной значимостью α=0,05 находим в
    10-й строке Приложения 9 табличное значение t
    α
    =2,23, которое значительно меньше полученных значений 13,3 и 8,46, что свидетельствует о значимости обоих параметров уравнения регрессии.
    Наряду с проверкой значимости отдельных параметров осуществляется
    проверка значимости уравнения регрессии в целом или, что то же самое, проверка адекватности модели с помощью критерия Фишера по Приложению 8. Данный метод уже использовался нами для проверки адекватности уравнения тренда в

    78 предыдущей теме, поэтому воспользовавшись формулой (96) в нашем примере получим
    48
    :
    56
    ,
    71 795
    ,
    1121
    )
    1 2
    (
    945
    ,
    8027
    )
    2 12
    (




    Р
    F
    Сравнивая расчетное значение критерия Фишера F
    р
    = 71,56 с табличным F
    т
    =
    4,96, определяемое по Приложению 8 при числе степеней свободы ν
    1
    = k – 1 = 2 –1 =
    1 и ν
    2
    = n k = 12 – 2 = 10 (т.е. 1-й столбец и 10-я строка) и стандартном уровне значимости α = 0,05, можно сделать вывод, что уравнение регрессии значимо.
    6. Коэффициент эластичности показывает, на сколько процентов изменяется в среднем результативный признак y при изменении факторного признака x на 1%. Он рассчитывается на основе уравнения регрессии:
    x
    x
    y
    x
    x
    y
    Э
    ˆ
    ˆ



    ,
    (124) где
    x
    y
    x


    ˆ
    – первая производная уравнения регрессии y по x.
    Коэффициент эластичности – величина переменная, т.е. изменяется с изменением значений фактора x. Так, для линейной зависимости
    x
    a
    a
    y
    x
    1 0
    ˆ


    :
    x
    a
    a
    x
    a
    Э
    1 0
    1


    (125)
    Применительно к рассмотренному уравнению регрессии, выражающему зависимость величины таможенных платежей в федеральный бюджет от величины стоимостного внешнеторгового оборота (
    x
    yˆ
    = 40,767 + 5,407x), коэффициент эластичности по формуле (125):
    x
    x
    Э
    407
    ,
    5 767
    ,
    40 407
    ,
    5


    Подставляя в данное выражение разные значения x, получаем и разные значения Э. Так, например, при x = 40 коэффициент эластичности
    40
    *
    407
    ,
    5 767
    ,
    40 40
    *
    407
    ,
    5


    Э
    = 0,84, а при x = 50 соответственно
    50
    *
    407
    ,
    5 767
    ,
    40 50
    *
    407
    ,
    5


    Э
    = 0,87 и т.д. Это значит, что при увеличении внешнеторгового товарооборота x с 40 до 40,4 млрд.долл. (т.е. на 1%), величина таможенных платежей возрастет в среднем на
    0,84% прежнего уровня; при увеличении x с 50 до 50,5 млрд.долл. (т.е. на 1%) y возрастет на 0,87% и т.д.
    Методические указания
    Особенности коррелирования рядов динамики. Во многих исследованиях в таможенной статистике приходится изучать динамику нескольких показателей одновременно, т.е. рассматривать параллельно несколько рядов динамики. В этом случае возникает необходимость измерить зависимость между ними, вернее,
    48
    В числителе – сумма последнего столбца, а в знаменателе – сумма предпоследнего столбца таблицы 27

    79 определить, насколько изменения уровней одного ряда зависят от изменения уровней другого ряда. Эта задача решается путем коррелирования рядов динамики.
    Однако при этом возникает следующая проблема: если показатели ряда x и ряда y рассматривать как функцию времени, т.е. x = f(t) и y = f(t), то при однонаправленности их трендов можно получить большое значение коэффициента корреляции между x и y даже тогда, когда они независимы, именно в силу однонаправленности их изменения.
    Поэтому, прежде чем коррелировать ряды динамики, необходимо установить путем логического (качественного) анализа, возможна ли связь между исследуемыми показателями x и y. Кроме того, одно из условий корреляции – независимость отдельных значений переменных множества x, так же как и множества y. Для рядов динамики это равнозначно отсутствию автокорреляции между уровнями ряда, т.е. отсутствию зависимости между последовательными (соседними) уровнями ряда динамики. Другими словами, прежде чем коррелировать ряды динамики, необходимо проверить каждый ряд на автокорреляцию.
    Если исходные фактические уровни ряда, относящиеся к определенному моменту (периоду) времени t, обозначить через y
    t
    , то сдвинутые на один момент
    (период) уровни обозначают y
    t-1
    . Тогда, подставив в формулу коэффициента корреляции (110) значения y
    t
    и y
    t-1
    , получим формулу:
    1 1
    1





    t
    t
    y
    y
    t
    t
    t
    t
    а
    y
    y
    y
    y
    r


    ,
    (126) а поскольку
    1


    t
    t
    y
    y
    и
    1


    t
    t
    y
    y


    , получим следующие формулы
    49
    для расчета коэффициента автокорреляции:
    2 2
    1
    )
    (
    t
    y
    t
    t
    t
    a
    y
    y
    y
    r




    ,
    (127)
    или






    2 2
    2 1
    )
    (
    )
    (
    t
    t
    t
    t
    t
    a
    y
    n
    y
    y
    n
    y
    y
    r
    (128)
    Сдвинутый (укороченный) ряд условно дополняют, принимая y
    1
    = y
    n
    (чтобы сдвинутый ряд не укорачивался и чтобы средний уровень и дисперсия исходного и сдвинутого рядов были одинаковы).
    Найденное по формуле (127) или (128)
    50
    значение коэффициента автокорреляции само по себе еще не говорит о наличии или отсутствии автокорреляции. Его нужно сравнить с критическим.
    Существуют специальные таблицы, в которых для разного числа членов ряда
    n и разных уровней значимости α определено критическое значение коэффициента автокорреляции: если найденное по формуле (127) или (128) значение окажется меньше критического, то автокорреляция отсутствует. Одна из таких таблиц, составленная Р. Андерсоном, приведена в Приложении 10.
    49
    Коэффициент автокорреляции можно рассчитывать либо между соседними уровнями, либо между уровнями, сдвинутыми на другое число единиц времени (временной лаг) m; приведенные формулы с временным лагом m=1 (между соседними уровнями) являются самыми распространенными
    50
    Формула (128) является тождественной формуле (127)

    80
    Таблица 28. Вспомогательные расчеты для проверки на автокорреляцию
    Месяц
    x
    t
    x
    t-1
    x
    t
    x
    t-1
    x
    t
    2
    y
    t
    y
    t-1
    y
    t
    y
    t-1
    y
    t
    2 1
    27,068 46,298 1253,194 732,677 172,170 278,870 48013,048 29642,509 2
    29,889 27,068 809,035 893,352 200,900 172,170 34588,953 40360,810 3
    34,444 29,889 1029,497 1186,389 231,830 200,900 46574,647 53745,149 4
    33,158 34,444 1142,094 1099,453 232,100 231,830 53807,743 53870,410 5
    37,755 33,158 1251,880 1425,440 233,400 232,100 54172,140 54475,560 6
    37,554 37,755 1417,851 1410,303 236,990 233,400 55313,466 56164,260 7
    37,299 37,554 1400,727 1391,215 246,530 236,990 58425,145 60777,041 8
    40,370 37,299 1505,761 1629,737 253,620 246,530 62524,939 64323,104 9
    37,909 40,370 1530,386 1437,092 256,430 253,620 65035,777 65756,345 10 38,348 37,909 1453,734 1470,569 261,890 256,430 67156,453 68586,372 11 39,137 38,348 1500,826 1531,705 259,360 261,890 67923,790 67267,610 12 46,298 39,137 1811,965 2143,505 278,870 259,360 72327,723 77768,477
    Итого 439,229 439,229 16106,951 16351,437 2864,090 2864,090 685863,823 692737,647
    В нашем примере про внешнеторговый оборот и таможенные платежи проверим оба эти ряда динамики на автокорреляцию с помощью формулы (127), для чего построим вспомогательную таблицу 28.
    Теперь по формуле (127) для ряда x: r
    a
    =
    2 2
    602
    ,
    36
    *
    12 437
    ,
    16351 602
    ,
    36
    *
    12 951
    ,
    16106


    = 0,111.
    Аналогично по формуле (127) для ряда y: r
    a
    =
    2 2
    674
    ,
    238
    *
    12 647
    ,
    692737 674
    ,
    238
    *
    12 823
    ,
    685863


    = 0,249.
    По таблице Приложения 10 определяем критическое (предельное) значение коэффициента корреляции для числа уровней n = 12 и уровне значимости α = 0,05.
    Оно равно 0,348. Оба рассчитанных значения оказались меньше критического, значит автокорреляция между уровнями в обоих рядах динамики отсутствует, следовательно, можно коррелировать уровни x и y.
    Исключение автокорреляции в рядах динамики. Если между уровнями ряда
    (при коррелировании рядов динамики) существует автокорреляция, она должна быть устранена. Есть несколько способов исключения автокорреляции в рядах динамики. Наиболее простой – коррелирование отклонений от выравненных
    уровней. Для этого каждый ряд динамики выравнивают по определенной для него аналитической формуле (т.е. находят
    t
    xˆ
    и
    t
    yˆ
    )
    51
    , затем из эмпирических уровней вычитают выравненные (т.е. находят остаточные величины
    52
    , не описываемые уравнением тренда:
    t
    x
    x
    x
    d
    ˆ


    и
    t
    y
    y
    y
    d
    ˆ


    ). Так как остаточные величины могут содержать автокорреляцию (например, в случае недостаточно точно подобранного уравнения тренда), необходимо убедиться, что между ними автокорреляция отсутствует. Лишь после этого можно определять тесноту связи между d
    x
    и d
    y
    51
    См. тему 6 «Статистическое изучение динамики ВЭД на основе данных таможенной статистики», метод аналитического выравнивания
    52
    Остаточные величины обычно обозначают ε
    t
    , но для того, чтобы различать их для разных рядов динамики x и y, приняты обозначения d
    x
    и d
    y

    81
    Формулу коэффициента корреляции между остаточными величинами можно записать в следующем виде:
     


    2 2
    y
    x
    y
    x
    d
    d
    d
    d
    r
    (129)
    1   2   3   4   5   6   7   8   9   10   11


    написать администратору сайта