Главная страница
Навигация по странице:

  • Месяц Оборот, млрд.долл. Платеж, млрд.руб.

  • 1. Понятие о статистике 3


    Скачать 4.08 Mb.
    Название1. Понятие о статистике 3
    Дата20.12.2022
    Размер4.08 Mb.
    Формат файлаdoc
    Имя файлаTEORIYA_STATISTIKI_-_lekcii.doc
    ТипДокументы
    #853901
    страница28 из 43
    1   ...   24   25   26   27   28   29   30   31   ...   43

    7. Статистическое изучение взаимосвязей

    7.1. Понятие корреляционной зависимости


    Один из наиболее общих законов объективного мира – закон всеобщей связи и зависимости между явлениями. Естественно, что, исследуя явления в самых различных областях, статистика неизбежно сталкивается с зависимостями как между количественными, так и между качественными показателями, признаками. Ее задача – обнаружить (выявить) такие зависимости и дать им количественную характеристику.

    Среди взаимосвязанных признаков (показателей) одни могут рассматриваться как определенные факторы, влияющие на изменение других (факторные), а вторые (результативные) ­­– как следствие, результат влияния первых.

    Существует 2 вида связи между отдельными признаками: функциональная и стохастическая (статистическая), частным случаем которой является корреляционная.

    Связь между двумя переменными x и y называется функциональной, если определенному значению переменной x строго соответствует одно или несколько значений другой переменной y, и с изменением значения x значение y меняется строго определенно. Такие связи обычно встречаются в точных науках. Например, известно, что площадь квадрата равна квадрату его стороны (S = a2). Это соотношение характерно для каждого единичного случая (квадрата), это так называемая жестко детерминированная связь. Такие связи можно встретить и в области экономических явлений. Например, при простой сдельной оплате труда связь между оплатой труда y и количеством изготовленных изделий xпри фиксированной расценке за одну деталь, например 5 руб., легко выразить формулой .. Для изучения функциональных связей применяется индексный метод, которыйрассматривается в теме 7.

    Существуют и иного рода связи, где взаимно действуют многие факторы, комбинация которых приводит к вариации значений результативного признака (показателя) при одинаковом значении факторного признака. Например, при изучении зависимости величины таможенных платежей, поступающих в федеральный бюджет, от количества товаров, перемещаемых через таможенную границу государства, (или от стоимостного товарооборота) последние будут рассматриваться как факторный признак, а величина таможенных платежей – как результативный. Между ними нет жестко детерминированной связи, т.е. при одном и том же количестве перемещенных через таможенную границу товаров (или стоимости товарооборота) величина таможенных платежей, перечисленных разными таможнями будет различной, так как кроме количества товаров, перемещаемых через таможенную границу государства, (или стоимость товарооборота) на величину таможенных платежей влияет много других факторов (различная номенклатура товаров, для которых применяются различные таможенные пошлины, сборы и льготы; различные таможенные режимы перемещения товаров через таможенную границу и др.), комбинация которых вызывает вариацию величины таможенных платежей.

    Там, где взаимодействует множество факторов, в том числе и случайных, выявить зависимости, рассматривая единичный случай, невозможно. Такие связи можно обнаружить только при массовом наблюдении как статистические закономерности39. Выявленная таким образом связь именуется стохастической40.

    Корреляционная связь41 – понятие более узкое, чем стохастическая связь, это ее частный случай. Именно корреляционные связи являются предметом изучения статистики.

    Корреляционная связь – это связь, проявляющаяся при большом числе наблюдений в виде определенной зависимости между средним значением результативного признака и признаками-факторами. Другими словами, корреляционную связь условно можно рассматривать как своего рода функциональную связь средней величины одного признака (результативного) со значением другого (или других). При этом, если рассматривается связь средней величины результативного показателя y с одним признаком-фактором x, корреляция называется парной, а если факторных признаков 2 и более (x1, x2, …, xm) – множественной42.

    По характеру изменений x и y в парной корреляции различают прямую и обратную связь. При прямой связи значения обоих признаков изменяются в одном направлении, т.е. с увеличением (уменьшением) значений x увеличиваются (уменьшаются) и значения y. При обратной связи значения факторного и результативного признаков изменяются в разных направлениях.

    Изучение корреляционных связей сводится в основном к решению следующих задач:

    1. выявление наличия (отсутствия) корреляционной связи между изучаемыми признаками;

    2. измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов (эта часть исследования именуется корреляционным анализом);

    3. определение уравнения регрессии – математической модели, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких переменных – факторных признаков (эта часть исследования именуется регрессионным анализом).

    Общий термин «корреляционно-регрессионный анализ» подразумевает всестороннее исследование корреляционных связей (т.е. решение всех трех задач).

    Корреляционно-регрессионный анализ находит широкое применение в статистике. Рассмотрим его практическое применение на примере данных таможенной статистики внешней торговли России в 2006 году – таблица 39.

    Таблица 39. Величина внешнеторгового оборота и таможенных платежей

    Месяц

    Оборот,

    млрд.долл.

    Платеж,

    млрд.руб.

    Январь

    27,068

    172,17

    Февраль

    29,889

    200,90

    Март

    34,444

    231,83

    Апрель

    33,158

    232,10

    Май

    37,755

    233,40

    Июнь

    37,554

    236,99

    Июль

    37,299

    246,53

    Август

    40,370

    253,62

    Сентябрь

    37,909

    256,43

    Октябрь

    38,348

    261,89

    Ноябрь

    39,137

    259,36

    Декабрь

    46,298

    278,87

    В качестве факторного признака x примем стоимостной внешнеторговый товарооборот в млрд. долл. США, а в качестве результативного признака y – величину таможенных платежей в федеральный бюджет в млрд. руб.

    x

    y

    27,068

    172,17

    29,889

    200,90

    33,158

    232,10

    34,444

    231,83

    37,299

    246,53

    37,554

    236,99

    37,755

    233,40

    37,909

    256,43

    38,348

    261,89

    39,137

    259,36

    40,370

    253,62

    46,298

    278,87
    7.2. Методы выявления и оценки корреляционной связи
    Для выявления наличия и характера корреляционной связи между двумя признаками в статистике используется ряд методов.

    1. Рассмотрение параллельных данных(значений x и y в каждой из n единиц). Единицы наблюдения необходимо расположить по возрастанию значений факторного признака х (как в таблице справа) и затем сравнить с ним (визуально) поведение результативного признака у.

    В нашей задаче в 6 случаях по мере увеличения значений x увеличиваются и значения y, а в 5 случаях этого не происходит, поэтому затруднительно говорить о прямой связи между х и у.

    2. Графический метод – это графическое изображение корреляционной зависимости. Для этого, имея n взаимосвязанных пар значений x и y и пользуясь прямоугольной системой координат, каждую такую пару изображают в виде точки на плоскости с координатами x и y. Совокупность полученных точек представляет собой корреляционное поле (рис. 20), а соединяя последовательно нанесенные точки отрезками, получают ломаную линию, именуемую эмпирической линией регрессии (рис. 21).

    Рис. 20. Корреляционное поле Рис. 21. Эмпирическая линия регрессии

    Визуально анализируя график, можно предположить характер зависимости между признаками x и y. В нашей задаче эмпирическая линия регрессии (рис.21) похожа на восходящую прямую, что позволяет выдвинуть гипотезу о наличии прямой зависимости между величиной стоимостного внешнеторгового товарооборота и величиной таможенных платежей в федеральный бюджет.

    3. Метод аналитических группировокиспользуется при большом числе наблюдений для выявления корреляционной связи между двумя количественными признаками. Чтобы выявить наличие корреляционной связи между двумя признаками, проводится группировка единиц совокупности по факторному признаку х и для каждой выделенной группы рассчитывается среднее значение результативного признака . Если результативный признак у зависит от факторного х, то в изменении среднего значения будет прослеживаться определенная закономерность. Примером такой группировки могут служить данные об издержках обращения предприятий оптовой торговли с различным товарооборотом (см. табл. 40).

    Таблица 40. Условные пример аналитической группировки

    Оптовый

    товарооборот,

    млн.руб.

    Количество

    предприятий

    Издержки обращения,

    % к оптовому

    товарообороту

    менее 25

    26-50

    51-100

    101-200

    201-500

    более 501

    9362

    3633

    3618

    3261

    3031

    3100

    46,0

    26,5

    24,4

    23,0

    17,6

    16,9

    В последнем столбце табл. 40 приведены средние величины, рассчитанные на основе индивидуальных данных об издержках отдельных предприятий каждой группы. Данные таблицы 40 свидетельствуют, что чем крупнее товарооборот, тем меньше издержки обращения. Таким образом, с помощью простой аналитической группировки можно выявить наличие зависимости между рассматриваемыми показателями: объемом товарооборота как показателем размера предприятий и средним уровнем издержек обращения.

    4. Метод корреляционных таблиц предполагает комбинационное распределение единиц совокупности по двум количественным признакам. Такая таблица строится по типу «шахматной», т.е. в подлежащем (строках) таблицы выделяются группы по факторному признаку х, а в сказуемом (столбцах) – по результативному у (или наоборот), а в клетках таблицы на пересечении х и у показано число случаев совпадения каждого значения х с соответствующим значением у. Общий вид такой таблицы показан на условном распределении 40 единиц по признакам х и у, где х – стаж работы, у – производительность труда (число изделий, вырабатываемых в час одним рабочим) – таблица 41. Среднее значение по группам определяется по средней арифметической взвешенной по серединам группировочных интервалов.

    Таблица 41. Условные корреляционной таблицы

    Значение

    признака

    xj

    Значение признака уi

    Итого

    Среднее

    значение

    по группам



    менее 7,5

    7,5-12,5

    12,5-17,5

    более 17,5

    менее 2

    2 – 4

    4 – 6

    6 – 8

    1

    2





    3

    3

    3





    7

    9

    5





    4

    3

    4

    12

    16

    8

    8,75

    12,08

    15,31

    16,87

    Итого

    3

    9

    21

    7

    40

    14,00

    Как видно из таблицы 41, по мере увеличения значений х итоговые групповые средние тоже увеличиваются от группы к группе, что свидетельствует о том, что между х и у существует корреляционная связь. О наличии и направлении связи можно судить и по «внешнему виду» таблицы, т.е. по расположению в ней частот: если частоты расположены в клетках таблицы беспорядочно, то это чаще всего свидетельствует об отсутствии связи между группировочными признаками (или о незначительной зависимости); если частоты сконцентрированы ближе к одной из диагоналей и центру таблицы, образуя своего рода эллипс, то это почти всегда свидетельствует о наличии зависимости между х и у, близкой к линейной. Расположение по диагонали из верхнего левого угла в нижний правый свидетельствует о прямой линейной связи, а из нижнего левого угла в верхний правый – об обратной.

    На основе аналитических группировок и корреляционных таблиц можно не только выявить наличие зависимости между двумя коррелируемыми показателями, но и измерить тесноту этой связи, в частности, с помощью эмпирического корреляционного отношения.


    ,


    (118)

    ,


    (119)

    .


    (120)
    где m – число групп по факторному признаку х;

    k– число групп по результативному признаку у;

    – средние значения результативного признака по группам;

    – общее среднее значение результативного признака;

    – индивидуальные значения результативного признака;

    – частота в j-й группе х;

    – частота в i-й группе у.

    Рассчитаем это отношение для нашего примера (таблица 41):

    =(5*3+10*9+15*21+20*7)/40=14

    =6,19599;

    =16,5; =0,613.

    Полученное значение =0,613 позволяет утверждать, что существует заметная связь между стажем работы и производительностью труда.

    5. Коэффициент корреляции знаков (Фехнера) – простейший показатель тесноты связи, основанный на сравнении поведения отклонений индивидуальных значений каждого признака (x и y) от своей средней величины. При этом во внимание принимаются не величины отклонений ( ) и ( ), а их знаки («+» или «–»). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары знаков и подсчитывают число их совпадений (С) и несовпадений (Н). Тогда коэффициент Фехнера рассчитывается как отношение разности чисел пар совпадений и несовпадений знаков к их сумме, т.е. к общему числу наблюдаемых единиц:

    . (121)

    Очевидно, что если знаки всех отклонений по каждому признаку совпадут, то КФ=1, что характеризует наличие прямой связи. Если все знаки не совпадут, то КФ=–1(обратная связь). Если же С=Н, то КФ=0. Итак, как и любой показатель тесноты связи, коэффициент Фехнера может принимать значения от 0 до 1. Однако, если КФ=1, то это ни в коей мере нельзя воспринимать как свидетельство функциональной зависимости между х и у.

    Средние значения факторного и результативного признаков определяем по формуле средней арифметической простой (10):

    ; .

    В двух последних столбцах таблицы 42 приведены знаки отклонений каждого х и у от своей средней величины. Число совпадений знаков – 10, а несовпадений – 2, тогда определяем коэффициент корреляции знаков (Фехнера) по формуле (121):

    КФ=

    Таблица 42. Вспомогательная таблица для расчета коэффициента Фехнера



    п/п

    x

    y

    x –

    y –

    1

    27,068

    172,17





    2

    29,889

    200,90





    3

    33,158

    232,10





    4

    34,444

    231,83





    5

    37,299

    246,53

    +

    +

    6

    37,554

    236,99

    +



    7

    37,755

    233,40

    +



    8

    37,909

    256,43

    +

    +

    9

    38,348

    261,89

    +

    +

    10

    39,137

    259,36

    +

    +

    11

    40,370

    253,62

    +

    +

    12

    46,298

    278,87

    +

    +

    Итого

    439,229

    2864,09







    Обычно такое значение показателя тесноты связи характеризует заметную прямую зависимость между x и y, однако, следует иметь в виду, что поскольку КФ зависит только от знаков и не учитывает величину самих отклонений х и у от их средних величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление.

    6. Линейный коэффициент корреляции – самый популярный измеритель тесноты линейной связи между двумя количественными признаками x и y. Он основан на предположении, что при полной независимости43 признаков x и у отклонения значений факторного признака от средней ( ) носят случайный характер и должны случайно сочетаться с различными отклонениями ( ). При наличии значительного перевеса совпадений или несовпадений таких отклонений делается предположение о наличии связи между x и y.

    В отличие от КФ в линейном коэффициенте корреляции учитываются не только знаки отклонений от средних величин, но и значения самих отклонений, выраженные для сопоставимости в единицах среднего квадратического отклонения t:

    и .

    Линейный коэффициент корреляции r представляет собой среднюю величину из произведений нормированных отклонений для x и у:

    , (122) или . (123)

    Числитель формулы (123), деленный на n, представляющий собой среднее произведение отклонений значений двух признаков от их средних значений, называется коэффициентом ковариации – это мера совместной вариации факторного x и результативного y признаков:

    (124)

    Недостатком коэффициента ковариации является то, что он не нормирован, в отличие от линейного коэффициента корреляции. Очевидно, что линейный коэффициент корреляции представляет собой частное от деления ковариации между х и у на произведение их средних квадратических отклонений:

    . (125)

    Путем несложных математических преобразований44 можно получить и другие модификации формулы линейного коэффициента корреляции, например:

    , (126) , (127)

    , (128) . (129)

    Линейный коэффициент корреляции может принимать значения от –1 до +1, причем знак определяется в ходе решения. Например, если , то r по формуле (126) будет положительным, что характеризует прямую зависимость между х и у, в противном случае (r<0) – обратную связь. Если , то r=0, что означает отсутствие линейной зависимости между х и у, а при r=1 – функциональная зависимость между х и у. Следовательно, всякое промежуточное значение r от 0 до 1 характеризует степень приближения корреляционной связи между х и у к функциональной. Существует эмпирическое правило (шкала Чэддока) для оценки тесноты связи, представленное в таблице 43.

    Таблица 43. Шкала Чэддока

    |r|

    Теснота связи

    менее 0,1

    отсутствует линейная связь

    0,1 ÷ 0,3

    слабая

    0,3 ÷ 0,5

    умеренная

    0,5 ÷ 0,7

    заметная

    более 0,7

    сильная (тесная)

    Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между х и у к линейной. Поэтому близость значения r к 0 в одних случаях может означать отсутствие связи между х и у, а в других свидетельствовать о том, что зависимость не линейная.

    В нашей задаче для расчета rпостроим вспомогательную таблицу 44.

    Таблица 44. Вспомогательные расчеты линейного коэффициента корреляции



    п/п

    x

    y





    tx

    ty

    tx ty



    xy

    1

    27,068

    172,17

    90,905

    4422,804

    -1,993

    -2,408

    4,799

    634,078

    4660,298

    2

    29,889

    200,90

    45,070

    1426,888

    -1,403

    -1,368

    1,919

    253,594

    6004,700

    3

    33,158

    232,10

    11,864

    43,220

    -0,720

    -0,238

    0,171

    22,644

    7695,972

    4

    34,444

    231,83

    4,659

    46,843

    -0,451

    -0,248

    0,112

    14,773

    7985,153

    5

    37,299

    246,53

    0,485

    61,714

    0,146

    0,284

    0,041

    5,472

    9195,322

    6

    37,554

    236,99

    0,906

    2,836

    0,199

    -0,061

    -0,012

    -1,603

    8899,922

    7

    37,755

    233,40

    1,328

    27,817

    0,241

    -0,191

    -0,046

    -6,079

    8812,017

    8

    37,909

    256,43

    1,707

    315,270

    0,273

    0,643

    0,176

    23,199

    9721,005

    9

    38,348

    261,89

    3,047

    538,975

    0,365

    0,841

    0,307

    40,525

    10042,958

    10

    39,137

    259,36

    6,424

    427,904

    0,530

    0,749

    0,397

    52,430

    10150,572

    11

    40,37

    253,62

    14,195

    223,378

    0,788

    0,541

    0,426

    56,310

    10238,639

    12

    46,298

    278,87

    94,004

    1615,705

    2,027

    1,455

    2,950

    389,722

    12911,123

    Итого

    439,229

    2864,09

    274,594

    9153,353







    11,241

    1485,066

    106317,681

    В нашей задаче: = = 4,784; = = 27,618.

    Тогда линейный коэффициент корреляции по формуле (122): r = 11,241/12 = 0,937.

    Аналогичный результат получаем по формуле (123): r = 1485,066/(12*4,784*27,618) = 0,937

    Или по формуле (126): r = (106317,681/12 – 36,602*238,674) / (4,784*27,618) = 0,937,

    Найденное значение свидетельствует о том, что связь между величиной стоимостного внешнеторгового товарооборота и величиной таможенных платежей в федеральный бюджет очень близка к функциональной (сильная по шкале Чэддока).

    Проверка коэффициента корреляции на значимость (существенность). Интерпретируя значение коэффициента корреляции, следует иметь в виду, что он рассчитан для ограниченного числа наблюдений и подвержен случайным колебаниям, как и сами значения x и y, на основе которых он рассчитан. Другими словами, как любой выборочный показатель, он содержит случайную ошибку и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями. Для того, чтобы оценить существенность (значимость) самого r и, соответственно, реальность измеряемой связи между х и у, необходимо рассчитать среднюю квадратическую ошибку коэффициента корреляции σr. Оценка существенности (значимости) r основана на сопоставлении значения r с его средней квадратической ошибкой: .

    Существуют некоторые особенности расчета σr в зависимости от числа наблюдений (объема выборки) – n.

    1. Если число наблюдений достаточно велико (n>30), то σr рассчитывается по формуле (130):

    . (130)

    Обычно, если >3, то r считается значимым (существенным), а связь – реальной. Задавшись определенной вероятностью, можно определить доверительные пределы (границы) r = ( ), где t – коэффициент доверия, рассчитываемый по интегралу Лапласа (см. Приложение 1).

    1. Если число наблюдений небольшое (n<30), то σr рассчитывается по формуле (131):

    , (131)

    а значимость r проверяется на основе t-критерия Стьюдента, для чего определяется расчетное значение критерия по формуле (132) и сопоставляется c tТАБЛ.

    . (132)

    Табличное значение tТАБЛ находится по таблице распределения t-критерия Стьюдента (см. Приложение 2) при уровне значимости α=1-β и числе степеней свободы ν=n–2. Если tРАСЧ> tТАБЛ ,то r считается значимым, а связь между х и у – реальной. В противном случае (tРАСЧ< tТАБЛ) считается, что связь между х и у отсутствует, и значение r, отличное от нуля, получено случайно.

    В нашей задаче число наблюдений небольшое, значит, оценивать существенность (значимость) линейного коэффициента корреляции будем по формулам (131) и (132):

    = 0,349/3,162 = 0,110;

    = 0,937/0,110 = 8,482.

    Из приложения 2 видно, что при числе степеней свободы ν = 12 – 2 = 10 (в 10-й строке) и вероятности β = 95% (уровень значимости α =1 – β = 0,05) tтабл=2,2281, а при вероятности 99% (α=0,01) tтабл=3,169, значит, tРАСЧ > tТАБЛ, что дает возможность считать линейный коэффициент корреляции r= 0,937 значимым.
    1   ...   24   25   26   27   28   29   30   31   ...   43


    написать администратору сайта