Главная страница
Навигация по странице:

  • Этап 1. Построение ранжированного ряда распределения.

  • Ошибка! Источник ссылки не найден.

  • Этап 2. Построение интервального ряда распределения

  • таможенная статистика - лекции. Таможенная статистика внешней торговли Тема Роль и место таможенной статистики в научный обиход термин статистика


    Скачать 1.6 Mb.
    НазваниеТаможенная статистика внешней торговли Тема Роль и место таможенной статистики в научный обиход термин статистика
    Анкортаможенная статистика - лекции.pdf
    Дата15.03.2018
    Размер1.6 Mb.
    Формат файлаpdf
    Имя файлатаможенная статистика - лекции.pdf
    ТипДокументы
    #16688
    страница4 из 11
    1   2   3   4   5   6   7   8   9   10   11

    Тема 5. Ряды распределения в таможенной статистике
    Признаки, разрабатываемые таможенной статистикой внешней торговли, рассмотренные в предыдущей теме, варьируются (отличаются друг от друга) у различных единиц совокупности в один и тот же период или момент времени.
    Например, величина внешнеторгового оборота варьируется по подразделениям
    ФТС; величина экспорта (импорта) варьируется по направлениям экспорта (по разным странам-партнерам по внешней торговле), по видам товаров и т.п.
    Причиной вариации являются разные условия существования разных единиц совокупности. Например, огромное число причин влияет на масштабы внешней торговли различных стран мира.
    Для управления и изучения вариации статистикой разработаны специальные методы исследования вариации, система показателей, с помощью которой вариация измеряется, характеризуются ее свойства.
    Первым этапом статистического изучения вариации является построение ряда
    распределения (или вариационного ряда) – упорядоченного распределения единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.
    Существует 3 вида ряда распределения:
    1)
    ранжированный ряд – это перечень отдельных единиц совокупности в порядке возрастания изучаемого признака (например, таблица 9); если численность единиц совокупности достаточно велика ранжированный ряд становится громоздким, и в таких случаях ряд распределения строится с помощью группировки единиц совокупности по значениям изучаемого признака (ели признак принимает небольшое число значений, то строится дискретный ряд, а в противном случае – интервальный ряд);
    2)
    дискретный ряд – это таблица, состоящая из двух столбцов (строк) – конкретных значений варьирующего признака X
    i
    и числа единиц совокупности с данным значением признака f
    i
    – частот; число групп в дискретном ряду определяется числом реально существующих значений варьирующего признака;
    3)
    интервальный ряд – это таблица, состоящая из двух столбцов (строк) – интервалов варьирующего признака X
    i
    и числа единиц совокупности,

    32 попадающих в данный интервал (частот), или долей этого числа в общей численности совокупностей (частостей).
    Этап 1. Построение ранжированного ряда распределения. Построим ряд распределения внешнеторгового оборота (ВО) по таможенным постам России, для чего необходимо провести статистическое наблюдение, то есть собрать первичный статистический материал, который представляет собой величину ВО по всем таможенным постам, численность которых, как видно из рисунка
    Ошибка! Источник
    ссылки не найден., составляет 709 ед.
    Ввиду огромного массива данных применение сплошного наблюдения экономически нецелесообразно, поэтому в таких случаях применяется выборочный
    метод, то есть из общего массива данных (генеральная совокупность) отбирается некоторая часть (выборочная совокупность, или выборка), которая и подвергается статистическому анализу. При этом число единиц в выборке обозначают п, во всей генеральной совокупности – N. Отношение n/N называется относительный размер или частость выборки. Качество результатов выборочного метода зависит от репре-
    зентативности выборки, т.е. от того, насколько она представительна в генеральной совокупности. Для обеспечения репрезентативности выборки необходимо соблюдать принцип случайности отбора единиц.
    В нашем примере про ВО примем частость выборки n/N =0,05 или 5%, то есть в выборку включим n = 0,05*709 = 35 таможенных постов из 709. Результаты выборочного наблюдения ВО по 35 таможенным постам за отчетный период представим в виде ранжированного по возрастанию величины ВО ряда распределения (таблица
    9
    ).
    Таблица 9. Внешнеторговый оборот (ВО) по 35 таможенным постам, млн.долл.
    № поста
    ВО
    № поста
    ВО
    № поста
    ВО
    1 24,16 13 54,12 25 65,31 2
    27,06 14 54,91 26 69,24 3
    29,12 15 55,74 27 71,39 4
    31,17 16 55,91 28 77,12 5
    37,08 17 56,07 29 79,12 6
    39,11 18 56,80 30 84,34 7
    41,58 19 56,93 31 86,89 8
    44,84 20 57,07 32 91,74 9
    46,80 21 58,39 33 96,01 10 48,37 22 59,61 34 106,84 11 51,44 23 59,95 35 111,16 12 52,56 24 62,05
    Итого
    2100,00
    Учитывая, что на основе выборочного обследования нельзя точно оценить изучаемый параметр (например, среднее значение –
    Х
    или долю какого-то признака –
    d) генеральной совокупности, необходимо найти пределы, в которых он находится.
    Для этого необходимо определить изучаемый параметр по данным выборки
    (выборочную среднюю –
    X


    и/или выборочную долю –
    d

    ) и его дисперсию (
    2


    ).

    33
    В нашем примере про ВО определим его средний размер в выборке по формуле
    (10), приняв за X величину ВО, а за N – численность выборки n:
    X

    =
    n
    Х

    = 2100/35 = 60 (млн.долл.)
    Дисперсию (о ней будет рассказано чуть позднее – на 4-м этапе анализа вариации в этой теме) определим по формуле (46):


    n
    X
    X
    i



    2 2



    =
    35
    )
    60 16
    ,
    111
    (
    )
    60 06
    ,
    27
    (
    )
    60 16
    ,
    24
    (
    2 2
    2






    = 445,778 (млн.долл.
    2
    )
    Затем необходимо определить предельную ошибку выборки по формуле (32)
    13
    :

    = t

    ,
    (32) где tкоэффициент доверия, зависящий от вероятности, с которой определяется предельная ошибка выборки;
    средняя ошибка выборки, определяемая для повторной выборки по формуле (33), а для бесповторной – по формуле (34):

    =
    n
    2


    ,
    (33)
    =





     
    N
    n
    n
    1

    2

    ,
    (34) где n – численность выборки; N – численность генеральной совокупности.
    В нашем примере про ВО выборка бесповторная, значит, применяя формулу
    (34), получим среднюю ошибку выборки при определении средней величины ВО в генеральной совокупности: =





     
    709 35 1
    35 778
    ,
    445
    = 3,48 (млн.долл.).
    Значения вероятности P и коэффициента доверия t имеются в таблицах нормального закона распределения
    14
    – приложение 11.
    Вероятность, которая принимается при расчете выборочной характеристики, называется доверительной. Чаще всего принимают вероятность P = 0,950 (t = 1,96), которая означает, что только в 5 случаях из 100 ошибка может выйти за установленные границы.
    Предельная ошибка выборки при определении средней величины ВО по формуле (32): = 1,96*3,48 = 6,82 (млн.долл.).
    После расчета предельной ошибки находят доверительный интервал обобщающей характеристики генеральной совокупности по формуле (35) – для среднего значения, и по формуле (36) – для доли какого-либо признака:



    X
    Х

    или
    (


    )

    Х

    (
    +

    )
    (35)



    d
    d

    или
    (
    d



    )

    d

    (
    d

    +

    )
    (36)
    13
    Если в выборке более 30 единиц генеральной совокупности (n > 30)
    14
    Подробнее о нормальном законе распределения рассказывается далее в этой же теме на 6-м этапе анализа рядов распределения




    X

    X


    34
    В нашем примере про ВО по формуле (35):
    = 60 ± 6,82 или 53,18 66,82 (млн.долл.), то есть средняя величина ВО в отчетном периоде по всем 709 таможенным постам с вероятностью 0,95 лежит в пределах от 53,18 млн.долл. до 66,18 млн.долл.
    Этап 2. Построение интервального ряда распределения. Построим интервальный ряд распределения ВО по таможенным постам России, для чего необходимо выбрать оптимальное число групп (интервалов признака) и установить длину (размах) интервала. Поскольку при анализе ряда распределения сравнивают частоты в разных интервалах, необходимо, чтобы длина интервалов была постоянной
    15
    . Оптимальное число групп выбирается так, чтобы достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределении, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится закономерность вариации; если групп будет чрезмерно много, случайные скачки частот исказят форму распределения.
    Чаще всего число групп в ряду распределения определяют по формуле
    Стерждесса (37) или (38):
    N
    k
    lg
    322
    ,
    3 1


    (37) или
    N
    k
    ln
    44
    ,
    1 1


    ,
    (38) где k – число групп (округляемое до ближайшего целого числа); N – численность совокупности.
    Из формулы Стерджесса видно, что число групп – функция объема данных (N).
    Зная число групп, рассчитывают длину (размах) интервала
    16
    по формуле (39):
    k
    X
    X
    h
    min max


    ,
    (39) где X
    мax
    и X
    min
    — максимальное и минимальное значения в совокупности.
    В нашем примере про ВО по формуле Стерждесса (37) определим число групп:
    k = 1 + 3,322lg35 = 1+ 3,322*1,544 = 6,129 ≈ 6.
    Рассчитаем длину (размах) интервала по формуле (39):
    h = (111,16 – 24,16)/6 = 87/6 = 14,5 (млн.долл.).
    Теперь построим интервальный ряд с 6 группами с интервалом 14,5 млн.долл.
    (см. первые 3 столбца табл. 10).
    Таблица 10. Интервальный ряд распределения ВО по таможенным постам, млн.долл.
    i
    Группы постов по величине
    ВО
    X
    i
    Число постов
    f
    i
    Середина интервала
    Х
    i

    Х
    i

    f
    i
    Накопл. частота
    f
    i

    | Х
    i

    -
    X

    | f
    i
    (Х
    i

    -
    X

    )
    2
    f
    i
    (Х
    i

    -
    X

    )
    3
    f
    i
    (Х
    i

    -
    X

    )
    4
    f
    i
    15
    Если приходится иметь дело с интервальным рядом распределения с неравными интервалами, то для сопоставимости нужно частоты или частости привести к единице интервала, полученное значение называется плотностью ρ, то есть ρ = f/h
    16
    Единицы совокупности, имеющие значение признака, равное границе интервала, включаются в тот интервал, где это точное значение впервые указывается
    Х

    Х


    35
    i
    Группы постов по величине
    ВО
    X
    i
    Число постов
    f
    i
    Середина интервала
    Х
    i

    Х
    i

    f
    i
    Накопл. частота
    f
    i

    | Х
    i

    -
    X

    | f
    i
    (Х
    i

    -
    X

    )
    2
    f
    i
    (Х
    i

    -
    X

    )
    3
    f
    i
    (Х
    i

    -
    X

    )
    4
    f
    i
    1 24,16 – 38,66 5
    31,41 157,05 5
    147,071 4326,001 -127246,23 3742856,97 2 38,66 – 53,16 7
    45,91 321,37 12 104,400 1557,051 -23222,31 346344,16 3 53,16 – 67,66 13 60,41 785,33 25 5,386 2,231
    -0,92 0,38 4 67,66 – 82,16 4
    74,91 299,64 29 56,343 793,629 11178,84 157461,90 5 82,16 – 96,66 4
    89,41 357,64 33 114,343 3268,572 93434,47 2670891,13 6 96,66 – 111,16 2
    103,91 207,82 35 86,171 3712,758 159966,81 6892284,32
    Итого
    35 2128,85 513,714 13660,243 114110,66 13809838,86
    Существенную помощь в анализе ряда распределения и его свойств оказывает графическое изображение. Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные по оси абсцисс, – это интервалы значений варьирующего признака, а высоты столбиков – частоты, соответствующие масштабу по оси ординат. Графическое изображение распределения таможенных постов в выборке по величине ВО приведено на рис.
    6
    Диаграмма такого типа называется гистограммой
    17 0
    2 4
    6 8
    10 12 14 38,66 24,16 53,16 38,66 67,66 53,16 82,16 67,66 96,66 82,16 111,16 96,66 0
    2 4
    6 8
    10 12 14 38,66 24,16 53,16 38,66 67,66 53,16 82,16 67,66 96,66 82,16 111,16 96,66
    Рис. 6. Гистограмма распределения
    Рис. 7. Полигон распределения
    Данные табл. 10 и рис. 6 показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже – крайние (малые и большие) значения признака. Форма этого распределения близка к нормальному закону распределения, которое образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего значения.
    Если имеется дискретный ряд распределения или используются середины интервалов (как в нашем примере про ВО – в таблице 10 в 4-м столбце рассчитаны середины интервалов как полусумма значений начала и конца интервала), то графическое изображение такого ряда называется полигоном (см. рис. 7)
    18
    , которое получается соединением прямыми точек с координатами X
    i
    и f
    i
    Этап 3. Расчет структурных характеристик ряда распределения. При изучении вариации применяются такие характеристики ряда распределения,
    17
    От греч. «гистос» – ткань, строение
    18
    От греч. слов «поли» и «гонос» – многоугольник

    36 которые описывают количественно его структуру, строение. Такова, например,
    медиана – величина варьирующего признака, делящая совокупность на две равные части – со значением признака меньше медианы и со значением признака больше медианы
    19
    . В нашем примере про ВО (табл.
    9
    ) медиана – это 18-й таможенный пост из 35 с величиной ВО 56,8 млн.долл. Из этого примера видно принципиальное различие между медианой и средней величиной: медиана не зависит от значений на краях ранжированного ряда. Даже если бы ВО 35-го таможенного поста был в 10 раз больше, величина медианы не изменилась бы. Поэтому медиану часто используют как более надежный показатель типичного значения признака, нежели средняя арифметическая, если ряд значений неоднороден, включает резкие отклонения от средней. В интервальном ряду распределения для нахождения медианы применяется формула:
    Me
    Me
    f
    f
    f
    h
    X
    Me
    1 0
    5
    ,
    0






    ,
    (40) где Ме
    – медиана;
    X
    0
    – нижняя граница интервала, в котором находится медиана;
    h
    – величина (размах) интервала;
    1
    Me
    f


    – накопленная частота в интервале, предшествующем медианному;
    f
    Me
    – частота в медианном интервале.
    В табл. 10 медианным является среднее из 35 значений, т.е. 18-е от начала значение ВО. Как видно из столбца накопленных частот (6-й столбец), оно находится в третьем интервале. Тогда по формуле (40):
    30
    ,
    59 13 12 35
    *
    5
    ,
    0 5
    ,
    14 16
    ,
    53




    Me
    (млн.долл.).
    Аналогично медиане вычисляются значения признака, делящие совокупность на 4 равные по численности части – квартили, которые обозначаются заглавной латинской буквой Q с подписным значком номера квартиля. Ясно, что Q
    2
    совпадает с Ме. Для первого и третьего квартилей приводим формулы и расчет по данным табл.
    10
    :
    43
    ,
    43 7
    5 35
    *
    25
    ,
    0 5
    ,
    14 66
    ,
    38 25
    ,
    0 1
    1
    /
    1 0
    1









    Q
    Q
    f
    f
    f
    h
    X
    Q
    (млн.долл.)
    19
    ,
    72 4
    25 35
    *
    75
    ,
    0 5
    ,
    14 66
    ,
    67 75
    ,
    0 3
    3
    /
    1 0
    3









    Q
    Q
    f
    f
    f
    h
    X
    Q
    (млн.долл.)
    Так как Q
    2
    = Ме = 59,30 млн.долл., видно, что различие между первым квартилем и медианой (–15,87) больше, чем между медианой и третьим квартилем (12,89). Этот факт свидетельствует о наличии некоторой несимметричности в средней области распределения, что заметно и на рис. 6.
    19
    При четном числе единиц совокупности за медиану принимают полусумму из двух центральных вариант

    37
    Значения признака, делящие ряд на 5 равных частей, называются квинтилями, на 10 частей – децилями, на 100 частей – перцентилями. Эти характеристики применяются при необходимости подробного изучения структуры ряда распределения
    20
    Безусловно, важное значение имеет такая величина признака, которая встречается в изучаемом ряду распределения чаще всего. Такую величину принято называть модой. В дискретном ряду мода определяется без вычисления как значение признака с наибольшей частотой. Обычно встречаются ряды с одним модальным значением признака. Если в ряду распределения встречаются 2 или несколько равных (и даже несколько различных, но больших чем соседние) значений признака, то он считается соответственно бимодальным или мультимодальным. Это свидетельствует о неоднородности совокупности, возможно, представляющей собой агрегат нескольких совокупностей с разными модами. В интервальном ряду распределения интервал с наибольшей частотой является модальным. Внутри этого интервала находят условное значение признака, вблизи которого плотность распределения (число единиц совокупности, приходящихся на единицу измерения варьирующего признака) достигает максимума. Это условное значение и считается точечной модой. Логично предположить, что такая точечная мода располагается ближе к той из границ интервала, за которой частота в соседнем интервале больше частоты в интервале за другой границей модального интервала.
    Отсюда получаем обычно применяемую формулу (41):
    )
    (
    )
    (
    1 1
    1 0









    Mo
    Mo
    Mo
    Mo
    Mo
    Mo
    f
    f
    f
    f
    f
    f
    h
    X
    Mo
    ,
    (41) где Мо
    – мода;
    Х
    0
    – нижнее значение модального интервала;
    f
    Mo
    – частота в модальном интервале;
    f
    Mo-1
    – частота в предыдущем интервале;
    f
    Mo+1
    – частота в следующем интервале за модальным;
    h
    – величина интервала.
    По данным табл.
    10
    рассчитаем точечную моду по формуле (41):
    96
    ,
    58
    )
    4 13
    (
    )
    7 13
    (
    7 13 5
    ,
    14 16
    ,
    53







    Mo
    (млн.долл.).
    К изучению структуры ряда распределения средняя арифметическая величина также имеет отношение, хотя основное значение этого обобщающего показателя другое. В интервальном ряду распределения ВО по таможенным постам средняя арифметическая рассчитывается как взвешенная по частоте середина интервалов X
    (расчет числителя – в 5-м столбце табл.
    10
    ) по формуле (11):
    X

    1   2   3   4   5   6   7   8   9   10   11


    написать администратору сайта