=
f
f
Х
/
= 2128,85/35 = 60,82 (млн.долл.).
20
Получите формулы и произведите их расчет (по аналогии с формулами для расчета квартилей) самостоятельно
38
Различие между средней арифметической величиной (60,82), медианой (59,30) и модой (58,96) в нашем примере невелико. Чем ближе
распределение по форме к нормальному закону, тем ближе значения медианы, моды и средней величины между собой.
Этап 4. Расчет показателей размера и интенсивности вариации. Простейшим показателем является
размах вариации – абсолютная разность между максимальным и минимальным значениями признака из имеющихся в изучаемой совокупности значений (42): min max
XXH
(42)
Поскольку величина размаха характеризует лишь максимальное различие значений признака, она не может измерять закономерную силу его вариации во всей совокупности. Предназначенный для данной цели показатель должен учитывать и обобщать все различия значений признака в совокупности без исключения. Число таких различий равно числу сочетаний по два из всех единиц совокупности (в нашем примере про ВО число сочетаний составит
595
!
2
)!
2 35
(
!
35
!
)!
(
!
kknnСkn).
Однако нет необходимости рассматривать, вычислять и осреднять все отклонения.
Проще использовать среднюю из отклонений отдельных значений признака от среднего арифметического значения признака, а таковых в нашем примере про ВО всего 35. Но среднее отклонение значений признака от средней арифметической величины согласно первому свойству последней равно нулю. Поэтому показателем силы вариации выступает не арифметическая средняя отклонений, а средний модуль отклонений, или
среднее линейное отклонение (43):
NXXЛ
(43)
В нашем примере про ВО по данным табл.
10
среднее линейное отклонение вычисляется как взвешенное по частоте отклонение по модулю середин интервалов от средней арифметической величины (расчет числителя произведен в 7-м столбце табл. 10), т.е. по формуле (44):
678
,
14 35
/
513,714
/
ffXXЛ(млн.долл.).
(44)
Это означает, что в среднем величина ВО в изучаемой совокупности таможенных постов отклонялась от средней величины ВО в РФ на 14,678 млн.долл.
Простота расчета и интерпретации составляют положительные стороны показателя
Л, однако математические свойства модулей «плохие»: их нельзя поставить в соответствие с каким-либо вероятностным законом, в том числе и с нормальным распределением, параметром которого является не средний модуль отклонений, а
среднее квадратическое отклонение, обозначаемое малой греческой
39 буквой сигма (
) или
s и вычисляемое по формуле (45) – для ранжированного ряда и по формуле (46) – для интервального ряда:
NXX
2
)
(
;
(45)
ffXX2
/
)
(
(46)
В нашем примере про ВО по данным табл.
10
среднее квадратическое отклонение величины ВО по формуле (46) составило (расчет числителя произведен в 8-м столбце табл. 10):
756
,
19 293
,
390 35 13660,243
(млн.долл.).
Среднее квадратическое отклонение по величине в реальных совокупностях всегда больше среднего модуля отклонений. Разница между ними тем больше, чем больше в изучаемой совокупности резких, выделяющихся отклонений, что служит индикатором «засоренности» совокупности неоднородными с основной массой элементами. Для нормального закона распределения отношение
25
,
1
Л
. В нашем примере про ВО:
25
,
1 35
,
1 678
,
14
/
756
,
19
Л
, т.е. в изучаемой совокупности наблюдаются некоторое число таможенных постов с отличающимися от основной массы величинами ВО.
Квадрат среднего квадратического отклонения представляет собой
дисперсию отклонений, на использовании которой основаны практически все методы математической статистики, ее формула имеет вид (47) – для несгруппированных данных (простая дисперсия) и (48) – для сгруппированных (взвешенная дисперсия):
2 2
2 2
)
(
XXnXX
;
(47)
2 2
2
/
2
)
(
XXffXX
(48)
Еще одним показателем силы вариации, характеризующим ее не по всей совокупности, а лишь в ее центральной части, служит
среднее квартильное расстояние (отклонение), т.е.
средняя величина разности между квартилями, определяемая по формуле (49):
2 2
)
(
)
(
1 3
1 2
2 3
QQQQQQq
(49)
В нашем примере про ВО по формуле (49):
38
,
14 2
43,43 72,19
q(млн.долл.).
Сила вариации в центральной части совокупности, как правило, меньше, чем в целом по всей совокупности. Соотношение между средним линейным отклонением и средним квартильным расстоянием служит для изучения структуры вариации: большое значение такого соотношения свидетельствует о наличии слабоварьирующего «ядра» и сильно рассеянного вокруг него окружения в изучаемой совокупности. Для нашего примера про ВО соотношение
Л/q = 1,021, что говорит о совсем незначительном различии силы вариации в центральной части совокупности и на ее периферии.
40
Для оценки интенсивности вариации и для сравнения ее в разных совокупностях и тем более для разных признаков необходимы относительные
показатели вариации, которые вычисляются как отношение абсолютных показателей силы вариации, рассмотренных ранее, к средней арифметической величине признака, то есть показатели (50) – (53):
–
относительный размах вариации:
X
H
;
(50)
–
линейный коэффициент вариации:
X
Л
;
(51)
–
квадратический коэффициент вариации:
X
;
(52)
–
относительное квартильное расстояние:
X
q
d
(53)
В нашем примере про ВО эти показатели составляют:
= 87/60,82 =1,43, или 143%;
= 14,678/60,82 = 0,241, или 24,1%;
= 19,756/60,82 = 0,32, или 32%;
d = 14,38/60,82 = 0,236, или 23,6%.
Оценка степени интенсивности вариации возможна только для каждого отдельного признака и совокупности определенного состава, она состоит в сравнении наблюдаемой вариации с некоторой обычной ее интенсивностью, принимаемой за норматив
21
. Так, для совокупности таможенных постов вариация величины ВО может быть определена как слабая, если
< 25%, умеренная при 25% <
< 50% и сильная при
> 50%.
Различная сила, интенсивность вариации обусловлены объективными причинами, поэтому нельзя говорить о каком-либо универсальном критерии вариации (например, 33%), так как для разных явлений и признаков этот критерий различен
22
Этап 5. Расчет моментов распределения и показателей его формы. Для дальнейшего изучения характера вариации используются средние значения разных степеней отклонений отдельных величин признака от его средней арифметической величины. Эти показатели называются центральные моменты распределения порядка, соответствующего степени, в которую возводятся отклонения (табл. 11)
21
Максимально возможные значения показателей вариации: Л
max
=
N
X
X
/
2 2
;
1
max
N
x
;
N
/
2 2
max
;
1
max
N
22
Например, цена продажи американского доллара в коммерческих банках Н.Новгорода 26 июля
2007 года варьировала от 25,45 до 26,00 при средней цене 25,595 руб., тогда по формуле (50)
= (26,00–25,45)/25,595 = 0,021, или 2,1%. Такая малая вариация вызвана тем, что при значительном различии курса доллара немедленно произошел бы отлив покупателей из «дорогого» банка в более
«дешевые». Напротив, цена килограмма говядины в разных регионах России варьирует очень сильно – на десятки процентов и более. Это объясняется разными затратами на доставку товара из региона-производителя в регион потребитель.
41 или просто моментов (нецентральные моменты в таможенной статистике практически не используются).
Таблица 11. Центральные моменты
Порядок момента
Формула
по несгруппированным данным по сгруппированным данным
Первый μ
1 0
)
(
N
X
X
0
)
(
/
f
f
X
X
Второй μ
2 2
2 2
2
)
(
X
X
N
X
X
2 2
2 2
/
)
(
X
X
f
f
X
X
Третий μ
3
N
X
X
3
)
(
f
f
X
X
3
/
)
(
Четвертый μ
4
N
X
X
4
)
(
f
f
X
X
4
/
)
(
Величина третьего момента μ
3 зависит, как и его знак, от преобладания положительных кубов отклонений над отрицательными кубами либо наоборот. При нормальном и любом другом строго симметричном распределении сумма положительных кубов строго равна сумме отрицательных кубов, поэтому на основе третьего момента строится показатель, характеризующий степень асимметричности распределения – коэффициент асимметрии (54):
3 3
As
(54)
В нашем примере про ВО показатель асимметрии по формуле (54) составил (расчет числителя произведен в 9-м столбце табл. 10):
35
*
19,756 114110,66 3
As
= 0,423 > 0, т.е. асимметрия значительна.
Английский статистик К.Пирсон на основе разности между средней арифметической величиной и модой предложил другой показатель асимметрии (55):
Мо
X
As
П
(55)
В нашем примере по данным табл. 10 показатель асимметрии по формуле (55) составил:
19,756 58,96 60,82
As
= 0,09.
Показатель асимметрии Пирсона (55) зависит от степени асимметричности в средней части ряда распределения, а показатель асимметрии (54) – от крайних значений признака. Таким образом, в нашем примере про ВО в средней части распределения наблюдается меньшая асимметрия, чем по краям, что видно и по графику (рис. 7). Распределения с сильной правосторонней и левосторонней асимметрией показаны на рис. 8.
42
Рис. 8. Асимметрия распределения
С помощью момента четвертого порядка характеризуется еще более сложное свойство рядов распределения – эксцесс (от англ. «излишество»). Показатель эксцесса рассчитывается по формуле (56):
3 4
4
Ex
(56)
Чаще всего эксцесс интерпретируется как «крутизна» распределения, что не совсем верно. График распределения может выглядеть сколь угодно крутым в зависимости от силы вариации признака: чем слабее вариация, тем круче кривая распределения при данном масштабе. Не говоря уже о том, что, изменяя масштабы по осям абсцисс и ординат, любое распределение можно искусственно сделать
«крутым» и «пологим». Чтобы показать, в чем состоит эксцесс распределения, и правильно его интерпретировать, нужно сравнить ряды с одинаковой силой вариации (одной и той же величиной σ) и разными показателями эксцесса. Чтобы не смешать эксцесс с асимметрией, все сравниваемые ряды должны быть симметричными. Такое сравнение изображено на рис. 9.
Рис. 9. Эксцесс распределения
Левосторонняя
As < 0
Правосторонняя
As > 0
X
Мо
Мо
X
Ex > 0
Нормальное распределение Ex = 0
Ex < 0
43
Наличие положительного эксцесса означает наличие слабоварьирующего
«ядра» и сильно рассеянного вокруг него окружения в изучаемой совокупности.
Отрицательный эксцесс означает отсутствие такого «ядра».
В нашем примере по формуле (56) эксцесс составил (расчет числителя произведен в 10-м столбце табл. 10):
41
,
0 3
35
*
756
,
19 6
13809838,8 4
Ex
, т.е. величина ВО по таможенным постам варьирует сильнее, чем при нормальном распределении.
По значениям показателей асимметрии и эксцесса распределения можно судить о близости распределения к нормальному: показатели асимметрии и эксцесса не должны превышать своих двукратных средних квадратических отклонений, т.е.
As
As
2
и
Ex
Ex
2
. Эти средние квадратические отклонения вычисляются по формулам (57) и (58):
)
3
)(
1
)(
2
(
)
1
(
6
n
n
n
n
n
As
;
(57)
)
5
)(
3
)(
2
)(
3
(
)
1
(
24 2
n
n
n
n
n
n
Ex
(58)
В нашем примере по формулам (57) и (58):
40
,
0
)
3 35
)(
1 35
)(
2 35
(
)
1 35
(
*
35
*
6
As
78
,
0
)
5 35
)(
3 35
)(
2 35
)(
3 35
(
)
1 35
(
*
35
*
24 2
Ex
Так как показатели асимметрии и эксцесса не превышают своих двухкратных средних квадратических отклонений (As = |0,423| < 0,4*2; Ex = |–0,41| < 0,78*2), можно говорить о сходстве анализируемого распределения с нормальным.
Этап 6. Проверка соответствия ряда распределения теоретическому. Под теоретической кривой распределения понимается графическое изображение ряда в виде непрерывной линии изменения частот в вариационном ряду, функционально связанного с изменением вариантов, другими словами, теоретическое распределение может быть выражено аналитически – формулой, которая связывает частоты и соответствующие значения признака. Такие алгебраические формулы носят название законов распределения. Большое познавательное значение имеет сопоставление фактических кривых распределения с теоретическими.
Как уже неоднократно отмечалось, часто пользуются типом распределения, которое называется нормальным. Формула функции плотности нормального распределения имеет следующий вид (59):
2 2
2
)
(
2 1
)
(
X
X
e
X
f
или
2 2
2 1
)
(
t
e
t
(59) где
X
– значение изучаемого признака;
X
– средняя арифметическая ряда;
σ
– среднее квадратическое отклонение;
X
X
t
– нормированное отклонение;
π = 3,1415
– постоянное число (отношение длины окружности к ее диаметру); e = 2,7182
– основание натурального логарифма.
44
Следовательно, кривая нормального распределения может быть построена по двум параметрам – средней арифметической и среднему квадратическому отклонению.
Поэтому важно выяснить, как эти параметры влияют на вид нормальной кривой.
Если
X не меняется, а изменяется только σ, то чем меньше σ, тем более вытянута вверх кривая и наоборот, чем больше σ, тем более плоской и растянутой вдоль оси абсцисс становится кривая нормального распределения (см. рис.
10
).
Рис. 10. Влияние величины σ на кривую нормального распределения
Если σ остается неизменной, а
X изменяется, то кривые нормального распределения имеют одинаковую форму, но отличаются друг от друга положением максимальной ординаты (вершины) (см. рис. 11).
Рис. 11. Влияние величины
X на кривую нормального распределения
Итак, выделим
особенности кривой нормального распределения:
1)
кривая
симметрична и имеет максимум в точке, соответствующей значению
X =
Ме =
Мо;
2)
кривая асимптотически приближается к оси абсцисс, продолжаясь в обе стороны до бесконечности (чем больше отдельные значения
X отклоняются от
X, тем реже они встречаются);
3)
кривая имеет две точки перегиба на расстоянии ± σ от
X;
4)
коэффициенты асимметрии и эксцесса равны нулю.
Гипотезы о распределениях заключаются в том, что выдвигается предположение о том, что распределение в изучаемой совокупности подчиняется какому-то определенному закону. Проверка гипотезы состоит в том, чтобы на основании сравнения фактических (эмпирических) частот с предполагаемыми
(теоретическими) частотами сделать вывод о соответствии фактического распределения гипотетическому распределению.
X =
const σ
1
< σ
2
< σ
3
σ
1
σ
2
σ
3
X X f(X) 1
X2
X3
Xσ =
const 1
X<
2
X <
3
XX f(X)
45
Под гипотетическим распределением необязательно понимается нормальное распределение. Может быть выдвинута гипотеза о логнормальном, биномиальном распределениях, распределении Пуассона и пр.
23
Причина частого обращения к нормальному распределению состоит в том, что, как уже было замечено ранее, в этом типе распределения выражается закономерность, возникающая при взаимодействии множества случайных причин, когда ни одна из не имеет преобладающего влияния.
В нашем примере про ВО близость значений средней арифметической величины (60,82), медианы (59,30) и моды (58,96) указывает на вероятное соответствие изучаемого распределения нормальному закону.
Проверка гипотезы о соответствии теоретическому распределению предполагает расчет теоретических частот этого распределения.
Для нормального распределения порядок расчета этих частот следующий:
1)
по эмпирическим данным рассчитывают среднюю арифметическую ряда
X
и среднее квадратическое отклонение σ;
2)
находят нормированное (выраженное в σ) отклонение каждого эмпирического значения от средней арифметической:
X
X
t
;
(60)
3)
по формуле (59) или с помощью таблиц интеграла вероятностей Лапласа находят значение φ(t)
24
;
4)
вычисляют теоретические частоты m по формуле:
)
(t
Nh
m
i
i
,
(61) где N – объем совокупности, h
i
– длина (размах) i-го интервала.
Определим теоретические частоты нормального распределения в нашем примере про ВО по данным табл. 10, для чего построим вспомогательную таблицу
12. Средняя арифметическая величина и среднее квадратическое отклонение нами уже найдены ранее (
756
,
19
;
82
,
60
X
); значения нормированных отклонений t рассчитаны в 5-м столбце таблицы 12, а значения плотностей φ(t) – в 8-м столбце (в
6-м и 7-м столбцах приведены промежуточные расчеты по формуле (59)); в последнем столбце – теоретические частоты нормального распределения.
Таблица 12. Расчет теоретических частот нормального распределения
i
X
i
f
i
Х
i
’
X
X
t
i
2 2
t
2 2
t
e
φ(t)
m
i
1 24,16 – 38,66 5
31,41
-1,4889 -1,1084 0,3301 0,0067 3,383 23
Прочие виды распределений изучаются дисциплиной «Теория вероятностей»
24
Простой расчет возможен при наличии Excel из пакета Microsoft Office, где имеется функция, вычисляющая плотность
(или интеграл) функции нормального распределения
=НОРМРАСП(А;Б;В;Г), где параметры: А – значение X; Б – средняя арифметическая X ; В – среднее квадратическое отклонение σ; Г – «0» для вычисления плотности (или «1» для вычисления интеграла) распределения
46 2 38,66 – 53,16 7
45,91
-0,7549 -0,2850 0,7520 0,0152 7,707 3 53,16 – 67,66 13 60,41
-0,0210 -0,0002 0,9998 0,0202 10,246 4 67,66 – 82,16 4
74,91 0,7130 -0,2542 0,7756 0,0157 7,948 5 82,16 – 96,66 4
89,41 1,4470 -1,0468 0,3510 0,0071 3,598 6 96,66 – 111,16 2
103,91 2,1809 -2,3782 0,0927 0,0019 0,950
Итого
35 33,832
Сравним на графике эмпирические
f (ВО по таможенным постам) и теоретические
m (нормальное распределение) частоты, полученные на основе данных табл. 12 (рис.
12).
Близость этих частот очевидна25
, но объективная оценка их соответствия может быть получена только с помощью критериев согласия.
0 2
4 6
8 10 12 14 0
20 40 60 80 100 120
эмпирическое распределение нормальное распределение
Рис. 12. Распределение ВО по таможенным постам (эмпирическое) и нормальное
Критерии согласия, опираясь на установленный закон распределения, дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными (случайными), а когда – существенными (неслучайными). Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой гипотезы о характере распределения в эмпирическом ряду и дать ответ, можно ли принять для данного эмпирического распределения модель, выраженную некоторым теоретическим законом распределения.
Существует ряд критериев согласия, но чаще всего применяют критерии
Пирсона χ
2
, Колмогорова и Романовского.
Критерий согласия Пирсона χ2(хи-квадрат) – один из основных критериев согласия, рассчитываемый по формуле (62):
25
Иногда за счет округлений при расчетах (использование функции плотности распределения вместо интеграла) может быть нарушено равенство сумм эмпирических и теоретических частот, что и произошло в нашем примере про ВО (∑
f=35, ∑
m=33,832)
47
k
i
i
i
i
m
m
f
1 2
2
)
(
,
(62) где k
– число интервалов;
f
i
– эмпирическая частота i-го интервала;
m
i
– теоретическая частота.
Для распределения χ
2
составлены таблицы, где указано критическое значение критерия согласия χ
2
для выбранного уровня значимости α и данного числа степеней свободы ν (см. Приложение 7).
Уровень значимости α
– это вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность (P) того, что будет отвергнута правильная гипотеза. В статистических исследованиях в зависимости от важности и ответственности решаемых задач пользуются следующими тремя уровнями значимости:
1)
α = 0,10, тогда P = 0,90;
2)
α = 0,05, тогда P = 0,95 26
;
3)
α = 0,01, тогда P = 0,99.
Число степеней свободы ν определяется по формуле:
ν = k – z – 1,
(63)
где k
– число интервалов;
z
– число параметров, задающих теоретический закон распределения.
Для нормального распределения z = 2, так как нормальное распределение зависит от двух параметров – средней арифметической (
X
) и среднего квадратического отклонения (σ).
Для оценки существенности расхождений расчетное значение χ
2
сравнивают с табличным χ
2
табл
. Расчетное значения критерия должно быть меньше табличного, т.е. χ
2
<χ
2
табл
, в противном случае расхождения между теоретическим и эмпирическим распределением не случайны, а теоретическое распределение не может служить моделью для изучаемого эмпирического распределения.
Использование критерия χ
2
рекомендуется для достаточно больших совокупностей (N>50), при этом частота каждой группы не должна быть менее 5, в противном случае повышается вероятность получения ошибочных выводов.
В нашем примере про ВО для расчета критерия χ
2
построим вспомогательную таблицу 13.
Таблица 13. Вспомогательные расчеты критериев согласия
i
X
i
f
i
m
i
i
i
i
m
m
f
2
)
(
f
i
’
m
i
’
|f
i
’– m
i
’|
1 24,16 – 38,66 5
3,383 0,773 5
3,383 1,617 2
38,66 – 53,16 7
7,707 0,065 12 11,090 0,910 3 53,16 – 67,66 13 10,246 0,740 25 21,336 3,664 4 67,66 – 82,16 4
7,948 1,961 29 29,284 0,284 26
Практически приемлемая вероятность в экономических исследованиях, означающая, что в 5 случаях из 100 может быть отвергнута правильная гипотеза
48 5 82,16 – 96,66 4
3,598 0,045 33 32,882 0,118 6 96,66 – 111,16 2
0,950 1,160 35 33,832 1,168
Итого
35 33,832 4,744
Теперь по формуле (62): χ
2
=4,744, что меньше табличного (Приложение 7) значения
χ
2
табл
=7,8147 при уровне значимости α = 0,05 и числе степеней свободы ν=6–2–1=3, значит с вероятностью 0,95 можно говорить, что в основе эмпирического распределения величины ВО по таможенным постам лежит закон нормального распределения, т.е. выдвинутая гипотеза не отвергается, а расхождения объясняются случайными факторами.
Критерий Романовского К
Р
основан на использовании критерия Пирсона χ
2
, т.е. уже найденных значений χ
2
и числа степеней свободы ν, рассчитывается по формуле (64):
2 2
Р
К
(64)
Он используется в том случае, когда отсутствует таблица значений χ
2
. Если К
Р
< 3, то расхождения между теоретическим и эмпирическим распределением случайны, если К
Р
> 3, то не случайны, и теоретическое распределение не может служить моделью для изучаемого эмпирического распределения.
В нашем примере про ВО по формуле (64):
3
*
2 3
744
,
4
Р
К
= 0,712 < 3, что подтверждает несущественность расхождений между эмпирическими и теоретическими частотами.
Критерий Колмогорова λ основан на определении максимального расхождения между накопленными частотами эмпирического и теоретического распределений (D), рассчитывается по формуле (65)
27
:
N
D /
(65)
Рассчитав значение λ, по таблице P(λ) (см. Приложение 6) определяют вероятность, с которой можно утверждать, что отклонения эмпирических частот от теоретических случайны. Вероятность P(λ) может изменяться от 0 до 1. При P(λ) = 1
(т.е. при λ < 0,3) происходит полное совпадение частот, при P(λ) = 0 – полное расхождение.
В нашем примере про ВО в последних трех столбцах таблицы 13 приведены расчеты накопленных частот и разностей между ними, откуда видно, что в 3-ей группе наблюдается максимальное расхождение (разность) D = 3,664. Тогда по формуле (65):
619
,
0 35
/
664
,
3
. По таблице Приложения 6 находим значение вероятности при λ = 0,6: P = 0,86 (наиболее близкое значение к 0,619), т.е. с вероятностью, близкой к 0,86, можно говорить, что в основе эмпирического
27
Основное условие для использования критерия Колмогорова – достаточно большое число наблюдений (N > 50)
49 распределения величины ВО по таможенным постам лежит закон нормального распределения, а расхождения эмпирического и теоретического распределений носят случайный характер.
Итак, подтвердив правильность выдвинутой гипотезы с помощью известных критериев согласия, можно использовать результаты распределения для практической деятельности. Какое же практическое значение может иметь произведенная проверка гипотезы? Во-первых, соответствие нормальному закону позволяет прогнозировать, какое число таможенных постов (или их доля) попадет в тот или иной интервал значений величины ВО. Во-вторых, нормальное распределение возникает при действии на вариацию изучаемого показателя множества независимых факторов. Из чего следует, что нельзя существенно снизить вариацию величины ВО, воздействуя только на один-два управляемых фактора, скажем число работников таможенного поста или степень технической оснащенности.
Методические указания
Таможенная инспекция провела 1%-ю проверку после выпуска товаров. В результате получен следующий дискретный ряд распределения числа нарушений, выявленных в каждой проверке (табл. 14). Проведем анализ этого ряда распределения.
Таблица 14. Ряд распределения числа нарушений, выявленных таможенной инспекцией
Число нарушений
0 1
2 3
Число проверок
24 4
2 1
Этап 1. Данный в табл. 14 ряд распределения уже ранжирован в порядке возрастания числа нарушений, поэтому переходим сразу к расчету основного обобщающего показателя – среднего числа нарушений. Сначала рассчитаем среднее число нарушений в выборке, а также его дисперсию, для чего построим вспомогательную таблицу 15.
Таблица 15. Ряд распределения числа нарушений, выявленных таможенной инспекцией
Число нарушений
X
Число проверок
f
Xf (Х
-
X
)
2
f
m
m
m
f
2
)
(
f’
m’
|f’– m’|
0 24 0
3,022 21,7 0,244 24 21,7 2,3 1
4 4
1,665 7,7 1,778 28 29,4 1,4 2
2 4
5,413 1,4 0,257 30 30,8 0,8 3
1 3
6,997 0,2 3,200 31 31 0
Итого
31 11 17,097 31 5,479
Среднее число нарушений в выборке по формуле (11), приняв за X число нарушений, а за N – численность выборки n:
X
=
n
Х
= 11/31 = 0,355 (нарушений).
Дисперсию определим по формуле (46):
50
n
X
X
i
2 2
=
31 097
,
17
= 0,552 (нарушений
2
).
Затем определим среднюю ошибку выборки по формуле (33), так как число величин в генеральной совокупности N неизвестно:
=
133
,
0 31 552
,
0
2
n
Предельная ошибка выборки при вероятности 0,95 по формуле (32):
= 1,96*0,133 = 0,261
Доверительный интервал среднего числа нарушений в генеральной совокупности по формуле (35): = 0,355 ± 0,261 или 0,094 0,616 (нарушений), то есть среднее число нарушений по всей совокупности товаров, прошедших через таможенную границу, с вероятностью 0,95 лежит в пределах от 0,094 до 0,616 нарушений в 1 партии.
Найдем еще обобщающий показатель – долю выпущенных товаров без нарушений d (т.е. с числом нарушений X=0). Доля таких товаров в выборке по формуле (6) составила:
d
24/31 = 0,774, или 77,4%.
Дисперсия этой доли по формуле (66)
28
составила:
)
1
(
2
d
d
= 0,774*(1–0,774) = 0,175.
(66)
Средняя ошибка выборки по формуле (33):
=
075
,
0 31 175
,
0
2
n
Предельная ошибка выборки при вероятности 0,95 по формуле (32):
= 1,96*0,075 = 0,147.
Доверительный интервал доли выпущенных товаров без нарушений в генеральной совокупности по формуле (36): d = 0,774 ± 0,147 или 0,627 d 0,921, то есть доля выпущенных товаров без нарушений по всей совокупности товаров, прошедших через таможенную границу, с вероятностью 0,95 лежит в пределах от 62,7% до 92,1%.
Этап 2. Данный ряд распределения не имеет смысла превращать в интервальный в виду очень малой вариации значений признака. Построив график этого распределения (полигон) – рис.
13
, видно, что данное распределение не похоже на нормальное.
Рис. 13. Кривая распределения числа нарушений, выявленных таможенной инспекцией
28
Самостоятельно получить формулу (66) из формулы (46) путем подстановки двух значений признака, равных X
1
= 0 и X
2
= 1 с частотами f
1
= d и f
2
= q, причем d + q = 1
Х
Х
0 5
10 15 20 25 0
1 2
3
51
Этап 3. Из структурных характеристик ряда распределения можно определить только моду: Мо = 0, так как по данным табл. 15 такое число нарушений чаще всего встречается (f=24).
Этап 4. По формуле (42) определим размах вариации: H = 3 – 0 = 3, что характеризует вариацию в 3 нарушения.
По формуле (44) найдем среднее линейное отклонение:
550
,
0 31
/
035
,
17 31 1
355
,
0 3
2 355
,
0 2
4 355
,
0 1
24 355
,
0 0
f
f
X
X
Л
Это означает, что в среднем число нарушений в выборке отклоняется от среднего числа нарушений на 0,55.
Среднее квадратическое отклонение рассчитаем не по формуле (46), а как корень из дисперсии, которая уже была рассчитана нами на 1-м этапе:
743
,
0 552
,
0
, тогда
25
,
1 35
,
1 550
,
0
/
743
,
0
Л
, т.е. в изучаемом распределении наблюдается некоторое число выделяющихся нарушений (с большим числом нарушений, выявленных в одной проверке).
Поскольку квартили на предыдущем этапе не определялись, на данном этапе расчет среднего квартильного расстояния пропускаем.
Теперь рассчитаем относительные показатели вариации:
–
относительный размах вариации по формуле (50):
= 3/0,355 = 8,45;
–
линейный коэффициент вариации по формуле (51):
= 0,550/0,355 = 1,55;
–
квадратический коэффициент вариации по формуле(52):
= 0,743/0,355 = 2,09.
Все расчеты на данном этапе свидетельствуют о значительных размере и интенсивности вариации нарушений, выявленных таможенной инспекцией.
Этап 5. Не имеет практического смысла расчет моментов распределения, так как видно из рис.
13
, что в изучаемом распределении симметрия отсутствует вовсе, поэтому и расчет эксцесса также бесполезен.
Этап 6. Выдвинем гипотезу о соответствии изучаемого распределения распределению Пуассона
29
, которое описывается формулой (67):
!
)
(
X
e
a
x
P
a
X
,
(67) где
P(X)
– вероятность того, что признак примет то или иное значение X;
e = 2,7182
– основание натурального логарифма;
X!
– факториал числа X (т.е. произведение всех целых чисел от 1 до X включительно);
a = X
– средняя арифметическая ряда распределения.
29
Названо по имени французского математика Симеона Пуассона (1781 – 1840), еще называют законом распределения редких явлений; возникает, когда значения признака выражены дискретно и являются результатом какого-либо редко возникающего события среди наблюдаемых единиц, причем с увеличением значений признака вероятность наступления события падает
52
Из формулы (67) видно, что единственным параметром распределения Пуассона является средняя арифметическая величина. Порядок определения теоретических частот этого распределения следующий:
1)
рассчитать среднюю арифметическую ряда, т.е. = a;
2)
рассчитать e
–a
;
3)
для каждого значения X рассчитать теоретическую частоту по формуле (68):
)
(
*
!
X
P
N
x
e
a
N
m
a
x
(68)
Поскольку a =
X
= 0,355 найдем значение e
– 0,355
=0,7012. Затем, подставив в формулу (68) значения X от 0 до 3, вычислим теоретические частоты:
m
0
=
7
,
21
!
0 7012
,
0
*
355
,
0 31 0
(т.к. 0! = 1);
m
1
=
7
,
7
!
1 7012
,
0
*
355
,
0 31 1
;
m
2
=
4
,
1
!
2 7012
,
0
*
355
,
0 31 2
;
m
3
=
2
,
0
!
3 7012
,
0
*
355
,
0 31 3
Полученные теоретические частоты занесем в 5-й столбец табл. 15 и построим график эмпирического и теоретического распределений (рис. 14), из которого видна близость эмпирического и теоретического распределений.
Рис. 14. Эмпирическая и теоретическая (распределение Пуассона) кривые распределения
Проверим выдвинутую гипотезу о соответствии изучаемого распределения закону Пуассона с помощью критериев согласия.
Рассчитаем значение критерия Пирсона χ
2
по формуле (62) в 6-м столбце табл.
15: χ
2
=5,479, что меньше табличного (Приложение 7) значения χ
2
табл
=5,9915 при уровне значимости α = 0,05 и числе степеней свободы ν=4–1–1=2, значит с вероятностью 0,95 можно говорить, что в основе эмпирического распределения лежит закон распределения Пуассона, т.е. выдвинутая гипотеза не отвергается, а расхождения объясняются случайными факторами.
Определим значение критерия Романовского по формуле (64):
2
*
2 2
479
,
5
Р
К
= 1,74 < 3, что подтверждает несущественность расхождений между эмпирическими и теоретическими частотами.
Для расчета критерия Колмогорова в последних трех столбцах таблицы 15 приведены расчеты накопленных частот и разностей между ними, откуда видно, что в
1-ой группе наблюдается максимальное расхождение (разность) D = 2,3. Тогда по
0 5
10 15 20 25 0
1 2
3
Эмпирическое распределение
Распределение
Пуассона
53 формуле (65):
413
,
0 31
/
3
,
2
. По таблице Приложения 6 находим значение вероятности при
λ = 0,4:
P = 0,9972 (наиболее близкое значение к 0,413), т.е. с вероятностью, близкой к единице, можно говорить, что в основе эмпирического распределения величины нарушений, выявленных таможенной инспекцией, лежит закон распределения Пуассона, а расхождения эмпирического и теоретического распределений носят случайный характер.