децентилями.
Если разбить выборку на 100 равных частей, то точки деления — процентили.
Общее название для всех этих точек деления — квантиль. В теории вероятно- стей квантиль порядка
р
непрерывной случайной величины
Х
есть число
p
x
44
такое, что
)
(
)
(
p
x
X
P
x
F
p
p
=
<
=
Выборочная квантиль
∧
p
x
— это точка, левее которой расположено
p
⋅
100
% выборочных данных.
Простейшая мера разброса выборки — размах
,
)
1
(
)
(
x
x
R
n
−
=
равный разности максимальной и минимальной вариант. Этой характеристикой поль- зуются при работе с малыми выборками.
Более точно разброс оценивается с помощью выборочной дисперсии.
Она вычисляется так же, как дисперсия дискретной случайной величины, только вместо вероятностей используются относительные частоты:
(
)
(
)
,
1 2
1 1
2
x
x
n
n
x
x
n
D
j
n
i
k
j
j
i
−
=
−
=
∑
∑
=
=
∧
где
n
— объем выборки,
k
— число различных вариант выборки. Если выборка сгруппирована, то формула принимает вид
(
)
,
1 1
2
∑
=
∧
−
=
k
j
j
j
x
z
n
n
D
где
j
z
— середина
j
-го интервала.
Корень квадратный из выборочной дисперсии называется выборочным средним квадратическим отклонением
∧
σ
(с.к.о.).
Для выборки примера 2 выборочная дисперсия
159 0
=
∧
D
, выборочное с.к.о.
,
339 0
=
σ
∧
т.е. в среднем вес ребенка отличается от среднего веса на
0.339 кг.
В теории вероятностей для нормального закона распределения доказыва- ется правило «трех сигма»:
25 0
x
5 0
x
75 0
x
x
)
(x
f
25 %
25 %
25 %
25 %
Рис. 3.4. Квартили непрерывной случайной величины
45
(
)
997 0
3
=
σ
<
−
x
m
X
P
Это правило приблизительно выполняется для большинства унимодаль- ных законов распределения и для выборок из таких генеральных совокупно- стей: более 99 % выборочных значений лежат в интервале
σ
+
σ
−
∧
∧
3
;
3
x
x
Аналогично для «двух сигма»: более 95 % выборочных значений лежат в ин- тервале
2
;
2
σ
+
σ
−
∧
∧
x
x
Для выборки примера 2 имеем
,
)
943 4
;
549 2
(
)
339 0
3 746 3
;
339 0
3 746 3
(
3
;
3
=
⋅
+
⋅
−
=
σ
+
σ
−
∧
∧
x
x
и 100 % выборочных значений лежат в этом интервале.
По выборке можно сделать вывод о симметричности или несимметрич- ности закона распределения. Закон распределения непрерывной случайной величины
Х
называется симметричным, если график функции плотности веро- ятности
)
(x
f
имеет ось симметрии. Для унимодального симметричного за- кона распределения очевидно равенство моды
М
, медианы
5 0
x
и математи- ческого ожидания
x
m
(рис. 3.5, а). В случае положительной асимметрии
x
m
x
M
<
<
5 0
(рис. 3.5, б); для распределения с отрицательной асимметрией
M
x
m
x
<
<
5 0
(рис. 3.5, в).
x
m
x
M
=
=
5 0
x
)
(x
f
x
m
x
)
(x
f
M
5 0
x
а
б
в
x
m
x
)
(x
f
M
5 0
x
Рис. 3.5. Плотность распределения: а) симметричного; б) с положительной асимметрией; в) с отрицательной асимметрией
46
Поэтому выборочную разность
∧
− M
x
можно использовать в качестве меры асимметрии: чем больше она по абсолютной величине, тем больше асимметрия. Асимметрия будет положительной, если
,
∧
> M
x
и отрицатель- ной, если
∧
< M
x
Для получения безразмерной меры эту разность делят на
∧
σ
и получают первый коэффициент асимметрии Пирсона:
∧
∧
σ
−
=
M
x
A
1
Для выборки примера 2 значение этого коэффициента
01 0
339 0
75 3
746 3
1
−
=
−
=
A
близко к нулю, т.е. можно принять, что наша выборка извлечена из генераль- ной совокупности с симметричным законом распределения.
47
4. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ И ВАЖНЫЕ ЗАКОНЫ
РАСПРЕДЕЛЕНИЯ
4.1. Теорема Чебышева и теорема Бернулли
Почему по выборке мы можем делать выводы о свойствах генеральной совокупности? Эти выводы опираются на закон больших чисел. Закон боль- ших чисел — это группа теорем, которые формулируют математические зако- номерности, проявляющиеся при многократном наблюдении случайных явле- ний.
Для независимых случайных величин общий закон больших чисел выра- жается теоремой Чебышева (1867 г.)
Теорема Чебышева. Пусть
,
...,
,
,
2 1
n
X
X
X
последовательность неза- висимых случайных величин с математическими ожиданиями
,
...,
,
,
2 1
n
m
m
m
и дисперсиями
,
...,
,
,
2 1
n
D
D
D
, ограниченными одной и той же константой
...).
,
2
,
1
,
(
=
≤
i
c
D
i
Тогда для любого
0
>
ε
.
m
n
X
n
P
lim
n
i
n
i
i
i
n
1 1
1 1
1
=
ε
<
−
∑
∑
=
=
∞
→
Иначе это можно записать:
∑
∑
=
∞
→
=
→
n
i
i
n
P
n
i
i
m
n
X
n
1 1
,
1 1
т.е. теорема Чебышева устанавливает, что при достаточно больших
n
с вероят- ностью, близкой к единице, среднее арифметическое случайных величин
)
(
1 2
1
n
X
X
X
n
X
+
+
+
=
как угодно мало колеблется около постоянного числа
)
(
1 2
1
n
m
m
m
n
+
+
+
— среднего арифметического математических ожиданий этих случайных величин.
Проводя анализ выборочных данных, мы рассматриваем независимые статистические копии одной и той же случайной величины
Х
. Поэтому, со- гласно теореме Чебышева, среднее арифметическое таких статистических ко- пий при большом числе слагаемых оказывается практически постоянной (не случайной) величиной, которая и указывает нам «центр» генеральной сово- купности.
Теорема Бернулли впервые была сформулирована в XVIII веке Яковом
Бернулли. Сейчас принято доказывать ее как следствие теоремы Чебышева.
Рассмотрим последовательность испытаний по схеме Бернулли, т.е. по- следовательность независимых испытаний, в каждом из которых вероятность интересующего нас случайного события
А
(«успеха») одна и та же и равна
р
Обозначим относительную частоту успеха (отношение числа успешных испы-
48
таний к общему их числу), в серии из
n
испытаний
∗
p
В этих условиях раз- ность между относительной частотой
∗
p
события
А
и вероятностью
р
этого события становится сколь угодно малой, если число испытаний неограниченно возрастает.
Теорема Бернулли. В последовательности испытаний по схеме Бернулли относительная частота события сходится по вероятности к вероятности этого события:
p
p
n
P
∞
→
∗
→
Теорема Бернулли позволяет обосновывать близость гистограммы, по- строенной по выборке большого объема, к теоретической плотности распреде- ления (плотности распределения генеральной совокупности). Отметим, что сама эта теорема не гарантирует устойчивости относительных частот в кон- кретной практической задаче, она позволяет сделать вывод, если такая устой- чивость частот имеется (выполняются условия схемы испытаний Бернулли).
4.2. Нормальное распределение и центральная предельная
теорема
Напомним, что случайная величина
Х
называется распределенной по нормальному закону с параметрами
а
и
σ
(будем писать
)
,
(
σ
a
N
X
), если функция ее плотности распределения имеет вид
).
;
(
,
2 1
)
(
2 2
2
)
(
∞
+
−∞
∈
⋅
σ
⋅
π
=
σ
−
−
x
e
x
f
a
x
При этом математическое ожидание
,
)
(
a
x
M
=
дисперсия
)
(
2
σ
=
x
D
Гра- фик плотности распределения симметричен относительно прямой
a
x
=
и имеет точки перегиба при
σ
±
= a
x
(рис. 4.1).
Рис. 4.1. График плотности нормального распределения
)
,
(
σ
a
N
X
)
(x
f
x
σ
−
a
σ
+
a
a
49
Нормальное распределение с параметрами
1
,
0
=
σ
=
a
называется
стандартным нормальным распределением. Нормальная случайная величина
)
,
(
σ
a
N
X
связана со стандартной
)
1
,
0
(
0
N
X
линейной зависимостью:
0
X
a
X
σ
+
=
При вычислении вероятностей, связанных с нормальным законом рас- пределения, мы будем пользоваться функцией Лапласа
),
(x
Φ
значения кото- рой табулированы (приложение 1):
2 1
)
(
0 2
2
dt
e
x
x
t
∫
−
π
=
Φ
В курсе теории вероятностей доказываются свойства функции Лапласа: а)
;
0
)
0
(
=
Φ
б)
)
(
)
(
x
x
Φ
−
=
−
Φ
(нечетность); в)
2 1
)
(
=
+∞
Φ
Расчет вероятностей для случайной величины
)
,
(
σ
a
N
X
ведется по формуле
,
)
(
σ
−
α
Φ
−
σ
−
β
Φ
=
β
<
<
α
a
a
X
P
(4.1) которая в частном случае
)
,
(
ε
+
=
β
ε
−
=
α
a
a
принимает вид:
2
)
(
)
(
σ
ε
Φ
=
ε
<
−
=
ε
+
<
<
ε
−
a
X
P
a
X
a
P
(4.2)
При
σ
=
ε 3
получим
1 49865 0
2
)
3
(
2
)
3
(
≈
⋅
=
Φ
=
σ
<
− a
x
P
— пра- вило «трех сигма».
Пример 1. На рынок поступила крупная партия говядины. Предполагает- ся, что вес туш — случайная величина, подчиняющаяся нормальному закону распределения с математическим ожиданием
950
=
a
кг и средним квадрати- ческим отклонением
150
=
σ
кг.
Определите вероятность того, что вес случайно отобранной туши: а) окажется больше 1250 кг; б) окажется меньше 850 кг; в) будет находиться между 800 и 1300 кг; г) отклонится от математического ожидания меньше, чем на 50 кг; д) отклонится от математического ожидания больше, чем на 50 кг.
Найдите границы, в которых отклонение веса случайно отобранной туши от своего математического ожидания не превысит утроенного среднего квад- ратического отклонения (проиллюстрируйте правило «3 сигма»).
50
Решение. В случае а нас интересует вероятность того, что вес
Х
случайно отобранной туши окажется в интервале
).
;
1250
(
+∞
По формуле (4.1) имеем:
−
−
∞
+
Φ
=
+∞
<
<
150 950
)
1250
(
X
P
023 0
477 0
5 0
)
2
(
)
(
150 950 1250
=
−
=
Φ
−
+∞
Φ
=
−
Φ
−
— здесь мы воспользовались таблицами функции Лапласа (приложение 1) и ее свойством в (с. 49).
В случае б применим формулу (2.1) при
,
950
,
850
,
=
=
β
−∞
=
α
a
−
−
Φ
=
−
∞
−
Φ
−
−
Φ
=
<
<
−∞
=
σ
3 2
150 950 150 950 850
)
850
(
:
150
X
P
251 0
249 0
5 0
)
(
3 2
)
(
=
−
=
+∞
Φ
+
Φ
−
=
−∞
Φ
−
— здесь мы применили свойство нечетности функции Лапласа.
В случае в:
=
−
Φ
−
−
Φ
=
<
<
150 950 800 150 950 1300
)
1300 800
(
X
P
83 0
34 0
49 0
)
1
(
)
33 2
(
=
+
=
−
Φ
−
Φ
=
— вероятность того, что вес случай- но отобранной туши окажется в интервале от 800 до 1300 кг, составляет 0.83.
Вероятность того, что вес случайно отобранной туши отклонится от ма- тематического ожидания меньше, чем на 50 кг (случай г), определим по фор- муле (4.2):
258 0
129 0
2
)
33 0
(
2 150 50 2
)
50 950
(
=
⋅
=
Φ
=
Φ
=
<
−
X
P
Найдем вероятность того, что вес случайно отобранной туши отклонится от математического ожидания больше, чем на 50 кг. По свойствам вероятно- стей противоположных событий:
741 0
259 0
1
)
50 950
(
1
)
50 950
(
=
−
=
<
−
−
=
>
−
X
P
X
P
Проиллюстрируем правило «3 сигма»: если случайная величина
)
,
(
σ
a
N
X
, то
9973 0
)
3
(
2
)
3
(
=
Φ
=
σ
<
− a
X
P
— вероятность того, что отклонение случайной величины от своего математического ожидания по аб- солютной величине превысит утроенное среднее квадратическое отклонение, очень мала и равна 0.0027. Другими словами, лишь в 27 случаях из 10000 слу- чайная величина
Х
в результате испытания может оказаться вне интервала
).
3
;
3
(
σ
+
σ
−
a
a
Такие события считаются практически невозможными. В нашем случае
;
150 3
950
(
)
3
;
3
(
⋅
−
=
σ
+
σ
−
a
a
)
1400
;
500
(
)
150 3
950
=
⋅
+
и можно быть практически уверенным, что вес случайно отобранной туши не выйдет за пределы от 500 до 1400 кг.
51
Почему нормальный закон распределения является одним из важнейших в теории вероятностей и математической статистике? Объяснение этому дает
центральная предельная теорема. Согласно ей сумма большого количества независимых случайных величин, каждая из которых оказывает незначитель- ное влияние на всю сумму, распределена приблизительно по нормальному закону. А
почти все явления случайного характера, встречающиеся на практи- ке, представляют собой результат наложения множества отдельных влияний: тепловое движение электронов в проводнике, атмосферные помехи, волны в океане — слагаются под воздействием многих случайных возмущений. По- этому независимо от вида плотности вероятностей отдельных составляющих
(а часто они и неизвестны) можно ожидать, что плотность распределения на- блюдаемого возмущения будет нормальной. Центральная предельная теорема дает математическое обоснование этому предположению, а эксперименты практически всегда подтверждают его правильность.
Теорема (центральная предельная теорема). Пусть
,
...,
,
,
2 1
nXXXне- зависимые одинаково распределенные случайные величины с математическим ожиданием
m и конечной дисперсией
2
σ
Тогда при неограниченном увели- чении
n закон распределения случайной величины
⋅
−
σ
∑
=
niimnXn1 1
не- ограниченно приближается к стандартному нормальному закону.
Таким образом, рассматривая сумму независимых одинаково распреде- ленных случайных величин, мы можем считать ее распределенной приблизи- тельно по нормальному закону
).
,
(
σ
⋅
⋅
nmnNСледствия из центральной предельной теоремы (теоремы Муавра-
Лапласа) позволяют применять нормальный закон распределения к частоте
(относительной частоте) события, наблюдавшегося в серии из
n независимых опытов. Пусть
Х — число успехов, наблюдавшихся в серии n испытаний Бер- нулли (частота успехов). Величину
Х можно рассматривать как сумму
∑
=
=
niiXX1
независимых случайных величин
iX, принимающих значение 1, если в
i-ом испытании наблюдался успех, и 0 — в противном случае. Случай- ные величины
iX независимы и одинаково распределены (по закону Бернул- ли) с математическим ожиданием
р (вероятность успеха) и дисперсией
).
1
(
pp−
⋅
Тогда случайную величину
Х можно считать распределенной при- близительно нормально с параметрами
npa=
и
)
1
(
pnp−
=
σ
Это позво- ляет рассчитывать вероятности, связанные с частотой, по формулам (4.1) и (4.2).
52
Эти формулы применимы и к относительной частоте
,
∗
p которую при большом числе опытов можно считать распределенной приближенно по нор- мальному закону:
)
1
(
,
−
⋅
∗
npppNpПример 2. Подлежат исследованию 400 проб руды. Вероятность про- мышленного содержания металла в каждой пробе для всех проб одинакова и равна 0.8. Найти вероятность того, что доля проб с промышленным содержа- нием металла отклонится от вероятности промышленного содержания металла в каждой пробе не более, чем на 0.05.
Решение. Математической моделью задачи является схема из
400
=
nиспытаний Бернулли с вероятностью успеха
8 0
=
p Доля проб с промыш- ленным содержанием металла — это относительная частота успехов
∗
p (ко- личество успехов, деленное на количество испытаний). В задаче требуется определить вероятность отклонения частоты
∗
p от ее математического ожи- дания
ppM=
∗
)
(
на заданную величину
,
05 0
=
ε
т.е.
?
)
05 0
(
=
<
−
∗
ppPСчитая случайную величину
∗
p распределенной нормально с парамет- рами
8 0
=
=
pa и
,
02 0
400 2
0 8
0
)
1
(
=
⋅
=
−
=
σ
npp применим формулу
(4.2):
988 0
494 0
2
)
5 2
(
2 02 0
05 0
2
)
05 0
(
=
⋅
=
Φ
=
Φ
=
<
−
∗
ppPВероятность того, что доля проб с промышленным содержанием металла отклонится от вероятности промышленного содержания металла в каждой пробе не более, чем на 0.05, составляет 0.988.
Проиллюстрируем решение задачи графически. Мы рассматривали нор- мально распределенную случайную величину
0.02)
,
8 0
(
Np∗
Применяя формулу (4.2), мы преобразовали
∗
p к стандартной нормальной величине
),
1
,
0
(
02 0
8 0
Npz−
=
∗
график плотности
которой симметричен относительно оси ординат, а точка
0
=
z соответствует
8 0
=
∗
p Площадь заштрихован- ной области составляет 98.8 % от всей площади под кривой плотности распре-
53
деления, а интервал (–2.5; 2.5) для случайной величины z соответствует интер- валу (0.8–0.05; 0.8+0.05) для случайной величины
∗
p (рис. 4.2).