4.3. Распределения математической статистики
4.3.1. Стандартное нормальное распределение
Рассмотрим случайную величину
Х
, распределенную по закону
).
,
(
σ
a
N
Стандартное нормальное распределение
)
,
(
N
U
1 0
получим с помощью преобразования
.
a
X
U
σ
−
=
В статистике квантиль порядка
р
для этого распределения называется также правосторонней критической точкой
,
кр
u
соответствующей вероятности
p
−
=
α 1
(рис. 4.3, а). Доля площади, лежащая правее точки кр
u
составляет
α
⋅
100
% (в качестве
α
рассматрива- ются обычно малые вероятности 0.05, 0.01 и т.п.). Как найти критическую точку, пользуясь таблицами функции Лапласа (приложение 1)? Значение функции Лапласа
)
(x
Φ
равно площади под кривой плотности стандартного распределения на промежутке
)
;
0
( x
(рис. 4.3, б). Поэтому значение критиче- ской точки
,
кр
u
соответствующее заданному
,
α
находится из уравнения
α
−
=
Φ
2 1
)
(
кр
u
(рис. 4.3, в).
Пример 1. Пользуясь таблицей значений функции Лапласа, найти крити- ческую точку, соответствующую вероятности
05 0
=
α
Критическая точка кр
u
является границей, правее которой лежит 5 % площади под кривой плотности стандартного нормального распределения.
z
Рис. 4.2. Доля проб с заданным отклонением
)
(z
ϕ
z
0 2.5
-2.5
98.8 %
54
Значит площадь под этой кривой на интервале
)
;
0
(
кр
u
составляет 45 % и в таблице значений функции Лапласа (приложение 1) ищем значение
45 0
)
(
=
Φ x
Это значение достигается при
,
65 1
=
x
т.е. критическая точка
65 1
кр
=
u
(с точностью до 0.01).
4.3.2. Распределение «хи-квадрат»
Пусть
k
U
U
U
...,
,
,
2 1
— независимые стандартные нормальные величи- ны. Распределение случайной величины
2 2
2 2
1
k
U
U
U
K
+
+
+
=
называется распределением «хи-квадрат» с
k
степенями свободы (пишут
2
)
(
k
K
χ
). Это унимодальное распределение с положительной асимметрией и следующими характеристиками: мода
,
2
−
= k
M
математическое ожидание
,
k
m
=
дис- персия
k
D 2
=
(рис. 4.4). При достаточно большом значении параметра
k
распределение
2
)
(k
χ
имеет приближенно нормальное распределение с пара- метрами
).
2
,
(
k
k
N
При решении задач математической статистики используются критические точки
,
2
)
(k
χ
зависящие от заданной вероятности
α
и числа сте- пеней свободы
k
(приложение 2). Критическая точка
)
;
(
2 2
кр
α
χ
=
χ
k
являет- ся границей области, правее которой лежит
α
⋅
100
% площади под кривой плотности распределения. Вероятность того, что значение случайной величи- ны
2
)
(
k
K
χ
при испытаниях попадет правее точки
,
2
кр
χ
не превышает
:
α
)
(
2
кр
α
≤
χ
≥
K
P
Например, для случайной величины
2
)
20
(
χ
K
зададим вероятность
05 0
=
α
По таблице критических точек распределения «хи-
Рис. 4.3. Иллюстрация к работе с таблицами Лапласа: а) критическая точка, соответствующая вероятности
;
α
б) значение функции Лапласа;
в) связь между критической точкой и значением функции Лапласа
p
−
=
α 1
(
0
кр
u
р
а
(
0
x
р
б
)
(x
Φ
(
0
кр
u
р
в
α
)
(
кр
u
Φ
α
−
2 1
55
квадрат» (приложение 2) находим
=
χ
=
χ
)
05 0
,
20
(
2 2
кр
.
.4 31
Значит вероят- ность этой случайной величине
K
принять значение, большее 31.4, меньше
0.05 (рис. 4.4).
4.3.3. Распределение Стьюдента
Пусть
U
и
K
— независимые случайные величины, причем
U
имеет стандартное нормальное распределение
),
1
,
0
(
N
а
K
— распределение
2
)
(k
χ
с
k
степенями свободы. Распределение величины
k
K
U
T
=
называется распреде- лением Стьюдента с k степенями свободы. График плотности этого распреде- ления симметричен относительно оси ординат и напоминает график плотности стандартного нормального распределения (рис. 4.5), но отличается более «мас- сивными хвостами» (т.е. значения плотности распределения Стьюдента мед- леннее убывают при удалении от начала координат).
Математическое ожидание распределения
Стьюдента
,
0
)
(
=
T
M
дисперсия
),
2
(
2 2
1
)
(
>
−
+
=
k
k
T
D
и для значений
30
>
k
рас- пределение Стьюдента практически не отличается от стандартного нор- мального.
0 4
=
k
10
=
k
20
=
k
05 0
=
α
4 31 2
кр
=
χ
)
(
2
z
f
χ
z
Рис. 4.4. График плотности распределения
2
)
(k
χ
при различных значениях числа степеней свободы
k
56
Критические точки распределения Стьюдента (приложение 3) могут быть односторонними (рис.4.6,
а) и двусторонними (рис. 4.6,
б).
Например, для случайной величины
Х, распределенной по закону Стью- дента с
9
=
k степенями свободы при
05 0
=
α
находим по таблице (прило- жение 3) одностороннюю критическую точку
83 1
)
05 0
;
9
(
)
,
(
кр
=
=
α
=
tkttЭто означает, что при испытаниях вероятность наблюдать значение этой слу- чайной величины, большее
,
83 1
кр
=
t меньшее
:
05 0
=
α
,
)
(
кр
α
<
>
tXPт.е. площадь под кривой плотности распределения,
лежащая правее критиче- ской точки, составляет
%
100
α
⋅
от всей площади (рис. 4.6,
а).
Двусторонняя критическая точка обозначается
( )
α
=
,
кр
ktt и для нее
,
)
(
кр
α
=
>
tXP0
х )
(
xfРис. 4.5. Графики плотности нормального распределения (пунктир) и распределения Стьюдента (сплошная линия)
0 кр
tx)
(
xfTα
а 0
кр
tx )
(
xfT2
α
б2
α
Рис. 4.6. Односторонняя (
а) и двусторонняя (
б) критическая точка кр
tраспределения Стьюдента кр
t−
57
т.е. величина
α
равна вероятности наблюдать значение случайной величины
Х
вне интервала
)
;
(
кр кр
t
t
−
(рис. 4.6, б).
4.3.4. Распределение Фишера
Пусть
1
K
и
2
K
независимые случайные величины, распределенные по закону
2
χ
с числом степеней свободы
1
k
и
2
k
соответственно. Распределе- ние случайной величины
2 2
1 1
k
K
k
K
F
=
называется распределением Фишера с
1
k
и
2
k
степенями свободы. Распреде- ление не является симметричным, его математическое ожидание близко к единице
2
,
2
)
(
2 2
2
>
−
=
k
k
k
F
M
(рис. 4.7).
Критические точки распределения Фишера (приложение 4) имеют следующий смысл. Если
Х
— случайная величина, распределенная по закону
Фишера с параметрами
1
k
и
2
k
))
,
(
(
2 1
k
k
F
X
, и задана вероятность
α
, то при проведении наблюдений вероятность получить значение случайной величины
Х
, лежащее правее критической точки
)
;
,
(
2 1
кр
α
=
k
k
F
F
меньше
:
α
)
(
кр
α
<
> F
X
P
Например, пусть
)
10
,
8
(
F
X
и
01 0
=
α
Критическая точка
,
06 5
)
01 0
;
10
,
8
(
кр
=
= F
F
т.е. вероятность получить значение
Х
, большее
5.06, меньше 0.01. В среднем в 99 случаях из 100 будем наблюдать значения, меньшие 5.06.
0
)
(x
f
F
x
Рис. 4.7. Плотность распределения Фишера для типичных значений параметров
1
k
и
2
k
58
5. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ 5.1. Точечная оценка и ее свойства Распределение случайной величины (распределение генеральной сово- купности) характеризуется обычно рядом числовых характеристик: для нор- мального распределения
)
,
(
σ
aN— это математическое ожидание
a и сред- нее квадратическое отклонение
;
σ
для равномерного распределения
)
,
(
baR— это границы интервала
],
;
[
ba в котором наблюдаются значения этой случайной величины.
Такие числовые характеристики, как правило, неиз- вестные, называются
параметрами генеральной совокупности.
Оценка пара- метра — соответствующая числовая характеристика, рассчитанная по выбор- ке. Когда оценка определяется одним числом, она называется
точечной оцен- кой.
Пусть закон распределения генеральной совокупности
Х известен с точ- ностью до параметра
θ
Построим точечную оценку параметра
θ
по выборке
nxxx...,
,
,
2 1
как значение некоторой функции
).
...,
,
,
(
2 1
nxxx∧
∧
θ
=
θ
Напри- мер, среднее арифметическое выборочных значений служит оценкой матема- тического ожидания. Так как выборочные значения случайны, то эту функцию можно рассматривать как случайную величину
),
...,
,
,
(
2 1
nXXX∧
∧
θ
=
θ
где
nXXX...,
,
,
2 1
— независимые статистические копии случайной величины
ХКакими свойствами должна обладать случайная величина
∧
θ
, чтобы получен- ная оценка была «хорошей»?
Желательным требованием к оценке является отсутствие систематиче- ской ошибки, т.е. при многократном использовании вместо параметра
θ
его оценки
∧
θ
среднее значение ошибки приближения
∧
θ
≈
θ
равно нулю — это свойство несмещенности оценки.
Определение. Оценка
∧
θ
называется
несмещенной, если ее математиче- ское ожидание равно истинному значению оцениваемого параметра:
)
(
θ
=
θ
∧
MВыборочное среднее арифметическое
∑
=
=
niiXnX1 1
является несме- щенной оценкой математического ожидания, а выборочная дисперсия
59
∑
=
∧
−
=
n
i
i
X
X
n
D
1 2
)
(
1
— смещенная оценка генеральной дисперсии
D
. Не- смещенной оценкой генеральной дисперсии является оценка
∑
=
−
−
=
n
i
i
X
X
n
S
1 2
2
)
(
1 1
Второе требование к оценке — ее состоятельность — означает улучше- ние оценки с увеличением объема выборки.
Определение. Оценка
)
...,
,
,
(
2 1
n
X
X
X
∧
θ
называется состоятельной, ес- ли она сходится по вероятности к оцениваемому параметру
θ
при
:
∞
→
n
θ
→
θ
∞
→
∧
n
P
Сходимость по вероятности означает, что при большом объеме выборки вероятность больших отклонений оценки от истинного значения мала.
Третье требование позволяет выбрать лучшую оценку из нескольких оценок одного и того же параметра.
Определение. Несмещенная оценка является эффективной, если она имеет наименьшую среди всех несмещенных оценок дисперсию.
Это означает, что эффективная оценка обладает минимальным рассеива- нием относительно истинного значения параметра. Заметим, что эффективная оценка существует не всегда, но из двух оценок обычно можно выбрать более эффективную, т.е. с меньшей дисперсией. Например, для неизвестного пара- метра
a
нормальной генеральной совокупности
)
,
(
σ
a
N
в качестве несме- щенной оценки можно взять и выборочное среднее арифметическое, и выбо- рочную медиану. Но дисперсия выборочной медианы примерно в 1.6 раза больше, чем дисперсия среднего арифметического. Поэтому более эффектив- ной оценкой является выборочное среднее арифметическое.
5.2. Интервальное оценивание параметров распределения
5.2.1. Доверительный интервал и доверительная вероятность
Рассчитанная по выборке точечная оценка
∧
θ
параметра
θ
является приближенным значением
θ
. Насколько велико отклонение этого приближе- ния от истинного значения? Можно ли доверять этой оценке? Мерой нашего доверия оценке будем считать вероятность
γ
того, что погрешность оценки
|
|
∧
θ
−
θ
не превысит заданной точности
:
ε
|
|
γ
=
ε
<
θ
−
θ
∧
P
(5.1)
60
Это равенство иначе можно записать так:
,
)
(
γ
=
ε
+
θ
<
θ
<
ε
−
θ
∧
∧
P
т.е. интервал вида
)
;
(
ε
+
θ
ε
−
θ
∧
∧
с заранее заданной вероятностью
γ
«накрывает» истинное значение параметра
θ
При этом заранее выбранная вероятность
γ
называется доверительной вероятностью (или надежностью), а сам интер- вал
)
;
(
ε
+
θ
ε
−
θ
∧
∧
— доверительным интервалом (или интервальной оцен- кой) для параметра
θ
На практике выбирают доверительную вероятность
γ
из достаточно близких к единице значений
99 0
,
95 0
,
9 0
=
γ
=
γ
=
γ
и т.д. Затем по выбо- рочным данным находят точечную оценку
∧
θ
и точность оценки
ε
После этого определяют границы доверительного интервала
)
;
(
ε
+
θ
ε
−
θ
∧
∧
Поступая таким образом, мы будем ошибаться при многократном прове- дении испытаний примерно в
%
100
)
1
(
⋅
γ
−
случаев. Например, если
,
997 0
=
γ
то ошибочное решение будет приниматься примерно 3 раза на
1000 опытов.
Отметим, что чем уже доверительный интервал для оценки неизвестного параметра, тем лучше. Длина доверительного интервала существенно зависит от объема выборки
n
(уменьшается с ростом
n
) и от величины доверительной вероятности
γ
(увеличивается с приближением
γ
к единице).
5.2.2. Интервальное оценивание центра генеральной совокупности
Рассмотрим вначале случай, когда выборка объема
n
извлечена из нор- мальной генеральной совокупности
)
,
(
σ
a
N
X
с неизвестным параметром
a
и известным
σ
Параметр
a
является математическим ожиданием (гене- ральным средним) случайной величины
Х
. В качестве точечной оценки пара- метра
a
возьмем выборочное среднее:
x
a
=
∧
Для уточнения приближенного равенства
x
a
≈
построим доверительный интервал, накрывающий параметр
a
с заданной доверительной вероятностью
γ
Если выборка объема
n
извлекается из нормальной генеральной сово- купности
),
,
(
σ
a
N
то статистика
∑
=
=
n
i
i
X
n
X
1 1
имеет нормальное распреде-
61
ление с параметрами:
,
σ
n
a
N
X
Поэтому доверительная вероятность
γ
удовлетворяет соотношению (используем формулу (4.2)):
(
)
2
)
(
2
|
|
|
|
σ
⋅
ε
Φ
=
σ
ε
Φ
=
ε
<
−
=
ε
<
−
=
γ
∧
n
X
a
X
P
a
a
P
(5.2)
В этом соотношении неизвестной величиной является точность оценки
ε
Обозначим
,
кр
σ
ε
=
n
u
отсюда кр
n
u
σ
⋅
=
ε
(5.3)
Значение кр
u
найдем с помощью таблицы функции Лапласа (приложе- ние 1), учитывая, что
2
)
(
кр
γ
=
Φ u
Доверительный интервал для генерального среднего будет иметь вид
;
кр кр
σ
⋅
+
σ
⋅
−
n
u
x
n
u
x
(5.4)
Этот метод построения доверительного интервала применяется и в слу- чае, если генеральная совокупность
Х
не является нормальной. Согласно цен- тральной предельной теореме, для выборки достаточно большого объема вы- борочное среднее
X
будет иметь приближенно нормальное распределение с параметрами
a
X
M
=
)
(
и
,
)
(
n
X
σ
=
σ
где
a
и
σ
— соответствующие параметры генеральной совокупности. В этом случае для построения довери- тельного интервала используют формулу (5.4), определяя значение кр
u
по таблицам функции Лапласа, если
30
>
n
При
30
≤
n
значение кр
u
заме- няют на
,
кр
t
которое определяют по таблице распределения Стьюдента (при- ложение 3), и формула (5.4) принимает вид:
,
;
кр кр
σ
⋅
+
σ
⋅
−
n
t
x
n
t
x
(5.5) где
γ
−
=
α
−
=
α
=
1
,
1
),
;
(
кр
n
k
k
t
t
(область двусторонняя).
Если значение параметра
σ
неизвестно, то доверительный интервал строят по формуле (5.5), заменяя параметр
σ
с его оценкой
62
(
)
1 1
1 2
∑
=
−
−
=
n
i
i
x
x
n
s
Величина
n
σ
называется средней ошибкой выборки и зависит от спо- соба отбора: в случае конечной генеральной совокупности объема
N
вносится
«поправка на бесповторность отбора», равная
N
n
−
1
(табл. 5.1).
Таблица 5.1
Средняя ошибка выборки для генерального среднего
Генеральная совокупность
Бесконечная
Конечная объема
N
Тип отбора
Повторный
Бесповторный
Средняя ошиб- ка выборки
n
σ
N
n
n
−
⋅
σ
1
Пример 1
. Служба контроля Энергосбыта провела выборочную проверку расхода электроэнергии жителями одного из многоквартирных домов. С по- мощью случайного отбора было выбрано 10 квартир и определен расход элек- троэнергии в течение одного из летних месяцев
)
(
ч кВт
⋅
: 125, 78, 102, 140, 90,
45, 50, 125, 115, 112.
С вероятностью 0.95 определите доверительный интервал для среднего расхода электроэнергии на одну квартиру во всем доме при условии, что отбор был: а) повторным; б) бесповторным, и в доме имеется 70 квартир.
Решение
. По условию задачи объем выборки
,
10
=
n
т.е. выборка малая.
В случае повторного отбора найдем границы доверительного интервала для генерального среднего по формуле (5.5), считая
:
s
≈
σ
;
кр кр
⋅
+
⋅
−
n
s
t
x
n
s
t
x
Найдем выборочное среднее арифметическое:
2 98
)
112 115 125 50 45 90 140 102 78 125
(
10 1
1 1
=
+
+
+
+
+
+
+
+
+
=
=
∑
=
n
i
i
x
n
x
и несмещенную оценку дисперсии
(
+
−
+
−
=
−
−
=
∑
=
2 1
2 2
2
)
2 98 78
(
)
2 98 125
(
9 1
)
(
1 1
n
i
i
x
x
n
s
63
+
−
+
−
+
−
+
−
+
2 2
2 2
)
2 98 45
(
)
2 98 90
(
)
2 98 140
(
)
2 98 102
(
)
29 1033
)
2 98 112
(
)
2 98 115
(
)
2 98 125
(
)
2 98 50
(
2 2
2 2
=
−
+
−
+
−
+
−
+
Тогда оценка среднего квадратического отклонения
σ
равна
14 32 29 1033 2
=
=
= s
s
По таблице распределения Стьюдента (приложение 3) найдем значение
( )
k
t
t
α
=
;
кр для двусторонней критической области. Число степеней свободы
k
здесь равно
,
9 1
=
−
= n
k
а вероятность
05 0
1
=
γ
−
=
α
Тогда
( )
k
t
t
26 2
;
кр
=
α
=
(двусторонняя область).
При повторном случайном отборе средняя ошибка выборки равна
,
16 10 10 14 32
=
=
≈
σ
n
s
n
а предельная ошибка
,
97 22 16 10 26 2
кр
=
⋅
=
σ
⋅
=
ε
n
t
т.е. доверительный интервал имеет гра- ницы
).
17 121
;
63 75
(
)
97 22 2
98
;
97 22 2
98
(
)
;
(
=
+
−
=
ε
+
ε
− x
x
При условии, что отбор квартир был повторным, с вероятностью 0.95 можно ожидать, что средний расход электроэнергии на одну квартиру во всем доме находится в интервале от 75.63 ч
кВт
⋅
до 121.17 ч
кВт
⋅
Найдем теперь границы доверительного интервала, считая отбор беспо- вторным. Предельную ошибку
ε
определим с учетом того, что генеральная совокупность конечна и имеет объем
N
(табл. 5.1).
1
кр
N
n
n
s
t
−
⋅
⋅
=
ε
Из условия задачи
,
95 0
,
70
,
10
,
14 32
,
2 98
=
γ
=
=
=
=
N
n
s
x
26 2
)
05 0
;
9
(
кр кр
=
= t
t
Отсюда предельная ошибка выборки
27 21 70 10 1
10 14 32 26 2
=
−
⋅
⋅
=
ε
и доверительный интервал имеет границы
).
47 119
;
93 76
(
)
27 21 2
98
;
27 21 2
98
(
)
;
(
=
+
−
=
ε
+
ε
− x
x
При условии, что отбор квартир был бесповторным, с вероятностью 0.95 можно утверждать, что средний расход электроэнергии на одну квартиру во всем доме находится в интервале от 76.93 ч
кВт
⋅
до 119.47 ч
кВт
⋅
Формула (5.3) позволяет при заданной доверительной вероятности
γ
и требуемой точности
ε
определить объем выборки
n
, учитывая тип отбора данных.
64
Пример 4. С помощью случайного повторного отбора определяется сред- ний стаж работы служащих фирмы. Предполагается, что он подчиняется нор- мальному закону распределения. Каким должен быть объем выборки, чтобы с доверительной вероятностью 0.95 можно было утверждать, что, принимая
полученный средний стаж работы за истинный, совершается погрешность, не превышающая 0.5 года, если стандартное отклонение
σ
равно 2.7 года?
Решение. По условию
95 0
2,7,
,
5 0
=
γ
=
σ
=
ε
и требуется найти объ-
ём выборки n при повторном отборе. В этом случае
,
)
(
2
кр
γ
=
Φ
uгде кр
σ
ε
=
nu По таблице функции Лапласа (приложение 1) найдем, при каком кр
u значение
475 0
2
)
(
кр
=
γ
=
Φ
u Получим
96 1
кр
=
u Отсюда необходи- мый объем выборки
02 112 5
0 7
2 96 1
2 2
кр
=
⋅
=
ε
σ
⋅
=
unУчитывая, что необходимо не превышать заданную ошибку, округляем результат до большего целого:
113
=
nИтак, чтобы с вероятностью 0.95 и точностью
5 0
=
ε
года определить средний стаж работы в фирме, требуется опросить не менее 113 служащих.