Главная страница

Лекции по теории вероятности. Лекции Тер. Вер.. Лекция 1 Случайные события


Скачать 1.66 Mb.
НазваниеЛекция 1 Случайные события
АнкорЛекции по теории вероятности
Дата13.04.2022
Размер1.66 Mb.
Формат файлаpdf
Имя файлаЛекции Тер. Вер..pdf
ТипЛекция
#470380
страница21 из 21
1   ...   13   14   15   16   17   18   19   20   21

t =
b
ρ(


X
n
,
Y
n
)

n − 2
q
1 b
ρ
2
(
X
n
,
Y
n
)
,
(18.4)
которая имеет распределение Стьюдента с n − 2 степенями свободы. Если окажется, что
|b
ρ |

n − 2
p
1 b
ρ
2
≤ t
1−α/2
(n − 2),
то гипотезу H
0
принимают при уровне значимости α, где t
1−α/2
(n − 2) — квантиль уровня 1 − α/2
распределения Стьюдента с n − 2 степенями свободы.
88

Пример 18.2 В примере 16.1 лекции 15 найдено значение точечной оценки b
ρ = 0,313. Проверим гипотезу H
0
: ρ = 0 на уровне значимости α = 0,1.
По таблице квантилей распределения Стьюдента находим квантиль t
0,95
(13) = 1,77 и сравниваем со значением b
ρ

n − 2
p
1 b
ρ
2
= 0,313

13

0,902
= 1,19.
Поскольку 1,19 < 1,77, то гипотезу ρ = 0 принимаем.
Таблицы сопряженности признаков и критерий χ
2
Пусть имеется случайная выборка
(
X
n
;
Y
n
) = ((X
1
, Y
1
); . . . ; (X
n
, Y
n
))
из генеральной совокупности двумерной дискретной слу- чайной величины (X; Y ), где случайная величина X мо- жет принимать значения u
1
, . . . , u
r
, а случайная величина
Y — значения v
1
, . . . , v
s
. Определим случайную величину
n
ij
(
X
n
,
Y
n
), реализация n
ij
которой равна количеству эле- ментов выборки (x
n
,y
n
) = ((x
1
, y
1
); . . . ; (x
n
, y
n
)), совпадаю- щих с элементом (u
i
; v
j
), i = 1, r, j = 1, s.
Введем случайные величины n
i
(
X
n
,
Y
n
) и n
j
(
X
n
,
Y
n
), зна- чения n
i
и n
j
которых определим по формулам
X
Y
v
1
v
2
. . .
v
s
u
1
n
11
n
12
. . .
n
1s
n
1
u
2
n
21
n
22
. . .
n
2s
n
2
. . .
. . .
. . .
. . .
. . .
. . .
u
r
n
r1
n
r2
. . .
n
rs
n
r
n
1
n
2
. . .
n
s
n
Таблица 18.1.
n
i
=
n
X
j=1
n
ij
,
n
j
=
n
X
i=1
n
ij
.
При этом n
i
— количество элементов выборки (x
n
;y
n
), в которых встретилось значение u
i
, а n
j

количество элементов выборки (x
n
;y
n
), в которых встретилось значение v
j
. Кроме того, имеют место очевидные равенства
r
X
i=1
n
i
=
s
X
j=1
n
j
=
r
X
i=1
s
X
j=1
n
ij
= n.
В рассматриваемом случае результаты наблюдений удобно оформлять в виде таблицы, называемой
таблицей сопряженности признаков (18.1). Пусть далее
p
ij
= P {X = u
i
, Y = v
j
} , p
i
= P {X = u
i
} , p
j
= P {Y = v
j
} ,
i = 1, r, j = 1, s.
Дискретные случайные величины X и Y независимы тогда и только тогда, когда
P {X = u
i
, Y = v
j
} = P {X = u
i
} P {Y = v
j
} ,
i = 1, r, j = 1, s.
Поэтому основную гипотезу о независимости дискретных случайных величин X и Y можно пред- ставить в следующем виде:
H
0
: p
ij
= p
i
p
j
, i = 1, r, j = 1, s.
(18.5)
При этом, как правило, в качестве альтернативной используют гипотезу
H
1
: p
ij
6= p
i
p
j
для некоторых i = 1, r, j = 1, s.
(18.6)
Для проверки основной гипотезы (18.5) при альтернативной гипотезе (18.6) К. Пирсон пред- ложил использовать статистику b
χ
2
(
X
n
,
Y
n
), называемую статистикой Фишера — Пирсона,
реализация b
χ
2
(x
n
,y
n
) которой определяется формулой b
χ
2
(x
n
,y
n
) = n
r
X
i=1
s
X
i=1
³
n
ij

n
i
n
j
n
´
2
n
i
n
j
.
(18.7)
Из закона больших чисел следует, что при n → ∞
n
ij
(
X
n
,
Y
n
)
n
→ p
ij
,
n
i
(
X
n
,
Y
n
)
n
→ p
i
,
n
j
(
X
n
,
Y
n
)
n
→ p
j
,
i = 1, r,
j = 1, s.
Поэтому при истинности гипотезы H
0
и больших объемах выборки (x
n
,y
n
) должно выполняться приближенное равенство
n
ij
≈ n
i
n
j
,
i = 1, r, j = 1, s,
89
и, следовательно, значения (18.7) статистики b
χ
2
(
X
n
,
Y
n
) должны быть “не слишком велики”. “Слиш- ком большие” значения должны свидетельствовать о том, что H
0
неверна.
Ответ на вопрос о том, какие значения нужно считать слишком большими, а какие — нет, дает следующая теорема.
Теорема 18.2 Если истинна гипотеза H
0
, то распределение статистики b
χ
2
(
X
n
,
Y
n
) при n → ∞
сходится к случайной величине, имеющей χ
2
-распределение с числом степеней свободы k = (r −
1)(s − 1):
lim
n→∞
P
©
b
χ
2
(
X
n
,
Y
n
) < z
ª
=
z
Z
0
t
k
2 1 2
k
2
Γ
³
k
2
´ e

t
2
dt,
z > 0. #
В соответствии с теоремой 18.2 критерий независимости χ
2
отклоняет гипотезу H
0
на уровне значимости 1 − α, если b
χ
2
(x
n
,y
n
) > χ
2 1−α
((r − 1)(s − 1)),
где χ
2 1−α
((r − 1)(s − 1)) — квантиль уровня значимости 1 − α χ
2
-распределения с числом степеней свободы (r − 1)(s − 1). При этом считается, что критерий χ
2
можно использовать, если n
i
n
j
/n > 5.
Правую часть равенства (18.7) можно преобразовать к форме, более удобной для практического использования:
b
χ
2
(x
n
,y
n
) = n
³
r
X
i=1
s
X
j=1
n
2
ij
n
i
n
j
1
´
.
(18.8)
В частном, но очень распространенном случае таблиц сопряженности при r = s = 2 формула (18.7)
для вычисления b
χ
2
(x
n
,y
n
) имеет еще более простой вид:
b
χ
2
(x
n
,y
n
) =
n(n
11
n
22
− n
12
n
21
)
2
n
1
n
2
n
1
n
2
.
(18.9)
Для таблиц сопряженности при r = s = 2, как правило, используют статистику e
χ
2
(
X
n
,
Y
n
) с реали- зациями e
χ
2
(x
n
,y
n
) =
¡
n|n
11
n
22
− n
12
n
21
| − n/2
¢
2
n
1
n
2
n
1
n
2
,
(18.10)
называемую статистикой Фишера — Пирсона с поправкой Йейтса на непрерывность,
распределение которой лучше согласуется с χ
2
-распределением.
Пример 18.3 В табл. 18.2 приведены данные о распределении цвета волос на голове и бровей у
46542 человек. Проверим на уровне значимости
α = 0,05 гипотезу о независимости этих призна- ков. Здесь n = 46592, r = s = 2, n
11
= 30472, n
12
=
3238, n
21
= 3364, n
22
= 9468, n
1
= 33710, n
2
= 12832,
Цвет бровей Цвет волос на голове Сумма светлые темные
Светлые
30472 3238 33710
Темные
3364 9468 12832
Сумма
33836 12706 46542
Таблица 18.2.
n
1
=
33836,
n
2
=
12706,
число степеней свободы
(r − 1)(s − 1) = 1. Из (18.9) получаем b
χ
2
(x
n
,y
n
) = 19,288. По таблице квантилей χ
2
-распределения находим χ
2 0,95
(1) = 3,84. Так как 19,288 > 3,84, то гипотезу о независимости признаков следует от- клонить.
90

Лекция 19
Метод наименьших квадратов
Рассмотрим задачу о подборе функции одного переменного - подборе по неточным наблюдениям
(измерениям). Предположим, что переменные y и x
1
, . . . , x
p
связаны линейным соотношением
y = θ
1
x
1
+ θ
2
x
2
+ · · · + θ
p
x
p
,
где коэффициенты θ = (θ
1
, . . . , θ
p
) неизвестны. При некоторых значениях x
i1
, x
i2
, . . . , x
ip
, i = 1, n,
переменных x
1
, . . . , x
p
(называемых обычно факторами) были произведены измерения переменной
y (называемой откликом) со случайной ошибкой ε
i
, так что вместо неслучайных величин
y
i
= θ
1
x
i1
+ θ
2
x
i2
+ · · · + θ
p
x
ip
,
i = 1, n,
наблюдались случайные величины
Y
i
= θ
1
x
i1
+ θ
2
x
i2
+ · · · + θ
p
x
ip
+ ε
i
,
i = 1, n.
(19.1)
Возникает задача оценивания неизвестных коэффициентов θ = (θ
1
, . . . , θ
p
) по наблюдениям Y =
(y
1
, y
2
, . . . , y
n
)
T
и элементам x
ij
матрицы X размера n × m.
Основное предположение об ошибках состоит в том, что случайные величины ε
1
, ε
2
, . . . , ε
n
счи- таются независимыми и
i
= 0, т.е. систематических ошибок при измерении отклика нет. Менее важные предположения заключаются в том, что ε
i
распределены одинаково и по нормальному закону N (0, σ
2
). Величина σ обычно считается неизвестной. Она численно выражает неточность
(изменчивость) измерений, т.е. масштаб случайных ошибок.
Систему (19.1) можно записать в матричном виде
Y = + ε.
(19.2)
Один из способов оценивания коэффициентов θ = (θ
1
, . . . , θ
p
), называемый методом наименьших квадратов состоит в следующем.
Определение 19.1 Оценкой ˆ
θ = (ˆ
θ
1
, . . . , ˆ
θ
p
) параметра θ = (θ
1
, . . . , θ
p
) по методу наименьших квад- ратов называется точка минимума функции
S(θ) = ||Y − Xθ||
2
= (Y − Xθ)
T
(Y − Xθ) =
n
X
i=1
(Y
i
− θ
1
x
i1
θ
2
x
i2
+ · · · + θ
p
x
ip
)
2
.
Теорема 19.1 Предположим, что ранг матрицы X равен p. Тогда оценка наименьших квадратов
имеет вид
ˆ
θ = (X
T
X)
1
X
T
Y.
(19.3)
Теорема 19.2 Пусть ε
1
, ε
2
, . . . , ε
n
— независимые одинаково распределенные случайные величины
с Mε
i
= 0 и конечной дисперсией Dε
i
= σ
2
. Тогда оценка наименьших квадратов
ˆ
θ = (X
T
X)
1
X
T
Y
является несмещенной и состоятельной оценкой параметра θ = (θ
1
, . . . , θ
p
).
Обозначим
S(θ) = (Y − Xθ)
T
(Y − Xθ),
(d
1
, d
2
, . . . , d
p
) — диагональные элементы матрицы (X
T
X)
1 91

Теорема 19.3 Пусть ε
1
, ε
2
, . . . , ε
n
— независимые одинаково распределенные нормальные случай-
ные величины с Mε
i
= 0 и конечной дисперсией Dε
i
= σ
2
. Тогда оценка наименьших квадратов
ˆ
θ = (X
T
X)
1
X
T
Y
является несмещенной, состоятельной оценкой параметра θ = (θ
1
, . . . , θ
p
) и нормальным слу-
чайным вектором с математическим ожиданием θ = (θ
1
, . . . , θ
p
) и ковариационной матрицей
σ
2
(X
T
X)
1
. Интервальная оценка для θ
j
уровня доверия 1 − α имеет вид
θ
j
, ˆ
θ
j
+ ∆), где
∆ = t
1−α
(n − p)
s
d
j
n − p
S
θ),
а t
1−α
(n − p) — квантиль распределения Стьюдента уровня 1 − α с n − p степенями свободы.
Рассмотрим теперь задачу оценивания зависимости
y = θ
1
ϕ
1
(t) + θ
2
ϕ
2
(t) + . . . θ
p
ϕ
p
(t),
считая функции ϕ
1
, ϕ
2
, . . . , ϕ
p
известными, по измерениям Y = (Y
1
, Y
2
, . . . , Y
n
) величины y в неслу- чайных точках t
1
, t
2
, . . . , t
n
со случайными ошибками ε = (ε
1
, ε
2
, . . . , ε
n
):
Y
i
= θ
1
ϕ
1
(t
i
) + θ
2
ϕ
2
(t
i
) + . . . θ
p
ϕ
p
(t
i
) + ε
i
,
i = 1, n.
(19.4)
Обозначив
x
ij
= ϕ
j
(t
i
),
i = 1, n, j = 1, p,
сведем модель (19.4) к модели (19.2).
Пример 19.1 В “Основах химии”
Д. И. Менделеев приводит следу- ющие данные о количестве y азот-
t
i
0 4
10 15 21 29 36 51 68
y
i
66,7 71,0 76,3 80,6 85,7 92,9 99,4 113,6 125,1
Таблица 19.1.
нонатриевой соли
N aN O
3
,
которое можно растворить в 100 г воды в зависимости от температуры t (см. таб. 19.1). Построим по этим данным приближенную эмпирическую формулу вида
y = θ
1
+ θ
2
t + θ
3
t
2
,
описывающую зависимость между рассматриваемыми величинами.
Оценим коэффициенты (θ
1
, θ
2
, θ
3
) по n = 9 наблюдениям (y
1
, y
2
, . . . , y
n
) случайных величин
(Y
1
, Y
2
, . . . , Y
n
). В этом случае
X
T
=


1 1
1 1
1 1
1 1
1 0
4 10 15 21 29 36 51 68 0 16 100 225 441 841 1296 2601 4624

,
X
T
X =


9 234 10144 234 10144 531828 10144 531828 30788836

,
(X
T
X)
1
=


0.4878864808 0.0299495315 0.0003565864
0.0299495315 0.0028828545 0.0000399292 0.0003565864 0.0000399292 0.0000006047

,
ˆ
θ = (66.71, 0.9604, −0.001359),
y ≈ 66.71 + 0.9604t − 0.001359t
2
.
92

Оглавление
1 Случайные события
1 2 Вероятность
6 3 Условная вероятность
11 4 Формула полной вероятности. Формула Байеса. Схема Бернулли
16 5 Одномерные случайные величины
20 6 Числовые характеристики случайных величин
26 7 Основные законы распределения случайных величин
30 8 Случайные векторы
35 9 Функции от случайных величин
41 10 Ковариация и коэффициент корреляции случайных величин
46 11 Условные характеристики случайных величин
50 12 Многомерное нормальное распределение
55 13 Предельные теоремы теории вероятностей
60 14 Основные понятия выборочной теории
65 15 Точечные оценки
69 16 Интервальные оценки и доверительные интервалы
72 17 Проверка гипотез. Параметрические модели
79 18 Проверка непараметрических гипотез
86 19 Метод наименьших квадратов
91 93
1   ...   13   14   15   16   17   18   19   20   21


написать администратору сайта