Главная страница

Интеллектуальный анализ данных


Скачать 7.76 Mb.
НазваниеИнтеллектуальный анализ данных
Дата11.10.2022
Размер7.76 Mb.
Формат файлаpdf
Имя файлаiad_iadl.pdf
ТипУчебное пособие
#726651
страница12 из 23
1   ...   8   9   10   11   12   13   14   15   ...   23
i
n
i
i
n
Такая оценка будет являться несмещенной. Ей соответствует исправлен-
ное среднее квадратическое отклонение

88
1
n
)
x
x
(
s
s
n
1
i
2
n
i
2






или
1
n
)
x
x
(
n
s
s
k
1
i
2
n
i
i
2






Вопросы для самопроверки:
1. Что такое математическая статистика?
2. Что изучает математическая статистика?
3. Основные задачи математической статистики?
4. Что называется генеральной совокупностью? Выборкой?
5. Какие бывают виды выборок?
6. Какая выборка является репрезентативной?
7. Что называется наблюдением? Статистическим рядом? Вариационным рядом? Рангом?
8. Как осуществляется группировка данных?
9. Что называется группированным статистическим рядом? Полигоном частот? Полигоном относительных частот?
10. Дайте определение выборочной (эмпирической) функцией распреде- ления.
11. Напишите соотношения для оценок положения: выборочного средне-
го, оценки моды и медианы.
12. Напишите соотношения для оценок параметра масштаба: оценки дисперсии, начальных и центральных моментов.
13. Перечислите основные свойства статистических оценок.

89
ЛЕКЦИЯ 9.
МЕТОД МОНТЕ-КАРЛО (МЕТОД СТАТИСТИЧЕСКИХ ИСПЫТАНИЙ)
1. Постановка задачи
Метод Монте-Карло получил свое название в честь европейской столицы азартных игр, в которых случайность является определяющим фактором в полу- чении выигрыша.
Типовой задачей, решаемой методом Монте-Карло, является поиск зна- чения неизвестной неслучайной величины, а на основе розыгрыша (генерации) значений случайной величины Х, числовые характеристики распределения кото- рой связаны с искомой величиной.
Например, формируются реализации случайная величина Х, математи- ческое ожидание которой
X
E равно а. В этом случае для выборки из n значений Х, полученных в n испытаниях, вычисляется выборочное среднее: n
х х
i


, которое принимается в качестве оценки искомого числа а:
x aˆ
a


Этот метод требует проведения большого числа испытаний, поэтому его иначе называют методом статистических испытаний.
Теория метода Монте-Карло исследует такие вопросы, как:
- как наиболее целесообразно выбрать случайную величину Х,
- как найти ее возможные значения,
- как уменьшить дисперсию используемых случайных величин, чтобы по- грешность при замене a на aˆ была возможно меньшей.
Генерация возможных значений Х называют разыгрыванием случайной
величины. Рассмотрим некоторые способы разыгрывания случайных величин и выясним, как оценить допускаемую при этом ошибку.
2. Разыгрывание дискретной случайных величин
Определение. Случайными числами называют возможные значения r
непрерывной случайной величины R, распределенной равномерно в интервале
(0; 1).
2.1. Общая схема разыгрывания дискретной случайной величины
Пусть требуется разыграть дискретную случайную величину Х, то есть получить последовательность ее возможных значений, зная закон распределения
Х:
Х х
1
х
2
х
n
P р
1
р
2
р
n
Рассмотрим равномерно распределенную в (0, 1) случайную величину R:
]
1
,
0
[
U
R 

90 и разобьем интервал (0, 1) точками с координатами р
1,
р
1
+ р
2
, …,
р
1
+р
2
+… +р
п-1 на n частичных интервалов
п



,...,
,
2
1
, длины которых равны веро- ятностям с теми же индексами.
Теорема. Если каждому случайному числу
1
0
],
1
,
0
[



j
j
r
U
r
, которое попало в интервал
i
, ставить в соответствие возможное значение
j
x
n
j
x
r
j
j
,...,
1
,



, то разыгрываемая величина будет иметь заданный закон рас- пределения:
Х х
1
х
2
х
п
р р
1
р
2
р
п
Доказательство.
Возможные значения полученной случайной величины совпадают с мно- жеством х
1
, х
2
,… х
n
, так как число интервалов равно n, а при попадании r
j
в ин- тервал
i
случайная величина может принимать только одно из значений х
1
, х
2
,… х
п
Так как R распределена равномерно, то вероятность ее попадания в каж- дый интервал равна его длине, откуда следует, что каждому значению
i
x соот- ветствует вероятность p
i
. Таким образом, разыгрываемая случайная величина имеет заданный закон распределения.
Пример. Разыграть 10 значений дискретной случайной величины Х, за- кон распределения которой имеет вид: Х 2 3 6 8
р 0,1 0,3 0,5 0,1
Решение. Разобьем интервал (0, 1) на частичные интервалы: 
1
- [0; 0,1),

2
– [0,1; 0,4), 
3
- [0,4; 0,9), 
4
– [0,9; 1].
Выпишем из таблицы случайных чисел 10 чисел: 0,09; 0,73; 0,25; 0,33;
0,76; 0,52; 0,01; 0,35; 0,86; 0,34. Первое и седьмое числа лежат на интервале 
1
, следовательно, в этих случаях разыгрываемая случайная величина приняла зна- чение х
1
= 2; третье, четвертое, восьмое и десятое числа попали в интервал 
2
, что соответствует х
2
= 3; второе, пятое, шестое и девятое числа оказались в ин- тервале 
3
– при этом Х = х
3
= 6; на последний интервал не попало ни одного чис- ла.
Итак, разыгранные возможные значения Х таковы: 2, 6, 3, 3, 6, 6, 2, 3, 6,
3.
2.2. Разыгрывание противоположных событий
Пусть требуется разыграть испытания, в каждом из которых событие А появляется с известной вероятностью р.
Рассмотрим дискретную случайную величину Х, принимающую значения
1 (в случае, если событие А произошло) с вероятностью р и 0 (если А не про- изошло) с вероятностью q=1–p. Затем разыграем эту случайную величину так, как было предложено в предыдущем пункте.
Пример. Разыграть 10 испытаний, в каждом из которых событие А появ- ляется с вероятностью 0,3.
Решение. Для случайной величины Х с законом распределения
Х 1 0
р 0,3 0,7

91 получим интервалы 
1
– (0; 0,3) и 
2
– (0,3; 1). Используем ту же выборку случайных чисел, что и в предыдущем примере, для которой в интервал 
1
попа- дают числа №№1,3 и 7, а остальные – в интервал 
2
. Следовательно, можно счи- тать, что событие А произошло в первом, третьем и седьмом испытаниях, а в ос- тальных – не произошло.
2.3. Разыгрывание полной группы событий
Если события А
1
, А
2
, …, А
п
, вероятности которых равны р
1
, р
2
,… р
n
, об- разуют полную группу, то для из разыгрывания (то есть моделирования последо- вательности их появлений в серии испытаний) можно разыграть дискретную слу- чайную величину Х с законом распределения Х: 1 2 … n, сделав это так же, как в пункте 1. При этом считаем, что р: р
1
р
2
р
п
если Х принимает значение х
i
= i, то в данном испытании произошло со- бытие А
i
3. Разыгрывание непрерывной случайной величины
3.1. Метод обратных функций.
Пусть требуется разыграть непрерывную случайную величину Х, то есть получить последовательность ее возможных значений x
i
(i = 1, 2, …, n), зная функцию распределения F(x).
Теорема. Если r
i
– случайное число, то возможное значение x
i
разыгры- ваемой непрерывной случайной величины Х с заданной функцией распределения
F(x), соответствующее r
i
, является корнем уравнения
i
i
r
)
x
(
F

(1)
Доказательство.
1. Так как
)
x
(
F
монотонно возрастает в интервале от 0 до 1, то найдется
(причем единственное) значение аргумента x
i
, при котором функция распределе- ния примет значение r
i
. Значит, уравнение (1) имеет единственное решение
)
(
1
i
i
r
F
x


, где
1

F
- функция, обратная к F :
)
x
(
F
монотонна на [0, 1]
)
r
(
F
x
:
x
!
i
1
i
i




2. Докажем, что
)
c
(
F
)
d
(
F
)}
d
,
c
(
X
{
P



В силу монотонности F(x) и того, что
i
i
r
)
x
(
F

,
)
(
)
(
d
F
r
c
F
d
x
c
i
i





следовательно,
).
c
(
F
)
d
(
F
))
d
(
F
R
)
c
(
F
(
P
)
d
X
с
(
P







Пример.
Разыграть 3 возможных значения непрерывной случайной величины Х, распределенной равномерно в интервале (5; 8).
Решение.
3
5
)
(


х
X
F
, то есть требуется решить уравнение
.
5
3
,
3
5




i
i
i
i
r
x
r
х

92
Выберем 3 случайных числа: r= 0,23; 0,09; 0,56 и подставим их в это уравнение.
Получим соответствующие возможные значения
Х:
.
68
,
6
;
27
,
5
;
69
,
5
3
2
1



х
х
х
3.2. Метод суперпозиции
Если функция распределения разыгрываемой случайной величины мо- жет быть представлена в виде линейной комбинации двух функций распределе- ния:
)
0
(
)
(
)
(
)
(
2
,
1
2
2
1
1



C
x
F
C
x
F
C
x
F
, (2) то
1
2
1

C
C
, так как при х F(x)  1.
Введем вспомогательную дискретную случайную величину Z с законом распределения Z: 1 2. Выберем 2 независимых случайных числа r
1
и r
2
и разы- граем возможное
p: C
1
C
2
; значение Z по числу r
1
(см. пункт 1). Если Z=1, то ищем искомое возмож- ное значение Х из уравнения
1 1
r
)
x
(
F

, а если Z=2, то решаем уравнение
2
2
)
(
r
x
F

Можно доказать, что при этом функция распределения разыгрываемой случайной величины равна заданной функции распределения.
Пример: засоренное нормальное распределение (модель Хьюбера):
.
],
,
[
)
,
(
F
)
,
(
N
)
(
)
x
(
F
1 1
0 0
1 0
1 2
2










3.3. Приближенное разыгрывание нормальной случайной величины
Так как для R, равномерно распределенной в (0, 1),
12
1
)
(
,
2
1
)
(


R
D
R
E
, то для суммы n независимых, равномерно распределенных в интервале
(0, 1) случайных величин





















n
j
n
j
j
n
j
j
j
n
n
R
D
n
R
E
R
1
1
1
12
,
12
,
2

Тогда в силу центральной предельной теоремы нормированная случай- ная величина
12
2
1
n
n
R
n
j
j



при n   будет иметь распределение, близкое к нор- мальному с параметрами а=0 и  =1.
В частности, достаточно хорошее приближение получается при n = 12:



12
1
.
6
j
j
R
Итак, чтобы разыграть возможное значение нормированной нормальной случайной величины х, надо сложить 12 независимых случайных чисел и из сум- мы вычесть 6.

93
4. Оценка погрешности метода Монте-Карло
Если поставить задачу определения верхней границы допускаемой ошибки  с заданной доверительной вероятностью , то есть поиска числа , для которого




)
|
(|
a
X
P
, то получим известную задачу определения доверительного интервала для математического ожидания генеральной совокупности. Воспользуемся ре- зультатами решения этой задачи для следующих случаев:
1) случайная величины Х распределена нормально и известно ее сред- нее квадратическое отклонение:
)
,
(
2

a
N
X
. Тогда из формулы для довери- тельного оценивания, получаем:
n
t



, где n – число испытаний,  - известное среднее квадратическое отклонение, а t – аргумент функции Лапласа, при котором
Ф(t) = /2.
2) случайная величина Х распределена нормально с неизвестным .
Воспользуемся формулой для интервального оценивания
1   ...   8   9   10   11   12   13   14   15   ...   23


написать администратору сайта