Главная страница
Навигация по странице:

  • Скажем, какая вероятность, что за 100 бросков симметричной монеты выпадет ровно 50 орлов

  • Какой шаг решетки у величины со значениями 1/3, 1, 13/9

  • Лекции теория вероятностей 2019. Вероятностное пространство


    Скачать 2.67 Mb.
    НазваниеВероятностное пространство
    Дата17.02.2022
    Размер2.67 Mb.
    Формат файлаpdf
    Имя файлаЛекции теория вероятностей 2019.pdf
    ТипДокументы
    #365721
    страница5 из 9
    1   2   3   4   5   6   7   8   9
    Как выразить ковариацию 𝑋, 𝑌 через п.ф. 𝜙(𝑠, 𝑡) вектора (𝑋, 𝑌 )?
    • 𝜙
    ′′
    𝑠,𝑡
    (1, 1) − 𝜙

    𝑠
    (1, 1)𝜙

    𝑡
    (1, 1)
    ;
    • 𝜙
    ′′
    𝑠,𝑡
    (1, 1) − 𝜙
    ′′
    𝑠,𝑠
    (1, 1)𝜙
    ′′
    𝑡,𝑡
    (1, 1)
    ;
    • 𝜙
    ′′
    𝑠,𝑡
    (1, 1) − 𝜙

    𝑠
    (1, 0)𝜙

    𝑡
    (0, 1)
    ;
    • 𝜙
    ′′
    𝑠,𝑡
    (0, 0) − 𝜙

    𝑠
    (0, 0)𝜙

    𝑡
    (0, 0)
    4. Производящая функция суммы независимых векторов ⃗
    𝑋
    1
    , . . . , ⃗
    𝑋
    𝑛
    есть произведение п.ф. каждого из век- торов
    𝜙

    𝑋
    1
    +···+ ⃗
    𝑋
    𝑛
    (𝑠
    1
    , . . . , 𝑠
    𝑘
    ) = 𝜙

    𝑋
    1
    (𝑠
    1
    , . . . , 𝑠
    𝑘
    ) · · · 𝜙

    𝑋
    𝑛
    (𝑠
    1
    , . . . , 𝑠
    𝑘
    ).
    Доказательство опять же вытекает из того, что функции
    𝑠
    𝑋
    1,1 1
    · · · 𝑠
    𝑋
    1,𝑘
    𝑘
    ,
    𝑠
    𝑋
    2,1 1
    · · · 𝑠
    𝑋
    2,𝑘
    𝑘
    ,
    . . . ,
    𝑠
    𝑋
    𝑛,1 1
    · · · 𝑠
    𝑋
    𝑛,𝑘
    𝑘
    независимы как функции независимых векторов, а значит математическое ожидание их произведения (то есть п.ф. суммы наших векторов) есть произведение их математических ожиданий (то есть произведение п.ф. каждого из них).
    5. Справедлива и теорема непрерывности, которую мы оставим без доказательства.
    Последовательность векторов ⃗
    𝑋
    𝑛
    удовлетворяет соотношению
    P( ⃗
    𝑋
    𝑛
    = ⃗
    𝑥) → P( ⃗
    𝑋 = ⃗
    𝑥), 𝑛 → ∞,
    при всех ⃗𝑥 ∈ R
    𝑘
    тогда и только тогда, когда
    𝜙

    𝑋
    𝑛
    (⃗
    𝑠) → 𝜙

    𝑋
    (⃗
    𝑠), 𝑛 → ∞,
    при всех ⃗𝑠 ∈ [0, 1]
    𝑘
    37

    Пример 5.4.
    Рассмотрим ⃗𝜈 = (𝜈
    1
    , . . . , 𝜈
    𝑘
    )
    — полиномиальный случайный вектор 𝑃 𝑜𝑙𝑦𝑛𝑜𝑚(𝑛, 𝑝
    1
    , . . . , 𝑝
    𝑘
    )
    , то есть вектор из количеств исходов при 𝑛 независимых испытаниях с 𝑘 возможными исходами, имеющими вероятности
    𝑝
    1
    , . . . , 𝑝
    𝑘
    Мы знаем, что
    P(𝜈
    1
    = 𝑚
    1
    , . . . , 𝜈
    𝑘
    = 𝑚
    𝑘
    ) =
    𝑛!
    𝑚
    1
    ! · · · 𝑚
    𝑘
    !
    𝑝
    𝑚
    1 1
    · · · 𝑝
    𝑚
    𝑘
    𝑘
    ,
    однако, считать п.ф. данного вектора напрямую достаточно громоздко. Вместо этого отметим, что
    (𝜈
    1
    , . . . , 𝜈
    𝑘
    ) =
    𝑛
    ∑︁
    𝑖=1

    𝜂
    𝑖
    ,
    где ⃗𝜂
    𝑖
    — вектор, описывающий итог 𝑖-го эксперимента, равный (1, 0, . . . , 0), если опыт закончился первым исхо- дом, (0, 1, 0, . . . , 0) — если вторым исходом, (0, . . . , 0, 1) — если 𝑘-м исходом. Векторы ⃗𝜂
    𝑖
    независимы, поскольку относятся к независимым испытаниям, и имеют п.ф.
    𝑓

    𝜂
    𝑖
    = 𝑝
    1
    𝑠
    1 1
    𝑠
    0 2
    · · · 𝑠
    0
    𝑘
    + 𝑝
    2
    𝑠
    0 1
    𝑠
    1 2
    𝑠
    0 3
    · · · 𝑠
    0
    𝑘
    + · · · + 𝑝
    𝑘
    𝑠
    0 1
    𝑠
    0 2
    · · · 𝑠
    0
    𝑘−1
    𝑠
    1
    𝑘
    = 𝑝
    1
    𝑠
    1
    + · · · + 𝑝
    𝑘
    𝑠
    𝑘
    Значит,
    𝜙
    (𝜈
    1
    ,...,𝜈
    𝑘
    )
    (⃗
    𝑠) = (𝑝
    1
    𝑠
    1
    + · · · + 𝑝
    𝑘
    𝑠
    𝑘
    )
    𝑛
    5.6
    Ответы на вопросы
    1. 𝜑(𝑠) = (1 − 𝑝)𝑠
    0
    + 𝑝𝑠
    1
    = 1 − 𝑝 + 𝑝𝑠
    2. B, С невыпуклы, D не монотонна, а вот А — настоящая.
    3. В силу теоремы Пуассона вероятность того, что не будет заболевших близка к вероятности того, что пуассоновская величина с параметром 10000 · 0.0002 = 2 равна 0, то есть к 𝑒
    −2
    . Значит вероятность того,
    что заболевшие будут приближенно равна 1 − 𝑒
    −2 4. cov(𝑋, 𝑌 ) = E𝑋𝑌 − E𝑋E𝑌 = 𝜙
    ′′
    𝑠,𝑡
    (1, 1) − 𝜙

    𝑠
    (1, 1)𝜙

    𝑡
    (1, 1)
    Обозначение
    Формула для вероятности
    Производящая функция
    Bern(p)
    P(X=0) = 1-p, P(X=1)=p
    (1-p)+ps
    Binom(n,p)
    𝑃 (𝑋 = 𝑘) = 𝐶
    𝑘
    𝑛
    𝑝
    𝑘
    (1 − 𝑝)
    𝑛−𝑘
    (1 − 𝑝 + 𝑝𝑠)
    𝑛
    Geom(p)
    𝑃 (𝑋 = 𝑘) = (1 − 𝑝)
    𝑘
    𝑝
    𝑝/(1 − (1 − 𝑝)𝑠)
    𝑅{0, 1, . . . , 𝑁 }
    𝑃 (𝑋 = 𝑘) = 1/(𝑁 + 1)
    (1 − 𝑠
    𝑁 +1
    )/(1 − 𝑠)
    Poiss(𝜆)
    𝑃 (𝑋 = 𝑘) = 𝜆
    𝑘
    𝑒
    −𝜆
    /𝑘!
    𝑒
    𝜆(𝑠−1)
    NegBinom(r,p) 𝑃 (𝑋 = 𝑘) = 𝐶
    𝑘
    𝑘+𝑟−1
    𝑝
    𝑟
    (1 − 𝑝)
    𝑘
    𝑝
    𝑟
    /(1 − (1 − 𝑝)𝑠)
    𝑟
    6
    Предельные теоремы в дискретном случае
    6.1
    Локальные предельные теоремы
    Теорема Пуассона позволяет работать с бернуллиевскими величинами с редко случающимися успехами. Не ме- нее, а то и более естественной является ситуация, когда вероятности успеха не являются малыми. Оказывается,
    что и здесь можно сформулировать аналогичные результаты:
    Теорема 6.1
    (Локальная теорема Муавра-Лапласа). Пусть 𝑋
    𝑖
    — н.о.р. Bern(p), 𝑝 ∈ (0, 1). Тогда 𝑆
    𝑛
    = 𝑋
    1
    +
    . . . + 𝑋
    𝑛
    удовлетворяет соотношение
    P(𝑆
    𝑛
    = 𝑘) =
    1 + 𝑜(1)
    √︀2𝜋𝑛𝑝(1 − 𝑝)
    exp
    (︃

    (𝑘 − 𝑛𝑝)
    2 2𝑛𝑝(1 − 𝑝)
    )︃
    ,
    причем 𝑜(1) равномерно мало по |𝑘 − 𝑛𝑝| ≤ 𝑟
    𝑛
    при любом 𝑟
    𝑛
    = 𝑜(𝑛
    2/3
    ).
    38

    Таким образом, можно аппроксимировать неудобно выражающиеся биномиальные вероятности (использую- щие, в частности, факториалы больших чисел и большие степени при больших 𝑛) с помощью более простой функции экспоненты. Иллюстрация приближения приведена в ролике по ссылке.
    Доказательство.
    Воспользуемся явной формулой
    P(𝑆
    𝑛
    = 𝑘) = 𝐶
    𝑘
    𝑛
    𝑝
    𝑘
    (1 − 𝑝)
    𝑛−𝑘
    При этом 𝐶
    𝑘
    𝑛
    = 𝑛!/(𝑘!(𝑛 − 𝑘)!)
    , где
    𝑛! ∼

    2𝜋𝑛(𝑛/𝑒)
    𝑛
    ,
    (𝑛 − 𝑘)! ∼
    √︀
    2𝜋(𝑛 − 𝑘)((𝑛 − 𝑘)/𝑒)
    𝑛−𝑘
    ,
    𝑘! ∼

    2𝜋𝑘(𝑘/𝑒)
    𝑘
    при 𝑘 → ∞, 𝑛 − 𝑘 → ∞. Следовательно,
    𝐶
    𝑘
    𝑛
    𝑝
    𝑘
    (1 − 𝑝)
    𝑛−𝑘
    =
    1
    √︁
    2𝜋𝑛
    (︀
    𝑘
    𝑛
    )︀ (︀1 −
    𝑘
    𝑛
    )︀
    (︂
    𝑛 − 𝑘
    𝑛(1 − 𝑝)
    )︂
    −𝑛+𝑘
    (︂ 𝑘
    𝑛𝑝
    )︂
    −𝑘
    При этом
    (︂ 𝑛(1 − 𝑝)
    𝑛 − 𝑘
    )︂
    𝑛−𝑘
    =
    (︂
    1 +
    𝑘 − 𝑛𝑝
    𝑛 − 𝑘
    )︂
    𝑛−𝑘
    = exp
    (︂
    (𝑛 − 𝑘) ln
    (︂
    1 +
    𝑘 − 𝑛𝑝
    𝑛 − 𝑘
    )︂)︂
    = exp
    (︂
    (𝑘 − 𝑛𝑝) −
    (𝑘 − 𝑛𝑝)
    2 2(𝑛 − 𝑘)
    + 𝑜
    (︂ (𝑘 − 𝑛𝑝)
    3
    𝑛
    2
    )︂)︂
    ,
    (︁
    𝑛𝑝
    𝑘
    )︁
    𝑘
    =
    (︂
    1 +
    𝑛𝑝 − 𝑘
    𝑘
    )︂
    𝑘
    = exp
    (︂
    𝑘 ln
    (︂
    1 +
    𝑛𝑝 − 𝑘
    𝑘
    )︂)︂
    = exp
    (︂
    (𝑛𝑝 − 𝑘) −
    (𝑘 − 𝑛𝑝)
    2 2𝑘
    + 𝑜
    (︂ (𝑘 − 𝑛𝑝)
    3
    𝑛
    2
    )︂)︂
    Следовательно,
    P(𝑆
    𝑛
    = 𝑘) =
    (1 + 𝑜(1))
    √︀2𝜋𝑝(1 − 𝑝)𝑛
    exp
    (︂

    (𝑘 − 𝑛𝑝)
    2 2𝑛𝑝(1 − 𝑝)
    )︂
    , 𝑛 → ∞,
    равномерно по 𝑘/𝑛 ∈ [𝑛𝑝 − 𝑟
    𝑛
    , 𝑛𝑝 + 𝑟
    𝑛
    ]
    Пример 6.1.

    Скажем, какая вероятность, что за 100 бросков симметричной монеты выпадет ровно 50 орлов?
    Теорема Муавра-Лапласа дает нам приближение
    1

    2𝜋 · 100 · 0.5 · 0.5
    ≈ 0.0798.
    Если же подсчитать вероятность по точной формуле
    𝐶
    50 100
    (︂ 1 2
    )︂
    50
    (︂ 1 2
    )︂
    50
    ≈ 0.0796.
    Погрешность оказывается достаточно неплохой — около 0.0002.
    Нам потребуется следующее определение:
    Определение 6.1.
    Дискретная случайная величина 𝑋 называется решетчатой с шагом 𝑑, если найдется такое
    𝑎
    , что множество значений 𝒳 нашей величины вложены в 𝑎 + 𝑑Z. Будем предполагать, что 𝑑 — максимальное такое число.
    Узнать шаг решетки достаточно просто — вычтем из всех значений одно из них и найдем самое такое 𝑑, что после деления на него полученные значения целые и имеют НОД 1.
    Пример 6.2.
    • Величина, принимающая значения {0, 1, 2}, решетчата с шагом 1. Вычтем из всех значений первое, получим {1, 2}. НОД этих чисел равен 1, откуда 𝑑 = 1.
    • Величина, принимающая значения {𝜋, 3𝜋, 5𝜋}, решетчата с шагом 2𝜋, поскольку {2𝜋, 4𝜋} при делении на
    2𝜋
    переходят в {1, 2} с НОД 1.
    • Величина, принимающая значения {. . . , −5, −2, 1, 4, 7, . . . }, решетчата с шагом 3, покольку {. . . , −3, 0, 3, 6, 9 . . . }
    при делении на 3 переходят в числа с НОД 1.
    39

    • Величина, принимающая значения {0, 1, 𝜋} нерешетчата, поскольку пару {1, 𝜋} нельзя поделить на одно и то же число так, чтобы оба результата получились целыми.
    Вопрос 6.1.

    Какой шаг решетки у величины со значениями 1/3, 1, 13/9?
    Оказывается, что справедлива более общая теорема, чем локальная теорема Муавра-Лапласа, которую мы оставим без доказательства:
    Теорема 6.2
    (Гнеденко). Пусть 𝑋
    𝑖
    , 𝑖 ≤ 𝑛 — независимые одинаково распределенные решетчатые величины с шагом 𝑑 и сдвигом 𝑎, E𝑋
    1
    = 𝑚𝑢, D𝑋
    1
    = 𝜎
    2
    . Тогда
    P(𝑆
    𝑛
    = 𝑘) =
    𝑑

    2𝜋𝑛𝜎
    exp
    (︂

    (𝑘 − 𝑛𝜇)
    2 2𝑛𝜎
    2
    )︂
    +
    𝑜(1)

    𝑛
    , 𝑛 → ∞,
    где 𝑜(1) равномерно мало по 𝑘 ∈ 𝑎𝑛 + 𝑑Z. Иначе говоря,

    𝑛
    sup
    𝑘∈𝑎𝑛+𝑑Z




    P(𝑆
    𝑛
    = 𝑘) −
    𝑑

    2𝜋𝑛𝜎
    exp
    (︂

    (𝑘 − 𝑛𝜇)
    2 2𝑛𝜎
    2
    )︂⃒



    → 0, 𝑛 → ∞.
    Теорема Гнеденко позволяет существенно обобщить теорему Муавра-Лапласа — какое бы распределение слу- чайных величин мы не взяли, сложив достаточное количество нерешетчатых величин с таким распределением мы получим одно и то же предельное выражение для P(𝑆
    𝑛
    = 𝑘)
    . Больше того, это выражение зависит от распределения только через среднее, дисперсию и шаг решетки, остальные параметры оказываются не столь существенными. Отметим, что хотя теорема сформулирована на всей прямой, по существу она полезна только при 𝑘 = 𝜇𝑛 + 𝑂(

    𝑛)
    , в противном случае мы просто узнаем, что P(𝑆
    𝑛
    = 𝑘) = 𝑜(𝑛
    −1/2
    )
    Пример 6.3.
    Игрок в рулетку, поставивший три доллара на черное и один доллар на зеро, получает 2$ выиг- рыша c вероятностью 18/38, 32$ с вероятностью 1/38 и теряет 4$ в оставшемся случае. Как устроен выигрыш за 900 партий?
    Найдем
    𝜇 = 2 ·
    18 38
    + 32 ·
    1 38

    4 2
    =
    68 38
    − 2 = −
    4 19
    При этом дисперсия будет
    𝜎
    2
    = 2 2
    ·
    18 38
    + 32 2
    ·
    1 38
    +
    4 2
    2

    (︂ 4 19
    )︂
    2
    ≈ 36.8,
    откуда
    P(𝑆
    900
    = 𝑘) =
    1

    2𝜋 · 900 · 6
    exp
    (︂

    (𝑘 + 4 · 900/19)
    2 2 · 36 · 900
    )︂

    1 450
    exp
    (︃

    1 2
    (︂
    𝑘
    190
    + 1
    )︂
    2
    )︃
    Таким образом, P(𝑆
    900
    = 𝑘)
    максимально (примерно 1/450) при 𝑘 = −190, а затем убывает до 𝑘 = 190 (и симметрично убывает до -570), где вероятности имеют порядок 1/3000. Таким образом, мы имеем более-менее реальные шансы остаться в плюсе, однако, скорее всего выиграем немного и в этом случае.
    Вопрос 6.2.
    При 1000 подбрасываниях игрального кубика выпало в сумме Х очков. Какая из вероятностей согласно локальной предельной теореме больше - что очков выпало 4000 или 3999?
    6.2
    Интегральная предельная теорема
    Как мы увидели в последнем примере, нам было бы полезно просуммировать полученные вероятности по отрезку [𝜇𝑛 + 𝑎𝜎

    𝑛, 𝜇𝑛 + 𝑏𝜎

    𝑛]
    . Оказывается, что справедлива следующая теорема:
    Теорема 6.3. Пусть 𝑋
    𝑖
    , 𝑖 ≤ 𝑛 — независимые одинаково распределенные решетчатые величины, E𝑋
    1
    = 𝑚𝑢,
    D𝑋
    1
    = 𝜎
    2
    . Тогда
    P(𝑆
    𝑛
    − 𝜇𝑛 ∈ [𝑏𝜎

    𝑛, 𝑐𝜎

    𝑛]) →
    1

    2𝜋
    ∫︁
    𝑐
    𝑏
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡
    при 𝑛 → ∞.
    Доказательство.
    Заметим, что если решетка распределения 𝑆
    𝑛
    есть 𝑆 = 𝑎𝑛 + 𝑑Z, то
    P(𝑆
    𝑛
    − 𝜇𝑛 ∈ 𝐼) =
    ∑︁
    𝑘∈𝑆∩𝐼
    P(𝑆
    𝑛
    = 𝑘),
    40
    где 𝐼 = [𝑏𝜎

    𝑛, 𝑐𝜎

    𝑛]
    . В силу теоремы Гнеденко
    P(𝑆
    𝑛
    = 𝑘) =
    𝑑(1 + 𝑜(1))

    2𝜋𝑛𝜎
    exp
    (︂

    (𝑘 − 𝜇𝑛)
    2 2𝑛𝜎
    2
    )︂
    ,
    причем 𝑜(1) равномерно мало по 𝑘 ∈ 𝑆 ∩ 𝐼. Значит,
    P(𝑆
    𝑛
    − 𝜇𝑛 ∈ 𝐼) =
    1 + 𝑜(1)

    2𝜋
    ∑︁
    𝑘∈𝑆∩𝐼
    𝑑
    𝜎

    𝑛
    exp
    (︂

    (𝑘 − 𝜇𝑛)
    2 2𝑛𝜎
    2
    )︂

    1

    2𝜋
    ∫︁
    𝑏
    𝑎
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡,
    где последний переход вытекает из того, что рассматриваемая сумма является интегральной с шагом 𝑑/(𝜎

    𝑛)
    Теорема 6.4
    (Центральная предельная теорема). Пусть 𝑋
    𝑖
    , 𝑖 ≤ 𝑛 — независимые одинаково распределенные решетчатые величины, E𝑋
    1
    = 𝜇, D𝑋
    1
    = 𝜎
    2
    . Тогда при всех 𝑥
    P(𝑆
    𝑛
    − 𝜇𝑛 ≤ 𝑥𝜎

    𝑛) → Φ(𝑥) =
    1

    2𝜋
    ∫︁
    𝑥
    −∞
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡
    (4)
    при 𝑛 → ∞.
    Данная теорема является частным случаем более общей теоремы
    15.4
    . В действительности, решетчатость величин здесь (в отличие от локальных теорем) не играет никакой роли.
    Доказательство.
    Заметим, что
    1

    2𝜋
    ∫︁

    −∞
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡 =
    1

    𝜋
    ∫︁

    −∞
    𝑒
    −𝑠
    2
    𝑑𝑠 = 1,
    поскольку мы знаем, что интеграл Эйлера-Пуассона равен

    𝜋
    . Значит, при каждом 𝜀 > 0 найдется такое 𝑀,
    что
    1

    2𝜋
    ∫︁
    𝑀
    −𝑀
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡 > 1 − 𝜀,
    1

    2𝜋
    ∫︁
    |𝑡|>𝑀
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡 ≤ 𝜀.
    Поскольку
    P(|𝑆
    𝑛
    − 𝜇𝑛| ≤ 𝑀 𝜎

    𝑛) →
    1

    2𝜋
    ∫︁
    𝑀
    −𝑀
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡 > 1 − 𝜀,
    то P(|𝑆
    𝑛
    − 𝜇𝑛| > 𝑀 𝜎

    𝑛) ≤ 2𝜀
    при достаточно больших 𝑛. При этом
    P(𝑆
    𝑛
    − 𝜇𝑛 ≤ 𝑥𝜎

    𝑛) = P(𝑆
    𝑛
    − 𝜇𝑛 < −𝑀 𝜎

    𝑛) + P(−𝑀 𝜎

    𝑛 ≤ 𝑆
    𝑛
    − 𝜇𝑛 ≤ 𝑥𝜎

    𝑛).
    Следовательно,
    lim sup
    𝑛→∞
    P(𝑆
    𝑛
    − 𝜇𝑛 ≤ 𝑥𝜎

    𝑛) ≤ 2𝜀 +
    1

    2𝜋
    ∫︁
    𝑥
    −𝑀
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡 ≤ 2𝜀 +
    1

    2𝜋
    ∫︁
    𝑥
    −∞
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡.
    При этом lim inf
    𝑛→∞
    P(𝑆
    𝑛
    − 𝜇𝑛 ≤ 𝑥𝜎

    𝑛) ≥ lim inf
    𝑛→∞
    P(−𝑀 𝜎

    𝑛 ≤ 𝑆
    𝑛
    − 𝜇𝑛 ≤ 𝑥𝜎

    𝑛) =
    1

    2𝜋
    ∫︁
    𝑥
    −𝑀
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡 ≥
    1

    2𝜋
    ∫︁
    𝑥
    −∞
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡 − 𝜀.
    Итого
    1

    2𝜋
    ∫︁
    𝑥
    −∞
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡 − 𝜀 ≤ lim inf
    𝑛→∞
    P(𝑆
    𝑛
    − 𝜇𝑛 ≤ 𝑥𝜎

    𝑛) ≤ lim sup
    𝑛→∞
    P(𝑆
    𝑛
    − 𝜇𝑛 ≤ 𝑥𝜎

    𝑛) ≤ 2𝜀 +
    1

    2𝜋
    ∫︁
    𝑥
    −∞
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡.
    В силу произвольности 𝜀 > 0 имеем требуемую сходимость.
    Таким образом,
    P(|𝑆
    𝑛
    − 𝜇𝑛| > 𝑥𝜎

    𝑛) = 1 −
    1

    2𝜋
    ∫︁
    𝑥
    −𝑥
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡 =
    1

    2𝜋
    ∫︁

    𝑥
    𝑒
    −𝑡
    2
    /2
    𝑑𝑡
    41

    Найдем такое 𝑥, что вероятность в правой части меньше 0.05. Функция Φ не выражается в элементарных, но мы можем численно подсчитать интеграл и найти когда же Φ(𝑥) = 0.95. Оказывается, что это происходит приближенно при 𝑥 = 2. Аналогично 3 — такое число, что вероятность правой части приближенно равен 0.0975.
    Тогда
    P(|𝑆
    𝑛
    − 𝜇𝑛| > 2𝜎

    𝑛) ≈ 0.95,
    P(|𝑆
    𝑛
    − 𝜇𝑛| > 3𝜎

    𝑛) ≈ 0.9975
    Это так называемые правила двух сигм и трех сигм, 𝑆
    𝑛
    отклоняется от математического ожидания более чем на 2

    D𝑆
    𝑛
    с вероятностью 5%, а более чем на 3

    D𝑆
    𝑛
    c вероятностью около 0.25%.
    Пример 6.4.
    Рассмотрим предыдущий пример. Тогда в силу правила двух сигм
    P (|𝑆
    𝑛
    + 190| > 2 · 6 · 30) = P (|𝑆
    𝑛
    + 190| > 360) ≈ 0.05,
    то есть выигрыш на рулетке будет лежать в диапазоне [−550, 170] с вероятностью 95%. Точно также по правилу трех сигм выигрыш будет лежать в диапазоне [−730, 350] с вероятностью 99.75%. Можем оценить вероятность того, что мы окажемся в выигрыше
    P(𝑆
    𝑛
    > 0) = P(𝑆
    𝑛
    + 190 > 190) = 1 − P
    (︂
    𝑆
    𝑛
    + 190 ≤ 6 · 30 ·
    190 180
    )︂
    → Φ
    (︂ 190 180
    )︂
    ≈ 0.14.
    Поэтому это событие вполне возможно, но случится лишь раз из 7 случаев.
    Вопрос 6.3.
    Какое количество монет c вероятностью орла 1/3 нужно подбросить, чтобы с вероятностью 50%

    получить хотя бы 1000 орлов?
    6.3
    Оценки погрешности приближения в теореме Пуассона и ЦПТ
    Дадим без доказательства следующие две теоремы, дополняющие теорему Пуассона и центральную предель- ную теорему.
    Теорема 6.5. Пусть 𝑋
    𝑖
    ∼ 𝐵𝑒𝑟𝑛(𝑝
    𝑖
    ) независимы, 𝑆
    𝑛
    = 𝑋
    1
    + . . . + 𝑋
    𝑛
    , 𝜆 = 𝑝
    1
    + . . . + 𝑝
    𝑛
    , 𝑍 ∼ 𝑃 𝑜𝑖𝑠𝑠(𝜆). Тогда
    |P(𝑆
    𝑛
    = 𝑘) − P(𝑍 = 𝑘)| ≤
    𝑛
    ∑︁
    𝑖=1
    𝑝
    2
    𝑖
    Теорема 6.6
    (Неравенство Берри-Эссеена). Пусть 𝑋
    𝑖
    н.о.р. и решетчаты, 𝑆
    𝑛
    = 𝑋
    1
    + . . . + 𝑋
    𝑛
    , E𝑋
    1
    = 𝜇,
    D𝑋
    1
    = 𝜎
    2
    , E|𝑋 − 𝜇|
    3
    = 𝜌. Тогда




    P
    (︂ 𝑆
    𝑛
    − 𝜇𝑛
    𝜎

    𝑛
    ≤ 𝑥
    )︂
    − Φ (𝑥)





    𝐶𝜌
    𝜎
    3

    𝑛
    ,
    где 𝐶 < 0.5.
    Вопрос 6.4.
    Какую оценку погрешности приближения в центральной предельной теореме для n подбрасываний симметричной монеты дает неравенство Берри-Эссеена?
    Пример 6.5.
    Таким образом, в примере с рулеткой мы можем оценить погрешность приближения сверху.
    Прямой подсчет дает нам
    𝜌
    𝜎
    3

    1 6 · 36
    (︃
    (︂
    2 +
    4 19
    )︂
    3
    ·
    18 38
    +
    (︂
    32 +
    4 19
    )︂
    3
    ·
    1 38
    +
    1 2
    (︂
    4 −
    4 19
    )︂
    3
    )︃
    ≈ 4,
    откуда погрешность приближения не превышает 1/15 ≈ 0.07. К сожалению, в данном случае оценка оказалась достаточно большой, поскольку у величины большой параметр 𝜌.
    7
    Цепи Маркова
    7.1
    Определение марковской цепи
    Если мы рассматриваем независимые величины, то
    P(𝑋
    𝑛
    = 𝑥
    𝑛
    , . . . , 𝑋
    0
    = 𝑥
    0
    ) = P(𝑋
    𝑛
    = 𝑥
    𝑛
    ) · · · P(𝑋
    0
    = 𝑥
    0
    ).
    42

    Если мы не накладываем никаких условий на зависимость величин, то
    P(𝑋
    𝑛
    = 𝑥
    𝑛
    , . . . , 𝑋
    0
    = 𝑥
    0
    ) = P(𝑋
    𝑛
    = 𝑥
    𝑛
    |𝑋
    𝑛−1
    = 𝑥
    𝑛−1
    , . . . , 𝑋
    0
    = 𝑥
    0
    ) · · · P(𝑋
    1
    = 𝑥
    1
    |𝑋
    0
    = 𝑥
    0
    )P(𝑋
    0
    = 𝑥
    0
    ).
    Для независимых величин было очень удобно — совместное распределение задается распределением отдельных величин, для общего случая нам требуется задать условное распределение 𝑋
    𝑛
    при условии всех предыдущих величин, что достаточно неудобно. Предположим, что выполнен промежуточный вариант — каждый 𝑋
    𝑚
    зависит по существу только от предыдущей 𝑋
    𝑚−1
    :
    P(𝑋
    𝑚
    = 𝑥
    𝑚
    |𝑋
    𝑚−1
    = 𝑥
    𝑚−1
    , . . . , 𝑋
    0
    = 𝑥
    0
    ) = P(𝑋
    𝑚
    = 𝑥
    𝑚
    |𝑋
    𝑚−1
    = 𝑥
    𝑚−1
    ), 𝑚 ≥ 1
    (5)
    при всех таких 𝑥
    0
    , . . . , 𝑥
    𝑚−1
    , что вероятность условия ненулевая.
    Определение 7.1.
    Набор величин 𝑋
    0
    , . . . , 𝑋
    𝑛
    , удовлетворяющий соотношению (
    5
    ), называется цепью Маркова.
    Подчеркнем, что при этом 𝑋
    𝑚
    и 𝑋
    𝑚−2
    , вообще говоря, зависимы, но независимы если фиксировано 𝑋
    𝑚−1
    Более явно это будет раскрыто чуть позже.
    Для удобства мы не будем требовать чтобы значения 𝑋
    𝑖
    были числами, а будет предполагать, что они при- надлежат произвольному конечному или счетному множеству 𝑆. Мы можем пронумеровать их числами из N и считать, что 𝑆 ⊆ N.
    Пример 7.1.
    • Независимые случайные элементы 𝑋
    1
    , . . . , 𝑋
    𝑛
    со значениями из какого-то конечного (счет- ного) множества 𝑆 будут представлять собой цепь Маркова. Действительно,
    P(𝑋
    𝑚
    = 𝑥
    𝑚
    |𝑋
    𝑚−1
    = 𝑥
    𝑚−1
    , . . . , 𝑋
    0
    = 𝑥
    0
    ) = P(𝑋
    𝑚
    = 𝑥
    𝑚
    ) = P(𝑋
    𝑚
    = 𝑥
    𝑚
    |𝑋
    𝑚−1
    = 𝑥
    𝑚−1
    • Сумма 𝑆
    𝑛
    = 𝑋
    1
    + · · · + 𝑋
    𝑛
    , где 𝑋
    𝑖
    независимые целочисленные величины, также будет цепью Маркова,
    поскольку
    P(𝑆
    𝑛
    = 𝑥
    𝑛
    |𝑆
    𝑛−1
    = 𝑥
    𝑛−1
    , . . . , 𝑆
    0
    = 𝑥
    0
    ) = P(𝑋
    𝑛
    = 𝑥
    𝑛
    − 𝑥
    𝑛−1
    |𝑆
    𝑛−1
    = 𝑥
    𝑛−1
    , . . . , 𝑆
    0
    = 𝑥
    0
    ) =
    P(𝑋
    𝑛
    = 𝑥
    𝑛
    − 𝑥
    𝑛−1
    ) = P(𝑋
    𝑛
    = 𝑥
    𝑛
    − 𝑥
    𝑛−1
    |𝑆
    𝑛−1
    = 𝑥
    𝑛−1
    ) = P(𝑆
    𝑛
    = 𝑥
    𝑛
    |𝑆
    𝑛−1
    = 𝑥
    𝑛−1
    ).
    Такую последовательность называют случайным блужданием.
    • Пусть 𝑆
    𝑛
    = 𝑋
    1
    + · · · + 𝑋
    𝑛
    , где 𝑋
    𝑖
    — независимые, P(𝑋
    𝑖
    = 1) = P(𝑋
    𝑖
    = −1) = 1/2
    . Предположим также, что если 𝑆
    𝑛
    оказывается равным 𝑎 или −𝑎, где 𝑎 > 0 то после этого 𝑆
    𝑛+1
    обязательно равно, соответственно,
    𝑎 − 1
    и −𝑎 + 1. Такую последовательность называют случайным блужданием с отражением. Это также марковская цепь непосредственно из определения.
    • Возьмем 𝑎 = 3 и добавим к той же модели добавить задержку: если 𝑆
    𝑛
    равно 3, а 𝑆
    𝑛−1
    = 2
    (или -3 и -2,
    соответственно), то 𝑆
    𝑛+1
    всегда равно 3 (или −3), после чего 𝑆
    𝑛+2
    = 2
    (или −2), соответственно. Тогда марковское свойство нарушится. Действительно, теперь
    P(𝑆
    8
    = 3|𝑆
    7
    = 3, 𝑆
    6
    = 3, 𝑆
    5
    = 2, 𝑆
    4
    = 3, 𝑆
    3
    = 3, 𝑆
    2
    = 2, 𝑆
    1
    = 1) = 0,
    P(𝑆
    8
    = 3|𝑆
    7
    = 3, 𝑆
    6
    = 2, 𝑆
    5
    = 1, 𝑆
    4
    = 0, 𝑆
    3
    = 1, 𝑆
    2
    = 0, 𝑆
    1
    = 1) = 1.
    7.2
    Эквивалентные определения
    Дадим несколько эквивалентных определений цепи Маркова
    Лемма 7.1. Следующие условия эквивалентны:
    1. 𝑋
    𝑛
    — цепь Маркова;
    2. Для любых 𝑘, 𝑙, 𝐴 ∈ R
    𝑘
    , 𝐵 ∈ R
    𝑙
    , 𝑖 ∈ N, выполнено соотношение
    P((𝑋
    𝑘+1
    , . . . , 𝑋
    𝑘+𝑙
    ) ∈ 𝐵, (𝑋
    𝑘−1
    , . . . , 𝑋
    0
    ) ∈ 𝐴|𝑋
    𝑘
    = 𝑖) =
    P((𝑋
    𝑘+1
    , . . . , 𝑋
    𝑘+𝑙
    ) ∈ 𝐵|𝑋
    𝑘
    = 𝑖)P((𝑋
    𝑘−1
    , . . . , 𝑋
    0
    ) ∈ 𝐴|𝑋
    𝑘
    = 𝑖).
    43

    3. Вероятность P(𝑋
    𝑛
    = 𝑥
    𝑛
    |𝑋
    𝑛−1
    = 𝑥
    𝑛−1
    , . . . , 𝑋
    0
    = 𝑥
    0
    ) зависит только от 𝑥
    𝑛
    , 𝑥
    𝑛−1
    , 𝑛; Это свойство ро- мантически называют ”прошлое не зависит от будущего при условии настоящего”.
    Доказательство.
    1) Убедимся, что из первого следует второе.
    Заметим, что
    P(𝑋
    𝑛
    = 𝑥
    𝑛
    , . . . , 𝑋
    0
    = 𝑥
    0
    ) = P(𝑋
    𝑛
    = 𝑥
    𝑛
    |𝑋
    𝑛−1
    = 𝑥
    𝑛−1
    , . . . , 𝑋
    0
    = 𝑥
    0
    ) · · · P(𝑋
    1
    = 𝑥
    1
    |𝑋
    0
    = 𝑥
    0
    )P(𝑋
    0
    = 𝑥
    0
    ) =
    𝑝
    𝑥
    𝑛−1
    ,𝑥
    𝑛
    ,𝑛
    · · · 𝑝
    𝑥
    0
    ,𝑥
    1
    ,1
    P(𝑋
    0
    = 𝑥
    0
    ),
    где 𝑝
    𝑖,𝑗,𝑛
    = P(𝑋
    𝑛
    = 𝑗|𝑋
    𝑛−1
    = 𝑖)
    Рассмотрим пространство
    ̃︀
    Ω = {𝑋
    𝑘
    = 𝑖}
    ,
    ̃︀
    P(𝜔) = P(𝜔|𝑋
    𝑘
    = 𝑖)
    . Тогда мы хотим доказать, что
    ̃︀
    P((𝑋
    𝑘+1
    , . . . , 𝑋
    𝑘+𝑙
    ) ∈ 𝐵, (𝑋
    𝑘−1
    , . . . , 𝑋
    0
    ) ∈ 𝐴) = ̃︀
    P((𝑋
    𝑘+1
    , . . . , 𝑋
    𝑘+𝑙
    ) ∈ 𝐵) ̃︀
    P((𝑋
    𝑘−1
    , . . . , 𝑋
    0
    ) ∈ 𝐴).
    Как мы уже знаем, для доказательства независимости случайных векторов достаточно проверить то, что сов- местная функция масс вектора есть произведение функций масс каждого из них, то есть
    ̃︀
    P(𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    , . . . , 𝑋
    𝑘+𝑙
    = 𝑥
    𝑘+𝑙
    , 𝑋
    𝑘−1
    = 𝑥
    𝑘−1
    , . . . , 𝑋
    0
    = 𝑥
    0
    ) =
    ̃︀
    P(𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    , . . . , 𝑋
    𝑘+𝑙
    = 𝑥
    𝑘+𝑙
    ) ̃︀
    P(𝑋
    𝑘−1
    = 𝑥
    𝑘−1
    , . . . , 𝑋
    0
    = 𝑥
    0
    ),
    откуда
    P(𝑋
    𝑘+𝑙
    = 𝑥
    𝑘+𝑙
    , . . . , 𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    , 𝑋
    𝑘−1
    = 𝑥
    𝑘−1
    , . . . , 𝑋
    0
    = 𝑥
    0
    |𝑋
    𝑘
    = 𝑥
    𝑘
    ) =
    P(𝑋
    𝑘+𝑙
    = 𝑥
    𝑘+𝑙
    , . . . , 𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    |𝑋
    𝑘
    = 𝑥
    𝑘
    )P(𝑋
    𝑘−1
    = 𝑥
    𝑘−1
    , . . . , 𝑋
    0
    = 𝑥
    0
    |𝑋
    𝑘
    = 𝑥
    𝑘
    ).
    Левая часть представима в виде дроби
    P(𝑋
    𝑘+𝑙
    = 𝑥
    𝑘+𝑙
    , . . . , 𝑋
    0
    = 𝑥
    0
    )/P(𝑋
    𝑘
    = 𝑥
    𝑘
    ),
    а правая в виде
    P(𝑋
    𝑘+𝑙
    = 𝑥
    𝑘+𝑙
    , . . . , 𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    , 𝑋
    𝑘
    = 𝑥
    𝑘
    )P(𝑋
    𝑘
    = 𝑥
    𝑘
    , . . . , 𝑋
    0
    = 𝑥
    0
    )/P(𝑋
    𝑘
    = 𝑥
    𝑘
    )
    2
    Заметим, что
    P(𝑋
    𝑘+𝑙
    = 𝑥
    𝑘+𝑙
    , . . . , 𝑋
    𝑘
    = 𝑥
    𝑘
    ) =
    ∑︁
    𝑦
    0
    ,...𝑦
    𝑘−1
    ∈𝑆
    P(𝑋
    𝑘+𝑙
    = 𝑥
    𝑘+𝑙
    , . . . , 𝑋
    𝑘
    = 𝑥
    𝑘
    , 𝑋
    𝑘−1
    = 𝑦
    𝑘−1
    , . . . , 𝑋
    0
    = 𝑦
    0
    ) =
    ∑︁
    𝑦
    0
    ,...𝑦
    𝑘−1
    ∈𝑆
    𝑝
    𝑥
    𝑘+𝑙−1
    ,𝑥
    𝑘+𝑙
    ,𝑘+𝑙
    . . . 𝑝
    𝑥
    𝑘
    ,𝑥
    𝑘+1
    ,𝑘+1
    𝑝
    𝑦
    𝑘−1
    ,𝑥
    𝑘
    ,𝑘
    . . . 𝑝
    𝑦
    0
    ,𝑦
    1
    ,1
    P(𝑋
    0
    = 𝑦
    0
    ) = 𝑝
    𝑥
    𝑘+𝑙−1
    ,𝑥
    𝑘+𝑙
    ,𝑘+𝑙
    . . . 𝑝
    𝑥
    𝑘
    ,𝑥
    𝑘+1
    ,𝑘+1
    P(𝑋
    𝑘
    = 𝑥
    𝑘
    ).
    Следовательно,
    P(𝑋
    𝑘+𝑙
    = 𝑥
    𝑘+𝑙
    , . . . , 𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    , 𝑋
    𝑘
    = 𝑥
    𝑘
    )P(𝑋
    𝑘
    = 𝑥
    𝑘
    , . . . , 𝑋
    0
    = 𝑥
    0
    )/P(𝑋
    𝑘
    = 𝑥
    𝑘
    )
    2
    =
    𝑝
    𝑥
    𝑘+𝑙−1
    ,𝑥
    𝑘+𝑙
    ,𝑘+𝑙
    . . . 𝑝
    𝑥
    0
    ,𝑥
    1
    ,1
    P(𝑋
    0
    = 𝑥
    0
    )/P(𝑋
    𝑘
    = 𝑥
    𝑘
    ).
    Но
    P(𝑋
    𝑘+𝑙
    = 𝑥
    𝑘+𝑙
    , . . . , 𝑋
    0
    = 𝑥
    0
    )/P(𝑋
    𝑘
    = 𝑥
    𝑘
    ) = 𝑝
    𝑥
    𝑘+𝑙−1
    ,𝑥
    𝑘+𝑙
    ,𝑘+𝑙
    . . . 𝑝
    𝑥
    0
    ,𝑥
    1
    ,1
    P(𝑋
    0
    = 𝑥
    0
    )/P(𝑋
    𝑘
    = 𝑥
    𝑘
    ),
    откуда получаем требуемое утверждение.
    2) Из условия 3) вытекает
    P(𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    , 𝑋
    𝑘−1
    = 𝑥
    𝑘−1
    , . . . , 𝑋
    0
    = 𝑥
    0
    |𝑋
    𝑘
    = 𝑥
    𝑘
    ) =
    P(𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    |𝑋
    𝑘
    = 𝑥
    𝑘
    )P(𝑋
    𝑘−1
    = 𝑥
    𝑘−1
    , . . . , 𝑋
    0
    = 𝑥
    0
    |𝑋
    𝑘
    = 𝑥
    𝑘
    ).
    Отсюда
    P(𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    , . . . , 𝑋
    0
    = 𝑥
    0
    ) = P(𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    |𝑋
    𝑘
    = 𝑥
    𝑘
    )P(𝑋
    𝑘
    = 𝑥
    𝑘
    , . . . , 𝑋
    0
    = 𝑥
    0
    ).
    44

    Следовательно,
    P(𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    |𝑋
    𝑘
    = 𝑥
    𝑘
    . . . , 𝑋
    0
    = 𝑥
    0
    ) = P(𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    |𝑋
    𝑘
    = 𝑥
    𝑘
    ),
    а значит зависит только от 𝑥
    𝑘
    , 𝑥
    𝑘+1
    и 𝑘, что и требовалось доказать.
    3) Докажем, что из третьего утверждения следует первое.
    Заметим, что
    P(𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    , 𝑋
    𝑘
    = 𝑥
    𝑘
    ) =
    ∑︁
    𝑦
    0
    ,...,𝑦
    𝑘−1
    P(𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    , 𝑋
    𝑘
    = 𝑥
    𝑘
    , 𝑋
    𝑘−1
    = 𝑦
    𝑘−1
    , . . . , 𝑋
    0
    = 𝑦
    0
    ) =
    ∑︁
    𝑦
    0
    ,...,𝑦
    𝑘−1
    𝑞
    𝑥
    𝑘
    ,𝑥
    𝑘+1
    ,𝑘+1
    · · · 𝑞
    𝑦
    0
    ,𝑦
    1
    ,1
    P(𝑋
    0
    = 𝑦
    0
    ),
    где
    𝑞
    𝑖,𝑗,𝑛
    = P(𝑋
    𝑛
    = 𝑗|𝑋
    𝑛−1
    = 𝑖, 𝑋
    𝑛−2
    = 𝑥
    𝑛−2
    , . . . , 𝑋
    0
    = 𝑥
    0
    ).
    Тогда
    P(𝑋
    𝑘+1
    = 𝑥
    𝑘+1
    , 𝑋
    𝑘
    = 𝑥
    𝑘
    ) =
    ∑︀
    𝑦
    0
    ,...,𝑦
    𝑘−1
    𝑞
    𝑥
    𝑘
    ,𝑥
    𝑘+1
    ,𝑘+1
    𝑞
    𝑦
    𝑘−1
    ,𝑥
    𝑘
    ,𝑘
    · · · 𝑞
    𝑦
    0
    ,𝑦
    1
    ,1
    P(𝑋
    0
    = 𝑦
    0
    )
    ∑︀
    𝑦
    0
    ,...,𝑦
    𝑘−1
    𝑞
    𝑦
    𝑘−1
    ,𝑥
    𝑘
    ,𝑘
    · · · 𝑞
    𝑦
    0
    ,𝑦
    1
    ,1
    P(𝑋
    0
    = 𝑦
    0
    )
    = 𝑞
    𝑥
    𝑘
    ,𝑥
    𝑘+1
    ,𝑘+1
    Лемма доказана
    Следствие 7.1.
    В частности, из определения 2) вытекает более общая форма марковского свойства (
    5
    ):
    P((𝑋
    𝑘+1
    , . . . , 𝑋
    𝑘+𝑙
    ) ∈ 𝐵|𝑋
    𝑘
    = 𝑖, (𝑋
    𝑘−1
    , . . . , 𝑋
    0
    ) ∈ 𝐴) = P((𝑋
    𝑘+1
    , . . . , 𝑋
    𝑘+𝑙
    ) ∈ 𝐵|𝑋
    𝑘
    = 𝑖).
    Крайне важно, что условие 𝑋
    𝑘
    = 𝑖
    оставляется при этом в такой локальной форме, иначе свойство перестанет быть верным. В частности, функция 𝑓(𝑋
    𝑛
    )
    от марковской цепи необязательно будет марковской цепью.
    7.3
    Матрица вероятностей перехода
    Определение 7.2.
    Мы будем рассматривать однородные цепи Маркова, то есть такие, что
    P(𝑋
    𝑚
    = 𝑗|𝑋
    𝑚−1
    = 𝑖) = 𝑝
    𝑖,𝑗
    при всех 𝑚.
    Тогда совместная функция масс (𝑋
    0
    , . . . , 𝑋
    𝑛
    )
    будет задаваться соотношением
    P(𝑋
    𝑛
    = 𝑥
    𝑛
    , . . . , 𝑋
    0
    = 𝑥
    0
    ) = P(𝑋
    0
    = 𝑥
    0
    )𝑝
    𝑥
    0
    ,𝑥
    1
    · · · 𝑝
    𝑥
    𝑛−1
    ,𝑥
    𝑛
    Определение 7.3.
    Матрица 𝑃 = (𝑝
    𝑖,𝑗
    , 𝑖, 𝑗 ∈ 𝑆)
    называется матрицей вероятностей перехода цепи Маркова (в случае счетного S это бесконечная матрица).
    Такой матрицей может быть любая стохастическая матрица — матрица с неотрицательными элементами,
    сумма которых по каждой строке равна 1.
    Пример 7.2.
    Для случайного блуждания и случайного блуждания с отражением м.в.п. будут, соответственно,
    иметь вид




    0 1/2 0
    1/2 0
    0 0
    1/2 0
    1/2




    ,








    0 1
    0 0
    0 0
    0 1/2 0
    1/2 0
    0 0
    1/2 0
    1/2 0
    0 0
    0 1
    0








    Рассмотрим вектор ⃗𝑞
    (𝑛)
    = (𝑞
    (𝑛)
    1
    , . . . ) = (P(𝑋
    𝑛
    = 1), . . . )
    . При этом
    𝑞
    (𝑛)
    𝑗
    =
    ∑︁
    𝑖∈𝑆
    P(𝑋
    𝑛
    = 𝑗|𝑋
    𝑛−1
    = 𝑖)P(𝑋
    𝑛−1
    = 𝑖) =
    (︁

    𝑞
    (𝑛−1)
    𝑃
    )︁
    𝑗
    45

    Таким образом,

    𝑞
    (𝑛)
    = ⃗
    𝑞
    (0)
    𝑃
    𝑛
    Иначе говоря, вероятность обнаружить цепь Маркова в состоянии 𝑖 в момент 𝑛 представляет собой 𝑖-й элемент вектора ⃗𝑞
    (0)
    𝑃
    𝑛
    . Аналогичным образом доказывается так называемое уравнение Колмогорова-Чепмена:
    𝑃
    (𝑛)
    = 𝑃
    (𝑚)
    𝑃
    (𝑛−𝑚)
    , 0 < 𝑛 < 𝑚,
    где 𝑃
    (𝑛)
    = (𝑝
    (𝑛)
    𝑖,𝑗
    , 𝑖, 𝑗 ∈ 𝑆)
    , 𝑝
    (𝑛)
    𝑖,𝑗
    = P(𝑋
    𝑛
    = 𝑗|𝑋
    0
    = 𝑖)
    . Иначе говоря, матрица вероятностей перехода за 𝑛 шагов
    𝑃
    (𝑛)
    cовпадает с 𝑃
    𝑛
    , где 𝑃 — матрица вероятностей перехода.
    7.4
    Классификация состояний
    Заметим, что можно отражать взаимосвязь между состояниями с помощью графа состояний. Расставим со- стояния цепи в виде вершин нашего ориентированного графа, проведем ребро из состояния 𝑖 в состояние 𝑗, если
    𝑝
    𝑖,𝑗
    > 0
    . Введем несколько видов состояний цепи:
    Рис. 8: Граф состояний для произвольной цепи из трех состояний, в которой 𝑝
    2,3
    = 𝑝
    3,2
    = 0
    Рис. 9: 1) Из левого состояния следует правое; 2) Левое и правое состояние сообщаются; 3) Желтое состояние поглощающее; 4) Желтое состояние непериодично.
    46

    Определение 7.4.
    1. Из состояния 𝑖 следует состояние 𝑗, если найдется такое 𝑛, что 𝑝
    𝑖,𝑗
    (𝑛) > 0
    . В терминах графа состояний это означает, что существует путь из 𝑖 в 𝑗.
    2. Состояния 𝑖, 𝑗 называются сообщающимися, если из 𝑖 следует 𝑗, а из состояния 𝑗 следует 𝑖. Иначе говоря,
    существует цикл, проходящий через 𝑖, 𝑗.
    3. Состояние 𝑖 поглощающее, если из него следует только оно само.
    4. Состояние 𝑖 существенное, если для любого 𝑗, которое следует из 𝑖, состояния 𝑖 и 𝑗 сообщаются. В терминах графа состояний это значит, что любой путь, выходящий из 𝑖, можно продлить так, что он вернется в 𝑖.
    5. Состояние 𝑖 непериодическое, если оно существенно и существует несколько циклов из i в i, взаимно простой длины. Иначе говоря, НОД длин циклов, проходящих через состояние i, равен единице.
    6. Состояние 𝑖 периодическое с периодом 𝑑, если НОД длин циклов, проходящих через состояние 𝑖, равен 𝑑.
    Пример 7.3.
    Рассмотрим простое случайное блуждание 𝑆
    𝑛
    = 𝑋
    1
    + · · · + 𝑋
    𝑛
    , где 𝑋
    𝑖
    = ±1
    независимы. Тогда любое состояние из Z существенно, все они сообщаются, поглощающих состояний нет, период у всех состояний одинаковый и равен 2.
    Представим себе ветвящийся процесс — в начале есть одна частица, затем она дает случайное число потомков
    (возможно 0), каждый из потомков (если они есть) независимо от остальных дает новых потомков по тому же закону и так далее. Тогда 0 будет поглощающим состоянием, все остальные состояния будут несущественными.
    Цепь называют неразложимой, если любые два состояния в ней сообщаются.
    Лемма 7.2. Состояния любой цепи распадаются на непересекающиеся классы 𝐸
    0
    , 𝐸
    1
    , . . . 𝐸
    𝑘
    , . . . , где 𝐸
    0
    — мно- жество всех несущественных состояний, а все состояния класса 𝐸
    𝑘
    при любом 𝑘 сообщаются и все следующие из них состояния лежат в классе 𝐸
    𝑘
    Иначе говоря, можно перенумеровать состояния таким образом, что матрица вероятностей перехода ста- нет блочной (кроме несущественных состояний):












    𝐸
    0
    𝐸
    1
    𝐸
    2
    𝐸
    0
    𝑝
    1,1
    𝑝
    1,2
    𝑝
    1,3
    𝑝
    1,4
    𝑝
    1,5
    𝑝
    1,6
    𝑝
    1,7
    𝑝
    2,1
    𝑝
    2,2
    𝑝
    2,3
    𝑝
    2,4
    𝑝
    2,5
    𝑝
    2,6
    𝑝
    2,7
    𝐸
    1 0
    0
    𝑝
    3,3
    𝑝
    3,4
    𝑝
    3,5 0
    0 0
    0
    𝑝
    4,3
    𝑝
    4,4
    𝑝
    4,5 0
    0 0
    0
    𝑝
    5,3
    𝑝
    5,4
    𝑝
    5,5 0
    0
    𝐸
    2 0
    0 0
    0 0
    𝑝
    6,6
    𝑝
    6,7 0
    0 0
    0 0
    𝑝
    7,6
    𝑝
    7,7












    Доказательство.
    Выделим класс несущественых состояний 𝐸
    0
    , рассмотрим одно из существенных состояний
    (если такое найдется) и все состояния, сообщающиеся с ним. Выберем одно из не вошедших туда существенных состояний (если такое найдется) и рассмотрим все состояния, сообщающиеся с ним. И так далее. Полученное разбиение будет иметь требуемый вид.
    Действительно, сообщаемость транзитивна — если 𝑖 сообщается с 𝑗, а 𝑗 с 𝑘, то 𝑖 сообщается с 𝑘. Значит в каждом классе все состояния сообщаются. При этом если 𝑖 и 𝑗 из разных классов (не из нулевого), из 𝑖 следует
    𝑗
    , то из 𝑗 следует 𝑖 (в силу существенности 𝑗), а значит 𝑖 и 𝑗 сообщаются. Но тогда сообщаются и порождающие классов 𝑖 и 𝑗, а это противоречит тому, что эти классы разные.
    Таким образом, конечные цепи Маркова устроены следующим образом: возможно цепь стартует из несуще- ственного состояния, спустя какое-то время она попадает в один из неразложимых классов 𝐸
    𝑗
    , 𝑗 > 0, а затем совершает переходы между состояниями из этого класса. С момента попадания в неразложимый класс цепь начинает вести себя как неразложимая
    Лемма 7.3
    (cолидарности). Пусть цепь неразложимая. Тогда все ее состояния имеют одинаковую суще- ственность (все существенны и все несущественны), одинаковую периодичность (все непериодичны или все периодичны с одинаковым периодом).
    47

    Мы оставим эту лемму для самостоятельного доказательства в качестве несложного упражнения. В силу леммы у неразложимой цепи периоды всех состояний равны одному и тому же числу 𝑑. Это число называют периодом цепи 𝑑.
    Отметим также еще один результат, выступающий в качестве домашней задачи
    Лемма 7.4. Множество состояний 𝑆 неразложимой цепи с периодом 𝑑 разбивается на такие классы 𝐷
    1
    ,...,𝐷
    𝑑
    ,
    что из любого состояния, лежащего в 𝐷
    1
    , можно перейти только в состояние из 𝐷
    2
    , из любого состояния из 𝐷
    2
    — только в 𝐷
    3
    и так далее, из любого состояния из 𝐷
    𝑑
    — только в 𝐷
    1
    Соответственно, цепь 𝑋
    𝑑
    , 𝑋
    2𝑑
    , ..., начинающаяся в состоянии из некоторого класса 𝐷
    𝑖
    , уже будет нераз- ложимой и непериодичной цепью.
    Рис. 10: Периодическая цепь с периодом 4: из состояний каждого цвета можно попасть только в состояния следующего цвета
    7.5
    Эргодическая теорема
    Мы хотели бы понять как будут у марковской цепи 𝑋
    𝑛
    устроены вероятности P(𝑋
    𝑛
    = 𝑖)
    при больших 𝑛.
    Пример 7.4.
    Пусть 𝑋
    𝑛
    — цепь с двумя состояниями 1 и 2, 𝑝
    1,1
    = 𝑝
    , 𝑝
    2,2
    = 𝑞
    , причем начальное распределение
    (1/3, 2/3)
    . При 𝑝 = 𝑞 = 1 получаем
    P(𝑋
    𝑛
    = 1|𝑋
    𝑛−1
    = 2) = P(𝑋
    𝑛
    = 2|𝑋
    𝑛−1
    = 1) = 1,
    цепь периодическая и P(𝑋
    𝑛
    = 𝑖)
    это последовательность 1/3, 2/3, 1/3, 2/3 и так далее, которая расходится.
    Поэтому в этом случае предела нет.
    При 𝑝 = 1/2, 𝑞 = 3/4 можно утверждать, что
    𝑝
    (𝑛)
    = 𝑝
    (𝑛−1)
    𝑃 = (1/3, 2/3),
    поскольку вектор (1/3, 2/3) при умножении слева на нашу матрицу перейдет в себя. Таким образом, P(𝑋
    𝑛
    =
    1) = 1/3
    , P(𝑋
    𝑛
    = 2) = 2/3
    при всех 𝑛.
    Таким образом, проще всего дело обстоит, если вектор начального распределения 𝑝
    (0)
    является левым соб- ственным вектором матрицы 𝑃 с собственным значением 1, то есть 𝑝
    (0)
    𝑃 = 𝑝
    (0)
    . Тогда 𝑝
    (𝑛)
    = 𝑝
    (0)
    Определение 7.5.
    Такой вектор ⃗𝑝 из вероятностей, что ⃗𝑝𝑃 = ⃗𝑝 называется стационарным распределением вероятностей для цепи Маркова с матрицей вероятностей перехода 𝑃 .
    Теорема 7.1
    (Эргодическая теорема о цепи Маркова). Пусть 𝑋
    𝑛
    — неразложимая непериодическая цепь
    Маркова с конечным числом состояний. Тогда вне зависимости от начального распределения
    P(𝑋
    𝑛
    = 𝑗) → 𝜋
    𝑗
    , 𝑛 → ∞,
    где 𝜋 — стационарное распределение. При этом стационарное распределение у данной цепи единственно и все вероятности 𝜋
    𝑗
    положительны.
    Более того, при некоторых 𝐶 > 0, 𝑞 ∈ (0, 1) верно неравенство |P(𝑋
    𝑛
    = 𝑗) − 𝜋
    𝑗
    | < 𝐶𝑞
    𝑛
    48

    Доказательство.
    Доказательство может быть проведено различными путями. Мы воспользуемся методом, ко- торый называется методом одного вероятностного пространства (coupling). Разобьем доказательство на четыре леммы
    Лемма 7.5. Если цепь неразложима и непериодична, то найдется такое число 𝑙
    0
    , что при всех 𝑙 > 𝑙
    0
    матрица
    𝑃
    𝑙
    состоит только из положительных чисел.
    Доказательство.
    Рассмотрим состояние 𝑖 и покажем, что найдется такое 𝑚, что 𝑝
    (𝑚+𝑗)
    𝑖,𝑖
    > 0
    при всех 𝑚 > 0.
    Иначе говоря, существуют циклы, проходящие через 𝑖, любой длины более чем 𝑚.
    В силу непериодичности найдутся циклы таких длин 𝑑
    1
    , . . . , 𝑑
    𝑘
    , что НОД(𝑑
    1
    , . . . , 𝑑
    𝑘
    )=1. Следовательно, най- дутся такие целые 𝑎
    1
    , . . . , 𝑎
    𝑘
    , что
    𝑎
    1
    𝑑
    1
    + · · · + 𝑎
    𝑘
    𝑑
    𝑘
    = 1.
    Это утверждение является следствием утверждения о том, что для любых двух чисел 𝑎, 𝑏 их НОД можно представить в виде 𝑎𝑐 + 𝑏𝑑 для некоторых целых 𝑐, 𝑑.
    Умножим это тождество на 𝑛 = 1, 2, . . . , 𝑑
    1
    и получим тождества
    𝑛𝑎
    1
    𝑑
    1
    + · · · + 𝑛𝑎
    𝑘
    𝑑
    𝑘
    = 𝑛.
    Добавим к каждому из этих тождеств 𝑗 = 𝑑
    1
    ∑︀
    𝑘
    𝑖=1
    |𝑎
    𝑖
    |𝑑
    𝑖
    и получим
    (𝑛𝑎
    1
    + 𝑑
    1
    |𝑎
    1
    |)𝑑
    1
    + · · · + (𝑛𝑎
    𝑘
    + 𝑑
    1
    |𝑎
    𝑘
    |)𝑑
    𝑘
    = 𝑛 + 𝑚.
    Теперь все коэффициенты при 𝑑
    1
    , . . . , 𝑑
    𝑘
    неотрицательны. Следовательно, мы можем получить, комбинируя циклы 𝑑
    1
    , . . . , 𝑑
    𝑘
    в каких-то количествах, циклы всевозможных длин от 𝑚 + 1 до 𝑚 + 𝑑
    1
    . С другой стороны, мы можем сверх этого добавить любое количество циклов длины 𝑑
    1
    , а, значит, мы можем получить любую длину цикла больше 𝑚.
    При этом в силу неразложимости найдется такое 𝑚
    0
    , что для любых состояний 𝑗 и 𝑘 найдется путь длины не больше чем 𝑚
    0
    из 𝑗 в 𝑘. Значит, для любых состояний 𝑗 и 𝑘 существует путь любой длины 𝑛 более чем
    𝑚 + 1 + 2𝑚
    0
    из 𝑗 в 𝑘. Действительно, мы можем перейти не более чем за 𝑚
    0
    шагов из 𝑗 в 𝑖, не более чем за 𝑚
    0
    шагов из 𝑖 в 𝑘, а оставшиеся нам до 𝑛 шаги блуждать по циклу, проходящему через 𝑖 (пользуясь тем, что у нас есть циклы любой длины более чем 𝑛 − 2𝑚
    0
    ).
    Следовательно, 𝑃
    𝑚+2𝑚
    0
    +1
    состоит только из положительных чисел. Лемма доказана.
    Лемма 7.6. Если цепь 𝑌
    𝑛
    имеет начальное распределение ⃗
    𝜋, то P(𝑌
    𝑛
    = 𝑘) = 𝜋
    𝑘
    при всех 𝑘.
    Доказательство.
    Лемма практически очевидна, ведь мы доказали, что если 𝑞
    (𝑛)
    = (P(𝑌
    𝑛
    = 1), . . . )
    , то
    𝑞
    (𝑛)
    = 𝜋𝑃
    (𝑛)
    Но
    𝜋𝑃
    (𝑛)
    = 𝜋𝑃
    𝑛
    = (𝜋𝑃 )𝑃
    𝑛−1
    = 𝜋𝑃
    𝑛−1
    = . . . = 𝜋.
    Увы, у нашей цепи 𝑋
    𝑛
    может быть другое начальное распределение.
    Давайте рассмотрим обе наших цепи 𝑋
    𝑛
    и 𝑌
    𝑛
    (будем считать их независимыми), рассмотрим случайную величину 𝑇 — время до первого совпадения наших цепей:
    {𝑇 = 𝑘} = {𝑋
    𝑖
    ̸= 𝑌
    𝑖
    , 𝑖 < 𝑘, 𝑋
    𝑘
    = 𝑌
    𝑘
    }.
    Лемма 7.7. Найдутся такие 𝐶 > 0, 𝑞 ∈ (0, 1), что
    P(𝑇 > 𝑘) < 𝐶𝑞
    𝑘
    при всех 𝑘 ∈ N.
    Доказательство.
    P(𝑇 > 𝑚) = P(𝑋
    𝑖
    ̸= 𝑌
    𝑖
    , 𝑖 ≤ 𝑚).
    49

    Выберем такое 𝑙, что 𝑃
    𝑙
    состоит из положительных элементов и обозначим через 𝑝 минимальную вероятность в 𝑃
    𝑙
    . Тогда
    P(𝑇 > 𝑚𝑙) =
    ∑︁
    𝑦
    1
    ,...,𝑦
    𝑚𝑙
    P(𝑋
    𝑖
    ̸= 𝑦
    𝑖
    , 𝑖 ≤ 𝑚𝑙)P(𝑌
    1
    = 𝑦
    1
    , . . . , 𝑌
    𝑚𝑙
    = 𝑦
    𝑚𝑙
    ).
    При этом при любом 𝑦
    𝑙
    P(𝑋
    𝑖
    ̸= 𝑦
    𝑖
    , 𝑖 ≤ 𝑚𝑙) ≤
    ∑︁
    𝑗∈𝑆
    P(𝑋
    𝑖
    ̸= 𝑦
    𝑖
    , 𝑖 ≤ (𝑚 − 1)𝑙, 𝑋
    (𝑚−1)𝑙
    = 𝑗)P(𝑋
    𝑙
    ̸= 𝑦
    𝑙
    |𝑋
    0
    = 𝑗) ≤ P(𝑋
    𝑖
    ̸= 𝑦
    𝑖
    , 𝑖 ≤ (𝑚 − 1)𝑙)(1 − 𝑝).
    Следовательно,
    P(𝑇 > 𝑚𝑙) ≤ (1 − 𝑝)
    𝑚
    ∑︁
    𝑦
    1
    ,...,𝑦
    𝑚𝑙
    P(𝑌
    1
    = 𝑦
    1
    , . . . , 𝑌
    𝑚𝑙
    = 𝑦
    𝑚𝑙
    ) = 𝑞
    𝑚𝑙
    при некотором 𝑞 = 1 − 𝑝 < 1. При этом при 𝑚𝑙 ≤ 𝑘 ≤ (𝑚 + 1)𝑙 имеем
    P(𝑇 > 𝑘) ≤ P(𝑇 > 𝑚𝑙) ≤ 𝑞
    𝑚𝑙
    = 𝑞
    𝑘−𝑚𝑙
    𝑞
    𝑘
    ≤ 𝑞
    −𝑙+1
    𝑞
    𝑘
    ≤ 𝐶𝑞
    𝑘
    ,
    где 𝐶 = 𝑞
    −𝑙+1
    . Лемма доказана.
    Рассмотрим случайные величины
    𝑍
    𝑛
    =
    {︂
    𝑋
    𝑛
    ,
    𝑛 ≤ 𝑇,
    𝑌
    𝑛
    ,
    𝑛 > 𝑇.
    Лемма 7.8. Последовательность 𝑍
    𝑛
    — цепь Маркова с матрицей вероятностей перехода 𝑃 .
    Доказательство.
    Запишем для 𝑍
    𝑛
    P(𝑍
    𝑛
    = 𝑖
    𝑛
    |𝑍
    𝑛−1
    = 𝑖
    𝑛−1
    , . . . , 𝑍
    0
    = 𝑖
    0
    ) = P(𝑍
    𝑛
    = 𝑖
    𝑛
    , . . . , 𝑍
    0
    = 𝑖
    0
    )/P(𝑍
    𝑛−1
    = 𝑖
    𝑛−1
    , . . . , 𝑍
    0
    = 𝑖
    0
    ).
    При этом
    P(𝑍
    𝑛
    = 𝑖
    𝑛
    , . . . , 𝑍
    0
    = 𝑖
    0
    ) = P(𝑇 > 𝑛, 𝑋
    𝑛
    = 𝑖
    𝑛
    , . . . , 𝑋
    0
    = 𝑖
    0
    ) +
    𝑛
    ∑︁
    𝑘=0
    P(𝑇 = 𝑘, 𝑌
    𝑛
    = 𝑖
    𝑛
    , . . . , 𝑌
    𝑘
    = 𝑖
    𝑘
    , 𝑋
    𝑘−1
    = 𝑖
    𝑘−1
    , . . . , 𝑋
    0
    = 𝑖
    0
    ) =
    P(𝑋
    𝑛
    = 𝑖
    𝑛
    , . . . , 𝑋
    0
    = 𝑖
    0
    )P(𝑌
    𝑛
    ̸= 𝑖
    𝑛
    , . . . , 𝑌
    0
    ̸= 𝑖
    0
    ) +
    𝑛
    ∑︁
    𝑘=0
    P(𝑌
    𝑛
    = 𝑖
    𝑛
    , . . . , 𝑌
    𝑘
    = 𝑖
    𝑘
    , 𝑌
    𝑘−1
    ̸= 𝑖
    𝑘−1
    , . . . , 𝑌
    0
    ̸= 𝑖
    0
    )
    ×P(𝑋
    𝑘
    = 𝑖
    𝑘
    , . . . , 𝑋
    0
    = 𝑖
    0
    ).
    Заметим, что
    P(𝑋
    𝑛
    = 𝑖
    𝑛
    , . . . , 𝑋
    0
    = 𝑖
    0
    ) = P(𝑋
    0
    = 𝑖
    0
    )𝑝
    𝑖
    0
    ,𝑖
    1
    · · · 𝑝
    𝑖
    𝑛−1
    ,𝑖
    𝑛
    ,
    P(𝑌
    𝑛
    = 𝑖
    𝑛
    , . . . , 𝑌
    𝑘
    = 𝑖
    𝑘
    , 𝑌
    𝑘−1
    ̸= 𝑖
    𝑘−1
    , . . . , 𝑌
    0
    ̸= 𝑖
    0
    ) = P(𝑌
    𝑘
    = 𝑖
    𝑘
    , 𝑌
    𝑘−1
    ̸= 𝑖
    𝑘−1
    , . . . , 𝑌
    0
    ̸= 𝑖
    0
    )𝑝
    𝑖
    𝑘
    ,𝑖
    𝑘+1
    · · · 𝑝
    𝑖
    𝑛−1
    ,𝑖
    𝑛
    Итого,
    P(𝑍
    𝑛
    = 𝑖
    𝑛
    , . . . , 𝑍
    0
    = 𝑖
    0
    ) = P(𝑋
    0
    = 𝑖
    0
    )𝑝
    𝑖
    0
    ,𝑖
    1
    · · · 𝑝
    𝑖
    𝑛−1
    ,𝑖
    𝑛
    ×
    (︃
    P(𝑌
    𝑛
    ̸= 𝑖
    𝑛
    , . . . , 𝑌
    0
    ̸= 𝑖
    0
    ) +
    𝑛
    ∑︁
    𝑘=0
    P(𝑌
    𝑘
    = 𝑖
    𝑘
    , 𝑌
    𝑘−1
    ̸= 𝑖
    𝑘−1
    , . . . , 𝑌
    0
    ̸= 𝑖
    0
    )
    )︃
    =
    P(𝑋
    0
    = 𝑖
    0
    )𝑝
    𝑖
    0
    ,𝑖
    1
    · · · 𝑝
    𝑖
    𝑛−1
    ,𝑖
    𝑛
    Значит,
    P(𝑍
    𝑛
    = 𝑖
    𝑛
    |𝑍
    𝑛−1
    = 𝑖
    𝑛−1
    , . . . , 𝑍
    0
    = 𝑖
    0
    ) = 𝑝
    𝑖
    𝑛−1
    ,𝑖
    𝑛
    ,
    что и требовалось доказать.
    Раз последовательность 𝑍
    𝑛
    — это тоже цепь Маркова с матрицей перехода 𝑃 , с начальным распределением
    50
    тем же, что и у 𝑋
    𝑛
    , то P(𝑍
    𝑛
    = 𝑘) = P(𝑋
    𝑛
    = 𝑘)
    при всех 𝑛, 𝑘. С другой стороны, {𝑍
    𝑛
    = 𝑘} = {𝑌
    𝑛
    = 𝑘}
    при
    𝑛 > 𝑇
    . Значит,
    |P(𝑍
    𝑛
    = 𝑘) − P(𝑌
    𝑛
    = 𝑘)| ≤ P(𝑇 < 𝑛) ≤ 𝑞
    𝑛
    Остается доказать следующую лемму:
    Лемма 7.9. Неразложимая непериодическая цепь с матрицей перехода 𝑃 имеет единственное стационарное распределение.
    Доказательство.
    Пусть 𝑘 — некоторое состояние, 𝑇 — время прихода в это состояние, то есть {𝑇 = 𝑖} = {𝑋
    𝑗
    ̸=
    𝑘, 𝑗 < 𝑖, 𝑋
    𝑖
    = 𝑘}
    . Рассмотрим
    𝑎
    𝑗
    =

    ∑︁
    𝑛=0
    P(𝑋
    𝑛
    = 𝑗, 𝑇 > 𝑛|𝑋
    0
    = 𝑘),
    где 𝑎
    𝑘
    = 1
    . Тогда утверждается, что ⃗𝑎𝑃 = ⃗𝑎. Действительно, при 𝑖 ̸= 𝑘 имеем
    (⃗𝑎𝑃 )
    𝑖
    =
    ∑︁
    𝑗̸=𝑘

    ∑︁
    𝑛=0
    P(𝑋
    𝑛
    = 𝑗, 𝑇 > 𝑛|𝑋
    0
    = 𝑘)𝑝
    𝑗,𝑖
    + 𝑎
    𝑘
    𝑝
    𝑘,𝑖
    =

    ∑︁
    𝑛=1
    P(𝑋
    𝑛+1
    = 𝑖, 𝑇 > 𝑛 + 1|𝑋
    0
    = 𝑘) + P(𝑋
    1
    = 𝑖|𝑋
    0
    = 𝑘) =

    ∑︁
    𝑛=2
    P(𝑋
    𝑛
    = 𝑖, 𝑇 > 𝑛|𝑋
    0
    = 𝑘) + P(𝑋
    1
    = 𝑖|𝑋
    0
    = 𝑘) = 𝑎
    𝑖
    При 𝑖 = 𝑘 верно тождество
    (⃗𝑎𝑃 )
    𝑘
    =
    ∑︁
    𝑗̸=𝑘

    ∑︁
    𝑛=1
    P(𝑋
    𝑛
    = 𝑗, 𝑇 > 𝑛|𝑋
    0
    = 𝑘)𝑝
    𝑗,𝑘
    + 𝑝
    𝑘,𝑘
    =

    ∑︁
    𝑛=1
    P(𝑇 = 𝑛 + 1) + P(𝑇 = 1) = 1.
    При этом указанные 𝑎
    𝑗
    неотрицательны и оцениваются сверху величиной

    ∑︁
    𝑛=0
    P(𝑋
    𝑛
    = 𝑗, 𝑇 > 𝑛|𝑋
    0
    = 𝑘) ≤

    ∑︁
    𝑛=0
    P(𝑇 > 𝑛) = E𝑇.
    Из тех соображений, что и выше, P(𝑇 > 𝑘) < 𝑞
    𝑘
    при некотором 𝑞 ∈ (0, 1), откуда, в частности, E𝑇 конечно.
    Значит, ⃗𝑎, деленный на сумму координат, будет требуемым стационарным распределением.
    Единственность стационарного распределения вытекает из рассуждений теоремы. Если бы существовало два стационарных распределения, то у вероятностей P(𝑋
    𝑛
    = 𝑖)
    было бы два различных предела
    Замечание 7.1.
    В условиях теоремы вектор
    𝜋
    𝑖
    =
    1
    E𝑇
    𝑖
    будет стационарным распределением, где 𝑇
    𝑖
    — время возвращения из состояния 𝑖 в себя.
    Доказательство.
    Отметим, что при любом 𝑖
    ∑︁
    𝑗∈𝑆

    ∑︁
    𝑛=0
    P(𝑋
    𝑛
    = 𝑗, 𝑇
    𝑖
    > 𝑛|𝑋
    0
    = 𝑖) =

    ∑︁
    𝑛=0
    P(𝑇
    𝑖
    > 𝑛|𝑋
    0
    = 𝑖) = E𝑇
    𝑖
    Из предыдущей леммы любой вектор
    (︃
    1
    E𝑇
    𝑖

    ∑︁
    𝑛=0
    P(𝑋
    𝑛
    = 1, 𝑇
    𝑖
    > 𝑛|𝑋
    0
    = 𝑖), . . . ,
    1
    E𝑇
    𝑖

    ∑︁
    𝑛=0
    P(𝑋
    𝑛
    = |𝑆|, 𝑇
    𝑖
    > 𝑛|𝑋
    0
    = 𝑖)
    )︃
    является стационарным. Но поскольку стационарный вектор единственен, то все такие векторы равны. Но у 𝑖
    вектора 𝑖-я компонента равна 1/E𝑇
    𝑖
    . В силу произвольности 𝑖 имеем требуемое.
    51

    Отметим, что подставляя в качестве начальных распределений векторы (1, 0, . . . , 0), (0, 1, 0, . . . , 0), . . . , (0, . . . , 0, 1),
    мы увидим, что для эргодической цепи Маркова
    P(𝑋
    𝑛
    = 𝑗|𝑋
    0
    = 𝑖) → 𝜋
    𝑗
    , 𝑛 → ∞,
    при любом 𝑖, откуда матрица вероятностей перехода 𝑃
    (𝑛)
    сходится к матрице с постоянными строками, равными

    𝜋
    8
    Общая вероятностная модель
    8.1
    Общее вероятностное пространство
    Вероятностным пространством (Ω, ℱ, P) мы будем называть тройку из:
    1. Пространства элементарных исходов Ω, некоторого множества, на которое мы не накладываем никаких ограничений.
    2. Сигма-алгебры событий ℱ: множества, содержащего некоторые элементы Ω и являющегося сигма-алгеброй,
    где
    Определение 8.1.
    Сигма-алгеброй 𝒜 подмножеств множества 𝐵 называют множество подмножеств 𝐵,
    обладающее следующими свойствами
    (a) 𝐵 ∈ 𝒜;
    (b) Если 𝐴 ∈ 𝒜, то 𝐴 ∈ 𝒜, где дополнение рассматривается до 𝐵;
    (c) Если 𝐴
    1
    , . . . , 𝐴
    𝑛
    , . . .
    принадлежат 𝒜, то множество

    ⋃︁
    𝑛=1
    𝐴
    𝑛
    ∈ 𝒜.
    3. Вероятностной меры P: отображения из ℱ в [0, 1], являющегося вероятностной мерой, где
    Определение 8.2.
    Отображение P из сигма-алгебры ℱ подмножеств Ω в отрезок [0, 1] называется веро- ятностной мерой, если выполнены следующие свойства:
    (a) P(Ω) = 1;
    (b) аддитивность: P(𝐴 + 𝐵) = P(𝐴) + P(𝐵) при любых непересекающихся 𝐴, 𝐵 из ℱ;
    (c) счетная аддитивность:
    P(𝐴
    1
    + 𝐴
    2
    + · · · + 𝐴
    𝑛
    + · · · ) =

    ∑︁
    𝑛=1
    P(𝐴
    𝑛
    ),
    где 𝐴
    𝑖
    — произвольные непересекающиеся подмножества ℱ.
    Пример 8.1.
    Рассмотрим, например, Ω = (0, 1], ℱ = 2
    (0,1]
    — множество всех его подмножеств, P(𝐴) = 𝑘/𝑛, где
    𝑘
    — число точек вида 𝑖/𝑛, 𝑖 ∈ {1, . . . , 𝑛}, в множестве 𝐴.
    Требуемые условия при этом выполнены. Действительно, множество всех подмножеств Ω является сигма- алгеброй, поскольку
    • Ω лежит в ℱ;
    • Дополнение до любого подмножества 𝐴 полуинтервала (0, 1] является подмножеством того же интервала;
    • Если множества лежат в полуинтервале (0, 1], то все их элементы лежат в (0, 1], а значит их объединение являлется подмножеством (0, 1].
    Отображение P является вероятностной мерой, поскольку
    • P((0, 1]) = 𝑛/𝑛 = 1, поскольку полуинтервал (0, 1] содержит 𝑛 указанных точек;
    52

    • P(𝐴 + 𝐵) = 𝑘/𝑛, где 𝑘 — количество указанных точек в 𝐴 и 𝐵 вместе. Конечно же это число равно сумме количеств указанных точек в 𝐴 и 𝐵, поскольку множества не пересекаются;
    • Поскольку точек указанного вида конечное число, то по существу мы можем рассматривать только ко- нечное количество множеств 𝐴
    𝑛
    . Тогда условие вытекает из предыдущего.
    Пример 8.2.
    Рассмотрим Ω — множество (0, 1], ℱ — множество всех содержащихся в нем полуинтервалов, P
    сопоставляет полуинтервалу его длину. Такая тройка не образует вероятностного пространства, поскольку ℱ
    не является сигма-алгеброй. Действительно, объединение полуинтервалов (0, 1/2] и (2/3, 1] не является полуин- тервалом.
    Давайте попробуем дополнить множество ℱ объединениями полуинтервалов, приписывая им вероянтность,
    равную сумме их длин. Однако, свойство 3) сигма-алгебры по-прежнему не будет выполнено. Скажем, объеди- нение полуинтервалов (0, 1 − 1/𝑛] по всем 𝑛 будет интервалом (0, 1), которого в нашем множестве нет. Чуть позже мы поговорим о том, что же еще нужно добавить в ℱ, чтобы получить сигма-алгебру.
    8.2
    Общие рассуждения
    Итак, чтобы описывать более широкий диапазон вероятностных экспериментов мы отказываемся от не бо- лее счетных пространств. Теперь множество возможных исходов Ω будет иметь произвольную мощность. При этом подход ”определим вероятность на элементарных исходов, а оттуда найдем вероятность любого события”
    перестает быть разумным — при случайном выборе точки из отрезка естественно считать, что вероятности всех исходов нулевые и определить отсюда вероятность, скажем, половины отрезка не представляется возможным.
    Мы могли бы пойти по другому пути — считать, что наша вероятность задана на 2
    Ω
    неведомо каким обра- зом, а считать ее только у интересных нам событий. Однако, оказывается, что непротиворечиво определить вероятность на множестве всех подмножеств отрезка [0, 1] уже может быть затруднительным.
    Пример 8.3.
    Представим себе, что мы определили у каждого подмножества 𝐴 полуинтервала (0, 1] вероятность,
    причем так, что при сдвиге множества 𝐴 на любое число 𝑏 ∈ (0, 1) (то есть элементы 𝑎 из 𝐴 переводятся в 𝑎 + 𝑏,
    если 𝑎 + 𝑏 ≤ 1 и в 𝑎 + 𝑏 − 1, если 𝑎 + 𝑏 > 1) вероятность множества не меняется. Скажем, обычная длина должна,
    казалось бы, удовлетворять этому свойству. Однако, оказывается, что такую вероятность определить нельзя.
    Рассмотрим множество 𝐴
    0
    , удовлетворяющее следующим условиям:
    • для любого 𝑥 ∈ (0, 1] найдется такой элемент 𝑎 ∈ 𝐴
    0
    , что 𝑥 − 𝑎 ∈ Q;
    • для любых различных 𝑎, 𝑏 ∈ 𝐴
    0
    величина 𝑎 − 𝑏 ̸∈ Q.
    Множество 𝐴 не конструктивно, однако, такое множество можно построить. Пронумеруем все числа из Q∩(0, 1)
    и рассмотрим 𝐴
    𝑛
    — сдвиги 𝐴
    0
    на 𝑞
    𝑛
    Рис. 11: Красное множество 𝐴
    1
    получается из желтого 𝐴
    0
    сдвигом на 𝑞
    1
    вправо. При этом две оказавшихся правее 1 точки сдвигаются на 1 влево. Аналогично зеленое множество 𝐴
    2
    получается сдвигом на 𝑞
    2
    Тогда 𝐴
    𝑖
    не пересекаются, поскольку если 𝑎 ∈ 𝐴
    𝑖
    ∩ 𝐴
    𝑗
    , то 𝑎
    1
    = 𝑎 − 𝑞
    𝑖
    ∈ 𝐴
    0
    , 𝑎
    2
    = 𝑎 − 𝑞
    𝑗
    ∈ 𝐴
    0
    , а значит 𝑎
    1
    и 𝑎
    2
    отличаются на рациональное число, что противоречит определению 𝐴.
    Значит,
    P
    (︃

    ⋃︁
    𝑛=1
    𝐴
    𝑛
    )︃
    =

    ∑︁
    𝑛=1
    P(𝐴
    𝑛
    ).
    53

    При этом все P(𝐴
    𝑖
    )
    одинаковы, а значит в правой части стоит ряд из одинаковых чисел. Такой ряд может сойтись только если P(𝐴
    𝑖
    ) = 0
    . Следовательно, P(⋃︀

    𝑖=1
    𝐴
    𝑖
    ) = 0
    Однако, ⋃︀

    𝑛=0
    𝐴
    𝑛
    = (0, 1]
    . Действительно, для любого 𝑥 ∈ (0, 1] найдется такое 𝑞
    𝑛
    ∈ Q ∩ (0, 1), что 𝑥 − 𝑞
    𝑛
    ∈ 𝐴
    0
    ,
    а, значит, 𝑥 ∈ 𝐴
    𝑛
    . Таким образом, все элементы полуинтервала лежат в объединении 𝐴
    𝑛
    . Но тогда вероятность
    ⋃︀

    𝑛=0
    𝐴
    𝑛
    равна 1, что приводит нас к противоречию.
    Итак, нельзя построить вероятностную меру на всех подмножествах (0, 1] с простым свойством однородности относительно сдвигов. Поэтому нам приходится выделять более маленькие множества ℱ, исключая оттуда некоторые ”нехорошие” множества.
    8.3
    Свойства сигма-алгебр
    Заметим, что хотя в определении сигма-алгебры присутствует только замкнутость относительно операций дополнения и счетного объединения (то есть эти операции, примененные к элементам сигма-алгебре, также дают элементы сигма-алгебры), но в действительности спектр таких операций куда шире:
    • Если 𝐴
    1
    , . . . , 𝐴
    𝑛
    лежат в ℱ, то ⋃︀
    𝑛
    𝑖=1
    𝐴
    𝑖
    ∈ ℱ
    Можно рассмотреть 𝐴
    𝑖
    = ∅
    , 𝑖 > 𝑛, тогда ⋃︀
    𝑛
    𝑖=1
    𝐴
    𝑖
    =
    ⋃︀

    𝑖=1
    𝐴
    𝑖
    • Если 𝐴
    1
    , . . . , 𝐴
    𝑛
    , . . .
    лежат в ℱ, то ⋂︀

    𝑖=1
    𝐴
    𝑖
    ∈ ℱ
    Действительно,

    ⋂︁
    𝑖=1
    𝐴
    𝑖
    =

    ⋃︁
    𝑖=1
    𝐴
    𝑖
    ,
    где 𝐴
    𝑖
    лежат в ℱ, их объединение также лежит в ℱ, а дополнение к нему также лежит там же.
    • Если 𝐴, 𝐵 лежат в 𝒜, то 𝐴∖𝐵 также лежит в 𝒜, поскольку 𝐴∖𝐵 = 𝐴∩𝐵, а как мы видели выше операции пересечения и дополнения не выводят за пределы сигма-алегбры.
    • Если 𝐴, 𝐵 лежат в 𝒜, то 𝐴∆𝐵 также лежит в 𝒜, поскольку 𝐴∆𝐵 = 𝐴 ∖ 𝐵 ⋃︀ 𝐵 ∖ 𝐴.
    Таким образом, сигма-алгебра замкнута относительно всех основных операций над множества.
    8.4
    Свойства вероятностных мер
    Вероятностная мера также обладает значительно большим количеством свойств, чем указано в ее определе- нии:
    • P(𝐴) = 1 − P(𝐴), поскольку P(𝐴) + P(𝐴) = 1.
    • Верна формула включений-исключений
    P
    (︃
    𝑛
    ⋃︁
    𝑖=1
    𝐴
    𝑖
    )︃
    =
    𝑛
    ∑︁
    𝑖=1
    P(𝐴
    𝑖
    ) −
    ∑︁
    𝑖
    1
    <𝑖
    2
    P(𝐴
    𝑖
    1
    𝐴
    𝑖
    2
    ) +
    ∑︁
    𝑖
    1
    <𝑖
    2
    <𝑖
    3
    P(𝐴
    𝑖
    1
    𝐴
    𝑖
    2
    𝐴
    𝑖
    3
    ) − · · · + (−1)
    𝑛
    P(𝐴
    1
    . . . 𝐴
    𝑛
    ).
    • Верно свойство непрерывности меры снизу: если 𝐴
    1
    ⊂ 𝐴
    2
    ⊂ . . . ⊂ 𝐴
    𝑛
    , то
    P
    (︃

    ⋃︁
    𝑖=1
    𝐴
    𝑖
    )︃
    = lim
    𝑛→∞
    P(𝐴
    𝑛
    ).
    Действительно, положим
    𝐵
    𝑛
    = 𝐴
    𝑛+1
    ∖ 𝐴
    𝑛
    , 𝑛 ≥ 1.
    Тогда 𝐵
    𝑖
    не пересекаются, а значит
    P
    (︃

    ⋃︁
    𝑖=1
    𝐴
    𝑖
    )︃
    = P
    (︃

    ⋃︁
    𝑖=1
    𝐵
    𝑖
    )︃
    =

    ∑︁
    𝑖=1
    P(𝐵
    𝑖
    ) = lim
    𝑛→∞
    𝑛
    ∑︁
    𝑖=1
    P(𝐵
    𝑖
    ) = lim
    𝑛→∞
    P(𝐴
    𝑛+1
    ).
    54

    • Аналогичным образом верно свойство непрерывности меры сверху: если 𝐴
    1
    ⊃ 𝐴
    2
    ⊃ . . . ⊃ 𝐴
    𝑛
    , то
    P
    (︃

    ⋂︁
    𝑖=1
    𝐴
    𝑖
    )︃
    = lim
    𝑛→∞
    P(𝐴
    𝑛
    ).
    Оказывается, что свойство непрерывности заменяет сигма-аддитивность:
    Лемма 8.1. Пусть отображение P из ℱ в [0, 1] удовлетворяет свойствам 1) и 2) вероятностной меры и является непрерывным в нуле (то есть если 𝐴
    1
    ⊃ 𝐴
    2
    ⊃ . . . ), причем ∩𝐴
    𝑛
    = ∅, то
    P(𝐴
    𝑛
    ) → 0, 𝑛 → ∞.
    Тогда P — вероятностная мера.
    Доказательство.
    Пусть 𝐵
    1
    , . . . 𝐵
    𝑛
    , . . .
    — непересекающиеся события. Докажем, что
    P
    (︃

    ∑︁
    𝑛=1
    𝐵
    𝑛
    )︃
    =

    ∑︁
    𝑛=1
    P(𝐵
    𝑛
    ).
    Рассмотрим 𝐴
    𝑚
    =
    ∑︀

    𝑛=𝑚
    𝐵
    𝑛
    . Тогда 𝐴
    𝑚
    вложены и в пересечении дают пустое множество. В силу свойства непрерывности в нуле
    P(𝐴
    𝑚
    ) → 0, 𝑚 → ∞.
    Из свойства 2)
    P
    (︃

    ∑︁
    𝑛=1
    𝐵
    𝑛
    )︃
    = P(𝐵
    1
    ) + · · · + P(𝐵
    𝑚−1]
    ) + P(𝐴
    𝑚
    ).
    Переходя в правой части к пределу по 𝑚 → ∞, получаем в точности требуемое.
    8.5
    Продолжение меры
    Давайте определим самую простую вероятностную меру — ”длину” подмножеств (0, 1].
    Начнем с множеств (𝑎, 𝑏]. Для них положим P((𝑎, 𝑏]) = 𝑏 − 𝑎.
    Перейдем к множествам вида ∑︀
    𝑛
    𝑖=1
    (𝑎
    𝑖
    , 𝑏
    𝑖
    ]
    . Такие множества будем называть простыми. Эта система обра- зует алгебру — объединение счетного числа простых множеств может уже не быть простым, но объединение конечного числа простых множеств будет также простым.
    Дальше длина должна распространиться на счетные объединения этих множеств. Потом на счетные пере- сечения полученных множеств и так далее. Мы сможем доопределять меру на новых множествах до тех пор,
    пока не получим некоторую сигма-алгебру ℱ, на которой наша мера будет определена. Оказывается, что эта процедура не закончится никогда — каждая следующая итерация будет давать новые множества. Однако, все же можно найти минимальную сигма-алгебру.
    Лемма 8.2. Если 𝒜 — некоторое множество подмножеств множества 𝐴, то существует минимальная сигма-алгебра 𝜎(𝒜), содержащая 𝒜, то есть сигма-алгебра, содержащаяся в любой сигма-алгебре, содержащей
    𝒜.
    Доказательство.
    Рассмотрим все сигма-алгебры ℬ, содержащие 𝒜. Тогда рассмотрим пересечение 𝒞 всех таких сигма-алгебр, то есть те подмножества множества 𝐴, которые лежат в каждой из сигма-алгебр ℬ. Покажем, что это сигма-алгебра:
    • Ω ∈ 𝒞, поскольку Ω лежит в любой сигма-алгебре ℬ
    • Если 𝐶 ∈ 𝒞, то 𝐶 лежит в каждой ℬ, 𝐶 лежит в каждой из ℬ, а значит 𝐶 лежит в 𝒞.
    • Если 𝐶
    1
    , . . . ∈ 𝒞
    , то 𝐶
    𝑖
    лежат в каждой ℬ, значит 𝐶
    1
    ∪ . . . 𝐶
    𝑛
    лежит в ℬ, поскольку ℬ — сигма-алгебры.
    Значит объединение лежит в 𝒞, что и требовалось доказать.
    Значит, 𝒞 — сигма-алгебра, содержащаяся во всех содержащих 𝒜 сигма-алгебрах ℬ. При этом она содержит 𝒜,
    что и требуется.
    55

    Итак, распространяя меру с исходной алгебры простых множеств, мы должны в итоге распространить ее на минимальную сигма-алгебру 𝜎(𝒜). Однако, не вполне понятно почему мы это можем сделать непротиворечиво
    — вдруг мы получим для какого-то множества два различных представления в виде счетного объединения,
    причем сумма вероятностей будет различной в первом и втором случае.
    Теорема 8.1
    (Теорема Каратеодори). Пусть вероятностная мера P задана на алгебре 𝒜 и сигма-аддитивна на ней Тогда ее можно продлить на минимальную сигма-алгебру 𝜎(𝒜), содержащую 𝒜, причем единственным образом.
    Отметим, что сигма-аддитивная на сигма-алгебре мера определялась следующим образом:
    для любых непересекающихся 𝐴
    𝑖
    выполнено условие
    P
    (︃

    ∑︁
    𝑖=1
    𝐴
    𝑖
    )︃
    =

    ∑︁
    𝑖=1
    P(𝐴
    𝑖
    ).
    При этом множество ∑︀

    𝑖=1
    𝐴
    𝑖
    лежало в нашей сигма-алгебре в силу условия сигма-аддитивности. Теперь, когда речь идет об алгебре, это уже необязательно так. Но для тех множеств 𝐴 из 𝒜, которые представимы в виде объединения счетного числа непересекающихся множеств 𝐴
    𝑖
    из 𝒜, мы требуем, чтобы вероятность 𝐴 была равна сумме ряда из вероятностей 𝐴
    𝑖
    Мы оставим эту теорему без доказательства, но оценим полезный результат, который она дает: можно задать меру на простых множествах, проверить на них сигма-аддитивность, а отсюда мера автоматически единствен- ным образом продолжится на минимальную сигма-алгебру, содержащую наши простые множества.
    Лемма 8.3. Мера, заданная на полуинтервалах, содержащихся в (0, 1], формулой P((𝑎, 𝑏]) = 𝑏 − 𝑎, единствен- ным образом продолжается на минимальную сигма-алгебру, содержащую такие полуинтервалы.
    Доказательство.
    Указанная мера, как мы уже обсуждали, однозначно задает вероятности всех множеств, пред- ставляющих собой конечные объединения полуинтервалов и дополнения до них. Такие множества образуют алгебру.
    В силу теоремы Каратеодори нам достаточно проверить счетную аддитивность нашей меры на этой алгебре.
    Проверим, пользуясь полученными ранее свойствами, конечную аддитивность и непрерывность меры в нуле.
    Конечная аддитивность достаточно очевидна — если полуинтервал (𝑎, 𝑏] представляет собой конечное объ- единение непересекающихся полуинтервалов (𝑎
    𝑘
    , 𝑏
    𝑘
    ]
    , то один из полуинтервалов (без ограничения общности первый) имеет левый конец 𝑎, а правый конец 𝑏
    1
    , один из полуинтервалов(без ограничения общности второй)
    имеет левый конец 𝑏
    1
    , а правый 𝑏
    2
    и так далее, последний интервал имеет левый конец 𝑏
    𝑘−1
    , а правый 𝑏. Значит сумма длин полуинтервалов равна 𝑏
    1
    − 𝑎 + 𝑏
    2
    − 𝑏
    1
    + · · · + 𝑏 − 𝑏
    𝑛
    = 𝑏 − 𝑎
    , что и требовалось доказать.
    Докажем непрерывность нашей меры P в нуле. Пусть 𝐴
    𝑛
    =
    ⋃︀
    𝑚
    𝑛
    𝑘=1
    (𝑎
    𝑛,𝑘
    , 𝑏
    𝑛,𝑘
    ]
    . Фиксируем 𝜀 > 0 и рассмотрим
    𝐵
    𝑛
    — такие простые множества, что замыкания 𝐵
    𝑛
    (будем обозначать их [𝐵
    𝑛
    ]
    ) лежат в 𝐴
    𝑛
    , но при этом P(𝐵
    𝑛
    ) >
    P(𝐴
    𝑛
    ) − 𝜀/2
    𝑛
    . Например, можно взять 𝐵
    𝑛
    =
    ⋃︀
    𝑚
    𝑛
    𝑘=1
    (𝑎
    𝑛,𝑘
    + 𝜀/2
    𝑘+𝑛
    , 𝑏
    𝑛,𝑘
    − 𝜀/2
    𝑘+𝑛
    ]
    , где (𝑎
    𝑛,𝑘
    , 𝑏
    𝑛,𝑘
    ]
    — полуинтервалы,
    входящие в состав 𝐴
    𝑛
    . Тогда счетное пересечение [𝐵
    𝑛
    ]
    содержится в счетном пересечении 𝐴
    𝑛
    , а значит пусто.
    Но тогда значит и некоторое конечное пересечение [𝐵
    1
    ] ∩ . . . ∩ [𝐵
    𝑛
    0
    ]
    пусто. Действительно, множества 𝐶
    𝑛
    =
    [0, 1] ∖ [𝐵
    𝑛
    ]
    образуют открытое покрытие компакта [0, 1]. Выделим из него конечное подпокрытие 𝐶
    1
    , . . . , 𝐶
    𝑛
    0
    Тогда [𝐵
    1
    ], . . . , [𝐵
    𝑛
    0
    ]
    имеют пустое пересечение.
    Значит, P(𝐵
    1
    ∩ . . . ∩ 𝐵
    𝑛
    0
    ) = 0
    . Но тогда
    P(𝐴
    𝑛
    0
    ) = P(𝐴
    𝑛
    0
    ∖ (𝐵
    1
    ∩ . . . ∩ 𝐵
    𝑛
    0
    )) + P(𝐵
    1
    ∩ . . . ∩ 𝐵
    𝑛
    0
    ) = P
    (︃
    𝑛
    0
    ⋃︁
    𝑖=1
    (𝐴
    𝑖
    ∖ 𝐵
    𝑖
    )
    )︃
    <
    𝑛
    0
    ∑︁
    𝑖=1
    𝜀
    2
    𝑖
    < 𝜀.
    Следовательно, при любом 𝜀 > 0
    lim
    𝑛→∞
    P(𝐴
    𝑛
    ) < P(𝐴
    𝑛
    0
    ) < 𝜀.
    В силу произвольности 𝜀 указанный предел равен нулю, что и требовалось доказать.
    Итак, мы построили вероятностную меру, называемую мерой Лебега. Теперь мы можем определить уже неве- роятностную меру
    56

    Определение 8.3.
    Отображение 𝜇 из сигма-алгебры ℱ подмножеств Ω в [0, +∞) называется мерой, если вы- полнены следующие свойства:
    1. аддитивность: 𝜇(𝐴 + 𝐵) = 𝜇(𝐴) + 𝜇(𝐵) при любых непересекающихся 𝐴, 𝐵 из ℱ;
    2. счетная аддитивность:
    𝜇(𝐴
    1
    + 𝐴
    2
    + · · · + 𝐴
    𝑛
    + · · · ) =

    ∑︁
    𝑛=1
    𝜇(𝐴
    𝑛
    ),
    где 𝐴
    𝑖
    — произвольные непересекающиеся подмножества ℱ.
    Если 𝜇(Ω) < +∞, то мера называется конечной. Выше в теореме Каратеодори мы могли рассматривать любую конечную меру.
    Мы задали меру Лебега (будем обозначать ее 𝜆) на [0, 1]. На любом другом отрезке [𝑛, 𝑛 + 1] будет полагать меру той же самой, то есть мера множества 𝐴, получаемого сдвигом множества 𝐵 из отрезка [0, 1], должна быть равна мере множества 𝐴.
    Наконец, для любого 𝐴 ⊂ R положим
    𝜆(𝐴) =
    ∑︁
    𝑛∈Z
    𝜆(𝐴 ∩ [𝑛, 𝑛 + 1]).
    Это мера Лебега на прямой, то, что мы привыкли называть длиной.
    9
    Случайные величины в общем случае
    9.1
    Борелевская сигма-алгебра
    На прошлой лекции мы обсудили, что мера Лебега может быть распространена с полуинтервалов (𝑎, 𝑏] внутри
    (0, 1]
    на минимальную сигма-алгебру, содержащую все полуинтервалы, единственным образом.
    Определение 9.1.
    Минимальная сигма-алгебра ℬ(𝐴), содержащая все открытые подмножества множества 𝐴,
    называется борелевской.
    Лемма 9.1. Борелевская сигма-алгебра подмножеств (0, 1] совпадает с минимальной сигма-алгеброй, содер- жащей все полуинтервалы.
    Доказательство.
    1) Покажем, что сигма-алгебра, содержащая все полуинтервалы, содержит все открытые мно- жества. Для этого заметим, что любой интервал (𝑎, 𝑏) должен лежать в нашей сигма-алгебре, поскольку
    (𝑎, 𝑏) =

    ⋃︁
    𝑛=1
    (︂
    𝑎, 𝑏 −
    1
    𝑛
    ]︂
    Но тогда и счетные объединения интервалов должны в ней лежать. Значит все открытые множества содержатся в нашей минимальной сигма-алгебре.
    2) Покажем, что сигма-алгебра, содержащая все открытые множества, содержит все полуинтервалы. Действи- тельно,
    (𝑎, 𝑏] =

    ⋃︁
    𝑛=1
    (︂
    𝑎, 𝑏 +
    1
    𝑛
    )︂
    Следовательно, любая сигма-алгебра, содержащая все полуинтервалы, содержит все открытые множества, а сигма-алгебра, содержащая все открытые множества, содержит все полуинтервалы. Значит минимальные сигма- алгебры в обоих случаях одинаковые.
    Распространив меру Лебега на всю прямую мы можем найти меру каждого борелевского множества ℬ(R).
    Аналогичным образом, можно определить меру Лебега на плоскости (то есть площадь), начав с прямоугольни- ков вида (𝑎, 𝑏]×(𝑐, 𝑑], меру которых положим (𝑑−𝑐)(𝑏−𝑎). Так же можно определить меру Лебега в трехмерном пространстве (объем) или в пространствах большей размерности.
    57

    9.2
    Геометрическая вероятность
    Примером вероятностного пространства является тройка 𝐴 ⊂ R
    𝑘
    , ℱ = ℬ(𝐴), P(𝐵) = 𝑉 (𝐵)/𝑉 (𝐴), 𝐵 ⊆ 𝐴, где
    𝑉
    – объем (или, выражаясь взрослым языком, мера Лебега).
    Итак, исходами в нашем случае являются точки 𝐴, событиями — борелевские подмножества ℱ, а мерой 𝑃 —
    частное объемов наших множеств.
    Этот опыт соответствует выбору точки в множестве А наугад. Это аналог классического вероятностного про- странства в дискретном случае — только здесь не просто все элементарные исходы имеют равную вероятность
    (все элементарные исходы имеют вероятностью 0), а все множества одного объема имеют равную вероятность.
    Пример 9.1.
    Вася и Петя договорились встретиться на остановке в промежуток с 2 до 3 часов. Каждый из них приходит в случайное время от 2 до 3 и ждет друга 10 минут. Какая вероятность, что Вася и Петя встретятся? Выбор времени прихода Васи и Пети соответствует выбору точки (𝑥, 𝑦) в квадрате [2, 3] наугад, где
    Рис. 12: Синим выделено пространство элементарных исходов, желтым — искомое событие
    𝑥
    отражает время прихода Васи, а 𝑦 — Пети. При этом в силу условия естественно считать нашим вероятностным пространством
    (Ω, ℱ , P) = ([2, 3]
    2
    , ℬ([2, 3]
    2
    ), 𝑆),
    где 𝑆 — площадь. Нас интересует вероятность события
    𝐴 = {(𝑥, 𝑦) ∈ [2, 3]
    2
    : |𝑥 − 𝑦| < 1/6}.
    Это дополнение двух треугольников, общей площади 25/36 до квадрата площади 1, а значит множество площади
    11/36
    . Итак,
    P(𝐴) = 𝑆(𝐴) = 11/36.
    9.3
    Случайные величины
    Рассмотрим пространство (Ω, ℱ, P). Мы бы хотели определить на нем случайные величины — функции из Ω

    1   2   3   4   5   6   7   8   9


    написать администратору сайта