Лекция 2. МатАнализ и ТеорВер. 1 Первообразная, интеграл

Название	1 Первообразная, интеграл
Дата	06.11.2021
Размер	0.96 Mb.
Формат файла
Имя файла	Лекция 2. МатАнализ и ТеорВер.pdf
Тип	Документы #264830

1 1. Первообразная, интеграл.
Рассмотрим обратную задачу: у нас есть функция f (x) (график или формула),

которая является производной какой-то функции F (x). Вопрос: как найти эту функ- цию F (x)?
Из определения производной можем найти только разность двух состояний:
lim x→x
0
F (x) − F (x
0
)
x − x
0
= f
Попробуем интерпретировать задачу в терминах физики: получается, у нас есть скорость V (t), которая является изменением координаты точки на заданном участке пути. Но как всегда есть нюанс: мы знаем только скорость, но эта скорость может быть на любом участке пути, с одной и той же скоростью мы можем ехать по трассе
Москва-Санкт-Петербург или Воронеж-Сочи. То есть сама координата нам не даст никакой информации, так как мы не знаем начало системы отсчёта (напоминает принцип Неопределённости Гейзенберга). А вот разность двух состояний/координат покажет, путь какой длины мы проехали.
Ещё одна аналогия из физики: потенциал сам по себе не несёт существенной информации - это работа по перемещению из бесконечно удалённой точки в точку
A, а работу по перемещению заряда из точки A в точку B как раз представляет разность потенциалов φ(B) − φ(A).
Итого, первообразная F (x) - просто математически введённая функция, которая
«подгоняется» как обратное действие к операции дифференцирования при помощи

2
таблицы производных. Общей формулы для нахождения первообразных, аналогич- ной формуле для вычисления производной частного и произведения, не существует.
Отметим, что такая функция определена с точностью до константы или представля- ет собой семейство параллельных функций: если F (x) - первообразная, то и F (x) + c
- тоже первообразная, где c = const.
Строгое определение: первообразной для функции f (x) называется такая функ- ция F (x), определённая на (a; b), что F
0
(x) = f (x) для любого x ∈ (a; b).
Вернёмся к задаче о нахождении пройденного пути через известную скорость.
В физических терминах dS
dt
= V, V dt = dS, а вот тут мы как раз используем диф- ференциал - разбиваем весь путь на очень маленькие промежутки по времени, и на каждом из таких промежутков рассматриваем движение как равномерное - с одной и той же скоростью (приближение линейной функцией), на графике это как раз будет площадь прямоугольника со сторонами V и dt.
А весь пройденный путь как раз равен сумме таких кусочков:
S =
R
t
2
t
1
V (t) dt.
А процесс суммирования в непрерывном случае назвали интегрированием. Отсю- да получаем известный всем факт, что определённый интеграл равен площади под графиком функции. Воспользуемся площадью как функцией: берём одну из перво- образных F (x) =
R
x a
f (t) dt - зафиксировали начальную точку и движемся от неё
вправо, получим функцию от «конца пути» или верхнего предела интегрирования,

3
которая как раз покажет путь от a до x.
Отметим, что мы описали путь поиска первообразной и такое представление F (x)
через интеграл - это пока наше предположение, надо математически доказать, что
F
0
(x) = f (x) для любого x.
Немного отвлечёмся на факт, который называется «первая теорема о среднем»,
строгое доказательство можно найти в любом учебнике, нас интересует суть и фи- зическая интерпретация:
Первая теорема о среднем: пусть f (x) - непрерывная и ограниченная на [a; b]
функция, тогда на этом отрезке найдётся такая точка c, что
Z
b a
f (x) dx = f (c)
Z
b a
dx = f (c)(b − a)
Пройденный путь можно найти как среднюю скорость f (c), умноженную на за- траченное время (b − a) - а это просто следует из физического определения средней скорости. Причём существует такой момент времени c, в который величина скорости как раз равнялась средней - весьма понятный интуитивно факт.
Итак, строго математически докажем, что функция F (x) =
R
x a
f (t) dt будет пер- вообразной для функции f (x):
F
0
(x
0
) = lim x→x
0
F (x) − F (x
0
)
x − x
0
= lim x→x
0
R
x a
f (t) dt −
R
x
0
a f (t) dt x − x
0
=
= lim x→x
0
R
x x
0
f (t) dt x − x
0
= lim x→x
0
f (c)(x − x
0
)
x − x
0
= lim x→x
0
f (c) = f (x
0
)
Последний переход обосновывается тем, что точка c лежит между x
0
и x, и при стремлении x → x
0
все три точки «сжимаются» в одну.

4 2. Дискретные и непрерывные случайные величины. Функ- ции плотности и распределения.
Начнём с того, что теория вероятности занимается массовыми явлениями. Когда проводится большое количество одинаковых экспериментов, и на основе полученных данных можно делать какие-либо выводы.
Случайная величина ξ - это функция, которая ставит в соответствие какому-либо происходящему событию число. То есть у нас произошло какое-то событие, и мы можем его численно интерпретировать.
Дискретной случайной величиной называется случайная величина, которая в ре- зультате испытания принимает отдельные значения с определёнными вероятностями.
Проще говоря, дискретные случайные величины — это величины, множество значе- ний которых не более, чем счётно. Число возможных значений дискретной случайной величины может быть конечным и бесконечным. Примеры дискретной случайной величины: выпадение орла или решки при подбрасывании монеты или выпадение определённого числа на игральном кубике.
Непрерывной случайной величиной называют случайную величину, которая в ре- зультате испытания принимает все значения из некоторого числового промежутка.
Число возможных значений непрерывной случайной величины бесконечно. Пример непрерывной случайной величины: измерение скорости перемещения любого вида транспорта или температуры в течение конкретного интервала времени.
Вероятность можно рассматривать как обобщение логики на рассуждения в усло- виях неопределенности. Логика дает нам набор формальных правил, позволяющих определить, истинно некоторое высказывание или ложно, в зависимости от предпо- ложения об истинности или ложности других высказываний. Теория вероятностей предлагает набор формальных правил для определения правдоподобия высказыва- ния при условии правдоподобия других высказываний.
Чтобы оценить правдоподобие высказывания, делают серию наблюдений, резуль- таты записывают, и дальше встаёт вопрос: как обработать все данные и делать какие- либо выводы? Разумно записать в таблицу все значения случайной величины и сколь- ко раз встречается каждое значение - это частота событий. Но, как мы понимаем,

5
просто частота не даёт информации: например, «в рулетке зеро выпал 20 раз» - на ос- новании такой информации сложно сделать какой-либо вывод, а вот «в рулетке зеро выпал 20 раз из 21» и «в рулетке зеро выпал 20 раз из 200» - важное дополнение, при помощи которого можно сделать ставку. Поэтому более информативно узнать долю,
которую занимает интересующее нас значение из общего количества всех значений случайной величины - это относительная частота (из определения понятно, что она заключена в отрезке [0;1]). Отметим, что относительная частота рассчитывается ис- ключительно ПОСЛЕ опытов на основе фактически полученных данных и совпадает с вероятностью. Из определения следует, что если все события независимы, то сумма относительных частот (вероятностей) равна 1.
Если мы имеем дело с непрерывными случайными величинами, то нам нужно как-то оценить количественно исходы событий, а раньше мы обсуждали, что за ко- личество элементов в множестве отвечает функция меры, поэтому под вероятностью в общем случае логично понимать отношение функция вероятности =
мера количества удачных для нас исходов события мера общего количества исходов события
Мерой чаще всего выступает длина отрезка, площадь или объём фигуры.
Теперь разберёмся, как распределена случайная величина: в жизненных задачах редко нужно знать, в какое единственное значение попадает случайная величина, ча- ще нас интересует интервал или отрезок. Математики придумали следующую кон- струкцию: зафиксируем левый конец интервала −∞, правый будет переменной x,
будем двигать правый конец небольшими шагами вправо и «смотреть», сколько но- вых значений случайной величины попадает в каждый такой интервал. Очевидно,
что их количество будет не уменьшаться, и общее количество точек можно предста- вить как «вес» или «массу» множества значений случайной величины.
Более строго математически: вводим новую случайную величину (ξ < x), её ве- роятность P (ξ < x) будет новой функцией, которая как раз показывает вероятность попадания значений случайной величины в нужный нам интервал (∞; x), или пока- зывает, как распределены на числовой оси значения случайной величины ξ (отметим,
что сама случайная величина и её значения фиксированы). Итого получаем функцию распределения случайной величины F (x) = P (ξ < x), которая обладает удобными свойствами: неубывающая, F (−∞) = 0; F (+∞) = 1.

6
Из такой конструкции легко понять, как находить вероятность попадания точки в полуинтервал [a; b), у которого оба конца зафиксированы. Рассмотрим три случай- ных события a ≤ ξ < b, ξ < a, ξ < b, последнее есть сумма первых двух, тогда по теореме о сложении вероятности P (ξ < a) + P (a ≤ ξ < b) = P (ξ < b), в терминах функции распределения F (a) + P (a ≤ ξ < b) = F (b) или P (a ≤ ξ < b) = F (b) − F (a),
что весьма напоминает формулу Ньютона-Лейбница и наталкивает на мысль о пред- ставлении вероятности через интеграл.
Ещё раз обратим внимание на названия «плотность» и «масса». В физике мы интегрируем плотность для получения массы. Если думать о функции распределения как о массе, то для её получения как раз и нужно проинтегрировать плотность.
Осталось дать понятие термину «плотности» в терминах вероятности.
Плотность из физики показывает насколько близко друг к другу расположены точки, свяжем это с изменением функции распределения F (x): если функция рас- пределения растёт быстро, то есть точки «прибывают», они расположены близко
- плотность высокая, если растёт медленно, то новых точек мало, а если остаётся неизменной - новых точек нет совсем
Также если функция распределеня дифференцируема, то плотность как раз будет производной функции распределения:
dF
dx
= p(x),
F (x) =
Z
∞
−∞
xp(z)dz
Смысл функции p(x): если событие = «случайная величина ξ поппадет в малый ин- тервал ∆x», то вероятность этого события P (x < ξ < x + ∆x) ≈ F
0
(x)dx = p(x)∆x.
При этом
R
∞
−∞
p(x) = 1, так как попадание ξ в неограниченный интервал гарантиро- вано.
Итого получили формулы взаимосвязи:
F (x) =
Z
x
∞
p(z)dz

7
p(x) =
dF (x)
dx
P (a ≤ ξ < b) =
Z
b a
p(x) dx = F (b) − F (a)
Z
+∞
−∞
p(x) dx =
Z
+∞
−∞
dF (x)
dx dx = F (+∞) − F (−∞) = 1 − 0 = 1
Последнее условие есть условие нормировки. Состояния физической системы всегда однозначны, то есть образуют полную совокупность событий. Условие нормировки для вероятности состояния физической системы отражает факт: если физическая система существует, то она находится в одном из доступных ей состояний.
Заметим, что для дискретной случайной величины понятие плотности вероятно- сти отсутствует, а функция распределения будет ступенчатой. Поэтому с дискретны- ми случайными величинами удобнее работать с набором вероятностей или таблицей,
в то время как для непрерывных случайных величин проще анализировать график или уравненение функции плотности и функции распределения.

8 3. Байесовский подход к вероятности.
Для лучшего понимания рекомендую прочитать статью
«Скажи Байесу «да!». Забудь про интуицию — просто думай, как Байес завещал»
В предыдущей главе мы обсуждали случаи с частотной вероятностью - когда у нас есть эксперимент, который мы можем повторить, например, подбрасывание моне- ты или кубика. А когда, например, говорят про диагноз у конкретного человека, мы не можем «размножить» человека, заразить его разными болезнями и сравнить ре- зультаты эксперимента. То есть в данном случае под вероятностью следует понимать степень доверия и восприятия информации: 0 - абсолютно невозможно, 1 - точно ис- тино. Подход, основанный на качественном уровнем уверенности, предложил Байес.
Байес по сути говорит, что вновь полученная информация влияет на наше воспри- ятие какого-то события, и вероятность по сути - численное представление личного уровня доверия, который может кардинально измениться вследствие количества на- ступивших событий. Старое знание + новый опыт = новое, более полное знание.
Рассмотрим принцип Байеса на конкретном примере обработки спама, получа- емого по электронной почте. Мы получаем какое-то письмо, в котором содержатся какие-то слова в каком-то количестве. Сначала мы просто подсчитываем разные сло- ва, входящие в это письмо, а потом определяем, является письмо спамом или нет.
Проделав это некоторое количество раз, мы соберем базу слов вместе с частотой их появления в спаме и в обычных письмах. В итоге получаем табличку, где записаны слово, количество его упоминаний в спаме и общее количество упоминаний. Теперь введем понятие «веса» слова — вероятность того, что сообщение с таким словом яв- ляется спамом. Например, такой оценкой может быть частота появлений этого слова в спаме, поделенная на частоту появлений этого слова в любом произвольном пись- ме. Теперь скажем, что «вес» всего письма — это усредненный вес всех слов, которые в нем содержатся. Дальше мы просто говорим, что, например, если этот вес больше
80%, то будем считать это сообщение спамом. Мы получили новое письмо, опреде- лили спам это или не спам, и к известным нам данным добавилось новое знание про слова, встретившиеся нам в этом письме, поэтому мы запишем в нашу базу новые показатели и пересчитаем «веса».
Ещё раз подчеркнём, что ключевое отличие состоит в том, что считать случай-

9
ной величиной. В частотном или фриквентистском подходе мы под такой величиной подразумеваем значение, которое мы не можем спрогнозировать, не проведя какого- то количества экспериментов. В байесовском же подходе случайная величина — это строго определенный процесс, который можно сначала спрогнозировать целиком,
просто мы знаем не все начальные факторы, которые могут влиять на исход. Но по- сле «запуска» этого процесса, мы получаем новые знания, которые позволяют «под- крутить настройки» и сделать процесс более эффективным, тем самым повысив наш уровень уверенности в получаемых результатах.
Когда все события независимые, всё просто - вероятности складываются, а если по предположению Байесу одно событие влияет на другое, возникает вопрос, что делать в таком случае?
Колмогоров вводит условную вероятность по определению как P (A | B) =
P (A∩B)
P (B)
Далее по Байесу вводятся две вероятности:
Априорная вероятность - предполагаемая вероятность до проведения эксперимента
P (A).
Апостериорная вероятность - вероятность, полученная после проведения экспери- ментов и получения новой информации P (A | B).
Теорема Байеса предполагает, что событие B известно (P (B) 6= 0), и нужно понять,
как знание о событии B влияет на уверенность в том, что произойдёт событие A:
P (A | B) =
P (B | A) P (A)
P (B)
. Формула Байеса позволяет «переставить причину и следствие»: по известному фак- ту события вычислить вероятность того, что оно было вызвано данной причиной.
Доказательство следует напрямую из определения Колмогорова:
P (A | B) =
P (A ∩ B)
P (B)
, P (B | A) =
P (B ∩ A)
P (A)
,
поделим:
P (A | B)
P (B | A)
=
P (A)
P (B)
Встаёт вопрос: условная вероятность была определена Колмогоровым в XX веке,
а Байес вывел свою теорему в XVIII веке? Единственное логичное объяснение, ко- торое удалось найти: Байес больше рассуждал в терминах философии, и пришёл к
Теореме о взаимосвязи явлений при помощи словесных логических рассуждений, а
Колмогоров вводил строгую аксиоматику и определения таким образом, что Теорема
Байеса логично вписалась во введённую им терминологию.

10
Из определения условной вероятности следует цепное правило для подсчёта сов- местного распределения вероятности нескольких случайных величин:
P (x
1
, . . . , x n
) = P (x
1
)
Q
i=2
P (x i
| x
1
, . . . , x i−1
),
подробнее:
P (a, b, c) = P (a | b, c)P (b, c)
P (b, c) = P (b | c)P (c)
P (a, b, c) = P (a | b, c)P (b | c)P (c)
Полной противоположностью условному распределению является маргинальное распределение подмножества набора случайных величин — это распределение веро- ятностей переменных, содержащихся в этом подмножестве. Это даёт возможность представить вероятности различных значений переменных в подмножестве без ука- зания на другие значения переменных. То есть снять зависимость одной величины от всех остальных:
P (X = x) =
X
y
P (X = x, Y = y) =
X
y
P (X = x | Y = y)P (Y = y)