Лекция 2. МатАнализ и ТеорВер. 1 Первообразная, интеграл
Скачать 0.96 Mb.
|
1 1. Первообразная, интеграл. Рассмотрим обратную задачу: у нас есть функция f (x) (график или формула), которая является производной какой-то функции F (x). Вопрос: как найти эту функ- цию F (x)? Из определения производной можем найти только разность двух состояний: lim x→x 0 F (x) − F (x 0 ) x − x 0 = f Попробуем интерпретировать задачу в терминах физики: получается, у нас есть скорость V (t), которая является изменением координаты точки на заданном участке пути. Но как всегда есть нюанс: мы знаем только скорость, но эта скорость может быть на любом участке пути, с одной и той же скоростью мы можем ехать по трассе Москва-Санкт-Петербург или Воронеж-Сочи. То есть сама координата нам не даст никакой информации, так как мы не знаем начало системы отсчёта (напоминает принцип Неопределённости Гейзенберга). А вот разность двух состояний/координат покажет, путь какой длины мы проехали. Ещё одна аналогия из физики: потенциал сам по себе не несёт существенной информации - это работа по перемещению из бесконечно удалённой точки в точку A, а работу по перемещению заряда из точки A в точку B как раз представляет разность потенциалов φ(B) − φ(A). Итого, первообразная F (x) - просто математически введённая функция, которая «подгоняется» как обратное действие к операции дифференцирования при помощи 2 таблицы производных. Общей формулы для нахождения первообразных, аналогич- ной формуле для вычисления производной частного и произведения, не существует. Отметим, что такая функция определена с точностью до константы или представля- ет собой семейство параллельных функций: если F (x) - первообразная, то и F (x) + c - тоже первообразная, где c = const. Строгое определение: первообразной для функции f (x) называется такая функ- ция F (x), определённая на (a; b), что F 0 (x) = f (x) для любого x ∈ (a; b). Вернёмся к задаче о нахождении пройденного пути через известную скорость. В физических терминах dS dt = V, V dt = dS, а вот тут мы как раз используем диф- ференциал - разбиваем весь путь на очень маленькие промежутки по времени, и на каждом из таких промежутков рассматриваем движение как равномерное - с одной и той же скоростью (приближение линейной функцией), на графике это как раз будет площадь прямоугольника со сторонами V и dt. А весь пройденный путь как раз равен сумме таких кусочков: S = R t 2 t 1 V (t) dt. А процесс суммирования в непрерывном случае назвали интегрированием. Отсю- да получаем известный всем факт, что определённый интеграл равен площади под графиком функции. Воспользуемся площадью как функцией: берём одну из перво- образных F (x) = R x a f (t) dt - зафиксировали начальную точку и движемся от неё вправо, получим функцию от «конца пути» или верхнего предела интегрирования, 3 которая как раз покажет путь от a до x. Отметим, что мы описали путь поиска первообразной и такое представление F (x) через интеграл - это пока наше предположение, надо математически доказать, что F 0 (x) = f (x) для любого x. Немного отвлечёмся на факт, который называется «первая теорема о среднем», строгое доказательство можно найти в любом учебнике, нас интересует суть и фи- зическая интерпретация: Первая теорема о среднем: пусть f (x) - непрерывная и ограниченная на [a; b] функция, тогда на этом отрезке найдётся такая точка c, что Z b a f (x) dx = f (c) Z b a dx = f (c)(b − a) Пройденный путь можно найти как среднюю скорость f (c), умноженную на за- траченное время (b − a) - а это просто следует из физического определения средней скорости. Причём существует такой момент времени c, в который величина скорости как раз равнялась средней - весьма понятный интуитивно факт. Итак, строго математически докажем, что функция F (x) = R x a f (t) dt будет пер- вообразной для функции f (x): F 0 (x 0 ) = lim x→x 0 F (x) − F (x 0 ) x − x 0 = lim x→x 0 R x a f (t) dt − R x 0 a f (t) dt x − x 0 = = lim x→x 0 R x x 0 f (t) dt x − x 0 = lim x→x 0 f (c)(x − x 0 ) x − x 0 = lim x→x 0 f (c) = f (x 0 ) Последний переход обосновывается тем, что точка c лежит между x 0 и x, и при стремлении x → x 0 все три точки «сжимаются» в одну. 4 2. Дискретные и непрерывные случайные величины. Функ- ции плотности и распределения. Начнём с того, что теория вероятности занимается массовыми явлениями. Когда проводится большое количество одинаковых экспериментов, и на основе полученных данных можно делать какие-либо выводы. Случайная величина ξ - это функция, которая ставит в соответствие какому-либо происходящему событию число. То есть у нас произошло какое-то событие, и мы можем его численно интерпретировать. Дискретной случайной величиной называется случайная величина, которая в ре- зультате испытания принимает отдельные значения с определёнными вероятностями. Проще говоря, дискретные случайные величины — это величины, множество значе- ний которых не более, чем счётно. Число возможных значений дискретной случайной величины может быть конечным и бесконечным. Примеры дискретной случайной величины: выпадение орла или решки при подбрасывании монеты или выпадение определённого числа на игральном кубике. Непрерывной случайной величиной называют случайную величину, которая в ре- зультате испытания принимает все значения из некоторого числового промежутка. Число возможных значений непрерывной случайной величины бесконечно. Пример непрерывной случайной величины: измерение скорости перемещения любого вида транспорта или температуры в течение конкретного интервала времени. Вероятность можно рассматривать как обобщение логики на рассуждения в усло- виях неопределенности. Логика дает нам набор формальных правил, позволяющих определить, истинно некоторое высказывание или ложно, в зависимости от предпо- ложения об истинности или ложности других высказываний. Теория вероятностей предлагает набор формальных правил для определения правдоподобия высказыва- ния при условии правдоподобия других высказываний. Чтобы оценить правдоподобие высказывания, делают серию наблюдений, резуль- таты записывают, и дальше встаёт вопрос: как обработать все данные и делать какие- либо выводы? Разумно записать в таблицу все значения случайной величины и сколь- ко раз встречается каждое значение - это частота событий. Но, как мы понимаем, 5 просто частота не даёт информации: например, «в рулетке зеро выпал 20 раз» - на ос- новании такой информации сложно сделать какой-либо вывод, а вот «в рулетке зеро выпал 20 раз из 21» и «в рулетке зеро выпал 20 раз из 200» - важное дополнение, при помощи которого можно сделать ставку. Поэтому более информативно узнать долю, которую занимает интересующее нас значение из общего количества всех значений случайной величины - это относительная частота (из определения понятно, что она заключена в отрезке [0;1]). Отметим, что относительная частота рассчитывается ис- ключительно ПОСЛЕ опытов на основе фактически полученных данных и совпадает с вероятностью. Из определения следует, что если все события независимы, то сумма относительных частот (вероятностей) равна 1. Если мы имеем дело с непрерывными случайными величинами, то нам нужно как-то оценить количественно исходы событий, а раньше мы обсуждали, что за ко- личество элементов в множестве отвечает функция меры, поэтому под вероятностью в общем случае логично понимать отношение функция вероятности = мера количества удачных для нас исходов события мера общего количества исходов события Мерой чаще всего выступает длина отрезка, площадь или объём фигуры. Теперь разберёмся, как распределена случайная величина: в жизненных задачах редко нужно знать, в какое единственное значение попадает случайная величина, ча- ще нас интересует интервал или отрезок. Математики придумали следующую кон- струкцию: зафиксируем левый конец интервала −∞, правый будет переменной x, будем двигать правый конец небольшими шагами вправо и «смотреть», сколько но- вых значений случайной величины попадает в каждый такой интервал. Очевидно, что их количество будет не уменьшаться, и общее количество точек можно предста- вить как «вес» или «массу» множества значений случайной величины. Более строго математически: вводим новую случайную величину (ξ < x), её ве- роятность P (ξ < x) будет новой функцией, которая как раз показывает вероятность попадания значений случайной величины в нужный нам интервал (∞; x), или пока- зывает, как распределены на числовой оси значения случайной величины ξ (отметим, что сама случайная величина и её значения фиксированы). Итого получаем функцию распределения случайной величины F (x) = P (ξ < x), которая обладает удобными свойствами: неубывающая, F (−∞) = 0; F (+∞) = 1. 6 Из такой конструкции легко понять, как находить вероятность попадания точки в полуинтервал [a; b), у которого оба конца зафиксированы. Рассмотрим три случай- ных события a ≤ ξ < b, ξ < a, ξ < b, последнее есть сумма первых двух, тогда по теореме о сложении вероятности P (ξ < a) + P (a ≤ ξ < b) = P (ξ < b), в терминах функции распределения F (a) + P (a ≤ ξ < b) = F (b) или P (a ≤ ξ < b) = F (b) − F (a), что весьма напоминает формулу Ньютона-Лейбница и наталкивает на мысль о пред- ставлении вероятности через интеграл. Ещё раз обратим внимание на названия «плотность» и «масса». В физике мы интегрируем плотность для получения массы. Если думать о функции распределения как о массе, то для её получения как раз и нужно проинтегрировать плотность. Осталось дать понятие термину «плотности» в терминах вероятности. Плотность из физики показывает насколько близко друг к другу расположены точки, свяжем это с изменением функции распределения F (x): если функция рас- пределения растёт быстро, то есть точки «прибывают», они расположены близко - плотность высокая, если растёт медленно, то новых точек мало, а если остаётся неизменной - новых точек нет совсем Также если функция распределеня дифференцируема, то плотность как раз будет производной функции распределения: dF dx = p(x), F (x) = Z ∞ −∞ xp(z)dz Смысл функции p(x): если событие = «случайная величина ξ поппадет в малый ин- тервал ∆x», то вероятность этого события P (x < ξ < x + ∆x) ≈ F 0 (x)dx = p(x)∆x. При этом R ∞ −∞ p(x) = 1, так как попадание ξ в неограниченный интервал гарантиро- вано. Итого получили формулы взаимосвязи: F (x) = Z x ∞ p(z)dz 7 p(x) = dF (x) dx P (a ≤ ξ < b) = Z b a p(x) dx = F (b) − F (a) Z +∞ −∞ p(x) dx = Z +∞ −∞ dF (x) dx dx = F (+∞) − F (−∞) = 1 − 0 = 1 Последнее условие есть условие нормировки. Состояния физической системы всегда однозначны, то есть образуют полную совокупность событий. Условие нормировки для вероятности состояния физической системы отражает факт: если физическая система существует, то она находится в одном из доступных ей состояний. Заметим, что для дискретной случайной величины понятие плотности вероятно- сти отсутствует, а функция распределения будет ступенчатой. Поэтому с дискретны- ми случайными величинами удобнее работать с набором вероятностей или таблицей, в то время как для непрерывных случайных величин проще анализировать график или уравненение функции плотности и функции распределения. 8 3. Байесовский подход к вероятности. Для лучшего понимания рекомендую прочитать статью «Скажи Байесу «да!». Забудь про интуицию — просто думай, как Байес завещал» В предыдущей главе мы обсуждали случаи с частотной вероятностью - когда у нас есть эксперимент, который мы можем повторить, например, подбрасывание моне- ты или кубика. А когда, например, говорят про диагноз у конкретного человека, мы не можем «размножить» человека, заразить его разными болезнями и сравнить ре- зультаты эксперимента. То есть в данном случае под вероятностью следует понимать степень доверия и восприятия информации: 0 - абсолютно невозможно, 1 - точно ис- тино. Подход, основанный на качественном уровнем уверенности, предложил Байес. Байес по сути говорит, что вновь полученная информация влияет на наше воспри- ятие какого-то события, и вероятность по сути - численное представление личного уровня доверия, который может кардинально измениться вследствие количества на- ступивших событий. Старое знание + новый опыт = новое, более полное знание. Рассмотрим принцип Байеса на конкретном примере обработки спама, получа- емого по электронной почте. Мы получаем какое-то письмо, в котором содержатся какие-то слова в каком-то количестве. Сначала мы просто подсчитываем разные сло- ва, входящие в это письмо, а потом определяем, является письмо спамом или нет. Проделав это некоторое количество раз, мы соберем базу слов вместе с частотой их появления в спаме и в обычных письмах. В итоге получаем табличку, где записаны слово, количество его упоминаний в спаме и общее количество упоминаний. Теперь введем понятие «веса» слова — вероятность того, что сообщение с таким словом яв- ляется спамом. Например, такой оценкой может быть частота появлений этого слова в спаме, поделенная на частоту появлений этого слова в любом произвольном пись- ме. Теперь скажем, что «вес» всего письма — это усредненный вес всех слов, которые в нем содержатся. Дальше мы просто говорим, что, например, если этот вес больше 80%, то будем считать это сообщение спамом. Мы получили новое письмо, опреде- лили спам это или не спам, и к известным нам данным добавилось новое знание про слова, встретившиеся нам в этом письме, поэтому мы запишем в нашу базу новые показатели и пересчитаем «веса». Ещё раз подчеркнём, что ключевое отличие состоит в том, что считать случай- 9 ной величиной. В частотном или фриквентистском подходе мы под такой величиной подразумеваем значение, которое мы не можем спрогнозировать, не проведя какого- то количества экспериментов. В байесовском же подходе случайная величина — это строго определенный процесс, который можно сначала спрогнозировать целиком, просто мы знаем не все начальные факторы, которые могут влиять на исход. Но по- сле «запуска» этого процесса, мы получаем новые знания, которые позволяют «под- крутить настройки» и сделать процесс более эффективным, тем самым повысив наш уровень уверенности в получаемых результатах. Когда все события независимые, всё просто - вероятности складываются, а если по предположению Байесу одно событие влияет на другое, возникает вопрос, что делать в таком случае? Колмогоров вводит условную вероятность по определению как P (A | B) = P (A∩B) P (B) Далее по Байесу вводятся две вероятности: Априорная вероятность - предполагаемая вероятность до проведения эксперимента P (A). Апостериорная вероятность - вероятность, полученная после проведения экспери- ментов и получения новой информации P (A | B). Теорема Байеса предполагает, что событие B известно (P (B) 6= 0), и нужно понять, как знание о событии B влияет на уверенность в том, что произойдёт событие A: P (A | B) = P (B | A) P (A) P (B) . Формула Байеса позволяет «переставить причину и следствие»: по известному фак- ту события вычислить вероятность того, что оно было вызвано данной причиной. Доказательство следует напрямую из определения Колмогорова: P (A | B) = P (A ∩ B) P (B) , P (B | A) = P (B ∩ A) P (A) , поделим: P (A | B) P (B | A) = P (A) P (B) Встаёт вопрос: условная вероятность была определена Колмогоровым в XX веке, а Байес вывел свою теорему в XVIII веке? Единственное логичное объяснение, ко- торое удалось найти: Байес больше рассуждал в терминах философии, и пришёл к Теореме о взаимосвязи явлений при помощи словесных логических рассуждений, а Колмогоров вводил строгую аксиоматику и определения таким образом, что Теорема Байеса логично вписалась во введённую им терминологию. 10 Из определения условной вероятности следует цепное правило для подсчёта сов- местного распределения вероятности нескольких случайных величин: P (x 1 , . . . , x n ) = P (x 1 ) Q i=2 P (x i | x 1 , . . . , x i−1 ), подробнее: P (a, b, c) = P (a | b, c)P (b, c) P (b, c) = P (b | c)P (c) P (a, b, c) = P (a | b, c)P (b | c)P (c) Полной противоположностью условному распределению является маргинальное распределение подмножества набора случайных величин — это распределение веро- ятностей переменных, содержащихся в этом подмножестве. Это даёт возможность представить вероятности различных значений переменных в подмножестве без ука- зания на другие значения переменных. То есть снять зависимость одной величины от всех остальных: P (X = x) = X y P (X = x, Y = y) = X y P (X = x | Y = y)P (Y = y) |