Практические 2. Пр 2 Байесовский анализ и сеть Байеса . Баиесовскии анализ и сеть Баиеса
Скачать 4.85 Mb.
|
Байесовский анализ и сеть Байеса Создание байесовского анализа приписывают преподобному Томасу Байесу. Для оценки полной вероятности он предложил объединить априорные данные с апостериорными. События, отражающие действие «причин», в данном случае называют гипотезами, так как они – предполагаемые события, повлекшие данное. Безусловную вероятность справедливости гипотезы называют априорной (насколько вероятна причина вообще), а условную – с учетом факта произошедшего события – апостериорной (насколько вероятна причина оказалась с учетом данных о событии). Формула Байеса где P(A) – априорная вероятность гипотезы A; – вероятность гипотезы A при наступлении события B (апостериорная вероятность); – вероятность наступления события B при истинности гипотезы A; – полная вероятность наступления события B. Формула Байеса вытекает из определения условной вероятности. Вероятность совместного события P(AB) двояко выражается через условные вероятности P(AB) P(A| B)P(B) P(B | A)P(A). (2.2) Следовательно, P(B) обычно вычисляется по формуле полной вероятности собы- тия, зависящего от нескольких несовместных гипотез, имеющих сум- марную вероятность 1. где вероятности под знаком суммы известны или допускают экспериментальную оценку. Байесовский анализ отличается от классической статистики предположением, что параметры распределений являются не постоянными, а случайными переменными. Вероятность Байеса можно легко понять, если рассматривать ее как степень уверенности в определенном событии в противоположность классическому подходу, основанному на объективных свидетельствах. Поскольку подход Байеса основан на субъективной интерпретации вероятности, то он может быть полезен при выборе решения и разработке сетей Байеса (или сетей доверия). Сеть Байеса – графическая модель, включающая переменные и их вероятностные взаимосвязи. Сеть состоит из узлов, представляющих случайные переменные, и стрелок, связывающих родительский узел с дочерним узлом (родительский узел – переменная, которая непосредственно влияет на другую дочернюю переменную). Теории и сети Байеса широко применяют по причине их интуитивной понятности и благодаря наличию соответствующего программного обеспечения. Сети Байеса применяют в различных областях: медицинской диагностике, моделировании изображений, генетике, распознавании речи, экономике, исследовании космоса и в современных поисковых системах. Они могут находить применение в любой области, где требуется установление неизвестных переменных посредством использования структурных связей и данных. Сети Байеса могут быть применены для изучения причинных связей, углубления понимания проблемной области и прогнозирования последствий вмешательства в систему. Входные данные для байесовского анализа и сети Байеса подобны входным данным для модели Монте-Карло. Для сети Байеса основными этапами являются: определение переменных системы; определение причинных связей между переменными; определение условных и априорных вероятностей; добавление объективных свидетельств к сети; обновление доверительных оценок; определение апостериорных доверительных оценок. Байесовский подход может быть применен в той же степени, что и классическая статистика, с получением широкого диапазона выходных данных, например, при анализе данных для получения точечных оценок и доверительных интервалов. Сети Байеса используют для получения апостериорных распределений. Графические представления выходных данных обеспечивают простоту понимания модели, при этом данные могут быть легко изменены для исследования корреляции и чувствительности параметров. Пример 1. Приведем пример применения формулы Байеса к оценке операционных рисков [16]. Изначально менеджер оценивает, что операционный риск возможен либо в результате сбоя информационных систем (с вероятностью 40%), либо в результате ошибки персонала (с вероятностью 60%). Последствиями операционного риска могут быть: неправильный расчет, мошенничество либо неисполнение операции. Вероятности каждого из этих событий определены для каждого из факторов операционного риска (рис. 1). Рис. 1. Пример сети Байеса Предположим, в компании произошла ошибка, которая привела к некорректному расчету при исполнении операции. Как изменится вероятность того, что это произошло в результате сбоя информационных систем или действий сотрудников компании? Для ответа на этот вопрос воспользуемся формулой условной вероятности Байеса Таким образом, вероятность того, что ошибка была вызвана сбоем информационных систем, возрастает до 62,5%. В более сложных задачах, когда создаются более детальные, многоуровневые причинно-следственные сети, такой анализ может быть очень полезен для анализа причин произошедших сбоев. С помощью моделей подобного рода можно с большей вероятностью определить место возникновения ошибки, так как в рамках такой задачи воссоздается вся последовательность бизнес-процесса. Преимуществами метода являются следующие: для использования метода достаточно знание априорной информации; логически выведенные утверждения легки для понимания; применение метода основано на формуле Байеса; метод предоставляет собой способ использования субъективных вероятностных оценок. Недостатками метода являются следующие: определение всех взаимодействий в сетях Байеса для сложных систем не всегда выполнимо; подход Байеса требует знания множества условных вероятностей, которые обычно получают экспертными методами. Применение программного обеспечения основано на экспертных оценках. Пример 2. Статистика запросов кредитов в банке такова: 5% – государственные органы, 80% – другие банки, 15% – физические лица. Вероятности невозврата взятого кредита, соответственно, 0,01, 0,02, 0,2. Найти вероятность очередного запроса на кредит. Какова вероятность, что заданный кредит не вернуло физическое лицо? Решение. Обозначим событие А – невозврат кредита. А также выдвинем следующие гипотезы: Н1 – невозврат государственными органами; Н2 – другими банками; Н3 – физическими лицами. Тогда искомая вероятность невозврата будет P ( A) P ( H 1 ) P ( A H 1 ) P ( H 2 ) P ( A H 2 ) P ( H 3 ) P ( A H 3 ) Пусть кредит не возвращен. Найдем вероятность того, что его не вернуло физическое лицо. По формуле Байеса Пример 3. Пусть имеются три гипотезы: Н1– высокая надежность фирмы; Н2 – средняя надежность фирмы; Н3 – низкая надежность фирмы. Априорные вероятности которых будут, соответственно, Р(Н1), Р(Н2), Р(Н3). И два условно независимых свидетельства: А1 – наличие прибыли у фирмы; А2 – своевременные расчеты с бюджетом. Представим распределение этих вероятностей по заданным условиям в следующей таблице: Появление дополнительных фактов, влияющих на гипотезу, будет варьировать ее вероятность, приближая к 0 или 1 в зависимости от качества новой взаимосвязи. Предположим, что имеются Н1, Н2 и Н3, но только появление одного свидетельства – А1 – является достоверным. Следовательно, после появления достоверного события А1 доверие к гипотезе Н1 возрастает, к Н2 – незначительно снижается, а к Н3 – сокращается в четыре раза. Итак, после рассмотрения имеющегося примера с наличием лишь одного из свидетельств А1 добавим к решению независимое от А1 достоверное событие А2 и получим формулу Байеса следующего вида: Исходя из полученных результатов, можно заключить, что при одновременном появлении в вероятностной модели двух свидетельств – наличия прибыли и своевременного расчета с бюджетом – остаются только две гипотезы Н1 и Н2, среди которых 61% будет приходиться на долю фирм с высокой степенью надежности, а 39% – на фирмы средней надежности. Пример 4. Из имеющихся на складе телескопов 30% изготовлены фирмой 1, остальные – фирмой 2. Вероятность того, что телескоп, изготовленный фирмой 1, не выйдет из строя в течение гарантийного срока службы, равна 0,9, для телескопов, изготовленных фирмой 2, эта вероятность равна 0,8. Случайным образом для проверки со склада выбрали телескоп, который выдержал гарантийный срок. Определить вероятность того, что он был изготовлен фирмой 2. |