ячвсафыва. Семестр 2, лекция 1 Оценка ценности информации
Скачать 116.13 Kb.
|
Семестр 2, лекция 12.3. Оценка ценности информацииЛюбая целенаправленная деятельность сопряжена с процессом добывания и обработки информации, и говорить о ценности и старении информации, не указав цели ее получения, бессмысленно. Развитие теории ценности информации явилось существенным шагом, благодаря которому в формализм теории информации было внесено конкретное физическое и техническое содержание, отражающее реальное назначение системы (целевую функцию системы). Общей чертой, характерной для работ, посвященных этой проблеме, является то, что ценность информации связывается с конечным эффектом, ради достижения которого эта информация используется. Естественно, чем конечный эффект больше, тем больше ценность информации. Многообразие конкретных целей и конкретных ситуаций обусловливает разнообразие подходов к проблеме ценности информации, каждый из которых отражает наиболее существенные для данной ситуации стороны. Независимо от того ведутся ли исследования на уровне абстрактно–математическом или прагматическом, все разнообразные подходы группируются в три направления: связанные с минимизацией потерь; имеющие в виду максимизацию выигрыша; учитывающие субъективный фактор (ценность информации для воспринимающего субъекта). Первый предложен в 1960 г. Харкевичем, который измеряет ценность информации вероятностью достижения цели системой. Второй связан с работами Стратоновича в 1975 г.; мерой ценности выступает функция от близости к цели, а именно сумма «штрафов». Ценность информации и вероятность достижения цели. Если назначением информации является либо управление, либо достижение некоторой цели, ее ценность может быть выражена через приращение. Если до получения информации вероятность достижения цели была P0, а после получения информации I стала P1, то ценность по Харкевичу: , где V(I) – мера ценности информации по Харкевичу. Рассмотрим следующую ситуацию (Рис. 2.2 ). Рис 2.2. Мера ценности информации по Харкевичу Три пункта A, B и C соединены дорогами. Студент находится в точке A, а точка C – цель его путешествия. Перед ним два пути, который из них ведет в C, он не знает. Не имея никаких оснований (нет сообщений), предпочесть какую–то из дорог он не может, поэтому он с вероятностью оказывается в B или C (т. е. для всех случаев). Если он попадает в C, его цель достигнута; если в B, то от него 6 дорог и лишь несколько ведут в C. В пункте B осуществляется выбор с равной вероятностью, т. к. информации нет. Если в точке A студент получает сообщение или указание, по какой из дорог следовать (количество информации 1 бит) и это приводит его в B, ценность такого сообщения будет различной для трех случаев: вероятность попасть в C из B равна , ценность информации V = 0; вероятность попасть в C из B равна , ценность информации V=0,42; вероятность попасть в C из B равна , ценность информации V= -1,58, т. е. это дезинформация. Наибольшую ценность имело бы сообщение: сразу же из A направить студента в C. Ценность этой информации V = 1. Дезинформация увеличивает исходную неопределенность, уменьшает вероятность достижения цели, поэтому имеет отрицательную ценность. Мера ценности информации с учетом функции «штрафов» (мера Стратоновича). Понятие ценность информации по Стратоновичу связывает шенноновскую теорию информации с теорией статистических решений. В этой теории основным является понятие средних потерь или риска, которое характеризует качество принимаемых решений. Ценность информации определяется как та максимальная польза, которую данное количество информации способно принести в плане уменьшения средних потерь. Рассмотрим систему (рис 2.3). Рис. 2.3. Мера ценности информации по Стратоновичу В систему входит блок 1, в котором «наблюдатель» либо производит поиск, либо делает оценку неизвестной величины. Результаты своей деятельности «наблюдатель» предъявляет в блок 2, где производится оценка результата и назначается «штраф». Величина штрафа вычисляется согласно определенной функции штрафов, а именно по величине ошибки, совершенной наблюдателем. Функция штрафа – зависимость между размером штрафа и величиной ошибки, за которую штраф назначается. Если наблюдателю ничего не известно об объекте и он действует каким–либо определенным образом (методом проб и ошибок), ему можно путем подсказок сузить область поиска. Естественно, в этом случае он будет действовать более эффективно. Это увеличение эффективности проявляется в том, что среднее значение его штрафов, названное в теории статистических решений риском, уменьшится. «Подсказки» вырабатываются блоком 3 и передаются по каналу связи. Будем полагать, что количество информации, содержащееся в каждом сообщении, полученном наблюдателем, известно. Если первоначально наблюдатель действовал в условиях неопределенности, оцениваемой энтропией H, и имел сумму потерь или риск R(H), то полученная и использованная им информация I привела к новой меньшей неопределенности H–I, следовательно, к новым потерям R(H–I). Разность потерь R(H)–R(H–I)=ΔR показывает количественную пользу, принесенную информацией, и (согласно Стратоновичу) она и есть количественная мера ценности информации. Ценность информации со временем убывает, т. е. информациястареет. Если информация отображает оперативно изменяющуюся обстановку и используется для принятия решений либо выработки управленческих воздействий, то при задержке она стареет. В результате эффект управления падает либо наступает катастрофа системы. Очевидно, что время старения есть функционал от динамики изменения объекта. 2.4. Семантическая мера информацииПод семантикой понимается смысловое содержание информации. Место семантики в системе понятий семиотики (наука о знаках, словах и языках) показано на Рис. 2.1. Семантический аспект информации развивался в рамках логико–семантического подхода, при этом считается, что семантическая информация высказывания определённого языка исключает некоторые возможные альтернативы, выражаемые средствами данного языка; т. е. чем больше альтернатив исключает высказывание, тем большее количество семантики оно имеет. Первыми результатами в рамках логико–семантического подхода явилась теория Р. Карнапа и И. Бар–Хиллела. Авторами были предложены два варианта оценки величины информации содержания. В первом величина информации высказывания определяется вероятностью его отрицания. Карнапом было предложено использовать для цели измерения смысла информации функции истинности и ложности логических высказываний или предложений. В основу дискретного описания объекта положено неделимое (подобно атомарному) предложение, аналогичное элементарному событию теории вероятностей и соответствующее неделимому кванту сообщения. Эта оценка получила название содержательности информации, а информация с семантической точки зрения имеет вид некоторого знания, представленного высказыванием (суждением, предложением) или текстом. Под высказыванием понимается повествовательное предложение, утверждающее тот или иной факт. Побудительные и вопросительные предложения не могут быть высказываниями. Содержательность высказывания определяется как множество выводимых из этого высказывания следствий определенного типа. Предполагается сравнительно простой язык, содержащий в качестве исходных символов конечное число имен индивидов элементарных предикатов и логические связки логики высказываний. Карнапом были предложены два варианта оценки величины информации содержания. Согласно первому варианту: величина информации высказывания равна вероятности (степени правдоподобия) отрицания этого высказывания А. Мера содержательности обозначается cont (content – содержание), а содержательность события А выражается через функцию m(A) (содержательность его отрицания) в виде (2.1) Во втором варианте величина информации высказывания: (2.2) Оценка содержательности информации основана на математической логике, в которой функции истинности и ложности имеют по внешним признакам формальное сходство с функциями вероятностей события Р(А) и антисобытия в классической теории вероятности. Для обоих направления выполняются сходные естественные условия: (2.3) и как для вероятности имеем Следовательно, формально сходны выражения для оценки статистических и логических количеств информации. В этом случае выражение (2.2) для логической оценки количества информации, получившее обозначение = , имеет сходное выражение: (2.3) Таким образом, отличие статистической оценки от логической состоит в том, что в первом случае учитывается только вероятность реализации тех или иных событий, а во втором случае – мера истинности или ложности событий, что и позволяет ближе подойти к оценке смысла информации. До сих пор при оценке семантической меры информации (полезности) не рассматривалась возможность ее восприятия и обработки приемником. Можно рассматривать полезность информации в зависимости как от степени новизны, так и от способности приемника к ее восприятию и обработке. Следствием потребительского аспекта является дополнение информации понятием актуации в смысле активного запроса информации со стороны заинтересованного приемника. При этом имеется в виду тесная связь между этими понятиями, т. к. в каждой ситуации (запросе) может содержаться некоторая информация. Рис 2.4. Обобщенное представление процесса обмена информацией между двумя системами Существуют три типа вопросов: в одном отсутствует предвосхищение опыта; в другом имеется некоторая доля ответа; в третьем полностью содержится ответ и требуется только его подтверждение. Таким образом, замыкается связь между двумя системами (см. рис. 2.4): системой Sx, являющейся поставщиком информации, и системой Sy – потребителем информации. Процесс смыслового анализа некоторой ситуации можно интерпретировать как изменение тезауруса под влиянием данного текста, то есть тезаурус является характеристикой приемника информации. С учетом этого систему извлечения, передачи и приема информации можно представить в виде рисунка 2.5. Рис 2.5. Схема извлечения, передачи и приема информации с учетом H, N, θ На этой схеме источник (объект управления) обладает определенной энтропией Н, которая характеризует способность источника отдавать информацию. Отдача может быть неполной. Информация I=H1–H2 поступает в канал, где часть информации теряется или искажается шумом N. Оставшаяся информация I достигает приемника и воспринимается им в той степени, в какой это позволяет тезаурус. Может оказаться, что несмотря на высокое богатство структур и статистики информации на передающей стороне приемная сторона не будет нуждаться в этой информации, т. к. она уже ею обладает, не имеет в ней потребности или не умеет с ней обращаться. Рис 2.6. Изменение тезауруса Существует и другое положение: если тезаурус неадекватен передаваемой информации, очень мал или вообще отсутствует, то самая новая и богатая информация не воспринимается вследствие того, что она не будет понята приемником. С приемом новой информации тезаурус может обогащаться. Тезаурус введен в XIII в. флорентийцем Лотики для названия энциклопедии (лат. сокровище, запас, богатство). Пусть богатство (объем) тезауруса количественно оценивается некоторой величиной . Изменение тезауруса под действием сообщения Н можно оценить количеством информации (рис. 2.6). Имеется некоторое минимальное количество Imin(θ) априорной информации I(θ) тезауруса θ в системе Sy, при котором система Sy начинает понимать сообщения, поступающие от системы Sx. После этого воспринимаемая информация возрастает при увеличении до точки с координатами , , где достигается максимум восприятия. Далее следует спад, обусловленный тем, что априорные знания (тезаурус приемника) становятся настолько богатыми, что источник не приносит новой полезной информации. В точке восприятие информации прекращается, т. к. система Sy оказывается насыщенной знаниями в пределах возможностей системы Sx – потенциального источника информации. Если языки X и Y однозначно определены, то могут быть предусмотрены трансляторы (переводчики) Y→X и X→Y, располагаемые в Sx и Sy или в системах Sx и Sy совместно. В других случаях возникает проблема взаимоотношений, которая решается методами распознавания образов и самообучением. В приведенной выше схеме указаны синтактические, статистические и семантические характеристики информации. Композиция отражает те же стороны информационной системы, что структура информации (синтактика); тезаурус – те же, что и энтропия; прагматика – те же, что и семантика. Наиболее близкими между собой являются понятия структуры и композиции. Естественной функцией приемной стороны является композиция, заключающаяся в том, что по возможности восстанавливаются нарушенные связи между элементами информации или воссоздается непрерывность информационного комплекса или информационного процесса. Таким образом, отличие статистической оценки от логической состоит в том, что первая учитывает вероятности реализации тех или иных событий, вторая – меры истинности или ложности событий. В заключении отметим, что все семиотические аспекты информационной теории являются основой построения современных распределённых интеллектуальных систем в различных областях человеческой деятельности. |