ячвсафыва. Семестр 2, лекция 1 Оценка ценности информации

Название	Семестр 2, лекция 1 Оценка ценности информации
Анкор	ячвсафыва
Дата	07.04.2022
Размер	116.13 Kb.
Формат файла
Имя файла	Semestr_2_lktsia1.docx
Тип	Лекция #452560

Семестр 2, лекция 1

2.3. Оценка ценности информации

Любая целенаправленная деятельность сопряжена с процессом добывания и обработки информации, и говорить о ценности и старении информации, не указав цели ее получения, бессмысленно.

Развитие теории ценности информации явилось существенным шагом, благодаря которому в формализм теории информации было внесено конкретное физическое и техническое содержание, отражающее реальное назначение системы (целевую функцию системы). Общей чертой, характерной для работ, посвященных этой проблеме, является то, что ценность информации связывается с конечным эффектом, ради достижения которого эта информация используется. Естественно, чем конечный эффект больше, тем больше ценность информации. Многообразие конкретных целей и конкретных ситуаций обусловливает разнообразие подходов к проблеме ценности информации, каждый из которых отражает наиболее существенные для данной ситуации стороны.

Независимо от того ведутся ли исследования на уровне абстрактно–математическом или прагматическом, все разнообразные подходы группируются в три направления:

связанные с минимизацией потерь;
имеющие в виду максимизацию выигрыша;
учитывающие субъективный фактор (ценность информации для воспринимающего субъекта).

Первый предложен в 1960 г. Харкевичем, который измеряет ценность информации вероятностью достижения цели системой.

Второй связан с работами Стратоновича в 1975 г.; мерой ценности выступает функция от близости к цели, а именно сумма «штрафов».

Ценность информации и вероятность достижения цели.

Если назначением информации является либо управление, либо достижение некоторой цели, ее ценность может быть выражена через приращение.

Если до получения информации вероятность достижения цели была P₀, а после получения информации I стала P₁, то ценность по Харкевичу:

,

где V(I) – мера ценности информации по Харкевичу.

Рассмотрим следующую ситуацию (Рис. 2.2 ).

Рис 2.2. Мера ценности информации по Харкевичу
Три пункта A, B и C соединены дорогами. Студент находится в точке A, а точка C – цель его путешествия. Перед ним два пути, который из них ведет в C, он не знает. Не имея никаких оснований (нет сообщений), предпочесть какую–то из дорог он не может, поэтому он с вероятностью

оказывается в B или C (т. е.

для всех случаев). Если он попадает в C, его цель достигнута; если в B, то от него 6 дорог и лишь несколько ведут в C. В пункте B осуществляется выбор с равной вероятностью, т. к. информации нет.

Если в точке A студент получает сообщение или указание, по какой из дорог следовать (количество информации 1 бит) и это приводит его в B, ценность такого сообщения будет различной для трех случаев:

вероятность попасть в C из B равна , ценность информации V = 0;
вероятность попасть в C из B равна , ценность информации V=0,42;
вероятность попасть в C из B равна , ценность информации V= -1,58, т. е. это дезинформация.

Наибольшую ценность имело бы сообщение: сразу же из A направить студента в C. Ценность этой информации V = 1.

Дезинформация увеличивает исходную неопределенность, уменьшает вероятность достижения цели, поэтому имеет отрицательную ценность.

Мера ценности информации с учетом функции «штрафов» (мера Стратоновича). Понятие ценность информации по Стратоновичу связывает шенноновскую теорию информации с теорией статистических решений. В этой теории основным является понятие средних потерь или риска, которое характеризует качество принимаемых решений. Ценность информации определяется как та максимальная польза, которую данное количество информации способно принести в плане уменьшения средних потерь.

Рассмотрим систему (рис 2.3).

Рис. 2.3. Мера ценности информации по Стратоновичу
В систему входит блок 1, в котором «наблюдатель» либо производит поиск, либо делает оценку неизвестной величины. Результаты своей деятельности «наблюдатель» предъявляет в блок 2, где производится оценка результата и назначается «штраф». Величина штрафа вычисляется согласно определенной функции штрафов, а именно по величине ошибки, совершенной наблюдателем. Функция штрафа – зависимость между размером штрафа и величиной ошибки, за которую штраф назначается.

Если наблюдателю ничего не известно об объекте и он действует каким–либо определенным образом (методом проб и ошибок), ему можно путем подсказок сузить область поиска. Естественно, в этом случае он будет действовать более эффективно. Это увеличение эффективности проявляется в том, что среднее значение его штрафов, названное в теории статистических решений риском, уменьшится. «Подсказки» вырабатываются блоком 3 и передаются по каналу связи.

Будем полагать, что количество информации, содержащееся в каждом сообщении, полученном наблюдателем, известно. Если первоначально наблюдатель действовал в условиях неопределенности, оцениваемой энтропией H, и имел сумму потерь или риск R(H), то полученная и использованная им информация I привела к новой меньшей неопределенности H–I, следовательно, к новым потерям R(H–I). Разность потерь R(H)–R(H–I)=ΔR показывает количественную пользу, принесенную информацией, и (согласно Стратоновичу) она и есть количественная мера ценности информации.

Ценность информации со временем убывает, т. е. информациястареет. Если информация отображает оперативно изменяющуюся обстановку и используется для принятия решений либо выработки управленческих воздействий, то при задержке она стареет. В результате эффект управления падает либо наступает катастрофа системы. Очевидно, что время старения есть функционал от динамики изменения объекта.

2.4. Семантическая мера информации

Под семантикой понимается смысловое содержание информации. Место семантики в системе понятий семиотики (наука о знаках, словах и языках) показано на Рис. 2.1.

Семантический аспект информации развивался в рамках логико–семантического подхода, при этом считается, что семантическая информация высказывания определённого языка исключает некоторые возможные альтернативы, выражаемые средствами данного языка; т. е. чем больше альтернатив исключает высказывание, тем большее количество семантики оно имеет. Первыми результатами в рамках логико–семантического подхода явилась теория Р. Карнапа и И. Бар–Хиллела. Авторами были предложены два варианта оценки величины информации содержания. В первом величина информации высказывания определяется вероятностью его отрицания.

Карнапом было предложено использовать для цели измерения смысла информации функции истинности и ложности логических высказываний или предложений. В основу дискретного описания объекта положено неделимое (подобно атомарному) предложение, аналогичное элементарному событию теории вероятностей и соответствующее неделимому кванту сообщения.

Эта оценка получила название содержательности информации, а информация с семантической точки зрения имеет вид некоторого знания, представленного высказыванием (суждением, предложением) или текстом.

Под высказыванием понимается повествовательное предложение, утверждающее тот или иной факт. Побудительные и вопросительные предложения не могут быть высказываниями.

Содержательность высказывания определяется как множество выводимых из этого высказывания следствий определенного типа. Предполагается сравнительно простой язык, содержащий в качестве исходных символов конечное число имен индивидов элементарных предикатов и логические связки логики высказываний. Карнапом были предложены два варианта оценки величины информации содержания.

Согласно первому варианту: величина информации высказывания равна вероятности (степени правдоподобия) отрицания этого высказывания А. Мера содержательности обозначается cont (content – содержание), а содержательность события А выражается через функцию m(A) (содержательность его отрицания) в виде

(2.1)

Во втором варианте величина информации высказывания:

(2.2)

Оценка содержательности информации основана на математической логике, в которой функции истинности

и ложности

имеют по внешним признакам формальное сходство с функциями вероятностей события Р(А) и антисобытия

в классической теории вероятности.

Для обоих направления выполняются сходные естественные условия:

(2.3)

и как для вероятности имеем

Следовательно, формально сходны выражения для оценки статистических и логических количеств информации. В этом случае выражение (2.2) для логической оценки количества информации, получившее обозначение

, имеет сходное выражение:

(2.3)

Таким образом, отличие статистической оценки от логической состоит в том, что в первом случае учитывается только вероятность реализации тех или иных событий, а во втором случае – мера истинности или ложности событий, что и позволяет ближе подойти к оценке смысла информации.

До сих пор при оценке семантической меры информации (полезности) не рассматривалась возможность ее восприятия и обработки приемником. Можно рассматривать полезность информации в зависимости как от степени новизны, так и от способности приемника к ее восприятию и обработке.

Следствием потребительского аспекта является дополнение информации понятием актуации в смысле активного запроса информации со стороны заинтересованного приемника. При этом имеется в виду тесная связь между этими понятиями, т. к. в каждой ситуации (запросе) может содержаться некоторая информация.

Рис 2.4. Обобщенное представление процесса обмена информацией между двумя системами
Существуют три типа вопросов: в одном отсутствует предвосхищение опыта; в другом имеется некоторая доля ответа; в третьем полностью содержится ответ и требуется только его подтверждение.

Таким образом, замыкается связь между двумя системами (см. рис. 2.4): системой S_x, являющейся поставщиком информации, и системой S_y – потребителем информации.

Процесс смыслового анализа некоторой ситуации можно интерпретировать как изменение тезауруса под влиянием данного текста, то есть тезаурус является характеристикой приемника информации.

С учетом этого систему извлечения, передачи и приема информации можно представить в виде рисунка 2.5.

Рис 2.5. Схема извлечения, передачи и приема информации с учетом H, N, θ
На этой схеме источник (объект управления) обладает определенной энтропией Н, которая характеризует способность источника отдавать информацию. Отдача может быть неполной. Информация I=H₁–H₂ поступает в канал, где часть информации теряется или искажается шумом N. Оставшаяся информация I достигает приемника и воспринимается им в той степени, в какой это позволяет тезаурус.

Может оказаться, что несмотря на высокое богатство структур и статистики информации на передающей стороне приемная сторона не будет нуждаться в этой информации, т. к. она уже ею обладает, не имеет в ней потребности или не умеет с ней обращаться.

Рис 2.6. Изменение тезауруса
Существует и другое положение: если тезаурус неадекватен передаваемой информации, очень мал или вообще отсутствует, то самая новая и богатая информация не воспринимается вследствие того, что она не будет понята приемником.

С приемом новой информации тезаурус может обогащаться.

Тезаурус введен в XIII в. флорентийцем Лотики для названия энциклопедии (лат. сокровище, запас, богатство).

Пусть богатство (объем) тезауруса количественно оценивается некоторой величиной

. Изменение тезауруса

под действием сообщения Н можно оценить количеством информации

(рис. 2.6).

Имеется некоторое минимальное количество I_min(θ)

априорной информации I(θ)

тезауруса θ в системе S_y, при котором система S_y начинает понимать сообщения, поступающие от системы S_x. После этого воспринимаемая информация

возрастает при увеличении

до точки с координатами

, где достигается максимум восприятия. Далее следует спад, обусловленный тем, что априорные знания (тезаурус приемника) становятся настолько богатыми, что источник не приносит новой полезной информации. В точке

восприятие информации прекращается, т. к. система S_y оказывается насыщенной знаниями в пределах возможностей системы S_x – потенциального источника информации.

Если языки X и Y однозначно определены, то могут быть предусмотрены трансляторы (переводчики) Y→X и X→Y, располагаемые в S_x и S_y или в системах S_x и S_y совместно. В других случаях возникает проблема взаимоотношений, которая решается методами распознавания образов и самообучением. В приведенной выше схеме указаны синтактические, статистические и семантические характеристики информации.

Композиция отражает те же стороны информационной системы, что структура информации (синтактика); тезаурус – те же, что и энтропия; прагматика – те же, что и семантика. Наиболее близкими между собой являются понятия структуры и композиции.

Естественной функцией приемной стороны является композиция, заключающаяся в том, что по возможности восстанавливаются нарушенные связи между элементами информации или воссоздается непрерывность информационного комплекса или информационного процесса.

Таким образом, отличие статистической оценки от логической состоит в том, что первая учитывает вероятности реализации тех или иных событий, вторая – меры истинности или ложности событий.

В заключении отметим, что все семиотические аспекты информационной теории являются основой построения современных распределённых интеллектуальных систем в различных областях человеческой деятельности.