|
Перегудов Ф. И., Тарасенко Ф. П
§ 5.6. ЭНТРОПИЯ Установив, что случайные процессы являются адекватной моделью сигналов (см. § 5.3), мы получаем возможность воспользоваться результатами и мощным аппаратом теории случайных процессов. Кроме того, обнаружив, что некоторые типы непрерывных сигналов допускают дискретное представление (см. § 5.5), мы упрощаем задачу, сводя все к рассмотрению случайных величин.
Это не означает, что теория вероятностей и теория случайных процессов дают готовые ответы на все вопросы о сигналах: подход с новых позиций выдвигает такие вопросы, которые раньше просто не возникали. Так и родилась теория информации [9], специально рассматривающая сигнальную специфику случайных процессов. При этом были построены принципиально новые понятия (которые мы рассмотрим в данном и следующем параграфах) и получены новые, неожиданные результаты, имеющие характер научных открытий (наиболее важные из них мы обсудим в § 5.8).
ПОНЯТИЕ НЕОПРЕДЕЛЕННОСТИ
Первым специфическим понятием теории информации является понятие неопределенности случайного объекта, для которой удалось ввести количественную меру, названную энтропией. Начнем с простейшего варианта – со случайного события. Пусть, например, некоторое событие может произойти с вероятностью 0,99 и не произойти с вероятностью 0,01, а другое событие имеет вероятности соответственно 0,5 и 0,5. Очевидно, что в первом случае результатом опыта “почти наверняка” является наступление события, во втором же случае неопределенность исхода так велика, что от прогноза разумнее воздержаться.
Для характеристики размытости распределений широко используется второй центральный момент (дисперсия) или доверительный интервал. Однако эти величины имеют смысл лишь для случайных числовых величин и не могут применяться к случайным объектам, состояния которых различаются качественно, хотя и в этом случае можно говорить о большей или меньшей неопределенности исхода опыта. Следовательно, мера неопределенности, связанная с распределением, должна быть некоторой его числовой характеристикой, функционалом от распределения, никак не связанным с тем, в какой шкале измеряются реализации случайного объекта.
ЭНТРОПИЯ И ЕЕ СВОЙСТВА
Примем (пока без обоснования) в качестве меры неопределенности случайного объекта А с конечным множеством возможных состояний
А1, ..., Аn с соответствующими вероятностями p1, ..., рn величину
, (1)
которую и называют энтропией случайного объекта А (или распределения {рi}). Убедимся, что этот функционал обладает свойствами, которые вполне естественны для меры неопределенности.
10. Н(р1, ..., рn) = 0 в том и только в том случае, когда какое-нибудь одно из {рi} равно единице (а остальные – нули). Это соответствует случаю, когда исход опыта может быть предсказан с полной достоверностью, т.е. когда отсутствует всякая неопределенность. Во всех других случаях энтропия положительна. Это свойство проверяется непосредственно.
20. Н(р1, ..., рn) достигает наибольшего значения при р1 = р2 = = ... = рn = 1/n, т.е. в случае максимальной неопределенности.
Действительно, вариация Н по рi при условии рi = 1 дает рi = = const = .
30. Если А и В – независимые случайные объекты, то
Н(А В) = Н({?ik =рiqk}) = Н({рi}) + Н({qk}) = Н(А) +Н(В).
Это свойство проверяется непосредственно.
40. Если А и В – зависимые случайные объекты, то
Н(А В) = Н(А) + Н(В | А) =Н(В) +Н(А | В), (2)
где условная энтропия Н(В | А) определяется как математическое ожидание энтропии условного распределения.
Это свойство проверяется непосредственно.
50. Имеет место неравенство Н(А) Н(А | В), что согласуется с интуитивным представлением о том, что знание состояния объекта В может только уменьшить неопределенность объекта А, а если они независимы, то оставит ее неизменной.
Это свойство доказывается с помощью тождественного неравенства
,
справедливого для любой выпуклой функции f(х), если в этом неравенстве положить f(х) = хlogх, ?k = рk, хk = qk | l.
Как видим, свойства функционала Н позволяют использовать его в качестве меры неопределенности. Интересно отметить, что если пойти в обратном направлении, т.е. задать желаемые свойства меры неопределенности и искать обладающий указанными свойствами функционал, то уже только условия 20 и 40 позволяют найти этот функционал, и притом единственнымобразом (с точностью до постоянного множителя).
ДифференциальнаЯ ЭНТРОПИЯ
Обобщение столь полезной меры неопределенности на непрерывные случайные величины наталкивается на ряд сложностей. Можно по-разному преодолеть эти сложности; выберем кратчайший путь. Прямая аналогия
не приводит к нужному результату; плотность р(х) является размерной величиной*, а логарифм размерной величины не имеет смысла. Однако положение можно исправить, умножив р(х) под знаком логарифма на величину E, имеющую ту же размерность, что и х:
.
Теперь величину E можно принять равной единице измерения х, что приводит к функционалу
, (3)
который получил название дифференциальной энтропии. Это аналог энтропии дискретной величины, но аналог условный, относительный: ведь единица измерения произвольна. (Здесь [p(x)] есть безразмерное представление плотности.) Запись (3) означает, что мы как бы сравниваем неопределенность случайной величины, имеющей плотность р(х), с неопределенностью случайной величины, равномерно распределенной в единичном интервале. Поэтому величина h(Х) в отличие от Н(Х) может быть не только положительной. Кроме того, h(Х) изменяется при нелинейных преобразованиях шкалы х, что в дискретном случае не играет роли. Остальные свойства h(Х) аналогичны свойствам Н(Х), что делает дифференциальную энтропию очень полезной мерой.
Пусть, например, задача состоит в том, чтобы, зная лишь некоторые ограничения на случайную величину (типа моментов, пределов сверху и снизу области возможных значений и т.п.), задать для дальнейшего (каких-то расчетов или моделирования) конкретное распределение. Одним из подходов к решению этой задачи дает принцип максимума энтропии: из всех распределений, отвечающих данным ограничениям, следует выбирать то, которое обладает максимальной дифференциальной энтропией. Смысл этого критерия состоит в том, что, выбирая экстремальное по энтропии распределение, мы гарантируем наибольшую неопределенность, связанную с ним, т.е. имеем дело с наихудшим случаем при данных условиях.
ФУНДАМЕНТАЛЬНОЕ СВОЙСТВО ЭНТРОПИИ СЛУЧАЙНОГО ПРОЦЕССА
Особое значение энтропия приобретает в связи с тем, что она связана с очень глубокими, фундаментальными свойствами случайных процессов. Покажем это на примере процесса с дискретным временем и дискретным конечным множеством возможных состояний.
PROBABILITY вероятность
INDEPENDENT независимый
SYMBOL символ
ENTROPY энтропия
ERGODICITY эргодичность
Важным шагом в построении теории информации является введение количественной меры неопределенности – энтропии. Оказывается, что функционал (1) обладает качествами, которые логично ожидать от меры неопределенности, и, наоборот, единственным функционалом с такими свойствами является именно функционал энтропии. Обобщение понятия энтропии на непрерывные случайные величины приводит к выводу, что такое обобщение – дифференциальная энтропия – возможно лишь как относительная мера.
Оказывается, что энтропия связана с глубокими свойствами случайных процессов. Например, для дискретных процессов имеет место свойство асимптотической равновероятности реализаций из высоковероятной группы. Назовем каждое такое состояние символом, множество возможных состояний – алфавитом, их число m – объемом алфавита. Число всевозможных последовательностей длины n, очевидно, равно mn. Появление конкретной последовательности можно рассматривать как реализацию одного из mn возможных событий. Зная вероятности символов и условные вероятности появления следующего символа, если известен предыдущий (в случае их зависимости), можно вычислить вероятность Р(С) для каждой последовательности С. Тогда энтропия множества { С }, по определению, равна
. (4)
——————————
* Существование такого предела для любого стационарного процесса можно строго доказать. Определим энтропию процесса Н (среднюю неопределенность, приходящуюся на один символ) следующим образом*:
. (5)
На множестве { С } можно задать любую числовую функцию fn(С), которая, очевидно, является случайной величиной. Определим fn(С) с помощью соотношения
.
Математическое ожидание этой функции
,
откуда следует, что
, и (6)
Это соотношение, весьма интересное уже само по себе, является, однако, лишь одним из проявлений гораздо более общего свойства дискретных эргодических процессов. Оказывается, что не только математическое ожидание величины fn(С) при n имеет своим пределом Н, но сама эта величина fn(С) стремится к Н при n. Другими словами, как бы малы ни были Е > 0 и ? > 0, при достаточно большом n справедливо неравенство [9]
, (7)
т.е. близость fn(С) к Н при больших n является почти достоверным событием.
Для большей наглядности сформулированное фундаментальное свойство случайных процессов обычно излагают следующим образом. Для любых заданных E > 0 и ??> 0 можно найти такое n0, что реализации любой длины n > n0 распадаются на два класса:
группа реализаций, вероятности Р(С) которых удовлетворяют неравенству
; (8)
группа реализаций, вероятности которых этому неравенству не удовлетворяют.
Так как согласно неравенству (7) суммарные вероятности этих групп равны соответственно 1 – ? и ?, то первая группа называется высоковероятной, а вторая – маловероятной.
Это свойство эргодических процессов приводит к ряду важных следствий, из которых три заслуживают особого внимания.
10. Независимо от того, каковы вероятности символов и каковы статистические связи между ними, все реализации высоковероятной группы приблизительно равновероятны (см. формулу (8)).
В связи с этим фундаментальное свойство иногда называют “свойством асимптотической равнораспределенности”. Это следствие, в частности, означает, что по известной вероятности Р(С) одной из реализаций высоковероятной группы можно оценить число N1 реализаций в этой группе:
.
20. Энтропия Нn с высокой точностью равна логарифму числа реализации в высоковероятной группе:
Нn = nН = logN1. (9)
30. При больших n высоковероятная группа обычно охватывает лишь ничтожную долю всех возможных реализаций (за исключением случая равновероятных и независимых символов, когда все реализации равновероятны и Н = log m).
Действительно, из соотношения (9) имеем N1 = аnH, где а – основание логарифма. Число N всех возможных реализаций есть N = mn = аnlogm. Доля реализаций высоковероятной группы в общем числе реализаций выражается формулой
N1/N=a–n(logm – Н), (10)
и при Н < logm эта доля неограниченно убывает с ростом n. Например, если a = 2, n = 100, Н =2,75, m = 8, то N1/N = 2–25 = (3·107)-1, т.е. к высоковероятной группе относится лишь одна тридцатимиллионная доля всех реализаций!
Строгое доказательство фундаментального свойства эргодических процессов сложно и здесь не приводится. Однако следует отметить, что в простейшем случае независимости символов это свойство является следствием закона больших чисел. Действительно, закон больших чисел утверждает, что с вероятностью, близкой к 1, в длинной реализации i-й символ, имеющий вероятность рi, встретится примерно nрi раз. Следовательно, вероятность реализации высоковероятной группы есть , откуда – logР(С) = – n, что и доказывает справедливость фундаментального свойства в этом случае.
Подведем итог
Связав понятие неопределенности дискретной величины с распределением вероятности по возможным состояниям и потребовав некоторых естественных свойств от количественной меры неопределенности, мы приходим к выводу, что такой мерой может служить только функционал (1), названный энтропией. С некоторыми трудностями энтропийный подход удалось обобщить на непрерывные случайные величины (введением дифференциальной энтропии (3)) и на дискретные случайные процессы.
| Summary
Linking the concept of the uncertainty of a discrete random variable and the form of its probability distribution, and demanding certain reasonable properties from the quantitative measure of uncertainty, we arrive at the conclusion that such a measure may only be the functional (1), which is called entropy. The entropy approach may be extended (with some difficulty) to continuous random variables – by the introduction of differential entropy (3) – as well as to random processes (we have considered here only discrete processes).
| |
|
|