Книга в других форматах Приятного чтения! Артуро розенблюту
Скачать 1.87 Mb.
|
Глава III. Временные ряды, информация и связь Существует широкий класс явлений, в которых объектом наблюдения служит какая- либо числовая величина или последовательность числовых величин, распределенные во времени. Температура, непрерывно записываемая самопишущим термометром; курс акций на бирже в конце каждого дня; сводка метеорологических данных, ежедневно публикуемая бюро погоды, — все это временные ряды, непрерывные или дискретные, одномерные или многомерные. Эти временные ряды меняются сравнительно медленно, и их вполне можно обрабатывать посредством вычислений вручную или при помощи обыкновенных вычислительных приборов, таких, как счетные линейки и арифмометры. Их изучение относится к обычным разделам статистической науки. Но не все отдают себе отчет в том, что быстро меняющиеся последовательности напряжений в телефонной линии, телевизионной схеме или радиолокаторе точно так же относятся к области статистики и временных рядов, хотя приборы, которые их комбинируют и преобразуют, должны, вообще говоря, обладать большим быстродействием и, более того, должны выдавать результаты одновременно с очень быстрыми изменениями входного сигнала. Эти приборы: телефонные аппараты, волновые фильтры, автоматические звукокодирующие устройства типа вокодера138 Белловских телефонных лабораторий, схемы частотной модуляции и соответствующие им приемники — по существу [c.119] представляют собой быстродействующие арифметические устройства, соответствующие всему собранию вычислительных машин и программ статистического бюро, вместе со штатом вычислителей. Необходимый для их применения разум был вложен в них заранее, так же как и в автоматические дальномеры и системы управления артиллерийским зенитным огнем и по той же причине: цепочка операций должна выполняться настолько быстро, что ни в одном звене нельзя допустить участия человека. 138 Вокодер — система «синтетической» телефонии, в которой по каналам связи передаются вместо натуральных речевых сигналов упрощенные командные сигналы, получаемые в результате анализа речи на передающем конце. Тем самым передача занимает меньшую полосу частот. На приемном конце речь искусственно синтезируется под управлением командных сигналов, определяющих высоту и силу тонов, ритм и т. д. — Прим. ред. Все эти временные ряды и все устройства, работающие с ними, будь то в вычислительном бюро или в телефонной схеме, связаны с записью, хранением, передачей и использованием информации. Что же представляет собой эта информация и как она измеряется? Одной из простейших, наиболее элементарных форм информации является запись выбора между двумя равновероятными простыми альтернативами, например между гербом и решеткой при бросании монеты. Мы будем называть решением однократный выбор такого рода. Чтобы оценить теперь количество информации, получаемое при совершенно точном измерении величины, которая заключена между известными пределами А и В и может находиться с равномерной априорной вероятностью где угодно в этом интервале, положим А =0, В= 1 и представим нашу величину в двоичной системе бесконечной двоичной дробью 0, а 1 а 2 а 3 … a n …, где каждое а 1 , а 2 , … имеет значение 0 или 1. Здесь (3.01) Мы видим, что число сделанных выборов и вытекающее отсюда количество информации бесконечны. Однако в действительности никакое измерение не производится совершенно точно. Если измерение имеет равномерно распределенную ошибку, лежащую в интервале длины 0, b 1 b 2 … b n …, где b k — первый разряд, отличный от 0, то, очевидно, все решения от а 1 до а k— 1 и, возможно, до a k будут значащими, а все последующие — нет. Число принятых решений, очевидно, близко к (3.02) [c.120] и это выражение мы примем за точную формулу количества информации и за его определение. Это выражение можно понимать следующим образом: мы знаем априори, что некоторая переменная лежит между нулем и единицей, и знаем апостериори, что она лежит в интервале (а, b ) внутри интервала (0, 1). Тогда количество информации, извлекаемой нами из апостериорного знания, равно (3.03) Рассмотрим теперь случай, когда мы знаем априори, что вероятность нахождения некоторой величины между х и x +dx равна f 1 (x )dx, а апостериорная вероятность этого равна f 2 (x )dx. Сколько новой информации дает нам наша апостериорная вероятность? Эта задача по существу состоит в определении ширины областей, расположенных под кривыми y=f 1 (x ) и y =f 2 (x ). Заметим, что, по нашему допущению, переменная х имеет основное равномерное распределение, т. е. наши результаты, вообще говоря, будут другими, если мы заменим х на х 3 или на какую-либо другую функцию от х. Так как f 1 (x ) есть плотность вероятности, то (3.04) Поэтому средний логарифм ширины области, расположенной под кривой f 1 (x ), можно принять за некоторое среднее значение высоты логарифма обратной величины функции f 1 (x ). Таким образом, разумной мерой139 количества информации, связанного с кривой f 1 (x ), может служить140 [c.121] 139 Здесь автор использует личное сообщение Дж. фон Неймана. 140 Равенство (3.04) означает, что площадь под кривой y=f 1 (x ) равна 1. Поэтому средняя ширина этой области равна обратной величине ее средней высоты, т. е. среднего значения функции f 1 (x ). Отсюда, по- видимому, автор заключает об указанной вольной связи между средними логарифмами и, приняв, согласно (3.05) Величина, которую мы здесь определяем как количество информации, противоположна по знаку величине, которую в аналогичных ситуациях обычно определяют как энтропию. Данное здесь определение не совпадает с определением Р.А. Фишера для статистических задач, хотя оно также является статистическим определением и может применяться в методах статистики вместо определения Фишера. В частности, если f 1 (x ) постоянна на интервале (а, b ) и равна нулю вне этого интервала, то (3.06) Используя это выражение для сравнения информации о том, что некоторая точка находится в интервале (0, 1), с информацией о том, что она находится в интервале (а , b ), получим как меру разности (3.07) Определение, данное нами для количества информации, пригодно также в том случае, когда вместо переменной х берется переменная, изменяющаяся в двух или более измерениях. В двумерном случае f 1 (x , y ) есть такая функция, что (3.08) и количество информации равно (3.081) Заметим, что если f 1 (x, y ) имеет вид φ (х )ψ (y ) и , (3.082) [c.122] то (3.083) и (3.084) т. е. количество информации от независимых источников есть величина аддитивная. Интересной задачей является определение информации, получаемой при фиксации одной или нескольких переменных в какой-либо задаче. Например, положим, что переменная u заключена между х и x +dx с вероятностью , а переменная v заключена между теми же двумя пределами с вероятностью Сколько мы приобретаем информации об u , если знаем, что u +v =w ? В этом случае очевидно, что u =w —v , где w фиксировано. Мы полагаем, что априорные распределения переменных u и v независимы, тогда апостериорное распределение переменной u пропорционально величине (3.03), минус средний двоичный логарифм от ширины области за меру количества информации, находит в итоге , как в (3.05). — Прим. ред. , (3.09) где c 1 и c 2 — константы. Обе они исчезают в окончательной формуле. Приращение информации об u , когда мы знаем, что w таково, каким мы его задали заранее, равно [c.123] (3.091) Заметим, что выражение (3.091) положительно и не зависит от w. Оно равно половине логарифма от отношения суммы средних квадратов переменных u и v к среднему квадрату переменной v. Если v имеет лишь малую область изменения, то количество информации об u , которое дается знанием суммы u+v, велико и становится бесконечным, когда b приближается к нулю. Мы можем истолковать этот результат следующим образом. Будем рассматривать u как сообщение, а v — как помеху. Тогда информация, переносимая точным сообщением в отсутствие помехи, бесконечна. Напротив, при наличии помехи это количество информации конечно и быстро приближается к нулю по мере увеличения силы помехи. Мы сказали, что количество информации, будучи отрицательным логарифмом величины, которую можно рассматривать как вероятность, по существу есть некоторая отрицательная энтропия. Интересно отметить, что эта величина в среднем имеет свойства, которые мы приписываем энтропии. Пусть φ (х ) и ψ (x ) — две плотности вероятностей, тогда также есть плотность вероятности и (3.10) Это вытекает из того, что (3.11) Другими словами, перекрытие областей под φ (х ) и ψ (x ) уменьшает максимальную информацию, заключенную в сумме φ (х )+ψ (x ). Если же φ (х ) есть плотность [c.124] вероятности, обращающаяся в нуль вне (а , b ), то интеграл (3.12) имеет наименьшее значение, когда на интервале (а , b ) и φ (х )=0 вне этого интервала. Это вытекает из того, что логарифмическая кривая выпукла вверх. Как и следовало ожидать, процессы, ведущие к потере информации, весьма сходны с процессами, ведущими к росту энтропии. Они состоят в слиянии областей вероятностей, первоначально различных. Например, если мы заменяем распределение некоторой переменной распределением функции от нее, принимающей одинаковые значения при разных значениях аргумента, или в случае функции нескольких переменных позволяем некоторым из них свободно пробегать их естественную область изменения, мы теряем информацию. Никакая операция над сообщением не может в среднем увеличить информацию. Здесь мы имеем точное применение второго закона термодинамики к технике связи. Обратно, уточнение в среднем неопределенной ситуации приводит, как мы видели, большей частью к увеличению информации и никогда — к ее потере. Интересен случай, когда мы имеем распределение вероятностей с n -мерной плотностью f (х 1 , …, x n ) по переменным (х 1 , …, x n ) и m зависимых переменных y 1 , …, y m Сколько информации мы приобретаем при фиксации таких т переменных? Пусть они сперва фиксируются между пределами y 1 * , y 1 * +dy 1 * ; …; y m * , y m * +dy m * . Примем х 1 , x 2 , …, x n—m , y 1 , y 2 , …, у т за новую систему переменных. Тогда для новой системы переменных наша функция распределения будет пропорциональна f 1 (х 1 , …, x n ) над областью R, определенной условиями и равна нулю вне ее. Следовательно, количество информации, полученной при наложении условий на значения y , будет равно141 [c.125] (3.13) С этой задачей тесно связано обобщение задачи, о которой говорилось по поводу уравнения (3.091). Сколько информации в рассматриваемом случае приобретается нами об одних только переменных х 1 , …, x n—m ? Здесь априорная плотность вероятности этих переменных равна , (3.14) а ненормированная плотность вероятности после фиксации величин у * будет (3.141) где Σ берется по всем множествам значений (x n—m +1, …, x n ), соответствующим данному множеству значений y * . Основываясь на этом, нетрудно записать решение нашей задачи, хотя оно и будет несколько громоздким. Если мы примем множество (x 1 , …, x n—m ) за обобщенное сообщение, множество (x n—m +1, …, x n ) — за [c.126] обобщенный шум. а величины y * — за обобщенное искаженное сообщение, то получим, очевидно, решение обобщенной задачи выражения (3.091). Таким образом, мы имеем по крайней мере формальное решение обобщения упомянутой уже задачи о сигнале и шуме. Некоторое множество наблюдений зависит произвольным образом от некоторого множества сообщений и шумов с известным совместным распределением. Мы хотим установить, сколько информации об одних только сообщениях дают эти наблюдения. Это центральная проблема техники связи. Решение ее позволит нам оценивать различные системы связи, например системы с амплитудной, частотной или фазовой модуляцией, в отношении их эффективности в передаче информации. Это техническая задача, не подлежащая здесь подробному обсуждению; уместно, однако, сделать некоторые замечания. Во-первых, можно показать, что если пользоваться данным здесь определением информации, то при случайных помехах в эфире с равномерно распределенной по частоте мощностью и для сообщения, ограниченного определенным диапазоном частот и определенной отдачей мощности на этом диапазоне, не существует более эффективного способа передачи информации, чем амплитудная модуляция, хотя другие способы могут быть столь же эффективны. Во-вторых, переданная этим способом информация не обязательно имеет такую форму, которая наиболее приемлема для слуха или для другого данного рецептора. В этом случае специфические свойства уха и других рецепторов должны быть учтены при помощи теории, весьма сходной с только что изложенной. Вообще 141 Деление на служит нормировке апостериорной плотности вероятности. — Прим. ред. эффективное использование амплитудной модуляции или какого-либо другого вида модуляции должно быть дополнено применением соответствующих декодирующих устройств для преобразования принятой информации в такую форму, которая может быть хорошо воспринята рецепторами человека или же механическими рецепторами. Первоначальное сообщение тоже должно кодироваться, чтобы оно занимало возможно меньше места при передаче. Эта задача была разрешена, по крайней мере частично, когда Белловские телефонные лаборатории разработали систему «вокодер», а д-р К. Шеннон из этих лабораторий [c.127] представил в весьма удовлетворительном виде соответствующую общую теорию. Так обстоит дело с определением и методикой измерения информации. Теперь рассмотрим, каким способом информация может быть представлена в однородной во времени форме. Заметим, что большинство телефонных устройств и других приборов связи в действительности не предполагает определенного начала отсчета во времени. В самом деле, только одна операция как будто противоречит этому, но и здесь противоречие лишь кажущееся. Мы имеем в виду модуляцию. В ее наиболее простом виде она состоит в преобразовании сообщения f (t ) в сообщение вида f (t )sin(at +b ). Однако, если мы будет рассматривать множитель sin(at +b ) как добавочное сообщение, вводимое в аппаратуру, то, очевидно, случай модуляции подойдет под наше общее утверждение. Добавочное сообщение, которое мы называем переносчиком, ничего не прибавляет к скорости передачи информации системой. Вся содержащаяся в нем информация посылается в произвольно короткий промежуток времени, и затем больше ничего нового не передается. Итак, сообщение, однородное во времени, или, как выражаются профессионалы- статистики, временной ряд, находящийся в статистическом равновесии, есть функция или множество функций времени, входящее в ансамбль таких множеств с правильным распределением вероятностей, не изменяющимся, если всюду заменить t на t +τ . Иначе говоря, вероятность ансамбля инвариантна относительно группы преобразований, состоящей из операторов T λ которые изменяют f (t ) в f (t +λ ). Группа удовлетворяет условию (3.15) Следовательно, если Ф[f (t )] — «функционал» от f (t ), т. е. число, зависящее от всей истории функции f (t ), и среднее значение f (t ) по всему ансамблю конечно, то мы вправе применить эргодическую теорему Биркгоффа из предыдущей главы и заключить, что всюду, исключая множество значений f (t ) нулевой вероятности, существует временно́е среднее от Ф[f (t )], или в символах (3.16) [c.128] Но это еще не все. В предыдущей главе проводилась другая теорема эргодического характера, доказанная фон Нейманом: коль скоро некоторая система переходит в себя при данной группе сохраняющих меру преобразований, как в случае нашего уравнения (3.15), то, за исключением множества элементов нулевой вероятности, каждый элемент системы входит в подмножество (быть может, равное всему множеству), которое: 1) переходит в себя при тех же преобразованиях; 2) имеет меру, определенную на нем самом и также инвариантную при этих преобразованиях; 3) замечательно тем, что любая часть этого подмножества с мерой, сохраняемой данной группой преобразований, имеет либо максимальную меру всего подмножества, либо меру 0. Отбросив все элементы, не принадлежащие к такому подмножеству, и используя для него надлежащую меру, мы найдем, что временно́е среднее (3.16) почти во всех случаях равно среднему значению функционала Ф[f (t )] по всему пространству функций f (t ), т. е. так называемому фазовому среднему. Стало быть, в случае такого ансамбля функции f (t ), за исключением множества случаев нулевой вероятности, мы можем найти среднее значение любого статистического параметра ансамбля по записи любого временного ряда ансамбля, применяя временно́е среднее вместо фазового. Более того, этим путем можно найти одновременно любое счетное множество таких параметров ансамбля, и нам нужно знать лишь прошлое одного, почти какого угодно временного ряда ансамбля. Другими словами, если дана вся прошлая история — вплоть до настоящего момента — временного ряда, принадлежащего к ансамблю в статистическом равновесии, то мы можем вычислить с вероятной ошибкой, равной нулю, все множество статистических параметров ансамбля, к которому принадлежит ряд. До сих пор мы установили это для отдельного временного ряда, но сказанное справедливо также для многомерных временных рядов, где вместо одной изменяющейся величины мы имеем несколько одновременно изменяющихся величин. Теперь мы можем рассмотреть различные задачи, относящиеся к временным рядам. Ограничимся случаями, в которых все прошлое временного ряда может быть задано счетным множеством величин. Например, для |