Рихтер лекции системы радиосвязи. рихтер лекции. Кафедра радиовещания и электроакустики
Скачать 3.27 Mb.
|
z 2 (k)k=1 была минимальной. При подаче речевого сигнала на вход фильтра-анализатора с оптимально подобранными параметрами его выходной сигнал будет представлять собой сигнал возбуждения R(z), подобный (с точностью до ошибок, определяемых конечностью порядка предсказания Р и погрешностью оценки коэффициентов предсказания) сигналу возбуждения u(k) на входе фильтра голосового тракта на рис. 10.1. На выходе этого фильтра остается только периодическая составляющая РС, соответствующая основному тону. Это модель фильтра - анализатора РС, описываемая уравнением (10.5). Синтезирующий фильтр выполняет противоположные функции. Он находится в декодере и осуществляет формирование речевого сигнала с заданной огибающей спектра. “Нужная“ настройка этого фильтра в декодере обеспечивается передачей на приемную сторону коэффициентов предсказателя, используемых в этот момент в кодере. Подаваемый на вход синтезирующего фильтра сигнал называется “сигналом возбуждения” R(z). Является очевидным, что он должен быть максимально “похож” на сигнал остатка предсказания, полученный в кодере. Из выражения (10.4) можно получить модель фильтра-синтезатора, который находится в декодере (рис. 10.3) X(z) = R(z) / A(z) = R(z) H(z), (10.6) где H(z) = G / A(z) - передаточная функция синтезирующего фильтра, обратная передаточной характеристике фильтра-анализатора с точностью до скалярного коэффициента усиления G. Фильтр H(z) - это линейная система с переменными параметрами (фактически - модель фильтра голосового тракта), которая возбуждается импульсной последовательностью для вокализованных звуков и шумом для невокализованных (см. рис.10.1). Фильтр-анализатор и фильтр-синтезатор являются рекурсивными, поскольку значение сигнала на их выходах определяется лишь предшествующими выходными выборками речевого сигнала. Рис. 10.3. Модель фильтра-синтезатора X(z) Такая модель имеет следующие параметры: классификатор вокализованных и невокализованных звуков, период основного тона для вокализованных сегментов, коэффициент усиления G и коэффициенты api цифрового фильтра. Все эти параметры, разумеется, медленно изменяются во времени. 11. Вокодеры с линейным предсказанием (липредеры) Кодирование речи на основе метода линейного предсказания заключается в том, что по линии связи передаются не параметры речевого сигнала (РС), как такового, а параметры некоторого фильтра, в известном смысле эквивалентного голосовому тракту, и параметры сигнала возбуждения этого фильтра. В качестве такого фильтра используется фильтр линейного предсказания (ФЛП), названный ранее фильтром-анализатором с передаточной функцией A(z). При кодировании (на передаче) производится оценка параметров ФЛП и параметров сигнала возбуждения, а при декодировании (на приеме) - сигнал возбуждения пропускается через фильтр-синтезатор, на выходе которого получается восстановленный сигнал речи. Различные варианты алгоритмов кодирования отличаются набором передаваемых параметров фильтра, методом формирования сигнала возбуждения и рядом других деталей, а процедура кодирования речи сводится к следующему (рис. 11.1): оцифрованный сигнал речи "нарезается" на сегменты длительностью 20 мс; для каждого сегмента оцениваются параметры ФЛП и параметры сигнала возбуждения; в качестве сигнала возбуждения в простейшем (по идее) случае может выступать остаток предсказания, получаемый при пропускании сегмента речи через фильтр A(z) с параметрами, полученными из оценки для данного сегмента; параметры фильтра и параметры сигнала возбуждения кодируются по определенному закону и передаются в канал связи. Рис. 11.1. Кодирование речи на основе метода линейного предсказания Процедура декодирования речи заключается в пропускании принятого сигнала возбуждения через синтезирующий фильтр известной структуры, параметры которого переданы одновременно с сигналом возбуждения. Сигнал на вход анализирующего фильтра поступает непосредственно с выхода АЦП, а выходной сигнал синтезирующего фильтра попадает на вход ЦАП. Приведенное описание процессов кодирования и декодирования речи не является исчерпывающим, оно объясняет лишь принцип действия кодека. Практические схемы заметно сложнее, и это связано в основном со следующими двумя моментами. Во-первых, речевой сигнал обладает двумя видами внутренних корреляционных связей, кратковременной и долговременной избыточностью, поэтому в подавляющем большинстве современных речевых кодеков используется два предсказателя: кратковременный (SHORT-TERM) и долговременный (LONG-TERM). Первый предсказатель (STP), учитывающий кратковременную избыточность РС, связан с корреляциями между близко расположенными отсчетами сигнала и определяет огибающую спектра. Его порядок обычно бывает 6÷10. Второй, долговременный, предсказатель (LTP) определяет тонкую структуру РС и связан с корреляцией двух отрезков сигнала между собой, реально - двух соседних периодов основного тона (ОТ). Период основного тона речиизменяется в широких пределах. На практике обеспечивается формирование частоты ОТ в пределах 57 ¸ 500 Гц , что соответствует изменению периода от 2 до 17,5 мс. Сочетание двух предсказателей с разными характеристиками позволяет в значительной мере устранить остаточную избыточность и приблизить остаток предсказания по своим статистическим характеристикам к белому шуму. При этом на приемную сторону передаются остаток предсказания и коэффициенты обоих (STP и LTP) предсказаний. Во-вторых, использование остатка предсказания в качестве сигнала возбуждения оказывается недостаточно эффективным, так как требует для кодирования слишком большого числа бит. Поэтому практическое применение находят более экономичные (по загрузке канала связи, но отнюдь не по вычислительным затратам) методы формирования сигнала возбуждения. Рассмотрим структурную схему вокодера с линейным предсказанием более подробно (рис. 11.2). На подготовительном этапе выполняют аналого-цифровое преобразование РС и сегментацию цифрового потока: для последующей обработки выбирают отсчеты сигнала на интервале длительностью 20 мс, что при Fд = 8 кГц обеспечивает число обрабатываемых отсчетов равное 160. После сегментации отсчетов РС в кодере последовательно выполняются следующие три процедуры: кратковременный (формантный) анализ с использованием процедуры линейного предсказания, в результате чего получают первый остаточный сигнал r1(k); долговременный анализ с использованием линейного предсказания для определения параметров ОТ, в результате чего получают второй остаточный сигнал r2(k), близкий по своим характеристикам к шумовому, поскольку между отсчетами этого сигнала корреляция мала; аппроксимация второго остаточного сигнала с целью формирования сигнала возбуждения. В первой процедуре оценку текущего отсчета Ś(k) определяют в соответствии с (10.1) как сумму P предшествующих отсчетов. При формантном анализе порядок предсказания P выбирают равным 8 – 12. Определение коэффициентов предсказания apiфильтра-анализатора (10.5) производят в блоке формантного анализа из условия минимизации среднеквадратичного значения ошибки предсказания (т.е. первого остаточного сигнала) на интервале сегмента. Вычисленные значения коэффициентов предсказания используют в фильтре удаления формант кодера, на выходе которого получают сигнал, свободный от квазипериодических составляющих – формант; его называют первым остаточным сигналом. Информацию о формантах несут переданные на приемный конец параметры фильтра api, либо связанные с ними коэффициенты частичной корреляции (коэффициенты отражения). Иногда используют функции от коэффициентов отражения - так называемые логарифмические отношения площадей. Во второй процедуре с учетом того, что основной тон характеризуется всего двумя параметрами, - амплитудой и периодом, передаточная функция фильтра удаления ОТ A2(z) описывается более простым, по сравнению с (10.4), выражением , (11.1) где G - единственный коэффициент предсказания, характеризующий амплитуду основного тона. Задержка aопределяет период основного тона, ее значение обычно заключается в пределах от 20 до 160 интервалов дискретизации сигнала, что соответствует диапазону частот основного тона 50 - 400 Гц. Известно, что значение основного тона для разных голосов может изменяться почти в 10 раз - от 2 до 18 мс. Это обстоятельство создает немало трудностей при оценке ОТ, так как слух очень чувствителен к его искажениям. Методов измерения ОТ известно очень много и, вместе с тем, метод, не требующий чрезмерной задержки, пока не появился. Несмотря на относительную простоту выражения (11.1), анализ и удаление ОТ является более сложной процедурой по сравнению с формантным анализом. Это обусловлено существенно большим периодом ОТ и сложностью выявления корреляции между отсчетами на большом временном интервале. Кроме того, период и амплитуда ОТ очень важны для точного восстановления речи. Именно поэтому на этапе долговременного анализа сегмент речи разделяют на 4 подсегмента. Каждый подсегмент имеет длительность 5 мс и содержит 40 отсчетов. Значения G и a определяют для каждого подсегмента по отдельности. Найденные параметры G и a используют в фильтре удаления основного тона. Их также передают на приемный конец в декодер, где используют при синтезе речевого сигнала. |