Главная страница
Навигация по странице:

  • 8. Дифференциальные методы кодовой модуляции

  • Основы параметрического кодирования речи

  • Рихтер лекции системы радиосвязи. рихтер лекции. Кафедра радиовещания и электроакустики


    Скачать 3.27 Mb.
    НазваниеКафедра радиовещания и электроакустики
    АнкорРихтер лекции системы радиосвязи
    Дата20.12.2019
    Размер3.27 Mb.
    Формат файлаdoc
    Имя файларихтер лекции.doc
    ТипКонспект
    #101315
    страница6 из 10
    1   2   3   4   5   6   7   8   9   10

    Декодер




    Рис. 7.4. Структурная схема системы ИКМ

    Искажения (шум) квантования, возникающие при преобразовании ана­логового сигнала в цифровую форму, обычно выражаются в виде отношения средних мощностей сигнала и шума, т.е. отношения сигнал-шум квантования (ОСШК) Рсш.кв. ОСШК, выраженное в децибелах, при равномерном квантовании определяется соотношением:

    Рс / Рш.кв = 6m + 4,8 – 20 lg Q, дБ, (7.2)

    где Q – значение пик-фактора сигнала. Отсюда имеем:

    • для гармонического сигнала (Q = 2) Рс / Рш.кв = 6m + 1,8, дБ;

    • для речевого сигнала (Q = 12 дБ) Рс / Рш.кв = 6m – 7,2, дБ.

    Система ИКМ с линейным квантованием практически не применяется, поскольку для достижения приемлемо­го качества восприятия восстановленного речевого сигнала при равно­мерном квантовании необходимо обеспечить m≥ 12. Столь большое число уровней квантования nмакс = 212 при Fд = 8 кГц требует, чтобы скорость Rц передачи символов в канале была не менее 96 кбит/с. Для существенного уменьшения скорости Rц цифрового потока прибегают к нелинейному квантованию (рис. 7.5а) в процессе мгновенного компандирования(МК),когдана передающей стороне РС подвергают компрессии по логарифмическому закону, а на приемной осуществляют обратную операцию – экспандирование с помощью экспоненциального преобразования. При МК устраняется психофизическая избыточность, определяемая низкой заметностью искажений квантования на фоне сильного сигнала.

    В электросвязи используется ИКМ с компандированием либо по  - закону, либо по А - закону; характеристика компрессии по  - закону приведена на рис. 7.5б для разных значений коэффициента сжатия. Обычно используют  = 30; 100; 255 или А = 87,6. Структурная схема системы ИКМ с МК дополняется элементами логарифмического компандера (рекомендация ITU-TG.711, 1960 г.). Так, можно либо компрессировать исходный сигнал по логарифмическому закону с последующим равномерным квантованием при сравнительно малом числе уровней (например, при m = 8), либо компрессировать предварительно преобразованный в цифровую форму сигнал при срав­нительно большом исходном числе уровней квантования (например, при m= 12) с последующим преобразованием к восьмиразрядному коду (m = 8). Результатом преобразования является двоичная последова­тельность, передаваемая со скоростью Rц = 64 кбит/с.


    Рис. 7.5. Принцип нелинейного квантования (а) и характеристики компрессии по  - закону (б)

    Из-за трудностей реализации неравномерного квантования с аналоговыми компрессорами переходят к цифровым, у которых плавная характеристика компрессии заменяется линейно-ломанной аппроксимирующей функцией с различным числом сегментов.

    8. Дифференциальные методы кодовой модуляции

    В обычной системе с ИКМ каждый отсчет входного сигнала кодируется независимо от всех остальных. В то же время анализ пока­зывает, что речевой сигнал (РС) характеризуется сильной автокорреляцией - коэффициент корреля­ции (мера предсказуемости) между соседними отсчетами, следующими с частотой 8 кГц, составляет в общем случае 0,85 или больше. Это означает, что две соседних выборки не могут сильно отличаться друг от друга. Соответст­венно, если кодировать только разность между ними, то можно снизить скорость передачи двоичных данных, представляющих речевой сигнал. Более того, зна­ние нескольких последовательных отсчетов и их корреляционных свойств по­зволяет предсказать последующий отсчет. Заметим, что на протяжении некото­рого ограниченного промежутка времени РС можно считать квази­стационарным. Таким образом, вместо кодирования следующих друг за другом отсчетов или даже их разности, можно кодировать разность между текущим и предсказанным значением, которое предсказатель (варианты: экстраполятор, пре­диктор)вычисляет на основе инфор­мации о нескольких предыдущих отсчетах.

    Первым примером «сжимающей» обработки считают дифференциальную ИКМ (ДИКМ). В этой системе предыдущий отсчет берется с определенным весом, формируя прогноз, а разница между предсказанным и реальным отсчетами речи подвергается квантованию по знаку и по величине, после чего формируются двоичные символы (кодовые слова) цифрового сигнала. По существу, здесь кодируется крутизна (производная) сигнала на передающей стороне и восстанавливается сигнал пу­тем интегрирования на приемной стороне.





    Простейшими средствами получения разности значений отсчетов являются запоминание предыдущего входного отсчета непосредственно в аналоговой памяти и использование аналогового вычитающего устройства для измерения изменения (рис. 8.1). Изменения сигнала затем квантуются и кодиру­ются для передачи.

    Рис. 8.1. Структурная схема системы ДИКМ

    Таким образом, в дифференциальных кодеках квантованию и передаче по цифровому каналу подвергается разность между текущим отсчетом (выборкой) РС x(k) и его предсказанным значением x(k), т.е. ошибка предсказания z(k) = x(k)x(k). Предсказываемое значение формируется из восстановленного сигнала x`(k) = x(k) + zq(k); здесь zq(k) – квантованная ошибка предсказания. В качестве предсказываемого значения РС x(k) в простейшем случае может быть использовано предыдущее отсчетное значение, хотя в общем случае используется выражение

    Р

    x(k) =  api x`(k-i), (8.1)

    i=1

    где api и Р - коэффициенты и порядок предсказания, когда значение сигнала в k-ый тактовый момент определяется через его восстановленные значения в предыдущие (k–1),..., (k–p) моменты. Выходной сигнал предсказывающего устройства представляет собой взвешенную сумму послед­них Р отсчетов, каждый из которых в свою очередь является суммой выход­ных сигналов предсказателя и квантователя. Таким образом, предсказанное значение является выходным сигналом фильтра с передаточной функцией вида P(z) =  k Z-k, на вход которого поступает восстановленный сигнал x`(k). Здесь символ Z-1 означает задержку на период дискретизации. Так что предсказатель может быть реализован в виде трансверсального фильтра на основе М-отводной линии задержки (регистра сдвига) с временем задержки между отводами, равным периоду временной дискретизации Тд.

    Классификационными признака­ми кодеров ДИКМ считаются нали­чие блока линейного предсказания и использование мно­гоуровневого (больше двух уровней) квантователя. Блок линейного пред­сказания может состоять из двух ча­стей — долговременного и кратковре­менного предсказателей. Если предсказатель хороший, то дисперсия z2 разности z(k) будет существенно меньше, чем дисперсия x2 отсчета речевого сигнала x(k), в результате квантователь с заданным шагом (или количеством уровней квантования) даст меньшую погрешность при квантовании разности, чем при квантовании исходного сигнала. Следовательно, шум квантования при подаче на вход квантователя z(k) будет меньше, чем при непосредственном квантовании (в обычной ИКМ). При одинаковом уровне шума число уровней квантования z(k) будет меньше, а длина кодового слова (число разрядов m) и необходимая скорость передачи Rц (7.1) будут снижены.

    На приемной стороне из принятого цифрового сигнала аналогичным образом формируется квантованный аппроксимирующий сигнал, который пос­ле низкочастотной фильтрации и усиления поступает на выход ТФ канала.

    Концепцию ДИКМ можно расширить таким образом, чтобы включить в цепь предсказания значения более чем одного предшествующего отсчета. За счет этого дополнительная избыточность, извлекаемая из всех предшествующих отсчетов, может быть взвешена и суммирована для получения лучшей оценки значения следующего входного отсчета. В связи с улучшенной оценкой диапазон ошибок предсказания уменьшается, что дает возможность кодировать с меньшим числом разрядов. Для систем с постоянными коэффициентами предсказа­ния большая часть реализуемого выигрыша достигается, когда используются значения только трех последних отсчетов.

    При анализе систем с ДИКМ и предсказанием первого порядка обычно получается уменьшение длины кодовой комбинации, соответствующей отсчету, на один раз­ряд по сравнению с ее длиной в системах с ИКМ при эквивалентных показателях систем. В системах с ДИКМ с предсказанием третьего порядка может быть реализовано уменьшение на 1,5 - 2 разряда на отсчет. Таким образом, обычная система с ДИКМ может обеспечить то же качество, что и система с ИКМ-64 при скорости передачи 56 кбит/с, а в системе с предсказанием третьего порядка можно получить сопоставимое качество при скорости передачи 48 кбит/с.

    Величина отношения сигнал-шум квантования (ОСШК) в такой системе увеличивается (по сравнению с оценкой (7.2) в системе ИКМ) пропорционально уменьшению дисперсии погрешности предсказания. Выигрыш в ОСШК (или коэффициент, характеризующий эффективность предсказания): Gp = x2 / z2, где z2 – дисперсия погрешности предсказания. Квантователь может быть адаптивный или неадаптивный, равномерный или неравномерный. ДИКМ обеспечивает выигрыш Gp  6 дБ (в случае неадаптивного равномерного квантования РС с частотой дискретизации 8 кГц) по сравнению с прямым квантованием (т.е. ИКМ).

    Как и в системах с ИКМ, процесс АЦП в ДИКМ может осуществляться с компандированием, а также может использоваться техника адаптации для подстройки размеров шагов квантования в соответствии с уровнем средней мощности сигнала. Эти способы адаптации называют слоговым компандированиемв соответствии с интервалом времени между подстройками усиления.

    Дельта-модуляция (ДМ) считается частным случаем ДИКМ-кодирования. В методе ДМ вычисляется разница между теку­щим и предыдущим отсчетами. Затем эта разница подвергается квантованию в одноразрядном (двухуровневом) квантователе. Этот единственный разряд просто показывает полярность отсчета разностного сигнала и посредством этого указывает на то, уве­личился или уменьшился сигнал за время, прошедшее после последнего отсчета. За упрощение схемы кодирова­ния приходится платить необходимостью увеличения частоты дискретизации по сравнению с минимально возможной частотой дискретизации, используемой в ИКМ-кодере. В простейшем ДМ-кодере частота дискретизации представляет со­бой компромисс между скоростью выходного потока данных и приемлемым уровнем ошибок квантования. Наиболее значительные ошибки дискретизации сигнала вызываются двумя явлениями - перегрузкой по крутизне и шумом дроб­ления. Суть первого явления заключается в том, что при кодировании быстро из­меняющегося сигнала возникают ошибки, обусловленные невозможностью из­менения аппроксимирующего сигнала более чем на один шаг квантования.

    В простейшем случае линейной ДМ-квантователь имеет только два уровня (+ и – ) и фиксированный шаг квантования, а предсказатель представля­ет собой цифровое интегрирующее устройство, в котором сигнал x`(k) задерживается на время t и умножается на коэффициент , где 0 < 1. На выходе интегратора образуется сту­пенчатое напряжение, крутизна которого не может превышать значение Fд = /t, при котором кодированный сигнал отстоит от входного сиг­нала не более, чем на размер шага. Если дельта-модулятор не в состоянии отслеживать быстрые изменения во входном сигнале, то возникает "отставание" восстановленного сигнала от исходно­го (рис. 8.2), характеризуемое как искажение перегрузки по крутизне.




    Рис. 8.2. Искажение перегрузки по крутизне при дельта-модуляции
    Фак­тически, ДМ-кодер не успевает отслеживать быстрые изменения уровня сигнала и генерирует линейно изменяющийся квантованный сигнал. Шум дробления или гранулярный шум возникает при квантовании квазистационарного сигнала. При ДМ-кодировании постоянного сигнала результат представляет собой неравномерно чередующиеся положительные и отрицательные двоичные импульсы. Как показано на рис. 8.2, для медленно меняющихся сигналов основное значение имеет гранулярный шум, в то время как для быстро меняющихся сигналов - шум перегрузки по крутизне. Последний достигает пиковых значений непос­редственно перед тем, как достигает максимумов кодируемый сигнал. Поэ­тому шум перегрузки по крутизне эффективно маскируется энергией речи, вследствие чего он менее заметен, чем шумы дробления.

    Перегрузка по крутизне является не только ограничивающим факто­ром для системы с дельта-модуляцией, но и проблемой, присущей любой системе, когда кодируется разность значений соседних отсчетов. Систе­ма, оперирующая разностью, кодирует крутизну входного сигнала конечным числом разрядов и имеет, следовательно, конечный диапазон. Если кру­тизна превышает этот диапазон, происходит перегрузка по крутизне. В противоположность этому в обычной системе с ИКМ ограничена не скорость изменения входного сигнала, а максимальная кодируемая амплитуда. А дифференциальная система может кодировать сигналы с произвольно боль­шими амплитудами, лишь бы эти большие амплитуды достигались постепенно.

    Расчеты ОСШК при дельта-модуляции показывают, что последняя уступает ИКМ при больших скоростях передачи и превосходит ее при скоростях около 40 кбит/с. Так, для получения ОСШК, равного 35 дБ при частоте Найквиста (т.е. Fв) 3 кГц, требуется скорость передачи 200 кбит/с. Для улучшения эффективности ДМ применяют адаптацию - изменение шага в соответствии с нестационарными свойствами сигнала и прежде всего - в зависимости от усредненного за короткое время значения крутизны входного сигнала.

    Системы с ДИКМ обеспе­чивают такое качество восстановления сигнала, которое сопоставимо с качеством ИКМ-кодирования, и на порядок более высокую помехоустойчивость. Для снижения погрешности передачи при ДИКМ и по­вышения эффективности ДМ параметры квантователя и предсказателя должны быть согласованы со статистическими характеристиками сигнала, а посколь­ку последние изменяются во времени - алгоритмы должны быть адаптивными.

    9. Адаптивные методы кодирования формы речевого сигнала

    Неадаптивное построение систем с дифференциальной ИКМ, когда предсказатель и квантователь рассчитаны на средние статистические характеристики речи, недостаточно эффективно (см. материал разд.8). Это обусловлено тем, что для сообщений, содержащих долговременную избыточность, кратковременный предсказатель не обеспечивает существенного уменьшения динамического диапазона входного сигнала квантователя, что является причиной значительных искажений. Эффективность метода ДИКМ может быть повышена путем пере­хода к адаптивной дифференциаль­ной импульсно-кодовой модуляции (АДИКМ). При этом производится ав­томатическое регулирование величи­ны шага квантования сигнала ошибки предсказания, а также автоматическая подстройка коэффициентов ciтрансверсального фильтра устройства пред­сказания (рис. 9.1) в соответствии с из­менением текущего спектра сообщения. Для этого как в пере­дающее, так и в приемное устройства вводятся дополнительные цепи авто­матической регулировки усиления и подстройки параметров предсказателя на основе статистического оценивания параметров передаваемого сообщения.

    Рис. 9.1. Структурная схема трансверсального фильтра устройства пред­сказания

    Амплитуда речевого сигнала (РС) может изменяться в широких пределах в зависимости от диктора, условий передачи, а также внутри фразы при переходе от вокализованного к невокализованному сегменту. Один из методов учета этих флуктуаций состоит в адаптации свойств квантователя к уровню входного сигнала. Учесть нестационарный характер РС, в частности медленное изменение его мощности (дисперсии), позволяет адаптивный квантователь.

    Основная идея адаптивного квантования состоит в том, что шаг квантования изменяется таким образом, чтобы соответствовать изменяющейся дисперсии кодируемого сигнала. В результате размеры шкалы квантования подстраивают в соответствии с энергией речи так, чтобы слабые сигналы квантовались малыми ступенями квантования, а сильные сигналы - большими. Благодаря непрерывной подстройке шага квантования к текущей мощности речи, разрядность шкалы квантования при АДИКМ удалось снизить до четырех бит.

    Адаптив­ная дифференциальная ИКМ была стандарти­зирована в 1984 г. (Рек. ITU-TG.721) для скорости передачи речи 32 кбит/с, и включает в себя два метода обработки сигнала: дифференциальное кодирование с пред­сказанием и адаптивное квантование(рис. 9.2).



    Рис. 9.2.Схема кодирования речи по Рек. ITU-T G.721

    Аналоговый сигнал дискретизируется и линейно обрабатывается в 12-бит­ном (b = 12) квантователе. На сле­дующем этапе вычисляется ошибка предсказания как разность между реальным и предсказанным значениями сигнала. Представленный 12-битным словом разно­стный сигнал обрабатывается в квантователе, имеющим логарифмическую (по основанию 2) характеристику и 16 порогов квантования (b = 4). В результате формируется 4-битовое представление ошибки отсчета, что при частоте дискретизации 8 кГц обеспечивает скорость цифрового потока на выходе кодера АДИКМ равной 32 кбит/с. 4-битовый разностный сигнал на основе статистического оценивания его параметров позволяет определить коэффициенты предсказания, используемые как в адаптивном квантователе, так и в схеме адаптивного предсказания. Кроме того, квантованная ошибка добавляется к сигналу, снимаемому с выхода адаптивного предсказателя, и направляется на его вход.

    Оценка дисперсии может осуществляться в результате анализа либо входного, либо выходного сигнала квантователя. Соответственно имеем прямое и обратное управление квантованием, что отражается в обозначении метода: АДИКМ-П (АДИКМ с прямой адаптацией) и АДИКМ-О (АДИКМ с обратной адаптацией). В первом случае адаптивное квантование основано непосредственно на знании характеристик входного сигна­ла (прямая оценка), а во втором - информация для адаптации квантователя извлекается из передаваемого цифрового потока (задержанная оценка). Когда используется прямая оценка, коэффициент усиления квантователя кодируется в явной форме и передается совместно с коэффициентами предсказания и результатами кодирования разностных сигналов.

    В дифференциальных кодеках формируется аппроксимирующее напряжение, сравниваемое с передаваемым сигналом. Процедура предсказания может быть фиксированной и адаптивной. Фиксированное предсказание (ФП) характеризуется постоянными параметрами предсказывающего фильтра с передаточной функцией

    Р

    P(z) =  bpiz-i. (9.1)

    i=1

    Здесь z-i- оператор задержки на i интервалов дискретизации, а bpi и Р - коэффициенты и порядок предсказания, которые выбираются исходя из свойств долговременной корреляционной функции РС. Наибольшее распространение при дифференциальном кодировании получило линейное предсказание, при котором предсказанное значение сигнала формируется как линейная комбинация предыдущих отсчетов на анализируемом сегменте РС длительностью 20...30 мс.

    Адаптивное предсказание (АП), реализующее адаптацию коэффициентов предсказателя bpi(k) (9.1), основано на слежении за изменением кратковременной дисперсии РС. В этом случае оценивается кратковременная корреляционная функция речевого сигнала в предположении его локальной стационарности, т.е. предполагается, что свойства РС не меняются в течение короткого интервала времени. Другими словами, коэффициенты предсказания выбираются так, чтобы минимизировать средний квадрат погрешности предсказания на коротком интервале времени. Параметры адаптивного предсказателя определяются в результате анализа (измерений) либо исходного РС (АП-П), либо квантованного (выходного) сигнала (АП-О). Адаптивное квантование может быть основано на оценке огибающей или структуры кратковременной спектральной плотности мощности речевого сигнала. В первом случае существенна в основном частотная характеристика голосового тракта, а во втором - период основного тона речи.

    Структурная схема кодека АДИКМ-АП-П первого типа приведена на рис. 9.3. Она содержит адаптивно управляемые АЦП (на стороне передачи) и ЦАП (на приемной стороне) и отличается от схемы на рис. 8.1 наличием блока адаптации, реализующего алгоритмы адаптации квантователя (Q) и предс­казателя (P). Предсказывающий фильтр вместе с сумматором, на второй вход которого подается выходной сигнал адаптивного АЦП, образует оценивающий фильтр с передаточной функцией H(z) = 1 / [1 P(z)]. В таких системах на приемную сторону передаются: 1 - результаты кодирования разностных сигналов; 2 - параметры квантователя (коэффициент усиления); 3 - коэффициенты предсказания. Для передачи параметров 2 и 3 предусматривается дополнительный низкоскоростной канал связи (2...3 бит/с).

    Для преобразования ошибки (остатка) предсказания z(k) в цифровую форму обычно используют симметричные квантователи с постоянным числом уровней квантования и переменным шагом квантования Di, где i - дискретное время. Процесс адаптации заключается в изменении шага квантования в соответствии с алгоритмом адаптации. Известны различные алгоритмы адаптации квантователей. Один из них - "мгновенно адаптирующийся квантователь" или "квантователь с памятью на одно слово". В этом случае размер шага квантования вычисляется согласно алгоритму Di+1 = Di M(i), где M - множитель, зависящий от номера уровня квантования (т.е. от абсолютной величины отсчета), переданного в момент i.

    Алгоритмы адаптации при АДИКМ построены так, что при обнаружении ошибок передачи в кодированном двоичном сигнале про­исходит восстановление работы, не приводящее к сбою. При отсутствии ошибок в канале системы АДИКМ-П и АДИКМ-О имеют приблизительно одинаковые характеристики. Адаптивное квантование может обеспечить выигрыш около 5 дБ по сравнению со стандартной неадаптивной ИКМ-МК. С учетом дополнительного выигрыша в величине ОСШК приблизительно 6 дБ за счет применения дифференциальной (разностной) схемы с неадаптивным квантованием, можно заключить, что системы АДИКМ-П и АДИКМ-О позволят получить ОСШК на 10...11 дБ больше, чем при использовании неадаптивного квантователя с тем же числом уровней.



    Рис. 9.3. Структурная схема системы АДИКМ-АП-П первого типа

    В кодеке АДИКМ-АП-О с обратной адаптацией коэффициенты адаптивного предсказания формируются в результате анализа цифрового сигнала. В этом случае оценивается кратковременная дисперсия сжатого сигнала - с выхода кодера на передающей стороне и с входа декодера на приемной стороне. Поэтому передавать параметры предсказателя и квантователя на приемную сторону нет необходимости. По тракту связи передается только квантованная ошибка предсказания. Поскольку коэффициенты предсказания изменяются от отсчета к отсчету, то задержка РС значительно меньше, чем в случае предсказания с прямым управлением.

    Дельта-модуляцию с адаптивным квантователем называют адаптивной ДМ (АДМ). Она является частным случаем АДИКМ с фиксированным предсказателем первого порядка и адаптивным квантователем с двумя уровнями квантования и обратной адаптацией. Это означает, что информация для определения текущего значения шага квантования Di определяется непосредственно по выходной последовательности кодовых слов.

    В системах АДМ важным моментом является выбор алгоритма адаптации квантователя (т.е. шага квантования). По скорости адаптации системы с АДМ подразделяются на системы с мгновенным компандированием (АДМ-МК) и системы со слоговым компандированием (АДМ-СК). В системах АДМ-МК часто применяется алгоритм адаптации Джаянта, когда шаг квантования подчиняется следующему правилу:

    D(k) = MD(k–1); DminD(k)Dmax.

    В этом случае множитель М является функцией текущего s(k) и предшествующего s(k–1) кодовых слов. Алгоритм выбора множителя М шага квантования имеет вид

    M = p > 1, s(k) = s(k–1);


    M = 1/p < 1, s(k)s(k–1). 

    Кодовое слово s(k) зависит только от знака z(k), который задается соотношением z(k) = x(k)ax`(k–1), что соответствует использованию предсказателя первого порядка, описываемого разностным уравнением x(k) = ax`(k–1). Здесь a - коэффициент предсказания.

    Процедура AДИКМ применена также в международном стандарте кодирования речевых сигналов с частотой дискретизации 8 кГц для передачи по каналам со скоростью 16, 24, 32 и 40 кбит/с (Рек. ITU-TG.726). Этот метод кодирования сигнала применяется в некоторых распространенных системах подвижной связи, в частности, в бес­шнуровой телефонии и системах абонентского доступа. Субъективно качество речи в результате АДИКМ-кодирования мало отличается от обычной обработки сигнала в системе ИКМ.

    1. Основы параметрического кодирования речи

    Как отмечалось ранее, при кодировании формы сигнала практически не учитываются свойства артикуляционного аппарата человека и особенности его слухового восприятия. В то же время именно здесь заключен значительный ресурс избыточности речевого сигнала (РС). На использовании этого ресурса избыточности основывается широко распространенное параметрическое представление речевого сигнала. Параметрическое представление РС основывается в первую очередь на данных о механизмах речеобразования, т.е. используется своего рода модель голосового тракта, что привело к разработке систем типа анализ-синтез, получившим название вокодерных систем или вокодеров (сокращение от voice coder). Описание первого вокодера было опубликова­но Г. Дадли более 60 лет назад. Восстановленная речь была достаточно раз­борчивой, но звучала ненатурально. Значительного улучшения качества передаваемой речи удалось достичь только с появлением методов, основанных на линейном предсказании (LPC). Именно вокодерные методы на основе линейного предсказания и применяются в сотовой связи.

    Линейное предсказание (ЛП) является одним из наиболее эффективных методов анализа речевого сигнала. Этот метод становится доминирующим при оценке основных параметров РС, таких, как период основного тона, форманты, спектр, а также при сокращенном представлении речи с целью ее низкоскоростной передачи и экономного хранения. Важность метода обусловлена высокой точностью получаемых оценок и простотой вычислений.

    Основной принцип линейного предсказания состоит в том, что текущий отсчет РС можно аппроксимировать линейной комбинацией предшествующих отсчетов, а именно, очередная k-я выборка РС S(k) может быть приблизительно предсказана путем суммирования с определенным весом некоторого числа предшествующих выборок сигнала:

    P

    Ś(k) =  api S(k-i), (10.1)

    i =1

    где - Ś(k) - предсказанное значение РС; k – номер временного отсчета; api - коэффициенты линейного предсказания; Р - порядок предсказания (число коэффициентов линейного предсказания).

    При анализе и синтезе речи используется модель речеобразования, представленная на рис. 10.1. Параметры модели обычно разделяются на параметры возбуждения (относящиеся к источнику звуков речи и отвечающие за основной тон, т.е. за возбуждение фильтра) и параметры голосового тракта (относящиеся непосредственно к отдельным звукам речи и определяющие формантную структуру сигнала). А отрезки глухой речи при моделировании заменяют шумом.




    Рис. 10.1.Модель речеобразования, используемая в методе линейного предсказания

    В соответствии с таким подходом, компрессия РС осущест-вляется на передающем конце канала в анализаторе, выделяющем из сигнала сравнительно медленно меняющиеся параметры выбранной модели. Затем эти параметры передаются по каналу связи. На приемном конце с помощью местных источников сигналов, управляемых принятыми параметрами (в соответствие с моделью), синтезируется речевой сигнал. При этом синтез речи осуществляется согласно разностному уравнению

    P

    Ŝ(k) =  api Ŝ(k-i) + Gu(n), (10.2)

    i =1

    где - Ŝ(k) - синтезированное значение речевого сигнала; и(п) - ли­бо периодическая последовательность импульсов, следующих с перио­дом основного тона в случае синтеза вокализованных сегментов, либо случайная последовательность импульсов для синтеза невокализованных сегментов; Р - порядок синтезирующего фильтра; api - коэффи­циенты линейного предсказания, используемые в качестве параметров синтезирующего фильтра; G - коэффициент усиления, регулирующий интенсивность сигнала возбуждения для получения речевого сигнала заданной громкости. Коэффициенты линейного предсказания определяются од­нозначно минимизацией среднего квадрата разности между отсчетами РС и их предсказанными значениями на некотором ко­нечном интервале. Коэффициенты линейного предсказания - это весовые коэффициенты, используемые в линейной комбинации.

    Вокодеры на основе линейного предсказания обеспечивают высокую разборчивость пе­редаваемой речи и иногда вполне удовлетворительную натуральность ее звучания. Одним из основных факторов, определяющих качество ре­чи в этих вокодерах, является выделение основного тона речи и других параметров возбуждения в классической модели голосового аппарата. Для адекватного “отражения” этими параметрами модели постоянно изменяющегося РС, последний разбивается на сегменты по 20 ÷ 30 мс (длительность выбрана исходя из периода локальной стационарности РС), на каждом из которых и происходит описанная выше процедура. Характерной чертой вокодерных систем (по сравнению с кодеками формы сигнала) является то, что они производят все операции анализа, кодирования, декодирования сразу для целого сегмента отсчетов, а не для каждого отсчета в отдельности, как в ДИКМ и АДИКМ.

    Таким образом, в процессе параметрического представления РС в кодере источника определяются коэффициенты предсказания, а в декодере на основе этих коэффициентов с помощью рекурсивного цифрового фильтра синтезируется эквивалент голосового тракта. Посредством возбуждения этого “эквивалента тракта” формируется синтезированная речь.

    Разность между истинным (известным точно) S(k) и предсказанным Ś(k) значениями выборки определяет ошибку предсказания, которую также называют остатком предсказания или первым остаточным сигналом r1(k):

    z(k) = r1(k) = S(k) - Ś(k). (10.3)

    На базе линейного предсказателя в системе кодер/декодер строятся два цифровых фильтра: инверсный (обратный) фильтр-анализатор A(z) и формирующий фильтр-синтезатор H(z).

    В результате z-преобразования разностного уравнения (10.3) имеем

    R(z) = X(z)  A(z), (10.4)

    где X(z) – z-преобразование выборки РС S(k) на входе фильтра-анализатора, а R(z) может интерпретироваться как выходной сигнал этого фильтра, имеющего передаточную функцию

    p

    A(z) = 1 -  api z-i = 1 - P(z). (10.5)

    i=1

    Здесь z-1 соответствует задержке РС на одну выборку; P(z) – коэффициент передачи предсказывающего устройства – предиктора.

    Цифровой фильтр-анализатор A(z) – рис. 10.2 - называют инверсным, поскольку АЧХ такого фильтра должна быть обратной частотной характеристике голосового тракта (следовательно, обратной и огибающей спектра входного сигнала). Значения коэффициентов предсказания apiявляются параметрами этого фильтра. Они остаются постоянными на интервале анализируемого сегмента речи (как правило, 20 мс), поскольку линейный предсказатель перенастраивается (т.е. адаптируется) не под каждый речевой отсчет, а под их последовательность, вследствие чего ошибка минимизируется на протяжении всего сегмента.




    Рис. 10.2. Инверсный фильтр-анализатор A(z)

    Инверсный фильтр применяется в кодере для устранения избыточности РС. Пропуская через него исходный РС, на выходе фильтра получаем сигнал остатка предсказания z(k) (иначе - первый остаточный сигнал - r1(k)). В этом “остатке” устранены внутренние корреляционные связи, он имеет спектр с плоской огибающей.

    Коэффициенты предсказания api можно подобрать таким образом, чтобы ошибка z(k) была минимальной. Чаще всего в качестве критерия используется минимум среднеквадратической ошибки. В этом случае требуется определить такие значения api, чтобы величина

    p
    1   2   3   4   5   6   7   8   9   10


    написать администратору сайта