Книга. Речевых сигналов
Скачать 1.72 Mb.
|
Глава 6. МЕТОДЫ СИНТЕЗА РЕЧИ Синтез речи (speech synthesis) – процесс преобразования текста в речь. Синтез – одна из форм обработки речи, связанная с задачей чтения абонентской системой записанного в ее памяти электронного текста. При синтезе для обеспечения высокого качества речи необходимы высокая скорость обработки данных и большая емкость памяти для хране- ния данных, поэтому приходится идти на компромисс, приводящий к оп- ределенному ухудшению качества синтезируемой речи. Обычно синтез речи проводится с учетом особенностей языка и ис- пользованием автоматической расстановки ударений. Задача синтеза речи заключается в том, чтобы текст, представленный в компьютере в виде символов, был озвучен и превратился в человеческую речь. При этом машина либо уже имеет исходный текст в виде файла, ли- бо составляет его, руководствуясь каким-либо алгоритмом. Например, в телефонии, как правило, синтезированная речь передается по телефонным линиям, имеющим ограниченный сверху и снизу частотный диапазон. Речь должна быть максимально разборчивой, членораздельной и учитывать из- менения интонации в соответствии с правилами языка. Существуют различные методы синтеза речи. Выбор того или иного метода определяется различными ограничениями. Рассмотрим четыре вида ограничений, которые влияют на выбор метода синтеза [17]. 1. Задача Возможности синтезированной речи зависят от того, в какой области она будет применяться. Когда нужно произнести ограниченное число фраз, речевой материал записывается в память и воспроизводится по необходи- мости. В других случаях используются более сложные подходы. 2. Голосовой аппарат человека Система синтеза речи должна производить на выходе требуемые ре- чевые волны. Для этого сигнал должен пройти путь от источника в рече- вом тракте с возбуждением артикуляторных органов, которые действуют как изменяющиеся во времени фильтры. Артикуляторные органы также накладывают ограничения на скорость изменения сигнала, выполняют функцию гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток. 117 3. Структура языка Ряд возможных звуковых сочетаний определяется природой той или иной языковой структуры. Было обнаружено, что единицы и структуры, используемые лингвистами для описания и объяснения языка, могут при- меняться для характеристики и построения речевой волны. Таким образом, при построении выходной речевой волны используются основные фоноло- гические законы, правила ударения, морфологические и синтаксические структуры, фонотактические ограничения. 4. Технология Возможности успешно моделировать и создавать устройства для синтеза речи в большой степени зависят от состояния технико- технологической стороны дела. Речевая наука сделала значительный шаг вперед благодаря появлению различных технологий, в том числе рентгено- графии, кинематографии, теории фильтров и спектров, а главным образом компьютеров. Развитие интегральных технологий с постоянно возрастаю- щими возможностями позволило конструировать построение мощные, компактные, недорогие устройства, действующие в реальном времени. Вместе с прогрессом теории синтеза речи это стимулировало дальнейшее развитие систем синтеза речи и их широкое применение. 6.1. Метод цифрового кодирования речи Данный метод состоит в простом запоминании оцифрованного фрагмента речи с последующим восстановлением и воспроизведением ре- чевого сигнала в аналоговой форме [38]. Структурная схема цифрового кодирования речи (режим «Запись ре- чи») приведена на рис. 6.1. Структурная схема декодирования речи (режим «Воспроизведение речи») приведена на рис. 6.2. Рассчитаем объем памяти, необходимый для хранения речи длитель- ностью в одну секунду. Оказывается, достаточную точность представле- ния речевого сигнала обеспечивает кодирование 8 бит на один отсчет. При частоте дискретизации 8 кГц, что достаточно для речевого сигнала, зани- мающего полосу частот 4 кГц, объем памяти составит 64 кбит. Если оцифрованный сигнал передают по каналу связи, тогда ско- рость передачи информации должна быть 64 кбит/с. 118 Приведенные выше числовые значения параметров типичны для им- пульсно-кодовой модуляции (ИКМ). Применение эффективных методов кодирования позволяет снизить требования к памяти и скорости передачи информации. Например, применение адаптивной дельта-модуляции по- зволяет снизить эту величину почти на порядок. Рис. 6.1. Структурная схема цифрового кодирования речи Рис. 6.2. Структурная схема декодирования речи 6.2. Метод фонемного синтеза Идея метода чрезвычайно проста: речь представляется последова- тельностью букв-звуков и пауз между словами и предложениями [38]. На- пример, фраза «кафедра акустики» будет иметь вид: к-а-ф-е-д-р-а _ а-к-у-с-т-и-к-и. Здесь фонемы отделены черточками, а пауза между словами обозна- чена символом подчеркивания. Проанализировав речь, можно выделить конечное множество «кирпичиков» – фонем, образующих своеобразную «библиотеку фонем». Ее можно хранить либо в памяти ПК, либо в памяти специальной микросхемы. Первый способ предполагает программную реализацию син- теза речи, второй – программно-аппаратную. Речевой сигнал Согласование по уровню АЦП Логическая управляющая схема Данные Память Генератор адресов Речевой сигнал Фильтр НЧ ЦАП Память Данные Адреса Генератор ад- ресов Логическая управляющая схема 119 При программно-аппаратном подходе используют специальную микросхему, в памяти которой хранятся фонемы и алгоритмы их соедине- ния, необходимые для сглаживания «шероховатости» на стыках. 6.3. Метод формантного синтеза Цифровая модель образования речи (по Шаферу) показана на рис. 6.3 [38]. Рис. 6.3. Цифровая модель образования речи Для отражения свойств голосового тракта коэффициенты фильтра должны изменяться примерно каждые 10 мс. Фильтр применяется как сис- тема, моделирующая резонансные свойства полостей рта и носа человека. Алгоритм цифровой фильтрации можно реализовать по-разному. Напри- мер, можно для каждого отрезка времени заново рассчитывать коэффици- енты рекурсивного фильтра, количество и местоположение полюсов кото- рого определяется количеством и местоположением формант в синтези- руемом звуке. Именно такой подход показан на рис. 6.3. Иной подход – использовать «гребенку» узкополосных фильтров с перекрывающимися ЧХ таким образом, что АЧХ результирующей систе- мы практически равномерна в полосе частот речевого сигнала. Очевидно, что варьируя коэффициентом ослабления сигнала в каж- дом из отдельных фильтров «гребенки», можно синтезировать суммарную ЧХ практически любой формы. Нетрудно увидеть, что такой подход дол- жен обеспечивать при правильной организации вычислений результаты синтеза, практически идентичные результатам для первого подхода. Меж- ду тем второй подход значительно эффективнее в плане вычислительных затрат. «Гребенку» фильтров при этом можно организовать либо с помо- щью классических методов расчета цифровых фильтров, либо с помощью алгоритмов ДПФ и БПФ. Период ОТ Генератор импульсов Генератор случайных чисел Коэффициенты цифрового фильтра (па- раметры речевого тракта) Цифровой фильтр с переменными параметрами Отсчеты речевого сигнала Регулировка громкости 120 6.4. Вокодеры Задача формантного синтеза речи хорошо «сопрягается» с задачей низкоскоростной передачb информации на расстояние. Не будем останав- ливаться на важности сжатия объема передаваемых данных, приводящего к возможности снижения скорости передачи – это очевидно. Зададим иной вопрос – за счет чего возможно такое сжатие [38]. Чтобы найти простой ответ на этот непростой вопрос, представим се- бе, что на передающей станции установлен спектроанализатор, который вы- числяет кратковременное преобразование Фурье. В результате для каждого временного сегмента получаем / 2 N комплексных коэффициентов, или N вещественных чисел. Если передавать на расстояние все эти числа, а затем на приемной станции из них восстанавливать сегмент сигнала, тогда сигнал восстановится без потерь. Однако легко увидеть, что объем передаваемых данных при этом нисколько не уменьшился: раньше передавались N отсче- тов временного сегмента, а теперь N спектральных отсчетов (более того, возникла необходимость в ненужных, казалось бы, вычислениях). Но можно поступить по-другому: передавать на расстояние не все спектральные коэффициенты, а лишь «большие». Разумеется, при этом нужно еще указать центральные частоты соответствующих полосовых фильтров (или, что то же, номера коэффициентов). В специальной литературе утверждается, что основная информация о гласных звуках содержится всего в трех формантах. Это означает, что одну гласную можно представить набором из девяти чисел, тогда как при обыч- ном способе передачи для этого требуется примерно 100 чисел (интервал 10 мс при частоте дискретизации 10 кГц). Как видим, выигрыш сущест- венный. К сожалению, для согласных звуков эта разница значительно меньше, поэтому общий выигрыш снижается. Дальнейшего сжатия можно добиться, например, уменьшив разрядность передаваемых чисел. В конеч- ном счете на практике удается понизить скорость передачи данных с 64 до 9,6 кбит/с без существенной потери качества синтезированной речи, и да- же до 2,4 кбит/с, но уже с заметной потерей качества. Таким образом, для передачи речевых сигналов целесообразно при- менение вокодеров, при этом данную задачу естественно представить в виде двух подзадач: 1) анализ речи при передаче; 2) синтез речи при вос- произведении. На этапе анализа проводится оценка параметров модели, а на этапе синтеза – образование искусственного речевого сигнала. По принципу определения параметров фильтровой функции речи раз- личают вокодеры: полосные (канальные, channel), формантные, ортогональ- ные, с линейным предсказанием речи (липредеры) и гомоморфные [14]. 121 В полосных вокодерах спектр речи делится на 7 – 20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число ка- налов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и фильтр низких частот с частотой среза 25 Гц. Таким образом, сигналы на выходе каждого канала изменяются с частотой менее 25 Гц. Их передача возможна в аналоговом или цифровом виде. В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина. В ортогональных вокодерах огибающая мгновенного спектра рас- кладывается в ряд по выбранной системе ортогональных базисных функ- ций. Вычисленные коэффициенты этого разложения передаются на прием- ную сторону. Распространение получили гармонические вокодеры, ис- пользующие разложение в ряд Фурье. Вокодеры с линейным предсказанием (Linear Prediction Coding, LPC), или липредеры, основаны на оригинальном математическом аппарате. Гомоморфная обработка позволяет разделить генераторную и фильтровую функции, образующие речевой сигнал. Из-за сложности определения параметров генераторной функции появились полувокодеры (Voice Excited Vocoder, VEV), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигна- ла. Полоса частот до 800 – 1000 Гц кодируется по методу адаптивной диф- ференциальной импульсно-кодовой модуляции (АДИКМ), адаптивной дельта-модуляции (АДМ) или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде. Есть разные типы полувокодеров-липредеров: 1) вокодеры VELP (Voice Excited Linear Prediction); 2) вокодеры RELP (Residual Excited Linear Prediction). Сегодня вокодеры применяют для кодирования телефонных сигна- лов в коммерческих и военных цифровых системах связи. Перспективно применение вокодеров для организации служебной телефонной связи со скоростью передачи данных 1200 – 2400 бит/с. Формантные и полосные вокодеры используются также при цифровой передаче телефонных сигна- лов по КВ-каналам радиосвязи. 122 Современные вокодеры обеспечивают хорошее качество речи при скорости передачи 800 – 2 400 бит/с и качество речи, пригодное для веде- ния служебных переговоров, при скорости передачи 1 200 бит/с. В качестве примера рассмотрим более подробно характеристики во- кодера NPES (Natural Parameters EStimation). NPES вокодер – это алгоритм анализа и синтеза речи, основанный на «натуральной» модели речевого тракта. В этой модели локально- постоянные параметры речевого сигнала – частота основного тона, частота вокализованности, частоты и амплитуды формант. Такая параметризация позволяет использовать NPES вокодер в качестве единого алгоритма пред- варительной обработки цифрового сигнала для задач сжатия, идентифика- ции и распознавания речи [33]. NPES вокодер имеет следующие характеристики: − класс сигналов – речь одного диктора; − частота дискретизации – до 16 кГц; − полоса частот формант – 80 – 3800 Гц; − полоса частоты основного тона – 50 – Fs/2 Гц; − скорость передачи речи фиксирована в диапазоне 800 – 2400 бит/с; − задержка обработки – 25 мс; − встроенная адаптивная фильтрация шума; − преобразование параметров речи; − устойчивость к ошибкам в канале передачи; − возможность аппаратной реализации синтезатора. NPES вокодер применяется в следующих областях: − сжатие речи для передачи и хранения; − преобразование речи; − синтез речи по тексту; − распознавание речи; − идентификация диктора; − определение частоты основного тона. На рис. 6.4 представлена функциональная структура NPES вокодера. Каждая из его четырёх частей осуществляет определенное преобразование речевого сигнала, представленного в цифровой форме. Процедура анализа преобразует сегмент речевого сигнала из представления в виде последова- тельности отсчётов (формат PCM) в представление в виде значений пара- 123 метров модели, а процедура синтеза осуществляет обратное преобразова- ние. Процедура кодирования позволяет сопоставить каждый набор значе- ний параметров с определённым 32-битным числом (формат NPES), а про- цедура декодирования производит обратное действие. Рис. 6.4. Функциональная структура NPES вокодера Контрольные вопросы 1. Что такое синтез речи? 2. Какие существуют ограничения, влияющие на выбор метода синтеза? 3. Что такое кодирование и декодирование речи? 4. Чем характеризуется метод фонемного синтеза речи? 5. Чем характеризуется метод формантного синтеза речи? 6. Что такое вокодер и каковы его особенности? 7. Какие существуют виды вокодеров? 8. Каковы характеристики NPES вокодера? Сегмент речи РСМ Параметры речи 32- битный код NPES Анализ Синтез Кодер Декодер 124 Глава 7. МЕТОДЫ КОДИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ Современные достижения в области создания высокопроизводитель- ных процессоров для обработки сигналов позволяют практически неогра- ниченно совершенствовать методы и алгоритмы цифровой обработки ре- чевых сигналов, что обеспечивает возможность создания высококачест- венных цифровых систем связи. При этом с каждым годом усилиями уче- ных и инженеров снижается информационная емкость передаваемых по каналам связи речевых сигналов, что приводит к постоянному удешевле- нию услуг средств связи [19]. Кодирование речи обеспечивает компактное цифровое представле- ние аналогового голосового сигнала, что делает возможным высококачест- венную передачу голоса по цифровым телефонным сетям. Кроме того, по- требности в уменьшении скорости передачи (компрессии) речевых сигна- лов возникают в военной и других областях для обеспечения закрытой свя- зи. Можно указать и другие факторы, определяющие интерес к системам компрессии речи. Быстрый рост компьютерных сетей требует создания ориентированной на мультимедиа-трафик системы коммуникации. При улучшении качества вокодерной речи на скоростях передачи примерно 4 – 8 кбит/с условия для речевой коммуникации по компьютерным сетям становятся более благоприятными. В настоящее время интерес к низкоскоростной компрессии речевых сигналов возрастает в таких областях, как цифровая телефония, беспро- водная связь, Интернет, речевая справочная (автоматическая) служба и другие. 7.1. Кодирование формы волны речевого сигнала Исходный речевой сигнал представляет собой акустическую волну (волна давления в воздухе), которую можно преобразовать в электромаг- нитную с помощью микрофона. Будем считать, что спектр речевого сигна- ла лежит в диапазоне от 100 до 4 000 Гц. Динамический диапазон измене- ния амплитуды, достаточный для описания речевых сигналов, составляет 12 двоичных разрядов [19, 33]. 125 Для цифрового представления сигнала достаточно осуществить ана- логово-цифровое преобразование частотой 8 000 Гц. Информационная ем- кость речевого сигнала составит 12 8 000 96 000 ⋅ = бит/с. Компрессия речевых сигналов обеспечивается с помощью специаль- ных средств кодирования (на входе), а затем декодирования (восстановле- ния на выходе). Первый шаг, обеспечивающий компрессию сигнала, – попытка обес- печения равномерной относительной точности измерения значения ампли- туды сигнала. Для этого 12-разрядный динамический диапазон амплитуды разбивают на восемь логарифмических поддиапазонов, в каждом из кото- рых значение амплитуды кодируют пятью разрядами и таким образом дос- тигают сокращения информации до 64 000 бит/с (кодирование по μ- и Α-законам в соответствии со стандартом ITU-G.711). Следующий шаг – адаптивная дифференциальная импульсно-кодовая модуляция (например в соответствии со стандартами G.721 или G.726 32 000 бит/с), с помощью которой осуществляют кодирование приращения амплитуды сигнала во времени. Таким путем удается достичь степени сжатия речевого сигнала порядка 32 000 – 16 000 бит/с, причем приемлемое (коммерческое) качест- во речи (по критерию отношения сигнал-шум) обеспечивается на скорости 24 000 бит/с. При более низких скоростях кодирования сохраняется раз- борчивость речи, но характерны сильные нелинейные и частотные искаже- ния сигнала и ухудшение отношения сигнал-шум. Дальнейшее уменьше- ние информационной емкости сигнала с помощью данного подхода счита- ется неэффективным. |