Книга. Речевых сигналов
Скачать 1.72 Mb.
|
Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования Владимирский государственный университет Х. М. АХМАД, В. Ф. ЖИРКОВ ВВЕДЕНИЕ В ЦИФРОВУЮ ОБРАБОТКУ РЕЧЕВЫХ СИГНАЛОВ Учебное пособие Владимир 2007 2 УДК 004.934 ББК 32.97 А95 Рецензенты: Доктор технических наук, профессор, зав. кафедрой биомедицинских технических систем Московского государственного технического университета им. Н.Э. Баумана И.Н. Спиридонов Доктор технических наук, профессор кафедры радиотехники и радиосистем Владимирского государственного университета А.К. Бернюков Печатается по решению редакционного совета Владимирского государственного университета Ахмад, Х. М. Введение в цифровую обработку речевых сигналов : учеб. по- собие / Х. М. Ахмад, В. Ф. Жирков ; Владим. гос. ун-т. – Владимир : Изд-во Владим. гос. ун-та, 2007. – 192 с. – ISBN 5-89368-751-5. Рассмотрены теоретические основы цифровой обработки речевых сигналов, в том числе их физические свойства и цифровое представление, спектральный и корре- ляционный анализ, базовые методы и алгоритмы цифровой фильтрации, специальные методы, используемые в системах анализа, синтеза и распознавания речи, методы ко- дирования. Изложение сопровождается примерами реализации в среде MATLAB. По- собие содержит лабораторный практикум, ориентированный на MATLAB. Предназначено для студентов 3 – 5-го курсов специальностей 230100 – инфор- матика и вычислительная техника, 230101 – вычислительные машины, комплексы, сис- темы и сети очной и заочной форм обучения. Может быть использовано студентами родственных специальностей. Табл. 3. Ил. 84. Библиогр.: 48 назв. УДК 004.934 ББК 32.97 ISBN 5-89368-751-5 © Владимирский государственный университет, 2007 А95 3 Введение Цифровая обработка сигналов (ЦОС) – одно из наиболее перспек- тивных и динамично развивающихся направлений современной науки и техники. К ее качественным преимуществам относят: реализуемость слож- ных (оптимальных) алгоритмов обработки с высокой точностью; програм- мируемость и функциональную гибкость; возможность адаптации к обра- батываемым сигналам; возможность аппаратной реализации с использова- нием спецпроцессоров и чипсетов ЦОС. Области ее применения: радио- и телевизионные системы цифровой связи, системы сотовой связи, компью- терные сети, радио- и звуколокация, медицина, обработка изображений и потоков видеоданных, музыки, и др. ЦОС в сфере обработки и передачи речевых сигналов получила ши- рочайшее распространение и продолжает интенсивно развиваться. Это обусловлено прогрессом в области сотовой и мобильной связи, других ви- дов цифровой связи, IP-телефонии. Все более значимыми становятся ре- зультаты работ по распознаванию и синтезу речи. Изучение методов обработки речевых сигналов наиболее удобно с точки зрения учебного процесса. Каждый компьютер может быть оснащен звуковой картой, динамиком и микрофоном, что позволяет легко создавать звуковые файлы, а затем, выполнив обработку, воспроизводить результи- рующий файл и оценивать результаты обработки путем прослушивания. В то же время методы и операторы обработки речевых сигналов: оцифровка- восстановление, фильтрация, кодирование-декодирование, спектральные анализ и преобразования, распознавание и синтез – характерны и для дру- гих приложений ЦОС, конечно, с учетом прикладной области, поэтому изучение методов обработки звука может многому научить. Через обра- ботку речи студенты получают базовые знания о методах ЦОС. Основное внимание в пособии уделено теоретическим основам обра- ботки речевых сигналов. Каждый раздел авторы старались изложить в дос- таточном для понимания объеме, с приведением примеров практической реализации. 4 В качестве среды создания иллюстрирующих примеров выбран пакет MATLAB фирмы «The MathWorks», являющийся мировым стандартом в области научных и технических расчетов. Базовая библиотека MATLAB и пакет расширения Signal Processing содержат большое количество функ- ций, позволяющих быстро и наглядно осуществлять и исследовать различ- ные алгоритмы, связанные с ЦОС. Учебное пособие завершает лабораторный практикум из шести лабо- раторных работ. 5 Глава 1. РЕЧЕВОЙ СИГНАЛ 1.1. Речь и речевой сигнал Речь предназначена для общения. Возможности речи с этой точки зрения можно характеризовать по-разному. Один из количественных под- ходов основан на теории информации, разработанной К. Шенноном. В со- ответствии с этой теорией речь можно описать ее информационным со- держанием, или информацией. Другой способ описания речи заключается в представлении ее в виде сигнала, т.е. акустического колебания. Речевое общение начинается с того, что в мозгу диктора возникает в абстрактной форме некоторое сообщение. В процессе речеобразования это сообщение преобразуется в акустическое речевое колебание. Сообщение, передаваемое с помощью речевого сигнала, – дискретно, т.е. может быть представлено в виде последовательности символов из ко- нечного их числа. Звуковые символы, из которых составлен речевой сиг- нал, называются фонемами [39]. Речь с физической точки зрения состоит из последовательности зву- ков с паузами между их группами [20, 37, 44]. Схема речеобразования у человека представлена на рис. 1.1. Рис. 1.1. Схема речеобразования у человека При нормальном темпе речи паузы появляются между отрывками фраз. Как правило, слова произносятся слитно, хотя слушающий воспри- нимает слова по отдельности. При замедленном темпе речи, например при диктовке, паузы могут делаться между словами и даже их частями. Пред- логи, союзы звучат всегда слитно с последующим словом [21]. Основной тон с гармониками Шум Прерыватель Резонансы Излучаемый звук 6 Один и тот же звук речи разные люди произносят по-разному. Про- изношение звуков речи зависит от ударения, соседних звуков и т. п. Но при всем многообразии в их произношении звуки являются физическими реализациями (произнесением) ограниченного числа обобщенных звуков речи (фонем). Фонема – это то, что человек должен произнести, а звук – то, что человек фактически произносит. Фонема по отношению к звуку речи играет ту же роль, что и образцовая буква по отношению к ее рукописной форме в конкретном написании. В русском языке насчитывается 42 основные и 3 неопределенные фонемы. Звуки речи делятся на звонкие и глухие. Звонкие звуки образуются с участием голосовых связок, в этом случае находящихся в напряженном со- стоянии. Под напором воздуха, идущего из легких, они периодически раз- двигаются, в результате чего создается прерывистый поток воздуха. Им- пульсы потока воздуха, создаваемые голосовыми связками, с достаточной точностью могут считаться периодическими. Соответствующий период повторения импульсов называют периодом основного тона голоса 0 T , а обратную величину 0 1 T – частотой основного тона. Если связки тонкие и сильно напряжены, то период получается коротким и частота основного тона высокой; для толстых, слабо напряженных связок – низкой. Частота основного тона для всех голосов лежит в пределах 70 – 450 Гц. При произ- несении речи она непрерывно изменяется в соответствии с ударением, подчеркиванием звуков и слов, а также с проявлением эмоций (вопрос, восклицание, удивление и т. д.). Изменение частоты основного тона назы- вается интонацией. У каждого человека свой диапазон изменения основ- ного тона (обычно он бывает немногим более октавы) и своя интонация. Последняя имеет большое значение для узнавания говорящего [21, 32]. Основной тон, интонация, устный почерк и тембр голоса служат для опо- знавания человека, и степень достоверности такая же высокая, как по от- печаткам пальцев. Импульсы основного тона имеют пилообразную форму, и поэтому при их периодическом повторении получается дискретный спектр с большим числом гармоник (до 40), частоты которых кратны час- тоте основного тона. Огибающая спектра основного тона имеет спад в сто- 7 рону высоких частот с крутизной около 6 дБ/окт, поэтому для мужского голоса уровень составляющих на частоте 3000 Гц ниже их уровня на час- тоте 100 Гц примерно на 30 дБ. При произнесении глухих звуков связки находятся в расслабленном состоянии, поток воздуха из легких свободно проходит в полость рта. Встречая на своем пути различные преграды в ви- де языка, зубов, губ, он образует завихрения, создающие шум со сплош- ным спектром. Согласные по способу образования делятся на сонорные (л, ль, р, рь, м, мь, н, нь, й), щелевые (ж, з, зь, в, вь, ш, с, сь, ф, фь, х, хь), взрывные (б, бь, д, дь, г, гь, п, пь, т, ть, к, кь) и аффрикаты (ц, ч – комбинация глу- хих взрывных и щелевых). Гласных фонем всего шесть: а, о, у, э, и, ы (гласные е, я, ё, ю – составные из и краткого или мягкого знака и гласных э, а, о, у). По месту образования фонемы делятся на губные, зубные, небные, гортанные, передние и задние. При произнесении звуков речи язык, губы, зубы, нижняя челюсть, голосовые связки должны находиться для каждой фонемы в строго опре- деленном положении или движении. Эти движения называют артикуляци- ей органов речи. При этом в речеобразующем тракте создаются резонанс- ные полости, определенные для данной фонемы, а для слитного звучания фонем в речи – определенные переходы от одной формы тракта к другой. При произнесении звуков речи через речевой тракт проходит или то- нальный импульсный сигнал, или шумовой, или тот и другой вместе. Рече- вой тракт представляет собой сложный акустический фильтр с рядом резо- нансов, создаваемых полостями рта, носа и носоглотки, т. е. с помощью артикуляционных органов речи. Вследствие этого равномерный тональный или шумовой спектр превращается в спектр с рядом максимумов и мини- мумов. Максимумы спектра называют формантами, а нулевые провалы – антиформантами. Для каждой фонемы огибающая спектра имеет индиви- дуальную и вполне определенную форму. При произнесении речи спектр ее непрерывно изменяется, и образуются формантные переходы. Частотный диапазон речи находится в пределах 70 – 7000 Гц. 8 Звонкие звуки речи, особенно гласные, имеют высокий уровень ин- тенсивности, глухие – самый низкий. Громкость речи непрерывно изменя- ется, особенно резко при произнесении взрывных звуков. Динамический диапазон уровней речи находится в пределах 35 – 45 дБ. Гласные звуки ре- чи имеют в среднем длительность около 0,15 с, согласные – около 0,08 (звук п – около 30 мс). Звуки речи неодинаково информативны. Так, гласные звуки содер- жат малую информацию о смысле речи, а глухие согласные наиболее ин- формативны (например, в слове «посылка» последовательность «о, ы, а» ничего не говорит, а «п, с, лк» дает почти однозначный ответ о смысле). Поэтому разборчивость речи снижается при действии шумов, в первую очередь из-за маскировки глухих звуков [6, 7, 8]. Известно, что для передачи одного и того же сообщения по телегра- фу и по речевому тракту требуется различная пропускная способность. Для телеграфного сообщения достаточна пропускная способность не более 100 бит/с, а для речевого – около 100 000 бит/с (полоса равна 7 000 Гц, дина- мический диапазон 42 дБ, т.е. требуется семизначный код, откуда имеем 2 7000 7 98 000 ⋅ ⋅ = бит/с), т.е. в 100 раз большая. Образование звуков речи происходит путем подачи команд к муску- лам артикуляционных органов речи от речевого центра мозга. Общий по- ток сообщений от него составляет в среднем не более 100 бит/с. Вся ос- тальная информация в речевом сигнале называется сопутствующей. Речевой сигнал представляет собой своего рода модулированную не- сущую. Его спектр p(ω)=E(ω) · F(ω) , где E(ω) – спектр генераторной функ- ции, т. е. импульсов основного тона или шума; F(ω) – модулирующая кри- вая фильтровой функции речевого тракта. Эта модуляция особая, спек- тральная. При ней несущая имеет широкополосный спектр, а в результате модуляции изменяется соотношение между частотными составляющими, т. е. изменяется форма огибающей спектра. Почти вся информация о зву- ках речи заключена в спектральной огибающей речи и ее временном изме- нении, частично – в переходах от тонального спектра к шумовому и обрат- но, по которым узнают о смене звонких звуков на глухие и обратно. Все эти изменения происходят медленно (в темпе речи). 9 Для воспроизведения речи достаточно передавать сведения о форме огибающей спектра речи и ее временном изменении в темпе смены звуков речи, а также об изменении основного тона речи и переходов тон-шум. Рассмотренные закономерности построения речи формируют слож- ный многочастотный сигнал, который нужно должным образом обработать для выделения информационной части. Для этого применяют различные методы и преобразования. 1.2. Цифровое представление речевых сигналов (дискретизация и квантование по уровню) 1.2.1. Цифровое представление Итак, частотный диапазон речи находится в пределах 70 – 7 000 Гц. При оценке уровня громкости звука в качестве эталона звукового давления 0 P выбирается его минимальное значение на частоте 1 кГц, при котором звук становится уже слышимым, т.е. 0 5 2 10 P − = i Па. Уровень звукового давления определяется соотношением 0 20 lg , P L P = ⋅ дБ , (1.1) где P – значение звукового давления. Под динамическим диапазоном понимают отношение максимально- го и минимального уровней сигналов. Динамический диапазон речи со- ставляет 35 – 45 дБ. Цифровая обработка требует представления аналогового речевого сигнала в цифровом виде. Перевод аналогового сигнала в цифровой вы- полняется специальным аналогово-цифровым преобразователем (АЦП). Основными характеристиками АЦП являются частота дискретизации fd ( 1 f t d = Δ ) и разрядность S, число возможных значений квантованного сигнала равно 2N , где N – число разрядов. Чем выше разрядность АЦП, с тем большей точностью можно хранить сигнал, но тем медленнее он работает. Устройство, производящее обратную операцию (передача оцифро- ванного сигнала на какое-либо воспроизводящее устройство: динамик, те- левизор и др.), называется цифроаналоговым преобразователем (ЦАП). Принципиальные схемы АЦП и ЦАП следует искать в специальной лите- ратуре по радиоэлектронике. 10 В результате аналогово-цифрового преобразования непрерывный сигнал переводится в ряд дискретных отсчетов Sk , каждый из которых представляет собой целое число, характеризующее аналоговый сигнал в этой точке с определенной точностью. Точность представления зависит от ширины диапазона получаемых чисел, а следовательно, от разрядности АЦП. Процесс разбиения сигнала на отсчеты носит название дискретиза- ции. Число отсчетов в секунду называется частотой дискретизации fd , которая согласно теореме Котельникова должна быть, по крайней мере, в два раза выше максимальной частоты в спектре преобразуемого аналого- вого сигнала. Дело в том, что спектр сигнала, преобразованного с помо- щью АЦП в цифровую форму, имеет периодический характер. (Спектр сигнала – это его отображение, характеризующее интенсивность и распре- деление частотных составляющих сигнала.) Сигнал после АЦП имеет кроме низкочастотной части спектра, ото- бражающей аналоговый сигнал, еще и высокочастотные компоненты: низ- кочастотный спектр сигнала повторяется в виде боковых полос с центрами в точках, кратных частоте дискретизации. При уменьшении частоты дис- кретизации произойдет наложение низкочастотной части спектра и боко- вой полосы с центром в точке fd . Наложение спектров приводит к появ- лению новых спектральных составляющих в сигнале, а значит, к его иска- жению. В звукозаписи наложение спектров можно убрать, установив перед АЦП фильтр низких частот, подавляющий все частоты, лежащие выше по- ловины частоты дискретизации. Так как на практике нельзя выполнить фильтр с отвесным спадом частотной характеристики, значение частоты дискретизации выбирается несколько больше, чем удвоенное значение верхней частоты спектра речевого сигнала, например fd =22,05 кГц. Процесс дискретизации сигнала по уровню с округлением до разряда АЦП носит название квантования. Задав требуемый динамический диапа- зон цифровой системы звукозаписи, необходимое число разрядов кванто- вания можно определить из выражения 6 1,8 D n = + , где D – динамический диапазон, дБ, n – число двоичных разрядов. Отсюда получаем, что для за- писи речи необходимо отводить не менее 8 бит на каждый отсчет. 11 Кадр X (длины N ) – конечная последовательность отсчетов речевого сигнала 1 , , , , k N S S S … … Реализация фразы – цифровая запись произнесения фразы в виде по- следовательности кадров ( ) ( ) ( ) 1 ,..., ,..., t L X X X , где L – длина реализа- ции, ( ) ( ) ( ) ( ) , , , , 1 t t t t X S S SN k = … … . Длина кадра фиксирована, например N=256, что при частоте дискретизации fd =22,05 кГц соответствует перио- ду времени 11,6 мс. Цифровую информацию (речь) можно передать по линии связи прак- тически без потерь. При передаче сигнал сначала превращается в аналого- вый, пересылается, после чего опять оцифровывается. Если линия связи вносит искажения в сигнал меньше, чем шаг квантования, то после переда- чи и оцифровки полученный оцифрованный сигнал не будет отличаться от начального. Обычно же информация передается с помощью двоичных им- пульсов, т.е. для восстановления сигнала необходимо лишь решать, пере- дали 1 или 0. При передаче двоичной информации по линии связи, естест- венно, слегка смещается время прибытия импульса, но если смещение меньше расстояния между импульсами, то место импульса в общей после- довательности легко восстанавливается. Дополнительную защиту дает применение кодов с устранением ошибок (коды Хэмминга, Рида – Соло- мона и др.) [25]. |