Рихтер лекции системы радиосвязи. рихтер лекции. Кафедра радиовещания и электроакустики
Скачать 3.27 Mb.
|
Рис. 3.1. Артикуляционный аппарат человекаПри произнесении звуков речи поток воздуха нагнетается из легких, проталкивается через трахею, гортань, полости рта и носа и затем излучается через губы и ноздри. Одну из главных ролей в образовании звуков речи играют голосовые связки, расположенные в гортани. Гортань и ротовую полость называют голосовым трактом. Голосовой тракт начинается с прохода между голосовыми связками (голосовая щель) и заканчивается у губ. Он состоит из гортани и ротовой полости. Общая длина голосового тракта у взрослого человека примерно 17 см. Площадь поперечного сечения голосового тракта определяется положением языка, губ, челюстей, небной занавески и может изменяться от 0 до 20 см2. Изменения конфигурации голосового тракта в процессе произнесения звуков речи воздействуют на проходящую через тракт акустическую волну. При образовании носовых звуков к голосовому тракту, благодаря опущенной небной занавеске, подключается носовая полость. Изменения конфигурации голосового тракта и колебания голосовых связок взаимосвязаны, в результате вся речеобразующая система функционирует как единый сложный объект. Голосовой тракт и носовую полость обычно представляют в виде секций цилиндрических труб (системы резонаторов) с переменной по продольной оси площадью поперечного сечения. Изменение конфигурации тракта вдоль его продольной оси и во времени описывают функцией площади поперечного сечения. В простейшем случае необходимо иметь три основные секции (отрезка трубы) и дополнительную секцию для имитации округлости губ. Такая модель (рис. 3.2) достаточно хорошо имитирует голосовой аппарат человека от голосового источника до выхода из ротовой полости. Первый резонатор (с площадью поперечного сечения A1 и длиной l1) имитирует гортань и ротовую полость до сужения, создаваемого языком (задняя полость), второй (A2 и l2) —участок сужения между языком и твердым небом, третий (A3 и l3) — переднюю ротовую полость и, наконец, четвертый (A4 и l4) — проход между губами. У каждого человека эти размеры индивидуальны и в процессе речеобразования состояние голосового тракта (т.е. сечение входящих в него труб) постоянно меняется. Каждому элементарному звуку речи (т.е. фонеме) соответствует определенная форма акустических резонаторов, обусловленная положением языка, губ, нижней челюсти и т. д. При переходе от одного звука к другому форма резонаторов плавно изменяется, подчиняясь индивидуальным особенностям голосового аппарата. П Рис. 3.2. Четырехтрубная акустическая модель голосовоготракта ри описании речеобразования резонансные частоты трубы голосового тракта называются формантными частотами или просто формантами. Формантные частоты зависят от размеров и формы голосового тракта, который формирует формантную структуру. Произвольная форма голосового тракта может быть описана набором формантных частот, спектр которой при произнесении речи непрерывно изменяется, образуя формантные переходы. Все звуки речи могут быть разделены на три четко выраженные группы по виду сигнала возбуждения голосового тракта: вокализованные, невокализованные, взрывные. При произношении звонких звуков, называемых вокализованными (гласные, звонкие согласные: а, о, у, з,...), голосовые связки вибрируют (колеблются), в результате чего непрерывный воздушный поток, идущий из легких, преобразуется в импульсный. Возникающая таким образом квазипериодическая последовательность импульсного потока воздуха, возбуждает голосовой тракт. В результате акустическое колебание, излучаемое через ноздри, губы и зубы, представляет собой квазипериодический сигнал. В модели речеобразования (рис. 3.2) периодическое сокращение голосовых связок моделируется двумя резонансными контурами. Их совместное колебание управляет площадью отверстия, формирующего сигнал возбуждения. Невокализованные звуки (глухие согласные ф, х, ш,...) образуются при сужении голосового тракта в каком-либо месте (обычно это рот) и проталкивании воздуха через суженное место с высокой скоростью, достаточной для образования вихревого воздушного потока, создающего широкополосный шум со сплошным спектром. После этого происходит перераспределение энергии шумового сигнала возбуждения по частотному диапазону в соответствии с частотной избирательностью голосового тракта. Такой шум, возбуждая голосовой тракт, создает фрикативные и взрывные звуки. При произнесении последних (п, б, ...) голосовой тракт полностью закрывается, обычно в начале. За этим местом возникает повышенное сжатие воздуха. Затем воздух резко высвобождается и формируется акустическое колебание, излучаемое голосовым трактом. Характеристики речи. Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Основными параметрами, используемыми при описании речевого сигнала, являются: статистическое распределение звуков, слогов и слов при произношении речи; временные характеристики звуков; основной тон речи; спектр речи; распределение формантных частот. Эти параметры играют важную роль при построении систем кодирования речи. Звуки речи разделяют на гласные и согласные. В русском языке принято выделять шесть гласных звуков: а, и, о, у, ы, э. Их классифицируют по произношению (ударные, безударные) и местоположению в словах. Согласные звуки также разделяют на несколько подгрупп — твердые, мягкие и др. Гласные звуки составляют примерно 43,5 %, а согласные — 56,5 % общего числа звуков, при этом невокализованные звуки составляют 32 %. Наиболее распространенный гласный звук — это а, самый распространенный согласный звук — г. Среди гласных звуков наиболее редким является звук э, среди согласных — фь. Согласные фонемы (звуки) по типу делят на звонкие и глухие, а по способу образования - на щелевые (звонкие - в, з, ж и глухие – ф, с, ш, х,), взрывные, т.е. смычные (звонкие - б, г, д и глухие - п, т, к,), сонаты (носовые - м, н, щелевые -л, й, дрожащие - р) и аффрикаты (ц, ч). Каждый звук является реализацией случайного процесса с определенными характеристиками. Длительность отдельных звуков речи составляет 20...350 мс. При этом гласные звуки имеют большую длительность (в среднем около 200 мс), чем согласные (около 80 мс, а звук "п" - около 30 мс). Звонкие звуки речи, особенно гласные, имеют высокий уровень интенсивности, глухие - низкий - в среднем на 20 дБ ниже уровня гласных. Динамический диапазон уровней речи находится в пределах 35...45 дБ. Речь с физической точки зрения состоит из последовательности звуков речи с паузами между их группами. Паузой считается отсутствие речи в течение времени, большего 350 мс. В целом средняя длительность пауз составляет приблизительно 16 % длительности речи, а средняя скорость речи 10... 15 звуков/с. Темп речи может изменяться в широких пределах, длительность фонем, слогов и пауз также изменяется, причем длительность гласных звуков изменяется в большей степени. Важной характеристикой вокализованных звуков является частота основного тона (ОТ) FО.Т. - частота колебаний голосовых связок или частота первой гармоники спектра вокализованных звуков; Т0 = 1 / FО.Т.- период основного тона голоса. У вокализованных звуков спектр является дискретным с большим числом (до 40) гармоник, которые имеют частоту, кратную частоте основного тона. Частота ОТ изменяется в пределах от 60...70 Гц для низких мужских голосов до 450...500 Гц для высоких женских голосов. Средняя частота ОТ для мужских голосов 130... 150 Гц, для женских — 250 Гц. Медленное изменение частоты основного тона при произнесении речи создает эмоциональную окраску и называется интонацией. У каждого человека свой диапазон изменения основного тона (немного более октавы) и своя интонация, играющая большую роль в процессе узнавания говорящего. Пример плотности распределения вероятности частоты ОТ, представлен на рис. 3.3. Рис. 3.3.Плотность распределения вероятности частоты основного тона (получено в течение 15 мин для речи 15 мужчин – дикторов в возрасте около 20 лет) Спектр речи — зависимость среднего в течение длительного времени наблюдения спектрального уровня речи от частоты Вр(f) - весьма широк (примерно от 50 до 10000 Гц). Спектр русской речи, усредненный для мужских и женских голосов, представлен на рис. 3.4. Как отсюда следует, основная энергия в спектре речи сосредоточена в области низких частот. Максимальный уровень спектральной плотности речи лежит вблизи частоты 300 Гц, а наиболее «мощные» спектральные составляющие человеческого голоса сосредоточены в узкой полосе 200...600 Гц. Каждому звуку речи соответствует свое распределение энергии по частотному диапазону, называемое формантным рисунком. Формантные частоты, на которых происходит максимальное увеличение амплитуды спектральных составляющих, образуют формантные области частотного диапазона. Рис. 3.4.Спектр русской речи Спектральный состав звуков речи различен. Например, для гласных и звонких согласных (вокализованных звуков речи) энергетический спектр (формантный рисунок) имеет вид, представленный на рис. 3.5. Звонкие звуки имеют ярко выраженный дискретный спектр. Это объясняется природой образования гласных звуков, а дискретность определяется частотой основного тона: чем меньше частота ОТ, тем чаще будет заполнение спектра звука. Рис. 3.5.Формантный рисунок вокализованных звуков: А1-А3 - амплитуды формант; F1-F3 - частоты формант; F1 - ширина первой форманты Форманта характеризуется амплитудой Аi, частотой Fi, и шириной полосы Fi. Различные звуки имеют разное число формант: гласные - до четырех формант, глухие согласные до 5-6 формант. Наиболее информативны первые три форманты: F1, F2 и F3. Наиболее вероятные частоты расположения: первой форманты F1 –150 – 900 Гц; второй форманты F2 – 550 – 2800 Гц; третьей форманты F3 – 1500 – 3400 Гц. Изменение положения формант происходит с частотой 10 – 20 Гц, а их интенсивности - с частотой 20 – 40 Гц. Первые две (основные) форманты определяют произносимый звук речи, а остальные (вспомогательные) характеризуют индивидуальную для каждого человека окраску, тембр речи. Если фильтром нижних частот отрезать вспомогательные форманты спектра речевого сигнала, то исчезнет индивидуальная для каждого человека окраска произносимых звуков, но само речевое сообщение будет понятно. Некоторые звуки отчетливо распознаются по одной первой форманте F1 ("а", "о", "у"). Это происходит потому, что низкие частоты обладают большой энергией. Формантный рисунок глухих звуков выражен слабо. У них спектр не дискретный, а сплошной и характеризуется только огибающей спектра. Так, для звука "С" максимум спектральной плотности лежит вблизи частот 5000 – 8000 Гц. В полосе частот 1500 – 8000 Гц находится спектр согласных звуков и, в частности, фрикативных согласных ("в", "ф", "з", "с", "ж", "ш", "х", "щ"). Восприятие их особенно важно для разборчивости речи. Характеристики слуха и разборчивость речи При восприятии переданной речевой информации в качестве приемника выступает слуховой аппарат человека - речевое колебание воздействует на органы слуха человека, вызывая определенные слуховые ощущения. Первичный акустический преобразователь, используемый человеком при слуховом восприятии, - ухо разделяют на три области: наружное, среднее и внутреннее. Эти периферические отделы слуховой системы доводят звуковые колебания воздушной среды до чувствительных окончаний слуховых волокон нервной системы. Здесь акустический сигнал преобразуется в электрический и в результате сложного взаимодействия в сфере высшей нервной деятельности происходит восприятие речи, заключающееся в распознавании смысловых элементов речи. При этом слуховой аппарат человека позволяет решать следующие задачи слухового восприятия: распознавать речь (фонемы, слоги, слова); определять направление источника звука; адаптироваться к шумам и тишине (регулировка чувствительности); идентифицировать говорящего по речевым сигналам и т.д. Восприятие по частоте. Ухо человека обладает свойствами частотного анализатора, дискретным восприятием по частотному и динамическому диапазонам. Границы воспринимаемого слухом частотного диапазона довольно широки - от приблизительно 20 до 20000 Гц. Избирательность (разрешающая способность) слухового анализатора невелика: полосы пропускания резонаторов слухового анализатора, определенные на уровне - 3 дБ от своего максимального значения, составляют на частотах 250, 1000 и 4000 Гц около 35, 50 и 200 Гц соответственно. Эти полосы пропускания - ряд выделяемых слуховым анализатором человека специфических поддиапазонов частотного спектра - носят название критических полосок слуха или частотных групп. Слуховым анализатором человека образуется 24 критических полоски слуха. Субъективную оценку восприятия звука по частотному диапазону называют высотой звука. Так как ширина критической полоски слуха на средних и высоких частотах примерно пропорциональна частоте, то субъективный масштаб восприятия по частоте близок к логарифмическому закону. Порог слышимости и уровень громкости. Человек ощущает звук в чрезвычайно широком диапазоне звуковых давлений (или интенсивностей). Чувствительность к чистым тонам (гармоническим колебаниям) является одной из основных характеристик слуха. Воспринимаемое ухом значение спектрального уровня чистого тона принято называть порогом слышимости, анаибольшее значение спектрального уровня чистого тона данной частоты, которое человек воспринимает без болевого ощущения, — болевым порогом (порогом осязания). Область, ограниченная кривыми порога слышимости β0и болевого порога γ, называется областью слухового восприятия, или областью слышимых звуков (рис. 4.1). Порогом слышимости также называют наименьшее значение раздражающей силы чистого тона, которое вызывает ощущение звука. Это скачкообразный переход из слышимого состояния в неслышимое и обратно. Под раздражающей силой подразумевают интенсивность звука или звуковое давление. Порог слышимости зависит от частоты: при 1000 Гц ему соответствует интенсивность звука 10-12 Вт/м 2 или звуковое давление 210-5 Па. Принцип квантования ощущений является одним из важнейших свойств слуха. Этот принцип в полной мере характеризует и восприятие по амплитуде. Так, изменение ощущения (например, уровня громкости) возникает лишь тогда, когда изменение соответствующего ему раздражителя (уровня звукового давления или интенсивности звука) превысит определенное пороговое значение. При этом порог различения интенсивности зависит от уровня громкости, а слуховые ощущения громкости почти пропорциональны логарифму интенсивности воздействия. Вблизи абсолютного порога слышимости порог различения интенсивности составляет 2...3 дБ, в области средних уровней громкости он существенно меньше: 0,4 дБ, а среднее его значение около 0,8...1 дБ. Другими словами: едва заметное на слух изменение уровня в процессе передачи не превышает 1 дБ. Динамический диапазон по уровню звука от порога слышимости до болевого порога на частотах 1...3 кГц составляет приблизительно 130 дБ (для частоты 100 Гц это около 90 дБ). Рис. 4.1. Область слухового восприятия Громкость звуков определяется как субъективное ощущение уровня речи (В). Для численной оценки громкости принято сравнивать уровень речи В с чистым тоном частотой 1000 Гц. Значение звукового давления эталонного сигнала, равногромкого данному звуку, называется уровнем громкости этого звука. За единицу уровня громкости принят фон. Таким образом, величина уровня громкости какого-либо звука численно равна уровню эталонного тона 1000 Гц, если на слух его громкость одинакова с громкостью определяемого звука. Маскировка звуков. Порог слышимости существенно зависит от условий прослушивания: в тишине или же на фоне шума (или другого мешающего звука). В последнем случае порог слышимости повышается. Это говорит о том, что помеха маскирует полезный сигнал. Количественно повышение порога выражают уровнем маскировки, который определяют как разность: М = β – β0 , где β - порог слышимости при воздействии помех; β0 - порог слышимости в тишине. При существенной величине М полезный звук может оказаться неслышным, т.е. замаскированным помехой. Явление маскировки проявляется во всех частотных группах слуха по-разному в зависимости от соотношения уровней и спектральных особенностей полезного сигнала и помехи. Эффект маскировки играет важную роль при слуховом восприятии смеси речевого и шумового колебаний. Современные модели механизма слуха основаны на свойстве слухового аппарата проводить кратковременный спектральный анализ, осуществляемый посегментно на отрезках времени около 20 мс. В каждой из частотных полосок присутствуют компоненты сигнала и шума, причем порог слышимости зависит от мощности сигнала. Поэтому в пределах каждой из критических полосок слуха, образованных слуховым анализатором, наибольшая по абсолютной величине спектральная составляющая маскирует рядом стоящие компоненты спектра, если ее уровень превышает некоторое пороговое значение. Временные характеристики слуха. При исчезновении раздражающей силы слуховое ощущение исчезает не сразу, а постепенно уменьшается до нуля. Этот эффект называется слуховым впечатлением. Время, в течение которого ощущение по уровню громкости падает на 8,7 фон, считается постоянной времени слуха. Ее величина составляет в среднем при нарастании звука 20...30 мс, при спаде - 100...200 мс. Разборчивость речи. При реализации цифровых преобразований речевых сигналов (РС) возникают специфические искажения, влияющие на качество речи. Одним из критериев качества речи является ее разборчивость. Разборчивость — есть объективная количественная мера, характеризующая способность тракта электросвязи передавать содержащуюся в речи смысловую информацию в данных конкретных акустических условиях окружающей среды. Эта мера является объективной в том смысле, что величина разборчивости зависит от физических параметров тракта, а также от среды, в которой ведется разговор, и не зависит от субъективных свойств конкретных, измеряющих разборчивость операторов. Под мерой разборчивости понимается выраженное в процентах отношение числа правильно принятых элементов речи (звуков, слогов, слов, фраз) к достаточно большому общему числу переданных. На практике используют преимущественно слоговую (S), звуковую (D) и словесную (W)разборчивость. Они поддаются непосредственному измерению с помощью артикуляционных таблиц (см. лекцию 14). Существуют однозначные зависимости для указанных видов разборчивости. Это объясняется тем, что для нахождения их значений используются определенные выборки из одной и той же совокупности, представляющей собой речь, в которой звуки, слоги, слова и фразы встречаются в определенных фонетических и статистических соотношениях и взаимосвязях. Пример одной из этих зависимостей приведен на рис. 4.2. Рис. 4.2. Взаимосвязь между различными видами разборчивости Принято считать, что разборчивость речевого сигнала и передача смысловой информации определяются огибающей амплитудного спектра сигнала. В процессе речеобразования широкополосный гармонический сигнал (при произнесении звонких звуков) или шумовой (при произнесении глухих согласных), проходя через набор акустических резонаторов, образуемых в ротовой и носовой полости, приобретает ряд максимумов огибающей спектра - формант, положение которых на оси частот определено для отдельных звуков - фонем. Установлено, что у звонких (вокализованных) звуков положение первой форманты, расположенной ниже 1000 Гц, на 60% определяет характер фонемы; положение второй, лежащей в диапазоне от 1000 до 2800 Гц, - на 20%; и третьей (диапазон 1500-3400 Гц) - на 10%. Положение четвертой форманты, расположенной выше 3000 Гц, как считается, определяется размером головы. Последующие форманты при анализе сигнала не используются и в системах телефонной связи не передаются. Разборчивость же согласных, чей энергетический максимум в спектре сигнала расположен в диапазоне 1500-8000 Гц, сильно зависит от верхней граничной частоты полосы пропускания звукового (речевого) тракта. Известна необычайно высокая устойчивость РС к помехам и искажениям канала передачи, как акустического, так и электрического. Очевидно, что в процессе эволюции природой был создан чрезвычайно устойчивый канал связи. Из опыта работы с речевым сигналом известно также, что он остается разборчивым при существенном ограничении полосы частот, нелинейных искажениях, искажениях АЧХ и даже инверсии спектра. В системах связи почти полное разрушение формантной структуры не приводит к потере связи. Тем не менее, даже для стационарных звуков — гласных, на основании формантной теории удается распознать 60-80% фонем. Распознаваемость согласных гораздо ниже. Современные системы распознавания успешно работают, в основном, за счет большой избыточности речевого сигнала (лингвистической, грамматической, смысловой), ограничения словаря, количества пользователей. Рассмотренные выше характеристики речи и слуха играют важную роль при создании различных устройств и систем обработки и передачи речи, таких, как системы идентификации диктора по голосу, распознавания речи, низкоскоростного кодирования и передачи речи, систем компьютерной телефонии и др. Современные технологии реализации этих систем основаны на цифровых алгоритмах обработки сигналов. Акустоэлектрические и электроакустические преобразователи Акустоэлектрические и электроакустические преобразователи в абонентских устройствах СПРС выполняют роль интерфейса «пользователь-система связи», обеспечивая важные физические функции при реализации голосовой связи по радиоканалу. Так, важным звеном любого электроакустического тракта является микрофон - устройство для преобразования акустических колебаний воздушной среды в электрические сигналы. Среди основных технических показателей микрофонов: чувствительность E – отношение напряженияна выходе микрофона к звуковому давлению, действующему на микрофон; динамический диапазон – разность между уровнем предельного звукового давления Nmax и уровнем собственных шумов Nш: D = Nmax – Nш, дБ (для непрофессиональных микрофонов Nmax = 114 дБ в диапазоне частот 250…8000 Гц); характеристика направленности, котораяоценивается отношением чувствительности микрофона Е, измеренной при приходе звука под углом , к осевой чувствительности Ео: D() = Е() / Ео. Характеристику направленности, представленную в полярных координатах, называют диаграммой направленности (ДН).Классификация микрофонов по виду ДН включает: ненаправленные (круговые); двусторонне направленные (восьмерочные); односторонне направленные (кардиоидные). Микрофон характеризуется также рядом других показателей, среди которых важнейшими являются: номинальный диапазон частот с допустимой неравномерностью частотной характеристики (от 4 до 20 дБ в зависимости от назначения микрофона), модуль полного электрического сопротивления на частоте 1 кГц (обычно от 50 до 2000 Ом), сопротивление номинальной нагрузки (150…3000 Ом), типовая частотная характеристика чувствительности. Любой микрофон состоит из двух систем: акустико-механической и механоэлектрической. В зависимости от способа преобразования механических колебаний в электрические микрофоны делятся на электродинамические, конденсаторные, электромагнитные, пьезоэлектрические, угольные, транзисторные. По признаку приема звуковых колебаний микрофоны могут быть либо приемниками давления, либо приемниками градиента давления. Свойстваакустико-механической (т.е. подвижной) системы – диафрагмы зависят от того, как воздействует звуковое давление на диафрагму: если она открыта для звуковых волн только с одной стороны, то это приемник давления (рис. 5.1а), если же звуковые волны воздействуют на обе ее стороны, то это микрофон-приемник градиента давления (рис. 5.1б). а) б) Рис. 5.1. Схематичное изображение микрофона-приемника давления (а) и микрофона-приемника градиента давления (б) Для микрофона - приемника давления характерно увеличение чувствительности с ростом частоты. Характеристики такого микрофона также сильно зависят от размеров диафрагмы (относительно длины падающей звуковой волны) и его формы. Микрофон-приемник градиента давления можно представить в виде диафрагмы, размещенной в экране конечных размеров. Диафрагма открыта для звуковых волн с обеих сторон, поэтому на нее воздействует разность сил, обусловленная разностью хода звуковых лучей. Поэтому ДН такого микрофона имеет вид «восьмерки», т.е. микрофон не воспринимает звуковые колебания, падающие на него сбоку. Большое влияние на характеристики микрофона оказывает его механоэлектрическая часть. В электродинамических и электромагнитных микрофонах выходное электрическое напряжение пропорционально скорости колебаний подвижной системы, а в микрофонах остальных типов – пропорционально колебательному смещению. Для систем связи рекомендуются электромагнитные и угольные микрофоны. Они характеризуются полосой эффективно передаваемых частот от 300 до 5000…8000 Гц и достаточно высокой чувствительностью – от 10 мВ/Па (электромагнитные) до 400 мВ/Па (угольные). Действие угольного микрофона (рис. 5.2а) основано на изменении сопротивления между зернами угольного порошка: при действии звукового давления на диафрагму (3) она начинает колебаться, в такт с этими колебаниями изменяется сила сжатия зерен угольного порошка (2), в результате чего изменяется сопротивление между электродами (1 и 4) и ток через микрофон. Основное преимущество такого микрофона – высокая чувствительность, позволяющая использовать его без усилителя. Недостатки – большой уровень шума, большая неравномерность частотной характеристики и значительные нелинейные искажения. В электромагнитном микрофоне(рис. 5.2б) ферромагнитная диафрагма располагается перед полюсами магнита (2). При колебаниях диафрагмы (1) изменяется магнитное сопротивление воздушного зазора, а значит и магнитный поток через витки обмотки, намотанной на магнитопровод (3) этой системы. Благодаря этому возникает переменное напряжение звуковой частоты, являющееся выходным сигналом микрофона. |