Рихтер лекции системы радиосвязи. рихтер лекции. Кафедра радиовещания и электроакустики
Скачать 3.27 Mb.
|
Рис. 11.2. Структурная схема липредора Решаемая задача третьей процедуры - при минимальном объеме информации о сигнале возбуждения обеспечить приемлемое качество восстановленного сигнала. Для достижения этого обработку второго остаточного сигнала производят отдельно для каждого подсегмента из 40 отсчетов. Суть аппроксимации состоит в том, что второй остаточный сигнал моделируют в виде определенного числа импульсов на интервале подсегмента. Переданные по каналу связи параметры аппроксимации второго остаточного сигнала, параметры основного тона G и a, коэффициенты формантного фильтра apiпоступают на соответствующие блоки декодера (рис. 11.2). В любом случае по каналу связи вместо самой речи передают так или иначе выделенные и квантованные параметры кратковременного и долговременного предсказания, интервал и усиление ОТ, параметры возбуждения. В декодере ЛП по принятым параметрам восстанавливают сигнал возбуждения, пропускают его через синтезирующий фильтр и восстанавливают речь. Синтез сигнала начинают с восстановления второго остаточного сигнала, выполняемого генератором возбуждения. Восстановленный сигнал r2вос(k) несколько отличается от второго остаточного сигнала в кодере из-за погрешности аппроксимации. Восстановленный второй остаточный сигнал пропускают через фильтр восстановления основного тона, передаточную характеристику которого H2(z) устанавливают обратной характеристике фильтра удаления основного тона кодера: . На выходе этого фильтра получают восстановленный первый остаточный сигнал r1вос(k), который включает основной тон. Наконец, фильтр восстановления формант с передаточной функцией H(z) восстанавливает формантные составляющие сигнала. Восстановленный сигнал Sвос(n) достаточно близок к исходному сигналу на входе кодера S(n). Выполнив цифро-аналоговое преобразование и пропустив сигнал через ФНЧ, получают восстановленный аналоговый сигнал. Все процедуры обработки сигнала в кодере и декодере выполняются цифровыми методами. Кодер и декодер реализуют на высокопроизводительном сигнальном процессоре. Показанные на рис. 11.2 модули липредора фактически являются блоками программного обеспечения. 12. Кодирование речи в гибридных кодерах Гибридные кодеры речевой информации основаны на комбинации линейного предсказания с элементами кодирования формы сигнала, т.е. звуковой волны. Так, в алгоритме линейного предсказания с возбуждением от остатка предсказания (RELP) (см. табл. 6.1) наряду с передачей вокодерных параметров (коэффициентов линейного предсказания и усиления) осуществляется передача сигнала остатка (ошибки) предсказания в полосе частот 0...800 Гц. Сигнал остатка предсказания приблизительно равен сигналу возбуждения голосового тракта модели речеобразования (см. рис. 10.1), поэтому в алгоритме RELP он используется в синтезаторе декодера для возбуждения синтезирующего фильтра. Формируемый в результате речевой сигнал звучит более естественно. Большинство гибридных кодеров используют замкнутое кодирование на основе линейного предсказания, называемое также методом «анализ через синтез» (AbS). Этот метод характеризуется исчерпывающей самооптимизирующейся процедурой поиска. Ее выполняет аппаратура передачи, которая находит наилучшую аппроксимацию каждого речевого сегмента исходного речевого сигнала (РС). Как только такая аппроксимация определена, представляющий ее код передается на приемную сторону, где используется для синтеза РС. Одной из первых реализаций метода анализа через синтез (1982 г.) является алгоритм линейного предсказания с многоимпульсным возбуждением (MPE), используемый в системах спутниковой связи. В многоимпульсном возбуждении сигнал остатка линейного предсказания представляется в виде последовательности импульсов с неравномерно распределенными интервалами и с разными амплитудами. Число импульсов в каждом кадре речевого сигнала зависит от требуемого качества речи, чем больше импульсов, тем выше качество речи. На каждом кадре в 10 мс речевого сигнала считается достаточным 6...8 импульсов (или 8 импульсов на период основного тона) для получения высокого качества синтезированной речи. Согласно этому алгоритму (рис. 12.1), амплитуды и положения импульсов сигнала многоимпульсного возбуждения определяются на покадровой основе (кадр за кадром): на передающей стороне генератор возбуждения создает неравномерно распределенную последовательность импульсов и(п), которая в качестве сигнала возбуждения поступает на вход синтезирующего фильтра, на выходе которого возникают выборки речи Ŝ(n). Эти выборки сравниваются с соответствующими выборками S(n) исходного РС и находится ошибка предсказания z(n). Рис. 12.1. Схема речевого кодера, использующего метод «анализ через синтез» Кодер, реализованный на основе метода «анализ через синтез», - это речевой синтезатор, который генерирует сигнал, подобный объекту кодирования - речевому сигналу. Синтезатор состоит из генератора возбуждения и фильтров долговременного (LTP)икратковременного (STP) предсказания. STP-фильтр моделирует краткосрочную корреляцию РС (восстанавливает огибающую спектра), порядок адаптации при этом составляет 20…30 мс, а порядок предсказания P обычно выбирается равным 8-12. LTP-фильтр формирует долгосрочную корреляцию РС (точную структуру спектра); период его адаптации – каждые 5…10 мс. Из-за рекурсивной природы обоих фильтров они содержат память-буфер, содержимое которого переносится из предыдущего анализируемого кадра. В процессе кодирования каждого речевого сегмента (кадра) для него находятся такие “наилучшие” положения импульсов в последовательности и(п) и их амплитуды, которые обеспечивают минимальную ошибку. Алгоритм оптимизации, используя уравнение (10.2), минимизирует разность z(n) между исходным и синтезированным сигналами путем изменения возбуждающего сигнала и коэффициентов линейного предсказания api фильтров STP и LTP. Это достигается выполнением последовательных процедур – сначала определяются параметры нестационарного (т.е. синтезирующего) фильтра, затем по ним оптимизируется возбуждение. Метод “анализа через синтез” дает весьма высокое качество синтезированной кодеком речи, поскольку учитывает процессы квантования коэффициентов вокодера, возникающие ошибки квантования, их влияние на синтезированную речь. К тому же, при вычислении величины ошибки между синтезированной и исходной речью используют не среднеквадратический критерий, а критерий, учитывающий особенности субъективного восприятия слушателем (в частности, эффект маскировки сигнала малого уровня сигналом большого уровня). Для этого перед вынесением решения о величине средней ошибки на речевом сегменте сигнал ошибки пропускают через взвешивающий фильтр, т.е. в алгоритме оптимизации используется не сама погрешность, а ее взвешенное значение zw(n). Этот фильтр перестраивается одновременно с синтезирующим фильтром и перераспределяет энергию ошибки по частотному диапазону (где-то усиливает, а где-то ослабляет). В результате большая часть шума квантования попадает в места расположения формантных областей (максимумов спектра) РС, а меньшая — между областями. В этом случае в формантных областях происходит маскировка шума речевым сигналом, в результате чего общая заметность шума в синтезированной речи уменьшится. На сторону приема передаются параметры LTP- и STP-фильтров, а также параметры сигнала возбуждения. Представление сигнала возбуждения и(п) ввиде последовательности импульсов с неравномерно распределенными интервалами и различными амплитудами позволяет более точно учесть особенности возбуждения голосового тракта человека. Метод “анализа через синтез” применяется почти в каждом вокодере. Это обусловлено тем, что оптимальные значения для некоторых параметров, участвующих в синтезе речи, можно найти только методом перебора (внутри заданного заранее множества их значений). Установлено, что для вокализованного РС многоимпульсное возбуждение можно упростить, представив его в виде последовательности равномерно расположенных импульсов (обычно 10 импульсов на интервале 5 мс). В методе возбуждения регулярной импульсной последовательностью (RPE) взаимное положение импульсов предопределено заранее - используют решетку равноотстоящих импульсов, а оптимизируют расположение решетки и амплитуды импульсов. В этом методе число импульсов определяется интервалом между ними. Экспериментально установлено, что интервал, равный четырем отсчетам (4*0,125 = 0,5 мс) РС, является оптимальным. Интервал больше, чем 5 отсчетов ухудшает звучание, особенно женских голосов. Местоположение первого импульса должно определяться каждые 5 мс минимизацией сигнала остатка. Качество речи, синтезированной с использованием этого метода возбуждения, конечно, не имеет той полноты звучания, которое получается при многоимпульсном возбуждении. Однако алгоритм обработки при RPE значительно проще. Это и определяет широкое распространение данного метода аппроксимации второго остаточного сигнала. В 1984 году, как естественное развитие многоимпульсного метода возбуждения, было предложено так называемое векторное кодирование (VQ), когда кодируется одновременно группа параметров, характеризующих позиции импульсов и их амплитуды. В этом случае в качестве сигнала возбуждения используется последовательность отсчетов (т.е. “вектор”), взятая из заданного набора этих последовательностей (т.е. из “кодовой книги векторов”). Входной вектор, представляющий собой образец входного РС, сравнивается с векторами, находящимися в кодовой книге, и находится вектор, наиболее близкий к входному. Критерием выбора вектора часто становится минимизация среднеквадратичной ошибки между образцом входного сигнала и вектором. Каждому “вектору” из этой “книги” соответствует свой адрес - индекс (номер), который и передается по каналу связи на приемную сторону. На рис. 12.2 изображен процесс кодирования. На приемной стороне в декодере используется точно такая же кодовая книга, из которой по индексу извлекается требуемый вектор. Таким образом, снижение скорости в результате использования VQ достигается путем передачи на прием только номера (индекса) вектора с масштабным коэффициентом. Рис. 12.2. Принцип векторного кодирования Как правило, кодовая книга состоит из большого количества векторов, т.к. ее размер оказывает значительное влияние на качество речи. В виду очень больших вычислительных затрат прямой перебор векторов для отыскания среди них оптимального оказывается очень часто не возможен. Поэтому прибегают к различным ухищрениям в виде разбиения одной книги на несколько и последовательного поиска в каждой из них, а также структурирования содержания книги. Чтобы уменьшить время поиска подходящего вектора в кодовой книге, используют также так называемый древовидный поиск. В этом случае число вычислительных операций равно log2N, где N - число векторов. Однако при этом требуется большой объем памяти. Как правило, создаются две кодовые книги: одна для образцов сигнала возбуждения, другая - для образцов огибающей спектра. Наиболее подходящий вектор возбуждения выбирается из заранее составленных кодовых книг, содержащих обычно 27 -210 квазислучайных векторов заданной длины с элементами, нормированными по амплитуде. Амплитуда вектора возбуждения кодируется отдельно в соответствии с громкостью передаваемого сегмента речи. Векторное кодирование лежит в основе метода стохастического кодирования, или метода линейного предсказания с кодовым возбуждением (CELP). Частными случаями CELP являются методы VSELP и ACELP. Кодер CELP реализует процедуру анализа через синтез (рис.12.3). Сигнал возбуждения u(h) формируется путем сложения масштабированного сигнала из адаптивной кодовой книги (добавляются долговременные частотные составляющие речевого сигнала) и масштабированного сигнала из большой фиксированной кодовой книги. Полученный сигнал возбуждения управляет синтезирующим фильтром, который моделирует эффекты голосового тракта. В декодере сигнал возбуждения проходит через синтезирующий фильтр, формируя восстановленный речевой сигнал Ŝ(n). Очевидно, что сначала определяются параметры фильтра, а затем уже находятся индексы кодовых книг а и kи соответствующие коэффициенты усиления G1и G2. Параметры кодовых книг выбираются так, чтобы минимизировать взвешенную ошибку между исходным речевым сигналом S(n) и восстановленным Ŝ(n), что достигается подачей содержимого каждой «ячейки» кодовой книги на синтезирующий фильтр с целью выявления максимально похожего (по восприятию) образца. Рис. 12.3. Блок-схема кодера CELP В алгоритме VSELP используется не одна большая стохастическая кодовая книга, а две, меньшего размера (128 векторов в каждой). Для эффективности кодирования эти две книги также образуются с помощью нескольких базовых векторов (базиса книги). Базовые вектора взаимно ортогональны друг другу, что обеспечивает и ортогональность самих книг кодовых книг между собой. Структура кодовой книги алгоритма ACELP (с речевой скоростью 7,4 кбит/c) следующая: существует 4 базовых вектора. Различной линейной комбинацией этих векторов и образуются все вектора кодовой книги. Такая жесткая структуризация книги позволяет резко снизить требуемые вычислительные затраты на поиск в ней оптимального вектора. Кодовые книги бывают детерминированными и стохастическими. Детерминированные книги образуется посредством процесса “обучения”, т.е. заполнения книги векторами, полученными из реальных речевых сигналов. Обучение проводится на достаточно большой длительности (30..40 мин) для нескольких дикторов, на мужских и женских голосах. В отличие от детерминированных, стохастические книги не требуют обучения. Они заполняются случайными гауссовскими последовательностями (отрезками белого шума с нулевым средним и единичной дисперсией). Основанием для использования такой книги в качестве возбуждающей является то, что в системах с линейным предсказанием с двумя предсказателями (кратковременным и долговременным) в сигнале остатка на выходе этих предсказателей практически устранены все корреляционные связи, он имеет случайный характер. 13. Речевые кодеки для абонентского терминала стандарта GSM Кодер речи является первым элементом собственно цифрового участка передающего тракта, следующим после АЦП (рис.2.1). Основная задача кодера - предельно возможное сжатие сигнала речи, представленного в цифровой форме, - при сохранении приемлемого качества передачи речи. Компромисс между степенью сжатия и сохранением качества отыскивается экспериментально, а проблема получения высокой степени сжатия без чрезмерного снижения качества составляет основную трудность при разработке кодера. В приемном тракте перед ЦАП размещен декодер речи, задача которого - восстановление обычного цифрового сигнала речи, с присущей ему естественной избыточностью, по принятому кодированному сигналу. В предыдущих лекциях было показано, что кодирование речи на самом деле представляет собой процесс сжатия данных, при котором вместо преобразованных отсчетов входного сигнала для передачи подбираются кодированные параметры модели источника речи, позволяющие приемнику генерировать речевой сигнал (РС), чрезвычайно похожий на исходный. В системе GSM определены три стандарта кодирования речи: кодирование речи с полной скоростью(GSM FR); кодирование речи с половинной скоростью(GSM HR); улучшенноекодирование речи с полной скоростью(GSMEFR). Современные мобильные телефоны имеют речевые кодеры и декодеры, позволяющие применять любой из перечисленных стандартов. Кодирование речи с полной скоростью. Этот тип кодирования речи использует модифицированный метод RPE-LTP- линейное предсказание с возбуждением регулярной последовательностью импульсов и долговременным предсказателем (см. раздел 12). Упрощенная блок-схема кодера представлена на рис.13.1. Рис. 13.1. Блок-схема полноскоростного кодера речи в системе GSM(FR) Основные требования к кодеру состоят в сокращении избыточности речевого сигнала и обеспечении в перерывах во время пауз передачи речи. Поэтому при передаче речи в системе GSM используется техника прерывистой передачи DTX, означающая, что каждый речевой канал активен не непрерывно. Блок предварительной обработки кодера осуществляет предыскажение входного сигнала при помощи цифрового фильтра восприятия, подчеркивающего верхние частоты, нарезание сигнала на сегменты по 160 выборок (20 миллисекунд) и взвешивание каждого из сегментов окном Хэмминга. Сигнал с выхода фильтра предыскажений подвергается анализу в соответствии с методом линейного предсказания, в результате чего определяются коэффициенты кратковременного линейного предсказания(STP). Полученные параметры, представляющие собой восемь коэффициентов отражения STP-фильтра, преобразуются в логарифмические отношения площадей (LAR), которые могут быть представлены более компактно, нежели сами коэффициенты отражения. Значения LAR в цифровой форме представляются 36 битами. Затем найденные коэффициенты кратковременного линейного предсказания используются в фильтре-анализаторе STP для обработки того же самого сегмента входных отсчетов. В результате получаются 160 отсчетов остатка кратковременного предсказания сигнала. Для дальнейшей обработки 20-мс сегмент остатка кратковременного предсказания z(n) делится на четыре подсегмента длительностью 5 мс, по 40 выборок в каждом. Каждый подсегмент последовательно обрабатывается в блоках кодера по отдельности. Перед обработкой каждого подсегмента речевой кодер определяет параметры фильтра долгосрочного предсказания(LTP) – (весовой) коэффициент предсказания g и задержку d. Операция выполняется на основе текущего подсегмента остатка STP-предсказания (см. сигнал 1 на рис.13.1) и сохраненной последовательности из трех восстановленных предшествующих подсегментов остатка кратковременного предсказания (см. сигнал 4 на рис.13.1). Подсегмент остатка сигнала (2), прошедшего LTP-фильтр, представляет собой разность между подсегментом приближенных значений прошедшего STP-фильтр остатка сигнала (3) и подсегментом точных STP-фильтрованных значений остатка этого сигнала (1). В результате получается субсегмент остатка долговременного предсказания. После отбрасывания последнего отсчета этот подсегмент направляется в блок-анализатор с возбуждением последовательностью регулярных импульсов(RPE).RPE-анализатор разделяет обрабатываемый подсегмент на три последовательности возбуждения, каждая из которых состоит из 13 импульсов. Для этого производится децимация отсчетов и выбор сигнальной сетки (интервал следования импульсов возбуждения обычно втрое превышает период дискретизации исходного сигнала). Затем вычисляется энергия трех прореженных последовательностей. Последовательность с самой большой энергией выбирается как представляющая весь блок прошедших LTP-фильтр остатков. Выбранные импульсы возбуждения нормируются по отношению к наибольшей амплитуде и кодируется. Сдвиг сетки также кодируется и вместе со значениями импульсов возбуждения передается на приемник. В результате представление каждого 5-мс подсегмента производится 47-битовым блоком. Эти же RPE параметры подаются на блок декодирования и восстановления сетки RPE, который выдает подсегмент LTP-остатка (5). После прибавления отсчетов этого сегмента к приближенным значениям STP-остатка получаются реконструированные отсчеты STP-остатка, которые и направляются на вход фильтра долговременного анализа. В результате фильтрации получается новый подсегмент приближенных значений отсчетов остатка кратковременного предсказания, которые используются при обработке следующего подсегмента. В результате применения алгоритма кодирования 20-мс сегмент речи передается 260 битами информации, т.е. кодер речи осуществляет сжатие информации почти в 5 раз (1280 : 260 = 4,92), что обеспечивает цифровую скорость передачи Rц = 64/5 13 кбит/с. На рис.13.2 изображена упрощенная схема RPE-LTP-декодера. Он содержит такой же контур обратной связи, как и кодер. Рис. 13.2. Блок-схема RPE-LTP-декодера речи В случае отсутствия ошибок передачи, выходной сигнал этой части декодера восстанавливает последовательность отсчетов остатка кратковременного предсказания. Затем эти отсчеты направляются на вход STP фильтра-синтезатора, после чего обрабатываются блоком постфильтрации для компенсации предыскажений, внесенных фильтром на входе кодера. Сигнал на выходе блока постфильтрации представляет собой восстановленные фрагменты речевого сигнала. Кодирование речи с половинной скоростью. В GSM-кодере речи с половинной скоростью используется подход «анализ через синтез», рассмотренный в разделе 12, в версии VSELP. На рис. 13.3 изображена упрощенная блок-схема кодера с половинной скоростью. Процедура «анализ через синтез» используется для поиска наилучшего кодового слова (вектора), характеризующего сигнал возбуждения для каждого 20-мс сегмента. Такое кодовое слово находится путем применения каждого кодового слова из словаря для возбуждения CELP-синтезатора. Затем синтезированный РС сравнивается с входным сигналом и вычисляется их разность. Разностный сигнал взвешивается спектральным взвешивающим фильтром с характеристикой W(z) и вторичным взвешивающим фильтром C(z). В результате получается сигнал ошибки е(п). Кодовое слово, обеспечивающее наименьшую среднюю мощность сигнала ошибки е(п), выбирается как наиболее точно соответствующее данному сегменту. Характеристики взвешивающего фильтра выбираются таким образом, чтобы обеспечить наилучшее субъективное восприятие синтезируемого РС человеческим ухом. Второй взвешивающий фильтр C(z) контролирует количество ошибок в гармониках речевого сигнала. Рис. 13.3. Упрощенная блок-схема GSM-кодера речи с половинной скоростью A(z) - кратковременный спектральный фильтр; B(z) - долговременный фильтр с задержкой L В процессе «анализа через синтез» кодер вычисляет 18 параметров, которые характеризуют каждый 20-мс сегмент. Параметры единичного сегмента представляются 112 битами, что эквивалентно скорости передачи данных 5,6 кбит/с на выходе полускоростного кодера. Декодер с половинной скоростью представляет собой усечённый вариант кодера. На основе принятых параметров речь генерируется тем же синтезатором, что и в кодере. При кодировании речи с половинной скоростью количество битов, представляющих 20-мс сегмент, значительно меньше, чем при кодировании с полной скоростью; следовательно, необходим более высокий уровень их защиты в канале передачи. Применение более эффективного канального кодирования приводит к увеличению числа битов в 20-мс сегменте до 228. Это равнозначно скорости потока данных 11,4 кбит/с на выходе канального кодера, что составляет ровно половину скорости на выходе канального кодера, работающего совместно с полноскоростным кодером речи. Основное преимущество кодера речи с половинной скоростью заключается в удвоении емкости физического канала. Один и тот же временной слот может использоваться чередующимися полускоростными каналами трафика. Внедрение кодирования речи с половинной скоростью связано с попытками обойти проблемы с емкостью системы в густонаселенных районах. Это привело к необходимости внедрить в мобильные телефоны кодеры, которые могут работать с обоими стандартами. Основной недостаток кодирования речи с половинной скоростью - ухудшение качества передачи речи. Улучшенноекодирование речи с полной скоростью. В основе такого кодера лежит модель линейного предсказания с кодовым возбуждением(CELP).В этой модели речевой сигнал синтезируется в линейном фильтре синтеза с кратковременным предсказанием (STP) 1/A(z)10-го порядка (рис.13.4). Сигнал u(n) для его возбуждения формируется путем сложения двух векторов возбуждения из адаптивной и фиксированной кодовых книг. LTP-фильтр синтеза реализован с использованием адаптивной кодовой книги. Оптимальный вектор возбуждения ищется в кодовой книге с помощью процедуры «анализ через синтез» - аналогичной той, которая используется в кодировании речи с половинной скоростью. Рис. 13.4. Упрощенная блок-схема GSM-EFR - кодера Для каждого сегмента (20 мс, 160 отсчетов) определяются такие параметры модели CELP, как коэффициенты фильтра линейного предсказания, адреса в адаптивной и фиксированной кодовой книгах, а также весовые коэффициенты. Затем они кодируются и пересылаются на приемник. Декодер использует принятые параметры для восстановления речевого сигнала в CELP-синтезаторе, идентичном применяемому в передатчике при анализе речи. EFR-кодер генерирует поток данных со скоростью 13 кбит/с. Тесты показали, что EFR-кодирование позволяет получить намного лучшее качество передачи речи, чем RPE-LTP-коди-рование. Такой тип кодеров в основном используется во вновь разворачиваемых сетях, в частности, в сетях PCS-1900 в Северной Америке. 14. Оценка качества передачи речи Поскольку человек как получатель информации является ключевым элементом любой телекоммуникационной системы, качество сигнала оценивается по его субъективному восприятию речи. К основным показателям качества принимаемой речи относят: разборчивость (понятность), громкость и натуральность. Понятность речи - определяющая характеристика тракта передачи речи, так как если тракт не обеспечивает полной понятности речи, то никакие другие его преимущества не имеют значения - он не пригоден к эксплуатации. Для непосредственного определения этой качественной характеристики есть только один метод – субъективно-статистические испытания (ССИ), требующий большого количества речевого материала, обработанного кодеками и трактом передачи, и привлечения группы экспертов (тренированных слушателей и дикторов). Разработан косвенный, объективный количественный метод определения понятности речи через ее разборчивость (см. также раздел 4). Громкость речиопределяет желательный уровень принимаемых сигналов, при котором разборчивость (понятность) речи достигается без напряжения слухового аппарата со стороны принимающего. Натуральность речиоценивает способность системы воспроизводить не только смысл передаваемой речи, но и ее тембр и индивидуальные особенности голосов говорящих, т.е. способность обеспечить узнаваемость говорящего по голосу. Наиболее распространенным объективным методом оценки качества передачи речи является метод артикуляции. Он основан на оценке степени выполнения главного требования, предъявляемого к разговорным трактам, - обеспечения разборчивой передачи речи. Мерой разборчивости является здесь разборчивость элементов речи. Процесс произнесения речевых элементов называется артикуляцией - отсюда и название метода. Для измерений разборчивости разработаны специальные (артикуляционные) таблицы слогов, звукосочетаний и слов с учетом их встречаемости в русской речи (аналогичные таблицы есть и для других языков). Звуковых таблиц нет, так как звуки, кроме гласных, отдельно не произносятся, а для измерений звуковой разборчивости пользуются слоговыми таблицами или таблицами звукосочетаний. Пусть, например, в процессе измерения было передано 1200 слогов, из них правильно принято 840 и искажено 360. Тогда слоговая разборчивость составит S = 840100/1200 = 70%. Из всех типов артикуляционных таблиц (слоговых, словесных, фразовых) практическое применение находят первые две. При этом слоговые артикуляционные таблицы считаются основными, так как на практике в большинстве случаев рассматривается именно слоговая разборчивость. Измеряют разборчивость экспериментально (в соответствии с ГОСТ 16600-73) с помощью артикуляционной бригады - группы тренированных слушателей и дикторов - молодых людей без нарушений слуха и речи. Ограничение влияния субъективных факторов достигается путем строгой регламентации артикуляционных измерений. Регламентация касается вопросов комплектования и тренировки артикуляционных бригад, порядка проведения передачи, записи и проверки артикуляционных таблиц, обработки результатов измерения разборчивости. В табл. 14.1 приведены градации понятности речи и соответствующие им величины разборчивости. Словесная разборчивость ниже 75% оценивается как "срыв связи". Таблица 14.1
Эти данные были получены для широкого словаря, т.е. при передаче самой разнообразной информации. В тех же случаях, когда идет обмен информацией с гораздо меньшим объемом (т.е. при ограниченном словаре), понятность речи будет лучше, чем в общем случае при той же разборчивости речи. Так, для диспетчерской связи 40%-ная слоговая разборчивость уже соответствует полной понятности речи, хотя в общем случае она соответствует удовлетворительной понятности. Для передачи цифрами полная понятность достигается при 30% слоговой разборчивости. По результатам проведения артикуляционных испытаний разборчивости различают классы качества речевых трактов по процентам правильно принятых элементов речи: слабое, удовлетворительное, хорошее и отличное (табл. 14.2). Таблица 14.2
При оценке качества кодирования и сопоставлении различных кодеков оцениваются разборчивость речи и качество синтеза (качество звучания) речи. За рубежом для оценки разборчивости речи используется метод DRT (диагностический рифмованный тест). В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными в начале слова (типа "дот - тот", "кол - гол"), которые многократно произносятся рядом дикторов, и по результатам испытаний оценивается доля искажений. Метод позволяет получить как оценку разборчивости отдельных согласных, так и общую оценку разборчивости речи. Для оценки качества звучанияиспользуется критерий DAM (диагностическая мера приемлемости). Испытания заключаются в чтении несколькими дикторами, мужчинами и женщинами, ряда специально подобранных фраз (12 фонетически сбалансированных 6-слоговых предложений), которые прослушиваются на выходе тракта связи рядом экспертов-слушателей, выставляющих свои оценки по 5-балльной шкале MOS (средняя субъективная оценка или средняя оценка мнений) в соответствии с данными табл. 14.3. Затем результаты усредняются. Хотя этот метод является субъективным по своей сути (аналог ССИ), его результаты по сопоставлению различных типов кодеков при проведении испытаний одними и теми же группами дикторов и экспертов-слушателей являются достаточно объективными, и на них основываются практически все выводы и решения. Экспериментальные субъективно-статистические способы определения оценок качества чрезмерно громоздки и дают достоверные результаты лишь при большом объеме обработанного речевого материала. Поэтому весьма актуально создание объективного метода оценки качества с меньшими затратами труда и времени. Так, при исследовании речевых кодеков (а в последние годы эти исследования стали проводиться с помощью ЭВМ) желательно использовать объективные (формализованные) критерии качества, отличающиеся оперативностью и не требующие привлечения экспертов. Однако существующие объективные критерии качества слабо отражают свойства слухового восприятия. Поэтому критерий качества, используемый для оценивания кодеков одного типа, может оказаться некорректным для кодеков иного типа. Например, такой широко используемый критерий, как отношение сигнал-шум квантования (ОСШК), вполне удовлетворительно оценивающий качество неадаптивных, инвариантных к спектру передаваемого сигнала кодеков, становится некорректным при сравнении адаптивных дифференциальных речевых кодеков. Это связано с различием в характере искажений сигналов. Таблица 14.3.
|