Главная страница
Навигация по странице:

  • Кодирование речи с полной скоростью.

  • Кодирование речи с половинной скоростью.

  • Таблица 14.1

  • Таблица 14.2

  • Таблица 14.3.

  • Рихтер лекции системы радиосвязи. рихтер лекции. Кафедра радиовещания и электроакустики


    Скачать 3.27 Mb.
    НазваниеКафедра радиовещания и электроакустики
    АнкорРихтер лекции системы радиосвязи
    Дата20.12.2019
    Размер3.27 Mb.
    Формат файлаdoc
    Имя файларихтер лекции.doc
    ТипКонспект
    #101315
    страница8 из 10
    1   2   3   4   5   6   7   8   9   10

    Рис. 11.2. Структурная схема липредора

    Решаемая задача третьей процедуры - при минимальном объеме информации о сигнале возбуждения обеспечить приемлемое качество восстановленного сигнала. Для достижения этого обработку второго остаточного сигнала производят отдельно для каждого подсегмента из 40 отсчетов. Суть аппроксимации состоит в том, что второй остаточный сигнал моделируют в виде определенного числа импульсов на интервале подсегмента.

    Переданные по каналу связи параметры аппроксимации второго остаточного сигнала, параметры основного тона G и a, коэффициенты формантного фильтра apiпоступают на соответствующие блоки декодера (рис. 11.2). В любом случае по каналу связи вместо самой речи передают так или иначе выделенные и квантованные параметры кратковременного и долговременного предсказания, интервал и усиление ОТ, параметры возбуждения. В декодере ЛП по принятым параметрам восстанавливают сигнал возбуждения, пропускают его через синтезирующий фильтр и восстанавливают речь.

    Синтез сигнала начинают с восстановления второго остаточного сигнала, выполняемого генератором возбуждения. Восстановленный сигнал r2вос(k) несколько отличается от второго остаточного сигнала в кодере из-за погрешности аппроксимации.

    Восстановленный второй остаточный сигнал пропускают через фильтр восстановления основного тона, передаточную характеристику которого H2(z) устанавливают обратной характеристике фильтра удаления основного тона кодера:

    .

    На выходе этого фильтра получают восстановленный первый остаточный сигнал r1вос(k), который включает основной тон. Наконец, фильтр восстановления формант с передаточной функцией H(z) восстанавливает формантные составляющие сигнала.

    Восстановленный сигнал Sвос(n) достаточно близок к исходному сигналу на входе кодера S(n). Выполнив цифро-аналоговое преобразование и пропустив сигнал через ФНЧ, получают восстановленный аналоговый сигнал.

    Все процедуры обработки сигнала в кодере и декодере выполняются цифровыми методами. Кодер и декодер реализуют на высокопроизводительном сигнальном процессоре. Показанные на рис. 11.2 модули липредора фактически являются блоками программного обеспечения.

    12. Кодирование речи в гибридных кодерах

    Гибридные кодеры речевой информации основаны на комбинации линейного предсказания с элементами кодирования формы сигнала, т.е. звуковой волны. Так, в алгоритме линейного предсказания с возбуждением от остатка предсказания (RELP) (см. табл. 6.1) наряду с передачей вокодерных па­раметров (коэффициентов линейного предсказания и усиления) осуще­ствляется передача сигнала остатка (ошибки) предсказания в полосе частот 0...800 Гц. Сигнал остатка предсказания приблизительно равен сигналу возбуждения голосового тракта модели речеобразования (см. рис. 10.1), поэтому в алгоритме RELP он используется в синтезаторе декодера для возбуждения синтезирующего фильтра. Формируемый в результате ре­чевой сигнал звучит более естественно.

    Большинство гибридных кодеров используют замкнутое кодирование на основе линейного предсказания, называемое также методом «анализ через синтез» (AbS). Этот метод характеризуется исчерпывающей самооптимизирующейся процедурой поис­ка. Ее выполняет аппаратура передачи, которая находит наилучшую аппроксимацию каждого речевого сегмента исходного речевого сигна­ла (РС). Как только такая аппроксимация определена, представляющий ее код передается на приемную сторону, где используется для синтеза РС.

    Одной из первых реализаций метода анализа через синтез (1982 г.) являет­ся алгоритм линейно­го предсказания с многоимпульсным возбуждением (MPE), используемый в систе­мах спутниковой связи. В многоимпульсном возбуждении сигнал остатка линейного предсказания представляется в виде последовательности импульсов с неравномерно распределенными интервалами и с разными амплитудами. Число импульсов в каждом кадре речевого сигнала зависит от требуемого качества речи, чем больше импульсов, тем выше качество речи. На каждом кадре в 10 мс речевого сигнала считается достаточным 6...8 импульсов (или 8 импульсов на период основного тона) для получения высокого качества синтезированной речи.

    Согласно этому алгоритму (рис. 12.1), амплитуды и положения импульсов сигнала многоимпульсного возбуждения определяются на покадровой основе (кадр за кадром): на передающей стороне генератор возбуждения создает неравномерно распределенную последовательность импульсов и(п), которая в качестве сигнала возбуждения поступает на вход синтезирующего фильтра, на выходе которого возникают выборки речи Ŝ(n). Эти выборки сравниваются с соответствующими выборками S(n) исходного РС и находится ошибка предсказания z(n).

    Рис. 12.1. Схема речевого кодера, использующего метод «анализ через синтез»

    Кодер, реализованный на основе метода «анализ через синтез», - это речевой синтезатор, который генерирует сигнал, подобный объекту кодирования - речевому сигналу. Синтезатор состо­ит из генератора возбуждения и фильтров долговременного (LTP)икратковременного (STP) предсказания. STP-фильтр моделирует краткосрочную корреля­цию РС (восстанавливает огибающую спектра), порядок адаптации при этом составляет 20…30 мс, а порядок предсказания P обычно выбирается равным 8-12. LTP-фильтр формирует долгосрочную корреляцию РС (точную структуру спектра); период его адаптации – каждые 5…10 мс. Из-за рекурсивной природы обоих фильтров они содержат память-буфер, содержимое которого переносится из предыдущего анализируемого кадра.

    В процессе кодирования каждого речевого сегмента (кадра) для него находятся такие “наилучшие” положения импульсов в последовательности и(п) и их амплитуды, которые обеспечивают минимальную ошибку. Алгоритм оптимизации, используя уравнение (10.2), минимизирует разность z(n) между исходным и синтезированным сигналами путем изменения возбуждающего сигнала и коэффициентов линейного предсказания api фильтров STP и LTP. Это достигается выполнением последовательных процедур – сначала определяются параметры нестационарного (т.е. синтезирующего) фильтра, затем по ним оптимизируется возбуждение.

    Метод “анализа через синтез” дает весьма высокое качество синтезированной кодеком речи, поскольку учитывает процессы квантования коэффициентов вокодера, возникающие ошибки квантования, их влияние на синтезированную речь. К тому же, при вычислении величины ошибки между синтезированной и исходной речью используют не среднеквадратический критерий, а критерий, учитывающий особенности субъективного восприятия слушателем (в частности, эффект маскировки сигнала малого уровня сигналом большого уровня). Для этого перед вынесением решения о величине средней ошибки на речевом сегменте сигнал ошибки пропускают через взвешивающий фильтр, т.е. в алгоритме оптимизации используется не сама погреш­ность, а ее взвешенное значение zw(n). Этот фильтр перестраивается одновременно с синтезирующим фильтром и перераспределяет энергию ошибки по частотному диапазону (где-то усиливает, а где-то ослабляет). В результате большая часть шума квантования попадает в места расположения формантных областей (максимумов спектра) РС, а меньшая — между областями. В этом случае в формантных областях происходит маскировка шума речевым сигналом, в результате чего общая заметность шума в синтезированной речи уменьшится.

    На сторону приема передаются параметры LTP- и STP-фильтров, а также параметры сигнала возбуждения. Представление сигнала возбуждения и(п) ввиде последовательности импульсов с неравномерно распре­деленными интервалами и различными амплитудами позволяет более точно учесть особенности возбуждения голосового тракта человека.

    Метод “анализа через синтез” применяется почти в каждом вокодере. Это обусловлено тем, что оптимальные значения для некоторых параметров, участвующих в синтезе речи, можно найти только методом перебора (внутри заданного заранее множества их значений).

    Установлено, что для вокализованного РС многоимпульсное возбуждение можно упростить, представив его в виде последовательности равномерно расположенных импульсов (обычно 10 импульсов на интервале 5 мс). В методе возбуждения регулярной импульсной последовательностью (RPE) взаимное положение импульсов предопределено заранее - используют решетку равноотстоящих импульсов, а оптимизируют расположение решетки и амплитуды импульсов. В этом методе число импульсов определяется интервалом между ними. Экспериментально установлено, что интервал, равный четырем отсчетам (4*0,125 = 0,5 мс) РС, является оптимальным. Интервал больше, чем 5 отсчетов ухудшает звучание, особенно женских голосов. Местоположение первого импульса должно определяться каждые 5 мс минимизацией сигнала остатка.

    Качество речи, синтезированной с использованием этого метода возбуждения, конечно, не имеет той полноты звучания, которое получается при многоимпульсном возбуждении. Однако алгоритм обработки при RPE значительно проще. Это и определяет широкое распространение данного метода аппроксимации второго остаточного сигнала.

    В 1984 году, как естественное развитие многоимпульсного метода возбуждения, было предложено так называемое векторное кодирование (VQ), когда кодируется одновременно группа параметров, характеризующих позиции импульсов и их амплитуды. В этом случае в качестве сигнала возбуждения используется последовательность отсчетов (т.е. “вектор”), взятая из заданного набора этих последовательностей (т.е. из “кодовой книги векторов”). Входной вектор, представляющий собой образец входного РС, сравнивается с векторами, находящимися в кодовой книге, и находится вектор, наиболее близкий к входному. Критерием выбора вектора часто становится минимизация среднеквадратичной ошибки между образцом входного сигнала и вектором. Каждому “вектору” из этой “книги” соответствует свой адрес - индекс (номер), который и передается по каналу связи на приемную сторону. На рис. 12.2 изображен процесс кодирования. На приемной стороне в декодере используется точно такая же кодовая книга, из которой по индексу извлекается требуемый вектор. Таким образом, снижение скорости в результате использования VQ достигается путем передачи на прием только номера (индекса) вектора с масштабным коэффициентом.




    Рис. 12.2. Принцип векторного кодирования

    Как правило, кодовая книга состоит из большого количества векторов, т.к. ее размер оказывает значительное влияние на качество речи. В виду очень больших вычислительных затрат прямой перебор векторов для отыскания среди них оптимального оказывается очень часто не возможен. Поэтому прибегают к различным ухищрениям в виде разбиения одной книги на несколько и последовательного поиска в каждой из них, а также структурирования содержания книги. Чтобы уменьшить время поиска подходящего вектора в кодовой книге, используют также так называемый древовидный поиск. В этом случае число вычислительных операций равно log2N, где N - число векторов. Однако при этом требуется большой объем памяти. Как правило, создаются две кодовые книги: одна для образцов сигнала возбуждения, другая - для образцов огибающей спектра.

    Наиболее подходящий вектор возбуждения выбирается из заранее составленных кодовых книг, содержащих обычно 27 -210 квазислучайных векторов заданной длины с элементами, нормированными по амплитуде. Амплитуда вектора возбуждения кодируется отдельно в соответствии с громкостью передаваемого сегмента речи. Векторное кодирование лежит в основе метода стохастического ко­дирования, или метода линейного предсказания с кодовым возбуждением (CELP). Частными случаями CELP являются методы VSELP и ACELP.

    Коде­р CELP реализует процедуру анализа через синтез (рис.12.3). Сигнал возбуждения u(h) формируется путем сложения масшта­бированного сигнала из адаптивной ко­довой книги (добавляются дол­говременные частотные составляющие речевого сигнала) и масштабирован­ного сигнала из большой фиксиро­ванной кодовой книги. По­лученный сигнал возбуждения упра­вляет синтезирующим фильтром, ко­торый моделирует эффекты голосово­го тракта. В декодере сигнал воз­буждения проходит через синтезирую­щий фильтр, формируя восстановлен­ный речевой сигнал Ŝ(n).

    Очевидно, что сначала определяются параметры фильтра, а затем уже находятся ин­дексы кодовых книг а и kи соот­ветствующие коэффициенты усиления G1и G2. Параметры кодовых книг выбираются так, чтобы минимизиро­вать взвешенную ошибку между ис­ходным речевым сигналом S(n) и восстано­вленным Ŝ(n), что достигается подачей со­держимого каждой «ячейки» кодовой книги на синтезирующий фильтр с це­лью выявления максимально похожего (по восприятию) образца.


    Рис. 12.3. Блок-схема кодера CELP

    В алгоритме VSELP используется не одна большая стохастическая кодовая книга, а две, меньшего размера (128 векторов в каждой). Для эффективности кодирования эти две книги также образуются с помощью нескольких базовых векторов (базиса книги). Базовые вектора взаимно ортогональны друг другу, что обеспечивает и ортогональность самих книг кодовых книг между собой. Структура кодовой книги алгоритма ACELP (с речевой скоростью 7,4 кбит/c) следующая: существует 4 базовых вектора. Различной линейной комбинацией этих векторов и образуются все вектора кодовой книги. Такая жесткая структуризация книги позволяет резко снизить требуемые вычислительные затраты на поиск в ней оптимального вектора.

    Кодовые книги бывают детерминированными и стохастическими. Детерминиро­ванные книги образуется посредством процесса “обучения”, т.е. заполнения книги векторами, полученными из реальных речевых сигналов. Обучение проводится на достаточно большой длительности (30..40 мин) для нескольких дикторов, на мужских и женских голосах. В отличие от детерминированных, стохастические книги не требуют обучения. Они заполняются случайными гауссовскими последовательностями (отрезками белого шума с нулевым средним и единичной дисперсией). Основанием для использования такой книги в качестве возбуждающей является то, что в системах с линейным предсказанием с двумя предсказателями (кратковременным и долговременным) в сигнале остатка на выходе этих предсказателей практически устранены все корреляционные связи, он имеет случайный характер.

    13. Речевые кодеки для абонентского терминала стандарта GSM

    Кодер речи является первым элементом собственно цифрового участка передающего тракта, следующим после АЦП (рис.2.1). Основная задача кодера - предельно возможное сжа­тие сигнала речи, представленного в цифровой форме, - при сохранении приемлемого качества передачи речи. Компромисс между степенью сжатия и сохранением качества отыскивается экспериментально, а проблема получения высокой степени сжатия без чрезмерного снижения качества составляет основную трудность при разработке кодера. В приемном тракте перед ЦАП размещен декодер речи, задача которого - восстановление обычного циф­рового сигнала речи, с присущей ему естественной избыточностью, по принятому кодированному сигналу.

    В предыдущих лекциях было показано, что кодирование речи на самом деле представля­ет собой процесс сжатия данных, при котором вместо преобразованных отсчетов входного сигнала для передачи подбираются кодированные параметры модели источника речи, позволяющие приемнику генерировать речевой сигнал (РС), чрезвычайно похожий на исходный. В системе GSM определены три стандарта кодирования речи:

    • кодирование речи с полной скоростью(GSM FR);

    • кодирование речи с половинной скоростью(GSM HR);

    • улучшенноекодирование речи с полной скоростью(GSMEFR).

    Современные мобильные телефоны имеют речевые кодеры и декодеры, позволяющие применять любой из перечисленных стандартов.

    Кодирование речи с полной скоростью. Этот тип кодирования речи использует модифицированный метод RPE-LTP- линейное предсказа­ние с возбуждением регулярной последовательностью импульсов и долгов­ременным предсказателем (см. раздел 12). Упрощенная блок-схема кодера представлена на рис.13.1.


    Рис. 13.1. Блок-схема полноскоростного кодера речи в системе GSM(FR)

    Основные требования к кодеру состоят в сокращении избыточности речевого сигнала и обеспечении в перерывах во время пауз передачи речи. Поэтому при передаче речи в системе GSM используется техника прерывистой передачи DTX, означающая, что каждый речевой канал активен не непрерывно.

    Блок предварительной обработки кодера осуществляет предыскажение входного сигнала при помощи цифрового фильтра воспри­ятия, подчеркивающего верхние частоты, нарезание сигнала на сегменты по 160 выборок (20 миллисекунд) и взвешивание каждого из сегментов окном Хэмминга. Сигнал с выхода фильтра предыскажений подвергается анализу в соответствии с методом линейного предсказания, в результате чего определяются ко­эффициенты кратковременного линейного предсказания(STP). Полученные параметры, представляющие собой восемь коэф­фициентов отражения STP-фильтра, преобразуются в логарифмические отношения площадей (LAR), которые могут быть представлены более компактно, нежели сами коэффициенты отражения. Значения LAR в цифровой форме представляются 36 битами.

    Затем найденные ко­эффициенты кратковременного линейного предсказания используются в фильтре-анализаторе STP для обработки того же самого сегмента входных отсчетов. В результате получаются 160 отсчетов остатка кратковременного предсказания сигнала.

    Для дальнейшей обработки 20-мс сегмент остатка кратковременного предсказания z(n) делится на четыре подсегмента длительностью 5 мс, по 40 выборок в каждом. Каждый подсегмент последовательно обрабатывается в блоках кодера по отдельности.

    Перед обработкой каждого подсегмента речевой кодер опре­деляет параметры фильтра долгосрочного предсказания(LTP) – (весовой) коэффициент предсказания g и задержку d. Операция выполняется на основе текущего подсегмента остатка STP-предсказания (см. сигнал 1 на рис.13.1) и сохраненной последовательности из трех восстановленных предше­ствующих подсегментов остатка кратковременного предсказания (см. сигнал 4 на рис.13.1). Подсегмент остатка сигнала (2), прошедшего LTP-фильтр, представляет собой разность между подсегментом приближенных значений прошедшего STP-фильтр остатка сигнала (3) и подсегментом точных STP-фильтрованных значений остатка этого сигнала (1). В результате получается субсегмент остатка долговременного предсказания. После отбрасывания по­следнего отсчета этот подсегмент направляется в блок-анализатор с возбуждени­ем последовательностью регулярных импульсов(RPE).RPE-анализатор разделяет обрабатываемый подсегмент на три последова­тельности возбуждения, каждая из которых состоит из 13 импульсов. Для этого производится децимация отсчетов и выбор сигнальной сетки (интервал следования импульсов возбуждения обычно втрое превышает период дискретизации исходного сигнала). Затем вычисля­ется энергия трех прореженных последовательностей. Последовательность с са­мой большой энергией выбирается как представля­ющая весь блок прошедших LTP-фильтр остатков. Выбранные импульсы воз­буждения нормируются по отношению к наибольшей амплитуде и кодируется. Сдвиг сетки также кодируется и вместе со значениями импуль­сов возбуждения передается на приемник. В результате представление каждого 5-мс подсегмента производится 47-би­товым блоком.

    Эти же RPE параметры подаются на блок декодирования и восстановления сетки RPE, который выдает подсегмент LTP-остатка (5). После прибавления отсчетов этого сегмента к приближенным значениям STP-остатка получают­ся реконструированные отсчеты STP-остатка, которые и направляются на вход фильтра долговременного анализа. В результате фильтрации получается новый подсегмент приближенных значений отсчетов остатка кратковременного пред­сказания, которые используются при обработке следующего подсегмента. В результате применения алгоритма кодирования 20-мс сегмент речи передается 260 битами информации, т.е. кодер речи осуществляет сжа­тие информации почти в 5 раз (1280 : 260 = 4,92), что обеспечивает цифровую скорость передачи Rц = 64/5  13 кбит/с. На рис.13.2 изображена упрощенная схема RPE-LTP-декодера. Он содержит такой же контур обратной связи, как и кодер.

    Рис. 13.2. Блок-схема RPE-LTP-декодера речи

    В случае отсутствия ошибок пере­дачи, выходной сигнал этой части декодера восстанавливает последователь­ность отсчетов остатка кратковременного предсказания. Затем эти отсчеты направляются на вход STP фильтра-синтезатора, после чего обрабатываются бло­ком постфильтрации для компенсации предыскажений, внесенных фильтром на входе кодера. Сигнал на выходе блока постфильтрации представляет собой вос­становленные фрагменты речевого сигнала.

    Кодирование речи с половинной скоростью. В GSM-кодере речи с половинной скоростью используется подход «анализ через синтез», рассмотренный в разделе 12, в версии VSELP. На рис. 13.3 изображена упрощен­ная блок-схема кодера с половинной скоростью.

    Процедура «анализ через синтез» используется для поиска наилучшего кодового слова (вектора), характеризующего сигнал возбуждения для каждого 20-мс сегмента. Такое кодовое слово находится путем применения каждого кодового слова из словаря для возбуждения CELP-синтезатора. Затем синтезированный РС сравнивается с входным сигналом и вычисляется их разность. Разностный сигнал взвешивается спектральным взвешивающим фильтром с характеристикой W(z) и вторичным взвешиваю­щим фильтром C(z). В результате получается сигнал ошибки е(п). Кодовое сло­во, обеспечивающее наименьшую среднюю мощность сигнала ошибки е(п), выбирается как наиболее точно соответствующее данному сегменту. Характе­ристики взвешивающего фильтра выбираются таким образом, чтобы обеспе­чить наилучшее субъективное восприятие синтезируемого РС человеческим ухом. Второй взвешивающий фильтр C(z) контролирует количе­ство ошибок в гармониках речевого сигнала.




    Рис. 13.3. Упрощенная блок-схема GSM-кодера речи с половинной скоростью

    A(z) - кратковременный спектральный фильтр; B(z) - долговременный фильтр

    с за­держкой L

    В процессе «анализа через синтез» кодер вычисляет 18 параметров, которые характеризуют каждый 20-мс сегмент. Параметры единичного сегмента представляются 112 битами, что эквивалентно скорости передачи данных 5,6 кбит/с на выходе полускорост­ного кодера.

    Декодер с половинной скоростью представляет собой усечённый вариант кодера. На основе принятых параметров речь генерируется тем же синтезатором, что и в кодере.

    При кодировании речи с половинной скоростью количество битов, представляющих 20-мс сегмент, значительно меньше, чем при кодировании с полной скоростью; следовательно, необходим более высокий уровень их защиты в канале передачи. Применение более эффективного канального кодирования приводит к увеличению числа битов в 20-мс сегменте до 228. Это равнозначно скорости потока данных 11,4 кбит/с на выходе канального кодера, что составляет ровно половину скорости на выходе канального кодера, работающего совместно с полноскоростным кодером речи.

    Основное преимущество кодера речи с половинной скоростью заключается в удвоении емкости физического канала. Один и тот же временной слот может использоваться чередующимися полускоростными каналами трафика. Внедре­ние кодирования речи с половинной скоростью связано с попытками обойти проблемы с емкостью системы в густонаселенных районах. Это привело к необ­ходимости внедрить в мобильные телефоны кодеры, которые могут работать с обоими стандартами. Основной недостаток кодирования речи с половинной ско­ростью - ухудшение качества передачи речи.

    Улучшенноекодирование речи с полной скоростью. В основе такого кодера лежит модель линейного предска­зания с кодовым возбуждением(CELP).В этой модели рече­вой сигнал синтезируется в линейном фильтре синтеза с кратковременным пред­сказанием (STP) 1/A(z)10-го порядка (рис.13.4). Сигнал u(n) для его возбуждения формируется путем сложения двух векторов возбуждения из адаптивной и фиксированной кодовых книг. LTP-фильтр синтеза реализован с использованием адаптивной кодовой книги. Оптимальный вектор возбуждения ищется в кодовой книге с помощью процедуры «анализ через синтез» - анало­гичной той, которая используется в кодировании речи с половинной скоростью.


    Рис. 13.4. Упрощенная блок-схема

    GSM-EFR - кодера
    Для каждого сегмента (20 мс, 160 отсчетов) определяются такие параметры модели CELP, как коэффициенты фильтра линейного предсказания, адреса в адаптивной и фиксированной кодо­вой книгах, а также весовые коэффициенты. Затем они кодируются и пересылаются на приемник. Декодер использует принятые параметры для восстановле­ния речевого сигнала в CELP-синтезаторе, идентичном применяемому в пере­датчике при анализе речи.

    EFR-кодер генерирует поток данных со скоростью 13 кбит/с. Тесты показали, что EFR-кодирование по­зволяет получить намного лучшее качество передачи речи, чем RPE-LTP-коди-рование. Такой тип кодеров в основном используется во вновь разворачиваемых сетях, в частности, в сетях PCS-1900 в Северной Америке.

    14. Оценка качества передачи речи

    Поскольку человек как получатель информации является ключевым элементом любой телекоммуникационной системы, качество сигнала оценивается по его субъективному восприятию речи. К основным показателям качества принимаемой речи относят: раз­борчивость (понятность), громкость и натуральность.

    Понятность речи - определяющая характеристика тракта передачи речи, так как если тракт не обеспечивает полной понятности речи, то ни­какие другие его преимущества не имеют значения - он не пригоден к эксплуатации. Для непосредственного определения этой качественной ха­рактеристики есть только один метод – субъективно-статистические испытания (ССИ), требующий большого коли­чества речевого материала, обработанного кодеками и трактом передачи, и привлечения группы экспертов (тренированных слушателей и дикторов). Разработан косвенный, объективный количественный метод определения понятности речи через ее разборчивость (см. также раздел 4).

    Громкость речиопределяет желательный уровень принимаемых сигна­лов, при котором разборчивость (понятность) речи достигается без нап­ряжения слухового аппарата со стороны принимающего. Натуральность речиоценивает способность системы воспроизводить не только смысл передаваемой речи, но и ее тембр и индивидуальные осо­бенности голосов говорящих, т.е. способность обеспечить узнаваемость говорящего по голосу.

    Наиболее распространенным объективным методом оценки качества передачи речи является метод артикуляции. Он основан на оценке степени выполнения главного требования, предъявляемого к разговорным трактам, - обеспечения разборчивой передачи речи. Мерой разборчивости является здесь разборчивость элементов речи. Процесс произнесения ре­чевых элементов называется артикуляцией - отсюда и название метода.

    Для измерений разборчивости разработаны специальные (артикуляци­онные) таблицы слогов, звукосочетаний и слов с учетом их встречаемости в русской речи (аналогичные таблицы есть и для других языков). Звуко­вых таблиц нет, так как звуки, кроме гласных, отдельно не произносят­ся, а для измерений звуковой разборчивости пользуются слоговыми табли­цами или таблицами звукосочетаний. Пусть, например, в процессе измере­ния было передано 1200 слогов, из них правильно принято 840 и искажено 360. Тогда слоговая разборчивость составит S = 840100/1200 = 70%. Из всех типов артикуляционных таблиц (слоговых, словесных, фра­зовых) практическое применение находят первые две. При этом слого­вые артикуляционные таблицы считаются основными, так как на прак­тике в большинстве случаев рассматривается именно слоговая раз­борчивость.

    Измеряют разборчивость экспериментально (в соответствии с ГОСТ 16600-73) с помощью артикуляционной бригады - группы тренированных слушателей и дикторов - молодых людей без нарушений слуха и речи. Ограничение влияния субъективных факторов достигается путем строгой регламентации артикуляционных измерений. Регламентация касается вопросов комплектования и тренировки артикуляционных бригад, порядка проведения передачи, записи и проверки артикуляционных та­блиц, обработки результатов измерения разборчивости.

    В табл. 14.1 приведены градации понятности речи и соответствующие им величины разборчивости. Словесная разборчивость ниже 75% оценивается как "срыв связи".

    Таблица 14.1

    Понятность

    Разборчивость, %

    слоговая

    словесная

    Предельно допустимая

    25…40

    75…87

    Удовлетворительная

    40…50

    87…93

    Хорошая

    50…80

    93…98

    Отличная

    80 и выше

    98 и выше

    Эти данные были получены для широкого словаря, т.е. при передаче самой разнообразной информации. В тех же случаях, когда идет обмен ин­формацией с гораздо меньшим объемом (т.е. при ограниченном словаре), понятность речи будет лучше, чем в общем случае при той же разборчи­вости речи. Так, для диспетчерской связи 40%-ная слоговая разборчи­вость уже соответствует полной понятности речи, хотя в общем случае она соответствует удовлетворительной понятности. Для передачи цифрами полная понятность достигается при 30% слоговой разборчивости.

    По результатам проведения артикуляционных испытаний разборчи­вости различают классы качества речевых трактов по процентам пра­вильно принятых элементов речи: слабое, удовлетворительное, хоро­шее и отличное (табл. 14.2).

    Таблица 14.2

    Вид разборчи- вости

    Качество речевых трактов, %

    Слабое

    Удовлетворительное

    Хорошее

    Отличное

    Звуковая

    25. ..40

    40.. .55

    55. ..80

    >80

    Слоговая

    64.. .75

    75. ..82

    82. ..90

    >90

    Словесная

    75. ..87

    87.. .93

    93. ..98

    >98

    Фразовая

    90. ..95

    87.. .93

    97.. .99

    >99


    При оценке качества кодирования и сопоставлении различных коде­ков оцениваются разборчивость речи и качество синтеза (качество звуча­ния) речи. За рубежом для оценки разборчивости речи используется метод DRT (диагностический рифмованный тест). В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными в начале слова (типа "дот - тот", "кол - гол"), которые многократно произносятся рядом дикторов, и по результатам испытаний оценивается доля искажений. Метод позволяет получить как оценку разборчивости отдельных согласных, так и общую оценку разборчивости речи.

    Для оценки качества звучанияиспользуется критерий DAM (диагнос­тическая мера приемлемости). Испытания заключаются в чтении нескольки­ми дикторами, мужчинами и женщинами, ряда специально подобранных фраз (12 фонетически сбалансированных 6-слоговых предложений), которые прослушиваются на выходе тракта связи рядом экспертов-слушателей, выс­тавляющих свои оценки по 5-балльной шкале MOS (средняя субъективная оценка или средняя оценка мнений) в соответствии с данными табл. 14.3. Затем результаты усредняются. Хотя этот метод является субъективным по своей сути (ана­лог ССИ), его результаты по сопоставлению различных ти­пов кодеков при проведении испытаний одними и теми же группами дикто­ров и экспертов-слушателей являются достаточно объектив­ными, и на них основываются практически все выводы и решения.

    Экспериментальные субъективно-статистические способы определения оценок качества чрезмерно громоздки и дают достоверные результаты лишь при большом объеме обработанного речевого материала. Поэтому весьма актуально создание объективного метода оценки качества с меньшими затратами труда и времени. Так, при исследовании речевых кодеков (а в последние годы эти исследования ста­ли проводиться с помощью ЭВМ) желательно использовать объективные (формализованные) критерии качества, отличающиеся оперативностью и не требующие привлечения экспертов. Однако существующие объективные кри­терии качества слабо отражают свойства слухового восприятия. Поэтому критерий качества, используемый для оценивания кодеков одного типа, может оказаться некорректным для кодеков иного типа. Например, такой широко используемый критерий, как отношение сиг­нал-шум квантования (ОСШК), вполне удовлетвори­тельно оценивающий качество неадаптивных, инвариантных к спектру пере­даваемого сигнала кодеков, становится некорректным при сравнении адап­тивных дифференциальных речевых кодеков. Это связано с различием в ха­рактере искажений сигналов.

    Таблица 14.3.

    Субъективная оценка качества звучания речи

    Уровень восприятия речевой информации

    Оценка по шкале MOS

    Очень плохо

    Речь не воспринимается полностью или частично

    1

    Плохо (слабо)

    Речь воспринимается затрудненно,

    с напряженным вниманием

    2

    Удовлетворительно

    (Разборчиво)

    Речь воспринимается свободно, но наличие дефектов неоспоримо

    3

    Хорошо

    Речь воспринимается свободно,

    определение дефектов затруднительно

    4

    Отлично

    Речь воспринимается полностью

    и без искажений

    5
    1   2   3   4   5   6   7   8   9   10


    написать администратору сайта