Главная страница
Навигация по странице:

  • 7.3. Кодирование фонемной информации

  • 7.4. Кодирование слов и фраз

  • 7.5. Импульсно-кодовая модуляция

  • ИКМ. Законы μ и

  • 7.6. Дифференциальная импульсно-кодовая модуляция (ДИКМ) на основе линейного предсказания

  • Книга. Речевых сигналов


    Скачать 1.72 Mb.
    НазваниеРечевых сигналов
    Дата16.05.2023
    Размер1.72 Mb.
    Формат файлаpdf
    Имя файлаКнига.pdf
    ТипУчебное пособие
    #1134148
    страница9 из 13
    1   ...   5   6   7   8   9   10   11   12   13
    7.2. Параметрическое кодирование
    Низкоскоростное кодирование складывается из двух основных про- цессов [19]: параметрического представления речевого сигнала минималь- ным набором параметров, характеризующих источник возбуждения и аку- стический артикуляторный фильтр; дискретизации речевых параметров для их передачи по каналу связи при использовании его минимальной емкости.
    Для параметрического описания речи обычно применяют подход, основанный на вычислении параметров, описывающих передаточную функцию речевого тракта человека и функцию возбуждения. Такими па- раметрами, например, являются коэффициенты линейного предсказания, параметр, характеризующий изменение амплитуды либо мощности сигна- ла, период основного тона речи, а также признак типа тон, шум, пауза, ха- рактеризующий способ возбуждения речевого сигнала.
    В последнее время наибольшее распространение получил метод, по- зволяющий вычислять непосредственно полюса передаточной функции ре- чевого тракта в частотной области, упорядоченные по возрастанию частоты
    (LSF – linea spectral frequancy). Обычно для кодирования речи используют
    8 – 10 параметров, вычисляемых на интервалах порядка 5 – 40 мс.

    126
    В качестве функции возбуждения речевого сигнала используется дельта-функция.
    Полученный набор параметров, оптимизированный по критерию точности и минимальной разрядности представления, передается в цифро- вом виде по каналу связи в реальном времени, а на приемном конце осу- ществляется синтез речевого сигнала по перечисленным параметрам. Та- ким путем удается снизить информационную емкость речевого сигнала до уровня 16 000 – 1 200 бит/с с сохранением разборчивости и индивидуаль- ных особенностей речи говорящего.
    Применяют следующие способы дискретного описания речевых па- раметров:
    1)
    скалярное квантование (свыше 2,400 бит/с);
    2)
    векторное квантование (свыше 800 бит/с);
    3)
    векторное квантование с учетом динамики развития спектра во времени (около 400 бит/с);
    4)
    матричное квантование (до 300 бит/с).
    Далее кодирование речевого сигнала проводится с точностью до единиц, имеющихся в кодовой книге. При декодировании временная структура речевого сигнала восстанавливается путем «черепичного» нало- жения сегментов и усреднения параметра в местах наложения
    7.3. Кодирование фонемной информации
    Как известно, минимальная слогоразличительная (и словоразличи- тельная) единица речи – это фонема. Создание метода распознавания фо- нем позволит снизить скорость кодирования речевой информации до
    100 бит/с, что соответствует информационной скорости текста. Заметим, что на приемном конце речь будет восстановлена синтезатором речи по фонемному тексту. При этом информация об индивидуальности диктора будет утрачена [19].
    7.4. Кодирование слов и фраз
    На этом этапе компрессии речь идет о создании системы автомати- ческого распознавания слов и целых фраз. В этом случае по каналу связи может быть передан только код слова, а на приемном конце из некоторого ограниченного словаря с помощью синтезатора будет восстановлен рече- вой сигнал [19].
    7.5. Импульсно-кодовая модуляция
    Импульсно-кодовая модуляция (ИКМ, PCM – Pulse Code Modulation) позволяет представить непрерывный аналоговый сигнал в форме последо- вательности равноотстоящих друг от друга импульсов (дискретизация по

    127
    времени), амплитуда которых выражается двоичным кодом (квантование по уровню). Подобное преобразование позволяет существенно повысить надежность передачи и хранения сигнала [35].
    Кодеки, построенные на базе прямого аналогово-цифрового преобра- зования, работают на скоростях не ниже 32 кбит/с. При этом полоса вход- ного аналогового сигнала ограничена диапазоном 0,3 – 3,4 кГц. Для по- вышения качества преобразования полоса может быть расширена до 6 кГц, что соответствует скорости передачи 88 кбит/с при частоте дискретизации
    12 кГц. При дальнейшем расширении полосы качество представления речи не повышается [30].
    Импульсно-кодовая модуляция – это алгоритм оцифровки голоса, который был принят в 60-х гг. XX в. Этот алгоритм (международный стандарт G.711) используется при передаче голоса в коммерческих теле- фонных сетях. Оцифровка голосового сигнала включает измерение уровня аналогового сигнала через равные промежутки времени. В соответствии со стандартом G.711 принимается, что для узнавания голоса необходимо обеспечить передачу его частотных составляющих в диапазоне от 200 до
    3 400 Гц. Известно, что для правильной передачи всех частотных состав- ляющих необходимо измерять уровень сигнала с частотой 8 кГц. В стан- дарте G.711 также принимается, что оцифровка аналогового сигнала про- изводится с восьмиразрядным разрешением. При этом обычно используют один из двух способов установления соответствия между амплитудой зву- кового сигнала и цифровым значением: либо A-кодирование (оно принято в Европе и Азии), либо
    μ-кодирование (принято в США, Канаде и некото- рых других странах). И то и другое – это таблицы соответствия измеряемо- го значения напряжения и числа, при помощи которого оно кодируется.
    Для передачи одного голосового канала в цифровом виде требуется пропу- скная способность 64 кбит/с (8 кГц · 8 разрядов).
    ИКМ. Законы
    μ
    и
    A
    Законы
    μ и A – это алгоритмы, рекомендованные для преобразования
    14-разрядных отсчетов со знаком в байт, имеющие три поля: знак, порядок и мантисса (рис. 7.1) [35].
    Рис. 7.1. Структура байта отсчета для законов
    μ
    и A

    128
    Так как согласно стандартам IBM PC работает 16-битным способом дискретизации звука, а не 14-битным, то алгоритм закона
    μ изменится для выделения из 16-битного отсчета всех трех полей байта.
    Когда звуковая карта получает звуковые данные, она преобразует ка- ждое дискретное значение кода в соответствующее напряжение, которое за- тем усиливается и подается на динамик или наушники. При изменении зна- чения оцифрованного звука меняется напряжение, а динамик преобразовы- вает изменение напряжения в изменение звукового давления, которое в виде звуковой волны распространяется в воздухе и достигает уха человека.
    Оно воспринимает звук нелинейно: разница между малыми цифро- выми представлениями звукового сигнала может быть слишком велика для слабых звуков, в то время как разница между большими значениями будет слишком мала, чтобы ухо ее различило.
    Принимая во внимание указанную природу человеческого слуха, вводят логарифмическую шкалу. Соотношения
    μ- и A-законов соответст- вуют этой шкале [30].
    Первое применяется прежде всего в Северной Америке и Японии.
    Для преобразования значений линейной дискретизации m в значения y
    μ
    используется следующее уравнение:
    sign( m )
    m
    ln 1
    y
    ln( 1
    )
    m p
    μ
    μ
    μ




    =
    +


    +


    , (7.1) где
    mp
    – максимальное входное значение оцифрованного звука,
    μ
    – константа, обычно равная 100 или 255.
    A – закон используется в Европе. Его также применяют для преобра- зования значений линейной дискретизации в дискретные значения yA, где
    A – это константа, равная 87,6:
    1
    , при
    ;
    1 ln sign( )
    1 1 ln
    , при
    1.
    1 ln
    A
    A
    m
    m
    A
    A
    m
    m
    p
    p
    y
    m
    m
    m
    A
    A
    A
    m
    m
    p
    p









    +




    = ⎨





    +





    +




    (7.2)
    Соотношения
    μ
    - и
    A
    -законов позволяют с помощью восьмиразряд- ных измерений представлять значения того же диапазона, что и линейные
    12-разрядные. Таким образом можно получить более чем 30 % сжатия.

    129
    en
    xn
    x n
    xn
    1
    xn +
    7.6. Дифференциальная импульсно-кодовая модуляция (ДИКМ)
    на основе линейного предсказания
    В обычной импульсно-кодовой модуляции каждый отсчет кодируется независимо от других. Однако у многих источников сигнала при стробиро- вании с частотой Найквиста или быстрее проявляется значительная корре- ляция между последовательными отсчетами [42] (в частности, речевой сигнал является квазистационарным источником). Другими словами, из- менения амплитуды между последовательными отсчетами в среднем отно- сительно малы. Следовательно, схема кодирования, которая учитывает из- быточность отсчетов, будет требовать более низкой битовой скорости.
    Суть ДИКМ заключается в следующем: текущее значение может быть предсказано по предыдущим M отсчетам. Пусть xn означает текущий от- счет источника, а x n – предсказанное значение (оценку) для xn, опреде- ляемое как
    1
    M
    x
    a x
    n
    k n k
    k
    =


    =
    . (7.3)
    Таким образом,
    x n
    – взвешенная линейная комбинация M отсчетов, а
    }
    {
    ak
    – коэффициенты предсказания. Величины
    }
    {
    ak
    выбираются так, чтобы минимизировать некоторую функцию ошибки en между xn и x n .
    Проиллюстрируем вышесказанное на отрезке речевого сигнала, где
    x
    x
    e
    n
    n
    n

    =
    (рис. 7.2).
    Линейное» предска- зание означает, что x n
    линейная функция преды- дущих отсчетов. При не- линейном предсказании –
    нелинейная функция. Ха- рактеристики предсказа- ния (порядок) определя- ются количеством ис- пользуемых предыдущих отсчетов.
    Предсказание нулевого и первого порядка является линейным, второго и более высокого порядка – нелинейным. При линейном предсказании восстановить сигнал значительно проще, чем при нелинейном. Будем рассматривать только ли- нейное предсказание.
    Рис. 7.2. График ошибки
    en

    130
    Оно имеет следующие разновидности.
    1.
    Предсказание нулевого порядка (рис.7.3).
    Рис. 7.3. График предсказания нулевого порядка
    В этом случае для предсказания текущего отсчета используется только предыдущий отсчет речевого сигнала:
    1 1
    x
    x
    e
    x
    x
    x
    x
    n
    n
    n
    n
    n
    n
    n
    =

    =

    =



    2.
    Предсказание первого порядка (линейная экстраполяция). В этом случае для предсказания текущего отсчета используется не только преды- дущий отсчет, но и разница между предпоследним и последним отсчетами, которая прибавляется к общему результату:
    1 1
    1 2
    1 2
    (
    ) 2
    x
    x
    x x
    x
    x
    x
    x
    n
    n
    n
    n
    n
    n
    n
    =
    + Δ =
    +

    =






    − =>
    =>
    1 2
    2
    e
    x
    x
    x
    x
    x
    n
    n
    n
    n
    n
    n
    =

    =

    +

    − .
    Формирование сигнала ошибки при использовании линейного пред- сказания эквивалентно прохождению исходного сигнала через линейный цифровой фильтр, который называется фильтром сигнала ошибки (ФСО), или обратным фильтром.
    Обозначим передаточную функцию такого фильтра как
    ( )
    A z
    , следо- вательно
    ( )
    ( )
    ( )
    E z
    A z
    X z
    =
    , (7.4) где
    ( )
    E z
    и
    ( )
    X z
    – прямое
    Z
    -преобразование от сигнала ошибки и вход- ного сигнала соответственно.
    x n
    en
    xn
    2
    xn

    1
    xn

    xn

    131
    На приемной стороне при прохождении сигнала ошибки через форми- рующий фильтр (ФФ) мы должны получить исходный сигнал. Обозначим передаточную функцию формирующего фильтра как
    ( )
    K z
    . Передаточная функция
    ( )
    K z
    будет связана с
    ( )
    A z
    следующим соотношением:
    1
    ( )
    ( )
    ( )
    ( )
    X z
    K z
    A z
    E z
    =
    =
    . (7.5)
    Последовательность соединения ФСО и ФФ показана на рис. 7.4.
    При
    ( ) ( )
    1
    A z K z

    = будет обеспечено абсолютно точное восстановление сигнала, т.е.
    x
    x
    n
    n
    =
    . Но в действительности такого быть не может по причи- нам, о которых скажем ниже.
    Для примера найдем пере- даточные функции ФСО и ФФ для разных типов линейного предсказания.
    Предсказание нулевого порядка
    1 1
    ( )
    ( )
    ( )
    ( )
    1
    ( )
    ( )
    E z
    X z
    z X z
    A z
    z
    X z
    X z



    =
    =
    = −
    ;
    1 1
    1
    (
    0)
    ( )
    ( )
    (
    1)
    1
    z
    K z
    A z
    z
    z


    =
    =
    =


    Получили, что такой фильтр неустойчив, так как полюс находится на единичной окружности.
    Предсказание первого порядка
    1 2
    1 2
    ( )
    ( ) 2
    ( )
    ( )
    ( )
    1 2
    ( )
    ( )
    E z
    X z
    z X z
    z X z
    A z
    z
    z
    X z
    X z





    +
    =
    =
    = −
    +
    ;
    2 1
    2 2
    1
    (
    0)
    ( )
    1 2
    (
    1)
    z
    K z
    z
    z
    z



    =
    =

    +

    Получили, что и такой фильтр тоже неустойчив.
    Общая форма предсказания
    Было получено, что
    1
    M
    x
    a x
    n
    k n k
    k
    = ∑

    =
    =>
    1
    M
    e
    x
    x
    x
    a x
    n
    n
    n
    n
    k n k
    k
    =

    =
    − ∑

    =
    , следовательно,
    ( )
    ( )
    ( )
    1
    ( )
    1
    ( )
    ( )
    1
    M
    k
    X z
    a z
    X z
    k
    M
    E z
    k
    k
    A z
    a z
    k
    X z
    X z
    k

    − ∑

    =
    =
    =
    = − ∑
    =
    ;
    1 1
    ( )
    ( )
    1 1
    K z
    M
    A z
    k
    a z
    k
    k
    =
    =

    − ∑
    =
    { }
    xn
    { }
    en
    { }
    x n
    ( )
    A z
    ( )
    K z
    Рис. 7.4. Схема соединения фильтров

    132
    На основании рассмотренных примеров можно сделать следующие выводы. Фильтр сигнала ошибки – это всегда КИХ-фильтр, а формирую- щий фильтр – БИХ-фильтр. Коэффициенты передаточной функции ФФ, являющиеся коэффициентами линейного предсказания, должны быть та- кими, чтобы формирующий фильтр был устойчивым, а ошибка
    en
    мини- мальна.
    Для получения передаточной функции ФФ, наиболее точно воспроиз- водящего частотную характеристику голосового тракта для данного звука, следует определить коэффициенты передаточной функции
    }
    {
    ak исходя из условия наименьшей ошибки линейного предсказания речевого сигнала
    (по условию минимума среднего квадрата ошибки).
    Запишем выражение для оценки дисперсии сигнала ошибки, которую надо минимзировать:
    2 1
    2
    (
    )
    min
    1
    N
    x
    x
    e
    n
    n
    N n
    σ
    =


    =

    =
    ;
    2 2
    2
    (
    )
    (
    )
    min
    1 1
    1
    N
    N
    M
    s
    x
    x
    x
    a x
    n
    n
    n
    k n k
    n
    n
    k
    =

    =

    =




    =
    =
    =
    Получили, что
    2
    ( ,
    ,
    ,...,
    )
    1 2
    3
    s
    f a a
    a
    am
    =
    – функция нескольких пере- менных. Продифференцируем ее и приравняем частные производные нулю для нахождения экстремума:
    2 0,
    1,
    s
    m
    M
    am

    =
    =

    ;
    2 2
    2(
    )
    0 1
    1 1
    N
    M
    M
    a
    s
    k
    x
    a x
    x
    n
    k n k
    n k
    a
    a
    n
    k
    k
    m
    m




    =



    =











    =
    =
    =


    , где
    1,
    0,
    a
    k m
    k
    km
    k m
    am
    δ

    =

    =
    =




    – символ Кронекера.
    Следовательно,
    1
    M
    x
    x
    km n k
    n m
    k
    δ
    =



    =
    ;
    2 2(
    )(
    ) 0 1
    M
    s
    x
    a x
    x
    n
    k n k
    n m
    a
    n
    k
    m

    =


    =





    =
    ; =>

    133
    =>
    2
    (
    )(
    ) 0 1
    M
    s
    x
    a x
    x
    n
    k n k
    n m
    a
    n
    k
    m

    =

    =





    =
    ;
    (
    )(
    )
    1
    (
    )
    1
    M
    x
    a x
    x
    n
    k n k
    n m
    n
    k
    M
    x x
    a x
    x
    n n m
    k n k n m
    n
    k

    =




    =
    =

    =





    =
    =
    0.
    1
    M
    x x
    a x
    x
    n n m
    k n k n m
    n
    n k

    =

    ∑ ∑



    =
    Получены нормальные уравнения или уравнения Юла – Волкера.
    Введем обозначение
    ( , )
    k m
    x
    x
    n k n m
    n
    ϕ
    = ∑ −
    − , где ( , )
    k m
    ϕ
    – автокорреляционная функция (АКФ).
    (0, )
    ( , )
    1
    M
    m
    a
    k m
    k
    k
    ϕ
    ϕ
    =


    =
    . (7.6)
    Для вычисления функции ( ,
    )
    k m
    ϕ
    необходимо найти пределы сумми- рования по n:
    1
    M
    n N
    + ≤ ≤ , где N – количество отсчетов в сегменте речево- го сигнала, а M – количество отсчетов, необходимых для расчета коэффици- ентов предсказания (M + 1)-го отсчета. Значит, первое предсказанное значе- ние запишется так:
    (
    ,
    ,
    ,...,
    )
    1 2
    3
    x
    f x
    x
    x
    x
    n
    n
    n
    n
    n M
    =




    , где n = M + 1.
    Получим
    ( , )
    1
    N
    k m
    x
    x
    n k n m
    n M
    ϕ
    =



    =
    +
    Обозначим nk = j => n = k + j, nm = k + jm <=> nm = i + j, где
    i = km. Следовательно,
    ( , )
    1
    N k
    k m
    x x
    j j i
    j M
    k
    ϕ

    =

    +
    =
    + −
    . (7.7)
    Таким образом, получаем выражение, имеющее структуру кратковре- менной ненормированной АКФ, зависящей не только от относительного сдвига последовательности i, но и от положения этих последовательностей внутри сегмента речевого сигнала, которые определяются индексом k, вхо- дящим в пределы суммирования. Такой метод определения функции
    ( , )
    k m
    ϕ
    называется ковариационным [40, 42].

    134
    Выражение (7.6) представляет собой систему линейных алгебраиче- ских уравнений (СЛАУ) относительно
    }
    {
    ak , у которых все коэффициенты различны.
    При использовании ковариационного метода получаются несмещен- ные оценки коэффициентов линейного предсказания, т. е.
    { }
    ист
    E a
    a
    k
    k
    =
    , где ист
    ak
    – истинные значения коэффициентов линейного предсказания.
    Другой способ определения коэффициентов системы (7.6) состоит в том, что вместо функции ( , )
    k m
    ϕ
    используется некоторая другая функция
    ( , )
    k m
    ϕ

    , которая определяется как
    (
    )
    |
    |
    ( , )
    (|
    |),
    |
    |
    1 1
    N
    k m
    N
    k m
    k m
    x
    x
    x
    x
    B k m
    j
    j k m
    j
    j
    k m
    j
    j
    ϕ
    − −
    − −

    =

    =

    =



    + −
    + −
    =
    =
    ( )
    1
    N i
    B i
    x x
    j j i
    j

    = ∑
    +
    =
    – ненормированная кратковременная корреляционная функция (КФ).
    Поскольку определение функции ( , )
    k m
    ϕ

    сводится к расчету КФ, то такой метод называется автокорреляционным. При его использовании по- лучаются смещенные оценки коэффициентов линейного предсказания (од- нако при M << N смещение пренебрежимо мало).
    Перепишем СЛАУ (7.6) с учетом введенной функции
    ( , )
    k m
    ϕ

    :
    (0, )
    ( , ),
    1,
    ,
    1
    ( , )
    (|
    |),
    (0, )
    ( ).
    M
    m
    a
    k m
    m
    M
    k
    k
    k m
    B k m
    m
    B m
    ϕ
    ϕ
    ϕ
    ϕ


    =
    =

    =

    =


    =
    ( )
    (|
    |),
    1,
    1
    M
    B m
    a B k m
    m
    M
    k
    k
    =

    =

    =
    . (7.8)
    Для автокорреляционного метода характерно то, что вся информация о сигнале, необходимая для определения коэффициентов линейного пред- сказания, содержится в кратковременной ненормированной АКФ
    ( )
    B i .
    Распишем полученную СЛАУ в явном виде
    (0)
    (1)
    (2)
    (
    1)
    (1),
    1 2
    3
    (1)
    (0)
    (1)
    (
    2)
    (2),
    1 2
    3
    (2)
    (1)
    (0)
    (
    3)
    (3),
    1 2
    3
    (
    1)
    (
    2)
    (
    3)
    (0)
    ( ).
    1 2
    3
    B
    a
    B
    a
    B
    a
    B M
    a
    B
    m
    B
    a
    B
    a
    B
    a
    B M
    a
    B
    m
    B
    a
    B
    a
    B
    a
    B M
    a
    B
    m
    B M
    a
    B M
    a
    B M
    a
    B
    a
    B M
    m
    +
    +
    + +

    =


    +
    +
    + +

    =


    +
    +
    + +

    =





    +

    +

    + +
    =


    135
    Затем перепишем ее в матричной форме:
    (0)
    (1)
    (
    1)
    (1)
    1
    (1)
    (0)
    (
    2)
    (2)
    2
    (
    1)
    (
    2) ...
    (0)
    ( )
    a
    B
    B
    B M
    B
    a
    B
    B
    B M
    B
    B M
    B M
    B
    B M
    am





















    =






















    Свойства коэффициентов матрицы:
    1) симметричность;
    2) теплицева матрица (элементы диагонали равны).
    Для решения СЛАУ с такой матрицей используется алгоритм Левин- сона – Дарбина, который требует меньших вычислительных затрат, чем стандартные алгоритмы и выглядит следующим образом.
    Начальные значения:
    (1)
    (1)
    (0)
    ;
    ;
    (0);
    1 1
    1
    (0)
    2 2
    (0)
    (1)
    (1)
    (0)
    2
    (1
    )
    1
    (0)
    B
    k
    a
    k
    E
    B
    B
    B
    B
    E
    k
    E
    B
    =
    =
    =

    = −

    =
    1 (
    1)
    ( )
    (
    )
    1
    ,
    (
    1)
    ( )
    (
    1)
    (
    1)
    ( )
    2, .
    ;
    ,
    1,
    1,
    ( )
    (
    1)
    2
    (1
    )
    ,
    ( );
    1,
    m
    m
    B m
    a
    B m
    j
    j
    j
    km
    m
    E
    m
    m
    m
    m
    m
    M
    a
    k
    a
    a
    k a
    j
    m
    m
    m
    j
    j
    m m
    j
    m
    m
    E
    k
    E
    m
    M
    a
    a
    k
    M
    k
    k








    =
    =






    =

    =
    =

    =





    = −


    =
    =
    ⎪⎭
    1   ...   5   6   7   8   9   10   11   12   13


    написать администратору сайта