Главная страница
Навигация по странице:

  • 5.2. Кратковременный анализ Фурье 5.2.1. Кратковременное преобразование Фурье

  • 5.2.2. Практическое применение кратковременного преобразования Фурье

  • 5.3. Кепстральный анализ

  • 5.5. Анализ с использованием линейного предсказания

  • Автокорреляционный метод.

  • Спектр линейного предсказания.

  • Мера расстояния Itakura.

  • Кепстр линейного предсказания.

  • Корни многочленного предсказателя.

  • 5.6. Применение формантного анализа

  • Книга. Речевых сигналов


    Скачать 1.72 Mb.
    НазваниеРечевых сигналов
    Дата16.05.2023
    Размер1.72 Mb.
    Формат файлаpdf
    Имя файлаКнига.pdf
    ТипУчебное пособие
    #1134148
    страница7 из 13
    1   2   3   4   5   6   7   8   9   10   ...   13
    Глава 5. АНАЛИЗ РЕЧИ
    Речь представляется файлом отсчетов, полученных в результате ее оцифровки. Анализ позволяет извлечь из него полезную информацию, ко- торая может относиться к разному уровню обработки данных: звуков, слов, фраз и т. д., вплоть до понимания смысла. В настоящей главе рас- сматриваются задачи нижнего уровня. Речь сегментируется по времени на отрезки приблизительно по 20 мс, в пределах которых сигнал считается стационарным. Анализ опирается на спектральные методы.
    5.1. Управление окнами
    Для ограничения частотного спектра или временной области задания сигналов применяются частотные или временные окна. Окна могут быть различного типа. Они характеризуются графическими зависимостями сво- их коэффициентов и различными специфическими параметрами. Наиболее широко используются гауссовы окна, дающие малые искажения спектра в процессе его ограничения в окнах. Окна представляют собой зависимость коэффициента передачи
    ( )
    W k от номера отсчета k [39, 40, 43].
    Использование окон лежит в основе кратковременного, или оконного преобразования Фурье. Это преобразование реализуется, в частности, при по- строении спектрограмм в плоскости частота – время. В таких спектрограммах амплитуды составляющих спектра задаются функциональной окраской. Спек- трограммы более информативны, чем обычные спектры сигналов.
    MATLAB содержит целый ряд стандартных весовых функций [23,
    47]. Они возвращают векторы отсчетов, которые могут использоваться в качестве одного из параметров разнообразных функций непараметриче- ского спектрального анализа.
    В рассмотренных ниже функциях в качестве параметра принимают требуемую длину вектора ( )
    n , которая должна быть целым положитель- ным числом, и возвращают вектор-столбец W . При
    1
    n
    = все функции воз- вращают значение «1».
    Амплитудный спектр весовой функции соответствует частотной ха- рактеристике нулевого канала ДПФ при использовании данной весовой функции. При рассмотрении конкретных функций графики их амплитуд- ных спектров строятся в логарифмическом масштабе. Чтобы обеспечить на нулевой частоте значение спектральной функции, равное единице (0 дБ), перед вычислением спектра весовые функции нормируются: делятся на сумму своих отсчетов.

    96
    Графики спектров строятся функцией freqz. Поскольку фазовый спектр для всех весовых функций линейно зависит от частоты, его графики не пред- ставляют интереса и потому не приводятся. Для повышения наглядности час- тотная ось градуируется в номерах каналов ДПФ, для этого при вызове функции freqz указана частота дискретизации, равная длине окна.
    Существует множество применяемых в ЦОС окон: окно Бартлетта; окно Блэкмана; окно Чебышева;
    окно Хэннинга
    ;
    окно Кайзера; треуголь- ное окно; прямоугольное окно и окно Хэмминга [23, 43]
    .
    Рассмотрим реализацию основных окон, широко применяемых в об- работке речи.
    Окно Чебышева.
    Отсчеты окна рассчитываются путем вычисления обратного преобразования Фурье от его частотной характеристики: cos ( -1)arccos
    ( )
    ch((
    1)arch( ))
    n
    d
    S
    n
    ω
    π
    ω
    ω
    α














    =

    , (5.1) где
    20
    arch(
    )
    10
    ch
    1
    /
    .
    n
    β
    α


    = ⎜






    Здесь
    β – сте- пень подавления бо- ковых лепестков, дБ;
    n – требуемое коли- чество отсчетов окна.
    Для окна Чебышева все боковые лепестки имеют одинаковый заданный уровень.
    В MATLAB ок- но Чебышева w =
    =chebwin(n,beta) зада- ет n-точечный вектор коэффициентов с пульсациями на уров- не beta (
    β ) (по умол- чанию 100 дБ) в поло- се задержания отно- сительно амплитуды в полосе пропускания.
    Рис. 5.1. Окно Чебышева
    Рис. 5.2. Амплитудный спектр окна Чебышева

    97
    На рис. 5.1, 5.2 приведены графики окна Чебышева и его амплитуд- ного спектра при n = 16 для уровня боковых лепестков, равного 40 дБ. w = chebwin(16, 40); w = w/sum(w); plot (w); figure;
    [h, f] = freqz (w, 1, [], 16); plot (f, 20*log10(abs(h))); ylim ([-60 0]); grid on
    Как видно, с уменьшением уровня боковых лепестков главный лепе- сток расширяется.
    Окно Кайзера.
    Отсчеты окна Кайзера рассчитываются по формуле
    2 2
    1 1
    0 1
    ( )
    ( )
    0
    k n
    I
    n
    w k
    I
    β
    β


    − −




    − ⎜








    =
    , k= 1, 2, …, n. (5.2)
    Здесь
    0
    I
    – модифицированная функция Бесселя первого рода нуле- вого порядка.
    Чем больше
    β , тем больше доля энергии, сосредоточенной в глав- ном лепестке спектра (и тем шире этот лепесток), и тем меньше уровень боковых лепестков. На практике уровень значения
    β находится в преде- лах от 4 до 9.
    Параметр
    β характеризует затухание боковых лепестков окна. Для получения из окна Кайзера фильтра типа КИХ параметр
    β выбирается из формулы
    0 1102 8 7 50 0 4 0 5842 0 07886 21 50 21 21 0 0 21
    ,
    (
    , ),
    ,
    ,
    ,
    (
    ),
    (
    )
    ,
    .
    α
    α
    β
    α
    α
    α
    α

    >

    ⎪⎪
    =
    +

    ≥ ≥



    < <
    ⎪⎩
    В MATLAB окно Кайзера задается функцией w = kaiser (n, beta).
    На рис. 5.3, 5.4. приведены графики окна Кайзера и его амплитудно- го спектра при n = 16 для двух указанных выше значений
    β
    w1 = kaiser (16, 4); w2 = kaiser (16, 9); w1 = w1/sum(w1); w2 = w2/sum(w2); plot(w1); hold on; plot(w2, '--'); hold off; figure;
    [h1, f]= freqz(w1, 1, [], 16); h2 = freqz(w2, 1, [], 16); plot (f, 20*log10(abs(h1))); hold on; plot (f, 20*log10(abs(h2)), '--'); hold off; ylim([-100 0]); grid on

    98
    Из графиков видно, что при
    β
    = 4 главный лепесток имеет ширину
    1,75 (за единицу принято расстояние между соседними каналами частотно- го анализа), а уровень боковых лепестков составляет –32,5 дБ. При
    β
    = 9 главный лепесток расширяется примерно до 3,2, а уровень боковых лепе- стков падает до –66 дБ.
    Прямоугольное окно.
    Отсчеты прямоугольного окна определяются следующим образом:
    1, при 0
    ;
    ( )
    0, другое.
    k n
    w k
    ≤ <

    = ⎨

    . (5.3)
    В MATLAB прямоугольное окно реализуется функцией
    w = boxcar(n).
    На рис. 5.5, 5.6 приведены графики прямоугольного окна и его ам- плитудного спектра при n = 8.
    Рис. 5.3. Окно Кайзера:
    ––––– –
    β
    =4, - - - - - –
    β
    =9
    Рис. 5.4. Амплитудный спектр окна Кайзера
    Рис. 5.5. Прямоугольное окно
    Рис. 5.6. Амплитудный спектр прямоугольного окна

    99
    w = boxcar(8); w = w/sum(w); plot(w); figure;
    [h, f]= freqz(w, 1, [], 16); plot (f, 20*log10(abs(h))); ylim([-50 0]); grid on
    Уровень первого бокового лепестка составляет 13,0 дБ.
    Окно Хэмминга.
    Коэффициенты n-точечного окна Хэмминга вы- числяются по формуле
    (
    1) 0 55 0 46cos 2 1
    k
    w k
    ,
    ,
    n
    π


    + =






    , k = 0, 1, …, n–1. (5.4)
    В MATLAB окно Хэмминга задается функцией
    w = hamming (n, ['sflag']).
    Параметр sflag может иметь следующие значения:
    symmetric – задает симметричное окно (используется по умолчанию), для которого w(k) = w(n+1–k) ;
    periodic – создается слегка несимметричное окно, синусоидальные компоненты которого будут аккуратно стыковаться при соединении не- скольких экземпляров окна.
    При задании периодического варианта n–1 в знаменателе формулы
    (5.4) заменяется на n. Возможна иная трактовка: выполняется расчет по приведенной формуле для окна длиной n+1, затем последний элемент от- брасывается.
    На рис. 5.7, 5.8 приведены графики окна Хэмминга и его амплитуд- ного спектра при n = 16. w = hamming(16); w = w/sum(w); plot (w); figure;
    [h, f] = freqz (w, 1, [], 16); plot (f, 20*log10(abs(h))); ylim ([-80 0]); grid on

    100
    Как видно, уровень первого бокового лепестка составляет –40 дБ.
    5.2. Кратковременный анализ Фурье
    5.2.1. Кратковременное преобразование Фурье
    При обработке речи записывают N отсчетов сигнала, начинающихся с 0
    N , применяют оконную функцию [11, 38]:
    0 0
    0 для других
    n N
    n
    w x
    ,...
    n N ,
    xn
    ,
    n,
    +
    ≤ <
    ⎧⎪
    ′ = ⎨
    ⎪⎩
    . (5.5) затем выполняют ДПФ (2.9).
    Результат определяется уравнениями:
    ( )
    2 1
    ( )
    ( )
    0
    i
    kn
    N
    i
    N
    X k
    X e
    x n e
    n
    π
    ω


    =
    = ∑
    =
    ,
    2
    , 0
    k
    k N
    N
    π
    ω
    =
    ≤ ≤ , (5.6) где ( )
    X k – массив из N комплексных чисел, эквивалентный массивам из
    N реальных и N мнимых чисел.
    Обратное кратковременное дискретное преобразование Фурье
    (ОДПФ) может быть также определено по формуле
    1 2
    1 0
    N
    nk
    i
    x
    X e
    n
    k
    N
    N n
    π

    =

    =
    , 0 k N
    ≤ ≤ . (5.7)
    Рис. 5.7. Окно Хэмминга
    Рис. 5.8. Амплитудный спектр окна Хэмминга

    101
    5.2.2. Практическое применение кратковременного
    преобразования Фурье
    Возьмем 512 отсчетов речевого сигнала, например слово «sig», гра- фик которого приведен на рис. 5.9.
    Рис. 5.9. Фрагмент гласного звука в прямоугольном окне
    В среде MATLAB выполним FFT и выведем график модуля спектра
    (рис. 5.10).
    >> abs(fft(sig))
    Рис. 5.10. Амплитудный спектр
    На рис. 5.9 видна резкая неоднородность (разрыв) на границах. При- менение окна Хэмминга сокращает ее (рис. 5.11) [11].

    102
    >> hamming(512) .* sig
    Рис. 5.11. Фрагмент гласного звука в окне Хэмминга
    В результате гармоническая структура сигнала становится более за- метной (рис. 5.12).
    >> abs(fft(hamming(512) .* sig))
    Рис. 5.12. Амплитудный спектр в окне Хэмминга
    Тот же спектр в логарифмическом масштабе представлен на рис. 5.13.
    >> log10(abs(fft(hamming(512) .* sig)));

    103
    Рис. 5.13. Амплитудный спектр в логарифмическом масштабе
    Чтобы продемонстрировать эффект размера окна, вышеупомянутый анализ повторяется для окна Хэмминга длиной 64 (рис. 5.14 и 5.15).
    Рис. 5.14. Фрагмент гласного звука в окне Хэмминга длиной 64

    104
    Рис. 5.15. Амплитудный спектр в окне Хэмминга длиной 64
    5.3. Кепстральный анализ
    Схема кепстрального анализа показана на рис. 5.16. Сегмент речево- го сигнала после обработки оконной функцией подвергается преобразова- нию Фурье.
    Рис. 5.16. Схема кепстрального анализа
    Для большинства приложений обработки речи необходим только спектр амплитуды log( (
    ) )
    i
    S e
    θ
    . (5.8)
    Медленно меняющиеся компоненты log( (
    ) )
    i
    S e
    θ
    характеризуют низкие частоты. Следовательно, применение кепстрального анализа с ис- пользованием преобразования Фурье – это естественный способ их выде- ления. Результат применения кепстрального анализа для образца речи, представленного на рис. 5.11, 5.12, 5.13, показан на рис. 5.17.
    >> ifft (log(abs(fft(hamming(512) .* sig))))
    Речь
    Окно
    ДПФ
    Log
    ОДПФ
    Кепстральный анализ

    105
    Рис. 5.17. Полный реальный кепстр
    Заметим, что большинство значимых свойств наблюдается в начале и в пиках спектрограммы. Более подробно первые 25 кепстральных коэффи- циентов представлены на рис. 5.18.
    0 5
    10 15 20 25
    -0.2
    -0.1 0
    0.1 0.2 0.3 0.4 0.5
    Рис. 5.18. Первые кепстральные коэффициенты

    106
    5.4. Z-преобразование
    Удобный способ анализа дискретных последовательностей –
    Z-преобразование (Z-transform). Последовательности чисел
    { }
    ( )
    x n ставится в соответствие функция комплексной переменной z , определяемая сле- дующим образом:
    n
    X ( z )
    x( n )z
    n


    =

    = −∞
    . (5.9)
    ( )
    X z является взвешенной суммой, которая определена только для тех значений z , при которых ряд (5.9) сходится [11, 43] .
    Свойства Z-преобразования
    Рассмотрим некоторые наиболее важные свойства Z-преобразования, полезные при его применении.
    1. Z-преобразование – линейное преобразование, для него справедлив принцип суперпозиции.
    Если ( )
    Y z , ( )
    1
    X z и ( )
    2
    X
    z Z-преобразования последовательностей
    ( )
    y n , ( )
    1
    x n , ( )
    2
    x n соответственно, то для любых действительных
    α
    и
    β
    справедливы соотношения:
    ( )
    ( )
    ( )
    ( )
    ( )
    ( )
    1 2
    1 2
    y n
    x n
    x n
    Y z
    X z
    X
    z
    α
    β
    α
    β
    =
    +

    =
    +
    . (5.10)
    2. Сдвиг последовательности (задержка).
    Если ( )
    Y z , ( )
    X z – Z-преобразования последовательностей ( )
    y n , ( )
    x n , то для ( )
    (
    )
    0
    y n
    x n n
    =

    , где 0
    n – целое число, справедливо соотношение
    0
    ( )
    ( )
    n
    Y z
    z
    X z

    =
    . (5.11)
    Так, при задержке сигнала на один такт ( )
    ( 1)
    y n x n
    =
    − ,
    1
    ( )
    ( )
    Y z
    X z
    z
    =
    , т.е. Z-преобразование исходной последовательности умножается на
    1
    z− .
    Таким образом, множитель
    0
    n
    z

    является оператором задержки дискрет- ной последовательности на 0
    n тактов.
    3. Свертка последовательностей.
    Свертка двух бесконечных дискретных последовательностей
    { }
    ( )
    x k и
    {
    }
    (
    )
    h n k

    определяется следующим образом:
    ( )
    ( ) (
    )
    y n
    x k h n k
    k

    =


    = −∞
    . (5.12)
    Если Z-преобразования последовательностей ( )
    y n , ( )
    x n , ( )
    h n равны
    ( )
    Y z , ( )
    X z и ( )
    H n соответственно, то справедливо соотношение
    ( )
    ( ) ( )
    Y z
    X z H z
    =
    , которое означает, что Z-преобразование свертки равно произведению Z-преобразований свертываемых последовательностей.

    107
    Обратное Z-преобразование
    Обратный переход от ( )
    X z к последовательности ( )
    x n определяется соотношением [27]
    1 1
    ( )
    ( )
    2
    C
    n
    x n
    X z
    dz
    z
    i
    π

    =

    , (5.13) где C – замкнутый контур, который включает
    0
    z
    = .
    Обратное Z-преобразование представляет собой интеграл по любому замкнутому контуру с направлением обхода против часовой стрелки. Кон- тур расположен в области сходимости и окружает начало координат.
    5.5. Анализ с использованием линейного предсказания
    Анализ речи с использованием линейного предсказания (ЛП) – исто- рически один из самых важных методов анализа речи [11].
    ˆ
    1
    p
    S
    a S
    n
    i n i
    i
    = ∑

    =
    , (5.14)
    Sn– речевой сигнал с nотсчетами, ai – коэффициенты предсказания.
    Этот линейный фильтр имеет передаточную функцию
    1
    ( )
    1 1
    H z
    p
    i
    a z
    i
    i
    =

    − ∑ =
    (5.15)
    При правильном выборе параметров модель ЛП может приблизиться к спектру огибающей для всех звуков речи.
    Оценка параметров ЛП.
    Допустим, имеется N отсчетов речи. Вы- числим оценку ai из условия минимальной среднеквадратической ошиб- ки. Эти оценки могут рассматриваться как самые вероятные параметры, если предполагается, что распределение ошибок является гауссовским и нет ограничений на значения ai.
    Ошибка
    ˆ
    1
    p
    e
    S
    S S
    a S
    n
    n
    n
    i n i
    i
    =
    − =
    − ∑

    =
    . (5.16)
    Следовательно, суммированная среднеквадратическая ошибка E по конечному окну длиной N
    2 1
    1 2
    0 0
    1
    p
    N
    N
    E
    e
    S
    a S
    n
    n
    k n k
    n
    n
    k

    − ⎛

    =
    =









    =
    =
    =


    (5.17)
    Минимум
    E
    получается, когда частные производные равны нулю для всех параметров
    ak .

    108
    Уравнение (5.17) квадратичное относительно ak , поэтому решение существует, причем единственное.
    Дифференцируя уравнение (5.17) по a j и принимая их равными ну- лю, получаем систему p уравнений:
    (5.18)
    Реконфигурация уравнения (5.18) дает
    1 1
    0 1
    0
    p
    N
    N
    S S
    a
    S
    S
    n n
    j
    k
    n k n
    j
    n
    k
    n


    =






    =
    =
    =
    . (5.19)
    Определим матрицу ковариации
    φ
    с элементами ,ik
    φ
    :
    1
    ,
    0
    N
    S
    S
    i k
    n i n k
    n
    φ

    = ∑


    =
    (5.20)
    Запишем уравнение (5.20) как
    ,0
    ,
    1
    p
    a
    i
    i k k
    k
    φ
    φ
    = ∑
    =
    , (5.21) или
    1,1 1,2 1,3 1,
    1,0 1
    2,1 2,2 2,3 2,
    2,0 2
    3 3,0 3,1 3,2 3,3 3,
    ,0
    ,1
    ,2
    ,3
    ,
    p
    a
    a
    p
    a
    p
    a p
    p
    p
    p
    p
    p p
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
























    = ⎜
























    ⎠ ⎝

    . (5.22)
    В матричной форме
    0
    A
    a
    Φ = Φ
    . (5.23)
    Решение находим с использованием обратной матрицы
    1 0
    A

    = Φ Φ . (5.24)
    Заметим, что матрица
    Φ симметрична, т.е. ,
    ,
    i k
    k i
    φ
    φ
    =
    , и эта симмет- рия может использоваться в инвертировании
    Φ
    1 0
    2 0
    1 1
    1 2
    2 0
    0 1
    p
    N
    E
    S
    a S
    S
    n
    k n k
    n
    j
    a j
    n
    k
    p
    N
    N
    S S
    a S
    S
    .
    n n
    j
    k n k n
    j
    n
    n
    k








    = = −












    =
    =






    = −
    +






    =
    =
    =

    109
    Автокорреляционный метод.
    Имея дело с обработкой речи, реали- зуемой посредством оконной функции, необходимо принять во внимание граничные эффекты для избежания больших ошибок предсказания на кра- ях. Используем тот факт, что отсчеты являются нулевыми вне окна, чтобы переписать
    ,i j
    φ
    как [11]
    1 (
    )
    ,
    (
    )
    0
    N
    i
    j
    S S
    i j
    n n
    i
    j
    n
    φ
    − − −
    =

    + −
    =
    . (5.25)
    Теперь
    ,i j
    φ
    зависит только от разницы (
    i
    j

    ) и может быть записа- но в терминах автокорреляционной функции
    ,
    ,
    1 0
    r
    i j
    i
    j
    N
    k
    r
    S S
    k
    n n k
    n
    φ
    = −
    − −
    =

    +
    =
    (5.26)
    Тогда (5.22) преобразуется к виду
    0 1
    2 1
    1 1
    1 0
    1 2
    2 2
    3 3
    2 1
    0 3
    1 2
    3 0
    r
    r
    r
    r p
    a
    r
    r
    r
    r
    r
    a
    p
    r
    a
    r
    r
    r
    r
    r p
    a p
    r p
    r
    r
    r
    r
    p
    p
    p




    − ⎛




















    =




















    ⎟ ⎜
    ⎟⎝





    ⎠ ⎝

    . (5.27)
    Существуют эффективные методы для инвертирования таких мат- риц, один из которых – алгоритм Дарбина (Durbin algorithm).
    1 ( 1)
    (
    1)
    /
    1
    i
    i
    i
    k
    a
    a
    r
    E
    i
    i
    i
    j
    j
    j







    =
    − ∑



    =


    , (5.28)
    ( i )
    a
    ki
    i
    =
    , (5.29)
    ( )
    (
    1)
    (
    1)
    i
    i
    i
    a
    a
    k a
    i
    j
    j
    i
    j


    =


    при 1 j i
    ≤ ≤ , (5.30)
    2
    ( )
    (
    1)
    (1
    )
    i
    i
    k
    E
    E
    i

    = −
    . (5.31)
    Параметры ki известны как параметры отражения. Полученный фильтр устойчив. Значение квадрата остаточного предсказания
    ( )
    i
    E
    всегда будет уменьшаться (или оставаться постоянным) на каждой последующей итерации.

    110
    Спектр линейного предсказания.
    Передаточная функция
    1
    ( )
    H z – это КИХ-обеляющий фильтр для речи. Его частотная характе- ристика может быть вычислена как преобразование Фурье от коэффи- циентов фильтра, затем инвертирована, чтобы выдать частотную харак- теристику( )
    H z [11].
    Рис. 5.19 показывает пример спектра ЛП для сегмента речи. Заметим, что форманты максимально выражены.
    >> [sig] = wavread('filename');
    >> a = lpc(hamming(512).*sig, 16);
    >> h = (1./fft([a zeros(1, 512 - 17)])).';
    >> figure;
    >> plot(abs(h));
    >> xlim([0 256])
    Рис. 5.19. Спектр ЛП сегмента речи
    Мера расстояния Itakura.
    Рассмотрим случай, когда речевой сиг- нал
    Sn
    проходит через линейный предсказатель, соответствующий образ- цу a . Остаточная среднеквадратичная ошибка E [11]
    2 1
    1 2
    0 0
    1
    p
    N
    N
    E
    S
    a S
    en
    n
    i n i
    n
    n
    i

    − ⎛

    =
    =

    =








    =
    =
    =



    111 1
    2 2 0
    1 1
    1
    p
    p
    p
    N
    S
    a S S
    a a S
    S
    n
    i n n i
    i j n i n
    j
    n
    i
    i
    j





    =

    +
    =


    ∑ ∑





    =
    =
    =
    =


    1 1
    2 2 0
    1 0
    1 1
    1 0
    p
    N
    N
    S
    a
    S S
    n
    i
    n n i
    n
    i
    n
    p
    p
    N
    p
    a a
    S
    S
    i j
    n i n
    j
    i
    j
    n


    =

    +




    =
    =
    =

    +
    =
    ∑ ∑



    =
    =
    =
    2 00 0
    0 1
    1 1
    p
    p
    p
    p
    a
    a a ij
    i i
    i j
    n
    i
    i
    j
    φ
    φ
    φ
    =

    =


    ∑ ∑
    =
    =
    =
    =
    00 01 02 0
    1 10 11 12 1
    1 1,
    ,
    2 1,
    2,
    20 21 22 2
    0 1
    2
    p
    a
    p
    a
    a
    a
    a p
    p
    a p
    p
    p
    p
    pp
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ

    ⎤ −



    ⎥ ⎢ ⎥

    ⎥ ⎢ ⎥






    = −







    ⎥ ⎢ ⎥

    ⎥ ⎢ ⎥

    ⎥ ⎣ ⎦








    . (5.32)
    Определим
    00 01 02 0
    10 11 12 1
    20 21 22 2
    0 1
    2
    p
    p
    R
    p
    p
    p
    p
    pp
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ
    φ








    = ⎢













    ,
    (5.33) или в случае автокорреляции
    0 1
    2 0
    1 0
    1 1
    2 1
    0 2
    1 2
    0
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    r
    R
    r
    r
    r
    r
    p
    p
    p








    =














    . (5.34)
    Пусть
    y – расширенный вектор коэффициентов
    ЛП
    1,
    ,
    ,
    ,
    1 2
    a a
    a p








    , x – расширенный вектор входных данных,
    1,
    ,
    ,
    ,
    1 2
    a a
    a p


    ′ ′







    – неизвестные коэффициенты ЛП,
    T
    xRx
    – энергия на

    112
    выходе обратного фильтра с входной речью на входе,
    T
    yRy
    – минимально возможная энергия на выходе фильтра ЛП с входной речью на входе. То- гда расстояние может быть вычислено по формуле
    ( , ) log(
    ) log(
    )
    T
    E
    xR
    x
    x
    d x y
    T
    E
    yR
    y
    y
    =
    =
    . (5.35)
    Кепстр линейного предсказания.
    Параметры кепстра могут быть вычислены непосредственно от параметров ЛП при помощи следующей рекурсии [11]:
    1 1
    , при 1 1
    k
    i
    k
    p
    c
    a
    c a
    k
    k
    i k i
    k i

    =
    +
    ≤ ≤


    =
    . (5.36)
    Корни многочленного предсказателя.
    Знаменатель передаточной функции может быть разложен в виде
    1 1
    ( ) 1
    (1
    )
    1
    p
    k
    p
    k
    A z
    a z
    c
    z
    k
    k
    k
    =


    = −
    =


    =

    , (5.37) где ck – множество комплексных чисел, определяющих корни с угловой частотой
    { }
    { }
    Im zi
    1
    t g
    i
    Re zi
    θ



    =






    (5.38) и амплитудой
    { }
    { }
    2 2
    Im
    Re
    r
    z
    z
    i
    i
    i
    =
    +
    . (5.39)
    Если корень близок к единичному кругу, тогда он представляется формантой [11].
    Все корнии лежат в единичном круге. Они могут быть разделены на корни, которые соответствуют голосовому тракту с закрытой голосовой щелью, и те, которые соответствуют голосовому тракту с открытой голо- совой щелью. Применение корней очень полезно при кодировании речи.
    5.6. Применение формантного анализа
    Существует несколько способов моделирования (синтеза) речевого сигнала. Наиболее адекватна реальному голосовому аппарату линейная модель, относящаяся к группе параметрических моделей синтеза речевого сигнала и основывающаяся на устройстве голосового аппарата. Минуя за- дачи моделирования колебания связок и формирования резонансных по- лостей и рассматривая только изменения волнового сигнала, получаем схему, изображенную на рис. 5.20 [1].

    113
    В данной модели выходной сигнал представляется в виде свертки возбуждающего сигнала, генерируемого связками, и модулирующего сиг- нала, являющегося характеристической функцией формы ротовой полости, или артикуляторной характеристикой [18]. Математически это можно опи- сать следующей формулой:
    S( n ) v( n )
    h( n )
    =

    , (5.40) где ( )
    v n – возбуждающий сигнал, ( )
    h n – модулирующий.
    Рис. 5.20. Схема параметрической модели речеобразования
    В терминах Z-преобразования
    ( )
    ( )
    ( )
    S z
    V z
    H z
    =

    . (5.41)
    Возбуждающий сигнал характеризуется высотой и тембровой окра- ской. Такая информация может быть использована в задачах идентифика- ции говорящего по голосу. Модулирующий сигнал рассматривается как характеристика формирующего звуки голосового тракта человека и при- меняется в задачах распознавания речи.
    В спектральной области операция свертки двух сигналов пред- ставляется в виде произведения их образов. Возбуждающий сигнал в рамках описанной модели является либо полигармоническим (в случае гласного звука), либо широкополосным шумовым (в случае согласного).
    Модулирующая функция представляет собой огибающую результирую- щего сигнала. Таким образом, задача получения аутентичной информа- ции (при распознавании фонем) сводится к определению огибающей мгновенного спектра сигнала, или так называемому формантному ана-
    лизу. Модулирующую функцию можно рассматривать как передаточную функцию линейного КИХ-фильтра. Таким образом, значения этой функции (коэффициенты фильтра) определяются с помощью метода ли- нейного предсказания. Данный алгоритм широко применяется в воко- дерном кодировании [29].
    ШУМ
    Последовательность импульсов
    Фильтр голосо- вого аппарата
    Речь

    114
    При формантном анализе текущую оценку отсчета сигнала опреде- ляют как сумму p предшествующих отсчетов:
    p
    ( n )
    S( n k )ak
    k 1
    θ
    =


    =
    , (5.42) где
    { }
    ak – вектор коэффициентов предсказания. Порядок p при фор- мантном анализе выбирают равным 8 – 12.
    Разность между истинным и предсказанным значением отсчета оп- ределяет ошибку предсказания, или остаточный сигнал:
    1
    p
    r( n ) S( n )
    ( n ) S( n )
    S( n k )ak
    k
    θ
    =

    =



    =
    . (5.43)
    В результате Z-преобразования разностного уравнения (5.43) имеем
    ( )
    ( )
    ( )
    R z
    S z
    A z
    =

    , (5.44) где функция
    ( ) 1 1
    p
    k
    A z
    a
    z
    k
    k

    = −


    =
    (5.45) является передаточной характеристикой цифрового фильтра, частотная ха- рактеристика которого обратна по отношению к частотной характеристике голосового тракта:
    1
    ( )
    ( )
    A z
    H z
    =
    . (5.46)
    Значения коэффициентов ak в (5.45) подбираются так, чтобы мини- мизировать среднеквадратичное значение остаточного сигнала ( )
    r n . Полу- ченные коэффициенты фильтра
    { }
    ak можно рассматривать как вектор при- знаков фонемы. Для проверки степени стабильности и инвариантности по- лучаемого вектора признаков
    { }
    ak необходимо исследовать предел его из- менений в условиях различного произношения опорной фразы, артикуля- торные характеристики которой предполагаются стабильными. Вариации произношения обеспечиваются различной высотой произношения (pitch).
    Как показали исследования [18], артикуляторные параметры также зависят от конкретного человека и не являются абсолютно стабильными речевыми характеристиками. При плохой дикции и невыразительной речи понимать слова приходится из контекста. В компьютерной модели такая

    115
    обработка осуществляется на последующих этапах (фонемная категориза- ция, семантический анализ и т.д.). Однако для этапа выделения информа- ции о произнесенной единице речи описанный выше метод оказывается вполне применимым.
    Важное достоинство формантного анализа – относительная простота оценки параметров фильтра ( )
    A z , так как используются линейные проце- дуры обработки сигнала.
    Контрольные вопросы
    1.
    Что такое анализ речи и для чего он применяется?
    2.
    Что такое акустический вектор?
    3.
    Каковы особенности применения окон при обработке речи?
    4.
    Как определяются и рассчитываются в MATLAB отсчеты окна
    Чебышева?
    5.
    Как определяются и рассчитываются в MATLAB отсчеты окна
    Кайзера?
    6.
    Как определяются и рассчитываются в MATLAB отсчеты прямо- угольного окна?
    7.
    Как определяются и рассчитываются в MATLAB отсчеты окна
    Хэмминга?
    8.
    Как определяется ОДПФ?
    9.
    Что такое кепстральный анализ?
    10.
    Что такое Z-преобразование и каковы его свойства?
    11.
    Каковы отличительные особенности применения Z-преобразования и преобразования Фурье?
    12.
    Каковы особенности применения линейного предсказания для анализа речи?
    13.
    Как определяются параметры отражения линейного предсказания при анализе речи?
    14.
    Каковы особенности автокорреляционного и ковариационного методов?
    15.
    Как определяется спектр линейного предсказания?
    16.
    Как определяется мера расстояния Itakura?
    17.
    Как определяются параметры кепстра линейного предсказания?
    18.
    Что такое формантный анализ и для чего он применяется?

    116
    1   2   3   4   5   6   7   8   9   10   ...   13


    написать администратору сайта