|
1 Нейросетевые алгоритмы распознования. Предмет исследования и постановка задачи 10
http://www.dslib.net/sys-analiz/nejrosetevye-algoritmy-raspoznovanija-rechevoj-informacii-bortovymi-sistemami.html#7300892 http://www.dslib.net/sys-analiz/nejrosetevye-algoritmy-raspoznovanija-rechevoj-informacii-bortovymi-sistemami.html#7300892
ГЛАВА 1. Предмет исследования и постановка задачи 10
1.1 Применение распознавания отдельных речевых команд в бортовых системах связи 10
1.2 Вектор акустических признаков речевого сигнала 22
1.3 Анализ методов распознавания речи 32
1.4 Постановка задачи 47
ГЛАВА 2. Нейросетевые методы и алгоритмы распознавания речевых команд 49
2.1 Методы повышения вероятности распознавания речевой информации 49
2.2 Разработка метода получения векторов акустических признаков для распознавания акустической последовательности фразы 76
2.3 Разработка нейросетевых алгоритмов распознавания речевых команд в условиях помех 85
ГЛАВА 3. Методика и результаты сравнительных экспериментальных исследований 100
3.1 Тестовый прототип нейросетевого бортового распознавателя 100
3.2 Программное обеспечение распознавателя речевой информации 103
3.3 Основные результаты 108
Заключение 109
Список сокращений 111
Список литературы
Вектор акустических признаков речевого сигнала
Анализ методов распознавания речи
Разработка метода получения векторов акустических признаков для распознавания акустической последовательности фразы
Программное обеспечение распознавателя речевой информации
Введение к работе
Актуальность темы. В настоящее время имеются области применения систем распознавания речи, где существует проблема достижения высокой точности распознавания при наличии различных шумовых воздействий. К таким областям относится, например, бортовая авиационная среда летательного аппарата при подаче экипажем отдельных речевых команд на вход авиационной электронной системы. Это связано с наличием различных шумовых, механических и иных воздействий. Проблема разработки бортового распознавателя отдельных речевых команд усугубляется тем, что наличие различных воздействий в бортовой авиационной среде летательного аппарата делает малоэффективным применение обыкновенных вычислительных средств для реализации программ распознавания отдельных фраз речи. В настоящие время существуют определенные семейства микросхем программируемых логических интегральных схем (ПЛИС), которые применяются как для аппаратно-программной реализации алгоритмов построения нейронных сетей (НС), так и для построения электронной бортовой авиационной аппаратуры.
Для распознавания отдельных команд речи, подаваемых человеком на борт истребителя, было создано множество программ, таких как программа, применяемая в инновационных интегрированных системах Advanced Fighter Technology Integration (AFTI) американских истребителей классов F-16 и F-16 VISTA; программа французских истребителей класса Mirage; программы для военной авиации Великобритании. Реализовано также множество экспериментальных исследований, таких как исследования, проводимые в 2004 г. в совместной работе с группой пилотов-истребителей Saab JAS-39 Gripen, что привело к определенному успеху. Однако проблема интегрирования систем распознавания речи с авиационными электронными системами обусловлена требованием точности распознавания не менее 95 %, которая сохраняется при использовании ограниченного набора слов словарного запаса. Практика требует применения более обширного набора слов, т.е. увеличения словарного запаса, сохраняя при этом заданную высокую точность распознавания.
При этом следует отметить, что весьма серьезные исследования и различные эволюционные программы были выполнены различными организациями для повышения эффективности систем распознавания речи в среде кабины вертолета, такими как военно-воздушные силы США,
научно-исследовательский центр БРЭО (Avionics Research and Development Activity (AVRADA)), английская организация «Королевское аэрокосмическое учреждение» (Royal Aerospace Establishment (RAE)).
Анализ существующих методов распознавания отдельных фраз речи позволил в качестве рабочей выбрать гипотезу, синтезирующую методы, основу которых составляет аппарат нейронных сетей и «скрытых Марковских моделей» (СММ) распознавания речи. В частности, с помощью сопроцессоров DSP48E, которые являются аппаратными ресурсами, программируемыми логическими интегральными схемами (ПЛИС), можно реализовать методику моделирования структур нейронных сетей (НС), являющихся основой системы распознавания речи. Каждый сопроцессор DSP48E представляет один умножитель и один аккумулятор на каждый нейрон, входящий в состав нейронной сети. С учетом имеющихся аппаратных ресурсов ПЛИС ее можно рассматривать как параллельную искусственную НС. Таким образом, задача распознавания отдельных фраз речи с помощью искусственных НС, обеспечивающая повышение точности распознавания речи при наличии шумовых воздействий, является актуальной.
Целью диссертационной работы является повышение вероятности распознавания речевой информации в условиях шумовых помех за счет аппаратно-программной реализации алгоритмов построения нейронных сетей.
Для достижения поставленной цели в работе решались следующие задачи:
анализ существующих методов и методик построения систем распознавания речи;
разработка усовершенствованного метода получения векторов акустических признаков на основе применения мел-частотных кепст-ральных коэффициентов;
разработка нейросетевых алгоритмов распознавания речевой информации, построенных на основе использования эталонных наборов характерных признаков фразы и на основе распознавания отдельных слов словарного запаса языка;
разработка тестового прототипа нейросетевого распознавателя отдельных фраз речи на основе применения однородной вычислительной среды, реализованной в ПЛИС;
5) проведение экспериментальных исследований разработанных алгоритмов обучения распознавателя в условиях шумовых воздействий и помех с целью повышения точности распознавания.
Объектом исследования диссертационной работы являются системы распознавания отдельных речевых команд, подаваемых на вход бортового распознавателя.
Предмет исследования - методы и алгоритмы распознавания отдельных речевых команд при наличии шумовых воздействий и помех.
Методы исследования. Для распознавания образов, имеющих динамическую структуру во времени, использованы методы применения скрытых Марковских модулей (СММ), нейросетевые методы распознавания образов, методы теории распознавания образов, методы компьютерного моделирования Matlab, Verilog.
Соответствие паспорту специальности. Область исследований соответствует:
пункту 4 «Разработка методов и алгоритмов решения задач системного анализа, оптимизации управления, принятия решений и обработки информации» паспорта специальности 05.13.01 «Системный анализ, управление и обработка информации (в технике и технологиях)»;
пункту 5 «Разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации» паспорта специальности 05.13.01 «Системный анализ, управление и обработка информации (в технике и технологиях)»;
пункту 10 «Методы и алгоритмы интеллектуальной поддержки при принятии управленческих решений в технических системах» паспорта специальности 05.13.01 «Системный анализ, управление и обработка информации (в технике и технологиях)».
Научная новизна работы заключается в следующем:
Разработан усовершенствованный метод получения очищенного от шумовых воздействий вектора акустических признаков. Использование мел-частотных кепстральных и линейных однослойных нейронных сетей позволяет повысить вероятность распознавания речевой информации бортовыми системами управления в условиях шумовых помех.
Разработано математическое обеспечение обучения нейронной однослойной линейной сети, использующее две целевые функции. Первая целевая функция - это аппроксимация вероятностной функции мно-
гомерного нормального (гауссова) распределения, вторая целевая функция - функция вычисления кепстральных коэффициентов, использующая линейные однослойные нейронные сети для вычисления средней спектральной мощности. Предложенный подход позволил разработать алгоритмическое обеспечение систем распознавания речи в условиях воздействия помех.
Разработан и реализован нейросетевой алгоритм распознавания отдельных фраз речи, использующий эталонный набор характерных признаков фразы. Предложенный алгоритм позволил повысить точность распознавания отдельных речевых команд в условиях регулярных шумовых и механических воздействий различной интенсивности.
Предложен и реализован нейросетевой алгоритм распознавания речевых команд, использующий распознавание отдельных слов языка. Это позволило увеличить словарный запас речевых команд, сохраняя при этом высокую точность распознавания.
Практическая значимость работы. Разработан элемент программного обеспечения бортовых систем управления для задач распознавания речевой информации. Реализация разработанных нейросете-вых алгоритмов на базе ПЛИС позволила увеличить словарный запас речевых команд и без потери оперативности на 10-15 % повысить точность распознавания отдельных речевых команд в условиях бортовой среды при наличии шумовых и механических воздействий различной интенсивности.
На защиту выносятся:
Усовершенствованный метод получения очищенного от шумовых воздействий вектора акустических признаков.
Нейросетевой алгоритм распознавания отдельных фраз речи, использующий эталонный набор характерных признаков фразы.
Нейросетевой алгоритм распознавания речевых команд, использующий распознавание отдельных слов языка.
Реализация и внедрение результатов работы. Основные результаты диссертационной работы обеспечиваются с учетом основных факторов, влияющих на предмет исследования обоснованным выбором ограничений и корректностью применения широко апробированного аппарата теории распознавания образов, методов искусственного интеллекта. Достоверность подтверждается адекватными результатами критерия идентификации полученного в ходе проведения натурного эксперимента.
Полученные результаты исследований реализованы организацией ЗАО «НПО РИТ» (г. Тверь) при разработке проекта системы GPS/GLONASS мониторинга автотранспорта в интересах компании ОАО «АвтоВАЗ».
Достоверность научных положений, выводов и рекомендаций, сформулированных в диссертации, обеспечивается с учетом основных факторов, влияющих на предмет исследования, обоснованным выбором ограничений и корректностью применения аппарата теории распознавания образов, методов искусственного интеллекта, результатами математического моделирования, результатами натурных экспериментов, а также апробацией на международных конференциях.
Апробация работы. Основные положения диссертации докладывались и обсуждались на следующих конференциях: Шестой всероссийской конференции 26-28 января 2011 г. в МГТУ им. Баумана «Необратимые процессы в природе и технике» (Москва, 2011); Международной научно-технической конференции «Аналитические и численные методы моделирования естественно-научных и социальных проблем» (Пенза, 2014); Международной научно-технической конференции «Новые информационные технологии и системы» (Пенза, 2014); Международной научно-технической конференции «Проблемы автоматизации и управления в технических системах» (Пенза, 2015).
Публикации. По теме диссертации опубликовано 7 печатных работ, из них 3 - в журналах, входящих в перечень ВАК РФ.
Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка используемых сокращений, списка литературы и приложений. Основной текст диссертационной работы изложен на 116 страницах, включает 17 рисунков, 1 таблицу, 4 приложения на 28 страницах. Список использованных источников содержит 40 наименований.
Вектор акустических признаков речевого сигнала Создание высокопроизводительных вычислительных систем входит в первую десятку жизненно важных программ ведущих государств мира. Без суперкомпьютеров невозможно обеспечить конкурентоспособность страны на мировом рынке, без них нельзя поддерживать обороноспособность государства на должном уровне. Очевидно, что без суперкомпьютеров затруднительно проводить современные научные изыскания в самых различных областях, будь то материаловедение, медицина, экономика, экология, кибернетика и т.д. Амбициозные программы по нанотехнологиям и термоядерной энергетике так и останутся впечатляющими программами, если российские ученые не будут иметь в своем распоряжении постоянно обновляющийся парк суперЭВМ.
28 июля 2009 года в Кремле Президент РФ Дмитрий Медведев провёл совещание с членами Совета Безопасности по вопросу создания и применения суперкомпьютеров. Президент пообещал, что Россия будет вкладывать средства в производство суперкомпьютеров, оказывая господдержку этой отрасли, а также привлекая научно-экспертную общественность и крупный бизнес. «Здесь у нас никакого выбора нет, если мы хотим развиваться по передовой схеме, - отметил президент. - При этом есть один, самый главный вопрос о том, насколько полно они будут загружены». По мнению Дмитрия Медведева, нужно стимулировать применение суперкомпьютерных технологий в самых разных отраслях: авиации, ракетно-космической технике, геологоразведке, при создании новых материалов, лекарств, вакцин, то есть везде, где требуются значительные объемы цифровых расчетов. Все это, по словам президента, должно привести к улучшению прогнозирования, планирования и управления самыми сложными процессами и к повышению конкурентоспособности российской продукции в мире.
Медведев сформулировал пять основных задач для работы в суперкомпьютерной сфере. Во-первых, определить приоритетное направление использования суперкомпьютерных и грид-технологий (технологий использования вычислительных мощностей множества простых серверов, позволяющих управлять ими как единым целым) в области обеспечения национальной безопасности и социально-экономического развития страны. Во-вторых, наметить меры, которые позволяют подтянуть уровень отечественной электронной компонентной базы до потребностей производства суперкомпьютеров. «Здесь все пока очень и очень сложно», -прокомментировал президент. Другие необходимые условия - это формирование полноценной нормативно-правовой базы применения суперкомпьютеров, создание условий для построения грид-сетей, прежде всего - в научно-образовательной сфере. Кроме того, России необходимо и специализированное программное обеспечение для определенного класса задач. «У нас его тоже нет или, во всяком случае, оно есть не везде, хотя кое-где мы по программированию для суперкомпьютеров продвинулись, может быть, даже лучше, чем наши конкуренты», - отметил Дмитрий Медведев. И последняя задача - организовать специальную систему подготовки кадров, специалистов в ведущих вузах страны.
Президент подчеркнул, что ряд результатов, достигнутых отечественной суперкомпьютерной отраслью, «находятся абсолютно на уровне мирового развития». Так, по словам Игоря Щеголева, тогдашнего главы Минкомсвязи, в настоящее время в организациях науки, образования и промышленности создано 47 крупных суперкомпьютерных центров. Суммарная производительность этих систем с учетом суперкомпьютеров специального назначения составляет на сегодняшний день 521 терафлопс.
Щеголев еще напомнил, что в МГУ осенью этого года планируются экспериментальные запуски отечественного суперкомпьютера мощностью до 500 терафлопс и наблюдаются (хотя и по-прежнему очень мало) позитивные примеры внедрения малых суперкомпьютеров (до 1 терафлопс) в коммерческом секторе. «Несмотря на то, что нам есть, что предъявить, мы существенно отстаем от мировых лидеров» - заявил Дмитрий Медведев. - В списке стран, где установлены самые мощные суперкомпьютеры, мы стоим на 15-м месте. Из 500 супервычислительных систем, как известно, 476 занимают компьютеры, изготовленные в США». Такая ситуация, по мнению главы Минкомсвязи, объясняется недостаточной поддержкой прикладного использования суперкомпьютеров, как со стороны государства, так и со стороны коммерческого сектора. Кроме того, здесь сказалось - и продолжает сказываться - отсутствие цифрового телекоммуникационного ресурса и зачастую завышенные цены на его использование.
По словам Щеголева, базовыми принципами основ государственной политики в области суперкомпьютеров и грид-технологий должны стать централизованное управление и организация работ по созданию соответствующей инфраструктуры, целевое выделение средств на наиболее важные проекты, государственная поддержка в приоритетных направлениях их использования, частно-государственное партнерство в программах и проектах. Министр подчеркнул, что уже готовятся конкретные проекты по наращиванию мощностей существующих центров и по связыванию всех центров в единую сеть. Другие направления, по которым уже делаются определенные шаги - это подготовка специалистов и популяризация подобного рода решений, «возможно, даже включение такого рода решений в условия предоставления государственной помощи по отдельным крупным проектам».
Анализ методов распознавания речи Описанный алгоритм применяется достаточное количество раз, чтобы все варианты выходных значений могли правильно выходить при задании произвольных значений входа с заданной вероятностью ошибки.
Этот алгоритм может быть усовершенствован [15]. Например, выяснилось, что обычный диапазон для входов и выходов от 0 до 1 не является оптимальным. Из-за того, что AWy прямо пропорционален выходному уровню нейрона, нулевой выходной уровень приводит к нулевому значению AWy-д, то есть величина веса не изменяется и обучение не происходит. Выход состоит в приведении входов к значениям от -0.5 до 0.5. Активационная функция должна приобрести вид:
После того, как сеть будет надлежащим образом обучена, она может быть использована для распознавания, в том числе для распознавания звуков. Подаем на вход сети параметры звукового сигнала и получаем на выходе последовательность значений от -0.5 до 0.5 (или после обратной корректировки от 0 до 1), по которым и определяется звук. Где каждому такому звуку сопоставляется уникальная комбинация выходов до начала процесса обучения, и, собственно, по ней на определенном этапе обучения и определяется, правильно ли определен звук.
Рассмотрим применение скрытых Марковских моделей для распознавания речи. Скрытой Марковской моделью (СММ) называется модель, состоящая из N состояний, в каждом из которых некоторая система может принимать одно из М значений какого-либо параметра [15]. Вероятности переходов между состояниями задаются матрицей вероятностей A = {atj}, где ац -вероятность перехода из /-го в у-ое состояние. Вероятности выпадения каждого из М значений параметра в каждом из N состояний задаются вектором В = {Ь(к)}, где Ь(к) - вероятность выпадения к-то значения параметра ву-ом состоянии. Вероятность наступления начального состояния задается вектором п = {л:г}, где ж{ - вероятность того, что в начальный момент система окажется в /-ом состоянии.
Таким образом, скрытой Марковской моделью (СММ) называется тройка: X = {А, В, п}. Использование скрытых Марковских моделей для распознавания речи основано на двух приближениях. Речь может быть разбита на фрагменты, соответствующие состояниям в СММ, и параметры речи в пределах каждого фрагмента считаются постоянными.
Вероятность каждого фрагмента зависит только от текущего состояния системы и не зависит от предыдущих состояний.
Модель называется «скрытой», так как нас, как правило, не интересует конкретная последовательность состояний, в которых пребывает система. Либо мы подаем на вход системы последовательности типа О = {оь о2,..., ot}, где каждое Oi - значение параметра (одно из М), принимаемое в /-ой момент времени, а на выходе ожидаем модель А = {А, В, ж), с максимальной вероятностью генерирующую такую последовательность, либо, наоборот, подаем на вход параметры модели и генерируем порождаемую ею последовательность. И в том, и в другом случае система выступает как «черный ящик», в котором скрыты действительные состояния системы, а связанная с ней модель заслуживает названия скрытой.
Относительно скрытых Марковских моделей решаются, как правило, три задачи. Первая задача - это задача распознавания речи с помощью применения алгоритмов, вычисляющих вероятность распознавания последовательности акустических признаков речевого сигнала.
Дана последовательность наблюдений О = {оь о2, ..., ot} и модель X = {А, В, л}. Необходимо вычислить вероятность появления указанной последовательности для данной модели. То есть решение этой задачи непосредственно связано с задачей распознавания речи. Если, например, состояния модели соответствуют отрезкам времени, в которые снимаются параметры речевого сигнала, и в каждом из этих состояний (отрезков) некие параметры речевого сигнала принимают некоторые значения, которые мы представляем в виде О = {оь о2, ..., ot}, то, решив задачу отыскания вероятности появления этой последовательности для каждой из имеющихся у нас моделей X = {А, В, к}, соответствующих, например, фонемам (звукам речи) или словам. Можно выбрать ту из фонем (слов), которая в наибольшей степени соответствует исходному отрезку речевого сигнала. А это и значит распознать речевую единицу (фонему или слово).
Вторая задача - это задача выбора наиболее вероятностной последовательности состояний. Дана последовательность наблюдений О = {о\, 02, , ot} и модель X = {А, В, к}. Необходимо выбрать последовательность состояний Q = {qx, q2, ..., qt}, которая с наибольшей вероятностью порождает указанную последовательность. Данные, полученные при решении этой задачи, используются для изучения поведения полученной модели.
Третья задача - это задача обучения скрытой Марковской модели. Дана последовательность наблюдений О = {оь о2, ..., ot} и модель X = {А, В, к}. Необходимо подобрать параметры модели так, чтобы максимизировать вероятность данной последовательности наблюдений. Это в чистом виде задача обучения модели на наборах входных данных для того, чтобы в дальнейшем использовать эту модель для решения задачи 1, то есть, распознавания. То есть, опять же, состояния модели соответствуют отрезкам времени (как правило, 10-30 мс), в которых снимаются значения параметра речевого сигнала, а принимаемые на некотором временном отрезке значения параметра и образуют последовательность наблюдений О.
Рассмотрим алгоритмы решения указанных задач. Решение задачи 1 (распознавание). Наиболее простое решение состоит в том, чтобы посчитать вероятность появления последовательности наблюдений для каждой возможной последовательности состояний модели, а затем сложить эти вероятности.
Пусть Q = {Qi, Q2, ..., Qs) - множество всех возможных последовательностей состояний той же длины, что последовательность О. Их число будет равно S = Nt.\, где N - число состояний, t - длина последовательности. Пусть /-ая последовательность Q представляет ряд состояний {qn, qa, ..., qu}- Тогда для /-ой последовательности состояний вероятность появления последовательности наблюдений О равна:
По определению скрытой Марковской модели вероятности наблюдений в каждом из состояний зависят только от самого состояния и не зависят от предыдущих состояний. Поэтому вероятность появления указанной последовательности наблюдений О для данный модели можно рассчитать с помощью следующей формулы: N -l N -lf t p(o\x)=Y,P(o\Q yp(Q,\ )=Y, -їй А, (о, )-П"[«. .4 JA, (J) г=1 г=1 У 7=2 J Очевидно, что потребуется (2 - 1)-7У умножений и TV - 1 сложений, что для числа состояний N = 10 и длины последовательности наблюдений t = 10 дает очень большое число вычислений, равное 19-1010 + 1010 - 1 = 2-Ю11 - 1. По такой причине существуют более эффективные алгоритмы для решения этой задачи. Наиболее известны алгоритм прямого хода и алгоритм обратного хода. Для алгоритма прямого хода вводится переменная a(i) - вероятность того, что к моменту времени t система будет находиться в /-ом состоянии, а последовательность порожденных ею до этого момента наблюдений равна 0ь02,
Разработка метода получения векторов акустических признаков для распознавания акустической последовательности фразы Для обучения такой сети на ее вход подаются параметры звукового сигнала, а на выходе последовательность из нолей и единиц, по которым определяется звук.
Из распространённых методов избавления речевого сигнала от шумовых воздействий являются такие методы, как метод кепстральной нормализации для вычисления акустических признаков описания речевого сигнала, метод применения искусственных нейронных сетей для очистки вектора акустических признаков от шумовых воздействий. В соответствии с методом кепстральной нормализации с целью избавления фразы от шумовых воздействий, таких как реверберация и использование разных микрофонов. Для каждого вектора акустических признаков, представляющих кепстральные коэффициенты, вычисляется вектор, полученный методом применения кепстральной нормализации, который вычитается из исходного вектора акустических признаков.
В данной главе проведен анализ существующего метода применения искусственных нейронных сетей для очистки вектора акустических признаков от шумовых воздействий, основанный на применении многослойного персептрона, совместно с вероятностной функцией многомерного гауссовского нормального распределения, описан существующий метод вывода формулы обучения нейронной сети.
Далее рассмотрим разработку метода получения очищенного от шумовых воздействий вектора акустических признаков, которые являются мел-частотными кепстральными коэффицентами, с помощью вычисления средней спектральной мощности методом применения линейных однослойных нейронных сетей (ЛОНС). Важной задачей цифровой обработки сигналов для его избавления от шумовых воздействий является задача фильтрации определенной последовательности чисел. Устройство, реализующее такую задачу, называется цифровым фильтром. Задача фильтрации заключается в преобразовании входного потока данных в модифицированный выходной поток.
Наиболее общий вид цифрового фильтра первого порядка определяется следующим уравнением:
В формуле (2.65) представлен линейный электронный БИХ фильтр (фильтр с бесконечной импульсной характеристикой), использующий один или более своих выходов в качестве обратной связи. Основным свойством таких фильтров является то, что их импульсная переходная характеристика имеет бесконечную длину во времени, а передаточная функция имеет дробно-рациональный вид. Такие фильтры могут быть как цифровыми, так и аналоговыми. Фильтр с конечной импульсной характеристикой (КИХ фильтр) является частным случаям БИХ фильтра, характерной особенностью которого является ограниченность по времени его импульсной характеристики, а также отсутствие обратной связи.
Выход однослойной нейронной сети можно определить следующим выражением: Такие сети имеют сходство с уравнением цифрового фильтра первого порядка, которое заключается в том, что все математические операции, как в фильтре первого порядка, так и в однослойной нейронной сети являются операциями умножения двух чисел с накоплением.
В настоящее время линейные однослойные сети используются для реализации задач фильтрации цифровых сигналов [13] после получения весовых значений в процессе обучения. Задача однослойной нейронной сети, так же как и в цифровых фильтров, заключается в преобразовании входного потока цифровых данных в модифицированный выходной поток.
Был разработан алгоритм обучения линейных однослойных нейронных сетей, основу которого составила полученная формула для вычисления весовых значений таких сетей во время процесса их обучения и адаптации к шумовым воздействиям при распознавании отдельных фраз речи.
В существующих методиках для преобразования акустической последовательности отдельной фразы в последовательность векторов акустических признаков (ВАЛ) применяется метод получения мел-частотных кепстральных коэффициентов [2, 12, 22, 23]. Метод мел-частотных кепстральных коэффициентов является одним из наиболее эффективных методов получения признаков описания речевого сигнала на сегодняшний день. В соответствии с этим методом акустический сигнал отдельной фразы разбивается на равные по времени отрезки, после чего полученные отрезки усредняются на мел-шкале и формируют ВАЛ.
Последовательность ВАЛ отдельной фразы распознается набором скрытых Марковских моделей, где каждая такая модель представляет отдельную фразу речи, а каждое ее состояние моделирует отдельный кластер слова или фонемы [17].
Для распознавания вектора акустических признаков, который был получен в результате преобразования акустической последовательности отдельной фразы в последовательность векторов акустических признаков, в существующих методиках на сегодняшний день применяется Байесовское решающее правило:
Программное обеспечение распознавателя речевой информации Решены практическая задача по обоснованию усовершенствованного метода использования линейных однослойных НС в построении вектора акустических признаков и очистки речевого сигнала от шумовых воздействий и задача по обоснованию использования алгоритма обучения распознавателя, имеющего два этапа обучения. На первом этапе вычисляется вектор центра кластера для каждого слова или фонемы или фразы в идеальной незашумленной среде, на втором этапе происходит адаптация распознавателя к зашумленной среде методом использования линейных однослойных НС при вычислении мел-частотных кепстральных коэффициентов. Проводимые экспериментальные исследования показали эффективность разработанного алгоритма по повышению качества распознавания отдельных фраз речи.
Также решена практическая задача определения коэффициента обучения при использовании двух целевых функций. Первая целевая функция - это функция, вычисляющая меру близости вектора центра кластера от вектора акустических признаков, которая была получена на основе применения аппроксимации байесовской решающей функции методом вычисления натурального логарифма, а вторая целевая функция -это функция вычисления кепстральных коэффициентов на основе применения линейных однослойных НС для вычисления средней спектральной мощности. Проведенные экспериментальные исследования показали, что линейная однослойная НС более точно распознает отдельные фразы при использовании правила обучения, в котором коэффициент обучения определен методом использования двух целевых функций.
Достижение высокой точности распознавания в условиях наличия шумовых воздействий позволит решить проблему использования систем распознавания речи в определенных областях применения специальных систем, к которым относится бортовая авиационная среда летательного аппарата, где достижение высокого качества распознавания при наличии различных шумовых и механических воздействий, делают использование обыкновенных вычислительных средств для реализации программ распознавания отдельных фраз речи непригодными. Уровень шума в кабине пилота современного истребителя, например, может достигать 100 dB [2] , что делает достижение высокой точности распознавания отдельных фраз речи, представляющих команды, подаваемые на борту истребителя, более сложной задачей. Следовательно, проблема достижения высокой точности распознавания речи при наличии стрессов и шума вертолетного винта во время полета вертолета в его кабине является более сложной задачей, чем в кабине истребителя.
Для цели повышения вероятности распознавания и избавления речевого сигнала от шумовых воздействий в работе был разработан алгоритм построения векторов акустических признаков на основе вычисления частотных кепстральных коэффициентов с помощью линейных однослойных НС. Ядро такого алгоритма составило правило обучения линейных однослойных НС, в котором коэффициент обучения был впервые определен математически.
В работе были проведены экспериментальные исследования, подтверждающие эффективность разработанного метода получения ВАЛ в повышении вероятности распознавания отдельных фраз речи при наличии различных регулярных шумовых воздействий за счёт аппаратно-программной реализации алгоритмов построения нейронных сетей. Однако при проведении экспериментальных исследований для упрощения алгоритма обучения вместо использования скрытых Марковских модулей была применена методика построения вектора акустических признаков отдельной фразы, в соответствии с которой каждый вектор акустических признаков представляет отдельную фразу. Реализация на базе ПЛИС нейросетевых алгоритмов позволило без потери оперативности на 10-15% повысить точность распознавания отдельных речевых команд в условиях шумовых и механических воздействий различной интенсивности.
Дальнейшие исследования по распознаванию отдельных фраз речи можно проводить с помощью метода применения скрытых Марковских моделей. В соответствии с этим методом, фраза разбивается на последовательность векторов акустических признаков, которые используются для определения вероятности распознавания фразы.
Важным направлением дальнейших исследований является проведение экспериментальных исследований по применению разработанной методики распознавания отдельных фраз речи на основе распознавания отдельных слов словарного запаса языка и выявления эффективности такой методики в повышении точности распознавания отдельных фраз речи при наличии различных регулярных шумовых воздействий.
|
|
| |
|
|