Реферат по тпс. Системы распознавания речи и их использование в телекоммуникациях
Скачать 364.61 Kb.
|
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ЖЕЛЕЗНОДОРОЖНОГО ТРАНСПОРТА Федеральное государственное бюджетное образовательное учреждение высшего образования «Петербургский государственный университет путей сообщения Императора Александра I» (ФГБОУ ВО ПГУПС) Высоцкий Дмитрий Павлович группа ЭС-805 Реферат по дисциплине «Теория передачи сигналов» На тему: «Системы распознавания речи и их использование в телекоммуникациях» Обучающийся 07.12.2020 (подпись, дата) Высоцкий Д.П. Преподаватель (подпись, дата) Королева Е.Б. Санкт-Петербург 2020 2 Содержание Введение Основная часть 1. Понятие речи и речеобразование 2. Преобразование речи 3. Обработка речевого сигнала 4. Передача сигналов по сверхузкополсному каналу 5. Системы распознования голоса и их применение 6. Недостатки систем распознования речи Заключение Библиографический список 3 Введение Ни для кого не секрет, что в современном мире немалую р оль в жизни человека играет искусственный интеллект, в моем реферате речь пойдет о динамично развивающемся и широко востребованном направлении в области искуственного интлеекста - системах распознования речи. Системы распознавания речи в современных реалях являются востребованными, так как, в той или иной мере способны облегчить, или даже полностью заменить работу человека, как в определенных видах деятельности так и в повседневной жизни. Прежде всего данные системы нашли обширное применение в телекоммуникациях и телефонии, что позволило существенно облегчить работу человека, так, например появились call-центры, которые повысили уровень сервиса. Появилось множество технологий, чтобы управлять которыми, человеку достаточно дать голосовую команду: самый бытовой тому пример - умные голосовые помощники в наших смартфонах ("siri" в устройствах компании Apple, и, условно, "Алиса" на устройствах с операционной системой android) которые способны распознавать естественную речь, в последствии дать ответ на вопрос, решить ту или иную задачу и даже имитировать с человеком живой диалог. 4 1. Понятие речи и речеобразование Речь представляет собой форму общения людей посредством языковых конструкций. Процесс речи предполагает, с одной стороны, формирование и формулирование мыслей языковыми (речевыми) средствами, а с другой стороны - восприятие языковых конструкций и их понимание. Речь прнято считать вербальной коммуникацией, с физической точки зрения она состоит из последовательности звуков речи с паузами между их группами. Один и тот же звук речи разные люди произносят по-разному, каждому человеку свойственна своя манера произнесения звуков речи. Однако при всем многообразии в их произношении они являются физическими реализациями ограниченного числа обобщенных звуков речи, которые принято называть фонемами. Фонема – это то, что человек хочет произнести, а звук речи – это то, что человек произносит по факту. Фонема по отношению к звуку речи играет ту же роль, что и образцовая буква по отношению к ее рукописной форме в конкретном написании. В русском языке насчитывается 42 основные и 3 неопределенные фонемы. Звуки речи принято делять на звонкие и глухие. Звонкие звуки в свою очередь образуются с участием голосовых связок, в этом случае находящихся в напряженном состоянии. Под напором воздуха, идущего из легких, они периодически раздвигаются, в результате чего создается прерывистый поток воздуха. Импульсы потока воздуха, создаваемые голосовыми связками, с достаточной точностью могут считаться периодическими. При произнесении звуков речи язык, губы, зубы, нижняя челюсть, голосовые связки должны находиться для каждой фонемы в строго определенном положении или движении. Эти движения называют артикуляцией органов речи. При этом в речеобразующем тракте создаются резонансные полости, определенные для данной фонемы, а для слитного звучания фонем в речи — и определенные переходы от одной формы тракта к другой. С другой стороны речь представляет собой звуковые колебания воздуха в диапазоне частот от 70−100 Гц до нескольких килогерц. Для того чтобы в выходящем воздушном потоке возникли колебания с такими частотами, необходимо наличие источника звука на пути воздушного потока. Изменение частоты основного тона называется интонацией. У каждого человека свой диапазон изменения основного тона и своя интонация. Последняя имеет большое значение для узнаваемости говорящего. Импульсы основного тона имеют пилообразную форму, и поэтому при их периодическом повторении получается дискретный спектр с большим числом гармоник частоты которых кратны частоте основного тона. Огибающая спектра основного тона имеет спад в сторону высоких частот с крутизной около 6 дБ/октаву, поэтому для 5 мужского голоса уровень составляющих около 3000 Гц ниже их уровня около 100 Гц примерно на 30 дБ. При произнесении звуков речи через речевой тракт проходит или тональный импульсный сигнал, или шумовой, или тот и другой вместе. Речевой тракт представляет собой сложный акустический фильтр с рядом резонансов, создаваемых полостями рта, носа и носоглотки, т. е. с помощью артикуляционных органов речи. Вследствие этого равномерный тональный или шумовой спектр превращается в спектр с рядом максимумов и минимумов. Максимумы спектра называют формантами, а нулевые провалы - антиформантами. Для каждой фонемы огибающая спектра имеет индивидуальную и вполне определенную форму. При произнесении речи громкость ее непрерывно изменяется. Динамический диапазон уровней речи находится в пределах 35…45 дБ. Гласные звуки речи имеют в среднем длительность около 0,15 с, согласные – около 0,08 с. Так же стоит ответить, что вуки речи неодинаково информативны. Так, гласные звуки содержат малую информацию о смысле речи, а глухие согласные наиболее информативны. Поэтому разборчивость речи снижается при действии шумов, в первую очередь из-за маскировки глухих звуков. 2. Преобразование речи Распознавание речи является автоматическим процессом преобразования речевого сигнала в цифровую информацию. Существует несколько подходов к преобразованию речевых сигналов: 1.кодирование формы волны речевого сигнала 2.кодирование параметров речевого тракта человека и источника возбуждения 3.кодирование символьной информации (фонем) 4.кодирование лингвистической информации (слов, фраз и т.п.) Если считать, что спектр речевого сигнала лежит в диапазоне от 100 до 4000 Гц. Динамический диапазон изменения амплитуды, достаточный для описания речевых сигналов, составляет 12 двоичных разрядов. Импульсно-кодовая модуляция ИКМ (pulsecodemodulation, PCM). Первым шагом, обеспечивающим сжатие речевого сигнала, является попытка обеспечения равномерной относительной точности измерения значения амплитуды сигнала. Для этого 14-12-ти разрядный динамический диапазон 6 амплитуды разбивают на 8 логарифмических поддиапазонов, в каждом из которых значение амплитуды кодируют 5 разрядами и, таким образом, достигают сокращения информации до 64000 бит/с. Полученные цифровые значения отсчетов (8 бит) передаются без каких-либо преобразований. Дельта-модуляция ДМ (DM, deltamodulation) является одноразрядным вариантом импульсно-кодовой модуляции. Отсчеты производятся с постоянной частотой, существенно превосходящей частоту Найквиста. При каждом отсчете выдается 1 или 0, означающие увеличение или уменьшение на один уровень квантования очередного значения передаваемой величины по сравнению с ее предыдущим значением. Скорость передачи речи по телефонному каналу при дельта-модуляции составляет 32 Кбит/c. Так же существуют адаптивные методы дельта-модуляции с переменным шагом. Адаптивная дифференциальная импульсно-кодовая модуляция, АДИКМ(ADPCM). Например, в соответствии со стандартами G.721 или G.726, с помощью которой осуществляют кодирование (аппроксимацию) степени приращения амплитуды сигнала во времени. В адаптивном кодере с дифференциальной импульсно-кодовой модуля-цией (ADPCM) по входным данным определяется автокорреляционная функция передаваемого сигнала, а по автокорреляционной функции - оптимальные значения параметров аiN- отводного предсказателя, обеспечивающего минимальную среднеквадратичную ошибку предсказания. Характеристики речи меняются через 50 -100 мс. Чтобы упростить алгоритм вычисления параметров аi для предсказателя с числом отводов 10-12,значения аi обновляют через 20 мс и, вместе с ошибкой предсказания, передают в канал связи как «побочную» информацию (sideinformation). Таким путем удается достичь степени сжатия речевого сигнала порядка 32000-16000 бит/сек., причем приемлемое (коммерческое) качество речи (по критерию отношения: полезныйсигнал/шум) обеспечивается до 24000 бит/сек. При более низких скоростях кодирования сохраняется разборчивость речи, но характерны сильные нелинейные и частотные искажения сигнала и ухудшение отношения сигнал/шум. Дальнейшее уменьшение информационной емкости сигнала с помощью данного подхода считается неэффективным. Параметрическое кодирование. Для параметрического описания речи обычно описывают передаточную функцию речевого тракта человека и функцию возбуждения. Такими параметрами могут являться: осредненные значения энергии речевого сигнала, разбитого на ряд частотных полос, или коэффициенты линейного предсказания. 7 Обычно для кодирования речи используются 8-10 параметров (один из вышеперечисленных наборов), вычисляемых на интер валах порядка 5-30 мс (так как на таком интервале речь может считаться стационарным процессом), кроме того, вычисляется параметр, характеризующий изменение амплитуды либо мощности сигнала, период основного тона речи, а также признак типа тон/шум/пауза, характеризующий способ возбуждения речевого сигнала. Полученный набор параметров, оптимизированный по критерию точности и минимальной разрядности представления, передается в цифровом виде по каналу связи в реальном времени, а на приемном конце осуществляется синтез речевого сигнала по перечисленным параметрам. Таким путем удается снизить информационную емкость речевого сигнала до уровня 16000 - 1200 бит/сек, причем с сохранением разборчивости и индивидуальных особенностей речи говорящего. Канальные вокодеры. При кодировании спектра речевого сигнала используются особенности слуха человека: нечувствительность к фазовым сдвигам спектральных компонент и к компонентам, слабым по сравнению с соседними по частоте сильными компонентами. Гармоники с амплитудами ниже порога слышимости, зависящего от уровня соседних гармоник, не кодируются. Канальный вокодер представляет собой совокупность двух основных частей - (передающая сторона) и синтезирующей(приемная), которые содержат идентичные наборы(гребенки) полосовых фильтров, перекрывающих определенный частотный интервал. Весь частотный диапазон сигнала разделяется на 16 полос. В каждой полосе выделяется огибающая одной спектральной составляющей с помощью полосового фильтра, амплитудного детектора и фильтра низкой частоты. При цифровой реализации полосового фильтра вычисляется скалярное произведение исходного сигнала и опорного сигнала с частотой, соответствующей выделенной полосе. Текущие значения амплитуд огибающих передаются в канал связи. В приемнике сигналы, представляющие амплитуды спектральных составляющих, поступают на амплитудный модулятор (АМ) и модулируют соответствующие несущие колебания, возбуждаемые в полосовых фильтрах. 3. Обработка речевого сигнала Форманты, как правило, определяются путем сглаживания (усреднения) спектра в пределах 250-300 Гц для частот до 1500 Гц и 500-700 Гц для частот от 2500 Гц. Длительность одного звука речи составляет порядка 0,13 с. 8 Длительность анализируемых фрагментов речи обычно составляет 10-20 мс, в пределах которых считается, что речь стационарна. Для автоматизации формантного анализа используется кепстральный анализ и линейное предсказание. Кепстральный анализ дает много информации, не относящейся к фор - мантам, и эту лишнюю информацию надо удалять путем алгоритмов вынесения решения. Первичные оценки формантных частот и ширин полос формантных областей определяются вычислением корней полинома, либо расчета интерполированной частотной характеристики обратного фильтра. Кепстр - обратное преобразование Фурье логарифма спектра мощности сигнала. Кепстр можно рассматривать как гармонический анализ спектра сигнала. В этом случае, если в сигнале присутствуют гармоники, в спектре они будут показаны отсчетами с равномерным шагом по частоте, а кепстр покажет один отсчет, т.е. еще более компактное представление сигнала. (Кепстр – спектр логарифма спектра сигнала). Логарифмирование уменьшит остроту пиков, т.е. сгладит спектр, и кепстр станет более информативным. Но в любом случае необходимо тщательный анализ кепстра, что бы получить результат, имеющий физическую интерпретацию. Кепстр синусоидального входного сигнала будет равен нулю, поскольку после ДПФ мы получим одно значение, и кепстр не выявит никаких периодичностсей. При линейном предсказании полиномы предсказателя позволяют оценить форманты (центральную частоту и ширину полосы). Сами полиномы могут быть определены путем минимизации разницы между предсказанными значениями сигнала и фактическими его значениями. Тем самым по речи мы восстанавливаем речевой канал (линейную систему). Особенностью линейной системы является то, что она может быть представлена полюсной функцией. Порядок полинома pвыбирается заранее. Линейное предсказание позволяет определить первых три формантных частоты для 85-98% времени. При распознавании речи широко используются коэффициенты линейного предсказания (LinearPredictiveCoding, LRC). Этот метод позиционируется как наиболее эффективный метод анализа речевого сигнала (основной тон, форманты, спектр). Метод хорошо разделяет источник и вокальный тракт. Идея метода в том, что сигнал в данный момент времени может быть представлен как линейная комбинация предыдущих значений. А подбор коэффициентов осуществляется, таким образом, чтобы свойства цифрового фильтра совпадали со свойствами данного участка звуковой волны в пределах данного окна наблюдений. Используется 9 взвешивание на основе движущегося окна, а оценки получают методом наименьших квадратов. В большинстве случаев используется оконная функция Хемминга. 4. Передача сигналов по сверхузкополсному каналу Важным аспектом мультимедийной телефонии является передача речевых сообщений при минимально возможном количестве информации (десятки, единицы бит на секунду речи). К середине 80-х - началу 90-х годов прошлого столетия было установлено, что компрессия 119 речевых сигналов после 1200–600 бит/с для передачи по сверхузкополосному каналу может осуществляться только на основе распознавания каких-либо единиц речи (фонем, слогов, слов). Основанием для этого вывода послужило то, что в результате проведенных экспериментов была отвергнута идея непосредственного преобразования параметров речевого сигнала в последовательность единиц фонемной размерности. Стало ясно, что дальнейшее снижение объема информации о речевом сигнале может быть осуществлено только методом лингвистической компрессии, т.е. путем распознавания речеязыковых единиц. Лингвистическая компрессия предполагает замену анализатора речи (параметризатора) в передающей части вокодерной системы на распознаватель определенных единиц речи. На приемной же стороне вместо параметрического синтезатора речи может использоваться устройство для воспроизведения заданного набора (словаря) предварительно записанных единиц речи. При этом в канал связи будут поступать коды, каждый из которых соответствует определенной единице из заданного словаря. Поэтому если использовать в качестве единиц речи слова, то при определенном ограничении объема словаря и раздельном их произношении можно снизить информационный поток 120 сообщения в канале до десятков бит/с. Если в качестве МРЕ использовать более мелкие единицы речи (фонемы, дифоны, трифоны, слоги), то в этом случае для восстановления речи на приемном конце можно применить алгоритмы волнового синтеза или клонирования речи. Однако сложность алгоритмов работы классификатора резко возрастает, но значительно снижаются ограничения на форму передаваемой речи, т.е. на слитность и объем словаря. При этом количество информации на одну секунду передаваемой речи может быть снижено до 300 бит/с. За счет такого существенного снижения количества информации на единицу времени можно применять различные методы помехоустойчивого кодирования с тем, чтобы добиться высокой 10 надежности п ередаваемых речевых сообщений в зашумленных каналах связи. 5. Системы распознования голоса и их применение Системы распознавания голоса – это вычислительные системы, которые могут определять речь говорящего из общего потока. Эта технология связана с технологией распознавания речи, которая преобразует произнесенные слова в цифровые текстовые сигналы, путем проведения процесса распознавания речи машинами. В свою оередь одной из основных характеристик телекоммуникационной сети является предоставление возможности получения необходимой информации для обеспечения деятельности фирмы или удовлетворения личных потребностей пользователей. Непосредственно для лучшего удовлетворения потребностей пользователя в телекоммуникацию внедрили системы распознования голосом, что значительно смогло поднять уровень обслуживания и сервис в целом. В широком понимании речь идет о системах, которые осуществляют фонемное декодирование речевого акустического сигнала при произношении речевых сообщений свободным стилем, произвольным диктором, без учета проблемной ориентации и ограничений на объем словаря. В узком смысле системы распознования голоса облегчают решение частных задач, накладывая некоторые ограничения на требования к распознаванию естественно звучащей речи в классическом его понимании. Распознавание голоса используется и в биометрических целях безопасности, чтобы определить голос конкретного человека обеспечить удобный диалог между пользователем и машиной. Стоит отметить ограничения, которые накладываются на такие системы, а именно, такие параметры как: вид распознаваемой речи (пословное произношение с паузами в стиле речевых команд, четкое произношение без пауз в стиле «диктант», спонтанная речь) объем словаря (ограниченный до 100, 200 и т.д. слов, неограниченный) степень зависимости от диктора (дикторозависимые, дикторонезависимые) синтаксические ограничения (отдельные слова, типовые фразы; искусственный язык, естественный язык) условия приема речевых сигналов (контактные микрофоны; удаленные на расстояние более 1 м микрофоны) надежность и отказоустойчивость системы распознавания. Таким образом, диапазон разновидностей простирается от простых автономных устройств и детских игрушек, которые способны распознавать или синтезировать раздельно произносимые слова, цифры, города, имена и 11 т.п., до суперсложных систем распознавания естественно звучащей речи и ее синтеза для использования. Являясь основной составляющей любого дружественного интерфейса между машиной и человеком, система распознования голоса может быть встроена в различные приложения, например в системы голосового контроля, голосового доступа к информационным ресурсам, обучения языку с помощью компьютера, помощи недееспособным, доступа к чему-либо через системы голосовой верификации/идентификации. система распознования голоса весьма полезна как средство поиска и сортировки записанных аудио- и видеоданных. Распознавание речи также используется при вводе информации, что особенно удобно, когда глаза или руки человека заняты. Система распознования голоса позволяет людям, работающим в напряженной обстановке (врачи в больницах, рабочие на производстве, водители), применять компьютер для получения или ввода необходимой информации. Обычно системы распознования голоса используется в таких системах, как телефонные приложения, встроенные системы (системы набора номера, работа с карманным компьютером, управление автомобилем и т.д. и т.п.), мультимедийные приложения (например, системы обучения языку). 6. Недостатки систем распознования голоса На данном этапе развития рассмотренные нами системы, несмотря на свою практичность и широкое применение, имеют ряд существенных недостатков: Несмотря на технический прогресс в сфере распознавания голоса, шумы продолжает оставаться одной из основных проблем на мировом рынке распознавания голоса. Кроме того, голосовая биометрия отличается особенной чувствительностью по сравнению с другими видами биометрии. Приложения распознавания голоса, голосовой биометрии и распознавания речи оказываются очень чувствительными к шуму окружающей среды. В результате, любое шумовое нарушение препятствует точности распознавания. Также нарушается автоматизированный ответ на голосовую команду. Неспособность подавить окружающий шум является единственным фактором, который не дает системам распознавания голоса достичь высоких результатов и занять высокий процент доли на мировом рынке биометрических технологий. 12 Одной из основных проблем, препятствующих развитию технологий распознавания речи, является потребность в больших инвестиционных вложениях, требуемых для разработки и реализации. Крупномасштабное развертывание технологии распознавания голоса на предприятии является трудоемким процессом и требует огромных инвестиций. Экономия на бюджете приводит к ограничению тестирования технологии, следовательно, любой сбой может привести к большим потерям на предприятии. Поэтому альтернативные распознаванию голоса варианты, такие как swipe card и keypad по-прежнему активно используются во многих компаниях, особенно среди малого и среднего бизнеса, в силу их экономической эффективности. Таким образом, приложения распознавания голоса требуют больших материальных вложений, включая стоимость интеграционной системы, дополнительного оборудования и другие затраты. На мировом рынке распознавания голоса единой проблемой является невысокие показатели точности распознавания, не смотря на то, что в настоящее время системы распознавания голоса способны распознавать различные языки и определять подлинность голоса. Так как система включает в себя сложный процесс согласования баз данных с произносимыми командами и интегрированной технологией распознавания речи и голосовой верификации, даже незначительная ошибка в любой часть процесса может привести к неверному результату. Погрешность в распознавании речи является одним из основных ограничений в приложениях распознавания голоса. Однако некоторые производители начали разработку систем с очень низким уровнем погрешности в распознавании голоса. Они разработали системы с менее чем 4% неточных результатов (например, измерения голосовой биометрии неверно идентифицируют и отвергают голос человека, у которого есть доступ). Высокий уровень неточности в верификации диктора приводит к низкому уровню безопасности. В настоящее время системы распознавания голоса имеют высокий процент неточного результата. Чем выше скорость принятия неправильных решений, тем выше вероятность того, что, например, разрешение на въезд получит посторонний человек. Поскольку системы распознавания голоса очень чувствительны, они улавливают все, включая проблемы с горлом, кашель, простуду, изменение голоса в связи с болезнью, то существует высокая вероятность того, что посторонний человек сможет получить доступ к закрытой территории, причиной этому является низкий уровень безопасности в распознавании человека на основе голоса. 13 Заключение Касательно систем распознования речи и их использовании в телекоммуникации мы можем сделать следующие выводы: как было сказано мной во вступлении, и было подтверждено по ходу реферата - системы автоматического распознавания речи являются актуальной и ещё только развивающейся отрастью искусственного инетелекта, которая активно находит приминение в современной жизни и деятельности человека. В настоящее время речевые компьютерные технологии уже достаточно широко распространены и развиваются в нескольких направлениях: компьютерная телефония, системы защиты информации, системы искусственного интеллекта, компьютерная лингвистика, мультимедийные системы. Данные системы, как выяснилось, имеют ряд определенных недостатков, которые должны быть усовершенствованы по ходу развития прогресса. 14 Бибилографический список: Книги: Мазуренко И.Л. Компьютерные системы распознавания речи // Интеллектуальные системы. Москва, 1998. Гапочкин А.В. Классификация речевых сигналов. // Вестник МГУП имени Ивана Федорова. — 2015. Н. Н. Сажок // Управляющие системы и машины/речевые информационные технологии и системы. - 2017. Конспект лекций Сайты: https://ru.wikipedia.org https://academic.ru |