Расчетно графическая работа сводный анализ нейронных систем распознавания аудио материалов
Скачать 1.69 Mb.
|
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ ФГБОУ ВО «Брянский государственный технический университет» Кафедра «Компьютерные технологии и системы» РАСЧЕТНО ГРАФИЧЕСКАЯ РАБОТА Сводный анализ нейронных систем распознавания аудио материалов
Брянск 2022 ОглавлениеСписок терминов 4 введение 5 1.Анализ проблем и целей 6 1.1 Определение проблемы 6 1.2Постановка целей 7 1.3Выявление критериев анализа 7 1.4 План исследования 8 2.Теоретические аспекты области исследования 9 2.1 История развития систем распознавания речи 10 2.2Разновидности нейронных сетей в системах распознавания речи 14 2.3 Подготовка данных для систем распознавания речи 22 2.4 Описание процесса распознавания речи 24 4.Построение модели системы анализа нейронных систем 30 2.1 Определение входов и выхода 30 3.1Цели системы. 30 5.Проведение тестирования и анализ результатов 32 4.1Подготовка к проведению тестов 32 4.2Проверка качественного показателя WER 32 4.3Проверка количества пустых ответов сервисов 35 4.4Качественный анализ и интерпретация метрик 38 4.5Удобство использования 38 4.6 Пропускная способность 39 Заключение 41 Список источников 42 Список терминовНейронная сеть – математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей –сетей нервных клеток живого организма. Цифровой аудиоформат –формат представления звуковых данных, используемый при цифровой звукозаписи, а также для дальнейшего хранения записанного материала на компьютере и других электронных носителях информации, так называемых звуковых носителях. Аудио-файл – компьютерный файл, состоящий из информации об амплитуде и частоте звука, сохранённой для дальнейшего воспроизведения на компьютере или проигрывателе. WER – World Error Rate. Это просто расстояние по Левенштейну от того, что мы распознали, до того, что реально было сказано в фразе, поделить на количество слов, реально сказанных во фразах. PCM (Pulse Code Modulation) – технология, применяемая исключительно для оцифровки аналогового аудио, или для кодирования звука. RTS (Request To Send) – запрос на отправку. RTF (Rich Text Format) – к мета-теговый формат для хранения размеченных текстовых документов. Датасет –это механизм хранения информации, который предоставляет быстрый доступ к большим объемам данных. IVR (англ. Interactive Voice Response), интерактивное голосовое меню –система предварительно записанных голосовых сообщений, выполняющая функцию маршрутизации звонков внутри call-центра или УПАТС. Production модель – модель (сервис) используемый в широком доступе для конечного пользователя. gRPC APi – Это система удалённого вызова процедур с открытым исходным кодом. Speech recognition – автоматический процесс преобразования речевого сигнала в цифровую информацию. введениеИскусственные нейронные сети получили широкое распространение за последние 20 лет и позволили решать сложные задачи обработки данных, часто значительно превосходя точность других методов статистики и искусственного интеллекта, либо являясь единственно возможным методом решения отдельных задач. Нейронные сети (НС) успешно применяются в самых различных областях – бизнесе, медицине, технике, геологии, физике. Такой впечатляющий успех определяется несколькими причинами: НС – исключительно мощный метод моделирования, позволяющий воспроизводить чрезвычайно сложные зависимости; они нелинейные по своей природе и кроме того, нейронные сети справляются с проблемой размерности, которая не позволяет моделировать линейные зависимости в случае большого числа переменных. В данной работе будет рассмотрено несколько сервисов по распознаванию речи человека, и проведен их сравнительный анализ. Для достижения цели работы необходимо выполнить следующие задачи: Анализ проблемы и целей. Выявление метрик сравнения. Сравнение сервисов распознавания речи на основе выявленных метрик. Итоговое заключения. |