Главная страница
Навигация по странице:

  • РАСЧЕТНО ГРАФИЧЕСКАЯ РАБОТА

  • Расчетно графическая работа сводный анализ нейронных систем распознавания аудио материалов


    Скачать 1.69 Mb.
    НазваниеРасчетно графическая работа сводный анализ нейронных систем распознавания аудио материалов
    Дата04.06.2022
    Размер1.69 Mb.
    Формат файлаdocx
    Имя файлаMINISTERSTVO_NAUKI_I_VYSShEGO_OBRAZOVANIYa_ROSSIJSKOJ_FEDERATsII.docx
    ТипДокументы
    #569441
    страница1 из 7
      1   2   3   4   5   6   7

    МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

    ФГБОУ ВО «Брянский государственный технический университет»
    Кафедра «Компьютерные технологии и системы»

    РАСЧЕТНО ГРАФИЧЕСКАЯ РАБОТА

    Сводный анализ нейронных систем распознавания аудио материалов



    Выполнили

    студенты гр. О-21-ИСТ-вд-М:

    ____________________ Ашеко А.А.

    ______________ Потапова Л.Ю.

    Руководитель работы:

    Подвесовский А.Г.

    _________


    Брянск 2022

    Оглавление


    Список терминов 4

    введение 5

    1.Анализ проблем и целей 6

    1.1 Определение проблемы 6

    1.2Постановка целей 7

    1.3Выявление критериев анализа 7

    1.4 План исследования 8

    2.Теоретические аспекты области исследования 9

    2.1 История развития систем распознавания речи 10

    2.2Разновидности нейронных сетей в системах распознавания речи 14

    2.3 Подготовка данных для систем распознавания речи 22

    2.4 Описание процесса распознавания речи 24

    4.Построение модели системы анализа нейронных систем 30

    2.1 Определение входов и выхода 30

    3.1Цели системы. 30

    5.Проведение тестирования и анализ результатов 32

    4.1Подготовка к проведению тестов 32

    4.2Проверка качественного показателя WER 32

    4.3Проверка количества пустых ответов сервисов 35

    4.4Качественный анализ и интерпретация метрик 38

    4.5Удобство использования 38

    4.6 Пропускная способность 39

    Заключение 41

    Список источников 42



    Список терминов


    Нейронная сеть – математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей –сетей нервных клеток живого организма.

    Цифровой аудиоформат –формат представления звуковых данных, используемый при цифровой звукозаписи, а также для дальнейшего хранения записанного материала на компьютере и других электронных носителях информации, так называемых звуковых носителях.

    Аудио-файл –  компьютерный файл, состоящий из информации об амплитуде и частоте звука, сохранённой для дальнейшего воспроизведения на компьютере или проигрывателе.

    WER –  World Error Rate. Это просто расстояние по Левенштейну от того, что мы распознали, до того, что реально было сказано в фразе, поделить на количество слов, реально сказанных во фразах.

    PCM (Pulse Code Modulation) – технология, применяемая исключительно для оцифровки аналогового аудио, или для кодирования звука.

    RTS (Request To Send) – запрос на отправку.

    RTF (Rich Text Format) – к мета-теговый формат для хранения размеченных текстовых документов.

    Датасет –это механизм хранения информации, который предоставляет быстрый доступ к большим объемам данных.

    IVR (англ. Interactive Voice Response), интерактивное голосовое меню –система предварительно записанных голосовых сообщений, выполняющая функцию маршрутизации звонков внутри call-центра или УПАТС.

    Production модель – модель (сервис) используемый в широком доступе для конечного пользователя.

    gRPC APi – Это система удалённого вызова процедур с открытым исходным кодом.

    Speech recognition –  автоматический процесс преобразования речевого сигнала в цифровую информацию.

    введение


    Искусственные нейронные сети получили широкое распространение за последние 20 лет и позволили решать сложные задачи обработки данных, часто значительно превосходя точность других методов статистики и искусственного интеллекта, либо являясь единственно возможным методом решения отдельных задач. Нейронные сети (НС) успешно применяются в самых различных областях – бизнесе, медицине, технике, геологии, физике. Такой впечатляющий успех определяется несколькими причинами: НС – исключительно мощный метод моделирования, позволяющий воспроизводить чрезвычайно сложные зависимости; они нелинейные по своей природе и кроме того, нейронные сети справляются с проблемой размерности, которая не позволяет моделировать линейные зависимости в случае большого числа переменных. В данной работе будет рассмотрено несколько сервисов по распознаванию речи человека, и проведен их сравнительный анализ.

    Для достижения цели работы необходимо выполнить следующие задачи:

    1. Анализ проблемы и целей.

    2. Выявление метрик сравнения.

    3. Сравнение сервисов распознавания речи на основе выявленных метрик.

    4. Итоговое заключения.


    1.   1   2   3   4   5   6   7


    написать администратору сайта