Главная страница
Навигация по странице:

  • Датасет Ashmanov Google

  • Silero new Tinkoff Yandex

  • Расчетно графическая работа сводный анализ нейронных систем распознавания аудио материалов


    Скачать 1.69 Mb.
    НазваниеРасчетно графическая работа сводный анализ нейронных систем распознавания аудио материалов
    Дата04.06.2022
    Размер1.69 Mb.
    Формат файлаdocx
    Имя файлаMINISTERSTVO_NAUKI_I_VYSShEGO_OBRAZOVANIYa_ROSSIJSKOJ_FEDERATsII.docx
    ТипДокументы
    #569441
    страница5 из 7
    1   2   3   4   5   6   7

    Построение модели системы анализа нейронных систем



    2.1 Определение входов и выхода


    Определим модель системы в виде схемы, отображающей входы, внутреннее состояние системы и выход (рис. 17).



    Рис. 17 Демонстрация модели системы
    На таблице 2 представлено разделение входов по их типам (табл. 3).

    Таблица 3

    Вход

    Тип

    Выбор систем для тестирования

    Управление

    Выбор метрик тестирования

    Управление

    Методология тестирования

    Управление

    Затраты на тестирование

    Возмущения
      1. Цели системы.


    Цель – анализ систем распознавания речи по выбранным метрикам.

    Главной целью системы является поиск наиболее удачного средства распознавания речи.

    Второстепенные цели возникающие в процессе проведения работ:

    • Поиск рабочих систем для их анализа.

    • Наработка датасета данных для проведения анализа.

    • Настройка оборудования для проведения тестирования.



    1. Проведение тестирования и анализ результатов



      1. Подготовка к проведению тестов


    Для проведения сравнительного анализа систем распознавания речи были отобраны 9 средств (наиболее распространённых):

    • Ashmanov

    • Google (default)

    • Google (enchanced)

    • Sber (IVR)

    • Sber

    • Silero

    • Silero new

    • Tinkoff

    • Yandex

    Проведение тестирования будет происходить на машине, имеющей вычислительные устройства как: процессор – i7 -12700KF, видеокарта RTX 2080Ti.
      1. Проверка качественного показателя WER


    Для проверки качественного показателя (и в дальнейшем) WER были выбраны датасеты длинною в 1 час. Тематики данных датасетов различны, и не повторяются (чтение, публичные выступления, звонки (такси) и т.д.).

    На таблице 3 представлены данные по метрике WER (%) (чем ниже показатель, тем лучше):

    Таблица 4

    Показатель метрики WER

    Датасет

    Ashmanov

    Google

    Google

    Sber

    Sber

    Silero

    Silero new

    Tinkoff

    Yandex

    Тип издания




    default

    enhanced

    IVR




    prod

    bleeding edge







    Чтение

    10

    11

    10




    7

    7

    6

    8

    13

    Умная колонка

    35

    24







    6

    30

    27

    27

    14

    Энергосбыт

    24

    39

    41




    20

    16

    11

    15

    13

    Звонки (такси)

    47

    16

    18

    22

    32

    13

    12

    21

    15

    Публичные выступления

    28

    27

    24




    18

    14

    12

    20

    21

    Финансы (оператор)

    31

    37

    37

    24

    33

    25

    24

    23

    22

    Аэропорт

    31

    36

    37




    26

    21

    22

    25

    21

    Аудио книги

    22

    60

    54




    19

    24

    20

    28

    22

    Радио

    24

    61

    40




    26

    18

    15

    27

    23

    Умная колонка (далеко)

    42

    49







    8

    41

    27

    52

    18

    Банк

    62

    30

    32

    24

    28

    39

    35

    28

    25

    Звонки (e-commerce)

    34

    45

    43

    34

    45

    29

    29

    31

    28

    Заседания суда

    34

    29

    29




    31

    20

    20

    31

    29

    Yellow pages

    45

    43

    49




    41

    32

    29

    31

    30

    Финансы (клиент)

    43

    55

    59

    41

    67

    38

    37

    33

    32

    YouTube

    32

    50

    41




    34

    28

    25

    38

    32

    Звонки (пранки)

    44

    72

    66




    46

    41

    35

    38

    35

    МедицНСкие термины

    50

    37

    40




    50

    35

    33

    42

    38

    Диспетчерская

    61

    68

    68




    54

    41

    32

    43

    42

    Стихи, песни и рэп

    54

    70

    60




    61

    43

    41

    56

    54

    Справочная

    39

    50

    53




    32

    25

    20

    27






    Пустые ячейки таблицы означают то, что результат исследования в данном сервисе \ датасете не является объективным для приведения его в сводную таблицу (возникали ошибки в процессе исследования или невозможность проведения тестирования).

    Из таблицы следует, что лучший результат в процессе тестирования показал сервис Silero New. Его среднеарифметический показатель WER оказался наименьшим.
      1. 1   2   3   4   5   6   7


    написать администратору сайта