Главная страница
Навигация по странице:

  • Сервис Лучше всех Хуже всех

  • Сервис RTS в потоке Потоки

  • Расчетно графическая работа сводный анализ нейронных систем распознавания аудио материалов


    Скачать 1.69 Mb.
    НазваниеРасчетно графическая работа сводный анализ нейронных систем распознавания аудио материалов
    Дата04.06.2022
    Размер1.69 Mb.
    Формат файлаdocx
    Имя файлаMINISTERSTVO_NAUKI_I_VYSShEGO_OBRAZOVANIYa_ROSSIJSKOJ_FEDERATsII.docx
    ТипДокументы
    #569441
    страница7 из 7
    1   2   3   4   5   6   7

    Качественный анализ и интерпретация метрик


    Неудивительно, что каждый силен в том домене, на котором фокусируется. Tinkoff –на звонках в банк, справочную, финансовые сервисы. «Сбер» имеет ультимативно лучшие результаты на своей "умной колонке" и в среднем неплохие показатели. IVR модель Сбера на доменах, где оригинальные данные лежат у нас в 8 kHz, показывает себя достойно, но она не ультимативно лучшая. Другой сюрприз –Google, который является аутсайдером данного исследования вместе с Ашмановым.

    Также интересно посчитать количество доменов, где production модели поставщика лучшие / худшие (допустим с неким "послаблением" в 10% от лучшего или худшего результата) (таблица 6).

    Таблица 6

    Сервис

    Лучше всех

    Хуже всех

    Ashmanov

    0

    7

    Google

    1

    13 (9 у enhanced)

    Sber

    2

    0

    Sber IVR

    4

    4

    Silero

    13

    0

    Tinkoff

    6

    2

    Yandex

    10

    1
      1. Удобство использования


    У Сбера на момент тестирования было только gRPC API. Это не самое удачное решение для SMB клиентов с точки зрения удобства, имеющее более высокий порог на вход. Также в их реализации вообще не приходят уведомления о важных ошибках. Документация запрятана внутри портала их экосистемы, но в целом кроме лишней "сложности" проблем особо там нет,

    У Яндекса и Google стандартная корпоративная документация. Она несложная, но иногда длиннее, чем хотелось бы. Есть и обычные и потоковые интерфейсы.

    У Tinkoff само распознавание работает по умолчанию также через gRPC, а поверх написаны клиенты. С учетом фокуса на enterprise это имеет больше смысла, чем то, что сделал Сбер.

    У сервиса Ашманова вообще нет документации, примеры не работают из коробки.

    У сервиса Silero публичное API весьма минималистичное и состоит из 2 методов с примерами. Есть также gRPC API, которое сейчас проходит тестирование.
      1. Пропускная способность


    Все API, которые мы протестировали (кроме Ашманова) показали себя довольно быстро по скорости. Для измерения пропускной способности мы считаем показатель секунд аудио в секунду на 1 поток распознавания (RTS = 1 / RTF). Чем выше RTS, тем лучше. (таблица 7)

    Таблица 7

    Сервис

    RTS в потоке

    Потоки

    Ashmanov

    0.2

    8

    Ashmanov

    1.7

    1

    Google

    4.3

    8

    Google enhanced

    2.9

    8

    Sber

    13.6

    8

    Sber

    14.1

    1

    Silero

    2.5

    8

    Silero

    3.8

    4

    Silero

    6.0

    8

    Silero

    9.7

    1

    Tinkoff

    1.4

    8

    Tinkoff

    2.2

    1

    Yandex

    5.5

    2



    Заключение


    Темой данной расчетной работы являлась проведение аналитической работы по сравнению систем распознаванию речи.

    В ходе нее были достигнуты следующие задачи:

    1. Анализ проблемы и целей

    2. Построение модели системы анализа

    3. Проведение аналитических работ

    Была обозначена проблема и на ее основе выбрана соответствующая цель и дополнительные цели.

    Работа произведена основываясь на уже готовые исследования [1]. В результате проведения аналитических работ, оценки качественных и количественных метрик была выдела наиболее благоприятная система – Silero, это и является результатом данной работы.

    Список источников


    1. https://habr.com/ru/post/559640/

    2. https://portal.tpu.ru/SHARED/s/STANKEVICHFV/publications/Tab/Neural_Network_Recognition_of_Musical_Instruments.pdf

    3. https://habr.com/ru/company/dataart/blog/343464/

    4. Бовбель Е И , Паршин В В Нейронные сети в системах автоматического распознавания речи – Зарубежная радиоэлектроника Успехи современной радиоэлектроники, 1998, №4, с 49-65.

    5. Юрков П.Ю., Федоров 4. В.М., Бабенко Л.К. Распознавание гласных фонем с помощью нейронных сетей. // Тезисы доклада Всероссийского семинара «Нейроинформатика и ее приложения». – Красноярск, 1999.

    6. Павлова А.И. Искусственные нейронные сети [Электронный ресурс]: учебное пособие/ Павлова А.И.–Электрон. текстовые данные.–Москва: Ай Пи Ар Медиа, 2021.–190 c.–Режим доступа: http://www.iprbookshop.ru/108228.html.–ЭБС «IPRbooks»

    7. Барский А.Б. Введение в нейронные сети [Электронный ресурс]: учебное пособие/ Барский А.Б.–Электрон. текстовые данные.–Москва, Саратов: Интернет-Университет Информационных Технологий (ИНТУИТ), Ай Пи Ар Медиа, 2020.–357 c.–Режим доступа: http://www.iprbookshop.ru/89426.html.–ЭБС «IPRbooks»

    8. Сергиенко, А. Б. Цифровая обработка сигналов / А.Б. Сергиенко. – СПб.: Питер, 2007. – С. 751.

    9. Галушка, В.В. Формирование обучающей выборки при использовании искусственных нейронных сетей в задачах поиска ошибок баз данных / В.В. Галушка, В.А. Фатхи [Электронный ресурс] // Инженерный вестник Дона. 2013. №2.: http://www.ivdon.ru/magazine/archive/n2y2013/1597
    1   2   3   4   5   6   7


    написать администратору сайта