Главная страница
Навигация по странице:

  • ДИПЛОМНЫЙ ПРОЕКТ

  • ДП.09.02.01.4А–06. ОФ.ПЗ

  • 1.2 Методы распознавания речи, современные речевые технологии

  • Проектирование системы голосового управления периферийными устройствами. Проектирование системы голосового управления периферийными устро. Проектирование системы голосового управления периферийными устройствами по образовательной программе среднего профессионального образования


    Скачать 2.07 Mb.
    НазваниеПроектирование системы голосового управления периферийными устройствами по образовательной программе среднего профессионального образования
    АнкорПроектирование системы голосового управления периферийными устройствами
    Дата23.06.2022
    Размер2.07 Mb.
    Формат файлаdocx
    Имя файлаПроектирование системы голосового управления периферийными устро.docx
    ТипПояснительная записка
    #612521
    страница1 из 2
      1   2

    МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ И МОЛОДЁЖНОЙ ПОЛИТИКИ КРАСНОДАРСКОГО КРАЯ

    ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ПРОФЕССИОНАЛЬНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ КРАСНОДАРСКОГО КРАЯ «АРМАВИРСКИЙ МЕХАНИКО-ТЕХНОЛОГИЧЕСКИЙ ТЕХНИКУМ»

    К защите допущен Дата защиты «__» _____20__г.

    Приказ №____от «__» ________20___г. Протокол ГЭК №____

    Заместитель по УР________________ Оценка ГЭК ___________

    Секретарь ГЭК_____________

    (подпись)
    ДИПЛОМНЫЙ ПРОЕКТ
    на тему: Проектирование системы голосового управления периферийными устройствами

    по образовательной программе среднего профессионального образования 09.02.01 «Компьютерные системы и комплексы»
    Пояснительная записка

    ДП.09.02.01.4А–06. ОФ.ПЗ

    шифр
    Дипломный проект состоит из пояснительной записки на 38 листах, приложения на 2 листах, графической части на 2 листах.


    Дипломник
    Руководитель проекта
    Консультанты:

    нормоконтролер

    Дудник Д.А______________________ (фамилия, инициалы, подпись, дата)

    Рендович Е.А._____________________

    (фамилия, инициалы, подпись, дата)
    Конюшенко А. В.___________________ (фамилия, инициалы, подпись, дата)


    2022

    СОДЕРЖАНИЕ




    Введение

    3

    1

    Теоретические основы голосового управления периферийных устройств


    6

    1.1

    Назначение устройств автоматического управления голосом

    6

    1.2

    Методы распознавания речи, современные речевые технологии

    8

    1.3

    Состояние проблемы автоматического распознавания речи

    12

    1.4

    Обзор устройств чтения аудио сигналов

    13

    2

    Модель голосового управления периферийными устройствами

    21

    2.1

    Предпосылки к созданию «умной» системы

    21

    2.2

    Область применения устройств автоматического управления голосом


    22

    2.3

    Подбор устройств для разработки аудиосистемы

    25

    3

    Разработка устройства для голосового управления периферийными устройствами


    30

    3.1

    Разработка архитектуры системы управления периферийными устройствами


    30

    3.2

    Разработка схемы управления электрическими устройствами

    31

    3.3

    Описание построения структурной и принципиальной схемы работы устройства


    32

    3.4

    Мероприятия по противопожарной безопасности

    34




    Заключение

    35




    Список литературы

    Приложения

    37

    39











    ВВЕДЕНИЕ

    В настоящее время вычислительная техника используется во многих областях человеческой деятельности, являясь удобным и многофункциональным инструментом для решения широкого круга задач.

    Голосовое управление — способ взаимодействия с устройством при помощи голоса. В отличие от распознавания речи, голосовое управление предназначено для ввода управляющих команд — например, «открыть файл», «показать погоду на завтра», «выключить звук». И хотя с помощью системы голосового управления можно вводить и контент (числа и текст), такой ввод будет крайне некомфортным, поскольку оператору придётся делать четкие паузы между отдельными словами.

    Первыми бытовыми устройствами с голосовым управлением были стиральные машины и сотовые телефоны. В настоящее время голосовое управление имеют бытовые компьютеры, автомобили, музыкальные центры, кондиционеры, лифты и проч.

    Распознавание речи человека является одной из сложных научно-технических задач. В настоящее время пользователями вычислительных машин и средств, оснащенных вычислительными машинами, становятся люди, не являющиеся специалистами в области программирования. Проблема речевого управления возникла, кроме того, в связи с тем, что в некоторых областях применения речь стала единственно возможным средством общения с техникой (в условиях перегрузок, темноты или резкого изменения освещенности, при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, и т.д.). Хотя в этой области и достигнуты существенные успехи, тем не менее, системы распознавания еще весьма далеки по своим возможностям от человеческих.

    Распознавание отдельных команд несколько проще, чем распознавание слитного текста, и не требует значительных вычислительных мощностей. Благодаря этому сегодня существует богатый выбор программного обеспечения и оборудования (специализированных цифровых сигнальных процессоров), имеющих небольшую стоимость и высокое качество распознавания команд.

    Основная цель усовершенствования и развития интерфейса человек-компьютер заключается в организации обмена информацией с ЭВМ таким образом, чтобы:

    • снизить время освоения программных и аппаратных средств;

    • снизить уровень ошибок при передаче информации;

    • сделать работу с ЭВМ возможной для людей, не имеющих возможности пользоваться традиционными средствами интерфейса;

    • снизить утомляемость, увеличить субъективное удовлетворение пользователя от работы.

    Таким образом, целью дипломного проекта является спроектировать устройство для голосового управления, которое может включать и выключать в помещении электромеханические устройства. Разработанная в результате система обеспечит основу для последующей разработки модели много модального распознавания больших словарей русской речи и выполнения множества речевых команд.

    Для достижения поставленных целей необходимо применение средств взаимодействия, более полно использующих коммуникативные способности человека. Человек наделен большим количеством возможностей воспринимать и передавать информацию: зрение, слух (в том числе устная речь), жесты и движения, мимика, осязание и другими. Во взаимодействии человека и компьютера существуют два информационных потока:

    • управляющие команды и данные, передаваемые компьютеру для обработки;

    • результаты вычислений и другая информация, представляемая компьютером пользователю.

    В дипломном проекте необходимо решить следующие задачи:

    • изучить литературу, соответствующую данной теме;

    • провести анализ речевых сигналов и их параметров;

    • провести исследование и классификацию методов распознавания речи и голосового управления;

    • разработать модели распознавания голосовых команд управления технологическим комплексом

    Для обеспечения эффективного речевого диалога между пользователем и ЭВМ необходимы устойчивые системы распознавания речи.

    В настоящее время работы по распознаванию речи не только не потеряли актуальности, но и находят для себя все новые и новые области для применения. Здесь мы рассмотрим системы первой группы - системы распознавания речи и их частный случай - системы распознавания речевых команд.
    1 ГОЛОсоВОе УПРАВЛЕНИЕ ТЕХНИЧЕСКИМИ УСТРОЙСТВАМИ

    1.1 Назначение устройств автоматического управления голосом

    Обработка и передача речевых сигналов является важной составляющей современной радиотехники и ряда смежных областей. Доля данных, передаваемых в форме речевых сигналов, остается значительной, и их большая часть представлена в цифровом виде. Кроме того, речевые и звуковые сигналы являются важными компонентами видеосигналов. Велика роль и биометрических систем, использующих для идентификации личности речевые сигналы. Все это позволяет сделать вывод об актуальности исследований и знаний в области цифровой обработки речевых сигналов.

    Методы и алгоритмы обработки речевых сигналов крайне многообразны, что вызвано кругом решаемых практических задач. Но существуют и общие термины, подходы и методы, получившие наиболее широкое применение.

    Системы автоматического распознавания речи (САРР) — это элемент процесса обработки речи, назначение которого — обеспечить удобный диалог между пользователем и машиной. В широком понимании речь идет о системах, которые осуществляют фонемное декодирование речевого акустического сигнала при произношении речевых сообщений свободным стилем, произвольным диктором, без учета проблемной ориентации и ограничений на объем словаря. В узком смысле САРР облегчают решение частных задач, накладывая некоторые ограничения на требования к распознаванию естественно звучащей речи в классическом его понимании. Таким образом, диапазон разновидностей САРР простирается от простых автономных устройств и детских игрушек, которые способны распознавать или синтезировать раздельно произносимые слова, цифры, города, имена и т.п., до суперсложных систем распознавания естественно звучащей речи и ее синтеза для использования, например, в качестве секретаря-референта (IBM VoiceType Simply Speaking Gold).

    Являясь основной составляющей любого дружественного интерфейса между машиной и человеком, САРР может быть встроена в различные приложения, например в системы голосового контроля, голосового доступа к информационным ресурсам, обучения языку с помощью компьютера, помощи недееспособным, доступа к чему-либо через системы голосовой верификации/идентификации.

    САРР весьма полезна как средство поиска и сортировки записанных аудио- и видеоданных. Распознавание речи также используется при вводе информации, что особенно удобно, когда глаза или руки человека заняты. САРР позволяет людям, работающим в напряженной обстановке (врачи в больницах, рабочие на производстве, водители), применять компьютер для получения или ввода необходимой информации.

    Обычно САРР используется в таких системах, как телефонные приложения, встроенные системы (системы набора номера, работа с карманным компьютером, управление автомобилем и т.д.), мультимедийные приложения (системы обучения языку).

    Голосовые ключи

    Голосовыми ключами иногда называют системы автоматического распознавания личности по речи. Обычно это биометрические системы либо санкционированного доступа к информации, либо физического доступа к объектам. Следует различать две разновидности таких систем: системы верификации и системы идентификации. При верификации пользователь предварительно предъявляет свой код, то есть заявляет о себе тем или иным способом, а затем вслух произносит пароль или какую-нибудь произвольную фразу. Система проверяет, соответствует ли данный голос тем эталонам, которые были вызваны из памяти компьютера по предъявленному коду.

    При идентификации предварительного заявления о пользователе не делается. В этом случае выполняется сравнение данного голоса со всеми эталонами и затем конкретно определяется, кем является опознаваемый по голосу человек. Сегодня известно множество подходов и методов для реализации таких систем, и все они, как правило, отличаются друг от друга — сколько разработчиков, столько и их разновидностей. То же самое можно сказать и о системах распознавания речи. Поэтому судить о характеристиках конкретных систем распознавания речи и распознавания личности по речи допустимо только с помощью специальных тестовых баз данных.

    1.2 Методы распознавания речи, современные речевые технологии

    В настоящее время существуют многочисленные технические средства, способные распознавать произносимые речевые сообщения: компьютеры, автомобили, телефоны и др.

    На первый взгляд, все кажется очень просто: человек произносит слово (фразу) — техническая система реагирует на него: либо выполняет команду, содержащуюся в слове (фразе), либо набирает диктуемый текст. Современные системы распознавания речи дают возможность пользователям диктовать слова (фразы) в обычной разговорной манере.

    Однако процесс непрерывного распознавания речи, дающий до 95 % качества распознавания при оптимальных условиях, все-таки дает на 100 знаков 4–5 ошибок. Около 200 ошибок на странице формата A4 — слишком много для профессиональной работы. Как правило, система распознавания речи состоит из двух моделей: акустической и лингвистической. Компьютер записывает звук речи в виде цифрового сигнала и делит его на аудиофрагменты длительностью несколько миллисекунд.

    Акустическая модель отвечает за преобразование речевого сигнала в набор признаков, в которых отображена информация о содержании речевого сообщения. Программа выполняет сложный анализ речи, сравнивая аудиофрагменты с записанными в память речевыми образцами. Лингвистическая модель анализирует информацию, получаемую от акустической модели, и формирует окончательный результат распознавания. На основе вероятностного расчета компьютер определяет, что именно мог произнести пользователь.

    В процессе обучения, компьютер распознает наиболее важные признаки произношения пользователем фонем и записывает полученные данные в виде профиля пользователя. Для таких систем важно, чтобы в дальнейшем во время диктовки пользователь, по возможности, Возможности современных технологий Увеличение вычислительных мощностей мобильных устройств позволило создать для них программы с функцией распознавания речи.

    Среди таких программ стоит отметить приложение Microsoft Voice Command, Siri, голосовой переводчик Google Translate, Алиса и т. д. Эти приложения способны распознавать фразы, произнесенные пользователем, и выполнять команду, либо переводить их на другие языки. Интеллектуальные речевые системы, позволяющие автоматически синтезировать и распознавать речевой сигнал, являются следующей ступенью развития интерактивных голосовых систем (IVR).

    Использование интерактивных телефонных приложений в настоящее время не веяние моды, а необходимость. Снижение нагрузки на операторов контакт-центров, и как следствие: сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность использования подобных продуктов. Таким образом, в приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи.

    При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека. Проблемы развития систем распознавания речи.

    Рассмотрим некоторые аспекты, препятствующие глобальному решению проблемы качественного распознавания речи.

    1. Темп речи пользователей варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные — это звуки, при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными). Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. Это свойство называется временной нестационарностью образцов речевого сигнала.

    2. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намного сильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарностью образцов речевого сигнала.

    3. Изменение темпа речи и четкости произношения является причиной коартикуляционной нестационарности, означающей изменение взаимовлияния соседних звуков от образца к образцу.

    4. Проблема кластеризации слитной речи: в непрерывном речевом потоке трудно распознать речевые единицы из-за неточного определения границ. Это лишь часть причин, препятствующих полной реализации систем распознавания речи.

    Основными областями применения систем распознавания речи являются:

    1. Автоматизированный пользовательский интерфейс. На сегодняшний день для многих людей общение с компьютером все еще вызывает затруднения. Системы распознавания речи позволяют преодолевать эти трудности. Преимущество систем распознавания голоса состоит в том, что они намного быстрее любых других типов интерфейсов. Голосовая программа электронной почты позволяет включать компьютер, диктовать и отправлять сообщения, не прикасаясь к мыши и клавиатуре. Также люди с физическими недостатками получат более эффективный способ взаимодействия с компьютером. Наиболее очевидное использование системы распознавания слитной речи заключается в создании систем автоматического стенографирования, которые могут заменять секретарей при диктовке голосом текстов писем, заметок в ежедневник, докладов. В таком случае происходит не только экономия за счет сокращения работы стенографиста, но и повышение степени конфиденциальности информации.

    2. Управление мобильными устройствами. Известно, насколько неудобно и опасно использование мобильных телефонов с обычным (тактильным) способом набора номера за рулем. Поэтому в последнее время популярностью пользуются мобильные телефоны с голосовым набором. Достаточно произнести имя абонента, и соединение произойдет автоматически. Аудиосистемы контроля и управления уже применяются в автомобилях некоторых производителей. Владелец автомобиля голосом подает команды управления температурным режимом, радио, навигационной системой, которые воспринимают голос и выполняют команды (DIVO и VoiceCommander).

    3. Информационные услуги. Технология распознавания голоса быстро изменила рынок телефонных услуг. Системы, распознающие разговорную речь, работают в информационных телефонных центрах. Эти системы позволяют автоматизировать диалог с клиентом, в результате чего отпадает необходимость в огромном количестве операторов, принимающих телефонные звонки, и избавляя клиентов от длительного ожидания освободившегося оператора на линии.

    4. Интерфейсы разграничения доступа. За последнее десятилетие области применения таких систем значительно расширились и продолжают расширяться. Они применяются, в частности, для контроля ограниченного доступа к объекту с помощью распознавания лица и речи человека, выполнения финансовых операций при помощи речи и сенсорных экранов банкоматов.

    Таким образом, ограничения применения систем распознавания речи в рамках наиболее традиционных приложений позволяют сделать вывод о необходимости поиска потенциально новых решений в области распознавания речи. В ближайшее десятилетие задача распознавания и понимания естественной речи вне зависимости от языка и диктора будет занимать центральное место в речевых технологиях.
      1   2


    написать администратору сайта