Главная страница
Навигация по странице:

  • 3.2. Речевое сообщение и речевой сигнал

  • 3.3. Речевые форманты

  • 3.5. Значение эмоциональной составляющей речи

  • 3.6. Понятность и разборчивость речи

  • 3.7. Измерение разборчивости речи.

  • Основы ФАп. Учебное пособие для студентов высших учебных заведений по специальности


    Скачать 7.93 Mb.
    НазваниеУчебное пособие для студентов высших учебных заведений по специальности
    Дата19.04.2022
    Размер7.93 Mb.
    Формат файлаdoc
    Имя файлаОсновы ФАп.doc
    ТипУчебное пособие
    #485368
    страница5 из 28
    1   2   3   4   5   6   7   8   9   ...   28
    ГЛАВА 3. ВОСПРИЯТИЕ И РАСПОЗНАВАНИЕ РЕЧЕВЫХ ОБРАЗОВ
    3.1 Роль речевого общения

    Человек воспринимает окружающую действительность через органы чувств. Они в совокупности с центральной нервной системой образуют по терминологии великого русского ученого физиолога И.П.Павлова первую сигнальную систему. Вторая сигнальная система по учению И.П.Павлова образуется на основе речевого общения. Он писал: "Человек прежде всего воспринимает действительность через вторую сигнальную сис­тему". И.П.Павлов подчеркивал важную роль второй сигнальной системы во взаимоотношениях людей. Известно выражение "Речь лечит, но речь и ранит". Каждый испытал на себе справедливость этого утверждения.

    Вопросы формирования речи, ее свойств, ее восприятия важные составляющие изучаемого курса. На основе понимания этих процессов выдвигают технические требования к трактам передачи сигналов, к построению систем и устройств электрической связи, звукового и телевизионного вещания, звукоусиления, перевода речей (в том числе, автоматического), переговорных устройств, средств анализа и синтеза речи (вокодеров), аппаратуры управления голосом различных машин и приборов, слушающих, печатающих, говорящих автоматов, устройств кодирования и скрытной передачи речевых сообщений, опознания человека "по голосу" и некоторых других устройств [1, 2, 3, 8,17].
    3.2. Речевое сообщение и речевой сигнал

    Приступая к рассмотрению вопросов формирования речи, напомним некоторые определения, прежде всего, содержание понятий "речевое сообщение" и "речевой сигнал" [1,2, 4, 5].

    Речевое сообщение создается в мозгу человека. Затем оно превращается в команды нервной системы. Они управляют движениями органов речи. Эти движения формируют в речеобразующем тракте акустические речевые сигналы. Возникшие сигналы излучаются в окружающее человека пространство в виде акустических (звуковых) волн.

    В электрических трактах связи, звукового и телевизионного вещания сигналы передаются переменными электрическими токами или электромагнитными полями, воспроизводятся громкоговорителями или головными телефонами и воздействуют на органы слуха человека. Далее акустические колебания воздуха преобразуются в механические колебания барабанной перепонки, слуховыми косточками среднего уха и во внутреннем ухе, вращаются в нервные раздражения, передаваемые в мозг. Центральная нервная система расшифровывает нервные импульсы и воссоздает первоначальное сообщение. Из изложенного видно, что понятия "сообщение" и "сигнал" отличаются. Сообщение имеет смысловой (семантический) актер, а сигнал является его отображением в виде акустических или электромагнитных процессов.

    Для получения шумозащищенного речевого сигнала используют гортань как источник речевых колебаний. Эти колебания создаются при произнесении звуков речи и являются чисто механическими колебаниями тканей, прилегающих к гортани. Наиболее интенсивные колебания получаются на низких частотах. Скорость колебаний этих тканей уменьшается к высоким частотам по квадратичному закону. При увеличении частоты вдвое скорость колебаний уменьшается вчетверо, что соответствует снижению уровня на 12 дБ/окт


    Рисунок 3.1. Процесс образования первичного речевого сообщения
    Процесс образования первичного речевого сообщения может быть представлен упрощенной схемой (рис.3.1). Здесь 1 -источник потока воздуха (легкие), 2 - голосовые связки, 3 и 5 -полости гортани и рта, 4 - соединяющий их проход, 6 - губы говорящего. В формировании некоторых звуков участвуют полости и проходы носа. В форме, более привычной для инженера, речеобразующие органы представлены схемой (рис.3.2), на нем 1 - источник потока воздуха (легкие), 2 - своеобразный регулятор потока - голосовые связки, 3 - полость гортани, 4 -полость рта, 5 - полости носа, 6 и 7 соответственно ротовой и носовой выходы.


    Рисунок 3.2. Процесс образования первичного речевого сообщения

    3.3. Речевые форманты

    Характер первичного речевого сигнала зависит от интенсивности потока воздуха и состава возбуждаемых колебаний. В большинстве случаев спектр речевого сигнала занимает область частот 0,15...7 кГц [1,2, 4,5]. Колебания голосовых связок в пер­вом приближении можно считать периодическими колебаниями сложной формы, образующими кроме низшей частоты - частоты основного тона - гармоники, (рис. 3.3,а). Их число в неко­торых случаях превышает 40. На линейчатый спектр колебаний голосовых связок накладывается передаточная функция речеобразующего тракта (рис. 3.3,б).



    Рисунок 3.3. Спектр речевого сигнала и передаточная функция.
    Форма передаточной функции определяется конфигурацией и объемами полостей гортани, рта, носа, положением нижней челюсти, языка, зубов, губ. На нижних частотах линейные размеры полостей много меньше длины волны возбуждаемых колебаний. Поэтому полости представляют собой колебательные системы с сосредоточенными параметрами. В области нескольких тысяч герц линейные размеры полостей и длины волн возбуждаемых колебаний становятся соизмеримыми. Тогда полости следует рассматривать как колебательные системы с распределенными параметрами. В общем случае значения резонансных частот зависит от положения названных выше частей речообразующего тракта. Гармоники, возбужденные колебаниями голосовых связок и попадающие в области резонансных частот, усиливаются, другие гармоники ослабляются (рис3.3,в).

    Области максимумов спектра называют речевыми формантами. Заметим, что некоторые исследователи называют формантами только те спектральные максимумы, которые определяют конкретные звуки речи. Второе определение формант, по-видимому, более точно, т.к. для некоторых голосов огибающая спектра в пределах одной формантной области, особенно второй, не имеет формы одногорбой кривой. Поэтому говорят о нескольких формантах в одной формантной области. Такова позиция ученых-фонетиков. Однако и ученые технического профиля придерживаются первого определения формант. Заметим, что центральная частота формантной области и резонансная частота (мода) полости речеобразующего тракта не являются синонимами. Первая лежит ниже второй. Формантные области звуков русской речи представлены в таблице 3.1.

    Из приведенных данных ясно, почему звуки С и Ф совершенно не передаются по телефонным каналам. Частоты их формантных областей лежат за пределами верхней частоты ка­нала 3400 Гц. Это замечание в некоторой мере касается и звука 3.

    Речевые форманты по мере возрастания их частоты обозначаются как F1, F2 и т.д., а их центральные частоты обозначаются F1, F2 и т.д. Гласные звуки возбуждаются почти периодическими колебаниями голосовых связок. В образовании согласных звуков главная роль принадлежит потоку воздуха с шумовым спектром. Голосовые связки в этом процессе почти не участвуют. Но и этим случаем характер звука определяется положением и движениями нижней челюсти, языка, зубов и губ.
    Таблица 3.1. Формантные области звуков русской речи



    Звучание различных гласных определяется различным распределением формантных областей. Определяющую роль играет соотношение центральных частот первой и второй формантных областей. Связь этих частот в фонетике выражают графически, так называемым, четырехугольником гласных, который строят в виде функции центральной частоты второй формантной области от центральной частоты первой формантной области (рис.3.5). Слева вверху на этом графике расположена точка, соответствующая звуку И; левее и ниже - звуку Е. Затем график круто, почти вертикально спускается к точке, опреде­ляющей звук А, поворачивает влево к точкам О и У и, наконец, возвращается к точке звука И.


    Рисунок 3.5. Четырехугольник гласных
    Важная характеристика звуков речи - частота основного тона. Она определяется частотой следования импульсов воздуха, создаваемых голосовыми связками. Частоты основного тона у большинства людей лежат в пределах от 70 до 450 Гц. Если голосовые связки тонки или сильно напряжены, частота основного тона высока, если связки толсты или менее напряжены, частота основного тона ниже. Область частот основного тона индивидуальна. Изменения этой частоты лишь немного превышают диапазон одной октавы. При произношении звуков речи частота основного тона изменяется в зависимости от ударения и подчеркивания (акцентирования) звуков и слов. Изменения частоты основного тона называют интонацией. По изменению частоты основного тона можно до некоторой степени судить об эмоциональном состоянии человека.

    Основной тон, интонация, манера произношения ("устный почерк") говорящего и тембр (окраска) голоса служат для опознания личности человека. Степень достоверности опознания по голосу выше, чем по отпечаткам пальцев. Эти свойства речи используют в аппаратуре, срабатывающей только от опреде­ленного голоса, а также в криминалистике.
    3.4. Фонемы

    Понятие "форманта" относится к спектральному составу звуков речи. При переходе к семантическому (смысловому) рассмотрению звуков речи употребляют термин "фонема". Фонема - типизированная, образцовая форма звуков речи. Это то, что человек намеревается произнести, а звук речи - это то, что он фактически произносит. Фонему сравнивают с образцово, кал­лиграфически написанными буквами (графемами) в отличие от множества форм рукописного изображения букв [1,2, 4, 5,17].

    Речь состоит из звуков, слогов, слов, фраз и более крупных построений - периодов. За первичное смысловое понятие в языке принимают слово. Но наименьшим элементом речи считается звук. Точного определения понятия звуков нет.

    Образный подход к понятию звука находят в сравнении звуков с письменными элементами речи - буквами. Начертание букв определяется индивидуальностью человека. То же самое можно сказать о произношении звуков. Произношение звуков зависит от их положения в слове, ударения, интонации. Сложные звуки (слоги, слова) в фонетическом отношении не являются простыми цепочками, последовательностями фонем, т.к. фонема в одном сочетании имеет одну форму, в другом - иную. Исследователи насчитывают несколько тысяч звуков речи, отличающихся друг от друга. Поэтому процесс распознавания фонем имеет статистический характер. Несмотря на это разнооб­разие все же была проведена классификация и типизация звуков речи, приведшая к возникновению понятия "фонема".

    Звуки в изолированном виде употребляются редко, хотя и в этом случае звуки принимают за слово. Это возгласы, междометия, союзы вида "а!", "о!", "и", "у". В словах, являющихся наименьшими смысловыми единицами, звуки соединены между собою в слоги. Но слоги, как и звуки, обычно самостоятельно не существуют. Границы между слогами так же трудно определить, как и между звуками речи. Границы между словами различаются более ясно, хотя ряд слов при беглом произношении сливаются в одно целое. Эти обстоятельства затрудняют построение устройств автоматического анализа и синтеза речи.

    Слитное звучание характерно для произношения предлогов, союзов и других коротких слов. Некоторая связь обнаруживается даже между протяженными словами. Вероятность появления каждого звука и его произношения зависят от предшествующего и последующего звуков. В свою очередь слова во фразах и интонация при их произношении связаны друг с другом по смыслу.

    Индивидуальные особенности речи характеризуются абсолютными параметрами - положением частей речеобразующего тракта (языка, рта, губ) и относительными параметрами (формой и степенью напряжения голосовых связок), определяющими частоту основного тона. Каждый звук речи характеризуется частотой основного тона, формой и положением на оси частот формант.

    В русском языке насчитывают 41 основную и 3 неясно звучащие фонемы: 6 гласных (а, о, у, э, и, ы), одну полугласную (й) и 34 согласных. Гласные звуки я, ю, ё, е соответствуют составным фонемам йа, йу, йо.,йэ. Согласных фонем больше, чем - согласных букв, т.к.: ряд согласных букв соответствуют двум фонемам: мягкой и твердой. Только твердых фонем - три (ш, ж, ц) только мягких - одна (ч). Остальные 15 существуют в двух формах: мягкой и твердой.

    По характеру звучания звуки речи подразделяют на звонкие и глухие. Первые образуются с участием голосовых связок. Находясь под напряжением, они под действием воздушного потока, идущего из легких, периодически раздвигаются. В результате создается прерывистый, импульсный поток воздуха. Импульсы следуют примерно с постоянной частотой. При произнесении глухих звуков голосовые связки расслаблены, не вибрируют, и поток воздуха свободно проходит в полость рта и здесь, встречая на своем пути преграды - язык, зубы, губы - образует завихрения, создающие шум со сплошным спектром.

    По способу образования согласные подразделяют на сонорные, щелевые, взрывные и аффрикаты. Сонорные (л, ль, р, рь, м, мь, н, нь) по звучанию похожи на гласные, но отдельно не произносятся и поэтому относятся к согласным. Щелевые (в, вь, з, зь, ж, ф, фь, с, сь, ш, х, хь) образуются в результате проталкивания потока воздуха в виде импульсов или шума через узкие щели, образованные языком и нёбом, губами, зубами, гортанью. Взрывные (п, пь, т, ть, к, кь, б, бь, д, дь, г, гь) возникают в результате резкого открытия закрытого до этого рта. Аффрикаты являются комбинацией глухих, взрывных и щелевых.

    При произнесении звуков речи части речеобразующего тракта находятся для каждой фонемы в строго определенном положении или движении. Эти движения называют артикуляцией.

    Звонкие звуки речи, особенно гласные, имеют большой уровень интенсивности звука, глухие - низкий. Уровень интенсивности особенно быстро меняется при произнесении взрывных звуков. Динамический диапазон звуков речи составляет 35... 45 дБ. Длительность гласных звуков речи составляет 0,15...0,3 с, согласных в среднем 0,08 с. Звук "п" длится примерно 30 мс. Большая протяженность гласных звуков вызвана необходимо­стью перестройки органов артикуляции.

    Отметим, что звуки речи имеют различную информативную ценность. Гласные звуки менее информативны, чем согласные. Например, в слове "посылка" сочетание звуков о, ы, а ни о чем не свидетельствует, в то время как последовательность п, с, л, к дает почти однозначный ответ о смысле слова. Поэтому разборчивость речи снижается, главным образом, из-за маскировки шумами глухих звуков, имеющих меньшую интенсивность. Перечисленные свойства звуков речи учитывают при проектировании и разработке устройств передачи, анализа и синтеза речи. Так для передачи смысла речи достаточно передавать сведения об огибающей спектра речи, переходах тон - шум, а также об изменениях основного тона. Для передачи эмоций необходим больший объем информации.


    3.5. Значение эмоциональной составляющей речи

    Семантическая информация хорошо усваивается слушателями лишь в том случае, если ее ожидают [1, 4, 5]. Если слушатель не заинтересован в ней, тем более, предубежден против нее, то она проходит мимо его сознания, не воспринимается им. Поэто­му исключительно важна та эмоциональная окраска, которая сопутствует семантической информации.

    Человеку присущи раздельные механизмы восприятия. Восприятие семантики речи основано на логическом анализе содержания информации. Он выполняется соответствующим центром мозга. Эмоциональная информация связана с восприятием образов. Это - врожденный механизм. Он свойственен даже младенцу. Наличие в информации эмоциональной составляющей привлекает внимание слушателей звукового вещания, способствует запоминанию семантической информации. Информация, излагаемая монотонна, бесстрастно не только не усваивается слушателями, но и утомляет их. Это приводит к "отключению" слушателей и лишает информацию реальной ценности. Наоборот, информация, передаваемая с ярко выраженной эмоциональной окраской, увлекает даже тех слушателей, которые были предубеждены против нее. Запомнившись, эта информация оказывает влияние на слушателей. Это предъявляет особые требования к работникам звукового вещания, будь то исполнители музыкальных произведений или дикторы информационного вещания. В последние годы в информационном вещании стала преобладать "голая", без эмоций речь. Из вещания ушли квалифицированные, опытные дикторы, владевшие высокой речевой культурой. Их сменили так называемые "ведущие", механически, невыразительно, с большой скоростью проборматывающие текст. Одновременно замечается и другая тенденция - развязной, "раскованной" речи, не считающейся с нормами языкового общения. И то, и другое раздражает слушателей. Чтобы речевые программы звукового вещания с наибольшей полнотой воздействовали на слушателей, необходимо обеспечить полноценную передачу и семантической, и эстетической части информации. Объективные причины, определяющие передачу эмоций, мало изучены. Технические параметры каналов вещания, влияющие на передачу эмоциональной составляющей речи, почти неизвестны, и это не позволяет количественно оценить потери эмоциональной составляющей, ввести научно обоснованные нормы. Это привело к тому, что, стремясь уменьшить потерю семантической информации, разрабатывали и вводили в действие технические средства, ухудшающие передачу эмоциональной информации. Таковы устройства сжатия динамиче­ского диапазона сигналов для их передачи по каналам с высоким уровнем помех. Хорошая помехозащищенность достигается ценой потери значительной части эмоциональной информации. Сжатие динамического диапазона делает звучание речи вялым, трудно воспринимаемых слухом.

    Известны некоторые работы, в которых показана связь характера передаваемых эмоций с шириной спектра и формой огибающей речевого сигнала. Эксперименты были поставлены так, чтобы исключить влияние семантической информации на распознавание эмоций. Но не удалось выработать количественные оценки силы эмоций. Неясно, существуют ли какие-то другие параметры каналов, влияющие на передачу эмоциональной информации. Не установлена количественная связь между величиной потерь эстетической информации и изменением уже известных параметров, влияющих на точность пере­дачи эстетической информации. Нет меры оценки эстетической информации. Можно лишь предположить, что эту меру следует связать с напряженностью голоса, а она косвенно характеризуется изменениями высоты основного тона голоса.

    3.6. Понятность и разборчивость речи

    Понятность речи является качественной характеристикой тракта. Для ее непосредственного определения есть только один метод: статистический с участием большого числа операторов (слушателей и дикторов). Разработан косвенный, количественный метод определения понятности речи через ее разборчивость.

    Разборчивостью речи называют относительное или процентное количество принятых специально тренированными слушателями (артикулянтами) элементов речи из общего количества переданных по тракту.[1,2, 4,5,17,18]
    Таблица 3.2. Разборчивость речи для различных градаций понятности передачи

    Понятность

    Разборчивость слоговая

    Разборчивость словесная %

    Предельно допустимая

    25. ..40

    75...S7

    Удовлетворительная

    40.. .56

    87...93

    Хорошая

    56...80

    93...98

    Отличная

    80 и выше

    98 и выше


    В качестве элементов речи применяют слоги, звуки, слова, фразы (команды), цифры. Соответственно этому есть слоговая, звуковая, словесная, смысловая и цифровая разборчивость. В практике используют преимущественно слоговую, звуковую и словесную разборчивость, На (рис. 3.6) приведены статистические зависимости между слоговой S, словесной Wи звуковой Dразборчивостью для обычных телефонных переговоров на русском языке. В (табл. 3.2) приведены градации понятности речи и соответствующие им значения разборчи­вости, измеренные артикулянтами

    Понятность речи была определена для обычных абонентов в процессе обычных телефонных переговоров. При этом понятность считалась отличной, если переговоры велись без переспросов; хорошей, если были отдельные переспросы редко встречающихся слов или неизвестных фамилий, названий и т.п., о которых нельзя догадаться по смыслу; удовлетворительной, если требовались частые переспросы и слушатели сообщали, что трудно разговаривать; предельно допустимой, если требовались неоднократные переспросы одного и того же материала в передаче отдельных слов по буквам и с полным напряжением слушателей.


    Рисунок 3.6. Зависимости: а — между словесной Wи слоговой S разборчивостью речи; б — между звуковой Dи слоговой разборчивостью речи
    3.7. Измерение разборчивости речи.

    Как уже указывалось, для измерений разборчивости речи пользуются методом артикуляции или методом выбора. Для артикуляционных измерений пользуются специальными таблицами[1, 12, 14,]. Диктор читает слова или звукосочетания (слоги), а слушатели записывают их и после про­чтения всех таблиц сверяют их с прочтенными таблицами. При чтении необходимо строго соблюдать интервалы (например, 3 с на один слог). Чтение должно быть четким, но без подчеркивания. Число передаваемых таблиц определяют согласно требуемой точности. После проверки подсчитывают процент правильно принятых элементов и определяют среднее значение разборчивости. Артикуляционная бригада должна быть составлена из молодых людей без дефектов речи и слуха. Она должна быть натренирована так, чтобы получать на эталонном тракте устойчивые результаты. Обычный артикуляционный метод очень трудоемок: требует много операторов (в бригаду входят 4—5 человек слушателей и 1—2 диктора); много времени уходит на тренировку (для сильных искажений требуется несколько дней), на обработку результатов; результаты измерений частот зависят от настроения, операторов и т. д. Метод выбора менее трудоемок, но его точность не настолько достаточна, чтобы им можно было пользоваться для важных приемосдаточных испытаний. Обычно им пользуются только для диагностических испытаний.

    Тональный метод измерения: разборчивости речи, свободный от ряда недостатков артикуляционных методов. Метод был распространен на тракт проводной и радиосвязи и допущен к применению - наравне с артикуляционным методом.

    Тональный метод измерения разборчивости речи основан на том, что человек очень точно может определить уровень звука, при котором он достигает порога слышимости. При этом методе речь заменяют определенным числом отдельных тонов, последовательно воспроизводимых устройством, которое создает определенный уровень звукового давления перед микрофоном измеряемого тракта, а на выходе тракта определяют уровень ощущения для каждого из тонов путем прослушивания их оператором через телефон или через громкоговоритель (для громкоговорящей связи). Уровень ощущения тона равен затуханию, вводимому в цепь звуковоспроизводящего устройства, до тех пор, пока не исчезнет слышимость каждого тона. По измеренным уров­ням ощущения тона с помощью таблиц и графиков, применяемых при расчете разборчивости речи, определяют формантную разборчивость речи, а по ней — слоговую, словесную разборчивость и понятность речи.


    Рисунок 3.7. Схема измерения звукоизоляции перегородок: 1 — генератор тональный или белого шума; 2— третьоктавный фильтр (при измерении с шумом); 3 — мощный усилитель; 4 — громкоговорителя;. 5 и 6 — измерительные микрофоны; 7 — милливольтмет­ры; 8 —испытуемая перегородка; 9 — реверберационная камера.
    Для тонального измерения и определения разборчивости речи применяют следующие измерительные приборы и оборудование: искусственный рот, генератор звуковой частоты, электронный вольтметр, магазин затуханий, генератор шума с звуковоспроизводящим устройством, два звукоизолированных друг от друга помещения. Допускается измерение в одном и том же помещении, если будет исключена возможность слышимости измеряемого сигнала по воздуху непосредственно (для громкоговорящей связи обязательно должны быть звукоизолированые помещения). Помещения должны быть защищены от воздействия посторонних звуков, сотрясений и шумов, кроме тех, которые задаются условиями испытаний. Измерения должны проводиться на трактах со всеми элементами, входящими в них, и в рабочих режимах с соблюдением технических условий для данных трактов и методов их испытаний.

    Искусственный рот на расстоянии 2 см от центра выходного отверстия по оси в зависимости от средней частоты полос равной разборчивости должен создавать следующие уровни, звукового давления (таблица 3.3):
    Таблица 3.3 Зависимости от средней частоты полос равной разборчивости уровней звукового давления:


    Частота, Гц 265

    400

    535

    680

    825

    980

    1145

    Уровень, дБ 77,6

    76,5

    74,0

    72,0

    69,5

    67,5

    66,0

    Частота, Гц 1320

    1505

    1700

    1910

    2140

    4395

    2685

    Уровень, дБ 64,0

    63,0

    62,0

    61,0

    60,5

    59,5

    58,5

    Частота, Гц 3020

    3415

    3890

    4370

    5215

    6320




    Уровень, дБ 58,0

    57,5

    57,0

    56,5

    56,0

    54,5



    1   2   3   4   5   6   7   8   9   ...   28


    написать администратору сайта