Компьютерный анализ звучащей речи (скомпонованы все лекции) Синергия. КОМПЬЮТЕРНЫЙ АНАЛИЗ ЗВУЧАЩЕЙ РЕЧИ КАФЕДРА ЛИНГВИСТИКИ. Лекция 1 Область применения информационных технологий в лингвистике. Компьютерный анализ и синтез речи
Скачать 223.85 Kb.
|
1. Что такое фрейм? А) участок акустического сигнала Б) часть предложения В) ни то, ни другое 2. Функция, принимающая на вход небольшой участок акустического сигнала и выдающая распределение вероятностей различных фонем на этом фрейме это: А) цифровая модель Б) акустическая модель В) дигитализация 3.Методы локального распознавания речи делятся на: А) лингвистические и паралингвистические Б) векторные и растровые В) непараметрические и параметрические 4. Основной спецификой какого метода являлось нелинейное искажение временной оси одной из сравниваемых функций: А) Динамическая Деформация Времени Б) Скрытые Марковские Модели В) алгоритм Витерби 5. Для учета контекста в процессе компьютерного анализа речи используют: А) n-граммная модель Б) в-граммная модель В) р-граммная модель 5 Лекция 3 Компьютерный анализ интонации Содержание лекции: 1. Интонация как средство воздействия 2. Понятие «темы» и «ремы» 3. Интонационные конструкции 4. Компьютерный анализ примеров Интонация – одно из важнейших средств воздействия на слушающего. Стремление говорящего овладеть вниманием слушающего может быть выражено одним только тембром голоса (Крейдлин 2000: 483), усиленной интенсивностью, четкостью произнесения и отсутствием растяжек (Светозарова 2000: 98, 101). Существенная черта «тона» или «голоса» состоит в том, что «тона» и «голоса» расплывчато накладываются на большие фрагменты текста – предложения, группы предложений и целые пространные монологи. В 1960-х гг. Е. А. Брызгунова предложила описание интонации в русском языке с использованием понятия интонационной конструкции. Интонационная конструкция (ИК) Одним из наиболее частотных средств выражения эмоциональных различий в речи является тип интонационной конструкции. Интонационная конструкция - тип соотношения тона, тембра, интенсивности и длительности звучащей речи, способный противопоставить несовместимые в одном контексте смысловые различия высказываний с разным синтаксическим строением, но одинаковым звуковым составом словоформ. Компьютерный анализ дает возможность точно измерить изменения фонетических характеристик интонационных конструкций в каждой произнесенной фразе. Типы интонационных конструкций: В работах выдающегося лингвиста Елены Андреевны Брызгуновой выделены семь типов ИК в русском языке: • ИК-1: нисходящий тон на гласном центра; используется при выражении завершѐнности повествовательного предложения; • ИК-2: нисходящий тон в сочетании с некоторым усилением словесного ударения на гласном центра; реализуется в вопросах с вопросительными словами; • ИК-3: восходящий тон с последующим падением; типична для вопросов без вопросительных слов (Вы были в театре?); • ИК-4: нисходяще-восходящий тон; используется в сопоставительных вопросах (Я иду. А Вы?); • ИК-5: сочетание восходящего, ровного и нисходящего тонов (имеется два центра: на гласном первого центра тон повышается, на гласном второго центра — понижается); используется для выражения и усиления оценки в предложениях с местоименными словами (Какой сегодня день!) • ИК-6: сочетание восходящего и ровного тонов; сфера использования данной конструкции включает как оценочные восклицания (Какой вечер тѐплый!), так и выражение недоумения (Какие у них обычаи?); • ИК-7: сочетание восходящего тона со смычкой голосовых связок в конце артикуляции гласного центра, что отличает ИК-7 от ИК-3; данная конструкция служит выражению экспрессивной оценки (Какой он отличник! 'Он не отличник'). Для введения в рассмотрение основных коммуникативных значений, интонационных средств, их выражения, комбинаций значений и линейно-интонационных трансформаций (преобразований) мы обратимся к примерам ниже. Материалом для иллюстрации послужил звучащий текст «Кавказского пленника» Л. Толстого. Примеры сопровождаются тонограммами (графиками изменения частоты основного тона), полученными с помощью системы анализа устной речи Speech Analyzer. По оси абсцисс на графике откладывается время в секундах, по оси ординат – частота основного тона в герцах. Обратимся к примеру (1). Хозяйская дочь Динка увидала куклу, позвала татарок В предложении (1) выделяется тема «хозяйская дочь Динка» и рема «увидала куклу, позвала татарок». Акцентоноситель темы (т.е. самое ударное слово, на ударном слоге которого падает тон) – словоформа «Динка», акцентоноситель ремы – словоформа «татарок». Тема и рема По мнению чешского лингвиста Вилема Матезиуса, актуальное членение состоит из темы и ремы. Тематическая часть содержит то, что является предметом высказывания (то, что уже известно или может быть легко понято), рематическая - то, о чем сообщается (что-то новое). Части одного и того же высказывания могут быть то темой, то ремой, в зависимости от переноса коммуникативной нагрузки на те или иные части высказывания. Тонограмма (рис. 1) демонстрирует акцент типа ИК-3 , на акцентоносителе темы – словоформе «Динка». В предложении (1) имеется подъем типа ИК-3 на словоформе «Динка», маркирующий тему, и «рематическое» падение типа ИК-1 на «татарок». Ударный слог акцентоносителя темы Динхарактеризуется крутым набором частоты в большом диапазоне частот плюс резкое падение частоты на заударном слоге -ка. Перед нами типичный акцент типа ИК-3, маркирующий тему. Различие между двумя типами подъемов в данном случае характеризует различие двух типов коммуникативных структур в предложениях (1) и (2). В предложении (1) перед нами стандартная структура типа «тема – рема» (тема = о чем идет речь, рема = что сообщается), которой соответствует стандартная интонационная структура с акцентами ИК3 и ИК-1, фиксирующимися на акцентоносителях темы и ремы. В предложении же (2) перед нами не базовая структура «тема – рема», а результат так называемой дислокации ремы ( И. И. Ковтунова [1976, с. 120] (см. также: [Янко, 2001, с. 201]). Дислокация ремы – это одна из линейноинтонационных трансформаций, которые вносят в предложение дополнительные смыслы. В чем заключается дислокация ремы с линейно-интонационной точки зрения? В данном случае из исходной – базовой – структуры типа «тема – рема» предложения (2.1) с темой «из этого дома» и ремой глагольной группой «выскочил черноватый татарин», из ремы извлекается глагол, который помещается на начальное место в предложении. (2.1) Из этого дома выскочил черноватый татарин (ср.: Выскочил из этого дома черноватый татарин). Коммуникативное подавление темы «Черноватый татарин», сохраняет конечное место в предложении, а тема «из этого дома» помещается на второе место после глагола. Таким образом, рема исходного предложения (2.1) «выскочил черноватый татарин» расчленяется, а тема попадает в коммуникативно наименее «выигрышную» позицию. Тем самым тема теряет свою функцию зачина речевого акта. Эта структура интерпретируется как один из случаев подавления темы: тема в предложении есть, но она отведена с начальной заглавной позиции и коммуникативно подавлена. Коммуникативная структура с дислокацией уподобляется структуре без начальной темы типа «Пришла весна», где есть рема «пришла весна» с акцентоносителем «весна», а темы нет. В предложении с дислокацией ремы возникает и соответствующий семантический эффект отражения в предложении события, взятого в целом, когда ни время, ни место события не служат исходной точкой для совершения речевого акта. Одной из функций предложений с дислокацией ремы в тексте служит рассмотрение одного события, взятого в целом, в цепи событий, которые составляют сюжетную линию фрагмента текста. Пример 3 В данном примере иллюстрируется комбинация ремы и контраста: Сделал Жилин другую куклу. Акцентоносителем контрастной ремы «сделал другую куклу» служит словоформа «другую». Перед нами акцентоноситель контрастной ремы. Значение контраста здесь следует трактовать как указание на куклу, которая была не первой в ряду как минимум из двух кукол. Перед той куклой, о которой говорится в предложении, была сделана еще одна кукла, которую разбила сердитая старуха. И новая кукла рассматривается на фоне первой. Анализ примера 3 Основное средство выражения контраста – существенное увеличение диапазона частот, в которых происходит образующее рему нисходящее (а тему – восходящее) движение тона. Здесь перед нами не ИК-1 простой ремы, как в примерах (1) и (2), а ИК-2 контрастной ремы [Русская грамматика, 1982, с. 97–122]. Курсорами на тонограмме выделено два слога: ударный -гуи заударный -ю. Увеличивается и показатель начальной частоты, с которой начинается падение тона. При контрасте увеличивается не только диапазон частот и изменение частоты, но и интенсивность звучания. Эти средства выражения контраста используются не только в применении к реме: контраст комбинируется как с ремой, так и с темой, а также с компонентами других типов речевых актов. Рема со значением эмфазы. В данном примере представлена композиция ремы со значением эмфазы. Эмфаза соотносит текущее положение дел с некоторым жизненным стандартом, и значения параметров текущего положения дел оцениваются говорящим как превышающие норму. Говорящий выражает в связи с этим свои чувства: одобрение, удивление, восхищение. Анализ примера 4 Акцентоносителем эмфатической ремы служит словоформа «серебре»: оружие украшено не простым металлом, а чистым серебром! С фонетической точки зрения ударный слог произносится на низком уровне, что соответствует средствам выражения ремы. Кроме того, ударный слог существенно растянут и его отличает характерное для эмфазы вибрирующее «искривление» тональной кривой. Ударный слог на тонограмме выделен курсорами. Он длится около 370 миллисекунд (показания прибора обведены овалом). Длительность звучания ударных слогов в акцентоносителях простой ремы в принципе зависит от сегментного материала слога, но – для сравнения – в примерах выше все ударные слоги рем звучат существенно короче, чем при эмфазе. Эмфатическое «искривление» тональной кривой характерно не только для композиций эмфазы с ремой, но также и для композиций эмфазы с темой и компонентами вопроса (В серебре-е?!). Значение эмфазы системно сочетается со значениями, формирующими сообщение (повествовательное предложение) и вопрос. Рема с верификативным значением Данный пример иллюстрирует композицию ремы с «да-нет»-значением (верификативным)(см.: [Адамец, 1978, с. 101–103]). Дорогу он узнал. Речь идет о том, что после побега из плена Жилин боялся заблудиться. Вопрос был в том, найдет он дорогу до своей крепости или нет. Таким образом, в чем состояло пропозициональное содержание высказывания, или положение дел, было известно заранее, неизвестно только было, увенчается ли попытка узнать дорогу успехом. Сообщение состоит в положительном ответе на этот вопрос: дорогу Жилин узнал. Верификативное значение имеет те же интонационные средства выражения, что и контраст, а его акцентоносителем служит конечная форма глагола: ударность глагола отвечает за истинность высказывания в целом. В примере – это значение ‘да, узнал’. Тонограмма свидетельствует о достаточно рельефном падении на ударном слоге глагола «узнал». В данной лекции на примерах были проиллюстрированы понятия темы, ремы, контраста, эмфазы и верификации. Приведенные кривые изменений частоты основного тона позволили проиллюстрировать основные интонационные средства маркирования коммуникативных значений и их комбинаций. В результате анализа интонационной структуры звучащих текстов становится возможной реконструкция коммуникативного членения предложений, входящих в текст, так как в речи интонация служит основным средством оформления темы и ремы. Интонология За последние десятилетия у лингвистов возрос интерес к исследованию интонации. Интонация как объект исследования фонетики и синтаксиса, в настоящее время превращается в самостоятельную научную дисциплину «интонология». Новые компьютерные исследования позволили объединить семантику, синтактику, коммуникацию и личность говорящего. Компьютерный анализ интонации нам помогает выявить тему и рему выссказывания, а также создать эмоциональный портрет говорящего. Интонология понимается как совокупность лингвистики, психологии, акустики, математики, социологии и др.). Поэтому комплексный подход к анализу эмоциональной интонации звучащей речи весьма перспективен. Вопросы для закрепления: 1. Одним из средств выражения эмоциональных различий в речи является: А) звуковая волна Б) интонационная конструкция В) контекст 2. График изменения частоты основного тона называется: А) тонограммой Б) телефонограммой В) звукограммой 3. Согласно актуальному членению предложения по В.Матезиусу, темой является: А) новая информация Б) предмет высказывания В) ни то, ни другое 4. При коммуникативном падении темы происходит: А) попадание темы в коммуникативно наименее выигрышную позицию Б) попадание темы в коммуникативно наиболее выигрышную позицию В) ничего не меняется 5. В каком из типов интонационных конструкций наблюдается восходящий тон с последующим падением (типичен для вопросов без вопросительных слов): А) ИК-6 Б) ИК-8 В) ИК-3 Лекция 4 Озвучивание письменного текста. Корпусный и инструментальный анализ. Содержание лекции: • Повторение пройденного материала • Анализ тонограмм • Особенности речи дикторов • Вопросы для закрепления материала Для начала вспомним значение некоторых терминов из прошлой лекции: 1.Что такое тема и рема? Тема — это то, что служит отправной точкой, своего рода «трамплином» для развертывания актуальной информации и что обычно (но не всегда) в какой-то мере известно адресату сообщения или самоочевидно для него. Рема — это то, что сообщается о теме, что составляет «ядро» и основное содержание высказывания. 2. Что такое Интонационная конструкция? Интонационная конструкция - это единица интонации. Это совокупность интонационных признаков, достаточных для дифференциации значений высказываний и передачи таких параметров высказывания, как коммуникативный тип, смысловая важность составляющих его синтагм, актуальное членение. В данной лекции будет рассматриваться анализ коммуникативной структуры предложений с начальным расположением группы, обозначающей новую информацию. В качестве точки отсчета используется анализ предложений с начальным новым, предложенный в работе [Ковтунова 1979] на примере текстов Пушкина и Л. Толстого. Специалисты в области изучения русского языка традиционно использовали для проверки своих научных гипотез тексты русских писателей. В настоящее время доступность текстов русской классики, озвученной лучшими носителями русской речи, и разработка современных компьютерных систем анализа устной речи, открывает доступ к интонационной структуре звучащего текста. Интонационная структура позволяет реконструировать коммуникативную структуру предложения, т. к. в устной речи интонация — это основное средство выражения коммуникативных значений. Для анализа создан исследовательский массив звучащих текстов русской классической литературы. В настоящее время произошел резкий сдвиг с анализа письменного языка классической литературы к анализу неподготовленной устной речи. В данной лекции рассмотрим анализ особого типа звучащей речи: актерского чтения. Одно из преимуществ такого анализа состоит в том, что исследователь получает возможность сравнить стратегии чтения одного и того же текста разными исполнителями. При совпадении стратегий возникает гипотеза о том, что соответствующая просодическая и, соответственно, коммуникативная структура могли входить в замысел автора текста. Мы рассмотрим, какие коммуникативные структуры реально используют в чтении Пушкина и Л. Толстого И. Смоктуновский и О. Табаков. Реконструкция коммуникативных структур, реализованных в чтении, становится возможной благодаря анализу интонационной структуры, использованной чтецами, т. к. в звучащей речи интонационная структура служит основным средством выражения членения предложения на тему и рему. Тема манифестируется подъемом тона на ударном слоге акцентоносителя темы, а рема — падением. Специфические коммуникативно релевантные изменения частоты основного тона отличают тему от ремы, а границы темы и ремы — манифестируются способом выбора словоформыносителя акцентного пика в теме или в реме. Мы не можем осветить проблему выбора акцентоносителя темы или ремы, оставаясь в рамках короткой статьи, поэтому отсылаем читателя к решению, приведенному в ней. Теоретически анализ актерского чтения был доступен и во второй половине 20 века, однако легкого доступа к большим массивам записей, сделанных разными исполнителями, и удобных машинных систем анализа устной речи, таких, как Praat и Speech Analyzer, в то время не было. Технологии верификации перцептивных ощущений слушающего по данным приборов находились в руках специалистов по фонетике, и практика использования звучащих данных и инструментальных технологий специалистами по семантике и прагматике в то время еще не сформировалась. В настоящее время имеется эмпирическая база и технологии работы с ней, что создает основу для соединения двух линий исследования: теоретической и экспериментальной. На фоне традиционной установки русистов на анализ литературного письменного текста, с одной стороны, и направленности исследований последних лет на анализ, наоборот, неподготовленной устной речи — с другой, остается место и для третьей линии — анализа озвученного литературного текста, задачи, которая, с использованием современных средств анализа, насколько нам известно, конкретно раньше никем не ставилась. Исходной точкой анализа станут примеры из Пушкина и Л. Толстого и то членение предложения, по И. И. Ковтуновой, которое они иллюстрируют. Далее рассматривается актерское чтение этих примеров. Интонация чтения эксплицируется тональными кривыми, полученными с помощью системы анализа устной речи Speech Analyzer. Параллельно с примерами И. И. Ковтуновой на основе описания, которое их сопровождает, рассматриваются и другие, структурно идентичные исходным предложения из русской литературы. Наблюдаемые интонационные структуры интерпретируются с точки зрения коммуникативного членения, которое ими манифестируется. Как утверждает лингвист Ирина Ильинична Ковтунова: «... в художественной прозе возможны принципы построения текста, связанные с нестандартными способами введения новой информации. Одним из таких принципов является включение новой информации непосредственно в тему высказывания. Наиболее наглядно этот принцип обнаруживает себя в предложениях, в которых темой служит состав подлежащего, а ремой — состав сказуемого…: «Страшная буря рвалась и свистела между колесами вагонов по столбам из-за угла станции» (Л. Толстой). Анализ примера Приведенное предложение является началом главы и заключает в себе по существу два сообщения: 1) Была страшная буря; 2) Эта буря рвалась и свистела... В логически развернутом изложении новый предмет или явление, выраженное субстантивной группой, обычно вводится в контекст нерасчлененным высказыванием с экзистенциальным (т.е. непереходным) глаголом: «Была страшная буря ...» Здесь следует отметить, что к экзистенциальным глаголам относятся непереходные глаголы, которые могут обозначать: -физическое или психическое состояние (болеть, спать, грустить, радоваться) -движение (ходить, бегать, лететь, плыть) -существование (жить, быть, существовать) В последующих высказываниях даются характеристики этого явления. Но в художественном повествовании часто происходит сжатие двух сообщений в одно. Сравним другие примеры: «…Марья Ивановна пошла около прекрасного луга, где только что поставлен был памятник в честь недавних побед графа Петра Александровича Румянцева. Вдруг белая собачка английской породы залаяла и побежала ей навстречу (А. Пушкин)» Итог этой трактовки такой 1) Предложения с начальным новым имеют коммуникативную структуру Тема-Рема. 2) С семантико-прагматической точки зрения в этих предложениях заключено два сообщения: одно, вводящее в рассмотрение новый предмет или событие (‘Была буря’, ‘Появилась собачка’), и другое, характеризующее этот предмет с той или иной точки зрения (‘Эта буря рвалась и свистела’, ‘Собачка залаяла и побежала навстречу Марье Ивановне’). Предложение (1) из «Анны Карениной» актеры О. Табаков и В. Герасимов единодушно интерпретируют как тему, дополнительно осложненную значением эмфазы (эмоциональная выразительность, напряженность речи). Страшная буря рвалась и свистела между колесами вагонов по столбам из-за угла станции. Тонограмма чтения примера (1) О. Табаковым на рисунке 1 говорит о том, что начальная группа «страшная буря» интерпретируется как эмфатическая тема , ударный слог акцентоносителя — словоформы «буря» — на тонограмме выделен овалом. О. Табаков читает это предложение в усеченном виде, что не имеет принципиального значения, т. к. основным объектом анализа здесь служит начальная группа. Основное движение тона здесь — восходящее. Оно служит манифестантом темы. Кроме того, наблюдается предшествующее основному движению тона в противоположную сторону, которое «искривляет» подъем, что говорит об эмфатическом выделении. То, что тема реализуется в эмфатической модификации, объясняется прямым указанием на то, что буря была страшная. На акцентоносителе конечной группы словоформе «свистела» наблюдается нисходящий акцент ремы. Перед нами коммуникативная структура:Эмфатическая тема—рема с эмфатической темой «страшная буря» и ремой «рвалась и свистела». В исполнении чтеца В. Герасимова этот пример дается в полной форме, как у Л. Толстого: Тонограмма демонстрирует подъем, манифестирующий тему, опять в сопровождении эмфатического «искривления» на акцентоносителе темы словоформе «буря», и сглаженное конечное рематическое падение на акцентоносителе ремы словоформе «станции». (Слова-акцентоносители выделены овалами.) Трактовка В. Герасимова практически совпадает с трактовкой О. Табакова. И. И. Ковтунова предполагала тему в данном предложении как вариант для реализации группы «страшная буря». Обратимся к тонограммам чтения примера (2) из «Капитанской дочки» Н. Мартоном и И. Смоктуновским. (2) Вдруг белая собачка английской породы залаяла и побежала ей навстречу. Анализ примеров Тонограммы чтения предложения (2) Н. Мартоном и И. Смоктуновским на рисунке 3 говорят о единодушной трактовке этого примера обоими актерами. Можно наблюдать падение — более рельефное у Н. Мартона на верхней панели и почти ровный тон (отличный, однако, от восходящего акцента темы, который тоже можно было бы здесь ожидать) у И. Смоктуновского на нижней панели — на словоформе «собачка» (на обоих графиках словоформа собачка выделена овалом) и второе падение на акцентоносителе второй ремы «навстречу» (тоже выделено овалом), опять же — более крутое у Н. Мартона и более пологое у И. Смоктуновского. Первая рема соответствует компоненту появления на сцене ‘Появилась собачка’, вторая — характеризующему ‘Она залаяла и побежала…’. В трактовке других, кроме рем, компонентов примера (2) тоже имеется существенное сходство: и у Н. Мартона, и у И. Смоктуновского наблюдается подъем, служащий просодическим коррелятом темы на «вдруг», подъемы незавершенности на «залаяла и побежала». Восходящие акценты и вносимые ими значения — это ожидаемый элемент трактовки, они не имеют здесь принципиального значения. Существенно, что группа «белая собачка» получает в обоих чтениях акцент ремы, носителем которого служит словоформа «собачка». Оба исполнителя интерпретируют пример из Пушкина как структуру с двойной ремой. Структура с двойной ремой наиболее точно отвечает семантической трактовке предложений с начальным новым о совмещении в одном предложении двух сообщений, потому что при двойной реме каждому сообщению соответствует отдельная рема. Так, в предложении (2) имеется тема «вдруг», начальная рема «белая собачка английской породы» и конечная рема «залаяла и побежала ей навстречу». Рассмотрим Пример (3) из «Капитанской дочки» в чтении трех исполнителей: И. Смоктуновского, Н. Мартона и В. Самойлова. (3) Неожиданные происшествия, имевшие важное влияние на всю мою жизнь, дали вдруг моей душе сильное и благое потрясение. В чтении И. Смоктуновского ударный слог акцентоносителя начальной группы «неожиданные происшествия» словоформа «происшествия» получает нисходящее движение тона, которое характеризуется существенным перепадом частот (ударный слог выделен овалом). «Неожиданные происшествия» — это начальная рема, сегмент «дали вдруг моей душе сильное и благое потрясение» — конечная рема. Кроме того, в (3) имеется определение «имевшие важное влияние на всю мою жизнь», которое получает естественную в данном случае коммуникативную и интонационную интерпретацию: этот сегмент расположен после акцентоносителя начальной ремы и несет соответствующий относительно ровный и низкий тон. Поскольку это определение содержит референцию к первому лицу (ср. местоимение мою), т. е. соотносится с известной информацией (данным), можно предположить, что и автор, и чтец трактуют это определение как заударную тему. Кроме того, финал этого сегмента словоформа «жизнь» несет указание на то, что предложение еще не кончилось: словоформа «жизнь» получает подъем незавершенности. Рассмотрим чтение того же предложения Н. Мартоном. С точки зрения тема-рематической структуры Н. Мартон дает членение, которое фактически совпадает с членением И. Смоктуновского. Анализ тонограммы Наблюдается то же падение на «происшествия», которое маркирует начальную рему, подъем незавершенности на «жизнь» и конечное падение на словоформе «потрясение», которая служит акцентносителем второй — характеризующей — ремы. И. Смоктуновский и Н. Мартон практически единодушны в просодической и, соответственно, темарематической интерпретации предложения (3). Интерпретация группы «неожиданные происшествия» как ремы поддержана семантикой словоформы неожиданные, которая сигнализирует об отсутствии объекта референции в зоне внимания слушающего. Это больше согласуется с функцией ремы, чем темы. Третий исполнитель — В. Самойлов — дает тексту Пушкина иную интерпретацию. В. Самойлов интонирует начальную именную группу как тему, однако в состав темы он включает не только вершинную группу «неожиданные происшествия», но и определение «имевшие важное влияние на всю мою жизнь». Поскольку определение содержит референцию к первому лицу, вся именная группа, включая определение, может быть понята как известная адресату. Соответственно, группа «неожиданные происшествия, имевшие важное влияние на всю мою жизнь» реализуется как цельная тема с акцентоносителем словоформой «жизнь». Акцентоноситель несет подъем тона, а остаток отходит к реме, о чем говорит падение на словоформе «потрясение». В. Самойлов интерпретирует пример (3) как структуру Тема—Рема. Анализ артикуляции этих и других примеров говорит о том, что наиболее частотным и эффектным приемом введения в рассмотрение нового объекта, которое одновременно сопровождается его характеристикой, служит структура с двумя ремами: начальной и конечной. Использование этой структуры — сугубо литературный прием. Он применяется в актерском чтении предложений, где начальная группа соотносится с новой информацией. К такой интерпретации чтеца подводит автор текста, располагающий новое в начале. В неподготовленной речи концентрация двух рем в одном речевом акте не используется. Предложениями, реализующими двойную рему, не говорят, а пишут, и двойная рема возникает в процессе чтения письменного текста. Кроме актерского чтения, коммуникативная структура с двумя ремами, заключенными в одном речевом акте, встречается в речи профессиональных лекторов и дикторов средств массовой коммуникации. На реализацию структуры с двумя ремами чтеца толкает не только расположение нового в начале, прием, который вводит в рассмотрение новый бытующий предмет, но также и достаточно весомый характеризующий компонент, расположенный «справа». При отсутствии характеризующего компонента может быть реализована структура с одной начальной ремой. Кроме того, «рематической» реализации с начальной ремой способствует компонент новизны, неожиданности, странности в семантике начальной группы, ср. лексему «неожиданные» в примере (3). Слова же, выражающие сильные чувства говорящего, ведут к реализации эмфатических модификаций начальной группы-нового, как в виде темы, так и в виде ремы, ср. чтение лексемы «страшная» в примере (1). Некоторые другие коммуникативные трактовки предложений с «новым» в начале В чтении примера (4) из «Капитанской дочки» И. Смоктуновским начальная группа-новое реализуется как простая тема. (4) и слезы потекли по ее лицу. «Тематическая» интерпретация начального нового объясняется тем, что слезы на лице у матери, которая думает о разлуке с сыном, трактуются исполнителем как ожидаемая реакция, или данное. Тонограмма демонстрирует подъем на ударном слоге акцентоносителя темы словоформе «слезы» плюс падение на заударном слоге. Это типичный акцент темы, ИК-3, по Е. А. Брызгуновой Словоформа «слезы» на тонограмме выделена овалом. Соответственно, «потекли по ее лицу» — это рема. Предложения с начальным новым могут также изображать фон для событий, продвигающих повествование вперед. Мы называем здесь эту структуру «фоновой» ремой, хотя она имеет более широкий диапазон функций, чем маркирование фоновых событий. В примере (5) из рассказа И. Бабеля «Первая любовь» изложению действий героев противопоставлено описание интерьера, где разворачиваются события: (5) Гусь жарился на кафельной плите… Именная группа «гусь» в исполнении В. Самойлова несет подъем тона, за которым следует ровное развертывание частоты до конца предложения. Начальные гласные растянуты. Описание действий героев просодически противопоставлено описанию домашней обстановки. Это ИК-6 и существенное растяжение артикуляции. На тонограмме словоформа-акцентоноситель выделена овалом. Звучание приобретает «мечтательновоспоминательный» характер. Итак, начальная группа-новое в чтении в зависимости от лексической семантики и прагматического контекста может входить в следующие коммуникативные структуры: • с двойной ремой; • с простой начальной ремой; • с начальной эмфатической ремой (простой и двойной); • структурой Тема—Рема (с простой и эмфатической темой); • с «фоновой» ремой. Все структуры отличаются от базовой структуры Тема-Данное—Рема-Новое и вносят в семантику предложения и текста дополнительные смыслы. Двойная рема в речи дикторов радио и телевидения Кроме актерского чтения художественных текстов, специфический интонационный контур с двойной ремой широко используется в речи дикторов радио и телевидения при сообщении новостей. Этот риторический прием мы наблюдаем с семидесятых годов прошлого века. Очевидно, он использовался и до начала наблюдений. Специфика чтения определяется структурой текста, который читает диктор: сегмент, обозначающий новое, помещен автором текста в начало предложения, и в этом же предложении введенному в рассмотрение объекту или событию, дается определенная характеристика. Особенностью речи дикторов служит повышенная по сравнению с предложениями, начинающимися с темы, начальная частота основного тона. Это объясняется тем, что в предвидении близкого падения диктор «набирает высоту», которая обеспечивает достаточно рельефный перепад частот на ударном слоге ацентоносителя первой ремы, расположенного близко к началу предложения. Акцентоноситель второй — конечной — ремы несет второй нисходящий акцент. Рассмотрим один пример из программы новостей: (6) Сократить сбор разведданных обещает Барак Обама. Тонограмма демонстрирует падение на ударном слоге акцентоносителя начальной ремы словоформы «данных» и второе падение на акцентоносителе второй ремы «Обама». Слова акцентоносители выделены овалами. Перед нами типичная структура с двойной ремой со специфически «концентрированным способом» подачи информации: начальная рема вводит в рассмотрение новый объект — «сокращение сбора разведданных», вторая рема содержит сообщение о том, что пообещал сократить разведывательную деятельность не кто иной, как президент Обама. Анализ интонационной структуры массива предложений с начальной группой - новым показывает нам совмещение в таких предложениях двух сообщений: первого, вводящего в рассмотрение новый объект или событие, и второго, дающего в том же предложении этому объекту определенную характеристику. Предложения с начальной группой, обозначающей новое, реализуется в речи чтецов и дикторов в зависимости от прагматического контекста и лексической семантики предложения в виде следующих коммуникативных структур: двойной ремы; одиночной начальной ремы, простой и эмфатической; начальной темы, простой и эмфатической, и «фоновой» ремы. Структурой, которая наиболее эффектно выражает идею о совмещении в одном предложении двух сообщений, становится структура с двойной ремой. Эта структура весьма частотна в речи актеров, дикторов и лекторов, однако в неподготовленной речи она не используется. В спонтанной речи заготовленное пропозициональное содержание, разбивается на два речевых акта. Таким образом, на примере анализа коммуникативных структур особого типа предложений было показано, что обращение к реальным образцам чтения, широкий охват материала и использование современных средств инструментального анализа позволяют увидеть большее разнообразие комбинаций тем и рем, реализующих информационную структуру с новым в начале, чем это виделось ранее с использованием интроспекции. Вопросы для закрепления материала 1. Что на тонограммах манифистируется подъемом тона на ударном слоге акцентоносителя: А) тема Б) рема В) другое 2. К экзистенциальным глаголам относятся: А) переходные глаголы Б) непереходные глаголы В) модальные глаголы 3. Падение на тонограмме демонстрирует: А) тему Б) рему В) другое 4. В каких случаях используется структура с двумя ремами: А) в актерском чтении Б) в разговорной речи В) ни то, ни другое 5. Сколько сообщений со «Страшная буря рвалась и свистела между колесами вагонов по столбам из-за угла станции»: А) одно Б) два В) три Лекция 5 Современные речевые технологии. Голосовая биометрия. Содержание лекции: 1. История возникновения систем понимания языка 2. Задачи речевого интерфейса 3. Голосовая биометрия 4. Вопросы Понимание в диалоге На сегодняшний день речевой интерфейс является наиболее удобным в использовании. Это то, к чему человечество всегда стремилось в общении с компьютером. Еще в эпоху перфокарт в научнофантастических романах человек с компьютером именно разговаривал, как с равным себе. Тогда же были предприняты первые шаги по реализации речевого интерфейса. Задачи речевого интерфейса Одни исследователи считают, что недалеко продвинулись за прошедшие десятки лет. Другие считают, что задача уже практически решена. Все зависит от того, что следует считать решением этой задачи. Построение речевого интерфейса распадается на три составляющие: Первая задача состоит в том, чтобы компьютер мог "понять" то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную информацию. Пока что, на нынешнем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст . То есть эта задача сводится к замене клавиатуры микрофоном. Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дублирующих пункты меню), ничего сложного в ее реализации нет. В идеале компьютер должен четко "осмысливать" естественную речь человека и понимать, что, к примеру, слова "Хватит!" и "Кончай работу!" означают в одной ситуации разные понятия, а в другой - одно и то же. Третья задача состоит в том, чтобы компьютер мог преобразовать информацию, с которой он оперирует, в речевое сообщение, понятное человеку. Пока окончательное решение существует только для третьей. По сути, синтез речи - это чисто математическая задача, которая в настоящее время решена на хорошем уровне. И в ближайшее время будет совершенствоваться только ее техническая реализация. Препятствием для окончательного решения первой задачи служит недостаточное количество знаний о том, каким образом можно расчленить нашу речь, чтобы извлечь из нее составляющие, в которых содержится смысл. В том звуковом потоке, который выдает человек при разговоре, нельзя различить ни отдельных букв, ни слогов: даже, казалось бы, одинаковые буквы и слоги в разных словах на спектрограммах выглядят по-разному. Тем не менее многие фирмы уже имеют свои методики, позволяющие решить эту задачу. Во всяком случае, после предварительной тренировки современные системы распознавания речи работают неплохо и делают ошибок не больше, чем делали оптические системы распознавания печатных символов несколько лет назад. Что касается второй задачи, то она не может быть решена без помощи систем искусственного интеллекта. Большие надежды есть на появление так называемых квантовых компьютеров. Если подобные устройства появятся, это будет означать качественный переворот в вычислительных технологиях. Поэтому пока удел речевого интерфейса - всего лишь дублирование голосом команд, которые могут быть введены с клавиатуры или при помощи мыши. Есть одна область, которая для многих может оказаться очень привлекательной- это речевой ввод текстов в компьютер. Гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь не требуется, осмысление услышанного компьютером, а задача перевода речи в текст более или менее решена. Именно поэтому большинство выпускаемых на сегодняшний день программ "речевого интерфейса" ориентированы именно на ввод речи. Часто к достоинствам речевого ввода текста относят отсутствие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи - чувствительность к четкости произношения - приводит к потере этого, казалось бы, очевидного преимущества. Существует и еще одно неприятное ограничение применимости.Оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать в звукоизолированном отдельном помещении. Иначе дополнительный шумовой фон будет значительно затруднять работу речевого распознавателя. Классификация по назначению: -командные системы -системы диктовки текста По потребительским качествам: -диктороориентированные (тренируемые на конкретного диктора) -дикторонезависимые -распознающие отдельные слова -распознающие слитную речь. По механизмам функционирования: -простейшие (корреляционные) детекторы -экспертные системы с различным способом формирования и обработки базы знаний -вероятностно-сетевые модели принятия решения, в том числе нейронные сети. Будущее речевого интерфейса зависит от умения современных разработчиков не только создать технологическую основу речевого ввода, но и гармонично объединить технологические находки в единую логически завершенную систему взаимодействия «человек-компьютер». Голосовая биометрия Надежное распознавание и подтверждение личности стали необходимым и привычным атрибутом современной жизни. Поэтому сегодня мы все чаще слышим о применении биометрии в той или иной сфере деятельности, все громче заявляют о себе разнообразные биометрические технологии. Биометрия незаменима там, где необходимо обеспечить безопасность доступа к физическим объектам и информационным ресурсам. Биометрические технологии находят успешное применение в правоохранительной деятельности, гражданской регистрации, в области безопасности банковских обращений, инвестирования, в вопросах охраны здоровья и многих других сферах деятельности. Что же подразумевается под «биометрией»? Общий термин «биометрия» используется в двух различных значениях: как характеристика и как процесс. Так, биометрия как «характеристика» – это уникальные физиологические или поведенческие характеристики человека, которые используются при автоматическом распознавании личности. Биометрия как «процесс» подразумевает совокупность автоматических методов распознавания личности по физиологическим или поведенческим характеристикам. Наиболее часто используемыми биометрическими характеристиками являются отпечатки пальцев, форма лица, радужная оболочка глаза, голос, подпись, геометрия руки. Нельзя сказать, что та или иная характеристика является лучше остальных. При выборе подходящего биометрического метода идентификации следует учитывать такие факторы, как область его применения, требуемый уровень безопасности, целевую установку (верификация или идентификация), ожидаемое число пользователей, практичность и другие. В последнее время увеличение числа «краж личности», террористических атак вызвали огромный скачок в развитии голосовой биометрии. Использование усовершенствованных систем идентификации по голосу является наиболее удобным для пользователя способом аутентификации, который обеспечивает распознавание на более высоком уровне и позволяет снизить расходы за счет автоматизации процесса. Сегодня для того, чтобы обеспечить надежную защиту доступа к информации, необходимо использовать такие методы идентификации личности, которые позволили бы определить «Действительно ли он/ она является тем, за кого себя выдает?», опираясь на три фактора: то, что человек ЗНАЕТ (пароль, PIN-код); то, что человек ИМЕЕТ (удостоверение личности, ключ); каким человек ЯВЛЯЕТСЯ (физиологические характеристики). Голос является единственной биометрической характеристикой человека, которая отвечает трем вышеперечисленным условиям. Из всех существующих вариантов, идентификация личности по голосу является наименее навязчивой, наиболее доступной для человека, а также может осуществляться отдаленно, например, по телефону. Более того, голосовая биометрия – это единственная технология, которая, помимо микрофона, не требует дополнительного специального оборудования. Из всех биометрических характеристик только голос можно передать посредством любой сети связи: по стационарному или мобильному телефону, по проводной и беспроводной виртуальной частной сети, по IP-сетям, радиосети. Благодаря высокому уровню точности распознавания совместно с простотой использования, метод идентификации по голосу становится выбором номер один при разработке как одномодальных, так и многомодальных приложений. Голосовую биометрию, включающую в себя технологии идентификации и верификации личности, не следует путать с технологиями распознавания речи. Применяя технологии распознавания речи можно распознать, что человек говорит, но не кем он является. Следовательно, использование технологий распознавания речи ограничены в сфере обеспечения безопасности. Напротив, технологии идентификации и верификации личности по голосу находят свое применение тогда, когда необходимо подтвердить, является ли человек тем, кем он представляется. Результат биометрического измерения голоса полностью зависит от: входных данных; математических алгоритмов; вычислительной мощности. Под входными данными подразумевается биометрический образец, или голосовой отпечаток, хранящийся в базе данных. Качество биометрического образца во многом зависит от типа устройства ввода (например, профессиональный микрофон или мобильный телефон) и окружающей среды (шумная улица или тихое помещение). Существуют технологии, которые автоматически определяют качество голосового отпечатка, затем очищают его от шума, чтобы получить более качественный образец. Алгоритмы в биометрических системах используются для того, чтобы сравнить полученный голосовой отпечаток с образцом в базе данных. Чем совершеннее алгоритм, тем точнее результат сравнения. Под вычислительной мощностью понимают скорость и качество обработки биометрических признаков пользователя. Учитывая простоту использования, возможность идентифицировать пользователя отдаленно и высокую точность распознавания, голосовая биометрия чаще всего находит свое применение в компаниях, осуществляющих свою деятельность через сети связи и заинтересованных в защите идентификационной информации своих клиентов. Так, голосовая биометрия эффективно используется в сферах, где необходимо удостоверение личности человека, например: голосовой контроль доступа; контроль доступа в call-центрах; регистрация в Интернет; изменение пароля; домашний арест; безопасная конференц-связь; криминалистические экспертизы и опознание по голосу; скрытая авторизация в call-центрах; борьба с терроризмом; борьба с наркоманией; банковское обслуживание; телекоммуникация; функция «черный список». На сегодняшний день разработаны системы, которые совмещают несколько биометрических технологий, например, технологию верификации личности по голосу и отпечаткам пальцев. Сочетание двух биометрических технологий позволяет преимуществам одной технологии компенсировать недостатки другой, и наоборот, а также позволяет оператору контролировать уровень безопасности. В прошлом голосовая биометрия уступала место таким биометрическим методам, как идентификация и верификация по отпечаткам пальцев, форме лица и радужной оболочке глаза. Однако новые алгоритмы и высокая производительность компьютера по обработке данных позволили существенно повысить точность распознавания личности по голосу, что делает голосовую биометрию сильным конкурентом для менее удобных традиционных методов идентификации и верификации. К тому же, необходимость в более высоком уровне защиты информации в коммерческой деятельности делают голосовую биометрию отличным недорогим решением для многих компаний. Из доступных сегодня видов биометрических технологий голосовая биометрия является наиболее выгодной и удобной для пользователя, поэтому в скором времени решения с использованием голосовой биометрии станут применяться повсеместно. PIN-коды могут быть забыты, магнитные карты – утеряны или украдены, а специальные сканирующие устройства требуют вложения немалых денег. Напротив, голосовая биометрия делает идентификацию возможной в любом месте в любое время. Все что Вам нужно – это воспользоваться мобильным или стационарным телефоном, или микрофоном. Идентификация личности по голосу в настоящее время широко используется как отдельно, так и в совокупности с другими биометрическими показателями в системах безопасности, программных или аппаратных многопользовательских комплексах. Удобство и простота выполнения авторизации при помощи устной речи позволяет применять подобные системы удаленно (мобильная связь, сеть Интернет и т.д.). Существует два основных типа систем голосовой биометрии: текстозависимые и текстонезависимые. Текстозависимые применяются в системах контроля доступа: для верификации необходимо произнести парольную фразу, которая сравнивается с хранящимися в системе эталонами произнесения каждого зарегистрированного пользователя. Уязвимое место таких систем − получение несанкционированного доступа путем копирования парольной фразы современными средствами акустического прослушивания. Данный недостаток отсутствует в текстонезависимых системах. Для верификации или аутентификации в текстонезависимых системах может использоваться практически любой фрагмент свободной звучащей речи достаточной длины, что делает их удобными с точки зрения пользователя. Такие системы незаменимы при решении полицейских задач: скрытая идентификация, криминалистическая идентификация, фоноучеты. Тем не менее, эта возможность усложняет реализацию текстонезависимых систем, понижает их надежность и скорость распознавания. Идентификация по голосу основана на анализе уникальных характеристик речи, обусловленных анатомическими особенностями речевого тракта, а также приобретенными привычками произношения. На этапе извлечения признаков речевой сигнал сегментируется на короткие участки и на каждом участке вычисляется набор признаков. В качестве признаков для идентификации диктора в системах обоих типов используются различные параметры, учитывающие процессы как речеобразования (характеристики распределения частоты основного тона (ЧОТ), коэффициенты линейного предсказания, спектр Фурье), так и восприятия речи (вейвлетспектр, мел-частотные кепстральные коэффициенты − MFCC), и их динамические характеристики. Текстозависимые системы отличаются относительной простотой реализации, поскольку соотнесение полученных идентификационных характеристик с эталонными сводится к их тривиальному сравнению. Текстозависимые системы не предъявляют особых требований к классификаторам, поэтому существуют реализации с различными типами классификаторов: линейными, на основе скрытых марковских моделей, нейросетей. Событийнозависимые системы основаны на выявлении особенностей диктора в определенных фонемах и их последовательностях. В идентификационные характеристики выделяются на участках глухих фрикативных звуков ([с], [ш]) с использованием нормированного количества импульсов равной длины. На практике данные системы применимы редко вследствие того, что они рассматривают только часть фонем, а следовательно, модель диктора сформирована неполно. Кроме того, необходимое количество искомых фонем может не содержаться в произвольной фразе, а добавление представительной базы фонем диктора требует длительного обучения системы. Поэтому методы анализа специфических фонемных классов чаще всего включаются в состав текстонезависимых систем. Для проведения текстонезависимой идентификации существует два подхода.Первый заключается в том, что по акустическим признакам речевого сигнала для каждого диктора строятся статистические модели. Идентификация в данном случае представляет собой вычисление отклонения случайного вектора от модельных распределений и принятие решений происходит с заданным порогом допуска. Второй подход основан на создании в рамках одной системы гендерои канало-зависимых подсистем, функционирующих на отдельных наборах речевых признаков. Решение принимается в результате взвешенного голосования подсистем. Несмотря на множество методов обработки речевого сигнала и идентификации диктора, они все чувствительны к качеству передачи речевого сигнала через каналы связи и вариативности произношения диктора. Влияние эмоций на речь Являясь формой человеческого поведения, речь подвержена влиянию широкого ряда еще не полностью изученных факторов [Потапова 2006]. Измерения речевых характеристик говорящего показывает, что на качество голоса могут влиять несколько факторов, например, смысл произносимого текста; язык, на котором произносится текст; физическое и психологическое состояние говорящего, анатомические изменения (операция). Такие внутренние факторы как усталость, болезнь, наличие алкоголя в крови могут воздействовать на речевой сигнал на сегментном и просодическом уровнях. На качество голоса также может оказать влияние переход с одного языка на другой (у многоязычных говорящих) и эмоциональное состояние. Так, например, было установлено, что различным эмоциональным состояниям свойственны свои просодические характеристики (например, интонация), свои лексические единицы, словообразовательные способы (например, суффиксы), междометия, частицы и т.д. [Потапова 1997; Scherer 1986]. Многочисленные исследования позволяют утверждать, что эмоциональные составляющие влияют и на темп речи. Так, при грусти, злорадстве и страхе длительность в сравнении с нейтральным произнесением увеличивается, а при радости, гневе и раздражении – уменьшается [Геладзе 1975]. Также проводились исследования о влиянии эмоционального состояния на интонацию. По мнению исследователя, эмоции оказывают настолько сильное влияние на вопросительные интонации, что способны даже разрушать вопросительность. Интонационный контур фразы способен изменяться вплоть до своей противоположности (там, где в эмоционально относительно нейтральной речи наблюдается повышение тона, в эмоционально окрашенной может появиться падение тона и наоборот). В исследованиях эмоционального состояния говорящего применительно к криминалистике большое внимание уделяется, прежде всего, анализу таких эмоциональных состояний, как "страх" и "тревожность". Значительный вклад в исследование речевых коррелятов эмоционального состояния ≪страх≫ внесли Потапова Р.К. Потапов В.В. В своей работе ≪Временные корреляты эмоций как специфические индивидуальные параметры идентификации говорящего в судебной фонетике (речевые временные корреляты состояний страха/тревожности применительно к русскоговорящим)≫ [Потапова, Потапов 2002] в результате экспериментальных исследований авторы доказали, что среди различных эмоциональных состояний наиболее стабильными являются речевые характеристики реализации состояний ≪страх≫/ ≪тревожность≫. Изменениям подвергаются такие параметры, как средняя длительность слогов, уровень интенсивности и частота основного тона. Авторами были выявлены следующие перцептивные индикаторы эмоционального состояния ≪страх≫/≪тревожность≫: - увеличение числа хезитационных пауз; - увеличение длительности хезитационных пауз; - увеличение скорости артикуляции (для гласных); - темпоральное слоговое скандирование; - ограниченная громкость высказываний; - ≪неуверенный≫ тембр произношения гласных; - наличие шумовых компонентов в артикуляции гласных; - нарушения частоты основного тона; - появление элементов шепота в речевом потоке и др. Также было установлено, что такие эмоциональные состояния как ≪страх≫ и ≪тревожность≫ легко распознают, как обученные, так и необученные аудиторы. Следует отметить, что многие предыдущие исследования проводились на материале аудиозаписей речи актеров, имитирующих различные эмоциональные состояния, или в условиях моделирования различных ситуаций. Но оказывается, что такие эмоции, как страх и тревожность, хуже поддаются исследованию такими способами (при помощи актеров и симуляторов). А как раз эти эмоциональные состояния наиболее важны при идентификации личности по голосу в судебных целях. Вопросы для закрепления материала 1. На сегодняшний день речевые технологии в совершенстве решают следующую задачу: А) понимание смысла сказанного Б) извлечение полезной информации из сказанного В) синтез речи 2. Распознавание личности по голосу это: А) компьютерный анализ речи Б) компьютерный синтез речи В) голосовая биометрия 3.При гневе темп речи человека: А) уменьшается Б) увеличивается В) не меняется |