Аннотирование аудиозаписей (инструкция). Аннотирование аудиозаписей
Скачать 69.91 Kb.
|
Аннотирование аудиозаписей (Инструкция) В данном задании требуется прослушать звуковой отрывок и записать произнесенные слова в том порядке, в котором они прозвучали. Задание лучше выполнять в тишине, с наушниками. В случае необходимости прослушайте запись несколько раз. Интерфейс задания: Порядок выполнения задания Прослушайте, пожалуйста, запись. Постарайтесь понять, есть ли на аудиозаписи речь.
В процессе записи слов вы увидите, что записанные вами слова становятся кнопками, на которые потом можно нажимать. При нажатии на слово оно переместится в поле ниже. После того, как вы закончите аннотацию, убедитесь, что в ней нет ошибок или опечаток. Незнакомые и вызывающие сомнения слова (например, имена, фамилии, названия групп, сайтов, песен, брендов и т.п.) нужно обязательно проверять в словарях и/или поисковиках. Названия незнакомых географических объектов можно проверить при помощи сервиса https://maps.yandex.ru. Нюансы разметки В поле ниже "перемещаем" из верхнего поля те слова, которые составляют запрос к Алисе – то есть, все слова, которые запрашивающий обращал к Алисе, включая само обращение "Алиса", даже если этот запрос сформулирован многословно, с запинками, повторами и речевым мусором. Важно, что всё это было обращено к Алисе. Таким образом, в верхнем поле будут записанные вами все слова, а в нижнем – только запрос. Если запрос произносится двумя людьми сразу (такое редко, но бывает), стараемся выделить запрос "главного говорящего" – человека, который произносит основную часть запроса. Если запроса не было, не перемещаем ничего. Если есть сомнения, запрос это или нет, разрешаем их в пользу того, что это был запрос. Если все из верхнего поля входит в запрос – переносим все слова (для этого есть специальная кнопка, чтобы упростить вам процесс). Если, допустим, на записи есть три слова "корова", при этом к запросу относится только первое (остальные произнесли другие участники ситуации) – то в нижнее поле перемещаем только первое, а не любое из трех. Если на записи присутствует отчетливая искусственная речь (телевизор, радио), включая речь самой Алисы, ставим галочку Есть искусственная речь. Песни (и музыка вообще) сюда не относятся. Искусственную речь не аннотируем. Если человек на записи поет – записываем его слова тоже. Не забываем, что мы не просто аннотируем, но и перемещаем запрос в поле ниже! Важно: кашель, чихание, смех, гуление младенцев и прочие неречевые шумы словами, даже неразборчивыми, не являются! Символ границы запроса Символ границы запроса ставим знаком точка с запятой - ; Если говорящий на записи произнес запрос, стал ждать реакции Алисы, не дождался ответа на свой запрос и повторил его (или же начал повторять), то нужно поставить в поле аннотации после всех слов первого запроса символ границы запроса ; Повтор запроса не обязательно должен в точности повторять первый запрос, но не должен отличаться по смыслу. Символ также нужно перенести в поле запроса. Символ должен быть отделен от соседних слов пробелами. Его необходимо перенести в поле запроса вместе с обоими повторами запроса. Он не отменяет необходимости писать оба повтора. Речь, которая не обращена к Алисе или которая была произнесена другим говорящим, не имеет значения, она по-прежнему должна быть записана, но не должна переносится в поле запроса. Не надо ставить символ границы ; , если говорящий не сделал паузы перед повтором запроса. Правила аннотирования оборванных слов Данные правила касаются всей записи. Оборванное слово должно писаться целиком если: не хватает звуков, которые соответствуют 1-2 буквам или 3 буквам в случае длинного окончания прилагательного; недостающие буквы однозначно определяются из контекста. В остальных случаях слово не пишется вовсе. Примеры: "поставь филиппа киркоро..." – восстанавливаем слово – "поставь филиппа киркорова" "поставь филиппа кирко.." – не восстанавливаем – "поставь филиппа" "поставь александ.." – мы не знаем "ра" или "ру" собирался сказать человек - "поставь" Нюансы: Знак ? в случае, если слово не пишется вовсе, не ставится. Он не ставится на оборванных словах как в начале, так и в конце записи. Аналогичные правила и для начала записи. Если что-то заглушило окончание слова в середине записи, то действуют те же правила, но если слово не пишется, то надо поставить знак ? . Запись слов Слова, которые по правилам русского языка пишутся через дефис, в данном задании необходимо писать раздельно: [кто то], [санкт петербург]. Междометия типа "ой", "а" и т.п. также нужно записывать. Если вы можете распознать в сказанном словарное слово (которое можно найти в каком-нибудь словаре русского языка), напишите словарную форму. Например, говорящий произнёс [шисят процентоу], записать нужно [шестьдесят процентов]. Внимание: данное правило не действует, если искажённая форма слова несёт другой смысл и использована намеренно. Например, если из контекста понятно, что говорящий произносит название музыкальной группы, в котором слово стоит в искажённой форме. Если говорящий заикается, то пишите каждое слово один раз, в словарной форме. Регистр текста не важен: подходят как прописные, так и строчные буквы. Запись цифр Цифры всегда записывайте буквами: [калужское шоссе пятнадцать] Запись знаков препинания Знаки препинания при аннотировании использовать нельзя. Произнесённые вслух знаки необходимо записать словами: [яндекс точка ру]. Все остальные нужно пропустить: [привет алиса как дела] Запись аббревиатур Аббревиатуры пишутся слитно: [мгу], [спб]. Отдельные буквы, не входящие в аббревиатуры, записываются отдельно: [иванов и и]. Формулы Формулы записывайте словами так, как они произносятся: H2O записывается как [аш два о]. Языковые аспекты Старайтесь писать слово в наиболее употребимом для него алфавите (Магнит, но little big). Если сомневаетесь, пишите как вам кажется наиболее органично будет смотреться данное слово в предложении. Дополнительный FAQ Q: Сколько знаков ставить, когда люди неразборчиво говорят на заднем фоне? A: Общая стратегия пока такова: если вообще совсем неразборчиво, то ничего не ставим. Если у нас есть одно-два неразборчивых слова внутри разборчивой фразы, то ставим столько знаков вопроса, сколько нам слышится слов в неразборчивом отрезке. Если сложно понять, сколько именно там слов – ставим один знак ? . Задний фон (как и искусственную речь) лучше пока рассматривать отдельно от первого плана. Так что, если "люди неразборчиво говорят на заднем фоне", мы никак это не записываем вообще, если не разобрать совершенно ничего и речь близка к "бубубу", а не к отдельным словам. То же про искусственную речь. "Бу-бу-бу" телевизора в любом случае требует включить галочку Есть искусственная речь, но если это неразборчивое бубубу – не ставим и не пишем вообще ничего. Если отдельные слова все же разборчивы – см. выше. Q: Ставить ли "есть искусственная речь", когда неразборчиво или обрывочно говорит телевизор/радио/сама Алиса (когда ни одного слова не понятно)? A: Да, ставить, если точно понятно, что это искусственная речь. Q: Добавлять ли обрубок в начале (скорее всего, там говорят Алиса, но мы точно не знаем) в теги? A: Нет. Более того, если это совсем уж обрывок (последняя гласная, как чаще всего бывает) – то и вопросика не надо. Это НЕ слово. Q: Если ребенок четко говорит слова, но мне они не понятны (четко говорит "ринол роянович", может имя такое) и я не нашла ничего похожего в поиске – мне ставить знаки вопроса и переносить их в теги или ставить "нет речи/неразборчиво"? Или записать как слышу? A: Записать как слышно. Q: Если отчетливо произносят "щас", меняем на "сейчас" или так и пишем? A: Нет, мы пишем словарную форму слова, если только это не часть мема/идиомы/названия/текста песни, где это закрепилось именно в таком виде (вроде "штош"). Q: Что делать с песнями? A: По нашим текущим правилам, песни (как и в целом музыка, включая музыку без слов) не относятся к искусственной речи и не аннотируются никак. |