!Кодирование и обработка звуковой информации. Кодирование и обработка звуковой информации Звуковая информация
Скачать 157.47 Kb.
|
Кодирование и обработка звуковой информации Звуковая информация Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. В аналоговой (непрерывной) форме эта волна характеризуется: Высота звука определяется частотой колебаний вибрирующего тела (высота увеличивается при увеличении частоты). Громкость звука определяется энергией колебательных движений, то есть амплитудой колебаний. Длительность звука - продолжительность колебаний. Тембром звука называется окраска звука: звуки речи имеют основной тон и частичные подтоны, называемые обертонами. Совокупность обертонов создает индивидуальный для каждого человека тембр. Он зависит от физиологических особенностей человека: от строения голосовых связок – их длины, ширины, упругости, подвижности, от объема трахеи, от строения резонаторных полостей – глотки, ротовой, носовой полостей, придаточных пазух носа. Частота колебаний измеряется в герцах (Гц или Hz). 1 Гц= 1/с Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон (рис. 1). Человек воспринимает эти звуковые волны (колебания воздуха) с помощью своего слухового аппарата: колебания барабанной перепонки передаются во внутреннее ухо и раздражают слуховой нерв. Таким образом, человек воспринимает звук.
Человеческое ухо воспринимает звук с частотой от 20 колебаний в секунду (низкий звук) до 20 000 колебаний в секунду (высокий звук). Человек может воспринимать звук в огромном диапазоне интенсивностей, в котором максимальная интенсивность больше минимальной в 1014 раз (в сто тысяч миллиардов раз). Для измерения громкости звука применяется специальная единица "децибел" (дб) (табл.1). Уменьшение или увеличение громкости звука на 10 дб соответствует уменьшению или увеличению интенсивности звука в 10 раз.
Временная дискретизация звука Для того чтобы компьютер мог обрабатывать звук, непрерывный (аналоговый) звуковой сигнал должен быть преобразован в цифровую дискретную форму с помощью временной дискретизации. В процессе кодирования звука непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенное значение интенсивности звука. Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой (плавной) кривой на последовательность "ступенек" (рис. 2).
Каждой «ступеньке» присваивается значение уровня громкости звука, его код. Уровни громкости звука можно рассматривать как набор возможных состояний, соответственно, чем большее количество уровней громкости будет выделено в процессе кодирования, тем большее количество информации будет нести значение каждого уровня и тем более качественным будет звучание. Качество кодирования звуковой информации зависит от: 1) частоты дискретизации, т.е. количества измерений уровня сигнала за одну секунду. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования. Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду. 2) глубины кодирования, т.е. количества уровней сигнала. Каждой "ступеньке" присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука. Глубина кодирования звука - это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука. Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2I (с такой формулой мы уже встречались неоднократно, вспомните эти случаи). Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно: N = 2I = 216 = 65 536. В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему - 1111111111111111. Качество оцифрованного звука Чем больше частота и глубина кодирования звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 бит и записи одной звуковой дорожки (режим "моно"). Намного более высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 бит и записи двух звуковых дорожек (режим "стерео"). Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду и умножить на 2 (стереозвук): 16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт = 750 Кбит. Кроме частоты дискретизации и глубины кодирования, на качество «цифрового» звука влияет битрейт и формат файла. Битрейт - это величина, которая отображает количество единиц информации (мегабит или килобит), вмещенных в одну секунду воспроизведения файла. Соответственно, он измеряется в мегабитах в секунду (Mбит/с) или килобитах в секунду (Kбит/с). Иначе битрейт можно охарактеризовать как ширину пропускной полосы. Эта характеристика важна для тех, кто хочет конвертировать файлы, поскольку при одной и той же продолжительности больший битрейт приведет к увеличению файла. Помимо размера, меняется и качество звука. Уменьшение размера файла при понижении битрейта называется сжатием. Битрейт аудио чаще всего составляет 256 Кбит/с. При таком значении аудиозапись сжимается в размере приблизительно в 6 раз, благодаря чему на один диск можно записать в 6 раз больше музыки, чем до сжатия. Если битрейт понизить до 128 Кбит/с, то на один диск поместится уже в 12 раз больше музыки, однако качество звучания будет заметно ниже. Музыка, записанная в качестве 128 Кбит/с, чаще всего предлагается для прослушивания в интернете, т.к. в погоне за повышением скорости загрузки страниц владельцы ресурсов идут на любые жертвы. Многие пользователи отмечают, что ее качество далеко от идеального. Звуковые редакторы (форматы файлов) Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.). Звуковые редакторы позволяют изменять качество цифрового звука и объем звукового файла путем изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV или в формате со сжатием МР3. При сохранении звука в форматах со сжатием отбрасываются «избыточные» для человеческого восприятия звуковые частоты с малой интенсивностью, совпадающие по времени со звуковыми частотами с большой интенсивностью. Применение такого формата позволяет сжимать звуковые файлы в десятки раз, однако приводит к необратимой потере информации (файлы не могут быть восстановлены в первоначальном виде). MP3 и «качество Audio-CD» Распространено мнение, что запись с битрейтом 128 Кбит/c подходит для музыкальных произведений, предназначенных для прослушивания большинством людей, обеспечивая качество звучания Audio-CD. В действительности всё намного сложнее. Во-первых, качество полученного MP3 зависит не только от битрейта, но и от кодирующей программы (кодека). Во-вторых, помимо превалирующего режима CBR (Constant Bitrate — постоянный битрейт) (в котором, проще говоря, каждая секунда аудио кодируется одинаковым числом бит) существуют режимы ABR (Average Bitrate — усредненный битрейт) и VBR (Variable Bitrate — переменный битрейт) (в которых битрейт варьируется, обеспечивая более высокое качество звучания). В-третьих, граница 128 Кбит/c является условной, так как она была «изобретена» в эпоху становления формата, когда на некачественных аудиокартах и компьютерных колонках было практически невозможно отличить MP3 от оригинала. На данный момент считается, что неотличимое от оригинала звучание (при правильно выбранном и настроенном кодеке) обычно достижимо при битрейте от 160 кбит/c и выше — в зависимости от исходного аудиофайла, слушателя и его аудиосистемы. Некоторые аудиофилы предпочитают сжимать музыку с «максимальным качеством» — 320 Кбит/c. На самом деле известны семплы (фрагменты аудиозаписи), не поддающиеся качественному сжатию с потерями: на всех возможных битрейтах не составляет особого труда отличить сжатое аудио от оригинала. Задания и вопросы для самостоятельного выполнения Звуковая плата производит двоичное кодирование аналогового звукового сигнала. Какое количество информации (в бит) необходимо для кодирования каждого из 65536 возможных уровней интенсивности сигнала? 2. Оценить информационный объем цифровых звуковых файлов длительностью 10 секунд при глубине кодирования и частоте дискретизации звукового сигнала, обеспечивающих различное качество звука: а) моно, 8 битов, 8000 измерений в секунду; б) стерео, 16 битов, 48 000 измерений в секунду. 3. Определить длительность звукового файла, который занимает объем 2 Мб: а) при низком качестве звука: моно, 8 битов, 8000 измерений в секунду; б) при высоком качестве звука: стерео, 16 битов, 48 000 измерений в секунду. 4. Дайте сравнительную характеристику параметрам: глубина звука, глубина цвета |