Россинская суд экспертиза. Судебная экспертиза типичные ошибки
Скачать 0.9 Mb.
|
Полученные экспертом результаты измерений значений формантных частот не свидетельствуют об их уникальности для конкретного лица (как, например, отпечатки пальцев рук). Они лишь указывают на фонологическую принадлежность к определенному артикуляторному типу (по месту и способу образования - ряду и подъему, огубленности) и на фонетическое качество звуков русского языка. Как известно, формантные частоты однородного, неизменного по форме акустического волновода длиной 17,5 см составляют 500, 1500, 2500, 3500 Гц. Это примерно соответствует формантным частотам нейтрального безударного гласного "э" среднестатистического диктора мужчины. Значения частотной локализации первых трех формант помимо фонематической значимости приобретают значение идентификационных признаков только на статистически представительном речевом материале, который не может ограничиться отдельными выборочными реализациями некоторых фонем в разных фонетических окружениях, как это было сделано экспертом. Компакт-диск Oxion CDR-700 mb N 500334, шифр 2-4206-07 с фонограммами образцов речи А., полученных при проведении оперативно-розыскных мероприятий, оригиналов фонограмм не содержит, так как получен путем перезаписи на оптический диск подборки скомпилированных фонограмм 44 телефонных переговоров, записанных при помощи стационарного цифрового регистратора. Условия, параметры и искажения, которым подвергались образцы голоса на данных копиях фонограмм, эксперту не сообщались и им не учитывались. С методической точки зрения важно подчеркнуть, что эксперт не проводил системного сравнения речи неизвестного лица на каждой спорной фонограмме с образцами голоса. На стр. 18 - 19 эксперт, не проводя никакого исследования, произвольно все реплики неизвестного лица, ведущего переговоры с К. на всех спорных фонограммах, волюнтаристски приписал одному и тому же лицу. Согласно упомянутому выше заключению эксперт сразу, без осуществления предусмотренных методикой исследований, решил, что на всех спорных фонограммах 1 - 4 идентифицируемый диктор - одно лицо, а далее выполнял сравнительное исследование акустических признаков речи диктора А. и произвольно выбранных фрагментов речи одной или нескольких спорных фонограмм. Поскольку такое исследование, согласно методике, необходимо проводить для каждой фонограммы независимо, то результаты исследования эксперта в рассматриваемом заключении не могут быть объективными. Любому здравомыслящему человеку понятно, что в речи разных людей можно найти внешне похожие участки речевых сигналов, тем более когда цифровые фонограммы, представленные в качестве образцов А., и цифровые фонограммы, с которых были сделаны копии на микрокассету, могли быть специально модифицированы по одному алгоритму для придания голосу и речи сравниваемых дикторов внешнего подобия по спектрально-временным характеристикам. Это как измерять среднюю температуру по больнице и обосновывать ею "диагноз" конкретного больного. Обращает на себя внимание тот факт, что признаки, перечисленные экспертом на стр. 19 - 20, в целом не носят индивидуальный характер, а являются присущими фонетике спонтанной речи <1> либо обусловлены искусственной модификацией речевого сигнала на спорных фонограммах и образцах, придавшей тембральной окраске голоса бросающийся в глаза дребезжащий оттенок и сдавленность <2>. В то же время особенности лексико-семантического и семантико-синтаксического строя речи, устойчивые при искажении речевых сигналов фонетические признаки, а также особенности стилистики речевого поведения говорящего эксперт не исследовал, в своем заключении не описал. -------------------------------- <1> См., напр.: Бондарко Л.В., Вербицкая Л.А., Гейльман Н.И. и др. Фонетика спонтанной речи / Под ред. Н.Д. Светозровой. Л.: Изд-во Ленинградского ун-та, 1988. <2> Вследствие работы речевого кодека или цифровой обработки сигнала см., напр.: Сергеенко В.С., Баринов В.В. Сжатие данных речи, звука и изображений в телекоммуникационных системах. М.: Радиософт, 2009. При приобщении фонограммы-копии к материалам уголовного дела необходимо обеспечить "цепь законных владений", проверить достоверность и подлинность записанной на фонограмме информации, исключить подмену носителя записи или внесение изменений в содержание оригинала, в том числе и искусственную модификацию голоса лица, подлежащего идентификации. В нашем случае подлинники (оригиналы) фонограмм эксперту не предоставлялись, записывающее устройство, на котором изготавливались копии на микрокассете, следователю не выдавалось и на экспертизу не направлялось. Достоверность происхождения копий фонограмм на микрокассете не проверялась, верность копий оригиналам надлежаще не удостоверялась. В то же время для достоверного решения вопроса о наличии или отсутствии признаков монтажа и иных видов фальсификации доказательств исследование устройств, использованных для производства фонограммы-оригинала и фонограммы-копии, по методикам фоноскопической экспертизы обязательно <1>. -------------------------------- <1> См., напр.: Галяшина Е.И. Судебная фоноскопическая экспертиза. М., 2001. Особенностью исследованных экспертом спорных фонограмм и представленных образцов голоса является, помимо того, что данные фонограммы не являются, по всей видимости, оригиналами, и тот факт, что телефонные переговоры фигурантов уголовного дела проводились по сотовой мобильной связи GSM. Укажем на особенности данных фонограмм, которые должны обязательно учитываться при идентификационных исследованиях в силу тех искажений, которым подвергается речь человека при прохождении через указанные устройства. Мобильная связь - это любая радиосвязь, позволяющая абоненту пользоваться ею без привязки к конкретному месту. Сотовая связь - разновидность мобильной связи, организованная по принципу сот или ячеек (cells), путем размещения базовых станций (БС), которые покрывают локальную территорию. Существует несколько стандартов цифровых систем связи: европейский GSM (Global System for Mobile Communications), американский ADS (American Digital System), традиционно использующийся в США PCS (Personal Communications Service), английский (DCS - Digital Cellular System) DCS-1800, являющийся прямым аналогом GSM-1800, и японский JDS (Japan Digital System). В странах СНГ более широко применяется стандарт GSM. Это стандарт, определяющий работу в радиотелефонных сетях общего пользования, получил распространение в Европе. Европейский институт стандартизации телекоммуникаций (ETSI - The European Telecommunications Standards Institute) стандартизировал и определил основные положения действующих в настоящее время в Европе стандартов мобильной связи. В России, как и в Европе, мобильная связь GSM работает в двух диапазонах - 900 и 1800 МГц. Укажем на то, что происходит с речью человека при прохождении тракта мобильного телефона. Обработка речи в стандарте GSM <1> осуществляется в рамках принятой системы прерывистой передачи речи DTX (Discontinuous Transmission), которая обеспечивает включение передатчика только тогда, когда пользователь начинает говорить и отключает его в паузах и в конце разговора. Система DTX управляет детектором активности речи VAD (Voice Activity Detector), который обеспечивает обнаружение и выделение интервалов речи с шумом и без шума речи даже в тех случаях, когда уровень шума соизмерим с уровнем речи. В состав системы прерывистой передачи речи входит также устройство формирования комфортного шума, который включается в паузах речи, когда передатчик отключен. Экспериментально показано, что отключение фонового шума на выходе приемника в паузах при отключении передатчика раздражает абонента и снижает разборчивость речи, поэтому применение комфортного шума в паузах считается необходимым. Процесс DTX в приемнике включает также интерполяцию фрагментов речи, потерянных из-за ошибок в канале. -------------------------------- <1> Галяшина Е.И., Галяшин В.Н. Цифровые фонограммы как судебное доказательство, Воронежские криминалистические чтения. Воронеж: Изд-во Воронежского гос. ун-та, 2007. N 8. С. 71. Все имеющиеся на сегодня детекторы тона имеют выраженный дефект - ложное детектирование тона в интенсивных шумовых сигналах. Вследствие этого шипящие звуки устной речи и многие акустические сигналы шумового характера делаются более звонкими. В алгоритме также используется так называемая постфильтрация - заглаживание специальным фильтром всех дефектов восстановленного (синтезируемого) речевого сигнала на выходном конце. Как видно из вышесказанного, идентификация диктора по физическим признакам речи, диагностика акустического окружения и лингвистический анализ фонетических признаков речи в таком сигнале значительно затруднены. Основная проблема имеет принципиальный методологический характер и заключается в том, что исследованию подлежит синтезированный речевой сигнал, из которого алгоритмом кодирования исключены существенные идентифицирующие диктора, обстановку и канал связи особенности. Без решения вопросов достоверности воспроизводимого сигнала и границ допустимости его искажений специально для сигнала переговоров в GSM-канале экспертное исследование не может быть полным. Формирование комфортного шума осуществляется в паузах активной речи и управляется речевым декодером. Когда детектор активности речи (VAD) в передатчике обнаружит, что говорящий прекращает разговор, передатчик остается еще включенным в течение следующих пяти речевых кадров. Во время первых четырех из них характеристики фонового шума оцениваются путем усреднения коэффициента усиления и коэффициентов фильтра LPC-анализа. Эти усредненные значения передаются в следующем пятом кадре, в котором содержится информация о комфортном шуме (SID кадр). В речевом декодере комфортный шум генерируется на основе LPC анализа SID кадра. Паузы заполняются шумом, спектральный состав которого близок к белому, а аудиторное восприятие отдаленно напоминает шум льющейся воды, или же наводки аналогового сигнала тональной телефонии. Таким образом, каждая фонограмма в GSM-канале является "смонтированной" из цифровых реплик абонентов, между которыми производится вставка искусственного сигнала "комфортного шума". При этом, как уже отмечалось, весь смонтированный сигнал, т.е. и места стыков - монтажных переходов между передаваемым речевым сигналом и синтезируемым шумом, сглаживается специальным постфильтром. После многократных сжатий и преобразований в звуковом сигнале мобильной связи (да еще и переписанной на аналоговый носитель) может не остаться никаких следов монтажа. И самое главное - по каналу связи передается не сама речь, а некий набор кодов и символов, по которым на оконечном аппарате восстанавливается (синтезируется) сигнал, похожий на исходный, но который не является исходным сигналом. GSM - система цифровая, поэтому требует оцифровывания аналоговой речи. Поэтому в телефонных системах используется метод оцифровки сигнала, называемый импульсно-кодовой модуляцией PCM (Pulse Coded Modulation). На данном этапе происходит сжатие сигнала до скорости выходного потока в 64 кбит/с с потерей криминалистически значимой информации о сигнале. Однако указанная скорость потока слишком высока для передачи по радиоканалам системы GSM. Поэтому оцифрованная речь подвергается дополнительной компрессии. Для этого используются специальные устройства кодирования сигнала - кодеки. Сжатие данных - процедура перекодирования данных, производимая с целью уменьшения их объема. Применяется для более рационального использования устройств хранения и передачи данных. Сжатие данных с потерями - это метод сжатия данных, когда распакованный файл отличается от оригинального. Эти методы часто называются кодеками в этом контексте. Кодек (англ. codec - сокр. от coder/decoder (кодировщик/декодировщик) или compressor/decompressor) - устройство или программа, выполняющая преобразование информации в форму, удобную для дальнейшего использования, и отвечающая определенным условиям (объективным) и требованиям (субъективным). Процедура оцифровки речевых сигналов в GSM происходит в речевом кодеке. Для объяснения процесса оцифровки речи в системе GSM необходимо объяснить термин "линейное предсказание", используемый в системе для кодирования речи. Задача линейного предсказания (ЛП) состоит в следующем: сформировать из нескольких отсчетов речи линейную комбинацию, наиболее точно аппроксимирующую следующий отсчет. Для этого сигнал речи сегментируют на блоки, обрабатывают "окном" и для каждого блока вычисляют автокорреляционную функцию (АКФ), число отсчетов которой обычно около 10. Оказывается, что такая АКФ содержит информацию о формантном спектре речи на данном сегменте. На втором шаге находят решение системы линейных уравнений относительно коэффициентов предсказания - тех самых, что нужны для формирования синтезирующего фильтра. Фактически найденные коэффициенты задают спектральную модель голосового аппарата человека, и чем выше порядок ЛП, тем точнее модель. Пропустив исходную речь через фильтр, обратный полученному, мы получаем функцию, близкую к сигналу возбуждения. В ее спектре формантные области сглажены, а спектральный характер напоминает белый шум. Поэтому обратный фильтр также называют отбеливающим. На третьем шаге параметры ЛП квантуются, после чего передаются на приемную сторону. А ошибка предсказания (разностный сигнал) обрабатывается с целью выделения существенных для человеческого восприятия параметров. Например, в простейших кодеках ЛП передается период основного тона (ОТ) и мощность возбуждающих импульсов. В описанном ниже кодеке RPE-LTP таких импульсов уже несколько, а в кодеках CELP вместо передачи самих импульсов подбирается наиболее подходящая запись из набора хранящихся в заранее сформированной кодовой книге. Тогда вместо самой последовательности можно на прием передать ее порядковый номер в кодовой книге. В любом случае по каналу связи вместо самой речи передают так или иначе выделенные и квантованные параметры предсказания, интервал и усиление ОТ, параметры возбуждения. Для стандарта GSM 06.10 выбран речевой кодек с регулярным импульсным возбуждением/долговременным предсказанием и линейным предикативным кодированием с предсказанием (RPE/LTP - LTP-кодек - Regular Pulse Excitation - Long-Term Prediction - Linear Predictive Coder), что позволило снизить скорость передачи до 13 Кбит/сек. В литературе часто используется другое, упрощенное название кодека: RPE-LTP (Regular-Pulse Excitation/Linear Predicative Coding - кодек с регулярным импульсным возбуждением и линейным кодированием с предсказанием). В нескольких словах, алгоритм, применяемый в GSM, заключается в следующем: несколько фрагментов речи, которые изменяются не очень быстро, используются, чтобы определить актуальный фрагмент; коэффициенты линейной комбинации предыдущих фрагментов вместе с кодированной разницей (отличиями между определенным и актуальным фрагментами) представляют собой сигнал. Речь разбивается на 20 миллисекундные фрагменты, каждый из которых кодируется в 260 битов, давая суммарную скорость передачи 13 кбит/с, т.е. для каждой порции сигнала с помощью специального алгоритма определяются основные параметры сигнала (параметры модели речевого тракта диктора), которые кодируются и в сжатом виде передаются в канал связи корреспонденту. Однако и здесь происходит изъятие из сигнала его частей. Результирующее кодирование с малой скоростью достигается в три этапа: - линейным кодированием с предсказанием; - долговременным предсказанием; - регулярным импульсным возбуждением. В декодере на приемном телефоне речевой сигнал восстанавливается (как принято говорить, "синтезируется") по переданным параметрам, по откликам последовательности регулярного импульсного возбуждения (RPE) двухступенчатым синтезирующим фильтром. Речевой сигнал на приемном конце вычисляется (точнее, синтезируется) по переданным параметрам. При этом структура восстановленного сигнала сильно упрощена по отношению к исходном звуковому сигналу (объем информации о речевом сигнале сокращен примерно в 5 - 10 раз), а общее качество речевого сигнала в канале стандарта GSM и узнаваемость диктора по отношению к стандартному телефонному каналу ухудшаются. Исторически первым был алгоритм полномасштабного кодирования (Full Rate, FR). Затем появились алгоритмы расширенного полномасштабного кодирования (Enchanced Full Rate, EFR) и кодирования половинного масштаба (Half Rate, HR). В настоящее время в сетях GSM применяют следующие стандартизованные узкополосные кодеки, стандартизованные ETSI (European Telecommunications Standards Institute) - GSM 06.10, GSM 06.20 (GSM-HR), GSM 06.60 (GSM-EFR), AMR. Другие используемые кодеки, например, MS-GSM, носят частный случай указанных выше. Кодек AMR (Adaptive Multi Rate, ETSI 06.90) - адаптивное кодирование речи с переменной скоростью. Стандарт кодирования звуковых файлов, специально предназначенный для сжатия сигнала в речевом диапазоне частот. Стандартизован ETSI (European Telecommunications Standards Institute). Использование AMR позволяет обеспечить высокую емкость сети с одновременно высоким качеством передачи речи. AMR обладает широким набором скоростей кодирования/декодирования речи и позволяет гибко переключаться на различные режимы в зависимости от окружающих условий или загрузки сети. Всего существует 14 режимов AMR кодека, 8 из них доступно в полноскоростном канале (Full Rate, FR) и 6 в полускоростном канале (Half Rate, HR), т.е.: 4,75 - 2,2 кбит/сек. Линейное предсказание (LPC - ЛП, см. выше) является одним из наиболее эффективных методов анализа речевого сигнала. Этот метод чаще используют при оценке основных параметров речевого сигнала, таких как период основного тона, форманты, спектр, позволяя достаточно точно и надежно оценить параметры линейной системы с переменными коэффициентами. Кодирование речи на основе метода линейного предсказания заключается в том, что по линии связи передается не речевой сигнал как таковой, а параметры некоторого фильтра, эквивалентного голосовому тракту, и параметры сигнала возбуждения этого фильтра. В линейном предсказателе с возбуждением от кода CELP (Code Excited Linear Predictive) сигнал возбуждения представляется в виде вектора, которому присваивается определенный индекс, т.е. код. Выбор оптимального вектора осуществляется с большого множества векторов-кандидатов, которые составляют кодовую книгу. Определение размера кодовой книги возбуждения имеет определяющее значение для создания необходимого качества восстановления синтезированного языка. Скорость речевого сигнала на выходе составляет 12,2 кб/сек. Суммируя, можно заключить, что осуществляется передача ненативного сигнала, а страницы в виртуальной книге, по которой на оконечном телефоне восстанавливается (синтезируется) сигнал. Следовательно, никакого сигнала по мобильной связи не передается, а передаются параметры некоей кодовой книги. Современные телефоны могут работать как в сетях GSM-900, так и в GSM-1800 МГц. Если мобильный телефон при работе в сети GSM-900 находит сеть GSM-1800, то он переключается (автоматически или вручную) на работу в данной сети. При этом сеть GSM-1800 имеет большую "проникающую способность", и поэтому, например, в центре Москвы провайдеры осуществляют роуминг по сети GSM-1800. Кроме того, большинство мобильных телефонов поддерживают все описанные выше кодеки. Речевой сигнал на выходе процедуры кодирования/декодирования по алгоритму GSM всегда имеет участки разрыва непрерывности передачи речевого сигнала в паузах между репликами абонентов и заполнение этих участков прекращения передачи полезного сигнала однородным искусственным сигналом "комфортного шума". Данная специфика речевого сигнала переговоров с использованием сети GSM вводит новые проблемы при обнаружении следов монтажа фонограмм. "Если кто-либо выполняет монтаж новой фонограммы на основе одной или нескольких фонограмм переговоров абонентов, ведущих разговоры по сотовой телефонной сети GSM, то при размещении монтажных переходов в паузах между репликами разговора обнаружение таких точек монтажного перехода является сложной экспертной задачей, требующей особых методов исследования. Причем выполнить такой монтаж несложно как с помощью компьютерных комплексов цифрового монтажа фонограмм, так и с помощью современных высококачественных аналоговых магнитофонов, применяя режим временной остановки записи" <1>. Еще более эта задача может осложниться, если смонтированная фонограмма была вторично пропущена через телефонную сеть, что может добавить в нее естественный непрерывный шум телефонного канала. -------------------------------- <1> Иванов И.Л. Экспертное исследование формата GSM // Режим доступа: http://www/illidiy.orel.ru/pub/publ6.htm. На участках речевых пауз по природе цифрового кодирования по алгоритму GSM имеется не реальный звуковой сигнал, а искусственный сигнал "комфортного шума". В случае использования для монтажа фонограмм, в которых переговоры велись абонентами в одной и той же относительно тихой окружающей звуковой обстановке с одних и тех телефонных аппаратов, обнаружить на участках монтажных переходов признаки монтажа обычно не представляется возможным, так как между репликами в GSM-канале имеются участки вставки искусственного шума. Отличить участки, вставленные самим алгоритмом кодирования GSM при передаче, от искусственно вставленных в процессе монтажа фонограммы участков шума вместе с последующими репликами довольно трудно. Во всяком случае в местах таких монтажных переходов отсутствуют щелчки, скачки уровня и частотного диапазона шумов, импульсы включения/выключения аппаратуры записи, обрывки слов или фраз, нарушения логического единства разговора, т.е. все те признаки, поиск которых обычно осуществляют эксперты при исследовании на предмет выявления признаков монтажа фонограмм. Во избежание ошибок при производстве судебных фоноскопических экспертиз необходимо прежде всего диагностировать речевую фонограмму на предмет использования каких-либо средств сжатия, что позволит правильно оценить в дальнейшем установленные параметры речи. Считается, что речевой сигнал может быть пригодным для идентификации диктора при обработке его алгоритмами сжатия с определенной нижней границей скорости цифрового потока, а именно: - 32 кбит/с для ADPCM; - 9,6 кбит/с для линейных предсказателей. Речевой материал может быть признан условно пригодным для идентификации диктора, когда эти значения могут составлять: - 16 кбит/с для ADPCM; - 8 кбит/с для линейных предсказателей. Во всех остальных описанных случаях обработанный речевой сигнал должен быть признан непригодным для достоверной экспертной идентификации диктора как физическими методами, так и лингвистическими, поскольку фонетическая структура языка, прошедшего такую обработку, существенно отличается от оригинала. Использование таких фонограмм в уголовном судопроизводстве в качестве вещественных доказательств видится проблематичным, поскольку смысловое содержание речевого сообщения в таких фонограммах может не соответствовать оригиналу. Однако в каждом конкретном случае определение пригодности речевого материала для идентификации диктора или установления смыслового содержания требует более детального теоретического и экспериментального его анализа <1>. -------------------------------- <1> Желудков Р.Н., Тимко Е.В., Усков К.Ю. О влиянии сжатия речи на допустимость речевой фонограммы в уголовное судопроизводство. Материалы 2-й Всероссийской конференции "Теория и практика речевых исследований" (АРСО-2001). М., 2001. С. 110 - 116. Режим доступа: http://expert.com.ua/kniise/articles/zhel1201_2.htm. Для того чтобы оценить, какой компрессии подвергся оцифрованный сигнал, поступивший на экспертное исследование, необходимо знать: тип и марку мобильного телефона, используемого абонентами при разговорах, в какой сети GSM они (разговоры) происходили и какой кодек и с какой скоростью передачи речевого сигнала использовался в конкретном мобильном телефоне. 1>1>1>1>1>1>1>1>2>1>2>1> |