§3.1. Судебно-экспертное исследование голоса, изменённого при помощи компьютерно-технических средств

Бурное развитие информационных и компьютерных технологий оказывает бесспорное воздействие на развитие тех или иных родов и видов (подвидов) судебных экспертиз. Появление новых компьютерно-технических средств подталкивает специалистов к усовершенствованию имеющих судебно-экспертных методик.

Однако у технического прогресса имеется и отрицательный эффект, криминальные элементы берут на вооружение достижения современных информационных технологий и используют их для приготовления, совершения, сокрытия преступлений. Что касается, судебной фоноскопической экспертизы обликовых характеристик личности, то появляются новые доступные способы маскировки и искажения речевого сигнала, затрудняющие решение задач по диагностике некоторых обликовых характеристик.

Общепринятым в методической литературе для наименования различного рода вмешательств в фонограммы является использование таких терминов, как «неситуационные изменения» и «монтаж». Однако, данные понятия не охватывают все возможные способы фальсификации фонограммы, как доказательства.

Термин «неситуационные изменения» «используется для обозначения признаков искажения зафиксированной на фонограмме звуковой информации, внесённых инструментальными (техническими) способами и выявляемых перцептивным, лингвистическим и инструментальным видами анализа»^[298].

Следует подчеркнуть, что нельзя ставить знак тождества между понятиями «неситуационные изменения» и «монтаж». Согласно ГОСТ 13699-91 под монтажом понимается «объединение двух или более частей одной или нескольких ранее записанных фонограмм (видеограмм, видеофонограмм) путём перезаписи, при котором могут вноситься изменения в записываемую информацию и может изменяться очерёдность фрагментов»^[299]. Поэтому выявление признаков монтажа включает в себя выявление признаков искажения информации о событии, имеющем место в действительности, осуществлённого путём подбора и соединения частей фонограммы в соответствии с определённым умыслом^[300].

Понятие «неситуационные изменения» рассматривается шире, чем понятие «монтаж», поскольку включает в себя различные искажения в отношении одной отдельной фонограммы без деления её на части.

Однако Е.И. Галяшина отмечает, что использование данного термина не совсем оправдано, например, авторы вышеуказанной методики не раскрывают, что понимается под термином «ситуация», они допускают «весьма вольное его толкование и расширяя до бесконечности пределы субъективного экспертного усмотрения при интерпретации факторов, конституирующих ситуацию, которая может трактоваться по-разному при противоположных позициях стороны обвинения и защиты»^[301].

Е. И. Галяшина подчёркивает, что при постановке вопросов о наличии/отсутствии признаков монтажа или иных изменений «упускается из вида возможность фальсификации фонограммы иными способами, в частности, путем выборочной записи «нужных» или пропуска «нежелательных» фраз и высказываний, инсценировки или имитации голоса и речи, компьютерного синтеза фраз и др.»^[302]. Для устранения этих неточностей Е.И. Галяшина предлагает использовать понятие «аутентичность речевого события»^[303].

«Уголовное судопроизводство требует проверки подлинности и достоверности фонограмм, выступающих в качестве вещественных доказательств»^[304]. Ст. 88 УПК РФ предусматривает оценку доказательства с точки зрения относимости, допустимости, достоверности, достаточности, в этих целях следователь (суд) должен установить подлинность фонограммы путём анализа всей совокупности собранных доказательств. Однако необходимо разделять установление подлинности фонограммы, как одного из доказательств, что является прерогативой исключительно следователя (суда), и установление аутентичности фонограммы^[305]. Последний вопрос является уже экспертной задачей, и рассматривается как один из способов установления подлинности фонограммы, но с использованием иных методов, на основе специальных знаний эксперта.

Аутентичность фонограммы «означает адекватность отображения фиксируемого звукового события (следа) на материальном носителе с учётом естественных искажений и помех, которые обусловлены характеристиками тракта передачи и записи, другими ситуативными факторами»^[306].

Таким образом, аутентичной можно признать фонограмму, если не имеется признаков каких-либо намеренных искажений голоса и речи, если в неё не вносились изменения ни в процессе её записи, ни после её записи.

Для того чтобы фонограмма считалась аутентичной, она «должна отвечать критериям непрерывности, непосредственности записи звуковых сигналов от первоисточника, одновременности записи речевых сигналов от различных источников, соблюдения временной и линейной последовательности записи сигналов, полноты отображения речевого события»^[307].

Е.И. Галяшина выделяет ряд признаков нарушения аутентичности фонограммы:

1. «Искусственное уменьшение количества или ухудшение качества

значимой информации (стирание, выборочная звукозапись, нарушение

непрерывности записи);

2. Искусственная маскировка шумом, музыкальной помехой, снижение речевой разборчивости за счёт деформации АЧХ-сигнала или внешнего источника помехи, ручная регулировка уровня записи, искажение голоса с помощью приборов, например, типа Voice-changer и т. д.;

3. Искусственное увеличение количества значимой информации (монтаж методом вставки или продолжения, дополнение речевого сигнала вербальной или акустической информацией методом микширования и т. д.);

4. Искусственная полная или частичная замена речевой информации (инсценировка, речевой синтез, имитация голоса и речи, монтаж методом вставки или продолжение с одновременным стиранием исходной информации и т. д.);

5. Искусственное изменение линейной последовательности и компоновка речевой информации в определённом порядке»^[308].

Таким образом, под нарушением аутентичности речевого события понимаются искажения речевого сигнала, монтаж фонограммы, синтез, имитация, маскировка, модификация голоса и речи.

Философский словарь толкует понятие «искажение» следующим образом: «Изменение, сопровождающееся утратой ряда качеств или приобретением новых»^[309].

Искажения по характеру могут быть преднамеренными (искусственными) и случайными (естественными).

Естественные искажения имеют «ситуативно, технически, технологически обусловленный характер»^[310].

На преднамеренность искажения голоса и речи могут указывать особенности представленного речевого сообщения, несоответствия выявленных признаков голоса и речи и обликовых характеристик личности, воспринимаемых на уровне слуховой перцепции.

Если экспертом обнаружены признаки наличия каких-либо искажений в фонограмме, ему необходимо установить «механизм, способы и причины внесения в фонограмму изменений, их искусственный или естественный харктер»^[311], указать степень искажения признаков, являющихся криминалистически значимыми.

Синтез речи - это «технология, которая позволяет озвучивать (читать) текст естественным голосом человека».^[312]

Модификация рассматривается как более широкое понятие. Цифровые фонограммы намного проще поддаются модификации, чем аналоговые. «Модификация - видоизменение предмета или явления, не затрагивающее его сущности»^[313]. В судебной фоноскопии модификацию фонограммы можно рассматривать как любое (намеренное или ненамеренное) воздействие на фонограмму, изменяющее или искажающее её свойства.

Понятия «маскировка» и «имитация» на первый взгляд очень похожи, в рамках фоноскопического исследования имеют своей целью каким-либо образом скрыть реальный голос диктора, тем не менее, имитация и маскировка «достигаются разными способами и имеют разную степень лёгкости выполнения»^[314].

Имитация - это, прежде всего, подражание голосу и речи другого лица путём анализа особенностей речепорождения диктора (тембра, артикуляции,

интонационного оформления и т.д.). Обладая необходимыми навыками лицо может сымитировать речь лица противоположного пола, возраст, этническую, территориальную принадлежность, речь лица в состоянии опьянения и другие обликовые характеристики личности.

Маскировка голоса связана с изменением лингвистических и акустических характеристик голоса и речи лица с целью намеренного сокрытия собственной личности или личности иного лица.

При подражании голосу лица имитаторы путём воспроизведения некоторых известных им характеристик голоса и речи стараются, намеренно или нет, достичь тех значений формантных частот, которым соответствует голос подражаемого субъекта. Однако, как показывают исследования, «достичь значений формантных параметров, имитаторам удаётся крайне редко»^[315]. Однако путём проведения сравнительного исследования с помощью микроанализа звуков и анализа соотношений формантных частот можно установить, с определённой степенью вероятности, чей голос зафиксирован на спорной фонограмме.

В определённой мере имитация голоса и речи входит в понятие маскировки, которое является более широким по своему содержанию, то есть маскировка может быть осуществлена и путём имитации голоса и речи лица.

Мы предлагаем выделить три способа маскировки голоса и речи, условно обозначим их следующим образом:

1) «Лингвистическая» - модификация лингвистических параметров звучащей речи;

2) «Акустическая» - модификация акустических параметров речевого сигнала.

3) «Смешанная» - модификация как некоторых лингвистических

признаков, так и акустических характеристик звучащей речи.

Лингвистическая маскировка проявляется в искажении некоторых лингвистических признаков голоса и речи, что приводит к изменению некоторых обликовых характеристик личности. Например, намеренное использование ненормативной лексики (если это было несвойственно диктору), увеличение количества нарушений правил грамматики (управления, согласования и т.д.), неправильная постановка ударения, обилие жаргонизмов приводят к снижению уровня речевой культуры диктора. Однако данный способ маскировки может быть выявлен методами как акустического, так и лингвистического анализа, при проведении сравнительного исследования могут быть установлены совпадения признаков, не подвергшихся искажению, а должная криминалистическая оценка выявленных несоответствий признаков позволит установить факт лингвистической маскировки обликовых характеристик личности.

Смешанная маскировка связана с искажением некоторых лингвистических признаков голоса и речи, акустических параметров, но без использования компьютерно-технических средств. В данном случае многие признаки лингвистической группы могут быть преднамеренно изменены (например, тембр, артикуляционные, просодические, лексические признаки, признаки речевой культуры и т.д.), изменяются и акустические параметры, например, частота основного тона. В результате использования приёмов смешанной маскировки могут быть изменены пол, возраст, социалект, диалект лица. Это может быть связано с необходимостью имитировать голос другого лица, так и в целях сокрытия своей личности. Подобный способ маскировки голоса и речи может быть осуществлён, например, путём зажатия ноздрей, сжатия челюсти, втягивания щёк, вытягивание вперёд губ и т. д.^[316]

Акустическая маскировка может быть использована преступником в ситуациях, когда он намерен остаться неузнанным, и его основной целью является обеспечение невозможности его последующей идентификации.

Большинство компьютерно-технических средств для изменения голоса направлены на изменение в первую очередь признаков, указывающих на пол и возраст говорящего. В данном параграфе более подробно мы рассмотрим способ именно акустической маскировки.

Немаловажным считаем отметить, что при изменении голоса в реальном времени, изменений именно в готовую фонограмму не вносится. Изменения вносятся на стадии формирования речевого сигнала, поступающего в канал записи, в результате на выходе, посредством цифро-аналогового преобразования, образуется новый, видоизменённый речевой сигнал, но без каких-либо признаков постобработки.

Возникает определённая коллизия: с точки зрения судебной фоноскопической экспертизы такая фонограмма не будет являться аутентичной, поскольку не будет содержать истинной информации о речевом событии, но в то же время её содержание будет полностью соответствовать сигналу, поступившему в канал записи, без каких-либо изменений. Таким образом, несмотря на то, что фонограмма не подвергалась редактированию после завершения процесса звукозаписи, она не будет являться аутентичной.

Как уже было сказано, фонограммы, как и другие доказательства, оцениваются по всем правилам с точки зрения их допустимости, достоверности, достаточности. Однако установление неаутентичности фонограммы в процессе экспертного исследования приводит к признанию её недостоверным доказательством, вследствие её неподлинности.

Нам представляется, что подобная модификация речевого сигнала не может считаться основанием для признания фонограммы недостоверным доказательством по следующим основаниям: во-первых, другой фонограммы с немодифицированным звуковым сигналом может не быть; во-вторых, вносимые в звуковой сигнал изменения тоже обладают определённым доказательственным значением, поскольку характеризуют отдельные свойства личности преступника и обстоятельства совершения преступления, поэтому необходимо по возможности

дать криминалистическую оценку признаков, свидетельствующих об

использовании компьютерно-технических средств для изменения голоса.

В зависимости от предмета доказывания даже фонограмма, на которой зафиксированы признаки каких-либо искажений, то есть по сути не являющаяся подлинной, может иметь доказательственное значение. Это касается прежде всего возможности установления факта фальсификации фонограммы, как

доказательства, что уже, в соответствии с действующим законодательством (ст. 303 УК РФ), является преступлением, и, соответственно, тоже должно быть доказано процессуальными средствами. Например, если перед экспертом стоит задача установить факт имитации голоса и речи диктора (дела, связанные с расследованием телефонных мошенничеств, с участием пранкеров и т.п.), то выявленные экспертом изменения и должная их криминалистическая оценка могут быть использованы, в том числе, и в доказывании.

Для того чтобы понять, как был изменён голос и какие в него вносились изменения, прежде всего, необходимо изучить существующие приёмы и способы намеренного изменения голоса с помощью компьютерно-технических средств.

Существует множество различных по своим функциональным возможностям программ для изменения сексолекта диктора, например, «Voxal Voice Changer», «Audacity», «Поддельный голос», «Adobe audition», «Wave pad sound editor». Вышеуказанные программы созданы в первую очередь для персонального компьютера, однако существуют и приложения для изменения голоса, созданные для современных мобильных телефонов и смартфонов, которые с лёгкостью можно скачать в сети Интернет. Данные программы позволяют без труда изменить половую принадлежность и возраст диктора, и, таким образом, помочь преступникам скрыть свою личность.

Большинство компьютерно-технических средств для изменения сексолекта диктора или его возраста работают в соответствии с одним и тем же алгоритмом: они автоматически по заранее заложенным в них программам изменяют те параметры голоса, которые составляют функционально-динамический комплекс акустических навыков человека, в первую очередь, частоту основного тона голоса.

Перечисленные выше программы могут изменять как загруженную в них ранее записанную фонограмму, так и модифицировать речевой сигнал в реальном времени, например, при общении через средства Интернет-телефонии, такие как «Skype», «WhatsApp» и др.

Таким образом, программно-технические средства для изменения голоса мы предлагаем разделить на две группы:

1. «Изменяющие речевой сигнал непосредственно перед его поступлением в канал записи, то есть в реальном времени.

2. Изменяющие уже записанный на фонограмме речевой сигнал посредством постобработки»^[317].

К первой группе предлагаем отнести те программные средства, которые могут изменить речевой сигнал непосредственно в процессе речепорождения человека, то есть в реальном времени, например, при разговоре по телефону с помощью специальных приложений, или посредством программы «Skype». Такой способ используется, когда необходимо скрыть свою личность, но нет возможности избежать разговора в реальном времени. Аналогичный алгоритм, по которому работают программные средства, изменяющие голос в реальном времени, используется в гитарных эффект-процессорах. Схема работы данного алгоритма следующая: в начале речевой сигнал преобразуется в цифровой код с помощью аналого-цифрового преобразователя (АЦП). Затем процессор пересчитывает данный код в соответствии с алгоритмом, записанном на процессоре. На выходе процессора цифровой код преобразуется обратно в электрический сигнал посредством уже цифро-аналогового преобразователя (ЦАП), который слышит адресат на другом конце телефонного провода.

В случае использования данных программ отмечается появление задержек при передаче уже изменённого речевого сигнала. Перед записью голоса или перед разговором по телефону, пользователь выбирает в программе каким образом он хочет изменить свой голос, насколько понизить или повысить частоту основного тона, и только потом начинает соответственно запись или разговор.

В то же время, как нами уже было указано, при изменении голоса в реальном времени, изменений в готовую фонограмму не вносится. Изменения вносятся на стадии формирования речевого сигнала, поступающего в канал записи, где мы имеем новый, видоизменённый речевой сигнал.

Сложности в процессе исследования данных фонограмм появляются вследствие того, что никаких признаков внесения неситуационных изменений в фонограмму не формируется, имеется полностью новая, непрерывная фонограмма, с записанным на ней речевым сигналом, изменённым непосредственно в процессе его записи.

Ко второй группе мы относим те программы, которые осуществляют постобработку речевого сигнала, то есть изменениям подвергается именно фонограмма, записанная при помощи какого-либо устройства. При таком способе изменения пола и возраста диктора возможна ситуация, когда фонограмму с записью голоса одного человека разделяют на несколько частей, и обрабатывают каждую часть по отдельности различными способами и программными средствами. В результате проделанных изменений мы можем получить несколько фонограмм с отличающимися голосами из одной фонограммы с записью голоса одного человека. В таких случаях, кроме поиска признаков изменения акустических характеристик речевого сигнала, эксперту следует обратить внимание на возможность существования признаков монтажа фонограммы.

Оба типа вышеуказанных программ, изменяющих половозрастные характеристики диктора, базируются на алгоритме, в соответствии с которым «производится изменение основного тона путём либо растягивания, либо сжатия коротких участков речи. Для сохранения естественного темпа речи в случае понижения тона (растягивания фрагментов) некоторые фрагменты удаляются, в случае повышения тона (сжатия фрагментов) некоторые фрагменты дублируются»^[318].

В иностранной литературе процесс, связанный с модификацией частоты основного тона без изменения его скорости, именуют «питч-шифтинг» («pitchshifting»^{^[319]}, с англ. изменение основного тона). Питч-шифтинг - звуковой эффект или соответствующее устройство, добавляющее к сигналу его копию, отстающую от основного тона на любой интервал в пределах двух октав вверх или вниз^[320]. Питч-шифтинг - это способ изменить основной тон речевого сигнала, без изменения его длины. Как известно, окраска голоса зависит от значений частоты формант, если мы изменим частоту основного тона речевого сигнала с помощью специализированных инструментальных средств, то, таким образом, мы изменим и значения формант, и в результате изменится характер голоса, то есть его тембр. Американские исследователи называют эффект, получающийся в результате повышения частоты основного тона - «‘Mickey-Mouse’ effect^[321]» (эффект Микки- Мауса). Эффект получил такое название, потому что в результате повышения частоты основного тона, высота голоса тоже повышается, и получается немного «писклявый» тембр, как в мультфильмах про Микки-Мауса. Для того чтобы избежать данного эффекта и сделать голос более естественным применяют алгоритм коррекции формант, благодаря которому позиция формантных частот восстанавливается после или в момент питч-шифтинга, то есть изменяя частоту основного тона, формантные частоты не изменяются.

Изменить половую принадлежность голоса диктора можно, как указывает Р.К. Потапова^[322], удалив из спектра мужского голоса полосы частот от 100 Гц до 500 Гц, в результате подвергнутый таким изменениям мужской голос на предъявляемой слушателям фонограмме определяется как принадлежащий диктору-женщине.

Исследование голоса, изменённого при помощи компьютерно-технических средств, является сложной и спорной задачей судебной фоноскопической экспертизы. Вследствие того, что инструментальное исследование изменённого голоса, записанного на фонограмме, до сих пор имеет ряд сложностей, эксперты на практике используют лингвистические методы выявления изменений, которые вносятся в фонограммы. Как известно, содержательная и смысловая часть речевого продукта характеризует целый ряд признаков личности, а в случае намеренного изменения голоса с помощью компьютерно-технических средств не происходит изменения содержательной части высказываний, а только акустических характеристик.

Процесс производства судебной фоноскопической экспертизы включает в себя комплекс разнообразных методов, не только лингвистического анализа, но и инструментального. Вследствие этого, несмотря на то, что некоторые лингвистические характеристики голоса могут и не изменяться в случае использования компьютерно-технических средств для искажения пола и возраста говорящего, специалист должен уметь определить факт изменения голоса лица и при помощи инструментальных методов анализа.

Насколько известно, на данный момент не разработано методик исследования именно изменённого голоса, поэтому мы проанализируем какие из существующих методов судебной фоноскопической экспертизы можно применить к исследованию изменённого при помощи компьютерно-технических средств голоса.

Исследование изменённых при помощи компьютерно-технических средств характеристик говорящего основывается на полученных нами экспериментальных данных. Имеющиеся у нас исходные фонограммы с записью голоса лиц мужского и женского пола (возраст 19-23 года, количество - 10 фонограмм)^[323] были изменены при помощи программ «Adobe audition 4.0» и «AV Voice Changer Diamond». Отметим, что данные программы находятся в свободном доступе и их можно скачать в сети Интернет.

Как известно, высота звука зависит от частоты основного тона. Чем выше частота, тем выше звучание. Для изменения голоса диктора-женщины мы воспользовались функцией «lower pitch» (понижение частоты), для изменения голоса диктора-мужчины функцией «raise pitch» (повышение частоты). По

определённым алгоритмам, заложенным в данную программу, высота голоса в первом случае автоматически понижается за счёт уменьшения частоты основного тона голоса, женский голос преобразуется в мужской, во втором случае наоборот, повышается за счёт уже увеличения частоты основного тона.

Изменить высоту тона голоса в программе «Adobe audition 4.0» можно и вручную, меняя определённые настройки. Например, на вкладке «Effects» в разделе «Time and pitch» выбираем «Stretch and pitch», в диалоговом окне выбираем параметр «Pitch shift», понижая значение этого параметра всего на 5 полутонов, высота тона голоса сразу понижается, и, например, женский голос преобразуется в мужской. Следует отметить, что основное преимущество эффекта «Stretch and pitch» в том, что есть возможность изменять тональность звукового сигнала без изменения темпа записи голоса. В программе «Adobe audition 4.0» можно также выбрать панель «продвинутые настройки» (вкладка «advanced»). При выборе алгоритма «Izotope Radius» у пользователя появляются расширенные возможности, например, при установке флажка «Preserve Speech Characteristics» (с англ. «Сохранять характеристики речи») поддерживается реализм речи в случае изменения частоты основного тона голоса.

Функция «Formant Shift» (с англ. «Сдвиг формант») автоматически определяет, как формантам приспособиться при сдвиге тональности. По умолчанию нулевое значение регулирует форманты вместе со сдвигом тональности, сохраняя тембр и реализм. Установка значений выше нуля повышает тембр, что позволяет преобразовать «мужской» голос в «женский», установка значений ниже нуля в свою очередь создаёт обратный эффект: из «женского» голоса в «мужской».

Считаем важным отметить, что вследствие того, что низкие частоты обладают большей энергией, чем высокие, и некоторые звуки отчётливо распознаются по одной первой форманте (Fi) (например, звуки "а", "о", "у"), если отрезать фильтром нижних частот вспомогательные форманты спектра речевого сигнала, то исчезнет индивидуальная для каждого человека окраска произносимых звуков, но сама смысловая информация, заложенная в речевое сообщение, не пострадает и останется понятной.

Программа «AV Voice Changer Diamond», в отличие от предыдущей, относится к способам, которые изменяют речевой сигнал в реальном времени, то есть в процессе его формирования при поступлении в канал записи.

В данной программе есть функция «Voice morpher», которая отвечает за изменение голоса. Алгоритм изменения голоса такой же, как и в предыдущей программе, мы можем повысить, либо понизить частоту основного тона голоса во время записи. Для того чтобы начать запись голоса, нажимаем на значок «Recorder» и включаем запись (rec). Теперь при произнесении в микрофон, речевой сигнал будет изменяться в соответствии с теми параметрами, которые установлены в поле «Voice morpher». Данные параметры для изменения голоса, могут быть изменены и в процессе записи, например, половину произнесённой речи мы можем записать с низкой частотой, другую с высокой. Нажатие на кнопку «стоп» останавливает запись и автоматически сохраняет её в формате MPEG-1 Layer 3 (MP3). В программе также заложены определённые алгоритмы, включив которые, можем выбрать, например, изменение женского голоса на мужской, голос ребёнка, старика и т.д. Выбрать тот или иной алгоритм можно на вкладке «Nickvoices», отдельные алгоритмы предлагаются для женских и для мужских голосов.

Данная программа позволяет изменять голос при общении через различные программы типа «Skype», через различные голосовые чаты и голосовые сообщения, более того, программа может изменить голос и с потокового аудио, которое в момент пользования программой будет проигрываться на компьютере.

Перейдём теперь непосредственно к инструментальному анализу фонограмм изменённого голоса.

Первым этапом является исследование бинарной структуры фонограмм, их метаданных и иных служебных свойств при помощи программ «DUMP» и «Exiftool», в ходе которого могут быть обнаружены признаки редактирования фонограммы в какой-либо программе-редакторе, что будет являться сигналом для более тщательной проверки на предмет возможной модификации акустических характеристик речевого сигнала.

Программа «DUMP», например, даёт детальный отчёт о структуре файла, в котором содержится информация о том, является ли фонограмма оригиналом или копией, можно определить также с помощью какого устройства, была создана фонограмма, и с помощью какого программного средства в неё вносились изменения, позволяет выявить отклонения от стандартной структуры и исследовать недокументированные данные, оставляемые программным обеспечением устройств записи и программных редакторов.

При нажатии на панели структурных блоков на значок информации в поле «Mpeg audio», открывается окно «Mpeg data», где открывается информация поочерёдно о каждом байте в поле «Original» напротив каждого байта в отношении фонограммы, изменённой с помощью «Adobe audition», стоит значение «False», что означает, что данный файл не является оригиналом. Для сравнения при анализе исходной (неизменённой) фонограммы таким же способом в поле «Original» стоит значение «true». Подобную информация мы получили и с помощью программы «Exiftool».

С помощью программ «DUMP» и «Exiftool» также удалось обнаружить информацию о программе, с помощью которой в фонограмму вносились изменения, имеются указания на использование программы «Adobe Audition 4.0.».

Несмотря на широкий функционал программ «Exiftool» и «DUMP», они не выявили изменений в фонограмме, созданной при помощи программы «AV Voice Changer Diamond». Исследуемая фонограмма обозначается в программе как оригинальная, поскольку речевой сигнал модифицировался в процессе записи, без последующей программной обработки. С помощью какого устройства или программы была создана фонограмма, установить также не удалось.

Результаты исследования позволяют заключить, что служебная информация в файле фонограммы позволяет в некоторых случаях выявлять факты постобработки фонограмм, но не является эффективной в случае модификации речевого сигнала в реальном времени.

Если сравнивать функционал и возможности программ «DUMP» и «Exiftool», то, по нашему мнению, программа «Exiftool» позволяет в наглядной и удобной для восприятия форме представить содержание служебных данных файла с фонограммой, в то время как программа «DUMP» позволяет выявить ошибки в бинарной структуре, которые при отсутствии других признаков могут также свидетельствовать о редактировании фонограммы. Следует также отметить, что программа «Exiftool» в отношении некоторых типов файлов выдаёт значительное количество служебной информации, которая просто недоступна и не может быть обнаружена программой «DUMP». Наиболее целесообразным представляется использовать обе программы в ходе исследования метаданных и бинарной структуры файлов на начальном этапе исследования цифровых фонограмм.

При диагностике факта использования компьютерно-технических средств для изменения некоторых обликовых характеристик личности необходимо обращать внимание на признаки, свидетельствующие о внесении изменений в фонограмму. Данные признаки были подробно описаны во многих научных работах, однако они не указывают только лишь на факт акустической маскировки голоса^[324], а могут быть также свидетельствами монтажа фонограммы или их появление может объясняться особенностями работы устройств, образующих канал записи фонограмм. Весь процесс экспертного исследования фонограммы с предположением о намеренном изменении голоса не сводится только к поиску признаков, свидетельствующих о наличии изменений, внесённых в фонограмму.

Необходимо также установить характер и причину возникновения выявленных признаков. Поэтому так важно дать адекватную криминалистическую оценку выявленных признаков, вывод же о наличии признаков акустической маскировки может быть дан только после осуществления комплексного анализа фонограммы существующими методами.

Поиск признаков внесения изменений в фонограмму на экспериментально полученных фонограммах производился с использованием программного комплекса «OTexpert». Данный программный комплекс позволяет выбрать наиболее подходящий вид отображения речевого сигнала, например, динамическая спектрограмма, кепстрограмма, осциллограмма и т.д. Программный комплекс позволяет автоматически вычислить значения формантных частот звуков, для этого необходимо выделить и обозначить звук на фонограмме.

В процессе исследование фонограмм, изменённых при помощи программы «Adobe audition 4.0», на динамической спектрограмме изменённой фонограммы были обнаружены ситуационно неоправданные нарушения спектрального состава речевых сигналов и пауз внутри разговоров, на иллюстрации они обозначены стрелками синего цвета (см. приложение № 4, Илл. №1).

В функционал современных программных средств входит задача по уничтожению следов внесённых в фонограмму изменений. Например, в программе «Sound Forge» можно создать желаемую форму звуковой волны, подогнать темп и изменить спектральные характеристики, тембр и качество звучания исходной фонограммы, удалить следы монтажных переходов, что существенно затрудняет процесс производства судебной фоноскопической экспертизы. С помощью Hex- редакторов можно удалить признаки постобрабоки даже в бинарной структуре файла. В подобных случаях единственной возможностью установить обликовые характеристики является проведение лингвистического анализа. Например, если голос на фонограмме воспринимается как принадлежащий диктору-ребёнку, можно установить, например, несоответствие уровня речевой культуры. А если имеются образцы голоса и речи лица, чей голос предположительно записан на фонограмме, то можно провести сравнительное исследование и установить наличие совпадений/различий по некоторым признакам лингвистической группы.

В процессе инструментального анализа проводится исследование статистических и динамических, мелодических и спектральных речевых характеристик. Основные положения инструментального исследования голоса построены на индивидуальности спектрального состава голоса для каждого человека, несмотря на общие механизмы образования тех или иных звуков.

Вышеуказанный программный комплекс «OTexpert» позволяет проводить статистический анализ характеристик основного тона, можно сравнивать (в нашем случае если имеются образцы голоса и речи лица, чьи голос и речь предположительно записаны на спорной фонограмме) вычисленные

статистические характеристики нескольких фонограмм, для удобства они помещаются в сравнительную таблицу, в которой также указывается процентное соотношение совпадения вычисленных значений. При исследовании статистических характеристик изменённой при помощи «Adobe audition» и исходной фонограммы (которая в нашем случае будет сравнительной фонограммой), анализ показал большие расхождения в значениях между фонограммами, что свидетельствует о том, что голос, записанный на исследуемых фонограммах, принадлежит двум разным дикторам. Вследствие данных расхождений в результатах, статистический анализ характеристик основного тона не предоставит информации, необходимой для исследования, если есть предположения о возможном изменении голоса диктора.

В программе предусмотрена функция сравнения фонограмм, когда одновременно на экран выводится два окна визуализации сигнала. Например, можем сравнить интегральный спектр двух фонограмм. Мы выбрали небольшой промежуток на фонограмме и сравнили на этом промежутке спектр речевого сигнала двух фонограмм (см. приложение №2 4, илл. 2). Красным цветом обозначена фонограмма, изменённая с помощью «Adobe audition», синим - исходная. По оси абсцисс откладывается частота (Гц), по оси ординат - уровень громкости (дБ). Пики на осциллограмме соответствуют одинаковым формантам речевого сигнала

(на иллюстрации отмечены стрелками). Можно отметить, что пик изменённой фонограммы меньше по частоте искомой фонограммы, что может

свидетельствовать о том, что тон на изменённой фонограмме был занижен. Мы можем также проследить, что частота в пиках изменяется пропорционально, отношения между значениями пиков примерно одинаковы с допустимой погрешностью, то есть расстояния между парами пиков постоянно (в логарифмической шкале).

Особое внимание в ходе инструментального анализа стоит обратить на сознательно практически не контролируемую индивидуальную специфику произношения на уровне реализации спектрально-формантной микроструктуры отдельных звуков и звуковых комплексов, проявляющуюся в речи диктора.

Как отмечает Е.И. Галяшина, одним из наиболее значимых акустических идентификационных признаков голоса человека, изучаемых в процессе инструментального анализа, являются характеристики формант: «абсолютные и относительные значения частоты формант, их амплитуда и ширина, скорость их изменения во времени»^[325].

Как известно, именно гласные звуки отличаются друг от друга своей формантной структурой, которая зависит от геометрии речевого тракта в момент речеобразования - именно так их и различает человек на слух. Известно, что «диапазон значений первых трёх формантных частот (условно обозначаемые F1, F2, F3) ударных каждого языка значительно шире диапазона этих частот для каждого диктора в отдельности»^[326]. Это создаёт основу для различения дикторов в пространстве этих частот. Индивидуальность говорящего определяется общей формой спектра, то есть соотношением уровней сигнала в спектральных полосах. Существенно отметить при этом, что форманты служат способом реализации указанных полосных соотношений. Таким образом, точные численные значения формантных частот индивидуальны для каждого человека, но в то же время относительное расстояние между формантами имеет примерно одинаковые пропорции у всех людей, потому что в ином случае невозможно было бы распознавать звуки, произносимые людьми.

Следует учитывать, что формантные соотношения (F2/F1, F3/F1, F3/F2) будут более информативными, чем просто значение формант. Данный тезис подтверждается результатами анализа экспертных заключений по вопросам распознавания диктора по реальным фонограммам, который доказывает, что при изменениях абсолютных значений формант в силу тех или иных причин (например, в зависимости от ситуации речевого общения, эмоционального состояния говорящего и т.д.) соотношения формант почти не меняются. Таким образом, соотношения формант более устойчивы, чем просто абсолютные значения формант, и поэтому являются более весомым идентификационным признаком.

Вследствие того, что форманты в процессе редактирования и изменения речевого сигнала изменялись пропорционально, то и их отношение сохранилось неизменным. Следовательно, можно заключить, что, несмотря на изменение частоты основного тона вследствие применения описанных выше функций модификации речевого сигнала, такой значимый идентификационный признак, как соотношение формант, не изменяется.

В нашем эксперименте, решение задачи упрощено за счёт наличия у нас исходных фонограмм, и, таким образом, мы можем сравнить их с изменёнными, но у эксперта в процессе производства экспертизы нет возможности исследовать фонограмму с оригинальным речевым сигналом, поэтому эксперту необходимо внимательно подходить к криминалистической оценке выявленных изменений, на основе которой он будет строить вывод о факте применения каких-либо программных средств для изменения обликовых характеристик личности.

Обобщив все вышесказанное, сформулируем рекомендации эксперту при подозрении об использовании компьютерно-технических средств для изменения голоса.

1. Установить наличие/отсутствие признаков внесения изменений в фонограмму на основе положений методики технического исследования фонограмм^[327]. При этом важно установить источник указанных изменений, они могут быть следствием применения компьютерно-технических средств для изменения голоса, монтажа фонограммы, их появление может объясняться особенностями работы устройств, образующих канал записи фонограмм. Путём инструментального анализа установить, по возможности, конкретное программное средство, используемое злоумышленником (анализ бинарной структуры файла, в том числе, служебной информации, анализ спектрального представления сигнала).

2. Необходимо дать криминалистическую оценку выявленных изменений. Об использовании компьютерно-технических средств для изменения голоса может свидетельствовать наличие в метаданных файла информации о применении конкретного программного обеспечения (которое используется именно для целей изменения голоса), несогласованность между лингвистическими и акустическими признаками, между обликовыми характеристиками диктора. Например, голосу, который аудитивно воспринимается как женский, на спорной фонограмме соответствуют признаки мужской речи, или голосу десятилетнего ребёнка соответствует высокий уровень речевой культуры, характерный для лица старше 40 лет.

Если стоит задача, связанная с диагностикой обликовых характеристик, то необходимо проанализировать признаки голоса и речи, установленные по результатам аудитивно-лингвистического анализа (некоторые признаки речевого потока, фраз, слов, звуков), с учётом того факта, что могли быть применены компьютерно-технические средства для изменения голоса. В связи с тем, что данные программные продукты изменяют только акустические признаки голоса, лингвистический анализ может помочь установить обликовые характеристики лица.

Факт использования компьютерно-технических средств не позволит в большинстве случаев дать вывод в категорической форме ввиду отсутствия достоверной информации об акустических характеристиках голоса лица, однако вывод в вероятной форме по результатам данного исследования возможен. А, как нами уже было отмечено, такие выводы могут быть использованы при оправдании подсудимого, помочь сузить круг подозреваемых, то есть иметь как доказательственное, так и ориентирующее значение.

Таким образом, можно сказать, что, несмотря на отсутствие в настоящее время разработанных методических подходов к исследованию голоса, изменённого при помощи компьютерно-технических средств, есть возможность как установления факта использования вышеуказанных средств, так в некоторых случаях и диагностики изменённых обликовых характеристик, а впоследствии, на следующем этапе, и проведения идентификации диктора.

<< | >>

↑

Источник: Лебедева Антонина Константиновна. СУДЕБНО-ЭКСПЕРТНОЕ ИССЛЕДОВАНИЕ ОБЛИКОВЫХ ХАРАКТЕРИСТИК ЛИЧНОСТИ ПО ФОНОГРАММАМ РЕЧИ: ПРАВОВЫЕ И МЕТОДИЧЕСКИЕ АСПЕКТЫ. Диссертация на соискание учёной степени кандидата юридических наук. Москва - 2017. 2017

Скачать оригинал источника

Еще по теме §3.1. Судебно-экспертное исследование голоса, изменённого при помощи компьютерно-технических средств:

- Криминалистическая методика - Криминалистическая тактика - Криминалистическая техника - Обеспечение следствия - Основы криминалистики - Проблемы криминалистики - Работа с микрообъектами - Судебная медицина - Судебная экспертиза -