Невооруженным ухом: как аудиодипфейки делают из мошенников крупных боссов

Видеодипфейки научили нас, что нельзя доверять всему, что видишь. Теперь звуковые подделки заставляют задуматься о правдивости информации, усваиваемой на слух. В отдельных случаях аудиодипфейки могут стать опасным орудием обмана. Что важно знать о «клонах» и как вычислить подделку — разбирались «Известия».

Слуховые особенности

Большинство пользователей наверняка встречали дипфейк-ролики, в которых алгоритмы глубокого обучения используются для замены одного человека на другого. Лучшие из них невероятно реалистичны. Постепенно очередь дошла и до аудиозаписей. Аудиодипфейк — это синтезированный, или «клонированный», голос, который потенциально неотличим от голоса конкретного человека.

Помимо развлекательной функции, данная технология может стать привлекательной для мошенничества, предупредили эксперты «Лаборатории Касперского». Схема обмана проста. Злоумышленники звонят бухгалтеру компании под видом генерального директора и просят срочно перевести деньги фирмы. Особо неразборчивые соглашаются.

Впрочем, преступники пытались украсть деньги по телефону задолго до того, как синтез голоса стал возможным, отметил генеральный директор компании Zecurion Алексей Раевский.

— Еще легендарный Кевин Митник (американский киберпреступник, ставший консультантом по компьютерной безопасности. — Ред.) занимался аудиомошенничеством. Чаще всего он звонил системным администраторам, представлялся директором, требовал поменять пароль или назвать его для входа в сеть, либо срочно прислать ему нужный файл.

Фото: ИЗВЕСТИЯ/Дмитрий Коротаев

Манипуляции от имени руководителей компании, направленные на сотрудников, имеющих доступ к счетам юридического лица, встречались в России уже несколько лет назад. Правда, инструменты в то время были иные, рассказал начальник отдела по противодействию мошенничеству ИТ-компании «Инфосистемы Джет» Алексей Сизов.

— Ранее злоумышленники преимущественно рассылали письма через корпоративную почту (которую взламывали) или с электронных адресов, которые можно было легко спутать с адресами компании. Обычно манипуляции проводились под предлогом срочного перевода денежных средств, без которого весь бизнес компании мог оказаться на грани краха. Также мошенники могли угрожать сотрудникам увольнением при отказе незамедлительно совершить перевод, — поделился эксперт.

С развитием искусственного интеллекта арсенал злоумышленников обогатился. Первый задокументированный случай использования звукового дипфейка в мошеннической афере произошел в марте 2019 года. Преступники убедили сотрудника корпорации перечислить им €220 тыс. Генеральный директор британской энергетической компании решил, что разговаривает по телефону со своим начальником, руководителем немецкой материнской компании, который попросил его о срочном переводе. Как рассказал потом потерпевший, преступники повторили даже легкий немецкий акцент его босса.

На сегодняшний день известно несколько отдельных случаев, когда злоумышленники использовали дипфейк-технологии в своих схемах, рассказал главный эксперт «Лаборатории Касперского» Сергей Голованов. Все аферы сводятся к приемам выманивания денег.

— Известен случай, когда мошенники сделали deepfake-видео с предпринимателем, в котором он якобы продвигает систему заработка на основе «искусственного интеллекта». Чтобы принять участие в проекте, необходимо было ввести свои данные — номер телефона и почту, — привел пример собеседник.

Фото: РИА Новости/Алексей Майшев

По общему мнению экспертов, нельзя сказать, что дипфейки представляют массовую угрозу. С кем попало такие трюки не срабатывают.

— В крупных компаниях процедура перевода средств строго регламентирована и проходит несколько этапов. Технология дипфейков просто увеличивает процент успешных попыток, — считает Алексей Раевский.

Тем не менее вероятен риск, что преступники будут использовать искусственный интеллект, чтобы нарушить работу коммерческих предприятий, создать путаницу в бизнесе и посеять недоверие клиентов к голосовым биометрическим системам.

К тому же легкость доступа к записям возросла. Теперь в распоряжении есть онлайн-видео, социальные сети и услуги мобильной голосовой почты.

Как работает голосовой дипфейк

В основе аудиодипфека — с виду простой алгоритм. Пользователь набирает текст, а компьютер зачитывает слова голосом выбранного человека. До этого программа обучается изображать нужный голос на реальных аудиообразцах.

Фото: Depositphotos/Syda_Productions

Насколько удачной окажется подделка — зависит прежде всего от исходного материала. Облегчает задачу то, что системы обучения совершенствуются с каждым днем.

— Если ранее требовался довольно продолжительный по времени кусок записи голоса, то сегодня достаточно уже нескольких минут, — говорит Сизов.

Высокое качество материала в некоторых случаях также становится неважным. По замечанию Алексея Раевского, для мошенников, которые включают дипфек по телефону, помехи и прерывания только на руку.

Дело в том, что большинство записей являются телефонными звонками низкого качества либо «наговоренными» аудиодорожками в шумных местах. Чем хуже качество звука, тем труднее уловить явные признаки того, что голос не настоящий. И наоборот, если кто-то говорит прямо в студийный микрофон, искажение голоса с большой вероятностью удастся уловить на слух.

Как распознать аудиодипфейк

Некоторые подделки действительно возможно вычислить самостоятельно. Пользователя должно насторожить отсутствие пауз, необычное колебание записи вверх-вниз, полное отсутствие фонового шума и общий эффект роботизированного голоса.

Фото: Depositphotos/Syda_Productions

С более совершенными записями дело обстоит сложнее. Но и здесь есть зацепки, обличающие злоумышленников. Логичным ответом на развитие дипфейков стало создание инструментов голосовой проверки. Так, американская компания-разработчик Pindrop рассказала изданию How-To Geek, какие артефакты помогают распознать подделки.

К примеру, существует класс звуков, называемых фрикативными, или щелевыми. Они образуются, когда воздух проходит через узкое сужение в горле при произнесении таких букв, как f, s, v и z. Системам глубокого обучения особенно сложно освоить фрикативные согласные, потому что программе трудно отличить их от шума. В результате на записи перечисленные согласные подавляются.

Такую же проблему создают окончания слов — алгоритмам очень сложно отличить их от фонового шума. Это приводит к тому, что многие смоделированные голоса затихают в большей степени, чем записи реального голоса.

Несмотря на «досадные» уязвимости, некоторые преступники сделали карьеру, используя как раз фоновые звуки.

«Есть мошенник, которого мы прозвали Цыпленок, у него всегда были петухи на заднем плане, — поделились в Pindrop. — И есть одна женщина, которая использовала плачущего ребенка на фоне, чтобы убедить агентов колл-центра, что она переживает трудные времена, и вызвать сочувствие».

В остальном защищаться от социального инжениринга техническими средствами довольно сложно, признают опрошенные «Известиями» эксперты.

Фото: ИЗВЕСТИЯ/Павел Волков

— Если появляются малейшие сомнения в том, с кем вы разговариваете, порядок действий должен быть таким же, как и с потенциальными мошенниками в соцсетях: не выполнять тех действий, которые от вас требуют, и предложить связаться по другому каналу связи, например в почте или мессенджере, — советует Сергей Голованов из «Лаборатории Касперского».

Или как минимум перезвонить настоящему директору по телефону, призывает директор Zecurion Алексей Раевский.

Польза подделок

Сами по себе дипфейк-технологии не несут вреда. Важно то, с какой целью они используются людьми, убежден Голованов.

Например, технологии искусственного интеллекта можно применять для воссоздания голоса людей, потерявших его из-за болезни. Или «оживить» голоса умерших людей для просветительских целей. Например, дать возможность «Юрию Гагарину» провести аудиоэкскурсию по Музею космонавтики.

Огромный спрос на синтетический звук и в индустрии видеоигр. Студии могут клонировать голос актера и использовать механизмы преобразования текста в речь, чтобы персонажи могли говорить что угодно в реальном времени. Видеодипфейки также широко применяется в киноиндустрии для создания спецэффектов.

Фото: Global Look Press/dpa/Britta Pedersen

Наконец, обычное развлечение. В интернет-среде голосовые фейки набирают популярность. По словам Алексея Сизова, программы синтеза человеческой речи на базе готовой записи стали массово появляться на открытом рынке еще в 2018 году, также они доступны в формате простых мобильных приложений. Сейчас на YouTube можно найти множество примеров аудиодипфейков. На некоторых (как в ролике с Дональдом Трампом) всё еще отчетливо слышны остатки обработки. Однако есть и более качественные исполнения, такие как клипы канала Speaking of AI. В одном из них воспроизведен голос Гомера Симпсона, озвучивающий Огурчика Рика.