Настоящая подделка: почему развитие технологии deepfake не остановить
Каждый раз, когда на YouTube появляется видео, в котором одного популярного актера меняют другим, в новостях поднимается вой. Мол, технология deepfake, позволяющая это производить, сделает fake news непобедимыми и «уничтожит демократию или то, что от нее осталось». Кто реально пытается остановить распространение поддельных видео и почему у них ничего не получится, рассказывают «Известия».
Сильвестр Сталлоне в «Терминторе 2», Джим Керри в «Сиянии», Том Круз в «Американском психопате». Анонимный создатель или создательница YouTube-канала Ctrl Shift Face использует нейросети, чтобы показать, как выглядели бы классические голливудские фильмы, если бы Арнольд Шварценеггер, Джек Николсон и Кристиан Бэйл не прошли кастинги. При этом выдающимися техническими навыками, по собственному признанию, не обладает.
То, что выходит на канале, он или она считает шуткой. Поэтому меняет в видео не только голоса, лица и мимику главных героев, но и музыку. Например, в планах было заменить в «Терминаторе 2» песню Bad to the Bone на Eye of the Tiger, прославленную благодаря фильмам про Рокки с Сильвестром Сталлоне.
Однако есть люди, которые страдают от технологии, которая веселит Ctrl Shift Face.
Киноиндустрия защищает поддельное порно
Deepfake, как, впрочем, и вообще всё на свете, от спинеров до гироскутеров, поглотила порноиндустрия. В интернете легко найти ролики с моделями, которых нейросети превращают в кинозвезд. И кинозвезды с этим ничего сделать не могут.
Скарлетт Йоханссон и ее команда пытались убрать из интернета поддельное видео с ее участием. И у них ничего не вышло. Проблема в том, что в разных странах разное законодательство в вопросах интернета. Поэтому, даже если добиться удаления роликов из поисковиков в одной стране, во всех остальных странах они будут доступны. «Известия» уже писали о том, насколько сложный труд — добиться права на забвение в разных странах.
Актриса не получила поддержки не только со стороны поисковиков, но и от крупнейших киностудий.
Единственная пока что попытка запретить deepfake-видео была предпринята в мае прошлого года в Нью-Йорке. Тогда на рассмотрение в Ассамблее штата был подан законопроект, который, в частности, запрещал использование цифровой копии живого или мертвого человека без ее или его согласия или согласия потомков.
Против законопроекта выступила Американская ассоциация кинокомпаний, в которую входят The Walt Disney Company, Sony Pictures, Paramount Pictures, 20th Century Fox, Universal Studios Warner Bros и Netflix.
Кинематографисты высказались в том ключе, что ограничения, которые вводит законопроект, сделают практически невозможным создание байопиков об актерах, музыкантах и атлетах. При этом компании признали, что deepfake — проблема. Но решать ее в ущерб свободе слова и творчества они не согласны.
Больше того, голливудские компании сами заинтересованы в технологии воссоздания облика известных актеров. Первый раз в большом коммерческом кино ее использовали в 2004 году. Тогда в фильме «Небесный капитан и мир будущего» появился Лоуренс Оливье, умерший в 1989-м. Его лицо не слишком детально воссоздали и анимировали по старым фотографиям. В 2016 году к жизни вернули Питера Кушинга для небольшой роли в фильме «Изгой-один. Звездные войны: Истории». Кушинг умер в 1994-м.
Нейросети регулярно используют для омоложения актеров в фильмах про супергероев Марвел — Майкла Дугласа, Роберта Дауни мл., Сэмюэля Л. Джексона. Делали это и с 68-летним Арнольдом Шварценеггером в пятом «Терминаторе», и с 54-летним Джонни Деппом в пятых же «Пиратах Карибского моря».
При такой заинтересованности киноиндустрии можно предположить, что технология изменения лиц будет развиваться, и быстро. А законотворцам, которые пытаются ее запретить, придется нелегко. В июне 2018 года их законопроект был передан на рассмотрение в комитет сената. И с тех пор его судьба неизвестна.
Подделки речи приносят мошенникам миллионы
Для полноты иллюзии в роликах Ctrl Shift Face знаменитых актеров переозвучивают живые люди. Кстати, именно это создатель-создательница канала считает причиной, по которой ролик про Терминатора со Сталлоне не получился: «У меня не вышло отредактировать [голос] бесшовно, поэтому музыка и звуки на заднем плане заметно не совпадают».
Возможно, если бы Ctrl Shift Face использовал программы для синтеза речи, результат получился точнее. Тем более что в интернете можно найти сотни и сотни часов с голосами голливудских звезд, из которых можно выделить любые нужные слова.
Сервисы синтеза и копирования речи есть практически у каждой крупной IT-компании. Они объясняют необходимость развития этой технологии по-разному и одинаково неубедительно. Google Ассистент, например, сможет сам звонить в рестораны и человеческим голосом с реалистичными паузами заказывать столик в ресторане. А приложение китайской компании Baidu, которое воссоздает речь человека, послушав его всего одну минуту, пригодится пациентам, лишившимся голоса, и мамам, которые смогут озвучивать аудиокниги своим голосом.
Естественно, возникают опасения, что этой технологией будут пользоваться мошенники. И недавно по анонимным Telegram-каналам со ссылкой на анонимные источники в правоохранительных органах разошлась страшилка. Будто бы мошенники взламывают пользователей мессенджеров, скачивают их голосовые сообщения, собирают из этих сообщений новые и рассылают их родным с просьбой прислать денег.
Помимо того что это еще один аргумент не пользоваться голосовыми сообщениями, это вполне рабочая мошенническая схема.
Как рассказывал специалист по информационной безопасности компании Symantec, в их практике было три случая, когда людей обманули с помощью синтезированного голоса. Причем во всех трех случаях жертвами стали топ-менеджеры крупных компаний, а сумма ущерба насчитывает миллионы долларов.
Тем, у кого нет миллионов долларов, пока, скорее всего, беспокоиться не стоит. По словам звукорежиссера Романа Бакши, который специализируется на обработке голосов, чтобы сделать убедительную подделку, нужно очень много образцов речи человека. «В свое время мне пришлось прослушать около пяти часов разговоров, чтобы синтезировать одно слово», — рассказал он.
Распознать обман пока можно
Так что от подделок голосов обычных пользователей защищает сложность технологии. А от подделок видео — то, что отличить deepfake-видео от настоящих пока можно.
В прошлом году ученые из нью-йоркских университетов опубликовали об этом исследование. Они пришли к выводу, что в deepfake-видео не учитывается частота моргания. В среднем люди моргают 17 раз в минуту, или 0,283 раза в секунду. Это количество увеличивается при разговоре и уменьшается при чтении.
Они признают, что искусные фальсификаторы могут заставить deepfake-моделей моргать чаще при обработке видео. Тем более что обнародование способа раскрыть технологию приведет к ее усложнению, как это происходит с камерами, распознающими лица. Но исследователи верят, что со временем найдутся другие «физиологические сигналы», которые помогут распознавать подделку.
В конечном итоге совершенствование deepfake и fake news может быть на руку СМИ, которые сейчас вроде бы в кризисе. В мире, где сложно отличить реальное фото или видео от обработанного, единственным ориентиром становится доверие к источнику информации.