Настоящая подделка: почему развитие технологии deepfake не остановить

Каждый раз, когда на YouTube появляется видео, в котором одного популярного актера меняют другим, в новостях поднимается вой. Мол, технология deepfake, позволяющая это производить, сделает fake news непобедимыми и «уничтожит демократию или то, что от нее осталось». Кто реально пытается остановить распространение поддельных видео и почему у них ничего не получится, рассказывают «Известия».

Сильвестр Сталлоне в «Терминторе 2», Джим Керри в «Сиянии», Том Круз в «Американском психопате». Анонимный создатель или создательница YouTube-канала Ctrl Shift Face использует нейросети, чтобы показать, как выглядели бы классические голливудские фильмы, если бы Арнольд Шварценеггер, Джек Николсон и Кристиан Бэйл не прошли кастинги. При этом выдающимися техническими навыками, по собственному признанию, не обладает.

Фото: youtube.com/Ctrl Shift Face

Создатель или создательница YouTube-канала Ctrl Shift Face

Я не программист, обычный пользователь. Я не знаю точно, как работает эта программа. Вот как всё происходит: ты добавляешь источники видео, затем нейросеть выделяет в них лица. Иногда ей приходится помогать и отмечать лица, которые она не идентифицировала. Потом программа анализирует и изучает эти лица. Это может занять несколько дней. Чем дольше она учится, тем более детализированным будет результат. И в конце ты всё соединяешь и получаешь свой deepfake.

То, что выходит на канале, он или она считает шуткой. Поэтому меняет в видео не только голоса, лица и мимику главных героев, но и музыку. Например, в планах было заменить в «Терминаторе 2» песню Bad to the Bone на Eye of the Tiger, прославленную благодаря фильмам про Рокки с Сильвестром Сталлоне.

В редакции что-то напутали: статьи ученых берут на веру

Откуда взялись хищники в мире научных журналов и при чем тут гамбургеры

Однако есть люди, которые страдают от технологии, которая веселит Ctrl Shift Face.

Киноиндустрия защищает поддельное порно

Deepfake, как, впрочем, и вообще всё на свете, от спинеров до гироскутеров, поглотила порноиндустрия. В интернете легко найти ролики с моделями, которых нейросети превращают в кинозвезд. И кинозвезды с этим ничего сделать не могут.

Скарлетт Йоханссон и ее команда пытались убрать из интернета поддельное видео с ее участием. И у них ничего не вышло. Проблема в том, что в разных странах разное законодательство в вопросах интернета. Поэтому, даже если добиться удаления роликов из поисковиков в одной стране, во всех остальных странах они будут доступны. «Известия» уже писали о том, насколько сложный труд — добиться права на забвение в разных странах.

Скарлетт Йоханссон, актриса

Я думаю, что это бесполезное преследование с юридической стороны. В основном потому, что интернет — это огромная червоточина тьмы, которая ест себя <...> Вы можете убрать сайты в США, которые используют ваше лицо, но те же правила не могут применяться в Германии.

Актриса не получила поддержки не только со стороны поисковиков, но и от крупнейших киностудий.

Единственная пока что попытка запретить deepfake-видео была предпринята в мае прошлого года в Нью-Йорке. Тогда на рассмотрение в Ассамблее штата был подан законопроект, который, в частности, запрещал использование цифровой копии живого или мертвого человека без ее или его согласия или согласия потомков.

Против законопроекта выступила Американская ассоциация кинокомпаний, в которую входят The Walt Disney Company, Sony Pictures, Paramount Pictures, 20th Century Fox, Universal Studios Warner Bros и Netflix.

Лоуренс Оливье в фильме «Небесный капитан и мир будущего» 2004 года

Фото: kinopoisk.ru/Парадиз

«Чем глубже копаю, понимаю: боже мой, я ничего не знаю»

Чем рискуют разоблаченный биохимик из Instagram и другие лидеры мнений

Кинематографисты высказались в том ключе, что ограничения, которые вводит законопроект, сделают практически невозможным создание байопиков об актерах, музыкантах и атлетах. При этом компании признали, что deepfake — проблема. Но решать ее в ущерб свободе слова и творчества они не согласны.

Больше того, голливудские компании сами заинтересованы в технологии воссоздания облика известных актеров. Первый раз в большом коммерческом кино ее использовали в 2004 году. Тогда в фильме «Небесный капитан и мир будущего» появился Лоуренс Оливье, умерший в 1989-м. Его лицо не слишком детально воссоздали и анимировали по старым фотографиям. В 2016 году к жизни вернули Питера Кушинга для небольшой роли в фильме «Изгой-один. Звездные войны: Истории». Кушинг умер в 1994-м.

Нейросети регулярно используют для омоложения актеров в фильмах про супергероев Марвел — Майкла Дугласа, Роберта Дауни мл., Сэмюэля Л. Джексона. Делали это и с 68-летним Арнольдом Шварценеггером в пятом «Терминаторе», и с 54-летним Джонни Деппом в пятых же «Пиратах Карибского моря».

При такой заинтересованности киноиндустрии можно предположить, что технология изменения лиц будет развиваться, и быстро. А законотворцам, которые пытаются ее запретить, придется нелегко. В июне 2018 года их законопроект был передан на рассмотрение в комитет сената. И с тех пор его судьба неизвестна.

Фейки от Форин-офиса: как Лондон поставил фабрикацию новостей на поток

В Великобритании рассекретили новые документы эпохи холодной войны о пропагандистском отделе МИДа

Подделки речи приносят мошенникам миллионы

Для полноты иллюзии в роликах Ctrl Shift Face знаменитых актеров переозвучивают живые люди. Кстати, именно это создатель-создательница канала считает причиной, по которой ролик про Терминатора со Сталлоне не получился: «У меня не вышло отредактировать [голос] бесшовно, поэтому музыка и звуки на заднем плане заметно не совпадают».

Возможно, если бы Ctrl Shift Face использовал программы для синтеза речи, результат получился точнее. Тем более что в интернете можно найти сотни и сотни часов с голосами голливудских звезд, из которых можно выделить любые нужные слова.

Сервисы синтеза и копирования речи есть практически у каждой крупной IT-компании. Они объясняют необходимость развития этой технологии по-разному и одинаково неубедительно. Google Ассистент, например, сможет сам звонить в рестораны и человеческим голосом с реалистичными паузами заказывать столик в ресторане. А приложение китайской компании Baidu, которое воссоздает речь человека, послушав его всего одну минуту, пригодится пациентам, лишившимся голоса, и мамам, которые смогут озвучивать аудиокниги своим голосом.

Google Ассистент сможет сам звонить в рестораны и человеческим голосом с реалистичными паузами заказывать столик в ресторане

Фото: Global Look Press/ZUMA

Естественно, возникают опасения, что этой технологией будут пользоваться мошенники. И недавно по анонимным Telegram-каналам со ссылкой на анонимные источники в правоохранительных органах разошлась страшилка. Будто бы мошенники взламывают пользователей мессенджеров, скачивают их голосовые сообщения, собирают из этих сообщений новые и рассылают их родным с просьбой прислать денег.

Помимо того что это еще один аргумент не пользоваться голосовыми сообщениями, это вполне рабочая мошенническая схема.

Из ежика в безнадежика: детский YouTube живет по своим правилам

Нужно ли бояться говорящих кошек с миллионом просмотров, куклу Момо и пиксельного учителя-психопата

Как рассказывал специалист по информационной безопасности компании Symantec, в их практике было три случая, когда людей обманули с помощью синтезированного голоса. Причем во всех трех случаях жертвами стали топ-менеджеры крупных компаний, а сумма ущерба насчитывает миллионы долларов.

Тем, у кого нет миллионов долларов, пока, скорее всего, беспокоиться не стоит. По словам звукорежиссера Романа Бакши, который специализируется на обработке голосов, чтобы сделать убедительную подделку, нужно очень много образцов речи человека. «В свое время мне пришлось прослушать около пяти часов разговоров, чтобы синтезировать одно слово», — рассказал он.

Распознать обман пока можно

Так что от подделок голосов обычных пользователей защищает сложность технологии. А от подделок видео — то, что отличить deepfake-видео от настоящих пока можно.

В прошлом году ученые из нью-йоркских университетов опубликовали об этом исследование. Они пришли к выводу, что в deepfake-видео не учитывается частота моргания. В среднем люди моргают 17 раз в минуту, или 0,283 раза в секунду. Это количество увеличивается при разговоре и уменьшается при чтении.

Исследователи из нью-йоркских университетов пришли к выводу, что в deepfake-видео не учитывается частота моргания

Фото: TASS/YAY

Юэсунь Ли, Минг-Чинг Чанг и Сивей Лю, исследователи из Университета Олбани и Университета штата Нью-Йорк

Созданные ИИ лица не умеют моргать, потому что на большинстве лиц, на которых программа обучается, глаза открыты <...> Таким образом, отсутствие моргания — знак того, что видео создано не с помощью видеокамеры.

Невеликие конспираторы

Самые громкие и нелепые инсценировки с криминальным оттенком

Они признают, что искусные фальсификаторы могут заставить deepfake-моделей моргать чаще при обработке видео. Тем более что обнародование способа раскрыть технологию приведет к ее усложнению, как это происходит с камерами, распознающими лица. Но исследователи верят, что со временем найдутся другие «физиологические сигналы», которые помогут распознавать подделку.

В конечном итоге совершенствование deepfake и fake news может быть на руку СМИ, которые сейчас вроде бы в кризисе. В мире, где сложно отличить реальное фото или видео от обработанного, единственным ориентиром становится доверие к источнику информации.