- Статьи
- Интернет и технологии
- Цифровой близнец: Microsoft представила ИИ для создания реалистичных видео
Цифровой близнец: Microsoft представила ИИ для создания реалистичных видео
У Microsoft появилась новая нейросеть. Искусственный интеллект VASA-1 позволяет создавать реалистичных говорящих персонажей на основе фотографий и аудиофайлов. Движения губ аватара синхронизируются со звуком. Технология может воспроизвести широкий спектр эмоций, что обеспечивает большую натуральность. В компании признают, что недобросовестные пользователи могут смонтировать с помощью платформы видео, изображающие реальных людей. «Известия» узнали, ждать ли бума мошенничества с новым ИИ.
Упор на реализм
Компания Microsoft представила новую нейросеть VASA. Платформа позволяет создавать реалистичные лица виртуальных персонажей с визуально-аффективными навыками (мимикой и языком тела) на основе статичного изображения и аудиозаписи.
«Наша премьерная модель VASA-1 способна не только производить движения губ, которые прекрасно синхронизируются со звуком, но и улавливать широкий спектр нюансов лица и естественных движений головы, что способствует созданию аутентичности и живости», — подчеркивают в Microsoft.
Новый метод обеспечивает высокое качество видео. Он поддерживает онлайн-генерацию роликов 512x512 с частотой 40 кадров в секунду. Это позволяет взаимодействовать в реальном времени с аватарами, имитирующими разговоры человека. В трансляции есть задержка, но компания оценивает ее как незначительную.
Microsoft занимается изучением визуальных аффективных навыков виртуальных интерактивных персонажей, не используя при этом образы реальных людей. Изображения для демонстрации продукта были сгенерированы с помощью StyleGAN2 и DALL·E-3.
Компания уверяет, что новый искусственный интеллект не предназначен для контента, который будет использоваться для обмана. Однако в Microsoft не исключают, что некоторые пользователи могут применять технологию, чтобы выдавать себя за других людей.
«Мы выступаем против любого поведения, направленного на создание контента, вводящего в заблуждение или вредящего реальным людям, и заинтересованы в применении нашей технологии для более эффективного обнаружения подделок», — обозначили свою позицию в корпорации.
Принцип работы
Принцип работы VASA-1 строится на анализе фотографий и аудиозаписей для последующего создания реалистичного видео с синтезированным лицом и движениями человека, указывает операционный директор Napoleon IT Евгений Жорницкий.
Вместо того чтобы генерировать видеокадры напрямую, создатели нейросети воспроизводят целостную динамику лица и движения головы в специальном сжатом цифровом представлении, обусловленном аудио- и другими сигналами, объясняет старший исследователь данных «Лаборатории Касперского» Дмитрий Аникин.
— Далее из такого сжатого представления авторы могут получать кадры изображения лица. Затем для моделирования движения используется специальная современная архитектура нейронной сети, основанная на механизме диффузии, которая создает из кадров итоговый видеоряд, — отмечает он.
Чтобы точно воссоздать лицо и эмоции человека, нейросети необходимо обучиться на большом объеме данных, обращает внимание Жорницкий.
Технология Microsoft не является единственной в своем роде. На сегодняшний день существует набор алгоритмов, позволяющих имитировать движение человека, подчеркивает ведущий аналитик Mobile Research Group Эльдар Муртазин. Речь идет о копировании эмоций, жестов, тембра голоса и речи. То есть нейросети приближаются к созданию полноценного подобия человека.
— Такие технологии не работают на различных алгоритмах, миксующихся компаниями в зависимости от потребностей. Вместо этого существуют десятки разных продуктов, достаточно достоверно восстанавливающих мимику лица, движение головы и губ в такт, — поясняет эксперт.
Схожие платформы создают видеокадры из изображения и звука напрямую, отмечает руководитель направления обработки и синтеза речи компании «Криптонит» Светлана Корешкова.
— Однако VASA-1 — принципиально новая, продвинутая технология. В данном случае модель ИИ делится на две части. Сначала с помощью дополнительной нейросети картинка и звук переходят в скрытое пространство. Условные векторы предоставляют информацию о том, как должны двигаться губы и какой должна быть мимика, чтобы соответствовать произнесенному. Затем вторая, диффузионная модель генерирует видеокадры, — подчеркивает она.
Успешно созданное видео должно демонстрировать высокую точность в нескольких ключевых аспектах: это четкость и достоверность кадров изображения, синхронизация звука и движений губ, выразительная и эмоциональная динамика лица и натуралистичные позы головы. В процессе могут включаться дополнительные данные, такие как направление взгляда и расстояние от головы до камеры.
Сферы применения
В первую очередь новая технология нужна для создания реалистичных видеороликов, улучшения виртуальной реальности и разработки персонализированного контента, считает Евгений Жорницкий.
Также нейросеть будет активно применяться в дополненной реальности (AR), убеждена Светлана Корешкова. С ее помощью будут создаваться виртуальные аватары для участия в конференциях, использования во время видеозвонков и при съемках блогов.
— VASA-1 приближает нас к будущему, в котором взаимодействие с цифровыми аватарами искусственного интеллекта будет таким же, как с реальными людьми, — полагает собеседница «Известий».
Широкое применение, по словам Дмитрия Аникина, платформа может найти в анимации, заставляя мультипликационных персонажей оживать.
— В оригинальной статье авторы используют лица несуществующих людей, сгенерированные нейронной сетью, и оживляют их.
Использование таких несуществующих «актеров» может быть полезно при создании рекламы или кино, указывает эксперт.
Проработанные модели будут эффективны и при разработке видеоигр, дополняет Эльдар Муртазин.
— С помощью технологии мы создаем как внутриигровых персонажей, так и неких виртуальных личностей, которые сформируют новые стандарты качества, — отмечает аналитик. Еще один вариант, по его мнению, — использование моделей в качестве дикторов на телевидении.
Новая технология, по словам Корешковой, может обогатить цифровое общение, повысить его доступность для людей с коммуникативными нарушениями, а также обеспечить терапевтическую поддержку и социальное взаимодействие в здравоохранении.
Обратить во зло
Дипфейки (методика синтеза изображения, основанная на искусственном интеллекте) давно используются мошенниками, напоминает Эльдар Муртазин. Злоумышленники первыми осваивают технологии, позволяющие имитировать голос или создавать полноценные видео, что поможет вызвать больше доверия у жертвы.
— Вы получаете с незнакомого номера звонок или сообщение, где ваш приятель или даже родственник знакомым вам голосом что-то рассказывает, — приводит пример аналитик.
Однако в ближайшее время опасаться волны мошенничества с использованием технологии Microsoft не стоит, уверен Дмитрий Аникин. Нейросеть пока не находится в свободном доступе для пользователей.
— Также существуют технические ограничения, например, модель на данный момент может анимировать человеческую фигуру лишь до торса. Поэтому пока что рано говорить об использовании данной технологии для создания дипфейков в мошеннических целях, — считает эксперт.
Авторы стремятся ответственно подходить к разработке ИИ и не планируют выпускать не только онлайн-демоверсию, но и API, дополнительные сведения о реализации и сопутствующие предложения до тех пор, пока не будут уверены, что нейросеть будет использоваться ответственно, обращает внимание Светлана Корешкова.
Как обезопасить себя
Отличить качественное фальшивое видео от настоящего практически невозможно, предупреждает Эльдар Муртазин. Существует градация мошеннических дипфейков. Некоторые из них сделаны кое-как, но и в них можно поверить. Встречаются при этом фальшивые видео или фото, в которых сложно опознать подделку: жертва будет пребывать в полной уверенности, что разговаривает с человеком, которого хорошо знает.
Для того чтобы защититься от злоумышленников, в первую очередь важно сохранять бдительность и перепроверять информацию с помощью альтернативных источников, рекомендует Дмитрий Аникин.
— На сгенерированных видео из статьи Microsoft можно заметить порой неестественную плавность во время движения головы. Также стоит обращать внимание на тон и чрезмерную гладкость кожи, отсутствие блеска и отражений в глазах и внешний вид зубов, — обращает внимание эксперт.
Для отличия фальшивого видео от настоящего, по словам Евгения Жорницкого, можно присмотреться к таким деталям, как освещение, тени, движения, качество звука и т.д.
— Также можно проверить источник видео и его подлинность. Думаю, что уже скоро появятся специализированные инструменты для определения подлинности роликов, — подмечает собеседник «Известий».
Стоит присмотреться к форме черепа, носа и ушей, их размерам, а также разрезу глаз, продолжает список Светлана Корешкова.
— Однако важно помнить, что искажения возможно увидеть только при детальном и внимательном анализе. Поэтому имеет смысл относиться критично к любой новой и необычной информации. Нужно перепроверять источник и изложенную суть, — подчеркивает она.
В случае с видеозвонком стоит проверить абонента, задав ему вопросы, ответом на которые будут сведения, известные лишь конкретному человек, советует Муртазин.
— Так вы сможете понять, что с вами разговаривает бот, робот или программа, а не живой человек, не ваш знакомый и не ваш родственник. Это будет очень просто определить, — убежден аналитик.