Российские ученые создали первую компьютерную программу, способную распознавать речь по движению губ пользователя. Ее можно устанавливать даже на обычный смартфон с видеокамерой. Технология разработана для применения в различных цифровых ассистентах с голосовым управлением. Она позволяет пользоваться ими в условиях шума. Благодаря ей точность распознавания команд повышается до 90%, показали испытания. По мнению экспертов, если заявленная правильность чтения по губам достигается даже в условиях сильной вибрации и шума, неизбежных при практическом использовании, то ноу-хау можно признать успешным.
Считать с губ
Специалисты Санкт-Петербургского федерального исследовательского центра РАН разработали компьютерную программу на основе нейросети, которая с помощью видеокамеры может распознавать речь по движению губ пользователя, сообщили «Известиям» в Минобрнауки. Это первый искусственный интеллект, который понимает таким образом именно русский язык. Технология предназначена для использования в различных цифровых ассистентах с голосовым управлением, которые должны надежно работать в условиях шума. Они необходимы, например, в людных местах, пилотам авиации, водителям большегрузного транспорта и так далее. Программа может работать как приложение на обычном смартфоне.
— Мы разработали приложение для смартфона, которое распознает звучащую речь и считывает по губам слова пользователя, анализируя видеосигнал с камеры гаджета. Программа совмещает и изучает информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что такая гибридная система значительно эффективнее распознает команды человека в сложных и шумных условиях, — рассказал старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.
Основная задача разработчиков — не просто точное чтения по губам, а в целом более высокая способность системы понимать человека, используя как визуальные, так и акустические сигналы. Для создания программы использовался метод машинного обучения, которое проводилось по видеозаписям со звуком. Таким образом искусственный интеллект выучил несколько сотен наиболее распространенных команд. Он также способен самостоятельно принимать решение, какой источник — видео или звук — в данном случае даст максимальную точность.
И диктору, и водителю
Разработка успешно прошла испытания в реальных условиях. Ей воспользовались водители большегрузных автомобилей нескольких российских логистических компаний. Программу установили на смартфоны участников эксперимента. Точность распознавания команд только по визуальным сигналам составила 60–80%, а в комбинации со звуковыми — более 90%. Также нейросеть заняла первое место на международном конкурсе по точности чтения речи по губам диктора.
— Участники обучали свои нейросети на открытой базе англоязычных данных, состоящей из 500 тыс. видеозаписей, и тестировали их на наборе 25 тыс. записей. Точность нашей модели оказалась близка к 90% распознавания только на основе движений губ дикторов, — сказал Денис Иванько.
По словам создателей программы, успеха удалось достичь благодаря тому, что российская разработка лучше других «засекает», когда человек проявляет голосовую активность как по видео, так и по аудио. Также специалисты более точно определили наиболее информативные визуальные признаки речи, как, например, некоторые движения губ.
Еще одна проблема, которую пришлось решить разработчикам, — отсутствие достаточного объема данных для обучения нейросети на русском языке. Поэтому они искусственно изменяли некоторые характеристики видеозаписей, после чего машина воспринимала их как новые примеры.
Опасные вибрации
Точность распознавания команд только по визуальным эффектам составила 60–80%, а в комбинации со звуковым сигналом — более 90%. Однако для более объективной оценки интересно узнать, какова была правильность распознавания только по звуку, подчеркнул ведущий научный сотрудник лаборатории цифровых систем специального назначения ФРКТ МФТИ Андрей Леус.
— Одна из подзадач данной технологии — детектирование объекта, за которым необходимо следить в кадре. Если это камера телефона, то нужно на изображении найти лицо, найти его часть, которую оценивают для чтения по губам, а потом уже по данной части изображения с учетом изменений во времени делать предсказания, — сказал Андрей Леус.
По его словам, из-за этих особенностей в результат работы системы могут вноситься помехи, обусловленные внешним движением, например тряской, поскольку речь идет о применении такого распознавания образов в транспортных средствах. Если эта проблема решена, то технология кажется очень перспективной, резюмировал эксперт.
— Идея считывания по губам не нова, так как на таком принципе разрабатывается множество различных устройств для людей с нарушениями слуха. Не нова и идея объединения разнородных данных для повышения качества работы моделей. Ведь увеличение количества информации приводит к повышению качества распознавания речи, — сказал доцент кафедры автоматики и процессов управления СПбГЭТУ «ЛЭТИ» Дмитрий Каплун.
По его словам, для объективной оценки изобретения открытым остается вопрос об условиях тестирования: уровне и природе шумов, возрастном составе испытуемых, освещенности в момент испытаний, расстоянии до источника звука, моделях используемых смартфонов и других деталей.