Перейти к основному содержанию
Реклама
Прямой эфир
Общество
Денежные компенсации за овербукинг предложили сделать обязательными
Общество
В Гидрометцентре спрогнозировали до +23 градусов в Москве 3 октября
Общество
В Союзе дачников дали рекомендации по уборке осенней листвы на участке
Экономика
Налоговые доходы бюджета вырастут до 32 трлн в 2025 году
Происшествия
Губернатор Воронежской области рассказал об уничтожении более 10 украинских БПЛА
Мир
Bloomberg рассказало о планах Канады и стран Европы создать альянс против РФ и КНР
Общество
Гендиректора компании-подрядчика Минобороны уличили в налоговых махинациях
Мир
Госдеп США рассказал о роли третьих стран в предложенном Украиной «плане победы»
Мир
В Пакистане рассказали о будущем соглашении о свободной торговле с ЕАЭС
Армия
Белоусов поздравил российских бойцов с освобождением Верхнекаменского в ДНР
Спорт
«Зенит» разгромил «Акрон» и вышел в плей-офф «Пути РПЛ» Кубка России
Мир
В Пакистане проявили интерес к увеличению товарооборота с РФ
Мир
В МИД РФ заявили о попытках Киева уничтожить православие на Украине
Мир
В Ираке заинтересовались развитием военного сотрудничества с РФ
Мир
ЦАХАЛ нанесла новый точечный удар по Бейруту
Интернет и технологии
Почта Mail заблокировала более 7 млрд спам-писем
Армия
Ефрейтор Рецлов перехватил управление украинским тяжелым дроном
Происшествия
Мирный житель пострадал в результате атаки дрона ВСУ на Белгородскую область
Главный слайд
Начало статьи
Озвучить текст
Выделить главное
Вкл
Выкл

Российские ученые создали первую компьютерную программу, способную распознавать речь по движению губ пользователя. Ее можно устанавливать даже на обычный смартфон с видеокамерой. Технология разработана для применения в различных цифровых ассистентах с голосовым управлением. Она позволяет пользоваться ими в условиях шума. Благодаря ей точность распознавания команд повышается до 90%, показали испытания. По мнению экспертов, если заявленная правильность чтения по губам достигается даже в условиях сильной вибрации и шума, неизбежных при практическом использовании, то ноу-хау можно признать успешным.

Считать с губ

Специалисты Санкт-Петербургского федерального исследовательского центра РАН разработали компьютерную программу на основе нейросети, которая с помощью видеокамеры может распознавать речь по движению губ пользователя, сообщили «Известиям» в Минобрнауки. Это первый искусственный интеллект, который понимает таким образом именно русский язык. Технология предназначена для использования в различных цифровых ассистентах с голосовым управлением, которые должны надежно работать в условиях шума. Они необходимы, например, в людных местах, пилотам авиации, водителям большегрузного транспорта и так далее. Программа может работать как приложение на обычном смартфоне.

разработчик
Фото: ИЗВЕСТИЯ/Дмитрий Коротаев

— Мы разработали приложение для смартфона, которое распознает звучащую речь и считывает по губам слова пользователя, анализируя видеосигнал с камеры гаджета. Программа совмещает и изучает информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что такая гибридная система значительно эффективнее распознает команды человека в сложных и шумных условиях, — рассказал старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.

Основная задача разработчиков — не просто точное чтения по губам, а в целом более высокая способность системы понимать человека, используя как визуальные, так и акустические сигналы. Для создания программы использовался метод машинного обучения, которое проводилось по видеозаписям со звуком. Таким образом искусственный интеллект выучил несколько сотен наиболее распространенных команд. Он также способен самостоятельно принимать решение, какой источник — видео или звук — в данном случае даст максимальную точность.

И диктору, и водителю

Разработка успешно прошла испытания в реальных условиях. Ей воспользовались водители большегрузных автомобилей нескольких российских логистических компаний. Программу установили на смартфоны участников эксперимента. Точность распознавания команд только по визуальным сигналам составила 60–80%, а в комбинации со звуковыми — более 90%. Также нейросеть заняла первое место на международном конкурсе по точности чтения речи по губам диктора.

водители
Фото: ТАСС/Петр Ковалев

— Участники обучали свои нейросети на открытой базе англоязычных данных, состоящей из 500 тыс. видеозаписей, и тестировали их на наборе 25 тыс. записей. Точность нашей модели оказалась близка к 90% распознавания только на основе движений губ дикторов, — сказал Денис Иванько.

По словам создателей программы, успеха удалось достичь благодаря тому, что российская разработка лучше других «засекает», когда человек проявляет голосовую активность как по видео, так и по аудио. Также специалисты более точно определили наиболее информативные визуальные признаки речи, как, например, некоторые движения губ.

Еще одна проблема, которую пришлось решить разработчикам, — отсутствие достаточного объема данных для обучения нейросети на русском языке. Поэтому они искусственно изменяли некоторые характеристики видеозаписей, после чего машина воспринимала их как новые примеры.

Опасные вибрации

Точность распознавания команд только по визуальным эффектам составила 60–80%, а в комбинации со звуковым сигналом — более 90%. Однако для более объективной оценки интересно узнать, какова была правильность распознавания только по звуку, подчеркнул ведущий научный сотрудник лаборатории цифровых систем специального назначения ФРКТ МФТИ Андрей Леус.

распознавание
Фото: Global Look Press/dpa/Wolfgang Kumm

— Одна из подзадач данной технологии — детектирование объекта, за которым необходимо следить в кадре. Если это камера телефона, то нужно на изображении найти лицо, найти его часть, которую оценивают для чтения по губам, а потом уже по данной части изображения с учетом изменений во времени делать предсказания, — сказал Андрей Леус.

По его словам, из-за этих особенностей в результат работы системы могут вноситься помехи, обусловленные внешним движением, например тряской, поскольку речь идет о применении такого распознавания образов в транспортных средствах. Если эта проблема решена, то технология кажется очень перспективной, резюмировал эксперт.

— Идея считывания по губам не нова, так как на таком принципе разрабатывается множество различных устройств для людей с нарушениями слуха. Не нова и идея объединения разнородных данных для повышения качества работы моделей. Ведь увеличение количества информации приводит к повышению качества распознавания речи, — сказал доцент кафедры автоматики и процессов управления СПбГЭТУ «ЛЭТИ» Дмитрий Каплун.

По его словам, для объективной оценки изобретения открытым остается вопрос об условиях тестирования: уровне и природе шумов, возрастном составе испытуемых, освещенности в момент испытаний, расстоянии до источника звука, моделях используемых смартфонов и других деталей.

Читайте также
Прямой эфир