Умный микрофон: в России повысили точность машинного восприятия звука

Суть инновации — в создании новой системы локализации звуковых источников
Александр Буланов
Фото: commons.wikimedia.org

Российские инженеры создали систему, определяющую положение источников звука с точностью до 10 градусов, тогда как погрешность работы ближайших аналогов составляет не менее 15 градусов. Качество было повышено за счет соединения микрофонов с нейронной сетью. Система позволяет значительно снизить количество ошибок при машинном распознавании речи. Она будет использована в таких устройствах с функцией голосового управления, как мультимедийные колонки, телевизоры и персональные компьютеры.

Восемь на одного

Системы локализации звуковых источников широко применяются в популярных устройствах с речевым управлением, а также в чат-ботах, участвующих в процессе виртуального общения с клиентами компаний. В настоящее время мировой спрос на электронику данной категории растет в геометрической прогрессии. По оценке специалистов, доля техники с возможностью голосового контроля в первой половине 2018 года достигла 6% рынка стриминговых (потоковых) устройств.

Новая российская разработка в своей основе имеет электронную плату, подключенную к блоку из восьми одновременно работающих микрофонов. Записанный ими сигнал проходит тщательную обработку, которая начинается с определения местоположения активного акустического источника, что позволяет сформировать так называемую диаграмму направленности звука. В соответствии с ней происходит процесс настройки микрофонов, которые ориентируются в направлении говорящего человека. В результате устройство, оснащенное новой системой, записывает только тот звук, который исходит от людей, и при этом практически не воспринимает такие посторонние сигналы, как уличные шумы, эхо, звук включенного телевизора и т.д.

Руководитель аналитического центра Zecurion Владимир Ульянов, напоминает, что подход, при котором расположение источника определяется с помощью одновременной фиксации сигнала сразу с нескольких точек, уже применялся ранее — причем в разных сферах. Например, на этом принципе был основан английский метод слежения за немецкими подводными лодками во время Второй мировой войны — его положили в основу системы пеленгации, приемные станции которой находились в нескольких местах, рассказал Владимир Ульянов.

Цена ошибки

— Благодаря применению новой разработки на выходе получается очень качественный звук, — говорит генеральный директор компании-разработчика системы Lexy Дмитрий Суворов. — Ошибки при его машинном распознавании происходят намного реже, чем в случае использования ближайших аналогов. Эта разница достаточно хорошо ощутима, несмотря на то что мы снизили долю ошибок всего на 1,4%.

Важно отметить, что с точки зрения сохранности сигнала предложенный вариант более эффективен, чем активная работа с методами шумоподавления. Дело в том, что при их использовании из записи, как правило, вырезаются большие частотные сегменты, на которых был записан посторонний звук, или присутствуют помехи. А такая коррекция не способствует высокому качеству финальной дорожки.

Владимир Ульянов отмечает, что новая разработка может применяться в большом диапазоне технических устройств, обеспечивая им точную настройку микрофонов, которая особенно важна в зашумленных помещениях.

— Когда мы говорим о системах, которые претендуют на выход в серию, даже небольшое (в пределах 1–2%) улучшение их работы по отношению к параметрам ближайших аналогов может увеличить качество и популярность устройств среди потребителей. Вместе с тем, помимо разработки систем локализации источников звука, я призываю не забывать о совершенствовании методов его обработки. Например, весьма вероятно, что среди требований к технике следующих поколений будет умение распознавать речь с различными акцентами и корректировать машинное восприятие голоса, когда он подвергается естественным изменениям — в частности, при простуде, — добавил эксперт.

Разработчики компании Lexy пояснили, что для сравнительных испытаний они использовали стандартное устройство с одним микрофоном, которое широко используется в современных мобильных телефонах — именно оно выдавало на 1,4% больше ошибок при распознавании голоса, чем новая система.

Однако руководитель отдела распознавания речи группы компаний ЦРТ Александр Затворницкий скептически относится к новой разработке.

— Снижение доли ошибок на 1,4% — это интересный результат, однако он не столь показателен в отрыве от абсолютных цифр, — считает Александр Затворницкий. — Дело в том, что если с помощью системы Lexy можно улучшить точность продвинутой системы, работающей с точностью 95%, до уровня в 96,4%, то мы действительно имеем дело с большим прорывом. Если же улучшать пытались работу устройства начального уровня, обычная конфигурация которого способна на 50-процентное распознавание, то заявленный результат уже нельзя назвать впечатляющим.

Битва за градусы

Главная же отличительная особенность новой российской системы локализации звуковых источников состоит в применении технологий искусственного интеллекта.

— Для того чтобы увеличить точность определения местоположения источников звука, мы использовали нейронные сети, с помощью которых подбирается математический аппарат для наилучшей обработки сигнала в каждом конкретном случае. Согласно результатам проведенного тестирования, система справляется со своей задачей намного лучше аналогичных вариантов, которые работают только с теми математическими функциями, которые были заранее заложены в них людьми, — отметил Дмитрий Суворов. — Благодаря применению нейронных сетей созданная нами технология позволяет проводить локализацию звуковых источников с точностью до 10 градусов, тогда как погрешность всех других решений составляет 15 и более градусов.

По словам ведущего научного сотрудника Федерального исследовательского центра «Информатика и управление» РАН Владимира Чучупала, предложенная система может стать важным этапом в развитии голосовых помощников, поскольку она позволяет существенно улучшить соотношение сигнал-шум в записи.

— Я считаю, что новая технология способна эффективно бороться с такими помехами, как голоса других дикторов и реверберации от стен помещения. Таким образом, ее внедрение — это верный путь к улучшению качества работы устройств, — отметил эксперт.

Для личного пользования

Система локализации звуковых источников в первую очередь рассчитана на работу в устройствах, предназначенных для личного пользования. Если же говорить о современных биометрических системах, которые всё активнее используются финансовыми организациями для подтверждения личности клиента, то она вряд ли найдет в них применение.

— Использование разработки компании Lexy для биометрического распознавания посетителей (например, в банковских отделениях) маловероятно, поскольку именно под эти задачи есть более простые варианты. В частности, для осуществления данной функции сейчас применяются системы визуальной оценки изображения и видеокамеры, — отметил Владимир Ульянов.

В настоящее время новая система локализации источников звука используется несколькими компаниями — разработчиками устройств, причем некоторые из них уже создали работающие прототипы и готовятся к первым продажам. В перспективе разработка Lexy также будет использоваться в новой российской программно-аппаратной платформе SOVA, над которой работает компания «Нейросети Ашманова». Она представляет собой готовое технологическое решение, включающее все элементы, необходимые для быстрого создания и внедрения системы речевого управления практически в любое устройство. Релиз версии SOVA для персональных компьютеров запланирован на III квартал 2019 года.