Перейти к основному содержанию
Реклама
Прямой эфир
Происшествия
Силы ВКС РФ сбили за ночь семь БПЛА над Смоленской областью
Происшествия
Губернатор Самарской области сообщил об уничтожении шести БПЛА над регионом
Мир
Посол РФ рассказал о поставках удобрений в Перу
Здоровье
Врач-офтальмолог рассказал о симптомах астигматизма
Мир
Песков назвал Украину инструментом Запада для нанесения поражения России
Армия
Силы ПВО за ночь уничтожили 44 украинских БПЛА над регионами РФ
Армия
Расчеты РСЗО «Торнадо-С» нанесли удар по пункту временной дислокации ВСУ
Мир
Вучич допустил эскалацию конфликта после атаки ВСУ на Брянскую область
Общество
Россиянам рассказали о повышении пенсий с 1 января
Мир
Макрон призвал Россию принять участие в коллективной деэскалации
Общество
«Народный фронт» доставил гуманитарную помощь в освобожденный от ВСУ Украинск
Мир
Песков заявил о большем вовлечении стран Запада в конфликт на Украине
Мир
Посол РФ рассказал о позиции Перу по антироссийским санкциям
Происшествия
Губернатор Орловской области сообщил об уничтожении четырех украинских БПЛА
Мир
WP сообщила об одобрении Байденом поставок Украине противопехотных мин
Здоровье
Онколог предупредил о связи хеликобактерной инфекции с раком желудка
Экономика
Более половины россиян сообщили, что откладывают деньги на будущее своих детей
Мир
Песков сообщил об отсутствии контактов пресс-секретарей лидеров РФ и США

Умный микрофон: в России повысили точность машинного восприятия звука

Суть инновации — в создании новой системы локализации звуковых источников
0
Фото: commons.wikimedia.org
Озвучить текст
Выделить главное
Вкл
Выкл

Российские инженеры создали систему, определяющую положение источников звука с точностью до 10 градусов, тогда как погрешность работы ближайших аналогов составляет не менее 15 градусов. Качество было повышено за счет соединения микрофонов с нейронной сетью. Система позволяет значительно снизить количество ошибок при машинном распознавании речи. Она будет использована в таких устройствах с функцией голосового управления, как мультимедийные колонки, телевизоры и персональные компьютеры.

Восемь на одного

Системы локализации звуковых источников широко применяются в популярных устройствах с речевым управлением, а также в чат-ботах, участвующих в процессе виртуального общения с клиентами компаний. В настоящее время мировой спрос на электронику данной категории растет в геометрической прогрессии. По оценке специалистов, доля техники с возможностью голосового контроля в первой половине 2018 года достигла 6% рынка стриминговых (потоковых) устройств.

Новая российская разработка в своей основе имеет электронную плату, подключенную к блоку из восьми одновременно работающих микрофонов. Записанный ими сигнал проходит тщательную обработку, которая начинается с определения местоположения активного акустического источника, что позволяет сформировать так называемую диаграмму направленности звука. В соответствии с ней происходит процесс настройки микрофонов, которые ориентируются в направлении говорящего человека. В результате устройство, оснащенное новой системой, записывает только тот звук, который исходит от людей, и при этом практически не воспринимает такие посторонние сигналы, как уличные шумы, эхо, звук включенного телевизора и т.д.

Руководитель аналитического центра Zecurion Владимир Ульянов, напоминает, что подход, при котором расположение источника определяется с помощью одновременной фиксации сигнала сразу с нескольких точек, уже применялся ранее — причем в разных сферах. Например, на этом принципе был основан английский метод слежения за немецкими подводными лодками во время Второй мировой войны — его положили в основу системы пеленгации, приемные станции которой находились в нескольких местах, рассказал Владимир Ульянов.

Цена ошибки

— Благодаря применению новой разработки на выходе получается очень качественный звук, — говорит генеральный директор компании-разработчика системы Lexy Дмитрий Суворов. — Ошибки при его машинном распознавании происходят намного реже, чем в случае использования ближайших аналогов. Эта разница достаточно хорошо ощутима, несмотря на то что мы снизили долю ошибок всего на 1,4%.

Важно отметить, что с точки зрения сохранности сигнала предложенный вариант более эффективен, чем активная работа с методами шумоподавления. Дело в том, что при их использовании из записи, как правило, вырезаются большие частотные сегменты, на которых был записан посторонний звук, или присутствуют помехи. А такая коррекция не способствует высокому качеству финальной дорожки.

Владимир Ульянов отмечает, что новая разработка может применяться в большом диапазоне технических устройств, обеспечивая им точную настройку микрофонов, которая особенно важна в зашумленных помещениях.

— Когда мы говорим о системах, которые претендуют на выход в серию, даже небольшое (в пределах 1–2%) улучшение их работы по отношению к параметрам ближайших аналогов может увеличить качество и популярность устройств среди потребителей. Вместе с тем, помимо разработки систем локализации источников звука, я призываю не забывать о совершенствовании методов его обработки. Например, весьма вероятно, что среди требований к технике следующих поколений будет умение распознавать речь с различными акцентами и корректировать машинное восприятие голоса, когда он подвергается естественным изменениям — в частности, при простуде, — добавил эксперт.

Разработчики компании Lexy пояснили, что для сравнительных испытаний они использовали стандартное устройство с одним микрофоном, которое широко используется в современных мобильных телефонах — именно оно выдавало на 1,4% больше ошибок при распознавании голоса, чем новая система.

Однако руководитель отдела распознавания речи группы компаний ЦРТ Александр Затворницкий скептически относится к новой разработке.

— Снижение доли ошибок на 1,4% — это интересный результат, однако он не столь показателен в отрыве от абсолютных цифр, — считает Александр Затворницкий. — Дело в том, что если с помощью системы Lexy можно улучшить точность продвинутой системы, работающей с точностью 95%, до уровня в 96,4%, то мы действительно имеем дело с большим прорывом. Если же улучшать пытались работу устройства начального уровня, обычная конфигурация которого способна на 50-процентное распознавание, то заявленный результат уже нельзя назвать впечатляющим.

Битва за градусы

Главная же отличительная особенность новой российской системы локализации звуковых источников состоит в применении технологий искусственного интеллекта.

— Для того чтобы увеличить точность определения местоположения источников звука, мы использовали нейронные сети, с помощью которых подбирается математический аппарат для наилучшей обработки сигнала в каждом конкретном случае. Согласно результатам проведенного тестирования, система справляется со своей задачей намного лучше аналогичных вариантов, которые работают только с теми математическими функциями, которые были заранее заложены в них людьми, — отметил Дмитрий Суворов. — Благодаря применению нейронных сетей созданная нами технология позволяет проводить локализацию звуковых источников с точностью до 10 градусов, тогда как погрешность всех других решений составляет 15 и более градусов.

По словам ведущего научного сотрудника Федерального исследовательского центра «Информатика и управление» РАН Владимира Чучупала, предложенная система может стать важным этапом в развитии голосовых помощников, поскольку она позволяет существенно улучшить соотношение сигнал-шум в записи.

— Я считаю, что новая технология способна эффективно бороться с такими помехами, как голоса других дикторов и реверберации от стен помещения. Таким образом, ее внедрение — это верный путь к улучшению качества работы устройств, — отметил эксперт.

Для личного пользования

Система локализации звуковых источников в первую очередь рассчитана на работу в устройствах, предназначенных для личного пользования. Если же говорить о современных биометрических системах, которые всё активнее используются финансовыми организациями для подтверждения личности клиента, то она вряд ли найдет в них применение.

— Использование разработки компании Lexy для биометрического распознавания посетителей (например, в банковских отделениях) маловероятно, поскольку именно под эти задачи есть более простые варианты. В частности, для осуществления данной функции сейчас применяются системы визуальной оценки изображения и видеокамеры, — отметил Владимир Ульянов.

В настоящее время новая система локализации источников звука используется несколькими компаниями — разработчиками устройств, причем некоторые из них уже создали работающие прототипы и готовятся к первым продажам. В перспективе разработка Lexy также будет использоваться в новой российской программно-аппаратной платформе SOVA, над которой работает компания «Нейросети Ашманова». Она представляет собой готовое технологическое решение, включающее все элементы, необходимые для быстрого создания и внедрения системы речевого управления практически в любое устройство. Релиз версии SOVA для персональных компьютеров запланирован на III квартал 2019 года.

 

Читайте также
Прямой эфир