Российские ученые нашли способ ускорить распознавание лиц и эмоций в 30 раз. Система анализирует сразу несколько кадров видео, а не каждый последовательно. Программа способна работать на бюджетных смартфонах, планшетах, ноутбуках, камерах и других слабопроизводительных системах. Эксперты считают ПО перспективным, например, оно может применяться в системах видеоаналитики в умных домах и для розыска людей. Однако говорить о том, что решение станет массовым, пока рано.
Распознавание выражений лиц
В МИСИС, ВШЭ и Sber AI Lab разработали новый метод распознавания лиц и эмоций на видео, рассказали «Известиям» авторы проекта. По словам разработчиков, этот способ до 30 раз быстрее по сравнению с классическими подходами в этой сфере. В настоящее время система проходит этап тестирования в вузах и лаборатории искусственного интеллекта «Сбера».
— Наш подход основан на последовательном анализе входных видеоданных с различной детализацией (частотой кадров). Этот метод спроектирован так, чтобы быть очень быстрым и применяться к любому способу извлечения характерных признаков лиц на основе глубоких нейросетей без дополнительного обучения всей модели, — сказал заместитель директора центра искусственного интеллекта НИТУ МИСИС Андрей Савченко.
Решение работает следующим образом: сначала анализируется два кадра — первый и последний. Если нейросеть может сделать правильный вывод, то алгоритм останавливается. В противном случае добавляется еще несколько кадров в середине, а затем снова проверяется правильность выводов. Например, для простых видео, где выражения лиц хорошо распознаются, решение принимается практически мгновенно, а для более сложных требуется уже обработать намного больше видеокадров.
— Для оптимизации метода важно не просто собирать информацию со всех кадров видео, но и уметь правильно выстраивать последовательность принятия решений, то есть сразу отсеивать ненужную информацию, чтобы оставались только необходимые для классификации данные, — объяснил Андрей Савченко.
Новый способ не только распознает лица, но и эмоции человека. Например, он умеет сравнивать выражение лица в кадре и находить похожие во всем видео.
По словам разработчиков, главная проблема традиционных методов распознавания лиц людей заключается в том, что они анализируют каждый кадр видео в отдельности. Такое решение становится неэффективным, особенно когда дело доходит до систем, работающих в режиме реального времени, например систем видеонаблюдения или беспилотных автомобилей, где скорость распознавания критична, отметил разработчик.
Новый метод может применяться для видеоаналитики на любом аппаратном обеспечении, не требовательном к вычислительным ресурсам: например на бюджетном смартфоне, ноутбуке, умной камере и так далее. При этом не нужно пересылать видео на удаленный вычислительный сервер — таким образом повышается уровень защиты персональных данных, резюмировал Андрей Савченко.
Где будет полезен новый способ распознавания лиц
Несмотря на то, что задача распознавания лиц считается решенной, в практических приложениях остается масса нюансов, требующих совершенствования имеющихся методов. В частности, большинство камер, установленных на подъездах, обладает невысоким качеством изображения, а возможность связаться с высокопроизводительным сервером есть не всегда, рассказал ведущий эксперт центра компетенций Национальной технологической инициативы (НТИ) «Искусственный интеллект» на базе МФТИ Александр Родин.
— Появление новых способов, направленных на снижение «цены» классификации без потери его качества, последовательно происходит и будет применяться в ближайшие годы. Если решение действительно эффективно, рынок это покажет, однако конкуренция в этой сфере высокая, и не исключено, что «выстрелит» какой-то другой подход, — отметил эксперт.
Если решение покажет свою эффективность на практике, оно будет чрезвычайно востребовано, в первую очередь в сфере гражданской безопасности, обобщенно относящейся к понятию «умный город». Розыск людей, совершивших различные правонарушения, пропавших без вести, сбежавших из дома подростков, дезориентированных людей с различными ментальными расстройствами — это ежедневная практика любого крупного мегаполиса, в которой все еще очень велика доля «ручного» труда полицейских, спасателей, медиков, добровольцев и других. И хотя технологии искусственного интеллекта уже заметно повышают эффективность работы экстренных служб, здесь еще очень много работы, сказал Александр Родин.
— Предлагаемый алгоритм — это один из способов оптимизировать процесс обработки видеопотоков и тем самым сократить время анализа. Мы также используем в своей работе похожий способ оптимизации при распознавании не только лиц и эмоций, но и силуэтов, транспортных средств и других объектов, — сказали «Известиям» в пресс-службе компании Ntechlab.
Более легковесная модель также позволит упростить внедрение ИИ в системы видеоаналитики, отключенные от мощных графических процессоров или лишенные стабильного интернет-соединения, что может быть важно для систем контроля безопасности в метро. Вполне вероятно, что данный подход также найдет свое применение в сфере разработки бортовых систем видеоаналитики беспилотных автомобилей, где задача скорого реагирования на внешние обстоятельства является одной из основных, резюмировал эксперт по обработке и анализу данных Центра компетенций НТИ по большим данным на базе МГУ имени М.В. Ломоносова Максим Доронькин.