Дистанционный смотритель: создан бесконтактный детектор лжи
В России создали технологию дистанционного мониторинга эмоций человека. Для этого с помощью большой подборки интернет-видео были обучены нейросети с целью «вытащить» из роликов наибольшее количество параметров внутреннего состояния человека. В результате алгоритмы смогли определить и проанализировать эмоции, пульс, частоту дыхательных движений и жестикуляцию людей на видео. Технология пригодится на собеседованиях перед приемом на работу, мониторинге состояния водителей и пилотов, а также решении бизнес-задач, где важно понять мнение клиента.
Режиссерская история
Российские ученые и программисты компании «Нейродата Лаб» создали новую технологию с нуля. Для того, чтобы обучить нейросети, нужно было сначала собрать базу данных, в данном исследовании это — большое количество видео. Специалисты в подобной работе часто используют общемировые открытые базы, но в этом случае каталоги видео — датасеты (Dataset, набор данных — «Известия») были созданы в России конкретно под проект.
Первый лабораторный датасет собрали из видеофрагментов, в которых были задействованы десять профессиональных актеров. Процесс контролировал профессиональный преподаватель из ВГИКа Елена Арькова. Актеры вживались в различные ситуации, которые снимались на видео, с одновременной записью физиологических показателей — дыхания и пульса. Согласно заданию, нужно было получить записи шести разных эмоций: радости, грусти, удивления, злости, страха, отвращения, а также нейтрального состояния.
Сняли шесть часов видео, которые в дальнейшем были размечены профессиональными аннотаторами — людьми, которые просматривают кадр за кадром и подписывают те эмоции, которые они наблюдают.
— Этот датасет создали для лабораторных исследований, — пояснила научный директор компании «Нейродата Лаб» Ольга Перепёлкина. — Он был нужен, чтобы понять, как друг с другом взаимодействуют разные каналы: голос, лицо, движения и т.д. Однако данный датасет абсолютно не годится для применения на практике, так как сыгранные эмоции по своему наполнению отличаются от испытанных в реальной жизни. Поэтому мы создали принципиально другой каталог данных.
Угадай эмоцию
Кардинальным образом от режиссерского датасета отличается следующий, собранный из видеозаписей, которые находятся в открытом доступе интернета.
Для этого специалисты компании выбирали фрагменты видео, где люди общаются друг с другом в разной обстановке: на политических дебатах, во время выступлений или на ток-шоу. Чтобы разметить эти видео, были привлечены тысячи людей по всему миру. В результате получили 160 часов видеозаписей, предназначенных для обучения различных нейросетей.
— Эмоции — штука субъективная. Гораздо легче работать с пульсом и дыханием, которые можно измерить, — отметила Ольга Перепёлкина. — В случае эмоций всё гораздо сложнее. Мало того что экспертом для определения эмоционального состояния может быть только человек, так нам еще нужно как минимум десять мнений разных людей, чтобы вынести вердикт — так ли выглядит, допустим, гордость.
Метка, определяющая ту или иную эмоцию, ставилась только тогда, когда более 80% людей определяли ее одинаково. Таким образом было размечено 20 различных эмоций: не только грусть или радость, но также более сложные состояния — например, вовлеченность, дружелюбие, презрение, стыд, восхищение и открытость. Также анализировалась и когнитивная нагрузка — наличие умственных усилий, сопровождающих ту или иную задачу.
Эмоушн майнер
Чтобы оптимизировать создание каталогов видео, пригодных для обучения нейросетей, разработали специальную платформу «Эмоушн майнер», которая продолжает функционировать. Люди, занятые в анализе видео, получают денежное вознаграждение за свою работу.
Когда данные были собраны, специалисты «Нейродата Лаб» приступили к разработке архитектур и обучению нейронных сетей, которые позволили бы с максимальной точностью определять эмоциональное состояние человека.
— Для работы с несколькими каналами стандартные подходы не годятся, — рассказал технический директор «Нейродата Лаб» Андрей Беляев. — Мы объединили сверточные и реккурентные нейросети и в результате получили мультимодальную архитектуру, которая одновременно могла бы анализировать аудио, видео, движения тела и физиологические параметры. Точность распознавания эмоций нейросетью сильно возросла.
В результате данной работы был собран пул нейросетей, которые комплексно умеют анализировать: голос (высоту тона, тембр, громкость, паузы в речи), текст (эмоциональную окраску и семантику текста), лицо (мимика), движения тела (скорость и направление движений, положение отдельных конечностей), частоту сердечных сокращений (по изменению цвета кожи), дыхание (по движению грудной клетки), а также определять пол, возраст, атрибуты лица (наличие на лице очков, усов, бороды), идентифицировать личность.
Физиологические параметры (дыхание и пульс) понадобились, для того чтобы получить более точную картину состояния человека.
Понять подноготную
В результате ученые смогли получить специально обученную программу, разбирающуюся в эмоциях лучше человека, который не всегда верно понимает своих собратьев.
Где пригодится эта разработка? Спектр применения большой. Например, она может заинтересовать рекламодателей, которым важно понимать, как воздействует их продукт на аудиторию. Или предпринимателей — бизнес-процессы, замкнутые на клиента, также нередко нуждаются в корректировке, которую могут помочь осуществить нейросети.
Разработку можно использоваться в медицине, в сфере безопасности, — на всех объектах, где нужен мониторинг состояния человека. Например, дистанционно наблюдать за заключенными в камерах, фиксировать степень опьянения или усталости у водителей, определять состояние пилотов, машинистов поездов и т.д. Такие нейросети всегда пригодятся там, где нужен анализ поведения, психологического состояния, уровня стресса или определения межличностных дистанций.
Кроме того, разработку можно использовать как бесконтактный полиграф — например, на собеседовании при приёме на работу. А также там, где используется обычный полиграф.
Однако достоверность данного видеополиграфа, считает ведущий научный сотрудник научно-учебной лаборатории когнитивных исследований НИУ ВШЭ Дмитрий Люсин, будет не выше, чем у обычного — контактного.
— У этой системы, как и у других детекторов лжи, достоверность будет невелика, — прокомментировал эксперт. — Она может определить некое волнение, но не более того. Любая система автоматического распознавания эмоций, основанная на внешних признаках, никогда не даст достоверных результатов, так как люди все очень разные, их реакции индивидуальны. Скорее, эту систему можно использовать в наблюдении за большим количеством людей в бизнес-процессах.
Здесь, как считает Дмитрий Люсин, у разработки большое будущее. Тем более что она основана не на спорных представлениях типа теории базового интеллекта Пола Экмана, а на признаках, которые определены с помощью машинного интеллекта.
В полезности разработки также уверен руководитель программного комитета ведущей российской конференции по анализу данных Big Data & AI Игорь Балк.
— Мы считаем, что она может оказаться очень полезным продуктом, который применим как для мониторинга качества служб работы с клиентами, так и для решения широкого спектра HR-задач. Учёные из Dublin City University и University College London согласились с нашим мнением и включили данное решение в свой список ведущих мировых алгоритмов распознавания эмоций, — подчеркнул эксперт.
Разработка готова к использованию.