«Наш метод позволяет обучать роботов в 20 раз быстрее и на 10% качественнее» | Статьи

Ученые из лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research открыли новый алгоритм для обучения ИИ. Этот метод, названный SAC-RND, обучает роботов в 20 раз быстрее и на 10% качественнее всех существующих аналогов — такие результаты показало тестирование метода на робототехнических симуляторах. Ранее метод отвергался мировой наукой. О том, где смогут найти применение новые алгоритмы, а также для чего технологической компании вплотную заниматься большой наукой, читайте в интервью «Известиям».

«Мы можем довольно легко отличать реальные данные от галлюцинаций ИИ»

— Расскажите, в чем суть вашего открытия.

— Наша команда разработала новый алгоритм для обучения ИИ, названный SAC-RND (Soft Actor Critic — мягкий актор-критик, Random Network Distillation — случайные нейронные сети). Мы протестировали его на робототехнических симуляторах и выяснили, что метод позволяет обучать роботов в 20 раз быстрее и на 10% качественнее сопоставимых аналогов. Когда я говорю «сопоставимых», я имею в виду лучшие методы, которые применяют сейчас.

— А как происходит обучение роботов сейчас?

— Есть такое направление исследований, которое называется «обучение с подкреплением» (Reinforcement Learning (RL)). RL позволяет роботам учиться методом проб и ошибок, адаптироваться в сложных средах и изменять поведение на ходу. Можно, например, класть мышку в лабиринт, откуда она должна самостоятельно выбраться. Или это может быть самодвижущаяся повозка, которой надо выбрать правильный путь. Это и будет обучение с подкреплением.

И всё было бы хорошо с этим подходом, если бы для его применения в реальной жизни не требовалось очень много взаимодействий с реальной средой. Необученную самодвижущуюся повозку никто в город выпускать не будет, так ведь? В связи с этим развивается офлайн-обучение с подкреплением, когда у нас уже есть какой-то набор готовых данных, и по нему надо обучить метод принятия решений.

— Но и тут возникают сложности?

— Есть в этом много сложностей, и есть в обучении с подкреплением много методов, которые решают эти сложности.

Однако так или иначе все методы сталкиваются с проблемой переобучения или галлюцинаций, которые возникают в процессе обучения алгоритма, потому что мы ограничены некоторым набором данных, который видим. Можно привести пример из рекомендательных систем. Условно такая система анализирует, как человек делает какие-то покупки, что можно предположить.

Мы видим, что после хлеба дети всегда покупают молоко, колбасу и так далее в определенной последовательности. Однако что будет, если после хлеба кто-то купит кефир, мы не знаем. Если мы сделали правильное предположение — мы молодцы, мы улучшили рекомендации. Но если мы сделаем неправильное предположение, то это будет похоже на галлюцинации, то есть какой-то позитивный исход там, где его на самом деле нет. И большой челлендж всего направления обучения с подкреплением — это оптимизация принятия решений через выстраивание правильных предположений, которые близки к реальным данным.

— Как эта задача решается?

— Решение этой проблемы — использование ансамблей, то есть сразу нескольких агентов. Когда есть правильное предположение, они сводятся к одинаковому ответу, а когда есть неправильное предположение, то они галлюцинируют по-разному. Однако у такого подхода очень простая цена — время и ресурсы. Обучение подобных агентов — процесс, требующий больших ресурсов, прежде всего вычислительных мощностей, финансовых затрат и времени.

Мы придумали очень, как мне кажется, элегантный способ того, как можно избавиться от необходимости ансамблирования. Это использование случайных нейросетей (RND). Основная идея состоит в том, чтобы вместо того, чтобы обучать большое количество разного рода агентов, которые что-то по-разному предсказывают, можно было использовать дополнительную случайную сеть, которой никак не обучаются, но предсказания которой, скажем так, мы пытаемся предсказывать в своей основной сети. Одно из свойств, которое получается в процессе, — наша основная сеть обучается повторять рандомную на данных, которые мы видели, — реальных данных. Однако если рандомная сеть выдала одно, а мы своей основной получили что-то совершенно другое, то мы понимаем, что на самом деле эти данные какие-то нереальные, скорее всего, это некая ошибка. Таким образом мы можем легко отличать реальные данные от галлюцинаций ИИ. В этом и суть SAC-RND.

— До вас такой метод никто не использовал?

— Раньше считалось, что использование случайных нейросетей не подходит для офлайн-обучения роботов с подкреплением. Изучив прежние работы, связанные с использованием RND, наша команда обнаружила недостатки в проведенных экспериментах и полученных выводах.

Как я уже говорил, при использовании метода RND участвуют две нейросети — случайная и основная, которая пытается предсказать поведение первой. Важное свойство каждой нейросети — ее глубина, количество слоев, из которых она состоит. У основной сети не должно быть меньше слоев, чем у случайной, иначе она не сможет смоделировать ее поведение, что приведет к нестабильности или невозможности обучения. Мы обнаружили, что в предыдущих работах на тему использования случайных нейросетей в обучении с подкреплением размер случайной сети был в два раза больше, чем размер основной.

Использование неправильных размеров сетей привело научное сообщество к ошибочному выводу, что метод RND не умеет дискриминировать (классифицировать) данные — отличать действия, которые были в датасете, от тех, что там не было. Мы исправили глубины сетей, сделав их эквивалентными, и быстро обнаружили, что при таких настройках методу удается различать данные.

«Надо уметь задавать тренды»

— К чему приведет это открытие? Может ли оно изменить нашу жизнь, скажем, в ближайшее десятилетие?

— Сразу скажу, что за последние 10 лет машинное обучение прошло несколько эпох развития — больших, фундаментальных скачков. И по моим скромным прикидкам, за следующие 10 лет мы пройдем еще как минимум столько же скачков. Однако, если очень большими мазками, я, безусловно, ожидаю, что мы придем к тому, что наконец-таки сможем использовать весь аппарат обучения с подкреплением в реальной жизни, в реальных задачах.

Я очень надеюсь, что робототехники возьмут на вооружение наше открытие, и в каких-то роботах мы его увидим. Также я надеюсь, что мы возьмем этот метод в некоторые из наших рекомендательных систем.

— Где вы представляли свои исследования? И если говорить о научной среде, как ваши работы были восприняты?

— Они были восприняты отлично. Мы получили положительные оценки, когда представили результаты исследования на 40-й Международной конференции по машинному обучению (ICML), которая не так давно прошла в Гонолулу на Гавайях. Это одна из трех крупнейших конференций в мире, оказывающих наибольшее влияние на исследования в сфере машинного обучения и искусственного интеллекта.

Также пообщались с авторами прошлых работ по интеграции RND в обучение с подкреплением, обсудили недочеты. В академии к такому вполне нормально относятся — общую область ведь развиваем.

— А какими еще направлениями занимается Tinkoff Research и что из себя представляет?

— Tinkoff Research — это такой маленький, но очень уверенный в себе отдел, который состоит из трех команд, в каждой команде есть 2–3 человека в штате и примерно столько же студентов, с которыми мы очень активно работаем. То есть любая команда — это 5–6 человек, их задача — делать исследования.

Наша основная задача — писать научные статьи, в году у нас есть примерно три наиболее важных конференции, которые входят в топ-10 лучших конференций мира по AI. Задача этих ребят — придумать такие идеи и способы их проверки, чтобы можно было отправить на эти важнейшие научные мероприятия.

Мы никак не ограничиваем себя, однако мы не идем в темы, которыми никто не занимается, потому что невозможно будет публиковаться. Или же не идем в какие-то очень узкоспециализированные направления (AI для оптимизации компиляторов). Все наши темы имеют некоторую синергию с направлением деятельности основной компании, и поэтому мы ими занимаемся.

— А что это за направления? И почему их можно назвать крайне перспективными?

— Помимо обучения с подкреплением (RL) ученые из Tinkoff Research исследуют другие наиболее перспективные области ИИ: обработку естественного языка (NLP), компьютерное зрение (CV) и рекомендательные системы (RecSys).

NLP — потому что куда мы сейчас без NLP? Мы понимаем, что супербольшие модели (foundational models) в NLP работают. Например, мы пишем какой-то запрос в чат GPT: «Сделай мне вот это». В обучающей выборке он этого не видел, но он понял свою задачу. И это лишь один из подходов к тому, как можно обобщаться по задачам. Мы развиваем эти и другие направления.

Через CV мы изучаем более общие направления — представления информации нейронными сетями, а также их оценку неопределенности. Ведь интересно не только правильно знать ответы на вопросы, но и понимать, когда информации недостаточно, потому что давать решение пользователю здесь и сейчас некорректно. Научить систему разбираться, когда непонятно и когда надо запросить больше информации, — очень интересное направление исследования как с точки зрения академии, так и с точки зрения индустрии и применения.

В RecSys мы изучаем влияние временной составляющей на рекомендации. Многие текущие рекомендательные системы работают с последовательностями, которые не несут никакой информации, что, положим, между первой и второй покупкой прошел час или два. Мы в свою очередь заинтересованы в том, чтобы получать не только точные, но и своевременные рекомендации.

— На ваш взгляд, зачем вообще коммерческой компании развивать науку?

— Во-первых, когда ты занимаешься искусственным интеллектом, понимаешь, что основной прорыв сейчас делает не академия, а именно индустриальные лаборатории бизнесовых компаний. С каждым годом развитие этих технологий только ускоряется. Это значит, что есть очень большая вероятность, что в какой-то год выйдет технология, которая может полностью изменить рынок, и твоя компания может оказаться не у дел, поэтому нельзя отставать. С другой стороны, если ты придумал что-то прорывное, уже ты можешь захватывать рынок, потому что, пока другие компании смогут понять эту технологию и имплементировать ее, пройдет много времени.

Во-вторых, крупным технологическим игрокам невыгодно просто использовать технологии и адаптировать их под свои потребности — куда эффективнее задавать тренды, собирать комьюнити и развивать нужные тебе области.

И, наверное, последний пункт, почему вообще надо этим заниматься, заключается в том, что вся эта исследовательская деятельность — это также очень сильное развитие своей внутренней экспертизы, своего сообщества, это изменение культуры компании.