Переделы разума: роборуку научили элементам рассудочной деятельности

Где будут задействованы самостоятельно обучающиеся машины и как их можно контролировать
Андрей Коршунов
Фото: предоставлено Алексеем Староверовым

Российские ученые разработали методы обучения роботов на основе языковых моделей, подобных тем, на которых функционируют системы типа чата GPT. Интеллектуальные машины воспринимают не только текстовые данные, но и визуальную информацию. В результате они могут без участия оператора ориентироваться в окружающей обстановке. По мнению экспертов, такие системы будут востребованы при проектировании роботов-помощников, которые способны самостоятельно выполнить сложную многоходовую операцию. Другая широкая сфера их применения — выполнение задач в недоступных или опасных для человека местах.

Как роботы обучаются самостоятельно

Инженеры-программисты из Московского физико-технического института, Института искусственного интеллекта AIRI и Федерального исследовательского центра «Информатика и управление» РАН разработали алгоритмы, которые помогут роботам обучаться на больших объемах текстовой и визуальной информации и выстраивать на этой основе свои дальнейшие действия.

В перспективе такие машины смогут автономно выполнять сложные задания. Например, наводить порядок, расставляя предметы по местам, или строить новые конструкции из подсобного материала.

По словам разработчиков, в настоящее время проектирование роботов, способных к самообучению, — это нетривиальная задача. Все предпринимаемые попытки в этой области пока находятся на уровне прототипа.

— В качестве объекта для исследования мы задействовали роборуку — это манипулятор с шестью степенями свободы. Нужно было научить систему навыку самостоятельно сортировать разложенные на столе кубики по цветам, а также собирать их в заданную область. Алгоритмы машинного обучения должны были ускорить этот процесс, — рассказал «Известиям» о цели научной работы один авторов исследования, аспирант Центра когнитивного моделирования МФТИ и научный сотрудник AIRI Алексей Староверов.

Фото: предоставлено Алексеем СтароверовымСтенд с роборукой

Он пояснил, что электронно-вычислительное устройство, управляющее манипулятором, в ходе эксперимента обучалось на информации, которую получало с видеокамер. После каждого действия оно принимало обратную связь и на ее основе планировало следующее действие.

Для осуществления этого процесса применялись языковые модели, подобные тем, на которых построены онлайн-диалоги с искусственным интеллектом в системах типа чата GPT. Только, в отличие от последнего, который предобучен на массивах данных из интернета, управляющее устройство роборуки использовало картины окружающей действительности. При этом на выходе вместо сгенерированного текста манипулятор выдавал ряд действий.

— Новизна работы в том, что для обучения робота мы использовали готовые языковые модели. Это алгоритмы, которые помогают переводить естественную речь в код, понятный системе управления. Они представляют собой нейронные сети, предобученные на больших объемах данных. В нашем случае применена модель RozumFormer. В отличие от других, она генерирует ответы и на текстовые запросы, и на те, которые сделаны в виде изображений, — рассказал соавтор работы, младший научный сотрудник ФИЦ «Информатика и управление» РАН и научный сотрудник AIRI Алексей Ковалев.

Как настраивают искусственный интеллект

Вместе с тем ученый рассказал, что во время исследования была произведена тонкая настройка языковой модели. Целью манипуляций было дать нейронной сети возможность «понимать» цвета кубиков, расстояние до них и другие параметры окружающей действительности. Изначально доообучение производилось в виртуальной среде — специальном игровом пространстве, — а потом ее применили для управления манипулятором в реальном мире.

Такая пошаговая адаптация позволила отрегулировать систему, чтобы она, получая обратную связь с видеокамер, могла на основе усвоенных алгоритмов самостоятельно планировать дальнейшие действия. В результате роборука успешно справилась с поставленной задачей и закрепила полученный навык.

— Языковая модель выдает гипотезу о том, что что-то произойдет, а мы превращаем ее в выполнимый на роботе план. В дальнейшем модель его реализует и проверяет, достигнута цель или нет. Например, схватил манипулятор кубик или нужно еще тянуться. Для этого следует учитывать визуальную информацию. Эти данные с камер видеонаблюдения поступают в ЭВМ и переводятся на понятной машине язык, — объяснил принцип машинного обучения еще один участник разработки, ведущий научный сотрудник Института искусственного интеллекта AIRI и ФИЦ «Информатика и управление» Александр Панов.

Фото: предоставлено Алексеем СтароверовымСхема машинного обучения роборуки

В дальнейшем, по словам ученых, они будут работать над тем, чтобы научить модель запоминать более длинные последовательности действий. Это поможет роботизированным системам в автономном режиме самостоятельно решать более сложные задачи. Такие системы будут востребованы, например, при создании роботов-помощников, которые смогут выполнять вспомогательную работу, не требующую творческого участия человеческого интеллекта.

За какими роботами будущее

Эксперты отрасли отметили, что языковые модели действительно открывают новые возможности, поскольку позволяют роботам оперативно обрабатывать естественный язык и визуальные данные, что расширяет их функционал и позволяет гибко взаимодействовать с окружающим миром. Однако пока такие системы — в большей степени концепты, чем реальность. Например, интеллектуальные машины могут показать результат при неподвижном окружении, но «потеряются» в изменчивых условиях.

— Эпоха самообучающихся роботов может наступить в ближайшие десятилетия с развитием технологий машинного обучения и искусственного интеллекта. Но это требует длительных исследований для обеспечения эффективного взаимодействия машин с окружающей средой на основе текстовых команд, — поделился с «Известиями» своим мнением директор Центра прикладного искусственного интеллекта Сколковского института науки и технологий Евгений Бурнаев.

Вместе с тем он отметил, что такие системы будут особенно полезны в областях, где от машины требуется адаптивное поведение. Например, роботы смогут выполнять задачи в труднодоступных, опасных или вредных для человека условиях. При этом в сферах, где высока степень стандартизации и безопасности (таких, как конвейеры или линии сборки) традиционные методы программирования будут более предпочтительны.

— Языковые модели будут актуальны для коботики — коллаборативной робототехники. Это направление подразумевает создание роботов, которые могут безопасно работать вместе с людьми в общем рабочем пространстве. Эти машины предназначены для сотрудничества с людьми-операторами и могут помогать им в решении задач, — объяснил инженер Научно-образовательного центра биомедицинской инженерии НИТУ МИСИС Александр Левин.

Фото: РИА Новости/Григорий Сысоев

Он добавил, что языковые модели значительно упрощают взаимодействие человека с машиной, так как оператор, вместо написания сложных программ может отдавать команды голосом или жестами. Таким образом, управлять роботом сможет гораздо больший круг пользователей.

Однако, по мнению эксперта, для робототехников языковые модели в некоторых случаях остаются «черным ящиком», так как специалисты не всегда могут понять, какие алгоритмы использует искусственный интеллект для планирования своих действий. В связи с этим важно разрабатывать средства, которые позволят его контролировать.

— Современные нейронные сети, какими бы совершенными они не были, проигрывают человеческому мозгу, поскольку способны копировать, но не изобретать, — прокомментировала исследование со своей стороны директор Института биологии и биомедицины Университета Лобачевского Мария Ведунова.

По ее мнению, дальнейшие прорывные разработки будут связаны с созданием креативных роботов. Это системы искусственного интеллекта, которые решают задачи не теми способами, которым были предобучены на больших массивах данных, а принципиально новыми, рожденными в ходе творческой деятельности. Для этого нужно развивать компьютерные системы, имитирующие работу человеческого мозга.