Алгоритм познания: в России создан самообучающийся робот

В Институте точной механики и вычислительной техники им. С.А. Лебедева РАН при участии АО «Интеллект» прошел испытания робот, в основу обучения которого положен абсолютно новый принцип, копирующий, по словам ученых, алгоритмы познания мира младенцем. Программа, формирующая алгоритмы обучения, воспроизводит построенную ими функциональную модель мозга и реализована с использованием разработанных специально для этой цели моделей нейрона. В этих моделях воплощается революционное убеждение авторов в том, что сам по себе биологический нейрон — это уже небольшая самообучающаяся система распознавания образов.

По двум одинаковым лабиринтам ползают робот и мышонок. И тот и другой демонстрируют одинаковое поведение. Мышонок ощупывает стены усами-вибриссами, робот замечает препятствия своими визуальными и тактильными датчиками. Оба поначалу то и дело натыкаются на препятствия. Но проходит некоторое время, и постепенно и тот, и другой начинают понимать, как им вести себя, чтобы избежать столкновений со стенками лабиринта. Испытуемые перестают натыкаться на стенки, вовремя поворачивая в нужную сторону. Адаптивное поведение робота соответствует поведению новорожденного мышонка, как и способ обучения.

Этот эксперимент был проведен в Институте нормальной физиологии РАН под руководством российского нейрофизиолога Константина Анохина в сотрудничестве с учеными Института точной механики и вычислительной техники им. С.А. Лебедева РАН. По результатам эксперимента написана совместная статья под названием «Исследование формирования поведенческих стратегий в биолого-кибернетических экспериментах».

Нейроны Жданова

Система управления робота была основана на принципах доктора физико-математических наук Александра Жданова: им была предложена оригинальная концепция работы кибернетических устройств, названная принципом автономного адаптивного управления. Схема работы описывает взаимосогласованное решение ряда таких сложных задач, как самообучение распознаванию образов, моделирование эмоций, поиск и накопление знаний, принятие решений.

Фото: из личного архива Александра Жданова

Реализовать такую схему можно разными способами, применяя подходящие методы решения каждой из указанных задач. Но поскольку в природе все эти задачи решаются с помощью нейронов, то авторам пришлось смоделировать новые модели нейронов, соответствующие по своим свойствам биологическому нейрону.

— Биологический нейрон — это самостоятельная самообучающаяся система распознавания образов, — поясняет Александр Жданов. — Нейрон не требует никакого внешнего супервизора, наблюдающего все входы и выходы нервной сети и настраивающего все веса нейронов методом back propagation, как это делается в современных так называемых искусственных нейросетях — это абсолютно нереально в природе. Биологический нейрон и наша модель имеют всё необходимое, чтобы самим обнаруживать коррелирующие сигналы на своих входах.

Искусственный нейрон Жданова может иметь тысячи входов. Он наблюдает за входными сигналами и по определенному автономному правилу сам выращивает свои синапсы.

Один нейрон — один образ

— В какой-то момент нейрон как бы говорит себе: «Ага! Эта комбинация сигналов повторялась уже 20 раз. Это не может быть случайностью. Запомню-ка я ее и буду на нее реагировать», — говорит Александр Жданов. — С этого момента он начинает сообщать вовне о распознавании этого образа.

Один нейрон отвечает за один образ. По словам ученого, это было подтверждено в известных опытах с «нейроном Дженнифер Энистон», когда было обнаружено, что если человек распознает образ актрисы, то срабатывает определенный нейрон.

Александр Жданов подчеркивает: несмотря на то что при узнавании Энистон срабатывает множество нейронов, отвечающих за разные составляющие этого образа, — есть один нейрон, отвечающий за итоговый образ. Так происходит поиск закономерностей в потоке информации.

Фото: Depositphotos

Схема запоминания образов аналогична процессу обучения человека: чтобы мы запомнили нового соседа во дворе, нам надо встретить его несколько раз. Либо он сразу должен произвести на нас сильное впечатление — это еще один алгоритм обучения.

Нейрон считается обучившимся, когда ситуация повторилась нужное количество раз. Это количество устанавливается программистом для каждой ситуации индивидуально. Либо образ запоминается с первого раза, но тогда его появление должно сопровождаться очень сильной эмоцией — положительной или отрицательной. Оценка эмоций заложена в линейке нейронов. Если задевается нейрон с одной стороны линейки — машинным мозгом это воспринимается как «невыносимо плохо». С другой стороны линейки — «необыкновенно хорошо».

Таким образом, в случае системы управления, основанной на «нейронах Жданова», происходит самообучение робота, а не обучение с учителем, как в случае других нейросетей. Там предварительное обучение — обязательно.

Вторая сигнальная

Еще одно отличие нейроноподобной модели Жданова — способность порождать языковое общение, что в природе является прерогативой человека. Эту способность человека русский физиолог Иван Павлов выделил в специальный тип высшей нервной деятельности, назвав его второй сигнальной системой.

Управляющая система робота может ассоциировать слышимые ею слова с реальными ситуациями. Например, если несколько раз при появлении препятствия справа говорить вслух слова «препятствие справа», то робот свяжет эти слова с ситуацией и через некоторое время даже начнет реагировать на эти слова так, как будто он действительно увидел препятствие. Это лишний раз подтверждает биологичность разработанной схемы искусственного мозга.

Фото: из личного архива Александра Жданова

Схема мозга, разработанная Александром Ждановым, выведена не из биологии, а из кибернетической постановки задачи. Ученый поставил цель создать информационную управляющую машину, которая при рождении оказывается в среде с малоизвестными ей свойствами. Она должна уметь приспосабливаться к миру прямо в процессе «жизни», непрерывно обучаясь, дообучаясь и переобучаясь.

Поскольку «выживать» ей приходится за счет правильного принятия решений, она вынуждена всё время активно искать знания о свойствах этого мира, чтобы принимаемые ею решения были правильными.

Схема работы мозга

В целом схема мозга такова: в своей афферентной части мозг учится распознавать в поступающей из органов чувств информации образы неслучайных явлений, которыми он может оперировать при управлении. Сопоставляя их со своими совершенными действиями, мозг должен понять, как он может вызвать распознавание известных ему образов. Но для управления этого мало, нужна еще целезадающая система, качественно оценивающая состояния-образы и указывающая, какие из них предпочтительнее. Для этого в каждом организме существует аппарат эмоций, именно он оценивает образы, делит их на приятные и неприятные.

Для управления нужны знания о том, куда из текущей ситуации можно перейти доступными действиями и хороши или плохи эти возможные результаты. Коллекция этих эмпирически добытых знаний и составляет «базу знаний» живого организма.

Фото: Depositphotos

— В мозге человека она реализована в виде совокупности обучившихся нейронов, собранных в трехмерные матрицы, — объясняет Александр Жданов. — Принимая каждое решение, мозг смотрит в свою базу знаний и выбирает то действие, которое вызовет распознавание образов с максимально лучшими из возможных в данной ситуации эмоциональными оценками.

Кроме того, принимая решения, мозг постоянно взвешивает: выбрать ли решение из уже известных, чтобы получить надежный результат, или попробовать что-то новое, неизвестное.

Принятые мозгом решения идут на исполняющие устройства, которые переводят бинарные команды в сокращение или расслабление мышц. Так мы идем, летим, плывем, управляем автомобилем, пишем симфонии, двигаем шахматные фигуры.

Сомнения и перспективы

Весь этот алгоритм работы мозга математически формализован и подробно описан в статьях и монографии Александра Жданова. Впрочем, по мнению многих нейрофизиологов, общая схема мало что может сказать о том, как именно происходит работа биологического мозга.

Фото: из личного архива Александра Жданова

— Нет сомнений, что на современной процессорной базе можно построить самые разные алгоритмы для реализации простых и сложных самообучающихся технических систем, — говорит заведующий лабораторией нейрофизиологии и нейроинтерфейсов МГУ им. М.В. Ломоносова Александр Каплан. — Как правило, интеллект этих роботов построен на больших сетях нейроподобных элементов. Сейчас трудно сказать, насколько перспективны системы управления, основанные на «нейронах Жданова», каждый из которых помнит уникальную комбинацию своих эффективных входов, то есть отвечает за конкретный образ или событие. Можно только заметить, что ни один из авторских коллективов, нашедших знаменитые нейроны «Дженнифер Энистон», «Мэрилин Монро» и других известных личностей, в своих статьях не утверждал, что система детектирования предъявляемых испытуемому картинок состоит из одного нейрона. Нейрофизиологи убеждены скорее в том, что элементарные «вычислительные» функции выполняются в мозгу группами нервных клеток. Это обеспечивает высокую надежность мозговых операций и устойчивость всей системы управления к потере отдельных нервных клеток, что случается по естественным причинам каждый день.

По мнению заведующего лабораторией нейронных систем и глубокого обучения МФТИ Михаила Бурцева, нейроподобные сети Жданова действительно уникальны по своему строению, но по решению поставленных перед ИИ задач пока не показывают результатов, которые бы могли обеспечить России приоритет в области развития обучения роботехнических систем.

— Александр Жданов предлагает сложную модель, которая объединяет разные подходы, — говорит Михаил Бурцев. — Например, его принцип обучения нейронов без учителя похож на тот, что есть в сетях Хопфилда. При этом точно его не повторяет, так как у Жданова обучается один нейрон, а не сеть. В этом существенное отличие. Его оцифровка «аппарата эмоций» похожа на «обучение с подкреплением» — это целый раздел в машинном обучении, по которому идут эксперименты во всем мире. Чтобы эти два подхода были бы объединены, я нигде не встречал.