Чужим умом: пользователи научились манипулировать нейросетями

Искусственный интеллект заставляют выдавать определенные ответы
Дмитрий Булгаков
Фото: Getty Images/TEK IMAGE/SCIENCE PHOTO LIBRARY

Пользователи научились манипулировать искусственным интеллектом, который используется в чат-ботах для поиска и анализа сайтов с ответами на запрос — об этом предупредили эксперты. Манипуляторы размещают на своих сайтах специальные фразы, чтобы нейросети выполнили определенные действия. Подробности о том, как работает манипулирование ИИ и какие риски несет в себе такая практика, читайте в материале «Известий».

Механизмы манипуляции

О том, что пользователи научились манипулировать ИИ, который используется в чат-ботах для поиска и анализа сайтов с ответами на запрос, «Известиям» рассказал руководитель группы исследований и разработки технологий машинного обучения в «Лаборатории Касперского» Владислав Тушканов. По словам Тушканова, механизм манипуляции нейросетями, который исследовали специалисты, называется indirect prompt injection (непрямые инъекции затравки).

— Это текстовые описания задач, содержащиеся в документах, которые попадают на обработку большой языковой модели и могут противоречить тем целям, которые задал пользователь или разработчик приложения, — рассказал эксперт. — Непрямым инъекциям затравки подвержены многие системы на основе больших языковых моделей.

Фото: Global Look Press

Как пояснил Тушканов, в рамках исследования были выделены несколько областей и целей, для достижения которых пользователи применяют непрямые инъекции затравки. Среди них оказались:

область найма — для повышения шансов на трудоустройство;сфера рекламы — для того, чтобы потенциальные покупатели получали более высокие оценки тех или иных продуктов или услуг;сайты по поиску фрилансеров — для минимизации последствий «наплыва» чат-ботов.

Кроме того, как отметил эксперт, были зафиксированы случаи применения инъекций в качестве протеста и для защиты интеллектуальной собственности. При этом стоит отметить, что в большинстве обнаруженных случаев использования непрямых инъекций какого-либо злого умысла у людей, по сути, не было, отмечает Владислав Тушканов.

Инструмент для хакеров

Между тем некоторые специалисты считают, что возможность манипуляции нейросетями при помощи непрямых инъекций затравки в перспективе всё же может быть использована киберпреступниками. Как объясняет директор по управлению сервисами Angara Security Павел Покровский, это, в частности, могут быть попытки изменения ответов модели на какие-то узкоспециальные темы.

— Кроме того, если киберпреступники владеют достаточным объемом средств, с их стороны могут быть попытки переобучить модель на популярных темах, — говорит собеседник «Известий». — То есть они могут сформировать обучающую выборку, которая переобучит модель отвечать на популярные темы.

Фото: ИЗВЕСТИЯ/Сергей Лантюхов

Как поясняет Павел Покровский, это может делаться в разных целях — например, чтобы давать какие-либо ответы с политическим окрасом и тем самым пытаться дискредитировать разработчика или пользователя модели. В качестве примера специалист приводит условный популярный сервис, который реализовал у себя чат-бота, но недостаточно качественно обучил его общаться на чувствительные темы — к примеру, гендерные, политические или расовые.

Злоумышленники могут воспользоваться этим и пытаться переобучить модель так, чтобы она выдавала неполиткорректные или оскорбительные ответы на вопросы с политическим и иным окрасом. Такие действия чреваты для разработчиков этой модели перспективой судебных исков. К тому же исправление таких атак и уязвимостей будет стоить достаточно дорого.

— По сути, придется заново обучать модель — тратить на это дорогие ресурсы аналитиков, формировать корректную обучающую выборку и каким-то образом защищать модель от последующих атак в подобном контексте, — подчеркивает Павел Покровский.

Фото: ИЗВЕСТИЯ/Сергей Лантюхов

Аналитик-исследователь угроз кибербезопасности R-Vision Руслан Бисенгалиев дополняет, что киберпреступники могут использовать манипуляции ИИ для фишинга или распространения дезинформации. На данный момент таких случаев не было зафиксировано, поскольку нейросети обычно используются для экономии времени, а не для принятия важных решений, но это не гарантирует отсутствия их в будущем.

Факторы риска

По словам Руслана Бисенгалиева, сегодня технологии на основе ИИ могут подсказать, какой товар лучше, а в случае с подбором кадров — выделить одного из кандидатов, но окончательное решение всегда остается за человеком. Однако, если нейросети из-за манипуляций пропустят резюме злоумышленника, то при прохождении собеседования у него будет доступ к корпоративной сети

Среди угроз, связанных с манипуляциями нейросетями, Павел Покровский также называет финансовые убытки в том случае, если модель, к примеру, используется для прогнозов и анализа финансовых рынков, а также принятия решений о заключении сделок. При этом, по словам Владислава Тушканова, в случае с непрямыми инъекциями пользователи могут даже не подозревать, что нейросеть выполняет чужие инструкции.

Фото: Getty Images/Tero Vesalainen

Один из признаков подобных манипуляций — это так называемая галлюцинация модели, когда она выдает заведомо неверный ответ либо несвязанный ответ на вопрос с очевидным ответом. Например, нейросеть может утверждать, что дважды два равно пяти. При этом, если задавать ей уточняющий вопрос, она начинает подробно доказывать и объяснять, почему ответ именно пять, а не четыре. Впрочем, это также может быть признаком недостаточного обучения модели, отмечает Павел Покровский.

Призрачная угроза

В настоящее время риск того, что приложение на основе LLM, с которым работает человек, будет подвергнуто целенаправленному манипулированию со стороны злоумышленников, низок, говорит Владислав Тушканов. Были проведены различные лабораторные эксперименты, в рамках которых специалисты пытались выяснить, как непрямые инъекции затравки потенциально могут использоваться в кибератаках.

— Однако на данный момент эти киберугрозы в большинстве случаев носят теоретический характер из-за ограниченных возможностей существующих решений на базе больших языковых моделей, — отмечает эксперт.

С тем, что опасность целевого воздействия на алгоритмы ИИ со стороны злоумышленников явно преувеличена, согласен и консультант по кибербезопасности компании F.A.C.C.T. Сергей Золотухин. Он объясняет, что на практике в атаках используются максимально простые инструменты: мошеннический звонок, подбор пароля к сервису, угон аккаунта и так далее. Вариант манипуляции нейросетями при помощи непрямых инъекций затравки носит, скорее, академический характер — такие кейсы вряд ли будут зафиксированы в ближайшее время.

Фото: ИЗВЕСТИЯ/Михаил Терещенко

— Манипуляции с ИИ — это не повод для паники, а шанс еще раз напомнить о серьезности рисков киберпространства и о необходимости соблюдать известные правила безопасности в цифровой среде, — подчеркивает Сергей Золотухин.

По словам Владислава Тушканова, сегодня вполне достаточно следовать обычным правилам работы: не принимать важных решений на основе ответов чат-ботов, не доверять им на 100% в чувствительных сферах (например, с точки зрения юридических и медицинских рекомендаций), а также перепроверять любую предоставляемую информацию.

Пользователь скорее рискует столкнуться с мошенническим сайтом или приложением, которые могут маскироваться под популярные ИИ-сервисы. Поэтому специалисты рекомендуют пользоваться официальными сайтами и приложениями, а также установить защитное решение на все свои устройства — оно не даст перейти по фальшивым ссылкам или установить вредоносное ПО, заключает собеседник «Известий».