Вот и поговорили: почему из-за чат-ботов происходят утечки данных
Чат-бот с искусственным интеллектом ChatGPT стал причиной утечки корпоративных данных Samsung — об этом сообщило корейское издание Economist. Конфиденциальная информация корпорации попала в Сеть потому, что ее специалисты неправильно использовали ChatGPT. В компании уже ввели ограничения при работе с программой — впрочем, сокращать применение ChatGPT сегодня пытается не только бизнес, но и органы власти. Подробности о том, почему использование чат-ботов приводит к утечкам данных, выясняли «Известия».
Ошибки применения
Сотрудники Samsung стали применять ChatGPT в своей работе в середине марта. Однако, по словам источника в корпорации, специалисты допустили ряд ошибок. В частности, в одном из случаев инженер ввел в строку ChatGPT исходный код, связанный с полупроводниковым оборудованием. В другом случае еще один работник также решил поделиться секретным исходным кодом с чат-ботом — сотрудник Samsung хотел упростить его проверку, но в конце концов корпоративные данные были потеряны.
Третья утечка произошла в тот момент, когда специалист компании при помощи ChatGPT решил создать протокол встречи. Во всех трех случаях скрытая информация от Samsung стала частью базы знаний искусственного интеллекта. Корпорация уже предупредила своих сотрудников, что с чат-ботами нельзя делиться конфиденциальной информацией, а также любыми данными, которые могут навредить Samsung. Чтобы предотвратить повторение подобных инцидентов, в организации также приняли ряд мер.
При этом ограничивать использование ChatGPT пытаются не только представители бизнеса, но и органы власти. Так, 31 марта стало известно, что итальянское управление по защите персональных данных первым в мире ввело временное ограничение на использование чат-бота с искусственным интеллектом.
Причиной этого стало нарушение законодательства о персональных данных. В управлении отметили, что сегодня нет правовой основы, которая оправдывала бы массовый сбор и хранение личной информации пользователей для обучения алгоритмов ChatGPT. Кроме того, чат-бот формально предназначен для лиц старше 13 лет, но на деле в нем нет никакого фильтра для проверки возраста пользователя.
«Поедание» данных
Как говорит в беседе с «Известиями» технический директор компании Swordfish Security Антон Башарин, если анализировать ситуацию с утечкой данных в Samsung, то ее причина кроется в халатности сотрудников компании — сам ChatGPT ничего не собирал и не взламывал. Дело в том, что нейросеть, лежащая в основе чат-бота, работает ровно с теми данными, которые в нее загружают сами пользователи.
— Эта информация используется для обучения и развития моделей чат-бота, — объясняет эксперт. — Поэтому нет ничего удивительного в том, что какая-то ее доля «оседает» в моделях, в дальнейшем, по сути, становясь частью их знаний.
По словам управляющего RTM Group Евгения Царева, иногда чат-ботам для обучения различным механикам (например, составление спам-сообщений) «скармливают» персональные данные из утекших баз, оказавшихся в открытом доступе. Впрочем, пользователи различных агрегаторов (в частности, в Telegram-каналах) при регистрации сами передают свои данные ChatGPT и его аналогам. Это происходит как путем заполнения анкет или форм, так и при использовании определенных команд.
Антон Башарин рассказывает, что полученные данные чат-боты применяют для создания так называемого неперсонифицированного профиля пользователя. В нем, помимо прочего, содержится информация о том, из какого он региона, как часто посещает тот или иной ресурс и так далее. Этот профиль связывают с теми данными, который пользователь передавал ранее. Из всей этой информации по крупицам можно собрать сведения об интересах, увлечениях и специфике работы конкретного человека.
— В дальнейшем эти данные можно использовать для таргетированной рекламы, а можно и для хакерской атаки — всё зависит от реальных владельцев бота или тех, кому они продадут свою базу знаний, — отмечает Башарин.
Открытый доступ
По словам Евгения Царева, киберинциденты с ChatGPT и другими чат-ботами ошибочно называть утечками данных. Дело в том, что в привычной терминологии утечки происходят из тех систем, данные в которых защищены. Но если пользователь передает конфиденциальную информацию на обработку в ChatGPT, это можно сравнить с выкладыванием тех же данных в публичную таблицу от Google.
— Вся разница в том, что чат-бот может выдать (или не выдать) эту конфиденциальную информацию в зависимости от того, какой запрос введет в него пользователь, — говорит собеседник «Известий».
Именно поэтому все случаи, связанные с «утечками» данных в чат-ботах, обычно являются следствием банальной низкой компетенции пользователей. Антон Башарин объясняет, что такие пользователи порой просто не думают о том, что передача той или иной информации чат-ботам может быть связана с целым рядом рисков. Если же говорить конкретно о ChatGPT, то с ним ситуация несколько иная: порой офисные работники, стремясь облегчить свою работу по подготовке отчетов, передают ему сырые данные.
— Вполне возможно, что такой работник даже не допускает, что эта информация может быть как использована для дальнейшего обучения чат-бота, так и сохранена в первоначальном виде где-то на сервере OpenAI, — говорит специалист.
Как бы то ни было, утечки данных из чат-ботов чреваты для пользователей целым рядом проблем. Доцент Финансового университета при правительстве РФ кандидат экономических наук Петр Щербаченко рассказывает, что подобные киберинциденты могут обернуться кражей персональной информации, банковских данных, а также логинов и паролей к пользовательским аккаунтам для различных сервисов. При помощи них мошенники нередко крадут деньги, а также проворачивают различные аферы и совершают другие преступления.
— Из всех прошлых утечек уже давно формируются базы в Сети, — отмечает Антон Башарин. — И каждая новая утечка либо актуализирует уже существующие базы, либо создает новые. А целевыми потребителями таких баз могут быть как мошенники, так и спамеры.
Алгоритмы защиты
Чтобы защититься от возможных проблем при использовании чат-ботов, Петр Щербаченко советует, с одной стороны, использовать надежные сервисы, а с другой — не передавать им данные от аккаунтов в соцсетях и других ресурсов. Не стоит делиться с чат-ботами и такой конфиденциальной информацией, как пароли, а также паспортные данные и данные банковских карт.
— Нужно понимать: всё, что вы передаете чат-ботам, так или иначе будет использовано, при этом не исключено, что против вас, — отмечает Антон Башарин. — Если конечный владелец бота вам неизвестен, лучше не сообщать сервису свои настоящие фамилию, имя, телефон, e-mail и другую персональную информацию. Если и делиться, то обезличенными данными.
Собеседник «Известий» советует очень внимательно относиться к входящим звонкам, сообщениям и письмам — будет полезно использовать разного рода спам-фильтры для почты и звонков. А Евгений Царев рекомендует не забывать про элементарную цифровую гигиену: не регистрироваться на сомнительных сайтах, а также использовать разные аккаунты и пароли для личной переписки и работы. Но что делать, если данные из чат-ботов всё-таки попали в Сеть?
— В первую очередь необходимо изменить пароли, связанные с утекшей учетной записью, а затем внести изменения на других сервисах, где использовался тот же логин и пароль, — говорит Петр Щербаченко. — Также можно обратиться к специалистам по кибербезопасности для помощи в защите своих персональных данных.
По словам Антона Башарина, если в Сети оказалась информация, связанная с коммерческой тайной, в большинстве случаев с этим ничего не сделаешь. Однако существуют способы, как нивелировать подобные потери. Они могут быть самыми разными — вплоть до формирования фальшивых данных. Эти данные можно отправить в чат-бот поверх реальных, тем самым создав дисбаланс: системе в этом случае будет сложно отличить реальные сведения от фальшивых, что снизит риск утечки.