Обученье — вот чума: почему тренировка нейросетей может быть опасной

Можно ли показывать искусственному интеллекту реальные документы и персональные данные
Сергей Гурьянов
Фото: ИЗВЕСТИЯ/Дмитрий Коротаев

На прошлой неделе стало известно, что российское правительство собирается проверять модели искусственного интеллекта, которые обучили на государственных данных, на предмет угрозы безопасности государства и обороны страны. В этой новости интересно само допущение обучения нейросетей на госданных. Вопрос, с какой информацией работать, — не праздный: использование в этих целях реальных документов, персональных данных и чувствительной для компании или государства информации может привести к серьезным последствиям. Как сейчас регулируется обучение искусственного интеллекта и почему за этим нужно внимательно следить, — разбирались «Известия».

Будут ли обучать ИИ на госданных

Правительство РФ в период с 2025 по 2026 год планирует провести научно-исследовательскую разработку принципов анализа моделей ИИ, которые обучены на госданных. Затем будет внедрена программа, которая будет анализировать такие модели. Планируется, что пять систем к 2030 году получат подтверждение о «допустимости безопасного использования». На эти цели до 2030 года выделят 8,1 млрд рублей, а за реализацию проекта отвечает ФСБ.

О каких государственных данных идет речь, в Минцифры не сообщили, заявив лишь, что будут «поддерживать развитие ИИ, в том числе в рамках нового нацпроекта».

Фото: ИЗВЕСТИЯ/Эдуард Корниенко

А до этого вице-премьер Дмитрий Григоренко поручил Минцифры совместно с Ассоциацией больших данных (АБД) проработать порядок предоставления бизнесу доступа к государственным данным. Среди них — информация о паспортах, трудовой деятельности граждан и номера телефонов. Пока, по данным АБД, речи об обучении нейросетей на этих данных не идет, но этот шаг может быть следующим.

Эксперты уже выразили опасения в связи с возможными утечками госданных при обучении нейросетей.

При этом буквально на днях президент Владимир Путин подписал два федеральных закона, ужесточающих ответственность за утечки. Теперь санкции для компаний могут достигать 15 млн рублей. Кроме того, возможны оборотные штрафы в зависимости от совокупной годовой выручки компании за предыдущий год. А в Уголовный кодекс введена статья 272.1, которая касается незаконного хранения и распространения персональных данных.

Почему опасно обучать ИИ на реальных данных

Главный архитектор систем искусственного интеллекта исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ Роман Душкин отмечает, что обучение на реальных документах может быть плохой идеей, потому что они так или иначе подгружаются в систему искусственного интеллекта.

Фото: ИЗВЕСТИЯ/Сергей Лантюхов

— Многие исследования показывают, что данные внутри нейросети сохраняются, и при использовании тех или иных техник — будь то prompting или генеративно-состязательные атаки — их можно достать, — сказал он «Известиям».

Архитектор ИИ-платформы AiLine Softline Digital (ГК Softline) Дмитрий Федотов объясняет, что некоторые детали можно распознать по косвенным признакам благодаря грамотному построению запросов к генеративному ИИ. А иногда это удается и случайно.

Член комитета Госдумы по информационной политике, информационным технологиям и связи Антон Немкин замечает, что для минимизации этих рисков необходимо соблюдать строгие меры безопасности и этические стандарты: данные должны быть анонимизированы и зашифрованы перед обучением модели.

— И важно внедрять механизмы, предотвращающие «запоминание» конфиденциальной информации, и разрабатывать методы защиты от атак на приватность, — заявил депутат.

Фото: ИЗВЕСТИЯ/Сергей Лантюхов

Руководитель backend-отдела ИТ-компании SimbirSoft Сергей Галеев указал, что и крупные игроки, и небольшие стартапы стараются использовать для обучения ИИ максимально релевантные и объемные датасеты: открытые данные из интернета, собственные базы компании — от истории покупок до поведения пользователей на сайте, а также закрытые данные, полученные по договорам от партнеров или клиентов.

— Однако компании обычно скрывают, какую конкретно информацию задействовали для обучения коммерческих ИИ-систем, ссылаясь на коммерческую тайну и риски конкуренции, — сказал он «Известиям».

Руководитель отдела анализа данных и машинного обучения Naumen Татьяна Зобнина, впрочем, уверена, что ни одна серьезная компания не возьмется нарушать ни лицензионные соглашения, ни законодательство в области персональных данных, ни договор с заказчиком. Ведь всё это приведет к репутационным и финансовым рискам.

Как можно обучить ИИ работе с документами

Периодически обвинения в том, что нейросети обучают на персональных данных, звучат в адрес разных компаний. Так, недавно с этими обвинениями столкнулся крупный стартап Dbrain. Утверждалось, что компания якобы не только обучает свои программы на реальных паспортах граждан, переданных микрофинансовыми организациями, но также использует эту информацию для работы сервисов по автоматизированной проверке документов краудсорсеров, то есть живых людей, которые за «копейки» получают чужие паспорта на проверку. В Dbrain обвинения в свой адрес отвергли.

Фото: ИЗВЕСТИЯ/Сергей Лантюхов

— Хотим подчеркнуть, что эта информация является недостоверной и не соответствует действительности. Мы строго соблюдаем все стандарты обработки персональных данных, в том числе требования № 152-ФЗ, и регулярно проходим аудиты на соответствие как от наших заказчиков, так и от независимых организаций. Это одна из самых приоритетных составляющих нашей работы, — заявил «Известиям» основатель компании Dbrain Алексей Хахунов.

Между тем, говорит Роман Душкин, краудсорсинг на рынке действительно активно применяется многими компаниями для разметки данных перед обучением ИИ. В последние годы появились отдельные платформы, краудсорсинг вырос в большую индустрию и подотрасль в этой области.

— Кому попадают данные с этих платформ — вообще неизвестно. Поэтому служба информационной безопасности на предприятиях должна тщательно отслеживать, как обучаются модели и куда могут передаваться данные. В крупных российских компаниях, например в «Росатоме», за этим очень внимательно следят, — подчеркнул Роман Душкин.

Дмитрий Федотов отмечает, что у промышленных компаний есть свои требования и стандарты в области информационной безопасности, которым должен соответствовать внедряемый подрядчиком продукт. И всегда его проверку проводит служба информационной безопасности.

Фото: ИЗВЕСТИЯ/Павел Волков

Алексей Хахунов добавил, что его компания при обучении моделей искусственного интеллекта использует либо синтетические документы, то есть полностью сгенерированные, либо работает в «контуре» заказчика, когда продукт полностью интегрирован в инфраструктуру клиента и данные не покидают ее пределы. Так, антифрод-система Dbrain, которая должна распознавать подделки среди документов, обучается на синтетических данных со сгенерированными искусственными документами, имитирующими реальные, а также непосредственно на поддельных документах, которые присылают заказчики, заявил основатель компании.

Гендиректор Smart Engines, доктор технических наук Владимир Арлазаров рассказал, что компания использует специально созданные модели поддельных документов на реальном носителе. Такую подделку фотографируют — и уже на основе изображения происходит генерация виртуальных объектов для обучения нейросети.

— Такое решение показывает прекрасные результаты и при этом находится полностью в рамках закона. Единственная задача любой антифрод-системы — распознавать сгенерированные данные, которыми подменили реальные, так что синтез информации отражает саму логику мошенничества. В таком случае и обучать ИИ необходимо именно на синтетических, как бы «поддельных» образцах, — сказал Владимир Арлазаров.

Как регулируется обучение ИИ сейчас

Профессор кафедры философии, онтологии и теории познания, ведущий эксперт лаборатории цифровых технологий в гуманитарных науках НИЯУ МИФИ, д. ф. н. Катерина Тихомирова, однако, полагает, что синтезированные данные подходят для тренировки модели лишь на первых этапах разработки. Далее придется использовать настоящие, считает собеседница «Известий».

Фото: ИЗВЕСТИЯ/Дмитрий Коротаев

По ее словам, данные для обучения не заканчиваются: проблема в том, что нет достаточного количества размеченных текстов, а также появляются этико-правовые ограничения доступа к новой информации.

— Если сферу не будут регулировать на государственном уровне, работу будут сопровождать скандалы о сливах данных. Первый закон о защите личных данных уже был принят. Нужен еще один или поправки к первому о запрете передачи информации компаниями-разработчиками ИИ-моделей, — считает Катерина Тихомирова.

При этом она уверена, что создание «русского суверенного ИИ» возможно лишь при обеспечении государством доступа к данным и оплате труда разметчиков-разработчиков.

Академический руководитель магистерской программы «Анализ данных в девелопменте» факультета компьютерных наук НИУ ВШЭ Мария Горденко отмечает, что сейчас в стране есть лишь рекомендации и законодательные инициативы по обучению нейросетей. В частности, в 2021 году был принят Кодекс этики, в котором подчеркивается, что акторы ИИ должны соблюдать законодательство РФ, а также использовать качественные и репрезентативные наборы данных, полученные без нарушения закона. Пока его исполнение не является обязательным. Но сейчас уже ведется разработка государственных стандартов в области ИИ, говорит Роман Душкин. По его мнению, для критических областей такие стандарты должны стать обязательными.

Фото: ИЗВЕСТИЯ

Антон Немкин отмечает, что Россия сейчас изучает опыт ЕС и Китая в регулировании ИИ-технологий. Новые правила должны быть отражены в Цифровом кодексе, над которым работает Минцифры. По мнению депутата, регулирование должно установить минимальные стандарты по использованию данных для обучения нейросетей, обеспечению их безопасности и правах пользователей в части контроля за информацией. Однако проверка потребует технических решений и международного сотрудничества, заметил он. Антон Немкин также выступил за разработку механизмов сертификации компаний, разрабатывающих нейросети, и создание независимых регулирующих органов и структур.

Однако Владимир Арлазаров замечает, что пока даже законы «О персональных данных», «О коммерческой тайне» и «Об основах охраны здоровья граждан» компании соблюдают не всегда, поэтому и о дополнительной регуляции говорить сегодня нет смысла.

— К тому же любой специальный закон о правилах обучения ИИ через несколько лет после принятия неизбежно устареет, ведь технологии не стоят на месте, — заявил собеседник «Известий». — Чтобы снизить риски, связанные с безопасностью информации, важно не принимать новые законы, а соблюдать и модернизировать действующие.

В то же время Алексей Хахунов из Dbrain уверен, что рынок «стремится к максимальной прозрачности».