Тест на контекст: фейки в соцсетях зафиксируют в 10 раз быстрее
Фейковые новости о коронавирусе, экстремистские статьи, порнография и другие запрещенные материалы из социальных сетей будут обнаружены и заблокированы силовыми структурами в 10 раз быстрее. Произойдет это благодаря новой отечественной системе анализа текстов, способной не только найти определенные слова в группах и на страницах пользователей, но и проанализировать характер их употребления. Кроме того, разработка будет доступна в виде мобильного приложения. Ее точность составит 98%. Внедрение системы возможно уже в ближайшие месяцы.
Охота за фейком
В соответствии с подписанным Владимиром Путиным законом о борьбе с недостоверной информацией Роскомнадзор сможет ускорить процесс ограничения доступа к ресурсам, которые ее размещают. Для этого государству потребуется более быстрая система поиска подобных текстов.
Вариант решения проблемы предложили ученые ФИЦ «Информатика и управление» РАН и МГУ им. М.В. Ломоносова. Об этом «Известиям» рассказали в Российской венчурной компании (оператор центров компетенций Национальной технологической инициативы (НТИ). Разработанная система динамической контентной фильтрации предназначена для глубинного анализа текста. Она способна не только найти в нем определенные слова, но и проанализировать характер их употребления, оценить общую направленность материала, в том числе обнаружить фейковые новости о коронавирусе.
— На первом этапе работы с помощью экспертов мы составили большую выборку текстов (десятки тысяч образцов), которая содержала материалы различных нежелательных направленностей. В частности, в них была реклама наркотических веществ, информация экстремистского и порнографического характера, а также характерная для религиозных сект и сообществ, поддерживающих суицид, — рассказал руководитель проекта в Центре хранения и анализа больших данных НТИ при МГУ им. Ломоносова, заведующий отделом «Интеллектуальные технологии и системы» ФИЦ «Информатика и управление» РАН Илья Соченков. — Выделенные из них с помощью морфологического, синтаксического и семантического методов анализа специфические слова, словосочетания и фразы позволили нам составить множество классификационных признаков для каждой искомой тематики.
Затем полученные данные использовались разработчиками при обучении различных моделей классификаторов для динамической контентной фильтрации. Они включали в себя системы на основе нейронных сетей и математических методов определения тематической значимости.
По словам ученых, примененный ими комплексный подход позволил довести точность классификации текста до 98% и заметно увеличить скорость данного процесса. В будущем это должно открыть возможности для использования разработки контролирующими органами.
Сетевой досмотр
Одним из основных применений технологии анализа текстов может стать глубокий мониторинг социальных сетей. Осуществляться он будет с помощью специальных ботов (или краулеров), главной целью которых станет постоянный серфинг по ресурсам для нахождения представляющих угрозу аккаунтов, пользовательских групп, объявлений и комментариев к ним. Согласно мнению ученых, для реализации такого подхода потребуется создание отдельного центра обработки данных. Значительные вложения в проект будут оправданы заметным ростом возможностей по раннему обнаружению опасной информации.
— Сейчас для нахождения нежелательного контента надзорные органы используют открытые поисковые сервисы (такие как «Яндекс» или Google). Но они не всегда могут зафиксировать информацию в закрытых группах социальных сетей, для доступа к которым необходима регистрация, — пояснил Илья Соченков.
По его словам, новая система будет способна искать данные в любых сообществах и оперативно отслеживать их перемещение по Сети, ускоряя работу контролирующих органов как минимум в 10 раз.
При этом речь о полной замене экспертов по оценке контента нейросетями не идет. Классификаторы будут проводить лишь первичную глобальную фильтрацию и смогут качественно выявлять потенциально опасные страницы. При этом окончательные выводы об их содержании продолжат делать специалисты.
Также на основе новой системы планируют создать коммерческие программы, способные работать контент-фильтрами для детей и сотрудников компаний. Они будут в режиме реального времени оценивать каждую вновь открытую страницу браузера и при необходимости отправлять сообщение об опасном содержании либо полностью блокировать к ней доступ.
— Семантический анализ размещенных в интернете текстов с помощью искусственного интеллекта применяется уже довольно давно (например, он используется для мониторинга упоминаний различных проектов в СМИ), — отметил директор по развитию технологических конкурсов Up Great в РВК Юрий Молодых. — Но в последние годы точность работы нейросетей значительно выросла. Это может способствовать их подключению для решения более ответственных задач — в том числе и тех, которыми занимаются правоохранительные структуры.
Силовой аспект
Представители силовых ведомств отнеслись к исследованию с осторожностью. В частности, источник «Известий» считает, что система сможет работать лишь с открытым сегментом Рунета, сайты которого индексируются поисковиками.
— Нужно учитывать, что незаконные группы (например, террористические или хакерские) глубоко спрятаны в Сети и присоединиться к ним можно лишь по приглашению, — отметили в спецслужбе. — Предлагаемый сервис, скорее всего, не выявит самого существования таких сообществ, и поэтому результат его использования может свестись к обычному «осуждению отдельных лиц за лайки».
По словам эксперта, к решению данной задачи могут быть привлечены дополнительные силы государственных служб, у которых в таком случае не хватит времени на рассмотрение действительно важных для обеспечения безопасности материалов.
Альтернативное мнение «Известиям» предоставили в компании «Интернет-розыск», которая специализируется на решениях в сфере безопасности.
— Новое программное обеспечение должно эффективно работать против распространения запрещенного контента, будь то фейковые статьи, пропаганда наркотиков или порнография, — сообщил генеральный директор компании Игорь Бедеров. — Однако при этом следует помнить, что идентификация подобных материалов в Сети должна происходить не только за счет глубокого анализа текстов, но и посредством идентификации объектов на фото и в видеоматериалах, использующихся нарушителями. Об этом ученым также следовало бы подумать.
По словам эксперта, после появления системы ей придется конкурировать с успешными аналогами. В частности, к ним относится так называемый «Демон Лапласа» (разработка Евгения Венедиктова). Благодаря ее использованию в 2019 году даже удалось предотвратить подготовку террористического акта, который мог произойти в одном из учебных заведений Адыгеи.
Ожидается, что внедрение нового продукта может произойти уже в ближайшие месяцы, — при условии получения дополнительных инвестиций в объеме 50–60 млн рублей. При этом ученые готовы предложить использование разработки Роскомнадзору. Однако в федеральной службе отказываются комментировать возможность ее применения, поскольку оценка системы еще не была проведена.