Опасные связаны: алгоритм найдет источник запрещенной информации
Источник распространения экстремистской и другой запрещенной информации в социальных сетях теперь можно будет вычислить за считаные минуты. Алгоритм, созданный российскими учеными, позволяет получить графическую картинку, на которой отображены основные каналы распространения нежелательного контента. На ней также наглядно видно, кто простой потребитель, а кто — активный распространитель. Результативность работы алгоритма доказали экспериментально, использовав сеть «ВКонтакте».
Схема распространения
С появлением соцсетей пользователи интернета стали не только получателями информации, но и ее источниками. Люди часто делятся картинками и текстами с помощью репоста или сообщения. Однако зачастую эти данные представляют собой нежелательный контент, связанный с деятельностью запрещенных организаций, призывом к опасным для жизни или уголовно наказуемым действиям. Поэтому перед учеными была поставлена задача — найти методы выявления каналов и источников распространения подобной информации.
Конечно, можно просто собрать все репосты и найти самый первый по времени выкладывания его в Сеть. Однако на практике реализовать такой подход крайне сложно, он требует огромных ресурсов. Ученые из Санкт-Петербургского института информатики и автоматизации РАН предложили иной вариант — сбор сведений о пользователях или группах, между которыми осуществлялся репост.
Социальную сеть можно представить как совокупность взаимосвязанных объектов — пользователей, сообществ, постов. Они так или иначе связаны между собой: люди могут находиться в друзьях или в одной группе, профиль пользователя содержит ссылки на родственников и т.д. Эти данные собираются и помещаются во временное хранилище, а затем удаляются из него согласно законам РФ.
— Допустим, пользователь (приемник) скопировал пост из сообщества (источник) на свою страницу, — рассказала научный сотрудник лаборатории проблем компьютерной безопасности СПИИРАН Лидия Виткова. — Мы разработали алгоритм, находящий все записи пользователей или групп, у которых появлялся данный репост. Далее наш алгоритм строит схему объектов, между которыми происходил обмен постами.
Ключевая точка
Описать созданный учеными алгоритм можно следующим образом. При передаче информации от источника распространения далее можно наблюдать факт «затухания» или искажения первоначальной версии. Это можно использовать, чтобы двигаться по цепочке обратно — от скопированного поста к оригинальному.
Кроме того, разработчики взяли ключевые слова для оценки целевой направленности создания страницы или профиля. Например, в группе, посвященной деятельности экстремистской организации, будут посты исключительно на данную тему. В таком сообществе рассчитываемый по особому методу процент ключевых слов составит 100%. На странице же пользователя или другой тематической группы будут также картинки или сообщения на иные темы, следовательно, процент ключевых слов уменьшится. По его изменению можно двигаться по цепочке репостов вверх или вниз.
Однако собранный массив данных человек самостоятельно проанализировать не способен. По сути, это огромный неупорядоченный набор описаний объектов и связей между каждым из них.
— Для облегчения визуального анализа была разработана графическая схема представления собранных данных, — сказал ведущий научный сотрудник лаборатории проблем компьютерной безопасности СПИИРАН Андрей Чечулин. — Она представляет собой множество соединенных между собой точек-объектов, обозначенных разным цветом в зависимости от уникальности распространяемого контента. Например, красным обозначаются скопированные много раз посты, а ярко-зеленым — оригинальные.
Чтобы проверить результативность созданного алгоритма, был проведен эксперимент на базе соцсети «ВКонтакте». В качестве исходных данных выбрали ряд сообществ и пользователей, тем или иным образом связанных с поклонением Кришне (одна из форм бога в индуизме). В итоге за семь дней была получена целостная картина информационных потоков между объектами соцсети. Из него легко можно было вынести данные о том, какие группы и пользователи поставляют уникальный контент, а какие просто копируют его. Также на графике было наглядно видно, кто простой потребитель, а кто — активный распространитель.
— В принципе репост сообщений является явным каналом распространения информации, который легко выявить и проанализировать. При этом он позволяет устанавливать источники и пользователей, осуществляющих передачу, — отметил декан факультета компьютерных технологий и информатики СПбГЭТУ ЛЭТИ Иван Холод. — Анализ осложняется большим количеством источников и разветвленностью путей распространения. Кроме того, часть информации передается через личные сообщения пользователей, которые являются закрытыми согласно законам РФ. «Взломать» переписку можно только в особых случаях. По этой причине интересен также анализ не только репостов, но и, например, комментариев, в которых пользователь выразил свое мнение и, возможно, изменил смысл информации.
Ученые рассчитывают, что полученные результаты позволят бороться с информационными воздействиями как со стороны террористических и экстремистских организаций, так и криминальных структур, которые используют соцсети как площадку для вовлечения новых адептов. Работа проводится в рамках президентской программы исследовательских проектов Российского научного фонда.
В дальнейшем исследователи планируют расширить разработанные алгоритмы методами искусственного интеллекта для автоматического распознавания распространяемой информации.