Мысли при себе: как нейросеть избавит соцсети от токсичности

Интернет давно превратился в арену для ругани и издевок. Убрать оскорбления и резкие выражения из текста возможно с помощью детоксификации, которой займется искусственный интеллект (ИИ). Цель технологии — распознать некорректные выражения и заменить их более мягкой лексикой без потери смысла. В результате из «Какой тупой пост» может получиться «Мне кажется, этот пост глуповат». О разработке рассказал доцент центра искусственного интеллекта Сколтеха Александр Панченко на конференции AI Journey. «Известия» узнали, на каких фразах обучалась нейросеть и что ждет технологию в перспективе.

Негрубый ответ

Токсичность стала нормой в современном интернете, это способ общения, который присутствует везде, от комментариев под новостями до детских игровых чатов. Компании, прежде всего соцсети, по-разному борются с этой проблемой. В апреле 2021 года Instagram (принадлежит Meta, признана экстремистской в РФ) анонсировал запуск фильтра оскорбительных сообщений. Функция ориентирована в первую очередь на инфлюенсеров и знаменитостей, которые получают большое количество комментариев и писем в личку. В июне того же года Facebook (принадлежит Meta, признана экстремистской в РФ) объявила, что инструменты ИИ будут автоматически обнаруживать конфликты в группах и сообщать о них модераторам. Еще раньше «ВКонтакте» протестировала уведомления, которые отговаривают пользователя писать дурные комментарии. Также российская соцсеть предложила использовать вместо мата стикеры с персонажами.

Фото: ИЗВЕСТИЯ/Павел Волков

Тем не менее основной метод борьбы с токсичностью в соцсетях — удаление таких записей и блокировка пользователей. Детоксификация текстов с помощью ИИ может стать альтернативой прямому цензурированию, уверен Александр Панченко вместе с коллегами из Сколтеха. Принцип простой: технология предложит комментатору, который написал текст под действием эмоций, переформулировать свое высказывание. Например, в ответ на негативное мнение о музыкальном треке написать не «Ты что, тупой! Это шедевр», а «Нет, я считаю, что это шедевр!»

Стоит учитывать, что не только люди, но и машины грешат обидными замечаниям. Так, чат-боты, обученные на открытых данных (например, комментариях пользователей), иногда норовят оскорбить клиентов. По мнению Александра Панченко, подобные выпады чат-ботов сводят на нет усилия компаний по инновациям, так как напрямую разрушают репутацию организаций.

Не удалить, а переписать

Вычистить негатив из текста можно несколькими способами. Главная задача — сохранить смысл высказывания, сделать его грамматически корректным и естественным по звучанию.

Один из авторов проекта, Дарина Дементьева, приводит в качестве примера два метода: Delete и Retrieve. Первый основан на простой идее, позаимствованной из СМИ: часто можно увидеть, как матерные слова «запикиваются» во время телепередач или закрываются звездочками в статьях. По такому же принципу можно «скрыть» мат, удалив его из сообщения. Для этого потребуется словарь наиболее встречаемых ругательств. Сверяясь с ним, искусственный интеллект исключит грубое или нецензурное слово.

Другой способ основан на гипотезе, что если взять большой корпус нетоксичных текстов, то в нем можно будет найти нетоксичные предложения, в какой-то мере похожие по содержанию на оригинальное токсичное. Например, высказывание «Ты что, идиот, сам не видишь» может выглядеть так: «Ты что, уважаемый, сам не видишь».

Фото: ИЗВЕСТИЯ/Кристина Кормилицына

Исследователи из Сколтеха предложили подход ParaGedi. В отличие от предыдущих он не делал точечные замены, а переписывал всё предложение. Сначала ParaGedi научился перефразировать высказывание, обучившись на большом количестве предложений, одинаковых по смыслу, но отличающихся по форме. Затем — создавать текст в заданном стиле (токсичный или нетоксичный). Обучение прошло на большом непараллельном корпусе текстов, размеченных по токсичности.

Благодаря этим двум компонентам ученые смогли обойтись без параллельного корпуса текстов. Что это значит? Параллельным корпусом называют оригинальный текст и его перевод. Например, это один и тот же материал на английском и на китайском, на церковно-славянском и на современном русском или, допустим, на жаргоне и в нейтральном стиле. Однако корпуса «токсичный-нетоксичный» просто не существовало; если бы он был, работа по детоксификации шла намного проще. Поэтому следующей задачей российских исследователей стало его создание. В статье ParaDetox они представили технологию, которая позволяет сделать это быстро и дешево.

Но сперва нужно было накопить выборку. Источником оскорбительных фраз на русском стали посты из «Одноклассников», «Пикабу» и Twitter.

Фото: Global Look Press/news.ru/Artem Sobolev

— В нашей работе мы остановились на простом подмножестве токсичностей, которые точно могут быть переформулированы с точки зрения стиля. Например, высказывание вида «Люди нации Х — не очень хорошие» невозможно заменить эквивалентным по содержанию предложением, которое бы не было токсичным. Поэтому мы удаляли из нашего датасета подобные высказывания, — уточнил Александр Панченко.

Далее за дело брались пользователи, привлеченные через краудворкинг (сервисы, позволяющие получать деньги за выполнение небольших заданий). Человек видел токсичный текст и должен был перефразировать его. Он мог отказаться от правок, если считал, что это невозможно сделать. Затем проводились две проверки. Исследователи смотрели, является ли новое предложение эквивалентным по смыслу и стало ли оно нетоксичным. Если нет, то контент отсеивался. Только после двух успешных проверок пользователь получал оплату за работу. В итоге для английского языка было собрано около 12 тыс. уникальных токсичных предложений с 1–3 парафразами. Для русского языка — порядка 8,5 тыс. уникальных предложений с таким же числом замен. Стоимость создания подобного корпуса и для английского, и для русского языка не превысила $1 тыс.

Испытать инструмент пользователи могут с помощью телеграм-бота @rudetoxifierbot. Вот примеры облагороженных им фраз:

«****** у тебя чувство юмора, конечно» меняется на «Плохой у тебя юмор, конечно» (токсичность снизилась с 0.981 до 0.616.);

«Силовые структуры обязаны реагировать и наказать уродов!!!» преобразуется в «Силовые структуры обязаны реагировать и наказать преступников» (токсичность изменилась с 0.951 до 0.014.);

Из «Пошли вы, ****, все на *** со своим коронавирусом» получается «Отстаньте со своим коронавирусом» (токсичность изменилась с 0.997 до 0.838).

А вот фраза «какой-то осел написал» остается без изменений. Бот дает следующее пояснение: Похоже, входной текст не токсичный. Уровень токсичности 0.010.

Фото: ИЗВЕСТИЯ/Михаил Терещенко

Есть два варианта использования такой технологии, отмечает Александр Панченко в беседе с «Известиями». Первая — это постмодерация текста, созданного искусственным интеллектом. Подобные языковые модели обычно обучаются на текстах из интернета и имеют склонность к «плохим манерам». В этом случае произойдет автозамена грубого комментария.

— Использование же технологии для перефразирования сообщений, написанных людьми, на мой взгляд, может быть только добровольным. Мотивация — помощь в самоконтроле. Многие люди отдают себе отчет в том, что токсичные тексты, написанные быстро и под действием эмоций, значимо вредят их репутации. Однако в моменте написания они могут быть просто не в состоянии осознать это, подобная подсказка может быть полезным призывом «глубоко выдохнуть» и не писать сообщений, которые будут вредить репутации человека в будущем, — говорит эксперт.

Куда дальше

Будущее технологии — в кроссязычной и мультиязычной детоксификации. Именно над этим сейчас работают исследователи Сколтеха. Инструмент позволит перевести токсичный текст с одного языка на другой, устранив при этом резкие высказывания. Подобные системы легко и дешево обучить, убежден Александр Панченко.

Исследователь привел и другие варианты обработки текста с помощью ИИ. Например, перевод с канцелярского (формального) языка на «простой» язык, доступный не только для юристов. Сюда же можно отнести перевод документов с большим содержанием специальных терминов (медицинские, химические и другие).

Другое направление — перенос древних текстов (церковных и прочих) на язык, понятный современнику.

— Кроме того, рекреационный перенос стиля (для развлечения): с обычного языка на язык субкультуры или предметной области (на язык стартаперов, маркетологов, философов, тот или иной вид жаргона и т.п.). Подобным рекреационным переносом стиля на жаргонный язык занимался Лев Гумилев, — заключил собеседник «Известий».