Пол человека научились определять по постам в интернете
Пол пользователя интернета по опубликованным им текстам научились определять математики национального исследовательского центра «Курчатовский институт». С помощью лингвистов Воронежского государственного педагогического университета (ВГПУ) они разработали методы машинного обучения и компьютерного моделирования, позволяющие решать эту нетривиальную задачу. Это удается сделать даже в случае, когда автор текста пытается представиться читателю не тем, кто он есть на самом деле.
— Давно назрела необходимость глубокого анализа информации, которая циркулирует в социальных сетях, рассказал «Известиям» руководитель проекта, кандидат физико-математических наук Александр Сбоев. — Полученные нами результаты и методики будут использованы в том числе для защиты детей от вредной информации и борьбы с террористическими угрозами.
По словам руководителя проекта, при обнаружении источников вредоносной информации соответствующие службы проводят их комплексный анализ. Важный компонент этой работы — достоверная идентификация пола автора. То же касается и задачи установления личностей террористов по их переписке. Поэтому силовые структуры — один из потенциальных пользователей результатов исследования. Другое возможное применение связано с бизнесом: достоверное распознавание пола участника интернет-коммуникации поможет при проведении маркетинговых исследований и таргетировании рекламы.
Исследование проводится с использованием суперкомпьютеров. С помощью нейросетей и методов искусственного интеллекта компьютер анализирует авторские тексты по ряду грамматических и стилистических признаков. Определяются закономерности, позволяющие установить пол автора.
— Достоинство нейросетей и методов искусственного интеллекта в том, что они извлекают из текста не 1–2 признака, а работают с очень сложными комбинациями свойств, имеющими корреляцию с полом автора. По нашим оценкам, мы достигли 86% точности в определении пола по тексту, — утверждает Александр Сбоев. — В русском языке многие слова имеют родовую принадлежность, но мы специально не опираемся на такие вещи, как окончания мужского или женского рода. Их легко имитировать.
Следующая задача проекта, по словам Александра Сбоева, — научить машину определять по текстам возраст автора. Это куда более сложная задача: вариантов тут в отличие от пола куда больше.
Руководитель лаборатории корпусной социолингвистики и автороведения ВГПУ, кандидат филологических наук Татьяна Литвинова рассказала «Известиям», что лингвисты, работая над этим проектом, обнаружили ряд интереснейших закономерностей, позволяющих отличить мужской текст от женского. Для письменной речи мужчин характерно большее лексическое разнообразие — значительное число уникальных слов. Кроме того, мужчины используют большее количество предлогов. Для женщин же характерно употребление значительного числа местоимений, особенно личных. Подобные различия наблюдаются не только у носителей русского языка, но и у мужчин и женщин, разговаривающих на английском, греческом и других европейских языках. Психологи называют причину таких различий report/rapport: для мужчин важнее донести информацию (от англ. report — сообщать), для женщин же — передать отношения (rapport). Подобные признаки речи почти невозможно имитировать, считает Татьяна Литвинова.
Лингвисты изучают влияние и других характеристик личности на проявление пола в тексте. Например, в одном из экспериментов выяснилось, что тексты праворуких женщин и мужчин достаточно близки по своим характеристикам, тогда как у леворуких они разнятся очень сильно.
Совместное исследование математиков Курчатовского института и лингвистов ВГПУ поддержано Российским научным фондом (РНФ): на проект выделяется 4,2 млн рублей ежегодно. Работы начались в 2016 году, и до их завершения остается чуть больше года.