Перейти к основному содержанию
Реклама
Прямой эфир
Происшествия
Силы ВКС РФ сбили за ночь семь БПЛА над Смоленской областью
Происшествия
Губернатор Самарской области сообщил об уничтожении шести БПЛА над регионом
Мир
Посол РФ рассказал о поставках удобрений в Перу
Армия
ВС России уничтожили «Ланцетом» две гаубицы ВСУ в Сумской области
Мир
Песков назвал Украину инструментом Запада для нанесения поражения России
Армия
Силы ПВО за ночь уничтожили 44 украинских БПЛА над регионами РФ
Армия
Расчеты РСЗО «Торнадо-С» нанесли удар по пункту временной дислокации ВСУ
Общество
Мобильные операторы выявили новую схему взлома аккаунтов на «Госуслугах»
Общество
Россиянам рассказали о повышении пенсий с 1 января
Мир
Макрон призвал Россию принять участие в коллективной деэскалации
Общество
«Народный фронт» доставил гуманитарную помощь в освобожденный от ВСУ Украинск
Мир
Песков заявил о большем вовлечении стран Запада в конфликт на Украине
Мир
Посол РФ рассказал о позиции Перу по антироссийским санкциям
Армия
Минобороны показало кадры работы расчетов «Панцирь-С» в курском приграничье
Мир
WP сообщила об одобрении Байденом поставок Украине противопехотных мин
Здоровье
Онколог предупредил о связи хеликобактерной инфекции с раком желудка
Экономика
Более половины россиян сообщили, что откладывают деньги на будущее своих детей
Мир
Песков сообщил об отсутствии контактов пресс-секретарей лидеров РФ и США

Какие наши буквы: ученые узнают возраст по постам в соцсетях

В Курчатовском институте разработали методику определения демографических характеристик авторов текстов в интернете
0
Фото: Depositphotos
Озвучить текст
Выделить главное
Вкл
Выкл

Интеллектуальную компьютерную модель для анализа текстов, публикуемых в социальных сетях, создали в Курчатовском институте. Изучение написанного таким способом позволяет достаточно точно определить истинный возраст автора, даже если он пытается его скрыть. Эта работа является частью широкого спектра исследований, ведущихся в Курчатовском комплексе НБИКС-природоподобных технологий. Ранее ученые уже разработали механизм определения пола автора текста. Теперь они научились определять и возраст. На очереди — другие составляющие авторского профиля — такие как образование и профессия.

Строгий профиль

В мировой науке сейчас активно развивается междисциплинарное направление под названием authorship profiling, «автороведение». Его представители — специалисты по анализу данных, лингвисты, психологи — пытаются с той или иной мерой достоверности вычислить индивидуально-личностные характеристики автора текста. Для этого ученые строят математические модели на основе корреляций между численными значениями различных параметров текста и характеристик автора. Создать подобные модели позволяет машинный анализ огромного массива текстов из интернета, снабженных открытыми авторскими профилями. Однако для русскоязычных текстов это научное направление только начинает создаваться.

— Наша задача — это разработка методики диагностирования возраста участника интернет-коммуникации на основе анализа количественных параметров его текстов, — пояснил ведущий научный сотрудник Курчатовского комплекса НБИКС-природоподобных технологий Александр Сбоев. — Эти исследования идут в рамках гранта Российского научного фонда.

Разработки ученых в рамках проекта позволят с высокой степенью достоверности определить демографические характеристики пишущего, если он задумает подделать свою письменную речь, чтобы скрыть истинный возраст.

— Процесс развития интернет-коммуникаций неизбежно сопровождается увеличением уровня киберпреступности, — отметил начальник группы нейроморфных алгоритмов Курчатовского комплекса НБИКС-природоподобных технологий Роман Рыбка. — Интернет в качестве средства для поиска новых жертв и установления контакта с ними используют и мошенники, и люди с расстройствами психики, и вербовщики из террористических организаций. 

Естественно, киберпреступники не заинтересованы в распространении данных, которые бы помогли их идентифицировать, поэтому в своих персональных профилях и переписке они искажают сведения о себе, поэтому очень важным ключом к информации о них становится анализ текстов.

На сколько выглядишь

В Курчатовском институте был разработан и проанализирован широкий круг математических моделей, построенных на множестве комбинаций признаков и использующих различные варианты обучения. Созданные в результате алгоритмы позволяют с точностью около 80% определить возрастную группу автора, который пытается выглядеть старше или моложе своих лет.

— Решение задачи определения возраста автора текста становится всё более актуальным с ростом трафика текстовых сообщений в социальных сетях и на форумах, — считает Александр Сбоев. — Системы на основе таких методов смогут решить многие проблемы социального мониторинга, проводить анализ активности различных возрастных групп граждан по остросоциальным темам в Сети.

Полученные учеными результаты послужат основой работы над более фундаментальной проблемой — оценкой вероятности возникновения различных социально опасных событий, например, терактов.

ЖЖ в «лаборатории»

Исследования в Курчатовском комплексе НБИКС-природоподобных технологий ведутся совместно с лингвистами Воронежского государственного педагогического университета. Заведующая университетской лабораторией теоретической и прикладной идиолектологии Татьяна Литвинова рассказала «Известиям», что базовым лингвистическим материалом для исследования послужил корпус блогов «Живого журнала».

— Этот ресурс был выбран нами потому, что посты в ЖЖ, как правило, имеют больший объем в сравнении с другими электронными жанрами — такими, как твиты или посты в Facebook, — а также из-за того, что в ЖЖ пишут люди всех возможных возрастов, от школьников до пенсионеров.

Для составления корпуса текстов ученые отбирали тех авторов, которые указывали свой возраст в профиле. Конечно, кто-то из них может и исказить свой возраст, но мировые стандарты исследований в области диагностирования личности автора текста, по словам Татьяны Литвиновой, исходят из того, что подавляющее большинство авторов указывает свой возраст в профиле все-таки верно.

Разработанные в ходе проведенных исследований методы и инструменты применимы также и в системах анализа профиля автора текста при судебно-лингвистической экспертизе или формировании портрета автора анонимных писем. Они могут использоваться в качестве системы определения намеренного искажения данных в социальных профилях пользователей или дополнительного инструмента при формировании психологического профиля автора. По мнению Александра Сбоева, предлагаемые подходы могут найти применение и в системах таргетированной рекламы — для более точного определения возрастных групп пользователей.

 

Читайте также
Прямой эфир