Российские программисты обучили нейронную сеть анализировать мнения пользователей соцсетей о действии лекарств. Искусственный интеллект теперь может излагать пользовательский текст в медицинских терминах. Собранные в соцсетях данные помогут проанализировать побочные эффекты от препаратов на большой выборке.
«Не могу заснуть всю ночь», «слегка кружится голова» — эти и другие жалобы пользователей соцсетей теперь можно перевести на формальный медицинский язык — к примеру, «бессонница» и «головокружение» соответственно. Задача сопоставления упомянутого пользователем заболевания с конкретным медицинским термином называется нормализацией медицинских концептов.
Чтобы решить проблему сопоставления, программисты использовали обучение особого типа нейросетей (так называемых рекуррентныx нейронныx сетей) и семантическое векторное представление слов. В исследовании принимали участие ученые Казанского федерального университета, НИЦ «Курчатовский институт», Первого МГМУ им. И.М. Сеченова, Санкт-Петербургского отделения Математического института им. В.А. Стеклова РАН (ПОМИ РАН) и МФТИ. Исследования проводились на базах данных для английского языка. В ближайшие годы группа планирует перенести технологию на русский язык. Работа была поддержана грантом Российского научного фонда.
Для того чтобы осуществить корректное сопоставление, в программу загрузили медицинские тексты, после чего на их основе был сформирован специальный словарь. Работает это так: программа принимает большое количество текстов в качестве входных данных и сопоставляет каждому слову вектор.
— Мы берем готовые пользовательские комментарии из интернета, — пояснил научный сотрудник лаборатории нейронных систем и глубокого обучения МФТИ Валентин Малых. — Наша нейросеть — рекуррентная, то есть она способна запоминать. Не в прямом смысле слова, конечно, — нейросеть не мыслящий объект, но есть определенный механизм, с помощью которого она может зафиксировать текст. Мы загружаем в нейросеть тексты, а она сопоставляет их с терминами из Международной классификации болезней (МКБ). На выходе мы получаем вектора слов, где слова и термины, которые часто встречаются в похожем контексте, имеют схожие координаты. Таким образом нейросеть «сопоставляет» тексты пользователей и официальную медицинскую терминологию.
К примеру, если в нейронную сеть загрузить текст о том, что пользователя тошнит, нейросеть сопоставит эту жалобу с симптомом «тошнота». А если, к примеру, в машину загрузить текст о том, что у пользователя «бабочки в животе», то нейросеть просто откажется от этого варианта как возможного симптома, так как не найдет схожего по смыслу термина в МКБ.
Такая задача выходит за рамки простого сопоставления естественных выражений с элементами словаря: проблема в том, что сообщения пользователей могут вообще не пересекаться с медицинскими терминами.
— Важность работы определяется постоянно растущей потребностью в анализе текстовых данных, — считает старший научный сотрудник научно-исследовательской лаборатории медицинской информатики Казанского федерального университета Елена Тутубалина. — В нашем проекте используются методы анализа текстов и машинное обучение для извлечения полезной информации из доступных данных.
Научный сотрудник факультета информационных технологий и программирования Университета ИТМО Андрей Фильченков считает, что одна из очевидных проблем медицины и здравоохранения — коммуникационная, а проведение исследования может помочь ее решить.
— С алгоритмической точки зрения такая задача уже больше похожа на задачу перевода между разными языками (пусть и очень похожими). Решение этой проблемы лежит в области обработки естественного языка. В последние несколько лет для большинства задач в работе с текстами и речью наиболее успешные решения были основаны на применении глубоких нейронных сетей, которые позволяют выявлять сложные закономерности в данных. В частности, рекуррентные нейронные сети хорошо работают с последовательными данными, поскольку умеют находить связи в элементах с учетом контекста, в который они помещены, — отметил Андрей Фильченков.
По мнению авторов работы, непрерывное развитие и улучшение точности интеллектуального анализа текстов сообщений пациентов в социальных сетях окажет значительное влияние на понимание того, как те или иные лекарства воздействуют на организм.Также будет проанализирована информация о повторном назначении лекарств и понимании лекарственных эффектов в контексте других факторов, таких как одновременный прием разных препаратов, диеты и образ жизни.