Записано машинально: почему роботы пока не могут заменить журналистов
Разговоры о том, что журналистов скоро заменят роботы, поднимаются регулярно примерно с 1966 года. Тогда появилась ELIZA — первая программа, которая могла поддерживать простенький диалог. Но это почему-то до сих пор не случилось и, как считает человек — корреспондент «Известий» Игнат Шестаков, вряд ли скоро случится.
Очередной виток истерии по поводу роботов-журналистов произошел в 2014 году, когда издание The Los Angeles Times первым опубликовало новость о землетрясении в Калифорнии. Текст новости написала программа Quakebot, созданная программистом издания.
С тех пор роботы, пишущие новости, стали гораздо сложнее и умнее. Однако работают по схожему с Quakebot принципу: превращают цифры в заметки, используя текстовые шаблоны.
Heliograf — спорт и политика
Алгоритм Heliograf дебютировал в The Washington Post летом 2016 года. Во время Олимпиады в Рио он составил около 300 коротких заметок по результатам соревнований. К осени его доработали, и он научился использовать более сложные языковые конструкции. Писал о матчах по американскому футболу между студенческими командами с оборотами вроде «игра началась безголевой четвертью» (The game began with a scoreless first quarter). А также освещал выборы: составлял твиты и заметки о явке и результатах губернаторских гонок и выборов в конгресс.
В 2012 году освещением дня выборов занимались четыре журналиста The Washington Post и успели меньше, чем машина. Всего за первый год работы Heliograf было опубликовано около 850 заметок под его авторством.
Работает Heliograf следующим образом. Сначала редакторы загружают в него языковые шаблоны — разные для разных платформ, указывая, в каком случае какой шаблон стоит использовать. Когда писать, что «республиканцы сохранили контроль над Белым домом», а когда — «демократы восстановили контроль над Белым домом». Затем загружают тексты, написанные редакторами-людьми на эту тему, чтобы программа научилась распознавать структуру.
После этого программа подключается к источнику информации: это могут быть результаты и статистика матчей или информация экзитполов. Во время президентских выборов таким источником информации был сайт VoteSmart.org. Heliograf идентифицирует подходящие данные, сопоставляет их с заложенными шаблонами и публикует заметки и сообщения для соцсетей.
Кроме того, анализируя данные, программа может оповещать журналистов об аномалиях, на которые стоит обратить внимание. Например, о неожиданно большой выручке компании. Или повышенном интересе граждан к избирательной кампании.
Хотят в The Washington Post подключить Heliograf и к работе над большими статьями. Программа будет актуализировать указанные в них данные, чтобы текст, опубликованный во вторник, не устаревал к пятнице из-за появления новых цифр и фактов. Но это пока только планы.
Целенаправленно заниматься алгоритмами в The Washington Post начали в 2013-м, когда издание купил основатель интернет-компании Amazon.com Джефф Безос. Именно его идея «магазина всего» была положена в основу Heliograf. Задача не привлечь большую аудиторию ограниченным набором статей, а завлечь очень малые аудитории большим количеством статей. Новость о победе университетской команды на местных играх на самом деле интересна только студентам и их родителям. Но если машина напишет такие новости по всем университетским играм — издание получает всех студентов вместе с их родителями.
RADAR — адаптация новостей для местных изданий
Похожие мысли натолкнули британского журналиста Гэри Роджерса и аналитика данных Алана Ренвика на создание информационного агентства Urbs Media и ее главного проекта RADAR. Летом 2017 года проект получил грант в €706 млн от Google. А зимой начал предлагать персонализированные новости для читателей местных изданий.
Идея Роджерса и Ренвика была следующей. Разнообразные ведомства вроде национальной службы здравоохранения или национальной статистической службы производят огромное количество информации, которую можно преобразовать в новости. Это и делают новостные службы во всем мире, благодаря чему появляются заголовки, начинающиеся со слов «названы» или «стали известны».
Региональные издания, пытаясь заинтересовать своего читателя, как правило, в первую очередь публикуют данные о ближайших населенных пунктах, а уже потом — о стране в целом. Так новости о рождаемости или смертности в России в федеральных изданиях превращаются в новости о рождаемости или смертности в Брянске или Уфе — в местных.
Именно такой адаптатор федеральных новостей для локальных изданий придумали создатели RADAR. Редакторы, работающие в Urbs Media (на старте проекта их было двое, затем пятеро), находят статистику, которую можно превратить в новости. Например, о том, сколько детей было зарегистрировано состоящими и не состоящими в браке людьми. И пишут об этом новости-шаблоны.
В этих текстах пропущены названия населенных пунктов, цифры, проценты и любая другая информация, которая меняется при адаптации новости для конкретного населенного пункта. Заполняет пустоты программа Articulator. Это продукт компании Arria, которая занимается компьютерной обработкой естественных (используемых для общения людей) языков. Программа создает сотни копий одного и того же текста, адаптированные для локальных изданий. И RADAR их рассылает, создавая в общей сложности около 30 тыс. новостных заметок для местных изданий в месяц.
Quill — отчеты для менеджеров
Американская компания Narrative Science занимается преобразованием данных в тексты уже восемь лет. В 2010 году ее основали два студента Северо-Западного университета, написавшие программу StatsMonkey. Она создает короткие тексты по итогам бейсбольных матчей.
StatsMonkey стала предшественником главного проекта Narrative Science — платформы Quill, которая анализирует данные и превращает их в связные тексты. За первые четыре года работы Narrative Science привлекла $32 млн инвестиций. Среди инвесторов компания In-Q-Tel, аффилированная с ЦРУ.
Как и Heliograf, Quill умеет «читать» цифры, например статистику финансовых рынков, и отмечать отклонения от нормы. Но это лишь одна из опций. Создатели Quill утверждают, что главная отличительная особенность программы — глубокий анализ данных, которые потом превращаются в текст. То есть программа не просто напишет, что один сотрудник заработал в этом месяце для компании больше денег, чем другой, чего раньше не происходило. Она сравнит, какова динамика их продаж и каков личный вклад каждого в годовую прибыль компании.
Quill уже несколько лет пишет отчеты для менеджеров таких компаний, как PricewaterhouseCooper, Groupon, Deloitte, Credit Suisse и MasterCard Worldwide. В 2014 году клиентом Narrative Science стала USAA, финансовая компания, обслуживающая действующих и бывших американских военных. Quill составляет персонализированные финансовые советы для миллионов клиентов USAA.
Как одно из преимуществ сервиса сооснователь компании Крис Хаммонд отмечает возможность Quill использовать неформальные языковые конструкции. Так, вместо «компания получила 80% рынка» программа может написать «компания получила львиную долю рынка». При этом функционал позволяет посмотреть, какие данные стоят за каждым выбранным словом, в том числе за «львиной долей». Большинство языковых шаблонов заложены изначально, но программа и учится, фиксируя, как редакторы изменяют составленный ею текст.
Похоже, что под «компьютером» Хаммонд не имел в виду свое детище Quill. Потому что Narrative Science официально сотрудничала только с одним изданием — Forbes. И, согласно архиву журнала, программа писала короткие заметки сугубо финансовой направленности, последняя из которых под заголовком «EPS фиксирует падение стоимости J.M.Smucker в прошлом месяце» датирована октябрем 2015 года.
В 2015 же году Хаммонд делал созвучные идеям Джеффа Безоса заявления о том, что обработка естественного языка (а именно это — главная специализация Narrative Science) позволит адаптировать новости для небольших аудиторий так, чтобы они были интересны всем. Однако, очевидно, пока активной работой именно с новостями компания не занимается. А сконцентрировалась на обслуживании консалтинговых и финансовых организаций.
Wordsmith — обработка квартальной отчетности
Одна из самых нелюбимых и при этом неизбежных обязанностей экономических журналистов — написание статей по квартальной отчетности компаний. Четыре раза в год приходится выуживать цифры из многостраничных документов и писать по ним новости. При этом делать это нужно настолько быстро, насколько возможно.
Пытаясь ускорить этот процесс, американское информационное агентство Associated Press с середины 2014 года начало сотрудничать с компанией Automated Insights. И новости по квартальной отчетности доверили писать программе Wordsmith. Первая новость, написанная роботом, вышла через несколько минут после публикации квартальной отчетности Apple.
Правда, полностью положиться на программу сразу не получилось. По словам редактора бизнес-отдела AP Филаны Паттерсон, которая курировала работу Wordsmith, первые несколько месяцев каждая новость, написанная машиной, правилась человеком. А отчеты об ошибках регулярно отправлялись в Automated Insights. Сейчас, отмечает редактор, заметки робота не правятся почти никогда.
Если не вдаваться в тонкости кода, Wordsmith работает практически так же, как Heliograf или Quill. Программа получает доступ к источнику структурированной информации — а квартальная отчетность пишется по одинаковому шаблону. Редакторы показывают программе, где должны лежать одни данные (например, о квартальной выручке), а где другие (к примеру, о квартальной прибыли). А затем задаются языковые паттерны, в которые программа облекает эти данные.
И никого из-за робота не уволили, настаивают в агентстве. Напротив, это позволило журналистам не гнаться за скоростью публикации цифр, а сосредоточиться на написании историй.
Кроме того, по данным исследователей из Стэнфорда и Университета Нью-Йорка, использование бота информагентством положительно повлияло на финансовый рынок в целом. Раньше выпустить больше 300 заметок после публикации квартальной отчетности редакторы AP просто не успевали — после этого приходилось заниматься уже новыми новостями. Wordsmith пишет до 3 тыс. таких новостей. Благодаря этому на ленте AP стали упоминаться данные более мелких компаний, до которых раньше не доходили человеческие руки. И на них стали обращать внимание инвесторы.
Как и Quill, сервисом Wordsmith пользуются финансовые и производственные компании. Но есть среди клиентов Automated Insights еще один новостной гигант. На сайт Yahoo News программа в год пишет до 70 млн текстов для фанатов фэнтези-футбола (это игра, в которой участники составляют виртуальную команду футболистов, имеющих реальных прототипов; и в зависимости от того, как выступают настоящие игроки, набирают или теряют баллы выдуманные команды). И это далеко не предел для Wordsmith. По заявлению пиар-менеджера Automated Insights Джеймса Котеки, система может составлять до 2 тыс. заметок в секунду, если будет такая необходимость.
«Яндекс для медиа» — погода, пробки и запросы пользователей
Англоязычные программы, пишущие новости, могут быть адаптированы для русскоязычной аудитории. Но на это потребуются значительные усилия, и пока ни одна компания заниматься этим не планирует. Но идея автоматического написания новостей волнует и российских IT-предпринимателей. Самых больших успехов в этой области добился «Яндекс».
Его подразделение «Яндекс для медиа» предоставляет новостным сайтам, телеканалам и радиостанциям короткие текстовые сводки о погоде, пробках и о том, какие запросы в интернете делают россияне чаще всего. Программа анализирует данные других сервисов «Яндекса», в том числе сопоставляет их с более старой информацией, и формирует короткие тексты вроде «в Петербурге наблюдается самая длинная пробка для данного времени суток за всю последнюю неделю — семикилометровая. Стоят проспект Энгельса и Большой Сампсониевский от Северного проспекта до Гренадерской улицы» — это реальный текст новости, написанный сервисом и опубликованный в октябре 2015 года.
В 2015 году «Яндекс» обещали со временем предоставлять изданиям-подписчикам не только информацию о ситуации на дорогах, погоде и запросах. Руководитель проекта «Яндекс для медиа» Мария Петрова говорила об открытии информационного агентства, где сообщения будут готовить алгоритмы, и о расширении списка тем, по которым роботы будут писать новости. Однако с тех пор нового функционала на сайте «Яндекс для медиа» не появилось, как и новых заявлений по теме.
Бояться рано
Если сравнить передовые разработки в области автоматизации написания новостей, выходит, что пока журналистам не стоит опасаться роботов. Да, программы могут быстрее анализировать цифры и видеть отклонения от нормы. Но статистика компаний и ведомств — не единственный источник новостей, а объяснить компьютеру, что значит «интересное», пока никто не смог.
К тому же компании, занимающиеся обработкой естественных языков, судя по всему, больше ориентируются на корпорации, а не на СМИ. У корпораций больше денег, так что решать их задачи выгоднее.