Ручная забота: роботы расшифруют документы, заполненные письменно
Новая российская система распознавания текста способна оперативно оцифровывать документы, содержащие в себе как напечатанные, так и рукописные фрагменты. Основную работу выполняет искусственный интеллект, который в сложных случаях прибегает к помощи человека. В настоящее время новинку уже используют в одной из страховых компаний при оцифровке заполненных вручную заявлений. Заинтересовались ею также энергетики и банкиры — широкое внедрение системы позволит бизнесу сократить операционные затраты на обслуживание клиентов и исключить ошибки при работе с бумагами. В перспективе подобные алгоритмы могут найти применение и в медицинском обслуживании, что снимет значительную часть нагрузки со специалистов.
Кооперация интеллектов
Распознавание напечатанного текста сегодня не представляет проблем для современных офисных систем, однако множество документов клиенты всё еще продолжают заполнять от руки. Это вынуждает специалистов просматривать их глазами, а затем перепечатывать вручную. Избавить менеджеров от рутины должна помочь новая российская разработка, способная оцифровывать документы, заполненные по старинке.
— При работе нашей системы используется сразу несколько нейронных сетей, каждая из которых выполняет свою собственную функцию на определенном этапе работы, — рассказал ведущий ИИ-разработчик компании Dbrain Владислав Заборовский. — Происходит это следующим образом: работающая на входе система искусственного интеллекта классифицирует документ, затем подключается решение, которое определяет структуру и расположение его полей, а завершает процесс нейросеть, способная конвертировать изображение в текст.
Однако совсем без помощи человека применяемые алгоритмы пока не обходятся. Например, если искусственный интеллект хорошо справляется с текстом, который был написан от руки печатными буквами, то, для того чтобы совладать с обычным почерком, ему зачастую требуется содействие людей.
— В этом разработке помогают пользователи, зарегистрированные в сервисе «Яндекс.Толока» (проект, позволяющий людям зарабатывать, выполняя легкие задания. — «Известия»). Система в режиме реального времени высылает им задания по распознаванию отдельных фрагментов текста, о значении которых нейросетью ранее было выдано предположение, — пояснил Владислав Заборовский. — При этом система следит за этим процессом и использует полученные данные для обучения, которое позволяет ей в дальнейшем лучше выполнять работу.
По словам специалистов, к сложным кейсам по распознаванию можно отнести случаи, когда при заполнении документа происходит выход текста за края полей или если слова пишут в столбик, что может сбить машину с толку. При этом работа людей не нарушает неприкосновенность персональных данных и корпоративной информации.
— В рамках работы с Dbrain исполнители «Яндекс.Толока» распознают объекты из документов в обезличенном виде — как правило, это происходит, когда система не уверена в качестве машинного распознавания, — отметили в пресс-службе компании «Яндекс». — При этом одни люди переводят изображение рукописного текста в цифровой формат, а другие проверяют их вердикты, что обеспечивает контроль качества на выходе.
Сложная задача
Как показывает практика, за счет решения, соединившего работу нейросети и человека, при обработке документов удается избежать большинства опечаток и ошибок, которые могут делать работники компаний, пока еще не автоматизировавших свои бизнес-процессы.
— Заслуга разработчика в том, что в процессе обработки рукописей активно применяют нейросети, — отметил президент компании Docsvision и член Рабочей группы по развитию разработки программного обеспечения для обработки документов Минкомсвязи РФ Владимир Андреев. — При этом сочетание труда людей и работы нейросети я вижу впервые — думаю, такое решение действительно может улучшить технологии и быть полезным для бизнеса.
месте с тем, по мнению эксперта, задача распознавания рукописного текста исключительно с помощью систем искусственного интеллекта является наиболее сложной для IT-отрасли, поскольку даже нейронные сети в мозге человека далеко не всегда могут разобрать почерк другого человека, а иногда и свой собственный. Именно поэтому многие компании пока просто не берутся за разработку систем, способных выполнять такие задачи.
На сегодняшний день новинку уже используют в энергетике, страховании и банковской сфере. В частности, она внедрена в одной из страховых фирм для оцифровки заполненных вручную заявлений для выплаты компенсаций после автомобильных аварий. Как показала практика, среднее время, затраченное программой на обработку документов одного клиента, обычно не превышает нескольких минут. При этом от сотрудника требуется лишь отсканировать бумаги и загрузить файлы в систему. В перспективе подобные алгоритмы могут найти применение в медицинском обслуживании, что снимет значительную часть нагрузки со специалистов.
Недавно «Известия» писали о нейросети, которую научили определять COVID-19 по изображениям легких. Для этого программа анализируют оцифрованные рентген-снимки. Нейросеть составляет заключение, где указывает на наличие или отсутствие четырех характерных для коронавирусной пневмонии признаков и рассчитывает вероятность диагноза «COVID-19». Точность постановки диагноза по трем из четырех признаков доходит до 94%.