Труды ученых переведут в международный формат
Министерство образования и науки проводит последний этап конкурса на создание публичного ресурса открытых данных в области науки. Лот начальной стоимостью в 144 млн рублей разыгрывается в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007–2013 годы». Всего в рамках пятого этапа программы разыгрываются 11 контрактов на общую сумму в 1,442 млрд рублей.
— Правильнее назвать проект «созданием системы интеллектуального сбора научных данных и комплекса программного обеспечения для нее», — рассказала «Известиям» Наталья Касперская, глава экспертной рабочей группы по приоритетным информационно-коммуникационным технологиям при Минобрнауки. — Это очень перспективное во всем мире научное направление — data mining.
В основе проекта — интеллектуальная надстройка над «Глобальной паутиной», которая самостоятельно ищет и анализирует по смыслу и фактам научные статьи, которые в международном сообществе публикуется в специальном формате RDF. Этот принцип называется Linked Open Data (LOD), с его помощью научные статьи собраны в единых хранилищах, структурированы по темам и направлениям.
«Умный поисковик» самостоятельно распределяет новые работы по тематикам независимо от языка написания и дает возможность ученым понимать, где и кто в мире занимается интересующими их проектами. LOD-хранилища оперируют не полными текстами статей, а аннотациями к ним, которые «интеллектуальная система» создает самостоятельно.
— Мы заказываем не «поисковик по словам» или подборку ссылок, а кусочек искусственного интеллекта — аналитико-содержательный поиск и осмысленный анализ научных данных, — рассказал «Известиям» Александр Пронин, директор департамента развития информационно-коммуникационных технологий Минобрнауки РФ. — Статья может насчитывать десятки страниц, с LOD она превращается в короткое превью, где собраны все нужные для понимания факты. В таком формате проще найти нужный материал. Можно найти искомые в рамках одной тематики, как раз по принципу аннотаций. Еще недавно в зарубежных единых хранилищах не было упоминаний об отечественных исследованиях. Иностранные ученые не знали, чем занимаются их российские коллеги. Сейчас же идет настоящий информационный взрыв, и мы решили интегрироваться в эту международную систему.
Эксперты научного сообщества поддерживают идею международной интеграции, но сомневаются в правильности выбранных средств.
— Основная проблема состоит в насыщении пространства. Ни в мире, ни тем более у нас нет достаточного количества документов в специальном научном формате RDF, зато есть масса научных данных в других форматах, будь то файлы Word, таблицы Excel или документы PDF, — поделился мнением с «Известиями» Владимир Серебряков, руководитель отдела систем математического обеспечения Вычислительного центра РАН им. Дородницына. — На Западе «проблему насыщения системы» решили с помощью грантов научным учреждениям, которые через свои отделы информатизации активно, а самое главное системно насыщают Сеть свежими научными данными. Как ученому, мне тяжело понять, как можно разово реализовать этот бесспорно актуальный проект.
Чиновники надеются, что хранилище будет существовать и развиваться на коммерческой основе, за счет популярности и символической абонентской платы за доступ, которая во всем мире, как правило, не превышает $5–10 в месяц. По мнению авторов проекта, поддерживать работу сложного программного комплекса смогут несколько IT- специалистов, инженер и диспетчер.