Российские ученые создали новые методы сжатия нейросетей

Екатерина Милицкая
Фото: РИА Новости/Владимир Трефилов

Команда Yandex Research совместно с исследователями из Института науки и технологий Австрии (ISTA) и Научно-технологического университета имени короля Абдаллы в Саудовской Аравии (KAUST) разработала новые методы сжатия больших языковых моделей. Об этом сообщила пресс-служба «Яндекса».

Как подчеркнули разработчики, новые алгоритмы позволяют бизнесу сократить расходы на вычислительные ресурсы до восьми раз. Решение предполагает сокращение числа необходимых для работы процессоров, давая возможность запускать нейросеть на устройствах с меньшей вычислительной мощностью. Оно ориентировано на корпорации, стартапы и исследователей, которые запускают нейросети на своём оборудовании.

Решение включает два инструмента. Первый позволяет получить уменьшенную до восьми раз нейросеть, которая быстрее работает и может быть запущена, например, на одном графическом процессоре вместо четырёх. Второй инструмент исправляет ошибки, которые возникают в процессе сжатия большой языковой модели.

Эффективность решения оценивали на популярных моделях с открытым исходным кодом: Llama 2, Llama 3, Mistral и других. Качество ответов оригинальной и сжатой версии нейросети сравнивали на англоязычных бенчмарках — тестах, которые состоят из наборов вопросов из разных областей знаний. По результатам испытаний выяснилось, что метод сохраняет в среднем 95% качества ответов нейросети. Для сравнения, другие популярные инструменты сохраняют для тех же моделей от 59% до 90% качества.

Код опубликован в открытом доступе на GitHub. Специалисты также могут скачать уже сжатые с помощью новых методов популярные модели с открытым исходным кодом. Кроме того, исследователи Yandex Research выложили обучающие материалы, которые помогут разработчикам дообучить уменьшенные нейросети под свои сценарии.

Научная статья экспертов Yandex Research о методе сжатия AQLM была включена в программу международной конференции по машинному обучению ICML. Статья была подготовлена совместно с исследователями из Института науки и технологий Австрии (ISTA) и экспертами ИИ-стартапа Neural Magic.