В рейтинг качества ответов нейросетей попала новая разработка «Яндекса»
Нейросеть YandexGPT Experimental вошла в новый рейтинг Llmarena, который оценивает качество ответов генеративных моделей на русском языке.
В топ также включили GPT-4o, LLaMA 3.1 и Claude 3,5 Sonnet.
«Яндекс» подтвердил, что ведет работу над новой более мощной версией своей базовой языковой модели.
Рейтинг оценивает, насколько хорошо модели отвечают на вопросы на русском языке. Пользователи могут задавать их на «Арене» и сравнивать, какая из нейросетей ответила лучше. Ответы выдаются без привязки к конкретной нейросети, чтобы пользователь мог беспристрастно оценить их качество. На основе собранных оценок авторы сервиса строят лидерборд моделей.
«Арену» запустили разработчики из российского ML-комьюнити. Принцип работы был взят у зарубежного сервиса LMSYS Chatbot Arena — одного из самых авторитетных бенчмарков на зарубежном рынке.