«Яндекс» и «Сбер» почти одновременно представили на российском рынке свои новые нейросети для создания изображений по текстовому описанию. У первого это «Шедеврум», у второго — Kandinsky 2.1. Гонка генеративных моделей подталкивает создателей искать самые оптимальные решения для удобства пользователей. В первую очередь, это качественная работа на русском языке — главное преимущество перед зарубежными ИИ, заточенных в основном под англоговорящую аудиторию. Что еще умеют отечественные нейросети, кому и для каких целей подойдут — в материале «Известий».
Зарубежные нейросети
Первые нейросети для генерации изображений по текстовому описанию появились совсем недавно — в 2021 году, а прорыв совершили всего год назад. В 2022-м пользователи сети получили возможность создавать свои картинки в нескольких ИИ-моделях. Это популярные американские Midjourney и DALL-E и немецкая Stable Diffusion. Бум генеративных решений породил множество других зарубежных разработок, но по качеству они пока уступают лидерам.
Однако продолжат активно появляться и «национальные» нейросети. Причина понятна: крупные игроки работают преимущественно с английским языком. Хотя многие предлагают вводить описания, к примеру, на русском или французском, весь интерфейс и инструментарий всё равно остаются английскими.
Денис Кусков, генеральный директор информационного агентства TelecomDaily:
«Появление решений с использованием нейросетей говорит о том, что в технологическом плане Россия продолжает свое развитие. А здоровая конкуренция поможет сформировать реальный пользовательский опыт в тестировании нейросети у россиян. Маловероятно, что представленные решения останутся строго развлекательными. Скорее, решения будут применяться там, где компания сильна: в новых технологиях и сервисах для жизни у "Яндекса", в цифровизации финансового сектора у "Сбера"»
Многие модели работают в бета-версии и предлагают их тестировать широкому кругу пользователей. Но если у Stable Diffusion хотя бы есть простой сайт, то самая популярная в этом сегменте нейросеть Midjourney работает только через мессенджер Discord. Запрос пишется боту, а он выдает картинки. В DALL-E можно попасть только через аккаунт Google или Microsoft, при этом российским юзерам сервис обычно выдает ошибку.
На этом фоне появление сразу двух отечественных решений от ИТ-гигантов устраняет для россиян множество проблем. Во-первых, интерфейс полностью русскоязычный, а во-вторых, пользоваться моделями гораздо проще, хотя они тоже пока еще находятся на этапе широкого тестирования.
«Шедеврум»
«Шедеврум» от «Яндекса» — бета-версия полноценного приложения со встроенной нейросетью со множеством полезных функций. Первую версию обучили на 240 млн примеров картинок с текстом. Сейчас обучение продолжается на наборе данных из 500 млн примеров на русском и английском языках.
Приложение появилось в российских магазинах App Store и Google Play только 5 апреля. Менее чем за сутки приложение вошло в топ самых скачиваемых бесплатных приложений в российской версии App Store. По данным Яндекса, только за первые полтора дня бета-версию скачали более 180 тыс. раз. Среднее время генерации иллюстрации — 30 секунд. В общей сложности пользователи создали более 100 тыс. постов.
Пользователи могут не только создавать изображения для себя, но и хранить их в своей ленте, делиться с другими юзерами и отмечать понравившийся контент. Есть вкладка «Лучшие», куда попадают посты, набравшие наибольшее количество лайков. В «Недавних» собираются последние идеи пользователей. Пока протестировать нейросеть могут не все зарегистрированные участники — нужно отправить запрос и дождаться его принятия. Но в финальной версии это ограничение устранят.
Александр Пугачевский, директор группы креативного продюсирования «Михайлов и Партнёры»:
«Важный шаг для "Яндекса", "Сбера" и всей отрасли. Благодаря двум ИТ-гигантам в России появились собственные нейронки. Особенно интересен продукт "Яндекса", потому что механика дистрибуции контента — как раз то, чего не хватало всем нейросетям до этого»
ИИ генерирует сразу четыре изображения по одному запросу, причем чем точнее описание, тем качественнее картинка. Можно прописать особые пожелания и «Шедеврум» их учтет. Потому что, чем подробнее запрос, тем качественнее будут иллюстрации. Доступны генерация в различных художественных стилях и даже подражание художникам, к примеру, Ван Гогу. Изображения создаются методом каскадной диффузии: сначала набросок картинки в соответствии с запросом, а затем детализация и высокое разрешение. Это занимает около минуты.
Приложение можно без опасений установить на телефон ребенку: «Яндекс» автоматически не дает генерировать изображения по запросам, связанным с насилием и жестокостью и взрослым контентом. Нейросеть просто не будет обрабатывать такие запросы по умолчанию.
«Мы пока в самом начале пути. В основе „Шедеврума“ прототип нейросети, которой предстоит многому научиться. К моменту финального релиза она сможет генерировать баннеры, иллюстрации, создавать изображения для интернет-витрин и не только. Бета-тест приложения для пользователей — это новый опыт и немного хорошего настроения, а для нас — возможность чуть лучше понять, в каком направлении развивать нейросеть дальше», — отметил руководитель управления машинного интеллекта и исследований «Яндекса» Алексей Гусаков.
Kandinsky 2.1
Kandinsky 2.1 от «Сбера» — обновленная модель одноименной нейросети, которую компания представила летом прошлого года. У ИИ немало полезных функций: помимо генерации изображений по текстовому запросу, он может смешать две картинки, преобразовать уже готовую (например, изменить стиль) или дорисовать детали.
Интерфейс Kandinsky 2.1 пока хромает. Нейросетью можно воспользоваться несколькими способами: на сайте, в телеграм-боте или с помощью навыка «Включи художника» в голосовом помощнике «Салют» от «Сбера». Получившиеся картинки можно скачать, но нельзя сохранить на серверах, а если пользователь захочет поделиться творчеством ИИ с друзьями и близкими, то Kandinsky 2.1 отправит только ссылку на сайт. К тому же модель генерирует лишь одно изображение.
Светлана Дергачева, генеральный директор Content AI:
«Возможности ИИ ускоряют развитие профессий будущего. Запуск "Сбером" и "Яндексом" отечественных приложений на основе технологий ИИ — важный шаг в данном направлении. Россия следует за мировыми трендами. Сначала это может восприняться как игра или развлечение, но очень быстро возможности ИИ по генерации изображений или текстов интегрируются в работу и бизнес компаний, чьи сотрудники за счёт нейросетей расширят свои компетенции и смогут масштабировать продуктивность»
У нейросети есть расширенные варианты с увеличенным количеством параметров, однако чтобы воспользоваться ими, нужно запастись терпением и временем: на одну картинку у ИИ может уйти от 2 до 3 минут на сайте, а вот чат-бот работает с большой задержкой. Более простая версия генерирует быстрее — в среднем за минуту, плюс можно заранее выбрать стиль в раскрывающемся списке: например, «мультфильм» или «рисунок карандашом». Разработчики сообщают, что она поддерживает более 100 языков.
Ограничений по запросам у Kandinsky 2.1 нет, поэтому для детей эта модель скорее не подходит, она может сгенерировать, к примеру, и довольно откровенную эротику. Но в целом у ИИ мощный код и веса.