Компания Яндекс представила обновленную версию своей диффузионной нейросети YandexART 1.3. Теперь нейросеть использует новую технологию генерации изображений, называемую латентная диффузия. Кроме того, объем датасета, на котором обучалась модель, увеличился в 2,5 раза. Это позволяет YandexART лучше понимать текстовые запросы и создавать еще более реалистичные изображения в различных форматах. Новая версия нейросети уже используется в сервисе Шедеврум, и в будущем будет интегрирована и в другие продукты Яндекса.
Технология латентной диффузии требует меньше вычислительных ресурсов и способствует созданию более реалистичной графики. Она создает промежуточное представление изображения в виде латентного кода — компактного описания, содержащего основную информацию об изображении в сжатом формате. Затем нейросеть одним шагом преобразует этот код в полноценное изображение высокого разрешения. Такой подход оказывается более эффективным, чем многоэтапное уточнение изображения в каскадной диффузии.
Для улучшения понимания пользовательских запросов модель была обогащена синтетическими текстами — подробными описаниями изображений, сгенерированными нейросетью. Объем датасета увеличился до более чем 850 миллионов пар изображений с текстом. В новой модели используются два текстовых энкодера для более детального анализа запросов пользователей. С их помощью YandexART распознает текстовый запрос и переводит его на машинный язык.
Обновленная версия YandexART также предоставляет возможность создавать изображения в различных форматах, таких как 16:9, 4:3 или 3:4. Теперь пользователи могут использовать изображения, созданные в Шедевруме, для обложек журналов или фотообоев на телефон.
По данным асессоров Яндекса, нейросеть YandexART 1.3 показывает лучшие результаты в 57% случаев по сравнению с Midjourney V5.2 и в 63% случаев по сравнению с предыдущей версией YandexART 1.2.
O YandexART
Yandex AI Rendering Technology (YandexART) — диффузионная нейросеть, которая создаёт изображения и анимацию в ответ на текстовые запросы. Она обучалась на примере 850 миллионов картинок с описанием, знает российский культурный код и использует особый алгоритм распознавания текстов, чтобы точнее понимать пожелания пользователей. Она может качественно прорабатывать мелкие детали, работать в заданном художественном стиле и создавать фотореалистичные портреты. Нейросеть интегрирована в Шедеврум, используется в Яндекс Бизнесе, Директе, Браузере и Маркете. Кроме того, компании могут получить доступ к API YandexART в Yandex Cloud.