Яндекс обновил YandexART: нейросеть стала лучше понимать запросы пользователей и создавать более реалистичные картинки

Компания Яндекс представила обновленную версию своей диффузионной нейросети YandexART 1.3. Теперь нейросеть использует новую технологию генерации изображений, называемую латентная диффузия. Кроме того, объем датасета, на котором обучалась модель, увеличился в 2,5 раза. Это позволяет YandexART лучше понимать текстовые запросы и создавать еще более реалистичные изображения в различных форматах. Новая версия нейросети уже используется в сервисе Шедеврум, и в будущем будет интегрирована и в другие продукты Яндекса.

Технология латентной диффузии требует меньше вычислительных ресурсов и способствует созданию более реалистичной графики. Она создает промежуточное представление изображения в виде латентного кода — компактного описания, содержащего основную информацию об изображении в сжатом формате. Затем нейросеть одним шагом преобразует этот код в полноценное изображение высокого разрешения. Такой подход оказывается более эффективным, чем многоэтапное уточнение изображения в каскадной диффузии.

Для улучшения понимания пользовательских запросов модель была обогащена синтетическими текстами — подробными описаниями изображений, сгенерированными нейросетью. Объем датасета увеличился до более чем 850 миллионов пар изображений с текстом. В новой модели используются два текстовых энкодера для более детального анализа запросов пользователей. С их помощью YandexART распознает текстовый запрос и переводит его на машинный язык.

Обновленная версия YandexART также предоставляет возможность создавать изображения в различных форматах, таких как 16:9, 4:3 или 3:4. Теперь пользователи могут использовать изображения, созданные в Шедевруме, для обложек журналов или фотообоев на телефон.

По данным асессоров Яндекса, нейросеть YandexART 1.3 показывает лучшие результаты в 57% случаев по сравнению с Midjourney V5.2 и в 63% случаев по сравнению с предыдущей версией YandexART 1.2.


O YandexART

Yandex AI Rendering Technology (YandexART) — диффузионная нейросеть, которая создаёт изображения и анимацию в ответ на текстовые запросы. Она обучалась на примере 850 миллионов картинок с описанием, знает российский культурный код и использует особый алгоритм распознавания текстов, чтобы точнее понимать пожелания пользователей. Она может качественно прорабатывать мелкие детали, работать в заданном художественном стиле и создавать фотореалистичные портреты. Нейросеть интегрирована в Шедеврум, используется в Яндекс Бизнесе, Директе, Браузере и Маркете. Кроме того, компании могут получить доступ к API YandexART в Yandex Cloud.

Related posts

Игра-кликер от создателей Плюс Сити собрала 1 млн пользователей за неделю 

Рекламодатели Директа первыми на рынке смогут  оптимизировать показы медийной рекламы на рост брендовых метрик

ВТБ подключил оплату по универсальному QR-коду в магазинах, поддержав инициативу ЦБ и НСПК