Сбер представил первую в России генеративную модель Kandinsky Video, которая позволяет создавать полноценные видеоролики по текстовому описанию. Модель способна генерировать видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду.
По словам первого заместителя Председателя Правления Сбербанка Александра Ведяхина, архитектура Kandinsky Video состоит из двух ключевых блоков. Первый блок отвечает за создание ключевых кадров, а второй – за генерацию интерполяционных кадров, которые обеспечивают плавность движений в финальном видео. Базируется модель на новой модели синтеза изображений по текстовым описаниям Kandinsky 3.0.
Сгенерированный видеоролик представляет собой непрерывную сцену с движением объекта и фона. Это отличает видеоролики, созданные моделью Kandinsky Video, от анимационных видеороликов, где динамика достигается за счет моделирования пролета камеры относительно статичной сцены. Разрешение видео – 512 х 512 пикселей с различным соотношением сторон. Модель обучена на датасете из более чем 300 тыс. пар “текст-видео”. Генерация видео занимает до трех минут.
«Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а уже сегодня представляем модель совершенно другого уровня — первую в России модель по генерации полноценных видеороликов по тексту. Это важный вклад в развитие российских генеративных нейросетей. У пользователей появится ещё больше возможностей для креатива и реализации своих творческих задумок любой направленности. Люди смогут создавать уникальные видеоролики абсолютно бесплатно. Наша модель, как и большинство других в линейке Сбера, будет доступна в open source. Мы верим, что искусственный интеллект сможет открыть перед людьми новые супервозможности и создать инструменты, которыми они будут пользоваться для решения своих задач» — Александр Ведяхин, первый заместитель Председателя Правления Сбербанка/
Ранее у активных пользователей Kandinsky 2.2 в тестовом режиме появилась возможность создания анимационных видеороликов. По одному запросу можно создать видео длиной в четыре секунды с выбранным эффектом анимации, с частотой 24 кадра в секунду и разрешением 640 х 640 пикселей. Пользователи нейросети Kandinsky 3.0 также могут создавать видеоролики по текстовому описанию в режиме анимации.
Оценить возможности нейросети Kandinsky Video можно на платформе fusionbrain.ai и в Telegram-боте, где можно оставить заявку на доступ.
Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices. В апреле 2023 года сервис на базе нейросети Kandinsky 2.1, стал самым быстрорастущим в мире. Он набрал один миллион уникальных пользователей всего за четыре дня после выхода.
ПАО Сбербанк — один из крупнейших банков в России и один из ведущих глобальных финансовых институтов. На долю Сбербанка приходится около трети активов всего российского банковского сектора. Сбербанк является ключевым кредитором для национальной экономики и занимает одну из крупнейших долей на рынке вкладов. Основным акционером ПАО Сбербанк является Российская Федерация в лице Министерства финансов Российской Федерации, владеющая 50% уставного капитала ПАО Сбербанк плюс 1 голосующая акция. Оставшимися 50% минус 1 голосующая акция от уставного капитала банка владеют российские и международные инвесторы. Генеральная лицензия Банка России на осуществление банковских операций № 1481 от 11.08.2015. Официальные сайты банка: www.sberbank.com (сайт Группы Сбербанк), www.sberbank.ru.