Нейросеть Nvidia научили создавать видео из текста

NVIDIA в сотрудничестве с исследователями из Корнельского университета представила VideoLDM – модель ИИ, способную генерировать видео высокого разрешения до 2048×1280 p. с частотой 24 кадра/с и продолжительностью 4,7 секунды на основе текстовых описаний.

Модель основана на технологии нейронной сети Stable Diffusion и имеет до 4,1 миллиарда параметров, что делает ее одним из самых продвинутых генераторов текста в видео. VideoLDM также может генерировать видео длиной до 5 минут в разрешении 1024×512 для сценариев вождения, используя одно фото. Кроме того, VideoLDM может предсказать несколько правдоподобных вариантов сценария вождения на основе того же кадра.

ИИ-модель NVIDIA VideoLDM может быть использована в различных приложениях, включая кино и телепроизводство и разработку видеоигр.

Посмотреть примеры видеороликов можно на официальном сайте nVidia
Источник