Нейросеть VideoLDM создает видео на основе текстовых описаний

NVIDIA разработала нейронную сеть, способную генерировать видео на основе текстовых описаний.

Новости 2023 04 23

Nvidia разработала VideoLDM, нейронную сеть, которая генерирует короткие и реалистичные видеоклипы на основе текстовых описаний.

Алгоритм позволяет создавать анимацию продолжительностью около пяти секунд, в разрешении до 2048x1280 пикселей и с частотой кадров 24 FPS. Модель может генерировать видео на основе как простых, так и сложных подсказок.

VideoLDM построен на достижениях алгоритма стабильной диффузии. Согласно отчету, нейронная сеть включает 4,1 миллиарда параметров, 2,7 миллиарда из которых обучены на видео.

Компания заявила, что добилась «значительного прогресса» в обучении нейронной сети относительно быстрыми темпами. По словам разработчиков, VideoLDM способен создавать подробные и согласованные с описанием видеоролики всего за один месяц.

На сайте компании опубликовано несколько примеров работы нейросети.

Модель также способна генерировать сцены вождения. Эти видеоролики имеют разрешение 1024x512 пикселей и продолжительность до пяти минут.

VideoLDM может моделировать определенные сценарии вождения и прогнозировать поведение объектов на дороге. По словам разработчиков, это позволяет создавать реалистичные кадры.

Опубликованная работа будет представлена на конференции IEEE по компьютерному зрению и распознаванию образов, которая пройдет в Ванкувере с 18 по 22 июня. В настоящее время неизвестно, планирует ли Nvidia выпустить алгоритм для публичного использования.

https://research.nvidia.com/labs/toronto-ai/VideoLDM/samples.html