Нейросеть VideoLDM создает видео на основе текстовых описаний
Nvidia разработала VideoLDM, нейронную сеть, которая генерирует короткие и реалистичные видеоклипы на основе текстовых описаний.
Алгоритм позволяет создавать анимацию продолжительностью около пяти секунд, в разрешении до 2048x1280 пикселей и с частотой кадров 24 FPS. Модель может генерировать видео на основе как простых, так и сложных подсказок.
VideoLDM построен на достижениях алгоритма стабильной диффузии. Согласно отчету, нейронная сеть включает 4,1 миллиарда параметров, 2,7 миллиарда из которых обучены на видео.
Компания заявила, что добилась «значительного прогресса» в обучении нейронной сети относительно быстрыми темпами. По словам разработчиков, VideoLDM способен создавать подробные и согласованные с описанием видеоролики всего за один месяц.
На сайте компании опубликовано несколько примеров работы нейросети.
Модель также способна генерировать сцены вождения. Эти видеоролики имеют разрешение 1024x512 пикселей и продолжительность до пяти минут.
VideoLDM может моделировать определенные сценарии вождения и прогнозировать поведение объектов на дороге. По словам разработчиков, это позволяет создавать реалистичные кадры.
Опубликованная работа будет представлена на конференции IEEE по компьютерному зрению и распознаванию образов, которая пройдет в Ванкувере с 18 по 22 июня. В настоящее время неизвестно, планирует ли Nvidia выпустить алгоритм для публичного использования.
https://research.nvidia.com/labs/toronto-ai/VideoLDM/samples.html