VideoPoet：用于零样本视频生成的大型语言模型_人工智能

$K[ICF5KDE{JMHVMHUFN_@H8.png$

最近，一波视频生成模型如雨后春笋般涌现，在许多情况下都展现出令人惊叹的画质。视频生成的当前瓶颈之一是能否生成连贯的大动作。在许多情况下，即使是当前领先的模型，要么生成小动作，要么在生成较大动作时出现明显的伪影。

为了探索语言模型在视频生成中的应用，我们介绍了 VideoPoet（网站、研究论文），这是一个大型语言模型 (LLM)，能够执行各种视频生成任务，包括文本转视频、图像转视频、视频风格化、视频修复和再现以及视频转音频。一个值得注意的观察是，领先的视频生成模型几乎完全基于扩散（例如，请参阅Imagen Video）。另一方面，LLM 被广泛认为是事实上的标准，因为它们在语言、代码和音频（例如AudioPaLM）等各种模态中都具有出色的学习能力。与该领域的替代模型相比，我们的方法在单个 LLM 中无缝集成了许多视频生成功能，而不是依赖于专门针对每个任务的单独训练的组件。

概述

下图展示了 VideoPoet 的功能。输入图像可以进行动画处理以产生运动，并且可以编辑（可选裁剪或遮罩）视频以进行修复或去掉。对于风格化，该模型会接收表示深度和光流（表示运动）的视频，并在其上绘制内容以产生文本引导的风格。

VideoPoet 概述，能够对各种以视频为中心的输入和输出进行多任务处理。LLM 可以选择将文本作为输入，以指导文本到视频、图像到视频、视频到音频、风格化和绘画任务的生成。使用的资源：Wikimedia Commons和DAVIS。

语言模型作为视频生成器

使用 LLM 进行训练的一个关键优势是，可以重复使用现有 LLM 训练基础设施中引入的许多可扩展效率改进。然而，LLM 操作的是离散标记，这可能会使视频生成变得具有挑战性。幸运的是，存在视频和音频标记器，它们用于将视频和音频片段编码为离散标记序列（即整数索引），并且也可以将其转换回原始表示。

VideoPoet通过使用多个标记器（MAGVIT V2用于视频和图像，SoundStream用于音频）训练自回归语言模型，以跨视频、图像、音频和文本模态进行学习。一旦模型生成基于某些上下文的标记，就可以使用标记器解码器将它们转换回可查看的表示形式。

详细了解 VideoPoet 任务设计，展示各种任务的训练和推理输入和输出。使用标记器编码器和解码器将模态转换为标记或从标记转换为模态。每个模态都被边界标记包围，任务标记指示要执行的任务类型。

VideoPoet 生成的示例

下面显示了我们的模型生成的一些示例。

VideoPoet 根据各种文本提示生成视频。有关具体文本提示，请参阅网站。

对于文本转视频，视频输出的长度是可变的，并且可以根据文本内容应用一系列动作和样式。为了确保负责任的做法，我们参考了公共领域的艺术作品和风格，例如梵高的《星夜》。

文本输入 “浣熊在时代广场跳舞” “一匹奔腾的马穿过梵高的《星夜》” “两只熊猫在玩纸牌” “一大团爆炸的彩虹颜料，上面浮现出一个苹果，8k”

视频输出

对于图像转视频，VideoPoet 可以获取输入图像并使用提示对其进行动画处理。

图像转视频的示例，带有文本提示来引导动作。每个视频左侧都有一张图片。左侧： “一艘船在波涛汹涌的大海中航行，雷雨闪电，画布上的动画油画”。中间：“飞过一个有许多闪烁星星的星云”。右侧：“一个流浪者在悬崖上拄着拐杖，在刮风的日子里俯视着下面翻腾的海雾”。参考资料：Wikimedia Commons，公共领域**。

对于视频风格化，我们会预测光流和深度信息，然后将一些额外的输入文本输入 VideoPoet。

在 VideoPoet 文本转视频生成的视频之上进行视频风格化的示例，其中使用文本提示、深度和光流作为条件。每对中的左侧视频是输入视频，右侧是风格化的输出。左侧：“在阳光明媚的海滩上，戴着太阳镜的袋熊拿着沙滩球。”中间：“泰迪熊在清澈的冰冻湖上滑冰。”右侧：“一只金属狮子在锻造炉的灯光下咆哮。”

VideoPoet 还能够生成音频。在这里，我们首先从模型中生成 2 秒的剪辑，然后尝试在没有任何文本指导的情况下预测音频。这使得能够从单个模型生成视频和音频。

视频转音频的示例，无需任何文本输入即可从视频示例生成音频。

默认情况下，VideoPoet 模型会以纵向方式生成视频，以根据短片内容量身定制输出。为了展示其功能，我们制作了一部由 VideoPoet 生成的许多短片组成的短片。对于剧本，我们要求Bard写一个关于旅行浣熊的短篇故事，并逐个场景分解和一系列随附提示。然后，我们为每个提示生成视频剪辑，并将所有生成的剪辑拼接在一起，制作出下面的最终视频。

当我们开发 VideoPoet 时，我们注意到该模型功能的一些优良特性，我们在下面重点介绍这些特性。

长视频

我们只需根据视频的最后 1 秒进行调节并预测接下来的 1 秒，即可生成更长的视频。通过反复链接此过程，我们表明该模型不仅可以很好地延长视频，而且即使在多次迭代后也能忠实地保留所有对象的外观。

以下是 VideoPoet 根据文本输入生成长视频的两个示例：

文本输入 “一名宇航员开始在火星上跳舞。然后，五颜六色的烟花在背景中绽放。” “FPV 镜头显示丛林中一座非常锋利的精灵石头城市，里面有一条湛蓝的河流、瀑布和巨大陡峭的垂直悬崖。”

视频输出

还可以交互式编辑 VideoPoet 生成的现有视频剪辑。如果我们提供输入视频，我们可以改变对象的运动来执行不同的操作。对象操作可以集中在第一帧或中间帧，从而实现高度的编辑控制。

例如，我们可以从输入视频中随机生成一些片段并选择所需的下一个片段。

左侧的输入视频用作条件，根据初始提示生成四个选项：“特写一个可爱的生锈的破旧蒸汽朋克机器人，上面覆盖着苔藓、潮湿和发芽的植被，周围是高高的草丛”。对于前三个输出，我们展示了未经提示的动作会发生什么。对于下面列表中的最后一个视频，我们在提示中添加了“在背景中冒烟的情况下启动”来指导动作。

图像到视频控制

类似地，我们可以对输入图像应用运动，根据文本提示将其内容编辑为所需状态。

使用不同的提示为绘画制作动画。左图：“一个女人转身看着镜头。”右图：“一个女人打哈欠。”**

相机运动

我们还可以通过将所需相机运动类型附加到文本提示中来精确控制相机运动。例如，我们通过模型生成了一张图像，提示是“冒险游戏概念图，雪山上的日出和清澈的河流”。下面的示例附加了给定的文本后缀以应用所需的运动。

从左到右的提示为：“缩小”、“移动变焦”、“左摇”、“弧线拍摄”、“起重机拍摄”、“FPV 无人机拍摄”。

评估结果

我们通过各种基准对 VideoPoet 的文本转视频生成能力进行评估，以将结果与其他方法进行比较。为了确保评估的客观性，我们在各种提示上运行了所有模型，没有挑选示例，并要求人们评估他们的偏好。下图以绿色突出显示了 VideoPoet 被选为以下问题的首选选项的百分比。

文本保真度

用户对文本保真度的偏好评级，即在准确遵循提示方面，有多少百分比的视频是受欢迎的。

动作趣味性

用户对动作趣味性的偏好评级，即在产生有趣动作方面，有多少比例的视频是受人青睐的。

基于上述情况，平均而言，人们选择 VideoPoet 中 24-35% 的示例作为跟随提示的效果优于竞争模型，而竞争模型的这一比例仅为 8-11%。评分者还认为 VideoPoet 中 41-54% 的示例更适合有趣的动作，而其他模型的这一比例仅为 11-21%。

结论

通过 VideoPoet，我们展示了 LLM 在各种任务中极具竞争力的视频生成质量，尤其是在视频中生成有趣且高质量的动作方面。我们的结果表明 LLM 在视频生成领域具有广阔的潜力。对于未来的发展方向，我们的框架应该能够支持“任意到任意”的生成，例如，扩展到文本到音频、音频到视频和视频字幕等。

要查看更多原始质量的示例，请参阅网站演示。

致谢

本研究得到众多贡献者的支持，包括 Dan Kondratyuk、Lijun Yu、Xiuye Gu、José Lezama、Jonathan Huang、Rachel Hornung、Hartwig Adam、Hassan Akbari、Yair Alon、Vighnesh Birodkar、Yong Cheng、Ming-Chang Chiu、Josh Dillon、Irfan Essa、Agrim Gupta、Meera Hahn、Anja Hauth、David Hendon、Alonso Martinez、David Minnen、David Ross、Grant Schindler、Mikhail Sirotenko、Kihyuk Sohn、Krishna Somandepalli、Huisheng Wang、Jimmy Yan、Ming-Hsuan Yang、Xuan Yang、Bryan Seybold 和 Lu Jiang。

我们特别感谢 Alex Siegman、Victor Gomes 和 Brendan Jou 管理计算资源。我们还要感谢 Aren Jansen、Marco Tagliasacchi、Neil Zeghidour 和 John Hershey 进行音频标记和处理、Angad Singh 为“Rookie the Raccoon”制作故事板、Cordelia Schmid 进行研究讨论、David Salesin、Tomas Izo 和 Rahul Sukthankar 提供支持，以及 Jay Yagnik 作为初始概念的架构师。

（a）《加利利海上的风暴》，伦勃朗 1633 年作，公共领域。

（b）《创世之柱》，美国宇航局 2014 年作，公共领域。

（c）《雾海上的流浪者》，卡斯帕·大卫·弗里德里希 1818 年作，公共领域。

（d）《蒙娜丽莎》，列奥纳多达芬奇 1503 年作，公共领域。

VideoPoet：用于零样本视频生成的大型语言模型

版权声明

相关推荐

评论