Google AI研究团队推出了一个名为VideoPoet的视频生成模型,它可以将语言模型转化为高质量的视频生成器。VideoPoet包含以下几个简单的组成部分:

  1. 一个预训练好的MAGVIT V2视频分词器和SoundStream音频分词器,可以将不同长度的图像、视频和音频剪辑转换成统一词汇中的一系列离散代码。这些代码与基于文本的语言模型兼容,有助于与其他模态(如文本)集成。
  2. 一个自回归语言模型,可以跨视频、图像、音频和文本模态,自回归地预测序列中下一个视频或音频标记。
  3. 在LLM训练框架中引入了多种多模态生成学习目标,包括文本转视频、文本转图像、图像转视频、视频帧延续、视频填充和扩充、视频风格化以及视频转音频。此外,这样的任务还可以组合在一起获得额外的零样本能力(例如,文本转音频)。

VideoPoet展示了目前最先进的视频生成能力,特别是在产生各种大型、有趣和高保真运动方面。VideoPoet模型支持生成正方形方向的视频,或纵向视频,以适应短视频内容的生成;它还支持从视频输入生成音频。

为了展示VideoPoet的能力,研究团队制作了一部短片,里面包含许多由该模型生成的短视频剪辑。他们让Bard写了一系列关于一只游历各地的浣熊的短故事提示,然后根据每个提示生成视频剪辑,并把所有剪辑拼接成了最终的YouTube短视频。

Google的这些AI展示经常难以转化为实际产品,难以为公众日常生活带来便利。AI研发与产品化之间存在一定的鸿沟。但VideoPoet为语言模型驱动高质量视频内容生成提供了可能性。我们期待它后续在更多应用场景的使用,为创作者提供更强大的工具。

此外,VideoPoet还可以在没有任何文本指导的情况下,为输入视频生成匹配的音频。可以取消视频静音来播放音频。这为无声视频提供了配音的可能。

相关阅读  谷歌发布通用人工智能系统 Gemini,多模态能力领先业内

Categorized in: