OpenAI在他们的Twitter上宣布:”我们很高兴地介绍Sora,这是我们的文字转视频模型。Sora能够创建高达60秒的视频,展示高度详细的场景,复杂的镜头运动,以及拥有丰富情感的多个角色。”

这是我们见过的最好的AI文字转视频生成工具。在此之前,我们只能一次创建3或4秒的视频,如果我们想要更长的视频,我们可以延长它,最长可以达到大约16秒。但现在,这款AI能够一次性生成60秒的超级逼真的视频。

Sora

Sora的实际表现如何?

Greg Brockman也在Twitter上宣布了Sora的发布,他分享了一个AI生成的视频,视频中是一个女人在好像是东京的夜晚雨后的街道上行走。这个视频的真实感令人惊叹,我们还从未在AI视频生成技术中看到过这样的效果。

如果你去OpenAI的官方网站,你可以找到所有关于Sora的信息,以及它可以创建的各种类型的视频示例。但遗憾的是,我们目前还无法获得这个模型的使用权限。OpenAI团队成员Sam Altman在他的推特上写道:”今天,我们开始进行红队测试,并向一部分创作者提供使用权限。”我不知道他们是如何选择这些创作者的,也不清楚谁能获得使用权限,但据我所知,现在还没有多少人能够使用这款模型。

另外一个让人震惊演示就是Sora对反射效果的处理,看起来非常真实。

至于Sora是如何实现的,虽然在技术报告中没有详细说明,但他们在引用的文献中给出了一些线索。例如,他们引用了Google的Vision Transformers、DeepMind等公司的一些论文。Sora的实现,很大程度上依赖于这些先进的技术。

Sora 的技能和工作原理

Sora 来自日语中的“天空”。它是一个文本生成视频模型。

Sora 并不是我们第一个见到的 AI 视频模型,我们已经有了像稳定视频扩散这样的开放模型,还有像 Pika 这样的私有产品。但 Sora 的出现,无疑让所有东西都黯然失色。不仅图像更逼真,而且它们可以长达一分钟,且能在帧间保持连贯性。它们还可以以不同的宽高比进行渲染。你可以通过文字提示来描述你想看到的内容,或者从一个开始的图像出发,让它变得生动起来。

现在你可能在想,你如何能够得到这个东西。但等等,如果这种强大的模型落入到一些随机的人手中,你只能想象它将被用来做什么恐怖的事情。🔞

这个模型极有可能永远不会被公开,当它们发布的时候,视频将会有 c2p 元数据,这基本上是一个监视装置,记录内容从何而来以及它是如何被修改的。

尽管如此,我们还是对这个模型的工作原理有一些了解。它可能需要大量的计算能力,就在几周前,Sam Altman 向全世界请求了 7 万亿美元,以购买大量的 GPU。是的,这是一个以 T 开头的数字,甚至 Jensen Wong 都嘲笑这个数字,因为要完成这项工作,实际上只需要大约 2 万亿美元。但也许 Jensen 是错的,视频模型的扩展将需要大量的 GPU。让我们来看看他们是如何工作的。

Sora 是一个扩散模型,类似于 Dolly 和稳定扩散,你从一些随机噪声开始,然后逐渐更新这些噪声,以生成一个连贯的图像。现在,一个单一的静态图像中有大量的数据,比如一个 1000 像素乘以 1000 像素乘以三个颜色通道的图像,就有 300 万个数据点。这是一个很大的数字,但如果我们有一分钟的视频,每秒 60 帧,那么我们就有超过 100 亿个数据点需要生成。

为了理解这些数据,他们采取了类似于大型语言模型的方法,这些模型将文本(如代码和诗歌)进行标记。然而,Sora 并不是标记文本,而是视觉补丁。这些就像是小型的压缩图像块,既捕获了它们的视觉外观,又捕获了它们如何随着时间的推移或逐帧移动。有趣的是,视频模型通常会将他们的训练数据和输出裁剪到特定的时间和分辨率,但 Sora 可以在其原始分辨率上训练数据,并输出可变的分辨率。这真是太酷了。

Sora 如何改变世界?

这项技术将如何改变世界呢?去年,像 Photoshop 这样的工具获得了一整套 AI 编辑工具,未来我们将能够在视频中做同样的事情。比如,你可能有一辆车正在马路上行驶,你想改变背景的风景,现在你可以在 10 秒内完成这个任务,而不是雇用一个摄像师和 CGI 专家。或者,你可能想要自己导演一部电影,AI 通过窃取其他人的艺术作品,可以实现这一点。

目前,我们还无法直接使用这个工具来制作整个电影。但如果你看看我们从一年前到现在的进步,你就会明白,我们离这个目标已经越来越近了。在2023年2月,我们只能生成的视频质量较低,且只有3或4秒。而现在,我们可以生成长达60秒,且质量极高的视频。

我坚信,电影导演和摄影师们并不需要担心他们的工作会被取代。我认为AI将给他们带来超能力,使他们能够更容易地制作视频,获取他们无法得到的镜头。我不赞同那些认为导演和摄影师将被取代的观点。相反,我认为他们将因为AI而变得更加强大。

相关阅读  Upscayl - 免费在本地运行的AI图像放大器

Categorized in: