OpenAI又打出王炸！一句话生成60秒视频，马斯克：人类认输吧-电子发烧友网

电子发烧友网报道（文/梁浩斌）在大年初七，春节假期的尾声，OpenAI突然发布的AI文字生成视频模型Sora被全网刷屏，马斯克甚至感叹“gg Humans”（gg是good game的缩写，在竞技游戏中原意为称赞对方打得不错，但目前主流的含义是代表认输退出）。

文字生成视频的AI模型其实之前也有不少，比如去年11月美国AI初创公司Pika Labs发布的Pika 1.0；去年Runway推出了文生视频模型Gen-1，并完成了两次迭代；还有谷歌团队发布的视频生成模型VideoPoet。但问题在于，此前市面上的文生视频模型只能生成数秒，最高十多秒的视频。而Sora一上来就是60秒的视频长度，且生成视频的细节、质量几乎“秒杀”其他文生视频模型，这足以颠覆目前的视频生成模型初创公司的格局。

视频生成质量炸裂，好莱坞时代要结束了？

Sora生成的视频效果有多强？下面是OpenAI在官网展示的第一个视频，也是最能够表现Sora实力的视频。

这个视频的提示词为“一位时尚女士走在东京的街道上，街道上充满了温暖的霓虹灯和动画城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，拿着一个黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信而随意。街道潮湿且反光，形成了五颜六色灯光的镜面效果。许多行人四处走动。”

从视频中，无论是运镜还是人物、地面、背景的细节，还有拉进镜头后人物面部上的皱纹、毛发、墨镜上的反光，都几乎可以以假乱真，画面稳定不错位。在长达60秒的视频里，画面随镜头的大幅度运动并没有出现错位的情况，整体风格保持了惊人的一致性。

在复杂场景方面，另一个演示视频同样展现了Sora的炸裂效果。下面这个视频使用的提示词为：“一段美丽的自制视频展示了2056年尼日利亚拉各斯的人们。用手机相机拍摄。”

同样是运镜幅度巨大的场景，同时背景有大量的人物。在以往的文生图模型中，类似这种背景有人群的图片都会产生很多错位，很容易看出AI的痕迹，而在Sora生成的这个视频里，背景人群不仔细看很难发现有错误，特别是在动态的视频当中。另一方面在视频后半段的人物近景里，大幅度运动的镜头同样没有对人物造成影响，画面细节极为稳定。

Sora生成视频的稳定，不止于单镜头的运动，即使是多镜头的画面切换中，依然能够保持色彩、画面风格的一致

除了真实场景之外，Sora还能以动画风格生成视频。比如使用提示词：“动画场景特写了一个跪在融化的红烛旁的毛茸茸的小怪物。艺术风格是3D和现实主义的，重点是照明和纹理。这幅画的基调是惊奇和好奇，因为怪物睁大眼睛张着嘴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉，就好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。”

生成出的动画形象与皮克斯电影几乎不相上下，此前在动画电影中大费周章渲染出的毛发，如今AI直接一键生成！难怪会有网友表示“好莱坞的时代要结束了”。

有博主将Sora跟Pika、Runway、Stable Video等几个模型进行对比，对其输入同样的提示词：“美丽、多雪的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道，跟随几个享受美丽的下雪天气和在附近摊位购物的人。绚丽的樱花花瓣随着雪花随风飞舞。”

结果Sora生成的视频无论是时间长度、还是运镜、画面细节，都完胜其他几个模型生成出的视频。比如Pika和Runway生成的视频在短短几秒时间里都只有固定镜头画面，Stable Video有镜头移动的变化，但时长太短。

Sora还未完美，OpenAI揭秘背后技术

目前Sora还未对大众开放，OpenAI表示Sora正在面向部分用户开放，以评估关键领域的潜在危害或风险。同时，OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入以推动模型的发展。

当然，在惊艳的演示视频外，Sora的视频生成也并非完美。OpenAI也表示，目前的模型可能难以准确模拟复杂场景的物理特性，也可能不理解因果关系的具体实例，比如一个人咬了一口饼干，饼干上可能没有咬痕。Sora生成的视频还可能混淆提示词中关于空间的细节（比如左右），并且难以准确描述随时间发生的事件，比如跟随特定的镜头轨迹等。

比如上面动图中所使用的提示词为“五只灰狼崽在一条偏僻的碎石路上嬉戏追逐，周围都是草地。小狗们奔跑跳跃，相互追逐，相互撕咬，嬉戏玩耍”，但实际画面中灰狼数量出错，并且部分是凭空出现又凭空消失，出现身体互相重叠等现象。

对于Sora背后使用的技术，OpenAI在官网上发布了一篇报告进行了介绍，但只提到了方便大模型进行训练的数据处理方式和对Sora局限性的评价，没有太多技术细节。

根据介绍，Sora是一种diffusion模型，它从一个看起来像静态噪声的视频开始生成视频，并通过多个步骤去除噪声来逐渐转换视频。与GPT相似，Sora算法层面也采用了transformer，以释放出强大的扩展性能。

OpenAI表示，Sora是以过于公司对DALL·E和GPT模型的研究作为基础，使用了DALL·E 3中的重新标注技术。通过用一个能够生成详细描述的标注模型，为训练集中的所有视频生成详细的文字说明，这能够提高文字准确性的同时，还能提升视频的整体质量。

与DALL·E 3类似，OpenAI也使用了GPT将简短的用户提示词转换为更详细的文本，所以Sora能够准确理解用户提示，并生成对应视频。

另外，OpenAI还透露了Sora的其他能力，包括接受图像和文本说明输出视频、能够以时间线向前或向后扩展视频、生成图像、改变视频风格和环境、无缝连接两个不同视频等等。

业界大佬评价：“真的非常牛”“中美AI差距进一步拉大”

Sora的“刷屏”，引起了多位业内大佬的关注。前阿里技术副总裁贾扬清也感叹“Sora真的非常牛”，并认为对标OpenAI的公司有一波被其他大厂因为害怕错过AI而收购相关公司的机会。对于其他算法小厂，贾扬清建议“要不就算法上媲美OpenAI，要不就垂直领域深耕应用，要不就开源”，最后他预言AI infra（AI基础设施）的需求会继续猛增。

360董事长周鸿祎则回应了如何看待Sora的问题，他认为科技竞争最终比拼的是让人才密度和深厚积累，“很多人说 Sora的效果吊打Pika和Runway。这很正常，和创业者团队比，OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行，实际今天再次证明这种想法是非常可笑的。”

周鸿祎还表示，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。关于国内外的AI大模型差距，周鸿祎认为国内大模型发展距离GPT-4.0还有一年半的差距，并且相信OpenAl手里应该还藏着一些秘密武器。“奥特曼是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”

关于大模型本身，周鸿祎对Sora理解为OpenAl利用它的大语言模型优势，把LLM和 Diffusion结合起来训练，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。而得益于大量视频的训练，周鸿祎认为AI对世界的理解将远超文字学习，可能未来一到两年就能实现AGI（通用人工智能）。

而作为去年年底爆火的AI视频生成初创公司Pika创始人，郭文景将Sora的发布视为动力，表示“我们觉得这是一个很振奋人心的消息，我们已经在筹备直接冲，将直接对标 Sora。”