0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI又打出王炸!一句话生成60秒视频,马斯克:人类认输吧

Hobby观察 来源:电子发烧友网 作者:梁浩斌 2024-02-19 09:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/梁浩斌)在大年初七,春节假期的尾声,OpenAI突然发布的AI文字生成视频模型Sora被全网刷屏,马斯克甚至感叹“gg Humans”(gg是good game的缩写,在竞技游戏中原意为称赞对方打得不错,但目前主流的含义是代表认输退出)。

文字生成视频的AI模型其实之前也有不少,比如去年11月美国AI初创公司Pika Labs发布的Pika 1.0;去年Runway推出了文生视频模型Gen-1,并完成了两次迭代;还有谷歌团队发布的视频生成模型VideoPoet。但问题在于,此前市面上的文生视频模型只能生成数秒,最高十多秒的视频。而Sora一上来就是60秒的视频长度,且生成视频的细节、质量几乎“秒杀”其他文生视频模型,这足以颠覆目前的视频生成模型初创公司的格局。

视频生成质量炸裂,好莱坞时代要结束了?

Sora生成的视频效果有多强?下面是OpenAI在官网展示的第一个视频,也是最能够表现Sora实力的视频。


这个视频的提示词为“一位时尚女士走在东京的街道上,街道上充满了温暖的霓虹灯和动画城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信而随意。街道潮湿且反光,形成了五颜六色灯光的镜面效果。许多行人四处走动。”

从视频中,无论是运镜还是人物、地面、背景的细节,还有拉进镜头后人物面部上的皱纹、毛发、墨镜上的反光,都几乎可以以假乱真,画面稳定不错位。在长达60秒的视频里,画面随镜头的大幅度运动并没有出现错位的情况,整体风格保持了惊人的一致性。

在复杂场景方面,另一个演示视频同样展现了Sora的炸裂效果。下面这个视频使用的提示词为:“一段美丽的自制视频展示了2056年尼日利亚拉各斯的人们。用手机相机拍摄。”

同样是运镜幅度巨大的场景,同时背景有大量的人物。在以往的文生图模型中,类似这种背景有人群的图片都会产生很多错位,很容易看出AI的痕迹,而在Sora生成的这个视频里,背景人群不仔细看很难发现有错误,特别是在动态的视频当中。另一方面在视频后半段的人物近景里,大幅度运动的镜头同样没有对人物造成影响,画面细节极为稳定。

Sora生成视频的稳定,不止于单镜头的运动,即使是多镜头的画面切换中,依然能够保持色彩、画面风格的一致

除了真实场景之外,Sora还能以动画风格生成视频。比如使用提示词:“动画场景特写了一个跪在融化的红烛旁的毛茸茸的小怪物。艺术风格是3D和现实主义的,重点是照明和纹理。这幅画的基调是惊奇和好奇,因为怪物睁大眼睛张着嘴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉,就好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。”


生成出的动画形象与皮克斯电影几乎不相上下,此前在动画电影中大费周章渲染出的毛发,如今AI直接一键生成!难怪会有网友表示“好莱坞的时代要结束了”。

有博主将Sora跟Pika、Runway、Stable Video等几个模型进行对比,对其输入同样的提示词:“美丽、多雪的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个享受美丽的下雪天气和在附近摊位购物的人。绚丽的樱花花瓣随着雪花随风飞舞。”

结果Sora生成的视频无论是时间长度、还是运镜、画面细节,都完胜其他几个模型生成出的视频。比如Pika和Runway生成的视频在短短几秒时间里都只有固定镜头画面,Stable Video有镜头移动的变化,但时长太短。

Sora还未完美,OpenAI揭秘背后技术

目前Sora还未对大众开放,OpenAI表示Sora正在面向部分用户开放,以评估关键领域的潜在危害或风险。同时,OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入以推动模型的发展。

当然,在惊艳的演示视频外,Sora的视频生成也并非完美。OpenAI也表示,目前的模型可能难以准确模拟复杂场景的物理特性,也可能不理解因果关系的具体实例,比如一个人咬了一口饼干,饼干上可能没有咬痕。Sora生成的视频还可能混淆提示词中关于空间的细节(比如左右),并且难以准确描述随时间发生的事件,比如跟随特定的镜头轨迹等。


比如上面动图中所使用的提示词为“五只灰狼崽在一条偏僻的碎石路上嬉戏追逐,周围都是草地。小狗们奔跑跳跃,相互追逐,相互撕咬,嬉戏玩耍”,但实际画面中灰狼数量出错,并且部分是凭空出现又凭空消失,出现身体互相重叠等现象。

对于Sora背后使用的技术,OpenAI在官网上发布了一篇报告进行了介绍,但只提到了方便大模型进行训练的数据处理方式和对Sora局限性的评价,没有太多技术细节。

根据介绍,Sora是一种diffusion模型,它从一个看起来像静态噪声的视频开始生成视频,并通过多个步骤去除噪声来逐渐转换视频。与GPT相似,Sora算法层面也采用了transformer,以释放出强大的扩展性能。

OpenAI表示,Sora是以过于公司对DALL·E和GPT模型的研究作为基础,使用了DALL·E 3中的重新标注技术。通过用一个能够生成详细描述的标注模型,为训练集中的所有视频生成详细的文字说明,这能够提高文字准确性的同时,还能提升视频的整体质量。

与DALL·E 3类似,OpenAI也使用了GPT将简短的用户提示词转换为更详细的文本,所以Sora能够准确理解用户提示,并生成对应视频。

另外,OpenAI还透露了Sora的其他能力,包括接受图像和文本说明输出视频、能够以时间线向前或向后扩展视频、生成图像、改变视频风格和环境、无缝连接两个不同视频等等。

业界大佬评价:“真的非常牛”“中美AI差距进一步拉大”

Sora的“刷屏”,引起了多位业内大佬的关注。前阿里技术副总裁贾扬清也感叹“Sora真的非常牛”,并认为对标OpenAI的公司有一波被其他大厂因为害怕错过AI而收购相关公司的机会。对于其他算法小厂,贾扬清建议“要不就算法上媲美OpenAI,要不就垂直领域深耕应用,要不就开源”,最后他预言AI infra(AI基础设施)的需求会继续猛增。

360董事长周鸿祎则回应了如何看待Sora的问题,他认为科技竞争最终比拼的是让人才密度和深厚积累,“很多人说 Sora的效果吊打Pika和Runway。这很正常,和创业者团队比,OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”

周鸿祎还表示,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。关于国内外的AI大模型差距,周鸿祎认为国内大模型发展距离GPT-4.0还有一年半的差距,并且相信OpenAl手里应该还藏着一些秘密武器。“奥特曼是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”

关于大模型本身,周鸿祎对Sora理解为OpenAl利用它的大语言模型优势,把LLM和 Diffusion结合起来训练,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。而得益于大量视频的训练,周鸿祎认为AI对世界的理解将远超文字学习,可能未来一到两年就能实现AGI(通用人工智能)。

而作为去年年底爆火的AI视频生成初创公司Pika创始人,郭文景将Sora的发布视为动力,表示“我们觉得这是一个很振奋人心的消息,我们已经在筹备直接冲,将直接对标 Sora。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41060

    浏览量

    302569
  • 算力
    +关注

    关注

    2

    文章

    1670

    浏览量

    16832
  • OpenAI
    +关注

    关注

    9

    文章

    1249

    浏览量

    10277
  • 大模型
    +关注

    关注

    2

    文章

    3765

    浏览量

    5269
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一句话让大模型控制硬件:手把手教你给 EmbedClaw 添加自己的 Tool!

    很多人第次看到EmbedClaw会有种错觉:然而事实是:不能直接操作,但可以通过Tool去操作。这也是EmbedClaw很有意思的点。它不是把大模型硬塞进ESP32里当聊天机器人,而是把LLM
    的头像 发表于 04-01 18:32 139次阅读
    <b class='flag-5'>一句话</b>让大模型控制硬件:手把手教你给 EmbedClaw 添加自己的 Tool!

    逆天了!把OpenClaw装入ESP32-S3上是种什么体验

    最近小龙虾OpenClaw实在是太火了,相信你或多或少都刷到过。如果一句话解释什么是OpenClaw:款可以运行在任何系统上的A
    的头像 发表于 03-22 10:05 721次阅读
    逆天了!把OpenClaw装入ESP32-S3上是<b class='flag-5'>一</b>种什么体验

    马斯克的预言:AI使人类边缘化

    当地时间3月11日,在“Abundance Summit”科技峰会上,马斯克谈及AI进展时表示,AI已经进入自我改进阶段,在超高量级AI面前,人类终将走向边缘化。以下是对这预言的相关分析: 预言
    发表于 03-14 05:27

    当光伏飞向太空:霍尔电流传感器如何守护马斯克的100GW“天基电网”?

    100座中型核电站。什么是“太空光伏”?“太空光伏”般是指在地球轨道或更高的轨道部署太阳光伏组件,利用太空中全天候、强辐照的太阳光产生电力。马斯克之所以有这个太
    的头像 发表于 01-12 15:14 2962次阅读
    当光伏飞向太空:霍尔电流传感器如何守护<b class='flag-5'>马斯克</b>的100GW“天基电网”?

    2026年,人类文明重构的元年 | 马斯克的预言

    2026年元旦的钟声尚未消散,埃隆·马斯克在社交平台X的篇跨年博文已引爆全球科技圈:"HappyNewYear!2026willbeabanger.""2026将会
    的头像 发表于 01-04 07:42 4337次阅读
    2026年,<b class='flag-5'>人类</b>文明重构的元年 | <b class='flag-5'>马斯克</b>的预言

    EMMI-InGaAs 与 OBIRCH:分钟教你看懂两款失效定位设备原理与应用

    一句话区别总结 EMMI 看光 → 漏电、击穿这类“会发光的异常” OBIRCH 看热 → 金属短路、高阻这类“无光但致命的问题”
    的头像 发表于 12-05 16:21 1349次阅读
    EMMI-InGaAs 与 OBIRCH:<b class='flag-5'>一</b>分钟教你看懂两款失效定位设备原理与应用

    一句话,多个命令同时执行,AI语音模组也能多任务处理?

    、 Ai-WV02-32S   将语音识别、唤醒、语义理解等核心功能, 浓缩在颗小小的模组中。 安信可AI语音模组支持 MCP 协议(Multi Command Processing,多命令并行处理) ,让语音交互从“单线程”进化为真正的“多任务协同”! 一句话唤醒“
    的头像 发表于 10-31 14:45 670次阅读
    <b class='flag-5'>一句话</b>,多个命令同时执行,AI语音模组也能多任务处理?

    真正免费的AI生成PPT工具盘点:告别收费陷阱

    的战斗机",其他9款工具也各有绝活,保证让你告别收费陷阱,轻松做出专业级PPT! 、AiPPT:一句话生成PPT的"时间管理大师" 一句话生成
    的头像 发表于 10-30 15:43 6916次阅读
    真正免费的AI<b class='flag-5'>生成</b>PPT工具盘点:告别收费陷阱

    智多晶SA5T-200 FPGA开发板重磅发布

    在科技飞速发展的今天,硬件与软件的融合正不断重塑我们的世界。而在芯片领域,流传着这样一句话:“软件定义世界,FPGA定义未来”。
    的头像 发表于 10-11 11:45 1146次阅读

    一句话了解21种计算模式

    、智能化趋势、安全与可持续四个维度,梳理了21种计算模式,并尽量用通俗易懂的一句话向您介绍每种模式的定义。架构与资源维度并行计算:把大任务拆成多个小任务,让多颗处理器
    的头像 发表于 08-06 14:31 860次阅读
    <b class='flag-5'>一句话</b>了解21种计算模式

    2025 AI主战场,连锁门店“变形记”

    让业务驾驭AI,当大模型的价值通过“取汉堡更快”“一句话点咖啡”来实现,这场技术变革才算真正落地
    的头像 发表于 07-24 12:41 1382次阅读
    2025 AI主战场,连锁门店“变形记”

    一句话出PPT“的荣耀YOYO,AI生产力有多强?

    释放AI生产力,荣耀让智能体告别发布会炫技
    的头像 发表于 07-14 14:15 2816次阅读
    “<b class='flag-5'>一句话</b><b class='flag-5'>秒</b>出PPT“的荣耀YOYO,AI生产力有多强?

    马斯克的“星链”卫星,大批坠落

    电子发烧友网综合报道 据俄罗斯《共青团真理报》6月8日报道,埃隆·马斯克的太空探索技术公司发射的“星链”卫星接连坠落。由美国国家航空航天局(NASA)戈达德航天中心的物理学家丹尼·奥利维拉领导的研究
    的头像 发表于 06-11 00:07 1.1w次阅读

    CYW55513是否支持linux4.4?

    开始支持55513的驱动版本是Infineon Linux Wi-Fi驱动程序(FMAC)(v2024_1115) 但在发行说明中有一句话 从内核版本 4.14 到内核版本 6.1.97 的反向移植支持 说明backport是不支持4.4的,我想确认下是否有驱动能支持l
    发表于 06-05 07:26

    马斯克回归“7×24硬核模式”,FSD与Optimus双线狂飙

    这场 "马斯克式狂飙" 能否冲破技术瓶颈与市场质疑?2025 年的得州街头,或许会给出第个答案。
    的头像 发表于 05-27 16:18 767次阅读