0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI又打出王炸!一句话生成60秒视频,马斯克:人类认输吧

Hobby观察 来源:电子发烧友网 作者:梁浩斌 2024-02-19 09:02 次阅读

电子发烧友网报道(文/梁浩斌)在大年初七,春节假期的尾声,OpenAI突然发布的AI文字生成视频模型Sora被全网刷屏,马斯克甚至感叹“gg Humans”(gg是good game的缩写,在竞技游戏中原意为称赞对方打得不错,但目前主流的含义是代表认输退出)。

文字生成视频的AI模型其实之前也有不少,比如去年11月美国AI初创公司Pika Labs发布的Pika 1.0;去年Runway推出了文生视频模型Gen-1,并完成了两次迭代;还有谷歌团队发布的视频生成模型VideoPoet。但问题在于,此前市面上的文生视频模型只能生成数秒,最高十多秒的视频。而Sora一上来就是60秒的视频长度,且生成视频的细节、质量几乎“秒杀”其他文生视频模型,这足以颠覆目前的视频生成模型初创公司的格局。

视频生成质量炸裂,好莱坞时代要结束了?

Sora生成的视频效果有多强?下面是OpenAI在官网展示的第一个视频,也是最能够表现Sora实力的视频。


这个视频的提示词为“一位时尚女士走在东京的街道上,街道上充满了温暖的霓虹灯和动画城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信而随意。街道潮湿且反光,形成了五颜六色灯光的镜面效果。许多行人四处走动。”

从视频中,无论是运镜还是人物、地面、背景的细节,还有拉进镜头后人物面部上的皱纹、毛发、墨镜上的反光,都几乎可以以假乱真,画面稳定不错位。在长达60秒的视频里,画面随镜头的大幅度运动并没有出现错位的情况,整体风格保持了惊人的一致性。

在复杂场景方面,另一个演示视频同样展现了Sora的炸裂效果。下面这个视频使用的提示词为:“一段美丽的自制视频展示了2056年尼日利亚拉各斯的人们。用手机相机拍摄。”

同样是运镜幅度巨大的场景,同时背景有大量的人物。在以往的文生图模型中,类似这种背景有人群的图片都会产生很多错位,很容易看出AI的痕迹,而在Sora生成的这个视频里,背景人群不仔细看很难发现有错误,特别是在动态的视频当中。另一方面在视频后半段的人物近景里,大幅度运动的镜头同样没有对人物造成影响,画面细节极为稳定。

Sora生成视频的稳定,不止于单镜头的运动,即使是多镜头的画面切换中,依然能够保持色彩、画面风格的一致

除了真实场景之外,Sora还能以动画风格生成视频。比如使用提示词:“动画场景特写了一个跪在融化的红烛旁的毛茸茸的小怪物。艺术风格是3D和现实主义的,重点是照明和纹理。这幅画的基调是惊奇和好奇,因为怪物睁大眼睛张着嘴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉,就好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。”


生成出的动画形象与皮克斯电影几乎不相上下,此前在动画电影中大费周章渲染出的毛发,如今AI直接一键生成!难怪会有网友表示“好莱坞的时代要结束了”。

有博主将Sora跟Pika、Runway、Stable Video等几个模型进行对比,对其输入同样的提示词:“美丽、多雪的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个享受美丽的下雪天气和在附近摊位购物的人。绚丽的樱花花瓣随着雪花随风飞舞。”

结果Sora生成的视频无论是时间长度、还是运镜、画面细节,都完胜其他几个模型生成出的视频。比如Pika和Runway生成的视频在短短几秒时间里都只有固定镜头画面,Stable Video有镜头移动的变化,但时长太短。

Sora还未完美,OpenAI揭秘背后技术

目前Sora还未对大众开放,OpenAI表示Sora正在面向部分用户开放,以评估关键领域的潜在危害或风险。同时,OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入以推动模型的发展。

当然,在惊艳的演示视频外,Sora的视频生成也并非完美。OpenAI也表示,目前的模型可能难以准确模拟复杂场景的物理特性,也可能不理解因果关系的具体实例,比如一个人咬了一口饼干,饼干上可能没有咬痕。Sora生成的视频还可能混淆提示词中关于空间的细节(比如左右),并且难以准确描述随时间发生的事件,比如跟随特定的镜头轨迹等。


比如上面动图中所使用的提示词为“五只灰狼崽在一条偏僻的碎石路上嬉戏追逐,周围都是草地。小狗们奔跑跳跃,相互追逐,相互撕咬,嬉戏玩耍”,但实际画面中灰狼数量出错,并且部分是凭空出现又凭空消失,出现身体互相重叠等现象。

对于Sora背后使用的技术,OpenAI在官网上发布了一篇报告进行了介绍,但只提到了方便大模型进行训练的数据处理方式和对Sora局限性的评价,没有太多技术细节。

根据介绍,Sora是一种diffusion模型,它从一个看起来像静态噪声的视频开始生成视频,并通过多个步骤去除噪声来逐渐转换视频。与GPT相似,Sora算法层面也采用了transformer,以释放出强大的扩展性能。

OpenAI表示,Sora是以过于公司对DALL·E和GPT模型的研究作为基础,使用了DALL·E 3中的重新标注技术。通过用一个能够生成详细描述的标注模型,为训练集中的所有视频生成详细的文字说明,这能够提高文字准确性的同时,还能提升视频的整体质量。

与DALL·E 3类似,OpenAI也使用了GPT将简短的用户提示词转换为更详细的文本,所以Sora能够准确理解用户提示,并生成对应视频。

另外,OpenAI还透露了Sora的其他能力,包括接受图像和文本说明输出视频、能够以时间线向前或向后扩展视频、生成图像、改变视频风格和环境、无缝连接两个不同视频等等。

业界大佬评价:“真的非常牛”“中美AI差距进一步拉大”

Sora的“刷屏”,引起了多位业内大佬的关注。前阿里技术副总裁贾扬清也感叹“Sora真的非常牛”,并认为对标OpenAI的公司有一波被其他大厂因为害怕错过AI而收购相关公司的机会。对于其他算法小厂,贾扬清建议“要不就算法上媲美OpenAI,要不就垂直领域深耕应用,要不就开源”,最后他预言AI infra(AI基础设施)的需求会继续猛增。

360董事长周鸿祎则回应了如何看待Sora的问题,他认为科技竞争最终比拼的是让人才密度和深厚积累,“很多人说 Sora的效果吊打Pika和Runway。这很正常,和创业者团队比,OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”

周鸿祎还表示,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。关于国内外的AI大模型差距,周鸿祎认为国内大模型发展距离GPT-4.0还有一年半的差距,并且相信OpenAl手里应该还藏着一些秘密武器。“奥特曼是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”

关于大模型本身,周鸿祎对Sora理解为OpenAl利用它的大语言模型优势,把LLM和 Diffusion结合起来训练,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。而得益于大量视频的训练,周鸿祎认为AI对世界的理解将远超文字学习,可能未来一到两年就能实现AGI(通用人工智能)。

而作为去年年底爆火的AI视频生成初创公司Pika创始人,郭文景将Sora的发布视为动力,表示“我们觉得这是一个很振奋人心的消息,我们已经在筹备直接冲,将直接对标 Sora。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26459

    浏览量

    264079
  • 算力
    +关注

    关注

    1

    文章

    659

    浏览量

    14360
  • OpenAI
    +关注

    关注

    8

    文章

    761

    浏览量

    5915
  • 大模型
    +关注

    关注

    2

    文章

    1532

    浏览量

    1130
收藏 人收藏

    评论

    相关推荐

    文生视频Pika 1.0爆火!一句话生成视频,普通人也能当“导演”

    几乎不需要任何门槛,用户只需要输入一句话,就可以生成想要的各种风格的视频,并通过简单的描述,更改视频中的形象和风格。   Pika labs官方宣传
    的头像 发表于 12-01 01:08 2979次阅读
    文生<b class='flag-5'>视频</b>Pika 1.0爆火!<b class='flag-5'>一句话</b><b class='flag-5'>生成</b><b class='flag-5'>视频</b>,普通人也能当“导演”

    马斯克指责OpenAI背离初衷,OpenAI否认并予以回应

    身为多家知名企业如特斯拉、SpaceX以及社交网络平台X的创始人,马斯克早在2015年OpenAI创立之初便同萨姆·奥尔特曼联手合作。然而自2018年退出公司之后,马斯克开始对OpenAI
    的头像 发表于 03-07 09:43 218次阅读

    OpenAI回应马斯克起诉:营利性条款存在分歧

    文章指出,致力于非盈利活动的OpenAI,共从马斯克处募资不足4500万美元(约合人民币3.24亿元),自其他捐赠者处募得9000余万美元(约合人民币6.48亿元)。
    的头像 发表于 03-06 12:01 164次阅读

    新火种AI|马斯克OpenAI开战!神秘Q星细节曝光,GPT-5被迫延迟?

    OpenAI的联合创始人和总裁Greg Brockman告上了法庭。这对于风头正盛的OpenAI来说,无异于一枚“深水炸弹”。 在马斯克的诉状里,他重点提及当年OpenAI与其签订的
    的头像 发表于 03-05 21:13 202次阅读
    新火种AI|<b class='flag-5'>马斯克</b><b class='flag-5'>OpenAI</b>开战!神秘Q星细节曝光,GPT-5被迫延迟?

    马斯克状告OpenAIOpenAI回应马斯克诉讼

    马斯克在长达46页、1.4万字的诉讼文件中,控诉OpenAI背离了其初衷——即致力于开发开源人工通用智能(AGI)并服务全人类
    的头像 发表于 03-04 15:33 510次阅读

    马斯克控告OpenAI违约、要求恢复开源;OpenAI否认三连

    2024年3月1日,特斯拉CEO埃隆·马斯克 (Elon Musk) 向美国旧金山高等法院提起诉讼,起诉OpenAI和该公司CEO山姆·阿尔特曼 (Sam Altman) ,OpenAI联合创始人
    的头像 发表于 03-04 13:59 251次阅读
    <b class='flag-5'>马斯克</b>控告<b class='flag-5'>OpenAI</b>违约、要求恢复开源;<b class='flag-5'>OpenAI</b>否认三连

    马斯克:AI发展速度前所未见 但马斯克起诉OpenAI及其创始人

    马斯克:AI发展速度前所未见  现在市场上对于任何OpenAI的消息都非常敏感,我们分享一下马斯克OpenAI起诉的一些事项。 马斯克在日
    的头像 发表于 03-02 15:29 1027次阅读

    马斯克称特斯拉视频生成技术超过Sora

    特斯拉CEO埃隆·马斯克在社交媒体平台上发表言论,声称特斯拉所掌握的视频生成技术超越了OpenAI最新发布的Sora模型。马斯克自信地表示,特斯拉在这一领域的技术实力堪称全球顶尖,甚至
    的头像 发表于 02-20 14:16 248次阅读

    Sora助推OpenAI估值飙升275%

    近日,人工智能领域的领军企业OpenAI发布了其首个文生视频模型——Sora。这款模型具备令人惊叹的能力:用户只需通过一句话,便能生成长达1分钟的高清
    的头像 发表于 02-20 14:12 196次阅读

    埃隆·马斯克拒绝OpenAI股份,质疑其合规性

    早前于2015年,马斯克协助创办、赞助并招揽重要人才到OpenAI这一非营利机构,然而在2018年的内部纷争后,与其分道扬镳退出董事局。OPENAI为获取更多融资及算力支持,2018年后转为商业化模式,并得到微软的巨额投资。
    的头像 发表于 02-20 11:26 149次阅读

    特斯拉视频生成技术超越OpenAI,展示真实模拟视频

    马斯克早先也曾指出,其公司自一年前便具备相似OpenAI视频生成能力。不仅如此,一名X用户对此表示赞赏,认为OpenAI的研究成就证明了特斯拉的实力。
    的头像 发表于 02-19 16:52 502次阅读

    马斯克人类首次植入脑机接口芯片

    近日,马斯克在社交媒体上宣布了一个里程碑式的成就:人类首次植入了脑机接口(Neuralink)芯片植入手术,并且恢复良好。
    的头像 发表于 01-31 09:50 368次阅读

    马斯克再次对OpenAI首席科学家抛出橄榄枝

    马斯克在2015年帮助建立、资助和吸引主要人才加入openai非营利组织,并说服苏茨克维从谷歌出来加入openai。2018年,马斯克因与opena
    的头像 发表于 12-11 09:32 221次阅读

    马斯克:人类已经是半机器人

    马斯克:人类已经是半机器人? 就在脑机接口如火如荼之际还冒出来这个说法,似乎有点耸人听闻。 马斯克近日在推特上发文称因为我们的记忆大部分都外包给了电脑;所以可以说人类已经是半机器人了。
    的头像 发表于 06-13 23:47 1164次阅读

    微软 CEO 反驳马斯克:我们没有控制 OpenAI

    、推特、SpaceX 掌门人埃隆・马斯克(Elon Musk)曾公开表示,如果微软没有直接控制 OpenAI,它应该也拥有很强的发言权。马斯克对于 AI 的发展持批评态度,他曾与 270000 多人发表公开信
    的头像 发表于 05-18 08:41 353次阅读
    微软 CEO 反驳<b class='flag-5'>马斯克</b>:我们没有控制 <b class='flag-5'>OpenAI</b>