0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI文生视频模型Sora要点分析

架构师技术联盟 来源:芯智讯 2024-02-22 16:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

​ 近日,美国人工智能公司OpenAI发布了首个视频生成模型Sora。不同于此前许多AI大模型文生图或视频时,会出现人物形象前后不一致等问题,此次OpenAI展示的Sora生成的视频中的主角、背景人物,都展现了极强的一致性,可以支持60秒一镜到底,并包含高细致背景、多角度镜头,以及富有情感的多个角色,可谓是相当的“炸裂”。甚至有不少人疾呼,传统视频制作行业将会被“革命”!

相关内容参考“OpenAI视频模型Sora替代品分析(2024)”、“一场AI“革命”开始,OpenAI文生视频模型Sora”。

据OpenAI官网介绍,Sora“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题”。据了解,此次大模型完美继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟的高清视频。并且在随后公布的多段AI生成的视频中,无论镜头如何切换,人物前后都保持了高度的稳定性。

总结来说,Sora大模型的强大之处主要有以下六点:

1、文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。

2、复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。

3、语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。

4、多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。

5、从静态图像生成视频能力:Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。

6、物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。 可以说,Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够将人们的想象力转化为生动的动态画面,将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来,Sora正以其独特的方式,或将重新定义我们与数字世界的互动。

OpenAI在模型公布后的不久,就公布了相关的技术论文《Video generation models as world simulators》。以下为论文的主要内容:

a492a0d4-d119-11ee-a297-92fbcf53809c.png

Sora的技术特点

三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。

模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力

长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。

与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。

训练过程

Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。

Sora实际上是一种扩散型变换器模型(diffusion transformer)。首先将视频压缩到一个低维潜在空间中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。它能够接受带有噪声的patch(和条件信息,如文本提示)作为输入,随后被训练,来预测原始的“干净”patch。

a497c9e2-d119-11ee-a297-92fbcf53809c.png

训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。

对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

随着 Sora 训练计算量的增加,样本质量有了显著提升。

Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。

它还可以先以较低分辨率快速制作出视频原型,再用相同的模型制作出全分辨率的视频。

训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

与DALL·E 3相似,也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。

论文关键点

OpenAI 的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。这项研究特别关注于文本条件扩散模型,这些模型同时在视频和图像上进行训练,处理不同时长、分辨率和宽高比的数据。研究中提到的最大模型 Sora 能够生成长达一分钟的高保真视频。以下是论文的一些关键点:

统一的视觉数据表示:研究者们将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。Sora 使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记。

视频压缩网络:研究者们训练了一个网络,将原始视频压缩到一个低维潜在空间,并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练,并生成视频。

扩散模型:Sora 是一个扩散模型,它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。

视频生成的可扩展性:Sora 能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。

语言理解:为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。

图像和视频编辑:Sora 不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。

模拟能力:当视频模型在大规模训练时,它们展现出了一些有趣的新兴能力,使得 Sora 能够模拟物理世界中的某些方面,如动态相机运动、长期一致性和对象持久性等。

虽然存在不足之处,但这不是关键

尽管 Sora 展示了作为模拟器的潜力,但它仍然存在许多局限性,例如在模拟基本物理交互时的准确性不足。

比如下面这个由 Sora 生成的视频当中,动物的数量随着时间的推移出现了明显的错乱,多个动物凭空出现又凭空消失了。此外,在一些生成的视频当中还会出现违反物理规则的现象。但是,对于新生的Sora来说,这些都不是关键,后续完全能够通过技术迭代来进行完善和改进。

这也是为什么,Sora虽然有一些不完美之处,但是外界仍一致认为它将会革命性地改变许多行业。

可以说,目前的Sora已经拥有了足以改变视频广告行业的能力,如果持续迭代,并在保持稳定性和一致性的前提下,进一步支持更复杂的交互、更长的视频时长,并加入更为丰富的AI视频编辑功能,必将对于现有的影视制作产业带来革命。

试想一下,如果将一部小说输入Sora就能够生成一部高质量的电影,这将会是多么的激动人心!这将极大的降低视频创作的门槛,并提升视频的质量,这对于整个行业来说都将带来更为积极的意义。当然,这也将会冲击到现有的传统视频制作产业链上的诸多从业者,恐怕很多演员、导演、摄影师,以及很多相关的服装、化妆、道具人员都将要失业了。

来源:芯智讯 原文:

https://mp.weixin.qq.com/s/_WIFlmCzQHS4K1fRSkgmYg





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1226

    浏览量

    43840
  • 变换器
    +关注

    关注

    17

    文章

    2192

    浏览量

    112850
  • 人工智能
    +关注

    关注

    1821

    文章

    50511

    浏览量

    267745
  • OpenAI
    +关注

    关注

    9

    文章

    1262

    浏览量

    10327
  • Sora
    +关注

    关注

    0

    文章

    88

    浏览量

    864

原文标题:一场AI“革命”开始,OpenAI文生视频模型Sora要点分析

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ARK7118 AHD视频输出电路设计要点与硬件实现分析

    ARK7118 AHD视频输出电路设计要点与硬件实现分析--替换MS7024(功耗低) 作为面向AHD模拟高清视频输出的专用处理芯片,ARK7118在车载、安防等
    的头像 发表于 04-23 15:02 750次阅读

    沐曦股份曦云C系列GPU产品Day 0适配百度文心ERNIE-Image文生模型

    4月15日,百度文心大模型团队重磅推出ERNIE‑Image文生模型,沐曦股份曦云 C 系列 GPU 已完成对 ERNIE‑Image 的Day 0 深度适配,同步支持 ERNIE‑Image Turbo 极速推理版本,以轻量
    的头像 发表于 04-15 17:39 600次阅读

    Firefly-RK1828 赋能视频模型:多目标+全场景,引领智能分析新风向

    如今,在视频分析领域,传统检测模型存在这一局限:单个模型只能聚焦单一目标检测,面对复杂场景中多样的检测需求时,往往需要多套模型叠加部署才能满
    的头像 发表于 04-15 16:35 1367次阅读
    Firefly-RK1828 赋能<b class='flag-5'>视频</b>大<b class='flag-5'>模型</b>:多目标+全场景,引领智能<b class='flag-5'>分析</b>新风向

    海光DCU Day0适配百度文心ERNIE-Image文生模型

      今天,百度文心大模型团队发布ERNIE-Image文生模型,海光DCU同步完成Day0适配与深度调优。全球开发者、科研机构和企业现可免费在光合开发者社区下载模型并使用,以极致轻量
    的头像 发表于 04-15 15:47 392次阅读

    昆仑万维天工AI大模型SkyReels V4登上Artificial Analysis榜单全球第一

    、Google Veo 3.1、Vidu Q3、OpenAI Sora 2等全球主流模型,成为全球AI视频生成能力最强的大模型,标志中国AI
    的头像 发表于 03-26 10:10 1177次阅读

    GPT-5.1发布 OpenAI开始拼情商

    OpenAI正式上线了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有网友实测发现OpenAI新发布的GPT-5.1大模型的指令执行能力更强了,可以更
    的头像 发表于 11-13 15:49 892次阅读

    OpenAI Sora 2模型上线微软Azure AI Foundry国际版

    我们非常激动地宣布,OpenAI 的新一代多模态视频生成模型 Sora 2 现已在 Azure AI Foundry(国际版)上线,进入公共预览阶段。
    的头像 发表于 10-22 09:44 1044次阅读
    <b class='flag-5'>OpenAI</b> <b class='flag-5'>Sora</b> 2<b class='flag-5'>模型</b>上线微软Azure AI Foundry国际版

    Sora2五天下载量破百万!超越ChatGPT增长速度,App Store免费榜霸榜第一

    比ChatGPT用户增长速度还要快的APP,它来了!但……还是OpenAI它一家的,还是咱们的老熟人Sora2。五天下载量破百万次,同时轻松拿下AppStore免费榜第一。好好好,现在OpenAI
    的头像 发表于 10-13 16:39 1904次阅读
    <b class='flag-5'>Sora</b>2五天下载量破百万!超越ChatGPT增长速度,App Store免费榜霸榜第一

    OpenAI开源模型登陆IBM watsonx.ai开发平台

    OpenAI 已向公众发布了两款 AI 模型,允许开发者和企业可自由下载、运行并进行定制。其中一款模型现已部署在 IBM watsonx.ai 开发平台上。
    的头像 发表于 08-26 15:36 1212次阅读

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b 在 DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎,在本地享受企业级 AI 生产力!
    的头像 发表于 08-14 11:34 1656次阅读

    亚马逊云科技现已上线OpenAI开放权重模型

    客户现可通过Amazon Bedrock和Amazon SageMaker AI使用OpenAI开放权重模型,实现将先进的开放权重模型与全球最广泛云服务的深度集成。 亚马逊云科技首次上线Ope
    的头像 发表于 08-06 19:29 1025次阅读

    OpenAI发布2款开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 发布了!我们做了一个开放模型
    的头像 发表于 08-06 14:25 1205次阅读

    模型在半导体行业的应用可行性分析

    的应用,比如使用机器学习分析数据,提升良率。 这一些大模型是否真的有帮助 能够在解决工程师的知识断层问题 本人纯小白,不知道如何涉足这方面 应该问什么大模型比较好,或者是看什么视频能够
    发表于 06-24 15:10

    将Whisper大型v3 fp32模型转换为较低精度后,推理时间增加,怎么解决?

    openai/whisper-large-v3 FP32 模型转换为 FP16、INT8 和 INT4。 推理所花费的时间比在 FP32 上花费的时间要多
    发表于 06-24 06:23

    4K、多模态、长视频:AI视频生成的下一个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成多镜头无缝切换的1080
    的头像 发表于 06-16 00:13 7636次阅读