0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

复盘与分析:Sora是如何成功的?

架构师技术联盟 来源:架构师技术联盟 2024-02-25 16:44 次阅读

本文来自“技术复盘与分析:Sora是如何成功的?”,报告深入分析了Sora的各项能力、采用的技术路线和创新性的工作。我们认为Sora是将之前的研究工作上进行了很好的综合,并在强大的算力、工程能力以及GPT和DALL·E模型技术积累下诞生的。

随着OpenAI将这种具有开创性的技术路径走通,国内模型和应用厂商有望快速迭代出类Sora的视频生成模型和应用产品

Sora的突破可以概括为以下几点:

➢ 从生成效果看,突破此前视频生成模型的时长限制,能够生成60s时长、分辨率1080p的视频,可用性极高。

➢ 从技术路线看,依旧遵从LLM范式“大力出奇迹”,通过patches向量化与transformer架构结合,使得训练数据能够使用大小、尺寸、分辨率不同的视频,能够让模型学习到视频的规律乃至世界的规律;使用GPT生成prompt,在训练和推理过程中解决了模态之间的对齐问题,大大提升了生成效果。

➢ 从产业发展看,Sora通用性极强,有望统一视频生成生态;能够进一步赋能与促进下游应用发展,未来有望成为真正的“世界模拟器” 。

ac7bf4aa-d383-11ee-a297-92fbcf53809c.jpg

ac801396-d383-11ee-a297-92fbcf53809c.jpg

ac83b55a-d383-11ee-a297-92fbcf53809c.jpg

acab66ea-d383-11ee-a297-92fbcf53809c.jpg

acb72408-d383-11ee-a297-92fbcf53809c.jpg

acbb11ee-d383-11ee-a297-92fbcf53809c.jpg

acbeff84-d383-11ee-a297-92fbcf53809c.jpg

acd36ed8-d383-11ee-a297-92fbcf53809c.jpg

ace01d36-d383-11ee-a297-92fbcf53809c.jpg

aceb4788-d383-11ee-a297-92fbcf53809c.jpg

acefcf6a-d383-11ee-a297-92fbcf53809c.jpg

Sora的诞生无异是产业的里程碑,以其为代表的“多模型协同”方式是接近AGI的可行道路。与Gemini这样的多模态模型不同,Sora的核心能力依旧在视频生成领域,且在推理时需要调用GPT的能力重述prompt。这种方式可能不如Gemini符合直觉,但效果非常显著,大大加速了产业走向AGI的过程。

Sora代表LLM的通用和涌现范式在视频领域的成功复现,因此算力依旧是模型与应用厂商布局的关键。通过巧妙的patches嵌入方法,Sora能够运用高效的Transformer架构在海量的视频上进行训练,因此也涌现了模拟现实世界的能力。在其他技术路径的模型获得更好的效果之前,这种“大力出奇迹”的训练方式将依旧是产业的主流,算力需求将持续迎来更大的爆发。

Sora可能成为视频生成领域的Base Model,模型层的竞争格局可能走向收敛。相比其他轻应用,Sora的生成时长更长、质量更高,能够完全替代这些轻应用。因此在多数场景下,Sora都能取代其他的生成模型和应用,最终使视频模型格局走向收敛。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47696
  • GPT
    GPT
    +关注

    关注

    0

    文章

    302

    浏览量

    14869
  • Sora
    +关注

    关注

    0

    文章

    73

    浏览量

    129

原文标题:复盘与分析:Sora是如何成功的?

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    连续时间LTI系统的频域分析.ppt

    连续时间LTI系统的频域分析.ppt用拉氏变换法分析电路的步骤一.微分方程的拉氏变换 二.基于 s 域模型的电路分析
    发表于 09-16 08:38

    关于的基础知识介绍

    2018年9月行动
    发表于 07-24 09:48

    什么是SORA?跟传统的无线通讯系统有什么不同?

    什么是SORA?跟传统的无线通讯系统有什么区别?
    发表于 08-02 06:59

    零售数据分析|怎么知道哪些品类增长有望,哪些门店需关停?

    各位数据的朋友,大家好,我是老周道数据,和你一起,用常人思维+数据分析,通过数据讲故事。每到年终之类的日子,各行各业的企业们都需要对过去一年的经营管理活动进行一个分析,累积经验、寻
    发表于 03-28 14:36

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相 2月16日凌晨OpenAI的首个文生视频模型Sora正式亮相。Sora只需输入文字,便可生成一段长达60秒的高
    的头像 发表于 02-18 17:41 595次阅读

    openai sora如何使用?Sora 使用指南:快速上手

    OpenAI Sora 使用指南:快速上手 欢迎使用OpenAI Sora,一款强大的人工智能视频生成工具。无论您是视频制作新手还是专业人士,本指南将帮助您快速掌握Sora,轻松创作出高质量的视频
    的头像 发表于 02-20 11:19 3084次阅读

    Sora到底懂不懂物理世界? Sora开启更多可能

    OpenAI的视频生成模型Sora持续引发关注,而围绕Sora到底懂不懂物理世界?这个讨论越发火热,甚至是在讨论Sora 到底是不是物理引擎甚至世界模型? 当然Sora 目前看起来似乎
    的头像 发表于 02-20 11:08 390次阅读

    sora最新消息 sora是什么意思

    Sora,是美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”,于2024年2月15日(美国当地时间)正式对外发布
    的头像 发表于 02-21 16:38 1289次阅读

    sora系列是哪个公司的 sora视频怎么用

    sora系列是哪个公司的 Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”,于2024年2月15日(美国当地时间
    的头像 发表于 02-21 16:35 3255次阅读

    sora如何使用 sora是什么软件

    Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景,其能够一次生成多帧预测,确保画面
    的头像 发表于 02-21 17:20 1542次阅读

    Sora来了,会砸掉谁的饭碗?反观第一拨靠Sora赚钱的人已经出现

    Sora来了,会砸掉谁的饭碗?第一拨靠Sora赚钱的人已经出现 人工智能的快速演进使得大家的紧迫感再次加大,特别是Sora来了,Sora文生视频从目前的点点滴滴都显示了它的强大,她会砸
    的头像 发表于 02-22 14:11 789次阅读

    sora模型怎么使用 sora模型对现实的影响

    美国当地时间2024年2月15日 ,OpenAI正式发布文生视频模型Sora ,并发布了48个文生视频案例和技术报告 ,正式入局视频生成领域 。Sora能够根据提示词生成60s的连贯视频,“碾压
    的头像 发表于 02-22 16:42 662次阅读

    OpenAI文生视频模型Sora要点分析

    近日,美国人工智能公司OpenAI发布了首个视频生成模型Sora。不同于此前许多AI大模型文生图或视频时,会出现人物形象前后不一致等问题
    的头像 发表于 02-22 16:37 539次阅读
    OpenAI文生视频模型<b class='flag-5'>Sora</b>要点<b class='flag-5'>分析</b>

    sora模型上市公司 sora模型对现实的影响

    sora模型的上市公司目前没有相关官方的报道,因此无法给出准确的回答。 Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频
    的头像 发表于 02-22 16:46 529次阅读

    sora模型中国可以使用吗 sora模型是哪个公司

    Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ,于2024年2月15日(美国当地时间)正式对外发布
    的头像 发表于 02-22 16:52 1748次阅读