0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Sora之后,视频生成模型的中国牌局

脑极体 来源:脑极体 作者:脑极体 2024-12-12 09:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZO2dZq3uAABdRAAeFnl_r3bw480.jpg

Sora,自2月16日OpenAI发布后一直被吐槽是“技术期货”,终于在12月10日,正式版Sora露面了,可以生成最高 1080p 分辨率、最长 20 秒的视频。

wKgZPGdZq3yAI5W2AAM40FlGZ88511.jpg

OpenAI CEO奥特曼称,Sora正式版是视频生成领域的GPT-1时刻。

但国内AI企业,并没有像跟进GPT时期一样,在视频生成领域也与OpenAI保持同步,而是呈现出更复杂的态度。

有人选择跟进,比如Sora问世之后,互联网公司如阿里、字节跳动、快手、腾讯等,AI公司如智谱AI、MiniMax、爱诗科技、生数科技等,都陆续发布了视频生成模型,不少都表示达到或超越了预览版Sora。

也有人选择不跟进,包括互联网公司中的百度,李彦宏曾明确表示,“无论Sora多么火爆百度都不去做”。AI公司如百川智能,也明确表示不会做类Sora模型,月之暗面、商汤科技、零一万物虽然都有文生视频模型,但都不作为重点。

视频生成赛道,不再延续GPT时代的发展模式,即OpenAI打出一张王牌,国内科技企业抢着要跟。Sora之后,国内AI牌局开始有了自己的节奏,也呈现出更为复杂的局势。

有能力做通用基础大模型的国内科技公司,在技术路线、商业前景等判断上,开始出现明显分野。我们就从国内企业跟进Sora的选择与否,聊聊视频生成的中国牌局。

wKgZO2dZq3yAUJLRAAG0zyA1AVA160.jpg

首先我们要明确一下,国内对标Sora模型的科技公司,到底在做什么?

简单来说,Sora视频生成模型的核心技术路线是Diffusion+Transformer相结合,通过文本(自然语言)、图片、视频作为提示词prompts进行视频生成。

对标Sora的模型,至少要具备几个特点:

1.通用性,不针对某一类风格、行业、角色等,任意内容的视频都可以生成。

2.高质量,画质精度高(达到1080p)、视频时间长(最长达一分钟)、画面一致性强(理解物理规律)。

面对Sora,国内科技企业不像ChatGPT推出时那样毫无准备。但到底跟or不跟,却不再像ChatGPT那样高度一致,而是分化成了三类:

第一类,明确跟进。

互联网公司阵营中,以视频为核心业务的字节跳动、快手等,以及综合科技公司腾讯,数字基建成熟,技术人才资源充沛,内部有视频产品基因,几乎第一时间选择了跟进。字节跳动推出了即梦Dreamnia,快手也发布了可灵大模型。腾讯以混元大模型作为核心,发布并开源了混元多模态生成模型,被认为是腾讯版Sora。

wKgZO2dZq32AGgW6AAMBu39pjss846.jpg

大模型初创企业中,智谱AI的行动最为敏捷,今年7月发布了AI视频生成工具清影,支持用户通过文本/图片,生成10秒、4K、60帧视频。MiniMax的海螺AI也在十月增加了视频生成能力,支持文本提示词生成6秒视频片段。

第二类,坚决不跟。

与第一类企业的态度截然相反,互联网公司和大模型创企中也有坚决不跟Sora的。比如Sora问世之后,百川智能的王小川就表示,团队有人提出要做Sora,但他明确表态称不会跟进这个方向。

同样想法的还有百度李彦宏,尽管百度已经在视频生成领域取得了一定的成果,但他不做Sora的态度也非常坚决,原因是Sora的商业化可能要五年甚至十年,目前百度更聚焦在大语言模型、多模态大模型,没有类Sora的产品化尝试。

第三类,浅尝辄止。

除此之外,还有大量国内企业对于Sora,出于FOMO“恐惧错过”心理有所布局,但并不重点投入,处于一种浅尝辄止的状态。

比如阿里系中的阿里妈妈团队发布了tomoVideo,试水电商营销的视频生成场景;“大模型六小虎”中,月之暗面也推出了视频生成模型,但仍聚焦在kimi产品上;零一万物入局B端业务,而视频生成模型面向的影视制作行业正处于调整期,类Sora产品也很难成为核心增长点。

总结一下,如果说全球大模型是一场“斗地主”,那么游戏规则不再是OpenAI打出一张王炸,国内科技公司纷纷跟上,而是各自按照自己手里的牌面、业务重要性和优先级,来确定Sora的出牌策略。

为什么到了Sora,大模型行业的游戏规则就变了?

wKgZPGdZq36ADSo2AAG9K0tAYY8620.jpg

国内科技企业的表现说明,对于Sora存在非共识,整体还是比较混乱、规则模糊的阶段。迷雾中的领域,游戏规则自然只能自行探索。

如今视频生成领域的现状,笼罩着三重迷雾。

技术迷雾:OpenAl认为Sora是世界模拟器、通往AGl的一条有前途的途径,这一技术路线目前存在不少争议。

比如李飞飞、lecun等人认为,Sora不能实现AGI。李飞飞提出,Sora仍是二维图像,只有三维空间智能才能实现AGI。Sora预览版展示的“日本女性走过霓虹闪烁东京街头”的生成视频,就无法把摄像机放在女子背后,说明Sora并没有真的理解三维世界。学术大神Lecun也点名不看好Sora,说它根本不是真正的世界模型,并且仍会面临GPT4的巨大瓶颈。

确实,即使是正式版Sora,生成的手部细节不准确,动态过程中的一致性等问题,依然存在。

而国内公司坚定不跟进Sora的原因之一,也是对这一技术路线保留意见。比如百川智能的王小川就认为,Sora只是阶段性产物,技术高度、突破性以及应用价值均不及GPT。总之,实现AGI、模拟物理世界的技术路线的开放性,决定了Sora并非唯一解。

商业迷雾:视频生成模型的商用前景、投资回报比,在短期内都不明朗,成为劝退国内企业的另一重阻碍。

预览版和正式版Sora,都延续了OpenAI的“暴力美学”,OpenAI 研究科学家 Noam Brown 表示,Sora是scale力量最直观的展示,也就是通过堆算力、对数据、对参数量的方式,来尝试让大模型涌现出理解物理世界的能力。这种方法成本高、资源投入大。是否跟进Sora,就取决于各家对模型的商用预期和投资回报比。

如果视频生成模型面向ToB收费,通过API或SaaS服务,都需要基础模型厂商投入大量人力去优化业务流程、开发交互页面,而影视行业正处于调整周期,AI影视制作业务的增长有限。这就在无形中增加了AI企业的机会成本,因为同样的人力、物力、算力,投入到金融AI、教育AI、大型政企等领域,显然收效更大。所以,百度、零一万物等公司,都将视频生成领域作为边缘业务,并不重点投入。

而ToC场景中,一方面个人付费意愿不高,视频生成并不是大众日常使用的高频场景,而且生成成本和订阅费一般都比文本模型高,加上Sora模型都没能解决幻觉、一致性难题,未必能创造实际价值,所以C端付费规模十分有限。另一方面,模型完全免费,把视频生成模型产品作为企业的流量入口,这一商业模式只适合将视频作为核心业务的企业。

比如快手、字节跳动,本身就有核心的视频业务,可以快速实现模型的规模化。面向C端用户或B端生产力工具,这类企业能够快速将视频生成能力与现有产品进行集成与整合,模型研发的边际成本是会随着规模商用而下降的。

整体来看,对国内绝大多数基础模厂,视频生成领域都是一个相对边缘、投资回报比不高的业务。

第三重迷雾,就是市场格局的竞争迷雾。

虽然视频生成模型现在商业前景不明,但有没有可能以后会爆发,企业悄悄投入然后惊艳所有人?这种押注边缘赛道“捡大漏”的商业神话,在大模型身上恐怕很难发生。

当前,大模型的产品化、商业化前景普遍比较模糊,通用模型厂商都需要尽快从一大堆不甚明朗的产品中,选出一个更高成功概率和更大市场潜力的选项,重点投入。而在所有产品中,视频生成模型是一个尤为沉重且具有挑战性的项目。这种情况下,肯定要优先考虑成功率更高的产品,降低视频生成模型的业务优先级。

换一个角度,即便企业将视频生成模型的优先级放到最高,恐怕也很难建立起竞争优势。因为当前大模型的市场竞争情况跟GPT时期不太一样,如今各家在基础训练设施、核心架构设计与技术储备等方面都有了一定积累,复现Sora并上线类Sora应用的技术壁垒,其实没有ChatGPT时期那么难了。这也意味着,即使企业先发布了视频生成模型,也未必能长期保持竞争优势和市场垄断地位,这种竞争态势也削弱了Sora的商业想象空间。

技术迷雾、商业迷雾、竞争迷雾,仍然笼罩在视频生成领域,导致Sora这一场牌局有着太多的不确定,和太多可能。哪种理解是对的,哪条路线是最终赢家,目前都言之过早,各家只能按照自己的游戏规则玩下去。

wKgZO2dZq4GAb8SYAAGsitZg7cQ964.jpg

大模型技术必须继续发展下去,但从Sora开始,国内科技企业不再紧跟着OpenAI亦步亦趋,开始有了自己的节奏感。

具体表现在,对于Sora这样一鸣惊人的新东西,国内企业在大模型产品化、商业化上都有了自己的理解与思考,开始自己定义玩法,跟进Sora展现的是实力,不跟进Sora展现的是心态与战略定力。

此外,不一味跟进产品,但OpenAI的叙事能力仍然值得学习。

wKgZPGdZq4GAWF7MAAM_RyY40wg203.jpg

无论是2月用Sora抢走谷歌风头,还是近期Sora正式上线,OpenAI总能一次次带动节奏、设置议题、吸引关注,这对于资本密集型AI企业是非常重要的能力。

可以不跟进Sora,但不能遗漏关键技术。

以百度为例,虽然没有推出Sora产品的计划,但自身也没有缺席关键技术,比如自研了多模态可控生图技术,能够在保持实体特征不变的情况下,实现图像的高泛化生成,而可控性的提升,恰恰是视频生成下一阶段核心中的核心。此外,百度也没有完全无视视频生成领域,目前投资了视频生成初创公司生数科技、AI视频短剧公司井英科技等。

聚焦主赛道,以自身核心业务、商业优先级等多元因素来确定追赶Sora的轻重缓急。大模型的牌局,国内企业正在找到自己的节奏感。

wKgZPGdZq4KATSv4AAGy_4FMs5s928.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42722

    浏览量

    303589
  • Sora
    +关注

    关注

    0

    文章

    88

    浏览量

    877
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    京东开源JoyAI-Echo长音视频生成框架

    近日,京东正式推出并开源 **JoyAI-Echo长音视频生成框架** ,全部代码与预训练权重已在GitHub上线(https://github.com/jd-opensource
    的头像 发表于 06-05 10:38 484次阅读

    可灵推出AI原生4K直出功能:开启AI视频生成“院线级”新纪元

    4月23日,可灵AI在视频3.0系列模型中推出业内首个原生4K直出功能,以“无需后期、直出4K”的颠覆性能力,直接匹配影视行业4K制作标准,标志着AI视频生成技术从“内容生成”向“专业
    的头像 发表于 04-27 13:39 590次阅读

    昆仑万维天工AI大模型SkyReels V4登上Artificial Analysis榜单全球第一

    、Google Veo 3.1、Vidu Q3、OpenAI Sora 2等全球主流模型,成为全球AI视频生成能力最强的大模型,标志中国AI
    的头像 发表于 03-26 10:10 1274次阅读

    NVIDIA和ComfyUI携手简化本地AI视频生成工作流

    借助 ComfyUI 的应用视图、NVIDIA RTX Video 超分辨率和全新的 NVFP4 模型,AI 驱动的视频生成更加易用。
    的头像 发表于 03-14 16:37 2701次阅读
    NVIDIA和ComfyUI携手简化本地AI<b class='flag-5'>视频生成</b>工作流

    Sora惊恐到即梦反杀,中国的AI视频生成之路

    科技的发展,本就是在解决问题中前进的过程
    的头像 发表于 03-10 11:57 491次阅读
    从<b class='flag-5'>Sora</b>惊恐到即梦反杀,<b class='flag-5'>中国</b>的AI<b class='flag-5'>视频生成</b>之路

    商汤科技日日新Seko系列模型与寒武纪成功适配

    12月15日,商汤科技基于在生成式AI与多模态交互领域的技术积累,正式发布Seko2.0——行业首个多剧集生成智能体。该智能体在多剧集视频生成的一致性方面展现出显著优势,其背后依托的是商汤自研的日日新Seko系列
    的头像 发表于 12-17 14:06 705次阅读

    行业特定的生成式 AI 能力如何形成:面向中国企业的场景化解决方案模型

    需要的不是一个“能对话”的模型,而是一套“能在行业场景中跑得通、落得下”的生成式 AI 方案。 因此,“哪些生成式 AI 平台为中国公司提供行业特定解决方案?”这一问题的本质,是在评估
    的头像 发表于 12-02 09:33 633次阅读

    OpenAI Sora 2模型上线微软Azure AI Foundry国际版

    我们非常激动地宣布,OpenAI 的新一代多模态视频生成模型 Sora 2 现已在 Azure AI Foundry(国际版)上线,进入公共预览阶段。
    的头像 发表于 10-22 09:44 1089次阅读
    OpenAI <b class='flag-5'>Sora</b> 2<b class='flag-5'>模型</b>上线微软Azure AI Foundry国际版

    看点:谷歌Veo 3.1迎来重大更新硬刚Sora 2 12英寸硅片国产龙头西安奕材今日申购

    给大家带来一些业界资讯: 谷歌Veo 3.1迎来重大更新硬刚Sora 2 据外媒报道,在10月16日,谷歌发布了AI视频生成模型Veo 3.1,升级音频集成与叙事控制能力;以及更逼真的质感还原。在
    的头像 发表于 10-16 16:00 1264次阅读

    别只盯着Sora中国AI视频的实时交互已悄悄领先

    告别抽卡,国产图生视频模型已经卷到next level
    的头像 发表于 10-16 10:54 3075次阅读
    别只盯着<b class='flag-5'>Sora</b>,<b class='flag-5'>中国</b>AI<b class='flag-5'>视频</b>的实时交互已悄悄领先

    全球首个动漫专属AI视频生成平台Animon,国内版&quot;萌动AI&quot;正式发布

    Animon国内版——"萌动AI"首秀:AI动漫创作进入全民时代 北京2025年9月25日 /美通社/ -- CreateAI(OTC:TSPH)今日宣布,其打造的全球首个专注于动漫的AI视频生成
    的头像 发表于 09-25 12:33 1580次阅读

    cubemx导入模型后找不到keil找不到工程内的模型的相关文件是怎么回事?

    模型在cubemx内解析后没有问题,但解析之后生成工程keil内缺读取不到生成的三个模型文件
    发表于 07-18 07:18

    百度重磅发布!全球首创中文音视频模型

    电子发烧友网综合报道 2025年7月2日,百度在北京正式发布全球首个中文音视频一体化生成模型——MuseSteamer,标志着其正式进军图生视频领域。这款
    的头像 发表于 07-11 09:18 4776次阅读

    一种基于扩散模型视频生成框架RoboTransfer

    在机器人操作领域,模仿学习是推动具身智能发展的关键路径,但高度依赖大规模、高质量的真实演示数据,面临高昂采集成本与效率瓶颈。仿真器虽提供了低成本数据生成方案,但显著的“模拟到现实”(Sim2Real)鸿沟,制约了仿真数据训练策略的泛化能力与落地应用。
    的头像 发表于 07-09 14:02 1014次阅读
    一种基于扩散<b class='flag-5'>模型</b>的<b class='flag-5'>视频生成</b>框架RoboTransfer

    4K、多模态、长视频:AI视频生成的下一个战场,谁在领跑?

    电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可
    的头像 发表于 06-16 00:13 7707次阅读