0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

别只盯着Sora,中国AI视频的实时交互已悄悄领先

脑极体 来源:脑极体 作者:脑极体 2025-10-16 10:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZPGjwXneAHve5AAfNfdyKwtU653.jpg

刚刚过去的十一黄金周,大家一定没少刷到Sora2生成的视频,山姆·奥特曼到处给人送祝福,看得观众忍俊不禁。不过,等普通人真想用Sora做段自己的视频才发现,AI视频还是没有想象中一样简单。

我们看到的AI长视频,一般是由多个几秒长的短视频拼接而成的。也就是说,用户要先把完整创意拆成几个分镜,每一段剧情分别准备独立的图片和Prompt提示词描述,每一次生成都得碰运气,后期拼接时还容易跳帧、风格断裂,感觉不满意想调整,只能重写Prompt、重新生成。

这种创作模式,也被称为“抽卡”,就像手游里氪重金抽 SSR,花了时间、Token、算力和钱,还不一定拿到想要的结果,再加上海外平台高昂的订阅费,到底谁在说AI视频的制作门槛被Sora打下来了?

其实,AI视频技术的大众普及这一块儿,国内视频平台早就走在了前面。最近我们就注意到,百度9月25日发布的“蒸汽机”最新版本,有两个非常重要的升级:一是长视频流式生成的产品体验,二是模型支持实时交互。

前者可以用一张图、一段视频生成长视频突破5s、10s限制,并支持边做边改,创作AI视频不用再一次次“抽卡”赌运气,可以在预览中实时调整;后者则拓展了AI视频的边界,比如直播数字人这类需要实时推理会话的长视频,类sora模型还无法做到。

可以发现,在AI大众化这件事上,deepseek、百度蒸汽机这样的国内科技企业,是真的闷声干大事。而这,也是中国AI的本色之一。或许比起sora,国内视频平台正在终结AI视频的抽卡魔咒,才是更值得大家关注的AI大事件。

wKgZPGjwXniAJx2qAAG_0waPvxU079.jpg

手游圈有一句话,玄不救非,氪能改命。指的是想抽到一张满意的角色,要么靠玄学碰运气,要么靠氪金砸钱。现阶段的大多数AI视频工具,就是这么工作的。

常规的AI长视频生成流程,采用首尾帧续写技术,或者简单续写能力,虽然一次生成的视频时长更长了,但前后频缺乏连贯性,调整前后逻辑、对齐音画等,比传统拍摄后期还累人;画质和细节也容易不稳定,比如人物一活动,肢体和空间的关系就不符合物理规律了。想要调整,就得重新上传图片和“抽卡”,把流程再来一遍,而且花钱不讨好,反复抽卡、多次生成,需要消耗大量计算资源,最终成本都要由用户买单。

对于创作者和普通人来说,这样的AI长视频能力是无法实现创作自由的,大多尝鲜之后就弃之不用了。

为什么AI无法一次生成高质量的长视频,而被迫陷入抽卡魔咒呢?行业普遍陷入了技术瓶颈:

瓶颈一,模型记不住,也就是长时序连贯性建模难题。

传统的扩散模型,是一种固定窗口的生成模式,对长视频生成非常不友好,一方面窗口大小和生成成本是指数级关系,另外一方面通过简单反复续写,会存在较为严重的全局一致性和连续性问题。生成时长超过10秒,帧间累积误差就会指数级增长,就像一个记性不好的人,做事做到第十秒,基本把前面干过什么忘光了,所以长视频越做越乱,前后内容不一致。

有的平台为了缓解这个问题,支持用户手动上传关键帧,这就意味着,30秒视频得传6组,操作复杂度直接翻了好几倍,而且镜头切换可能不自然,并没能发挥出AIGC提质增效的效果。

瓶颈二,模型听不懂、算不快,也就是实时交互受限。

在互动视频、直播等场景中,对视频的持续时长与实时生成能力提出了更高要求。但传统视频生成,只能靠抽卡和调整提示词,来不断试错,用户无法在生成过程中就进行修改和微调,是因为Transformer架构的二次计算复杂度很高,在生成长视频时要实时互动,一是对GPU显存与计算效率提出更高要求,需要软硬件协同优化来提升推理效率。还有成本考量,计算开销随生成时长呈平方级增长,为了控制成本,模厂只能限制时长,还必须等全部算完才能输出结果。

上述技术瓶颈,导致AI长视频不连贯、改不了、成本高,因此,目前这类短视频生成技术主要应用于工具层面,如视频片段与素材制作,这显然无法满足C段和B端的复杂创作需求。

百度“蒸汽机”10.15版本的核心突破,就是把长视频变成流式生成、实时交互,整个过程中,用户可以边浏览边生成,支持在帧数间改写、续写,随时打断并修改提示词,就能实时生成想要的画面,从而打破了传统视频生成的“抽卡”魔咒。

wKgZPGjwXnmAadIBAAGfmZKBZVo787.jpg

面对行业普遍的10秒局限,以及用户反复抽卡的无力,百度蒸汽机靠四大技术突破,从根源上破解了长视频生成的效率、质量与成本难题,终结“抽卡”模式。

突破一:基础架构改造,解决长视频生成难题,一张图一段文字极简生成。

传统模型生成超10秒视频就会片段断裂,还得补关键帧。百度蒸汽机引入自回归扩散模型,搭建流式滑窗架构,通过阶梯独立噪声构造,为每一帧匹配精准噪声级别,配合动态缓冲区管理,同步处理模糊草图、半完成帧及高精度画面等多状态画面,实现“边生成边调整”的实时交互生成流程。

我们上传了一张骑在黑龙背上的视频,自动生成12秒视频,全程无需补充任何素材,而且生成过程中,还可以随时选择继续生成或修改提示词。

突破二:训推偏差消除,解决累积误差,告别 “越生越崩” 的质量衰减。

AI生成的视频前5秒正常,后面人物空间关系就扭曲变形了,这种情况经常出现,本质是传统滑窗方法的误差累积问题,导致生成的视频质量严重下降。

但我们用百度蒸汽机生成了一个长镜头的双人互动,在长达20秒的时间里,两个人物都保持了一致性,即使是在近景互动时也符合物理逻辑。

原来,百度蒸汽机通过历史帧扰动增强技术,在训练时故意加入帧误差,让模型具备自我纠错能力,变得更加鲁棒,缓解自回归模型的累积误差问题。

突破三,一致性优化,让长视频像接力赛一样丝滑。

行业普遍采用的片段拼接技术,经常出现走路跳步、音画脱节等情况,比如人物说话时唇形与声音对不上。百度蒸汽机采用全局规划与局部参考相结合的优化方法,解决长视频连续性与一致性问题。其中,引入锚点帧引导,保障全局记忆,引入了key frame建立全局注意力锚点,保证模型的长期记忆能力,引入历史参考帧,作为上下文信息,使得模型具备短期记忆能力,保障连续生成。前后过渡像传递接力棒一样流畅自然,多人对话等场景的AI视频一次生成质量更高。

突破四:实时流式计算,实现边生成边修改的创作自由。

以前生成3分钟视频得等40分钟,而且生成后无法修改,一点就得重算。百度蒸汽机基于自回归扩散架构,突破高压缩比生成技术,大幅提升扩散模型流式推理性能,保障效果和效率的极致平衡,满足实时交互的推理需求。

比如我们用V2V模式,上传一段赛车视频,百度蒸汽机能够在几分钟之内,就将视频拓展到10秒以上。如果想改写结局,可以选择续改,选中关键阶段的帧,直接输入其他结果的提示词,比如“银车加速超过黄车”或“黄车加速超过银车”,就能生成新的结局,轻松搞定不同剧情。

也就是说长视频生成过程从黑箱变成了流式体验,模型推理出多少,用户就能实时预览多少,不需要等待全部生成完成。而且百度蒸汽机升级了窗口注意力机制,将计算复杂度降为线性,结合模型蒸馏技术,大幅提升计算效率,降低推理耗时,所以整个生成过程仅用时几分钟。整个制作过程既可控,又省力。

百度蒸汽机的四大突破,用技术把AI视频的创作模式,从靠运气抽卡变成了按需创作。这会推动行业发生至少两个变化:

一是创作门槛进一步降低。由于AI长视频的生成质量和效率得到提高,不再需要用户上传多张图和prompt,不再需要费心描述和准备关键帧,一次生成高可用,长视频生成真的走向了人人可用的简单时代。

二是应用场景进一步延伸。传统长视频生成技术,难以承载复杂的创作需求,无法满足数字人这类实时交互长视频的需求。百度蒸汽机全新的技术架构实现长视频流式生成体验,支持实时互动,可以拓展出AI导购、AI老师、AI陪伴等沉浸式数字人场景。支持开放世界的生成,比如游戏地图、旅游景点体验、宇宙空间等,都可以任意创造,比如家长可以用一张长城或宇宙的图片,为孩子生成虚拟长城或虚拟宇宙,为教育、旅游、游戏打开新可能。

某个噱头或爆款玩法,或许能在短时间内带火AI视频的关注度,但一时热度终会在门槛暴露后退潮。唯有扎扎实实的底层技术突破,才能为AI视频生成的大众化普及铺平道路,真正降低使用门槛、拓展使用边界,承接住不断涌入的创作者和新用户。

wKgZO2jwXnmAIDk5AAIAloU7Y1o274.jpg

Sora2的科幻短片刷爆社交平台时,不少人又开始感慨,“AI视频创作的天花板在海外”。但真实体验过的创作者恐怕都会认同,这些海外AI视频创作与普通人仍有距离。百度蒸汽机为代表的国内视频平台,更加普通人友好。

一方面,国内平台更早跳出了炫技式研发,不像sora这样“憋个大招”,以更快的技术迭代速度,贴实用户需求。

拿百度蒸汽机来说,迭代速度堪称行业标杆,可以说是“月月有突破”。今年3月首发即实现高精度图生视频,5月登顶VBench-I2V权威榜单,画质达专业影视级;7月推出全球首个中文音视频一体化模型,8月实现多人对话生成,9月发布“通用AI长视频生成”功能……

这种应用驱动研发的路径,背后是搜索、百家号等场景的真实需求直接反推模型升级,让百度蒸汽机的技术突破始终贴合用户痛点,解决普通人的使用难题。

此外,AI视频生成的大规模、产业级应用,国内视频平台也别有优势。

相比不懂中文语境的Sora、sunway等,百度蒸汽机等国内模型凭借亿级中文多模态数据训练,不仅中文唇形和语音能精准同步,还能生成方言,让创作者的内容更容易打开中文市场。

国内平台也更懂产业落地AI的成本难题,比如百度蒸汽机坚持技术普惠,依托百度智能云“百舸”平台与昆仑芯片,结合模型参数压缩、算力动态调度等技术,将推理效率提升3倍,刊例价较同类产品低至七成,并采用“按量后付+资源包”灵活计费模式,不让用户白花冤枉钱。相较海外平台的服务费与订阅费,大幅降低了产业级使用成本,也为AI视频生成的规模落地拆除了门槛。

从抽卡试错到按需创作,百度蒸汽机的技术突破不仅改变了AI视频的创作逻辑,更展示了与海外平台不同的技术产业化、技术普惠化之路。

正如大语言模型、对话式AI的普及历程一样,AI长视频的全民时代,将由国内平台开启。

wKgZO2jwXnqAI8SMAAHJtK2XnLc175.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296533
  • Sora
    +关注

    关注

    0

    文章

    86

    浏览量

    751
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    除了刷屏的Sora,国内外还有哪些AI视频生成工具

    Sora的发布也让AI生成视频有了突破性进展。   过去一年多,全球科技公司都在发布各种大模型,然而AI生成内容更多集中在文本和图片方面,AI
    的头像 发表于 02-26 08:42 6506次阅读
    除了刷屏的<b class='flag-5'>Sora</b>,国内外还有哪些<b class='flag-5'>AI</b><b class='flag-5'>视频</b>生成工具

    Sora还在PPT阶段,“中国Sora”已经开放使用了!

    电子发烧友网报道(文/梁浩斌)今年春节期间,OpenAI的AI文字生成视频模型Sora惊艳全世界,极高的视频生成效果、长达60秒的视频生成长
    的头像 发表于 06-17 09:07 5073次阅读

    面对Sora中国AI可以不急不躁不焦虑

    AISora
    脑极体
    发布于 :2024年02月23日 00:51:52

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相 2月16日凌晨OpenAI的首个文生视频模型Sora正式亮相。
    的头像 发表于 02-18 17:41 1480次阅读

    OpenAI发布文生视频模型Sora,引领AI视频生成新纪元

    在人工智能(AI)领域掀起新一轮革命浪潮的,正是OpenAI最新推出的文生视频大模型——Sora。这款被业界广泛赞誉的模型,以其“逼真”和“富有想象力”的视频生成能力,彻底颠覆了传统
    的头像 发表于 02-19 11:03 1648次阅读

    探索OpenAI Sora视频AI生成技术及其应用如何使用指南

    OpenAI的Sora现已扩展其能力范围,进入视频生成领域,标志着人工智能技术在多媒体内容创作上的一个重大突破。Sora视频AI功能使得用
    的头像 发表于 02-20 12:01 2995次阅读

    sora系列是哪个公司的 sora视频怎么用

    sora系列是哪个公司的 Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”,于2024年2月15日
    的头像 发表于 02-21 16:35 5982次阅读

    OpenAI文生视频模型Sora要点分析

    近日,美国人工智能公司OpenAI发布了首个视频生成模型Sora。不同于此前许多AI大模型文生图或视频时,会出现人物形象前后不一致等问题
    的头像 发表于 02-22 16:37 2047次阅读
    OpenAI文生<b class='flag-5'>视频</b>模型<b class='flag-5'>Sora</b>要点分析

    sora模型中国可以使用吗 sora模型是哪个公司

    Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景 ,其能够一次生成
    的头像 发表于 02-22 16:52 5174次阅读

    7万张H100打造的OpenAI文生视频Sora功能原理详解|Sora注册全攻略

    近日,OpenAI发布的基于Transformer架构的文生视频Sora,可谓是在AI圈掀起新的热潮。该模型具有强大的视频生成能力,可产生高达一分钟的高清
    的头像 发表于 02-29 11:48 2677次阅读
    7万张H100打造的OpenAI文生<b class='flag-5'>视频</b><b class='flag-5'>Sora</b>功能原理详解|<b class='flag-5'>Sora</b>注册全攻略

    新火种AI|围攻光明顶:Sora效应下的AI视频生成竞赛

    Sora的出现,让AI视频生成领域真正“活”了起来
    的头像 发表于 03-16 11:12 1109次阅读

    智谱AI正研发对标Sora的国产文生视频模型

    智谱AI,这家国内估值超过200亿的AI大模型独角兽企业,正全力投入研发一款与OpenAI的Sora相媲美的国产文生视频模型。据公司内部人士透露,该模型预计最快将在今年内发布,将成为
    的头像 发表于 05-07 09:22 919次阅读

    智谱AI正在研发国产文生视频模型,对标OpenAI Sora

    国内AI领域的独角兽企业智谱AI正全力研发一款与OpenAI的Sora相媲美的国产文生视频模型。据悉,该模型的技术研发取得显著进展,预计最
    的头像 发表于 05-13 11:14 1086次阅读

    OpenAI开放Sora视频生成模型

    OpenAI近日宣布,其倾力打造的人工智能视频生成系统Sora正式向美国及其他市场的ChatGPT Plus订阅用户开放。自去年首次公开预览以来,Sora历经约10个月的精心研发与优
    的头像 发表于 12-10 11:16 1074次阅读

    OpenAI推出AI视频生成模型Sora

    近日,备受期待的OpenAI再次推出了其创新之作——AI视频生成模型Sora。这一新品的发布,无疑为AI技术注入了新的活力。 据悉,Sora
    的头像 发表于 12-12 09:40 1063次阅读