别只盯着Sora，中国AI视频的实时交互已悄悄领先-电子发烧友网

刚刚过去的十一黄金周，大家一定没少刷到Sora2生成的视频，山姆·奥特曼到处给人送祝福，看得观众忍俊不禁。不过，等普通人真想用Sora做段自己的视频才发现，AI视频还是没有想象中一样简单。

我们看到的AI长视频，一般是由多个几秒长的短视频拼接而成的。也就是说，用户要先把完整创意拆成几个分镜，每一段剧情分别准备独立的图片和Prompt提示词描述，每一次生成都得碰运气，后期拼接时还容易跳帧、风格断裂，感觉不满意想调整，只能重写Prompt、重新生成。

这种创作模式，也被称为“抽卡”，就像手游里氪重金抽 SSR，花了时间、Token、算力和钱，还不一定拿到想要的结果，再加上海外平台高昂的订阅费，到底谁在说AI视频的制作门槛被Sora打下来了？

其实，AI视频技术的大众普及这一块儿，国内视频平台早就走在了前面。最近我们就注意到，百度9月25日发布的“蒸汽机”最新版本，有两个非常重要的升级：一是长视频流式生成的产品体验，二是模型支持实时交互。

前者可以用一张图、一段视频生成长视频突破5s、10s限制，并支持边做边改，创作AI视频不用再一次次“抽卡”赌运气，可以在预览中实时调整；后者则拓展了AI视频的边界，比如直播数字人这类需要实时推理会话的长视频，类sora模型还无法做到。

可以发现，在AI大众化这件事上，deepseek、百度蒸汽机这样的国内科技企业，是真的闷声干大事。而这，也是中国AI的本色之一。或许比起sora，国内视频平台正在终结AI视频的抽卡魔咒，才是更值得大家关注的AI大事件。

手游圈有一句话，玄不救非，氪能改命。指的是想抽到一张满意的角色，要么靠玄学碰运气，要么靠氪金砸钱。现阶段的大多数AI视频工具，就是这么工作的。

常规的AI长视频生成流程，采用首尾帧续写技术，或者简单续写能力，虽然一次生成的视频时长更长了，但前后频缺乏连贯性，调整前后逻辑、对齐音画等，比传统拍摄后期还累人；画质和细节也容易不稳定，比如人物一活动，肢体和空间的关系就不符合物理规律了。想要调整，就得重新上传图片和“抽卡”，把流程再来一遍，而且花钱不讨好，反复抽卡、多次生成，需要消耗大量计算资源，最终成本都要由用户买单。

对于创作者和普通人来说，这样的AI长视频能力是无法实现创作自由的，大多尝鲜之后就弃之不用了。

为什么AI无法一次生成高质量的长视频，而被迫陷入抽卡魔咒呢？行业普遍陷入了技术瓶颈：

瓶颈一，模型记不住，也就是长时序连贯性建模难题。

传统的扩散模型，是一种固定窗口的生成模式，对长视频生成非常不友好，一方面窗口大小和生成成本是指数级关系，另外一方面通过简单反复续写，会存在较为严重的全局一致性和连续性问题。生成时长超过10秒，帧间累积误差就会指数级增长，就像一个记性不好的人，做事做到第十秒，基本把前面干过什么忘光了，所以长视频越做越乱，前后内容不一致。

有的平台为了缓解这个问题，支持用户手动上传关键帧，这就意味着，30秒视频得传6组，操作复杂度直接翻了好几倍，而且镜头切换可能不自然，并没能发挥出AIGC提质增效的效果。

瓶颈二，模型听不懂、算不快，也就是实时交互受限。

在互动视频、直播等场景中，对视频的持续时长与实时生成能力提出了更高要求。但传统视频生成，只能靠抽卡和调整提示词，来不断试错，用户无法在生成过程中就进行修改和微调，是因为Transformer架构的二次计算复杂度很高，在生成长视频时要实时互动，一是对GPU显存与计算效率提出更高要求，需要软硬件协同优化来提升推理效率。还有成本考量，计算开销随生成时长呈平方级增长，为了控制成本，模厂只能限制时长，还必须等全部算完才能输出结果。

上述技术瓶颈，导致AI长视频不连贯、改不了、成本高，因此，目前这类短视频生成技术主要应用于工具层面，如视频片段与素材制作，这显然无法满足C段和B端的复杂创作需求。

百度“蒸汽机”10.15版本的核心突破，就是把长视频变成流式生成、实时交互，整个过程中，用户可以边浏览边生成，支持在帧数间改写、续写，随时打断并修改提示词，就能实时生成想要的画面，从而打破了传统视频生成的“抽卡”魔咒。

面对行业普遍的10秒局限，以及用户反复抽卡的无力，百度蒸汽机靠四大技术突破，从根源上破解了长视频生成的效率、质量与成本难题，终结“抽卡”模式。

突破一：基础架构改造，解决长视频生成难题，一张图一段文字极简生成。

传统模型生成超10秒视频就会片段断裂，还得补关键帧。百度蒸汽机引入自回归扩散模型，搭建流式滑窗架构，通过阶梯独立噪声构造，为每一帧匹配精准噪声级别，配合动态缓冲区管理，同步处理模糊草图、半完成帧及高精度画面等多状态画面，实现“边生成边调整”的实时交互生成流程。

我们上传了一张骑在黑龙背上的视频，自动生成12秒视频，全程无需补充任何素材，而且生成过程中，还可以随时选择继续生成或修改提示词。

突破二：训推偏差消除，解决累积误差，告别 “越生越崩” 的质量衰减。

AI生成的视频前5秒正常，后面人物空间关系就扭曲变形了，这种情况经常出现，本质是传统滑窗方法的误差累积问题，导致生成的视频质量严重下降。

但我们用百度蒸汽机生成了一个长镜头的双人互动，在长达20秒的时间里，两个人物都保持了一致性，即使是在近景互动时也符合物理逻辑。

原来，百度蒸汽机通过历史帧扰动增强技术，在训练时故意加入帧误差，让模型具备自我纠错能力，变得更加鲁棒，缓解自回归模型的累积误差问题。

突破三，一致性优化，让长视频像接力赛一样丝滑。

行业普遍采用的片段拼接技术，经常出现走路跳步、音画脱节等情况，比如人物说话时唇形与声音对不上。百度蒸汽机采用全局规划与局部参考相结合的优化方法，解决长视频连续性与一致性问题。其中，引入锚点帧引导，保障全局记忆，引入了key frame建立全局注意力锚点，保证模型的长期记忆能力，引入历史参考帧，作为上下文信息，使得模型具备短期记忆能力，保障连续生成。前后过渡像传递接力棒一样流畅自然，多人对话等场景的AI视频一次生成质量更高。

突破四：实时流式计算，实现边生成边修改的创作自由。

以前生成3分钟视频得等40分钟，而且生成后无法修改，一点就得重算。百度蒸汽机基于自回归扩散架构，突破高压缩比生成技术，大幅提升扩散模型流式推理性能，保障效果和效率的极致平衡，满足实时交互的推理需求。

比如我们用V2V模式，上传一段赛车视频，百度蒸汽机能够在几分钟之内，就将视频拓展到10秒以上。如果想改写结局，可以选择续改，选中关键阶段的帧，直接输入其他结果的提示词，比如“银车加速超过黄车”或“黄车加速超过银车”，就能生成新的结局，轻松搞定不同剧情。

也就是说长视频生成过程从黑箱变成了流式体验，模型推理出多少，用户就能实时预览多少，不需要等待全部生成完成。而且百度蒸汽机升级了窗口注意力机制，将计算复杂度降为线性，结合模型蒸馏技术，大幅提升计算效率，降低推理耗时，所以整个生成过程仅用时几分钟。整个制作过程既可控，又省力。

百度蒸汽机的四大突破，用技术把AI视频的创作模式，从靠运气抽卡变成了按需创作。这会推动行业发生至少两个变化：

一是创作门槛进一步降低。由于AI长视频的生成质量和效率得到提高，不再需要用户上传多张图和prompt，不再需要费心描述和准备关键帧，一次生成高可用，长视频生成真的走向了人人可用的简单时代。

二是应用场景进一步延伸。传统长视频生成技术，难以承载复杂的创作需求，无法满足数字人这类实时交互长视频的需求。百度蒸汽机全新的技术架构实现长视频流式生成体验，支持实时互动，可以拓展出AI导购、AI老师、AI陪伴等沉浸式数字人场景。支持开放世界的生成，比如游戏地图、旅游景点体验、宇宙空间等，都可以任意创造，比如家长可以用一张长城或宇宙的图片，为孩子生成虚拟长城或虚拟宇宙，为教育、旅游、游戏打开新可能。

某个噱头或爆款玩法，或许能在短时间内带火AI视频的关注度，但一时热度终会在门槛暴露后退潮。唯有扎扎实实的底层技术突破，才能为AI视频生成的大众化普及铺平道路，真正降低使用门槛、拓展使用边界，承接住不断涌入的创作者和新用户。

Sora2的科幻短片刷爆社交平台时，不少人又开始感慨，“AI视频创作的天花板在海外”。但真实体验过的创作者恐怕都会认同，这些海外AI视频创作与普通人仍有距离。百度蒸汽机为代表的国内视频平台，更加普通人友好。

一方面，国内平台更早跳出了炫技式研发，不像sora这样“憋个大招”，以更快的技术迭代速度，贴实用户需求。

拿百度蒸汽机来说，迭代速度堪称行业标杆，可以说是“月月有突破”。今年3月首发即实现高精度图生视频，5月登顶VBench-I2V权威榜单，画质达专业影视级；7月推出全球首个中文音视频一体化模型，8月实现多人对话生成，9月发布“通用AI长视频生成”功能……

这种应用驱动研发的路径，背后是搜索、百家号等场景的真实需求直接反推模型升级，让百度蒸汽机的技术突破始终贴合用户痛点，解决普通人的使用难题。

此外，AI视频生成的大规模、产业级应用，国内视频平台也别有优势。

相比不懂中文语境的Sora、sunway等，百度蒸汽机等国内模型凭借亿级中文多模态数据训练，不仅中文唇形和语音能精准同步，还能生成方言，让创作者的内容更容易打开中文市场。

国内平台也更懂产业落地AI的成本难题，比如百度蒸汽机坚持技术普惠，依托百度智能云“百舸”平台与昆仑芯片，结合模型参数压缩、算力动态调度等技术，将推理效率提升3倍，刊例价较同类产品低至七成，并采用“按量后付+资源包”灵活计费模式，不让用户白花冤枉钱。相较海外平台的服务费与订阅费，大幅降低了产业级使用成本，也为AI视频生成的规模落地拆除了门槛。

从抽卡试错到按需创作，百度蒸汽机的技术突破不仅改变了AI视频的创作逻辑，更展示了与海外平台不同的技术产业化、技术普惠化之路。

正如大语言模型、对话式AI的普及历程一样，AI长视频的全民时代，将由国内平台开启。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
91

文章
41976

浏览量
303065
Sora

Sora

+关注

关注
0

文章
88

浏览量
864

搜索历史

别只盯着Sora，中国AI视频的实时交互已悄悄领先

评论