从Sora惊恐到即梦反杀，中国的AI视频生成之路-电子发烧友网

马年春晚，《贺花神》美轮美奂的画面刷屏全网。紧随其后，支撑这场视觉奇观的Seedance 2.0模型开放API调用，价格一秒一块钱。

时间倒回两年前，AI视频生成还是一个被认为“中国完全做不出来”的赛道。OpenAI的Sora在2024年初横空出世，一支“女生走在东京街头”的60秒视频，画面逼真程度堪比实拍，而彼时的国产视频模型，大多只能生成5—12秒的画面，表情僵硬、手指穿模、物理穿帮都是常态，效果一眼假。

Sora如同一记耳光，把中国AI行业抽懵了。面对技术威慑，中国AI产业不能坐以待毙，开始像小说《三体》中人类面对智子的技术封锁一样，进入各显神通的“面壁计划”，最终完成了从Sora惊恐到即梦反杀的逆袭，把画面质量卷上天际，生成价格卷到地板。这段历史，值得在当下AI视频生成全面爆发的时间节点回顾一下。

2024年初Sora的出现，直接让中国AI行业陷入了至暗时刻。那段时间，我的朋友圈里满是对中国视频生成技术技不如人的吐槽。

大家的恨铁不成钢，既来自肉眼可见的技术鸿沟，也有脑补的灾难想象。

视频生成比文本生成要复杂得多，需要同时解决空间维度的物体形态一致性、时间维度的运动连贯性、物理规律的准确模拟，还有音画同步等一系列难题。与Sora一对比，国产模型输得毫无还手之力。

比落后更可怕的，是这一技术壁垒看似无法逾越。

彼时全球主流的视频生成模型，是MidJourney、Runway、DALL·E这些海外产品。国内既没有Sora的DiT架构那样的核心技术壁垒，也没有充足的英伟达顶级显卡。行业于是悲观地推演：中国与海外的技术代差根本无法追赶，中国做不出自己的视频大模型。

总结一下Sora对中国AI带来的冲击，是多方面的。此前，国内AI产业的发展多依托应用层创新，而视频生成属于硬核技术赛道，没有应用层的捷径可走，一下子让行业的短板被无限放大。

而且，算力卡脖子、高质量视频训练数据匮乏等先天条件的差距，也让行业产生了追赶无望的情绪。国内从业者陷入了一场关于“要不要追赶Sora”的路线之争，多数企业不愿意第一个吃螃蟹，更让逆袭显得遥遥无期。

幸好，人类面对外部威胁，从来不会坐以待毙。中国AI产学各界很快行动起来，化身破解Sora危机的面壁者。

在Sora的技术威慑下，学术界、大厂、垂类企业，走出了三条不同的突围路径，逐步缩小与Sora的差距。

首先出发的是学术派。

一个极具反差的现象是：类ChatGPT的国产大语言模型破局，由百度、阿里等企业引领，而类Sora的国产视频生成模型突破，最先动起来的却是学术界。

Sora发布的次日，清华大学就火速申请了文生视频相关专利，率先完成技术卡位。此后，清华联合生数科技，研发出原创的Diffusion与Transformer融合架构，一举打造出中国首个长时长、高一致性、高动态性的视频大模型，成为国内视频生成技术的开山之作。

学术界面对Sora威胁的积极主动对标态度，并非偶然。

一方面，类Sora模型的核心在于架构创新，高校和科研机构没有企业的商业包袱，能够聚焦底层技术，进行原创性的探索。此外，视频生成模型的研发是算力吞金兽，单靠企业的投入难以支撑长期的试错，而学术界能依托政策倾斜、政府算力补贴和科研基金，进行高风险、高投入的硬核研发。2024年底，我造访长春人工智能算力中心，该中心总规模300P的智能算力，其中200多P都被北京某高校的Sora对标项目占用，来自全栈国产化的算力支持、长春市的算力补贴政策，让科研团队有了复现Sora的底气。

紧接着出击的，是大厂中的数据派，快手可灵、字节即梦相继上线。

2024年3月，即梦AI依托字节跳动自研Seedream和Seedance模型，开启内测。2024年6月，快手自主研发的视频生成大模型可灵上线，技术路线对标Sora，支持生成1080p分辨率、最长2分钟的视频。

很多人会疑惑，为什么是即梦和可灵？答案是它们背靠头部视频内容平台，手握数十亿级涵盖生活、电商、剧情等各类场景的短视频语料，为模型研发提供了高质量的数据基础。模型推出后，还能借助视频内容生态启动数据飞轮，快速迭代。比如可灵在快影App开放测试入口，吸引平台内数百万创作者参与使用，这些源于真实创作场景的用户生成内容，又反哺模型迭代。

数据派大厂，走出了一条高效的技术追赶之路，那其他企业呢？

并非所有企业都选择全面对标Sora，昆仑万维、阿里等企业走出了第三条路：聚焦垂类场景，打造差异化优势。

Sora的通用型视频生成能力固然强大，但在实际使用中，用户的需求更多是精准解决某一领域的问题。于是，这些企业放弃了对通用型模型的盲目追赶，转而针对具体的业务场景，解决用户的实际痛点。

比如昆仑万维的天工大模型，将目光锁定在AI短剧制作场景。短剧制作对角色表情、道具还原、剧情连贯性要求极高，而此前的通用模型往往存在表情僵硬、道具失真的问题。天工大模型针对性地攻克了这些痛点，在角色表情生成、道具一致性、视频生成时长和控制性上做出优化，更适配短剧、电商广告等创作者的需求。

阿里则将重心放在生态构建与技术开源上，背靠阿里研究院和阿里云的算力支持，打造出通义万相、Qwen-Image-2.0等视频生成模型，并选择将核心技术开源。开源不仅吸引了海量开发者参与模型的优化，更让阿里的AI视频能力快速嵌入到钉钉等SaaS工具、淘宝等电商服务中。

三支大军的并行探索，最终彻底扭转了外界对中国AI视频生成的悲观预期。然而，比技术更大的挑战，才刚刚到来。

技术搞定了，还得算经济账。与Sora、runway这类海外视频模型不同，中国AI视频生成的商业化探索，从一开始就面临着更严峻的挑战。

一方面，类Sora模型没有成熟的商业模式可借鉴，海外市场仅能依靠售卖API、按token计费的单一方式变现；另一方面，国内用户的付费习惯尚未完全养成，企业用户和个人用户的付费意愿都低于海外。也就是说，前面打造出来的那些视频生成模型，每一分投入都是在超前烧钱。

在这样的背景下，倒逼中国企业探索AI视频生成技术的低成本落地办法。

算力，是AI视频生成的核心成本，也是此前中国企业的最大痛点。面临显卡供应限制，国内企业不得不另辟蹊径，从模型架构和硬件适配两个维度进行双重优化。

生数科技的Vidu模型打造了原创的U-ViT端到端高效生成架构，结合国产芯片的特性进行优化，用更少的算卡达到海外模型的同等效果。

商汤的Seko 2.0完成多款国产芯片适配后，单集短剧的算力成本直接减半。原本生成一条AI广告需要500元的算力消耗，适配国产芯片后，几十块钱就能搞定。

如果说算力优化是节流，商业模式的创新就是开源。

面对国内用户“免费一停，感情归零”的现状，中国企业在海外的订阅费、token包等模式之外，还探索出了诸如平台与商家按广告收益分成、与创作者按内容播放量分账、为企业提供定制化的视频生成服务等新的变现模式。

比如创作者用快手可灵生成电商广告短视频，挂载平台内商家的商品链接，平台会根据视频的播放量、商品点击转化率，与创作者进行广告收益分成；红果短剧与制作商合作，利用seedance模型来降低制作成本，再根据AI漫剧的播放量与制作商进行分账。

可以说，中国电商、短剧、直播等丰富的互联网场景，是AI视频生成技术走出商业迷雾的关键。通过把技术价值与商业收益相绑定，让国产AI视频生成模型摆脱了只烧钱、难盈利的困境，在算力消耗与商业回报的极限拉扯中，逐步探索着可持续的商业化路径。

2025年，是中国AI视频生成的破圈元年，广泛走进了大众生活。

曾经需要下载专门APP、访问网页、输入复杂指令prompt才能使用的AI视频工具，在抖音、剪映等国民级应用中，实现了“拍同款”式的傻瓜操作。春节期间，个性化的AI拜年视频，成了潮流人士新年祝福的新方式。马年春晚，则是AI视频破圈的最高潮，字节跳动的Seedance 2.0模型参与《贺花神》等舞台视觉，让亿万观众直观感受到了中国AI视频生成的效果。

但吸引全民玩起来的同时，一系列AI视频生成的暗面，也随之浮现。

普通用户最大的烦恼，就是排队。春节高峰期，生成一个10秒的AI视频，最长需要等待12小时。如今恢复到日常使用，生成一段短视频的排队时间也需要4小时以上。这糟糕的使用体验，让很多用户不得不为爱充值，成为模型的付费用户，但即使花了钱，排队问题也并没有得到彻底解决。

用户苦于排队的现象背后，是仍然未解的商业魔咒。

随着AI视频生成技术的破圈，大量新用户涌入，平台的资源消耗也指数级增加。而AI视频生成的算力成本，远高于普通互联网产品，所以无法像以前支撑免费社交、免费视频那样，长期承担免费用户的算力成本。而这些新进入的免费用户，到底是爽一把就走，还是能转化为长期付费用户，还是未知数。没有确定性的商业回报，AI视频平台也就没有动力划拨更多算力资源，而糟糕的排队等待体验，又会进一步劝退用户的付费意愿。

何时能打破这个C端的商业化僵局，犹未可知，B端的问题就迎面而来。

春节过后，一些回归横店的演员们发现，曾经忙碌的片场冷冷清清，未来两个月都没有新剧开拍。

一问才知道，在短剧领域，大制作公司纷纷成立AI组，将核心制作环节交给AI，小公司则直接全面转成AI制作，不再招聘真人演员。春晚上的技术欢呼声尚未散去，AI对影视行业的绞杀已经开始。

以前，短剧平台会为中小承制方提供剧本库、给予保底激励，但年后，这些平台开始AI化转型，不再提供新的剧本资源，并加大对AI短剧制作的投入。红果平台还推出了针对性的补偿与激励政策，对选择使用AI技术进行短剧制作的合作方，按AI剧本等级给予不同额度的保底补偿，其中S+档AI剧本保底可达8万元。

AI吞噬短剧，证明了国产视频生成模型的能力之强，不再需要低效抽卡，对于群演、基础剪辑、简单文案撰写等重复性工作，已经可以靠AI进入工业化流水线式生产，显著提效。但这些岗位往往也吸纳了大量的就业人口。一旦从业者不能与行业一起转型，就会产生对AI技术的不满与抵触。

全民当导演是技术破圈的起点，但商业化瓶颈仍然存在，社会层面的连锁反应才刚刚拉开序幕。这些都是中国AI视频生成领域将长期面临的课题。