电子发烧友网报道(文/莫婷婷)当前,全球人工智能迈入具身智能(Agentic AI)时代,云天励飞董事长兼CEO陈宁博士在“大算力芯片战略前瞻会”上强调:公司将聚焦大模型推理芯片。在大会上,云天励飞阐述了GPNPU架构的技术内涵,并公开了未来三年大算力芯片路线图,致力于成为“最懂AI的推理芯片领军企业”。

GPNPU:打造中国版TPU的最优解
自2025年起,AI推理芯片将迎来未来5至10年的高光时刻,核心驱动力在于大模型推理需求的爆发式增长——尤其是Token数量的指数级攀升。
以字节跳动的豆包为例:2024年5日均Token量仅为0.12万亿;到2025年9月,已飙升至30万亿;仅三个月后(2025年12月)便突破50万亿。按此每季度近翻倍的增速推算,当前日均Token量很可能已达70–80万亿。

大模型训练与推理在计算范式上的根本差异:训练追求算力绝对值、高精度和大规模集群互联,而推理则聚焦成本敏感、能效比与极致性价比。训练芯片需要百万卡级的高性能互联,依赖FP64/32/16等高精度计算,对成本不敏感;而推理场景——如手机上的豆包、耳机中的同声传译、眼镜里的智能助手——更关注每个Token背后的真实成本。
陈宁博士表示,云天励飞将持续推进“百万Token推理成本每年两位数下降”的目标,力争到2030年实现“百亿Token仅需一分钱人民币”,最终达成“推理算力平权”。
面对全球AI算力重心从训练向推理迁移的历史性拐点,云天励飞指出“训练追赶、推理超车”是公司未来五年的核心策略。2025年,云天励飞提出其第五代芯片架构——GPNPU。
陈宁博士表示,GPNPU架构是大模型推理的最佳载体。
GPNPU是一套覆盖硬件微架构、系统集成和软件生态的综合解决方案,其本质是“GPGPU + NPU + 3DM + 算力积木”四维融合,具备了通用性、高效性、大带宽、低延时等特点,且采用了算力积木架构。
云天励飞CTO李爱军进一步介绍,GPNPU实现对CUDA兼容,支持“一行代码迁移”;采用NPU级SIMD矩阵计算单元,实现单位面积更高的计算密度;该架构引入自研3D Memory堆叠架构,带宽达HBM的10倍,有效破解“内存墙”瓶颈;通过3DM高效访存架构实现10纳秒级延迟,满足实时交互类应用需求。
值得一提的是,云天励飞在过去五年深耕国产工艺,率先探索了 Chiplet算力积木架构,而这一架构与当前大模型推理所需的超节点设计理念异曲同工。为此,公司定义下一代芯片的Scale-Up超节点架构,从而高效支撑万亿级乃至十万亿级MoE大模型的推理需求。云天励飞也是国内少数掌握D2D Chiplet和C2C Mesh互连技术的企业之一。

李爱军提到,GPNPU系统级芯片,相比当前主流以训练为主的GPGPU架构,在推理效率、性能表现和成本控制方面均实现了显著领先。更进一步的在Agent 时代,多模型、多智能体的自主多模型的推理时代,对于推理的时延到了毫秒级,这个时候我们的领先优势将会实现跨代的领先。
公布三年三芯路线图
在发布会上,云天励飞公布了未来三年大算力芯片规划,以“PD分离 + AFN细粒度优化 + 超节点集群”为核心设计理念,精准应对大模型推理中prefill(计算密集)与decode(访存密集)阶段的不同需求。
2025年:推出第一代超节点P芯片(DeepVerse 100),专注百万长上下文场景的prefill推理,算力对标英伟达Hopper架构的H100;
2026年:发布第一代超节点D芯片(DeepVerse 200),聚焦超低延迟decode推理,性能看齐Blackwell架构的B200;
2027年:迭代至第二代超节点P芯片(DeepVerse 300),实现毫秒级端到端推理时延,算力目标直指英伟达下一代Rubin架构。

云天励飞以大模型推理为核心应用场景,覆盖大模型云推理、多模态理解等当前主流。云天励飞透露,公司的产业也可以应用到深空探测领域,推进“算力进太空”,开启AI航天新篇章。
目前,云天励飞已构建多元化的生态布局,其客户群体包括AI大模型企业、涵盖互联网大厂、科技领军企业等行业头部客户,以及政企与基础设施客户。
可以看到,云天励飞不仅拥有领先的技术,还具备强大的供应链韧性与交付能力。尤为值得关注的是,云天励飞已成功实现全国产化工艺闭环。仅用五年时间,公司完成了从芯片设计、先进制造工艺到先进封装的全链条自主可控,并推动全国产推理算力芯片持续迭代。
至今,云天励飞已构建“1+4”组织架构,包括:
政企事业部:作为公司基石,聚焦智慧城市、交通、安防等领域,正在规划建设区域级千卡智算集群,赋能城市级AI渗透;
噜咔(Luka)事业部:打造面向儿童的AI原生硬件智能体,被内部称为“Token吞金兽”,有望成为消费级爆品;
岍丞(Qiancheng)事业部:蓝牙耳机模组年出货超3200万颗,占中国手机品牌35%以上份额,2026年将启动自有AI C端品牌探索;
智算事业部:服务互联网大厂与运营商,已斩获16亿大单,正与多家头部客户推进深度合作。
这四大事业部,让云天励飞形成从技术研发到市场落地的完整闭环。
小结:
站在第四次工业革命的门槛上,云天励飞正以GPNPU为支点,撬动中国在全球AI基础设施格局中的新地位。在发布会上,云天励飞强调,“到2030年,通过GPNPU推理架构的持续创新,坚定推进百万Tokens推理成本万倍降低,最终实现推理算力平权!”

GPNPU:打造中国版TPU的最优解
自2025年起,AI推理芯片将迎来未来5至10年的高光时刻,核心驱动力在于大模型推理需求的爆发式增长——尤其是Token数量的指数级攀升。
以字节跳动的豆包为例:2024年5日均Token量仅为0.12万亿;到2025年9月,已飙升至30万亿;仅三个月后(2025年12月)便突破50万亿。按此每季度近翻倍的增速推算,当前日均Token量很可能已达70–80万亿。

大模型训练与推理在计算范式上的根本差异:训练追求算力绝对值、高精度和大规模集群互联,而推理则聚焦成本敏感、能效比与极致性价比。训练芯片需要百万卡级的高性能互联,依赖FP64/32/16等高精度计算,对成本不敏感;而推理场景——如手机上的豆包、耳机中的同声传译、眼镜里的智能助手——更关注每个Token背后的真实成本。
陈宁博士表示,云天励飞将持续推进“百万Token推理成本每年两位数下降”的目标,力争到2030年实现“百亿Token仅需一分钱人民币”,最终达成“推理算力平权”。
面对全球AI算力重心从训练向推理迁移的历史性拐点,云天励飞指出“训练追赶、推理超车”是公司未来五年的核心策略。2025年,云天励飞提出其第五代芯片架构——GPNPU。
陈宁博士表示,GPNPU架构是大模型推理的最佳载体。
GPNPU是一套覆盖硬件微架构、系统集成和软件生态的综合解决方案,其本质是“GPGPU + NPU + 3DM + 算力积木”四维融合,具备了通用性、高效性、大带宽、低延时等特点,且采用了算力积木架构。
云天励飞CTO李爱军进一步介绍,GPNPU实现对CUDA兼容,支持“一行代码迁移”;采用NPU级SIMD矩阵计算单元,实现单位面积更高的计算密度;该架构引入自研3D Memory堆叠架构,带宽达HBM的10倍,有效破解“内存墙”瓶颈;通过3DM高效访存架构实现10纳秒级延迟,满足实时交互类应用需求。
值得一提的是,云天励飞在过去五年深耕国产工艺,率先探索了 Chiplet算力积木架构,而这一架构与当前大模型推理所需的超节点设计理念异曲同工。为此,公司定义下一代芯片的Scale-Up超节点架构,从而高效支撑万亿级乃至十万亿级MoE大模型的推理需求。云天励飞也是国内少数掌握D2D Chiplet和C2C Mesh互连技术的企业之一。

李爱军提到,GPNPU系统级芯片,相比当前主流以训练为主的GPGPU架构,在推理效率、性能表现和成本控制方面均实现了显著领先。更进一步的在Agent 时代,多模型、多智能体的自主多模型的推理时代,对于推理的时延到了毫秒级,这个时候我们的领先优势将会实现跨代的领先。
公布三年三芯路线图
在发布会上,云天励飞公布了未来三年大算力芯片规划,以“PD分离 + AFN细粒度优化 + 超节点集群”为核心设计理念,精准应对大模型推理中prefill(计算密集)与decode(访存密集)阶段的不同需求。
2025年:推出第一代超节点P芯片(DeepVerse 100),专注百万长上下文场景的prefill推理,算力对标英伟达Hopper架构的H100;
2026年:发布第一代超节点D芯片(DeepVerse 200),聚焦超低延迟decode推理,性能看齐Blackwell架构的B200;
2027年:迭代至第二代超节点P芯片(DeepVerse 300),实现毫秒级端到端推理时延,算力目标直指英伟达下一代Rubin架构。

云天励飞以大模型推理为核心应用场景,覆盖大模型云推理、多模态理解等当前主流。云天励飞透露,公司的产业也可以应用到深空探测领域,推进“算力进太空”,开启AI航天新篇章。
目前,云天励飞已构建多元化的生态布局,其客户群体包括AI大模型企业、涵盖互联网大厂、科技领军企业等行业头部客户,以及政企与基础设施客户。
可以看到,云天励飞不仅拥有领先的技术,还具备强大的供应链韧性与交付能力。尤为值得关注的是,云天励飞已成功实现全国产化工艺闭环。仅用五年时间,公司完成了从芯片设计、先进制造工艺到先进封装的全链条自主可控,并推动全国产推理算力芯片持续迭代。
至今,云天励飞已构建“1+4”组织架构,包括:
政企事业部:作为公司基石,聚焦智慧城市、交通、安防等领域,正在规划建设区域级千卡智算集群,赋能城市级AI渗透;
噜咔(Luka)事业部:打造面向儿童的AI原生硬件智能体,被内部称为“Token吞金兽”,有望成为消费级爆品;
岍丞(Qiancheng)事业部:蓝牙耳机模组年出货超3200万颗,占中国手机品牌35%以上份额,2026年将启动自有AI C端品牌探索;
智算事业部:服务互联网大厂与运营商,已斩获16亿大单,正与多家头部客户推进深度合作。
这四大事业部,让云天励飞形成从技术研发到市场落地的完整闭环。
小结:
站在第四次工业革命的门槛上,云天励飞正以GPNPU为支点,撬动中国在全球AI基础设施格局中的新地位。在发布会上,云天励飞强调,“到2030年,通过GPNPU推理架构的持续创新,坚定推进百万Tokens推理成本万倍降低,最终实现推理算力平权!”
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
AI
+关注
关注
91文章
40982浏览量
302534 -
云天励飞
+关注
关注
0文章
184浏览量
12694
发布评论请先 登录
相关推荐
热点推荐
全球唯一?IBM更新量子计算路线图:2029年交付!
电子发烧友网报道(文/梁浩斌)近年来,量子计算似乎正在取得越来越多突破,国内外都涌现出不少的技术以及产品突破。作为量子计算领域的先驱之一,IBM近日公布了其量子计算路线图,宣布将在2029年
国内首个国产AI推理千卡集群落地,采用云天励飞全自研AI推理芯片
3 月 12 日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。项目将基于云天励
发表于 03-12 11:10
•1310次阅读
力争百万 Tokens 推理成本降低百倍:云天励飞发布未来三年大算力芯片战略,首曝 DeepVerse 路线图
2月3日,云天励飞正式举办“大算力芯片战略前瞻会”,首次对外公布未来三年的大算力 AI 推理芯片
曦望发布新一代推理GPU芯片,单位Token推理成本降低90%
已突破万片。 启望S3是专为大模型推理打造的定制化GPGPU芯片。在典型推理场景下,它的整体性价比较上一代提升超10倍。在算力与存储设计
云天励飞:AI推理需求狂飙,国产算力芯片机遇期加速到来
今年来自国内外的半导体创新领袖企业高管们又带来哪些前瞻观点?此次,电子发烧友网特别采访了云天励飞,以下是这家公司对2026年半导体产业的分析与展望。
云天励飞中标AI龙岗一期1.22亿元项目
日前,云天励飞中标AI龙岗一期1.22亿元项目,将为龙岗区打造AI与机器人示范场景提供技术支撑,助力城市治理智能化水平持续提升。
云天励飞AI推理芯片如何赋能千行百业
11月26日,云天会客厅第二期生态沙龙暨深商联高科技高成长创新营走进上市公司活动圆满举办。来自深圳科技领域的多位企业负责人齐聚云天励飞,共同探讨AI
云天励飞亮相2025中国具身智能机器人大会
近日,在 2025 中国具身智能机器人大会上,云天励飞副总裁罗忆从芯片厂商的视角出发,对具身智能产业的未来进行了深入剖析,并分享了公司在 AI 推理芯片与机器人应用场景方面的整体布局。
云天励飞亮相2025湾区半导体产业生态博览会
在2025湾区半导体产业生态博览会(湾芯展)上,云天励飞以“算力积木”为核心理念,携全栈AI推理产品体系重磅亮相,集中展示了从芯片到模组再到
华为首次公布昇腾芯片新路线图
9月18日在上海世博中心举办的 2025 华为全联接大会上,华为副董事长、轮值董事长徐直军登台发表演讲,首次对外公布了昇腾 AI 芯片未来三年的产品迭代路线图。这一消息无疑为国内 AI
百亿Token一分钱!云天励飞喊出“推理成本万倍降”,公布三年三芯路线图
评论