电子发烧友网报道(文/李弯弯)2025年,人工智能正式迈入应用推理时代。大模型从实验室走向千行百业,推理需求呈指数级爆发。然而,高昂的推理成本与有限的算力供给之间的矛盾日益凸显,成为制约AI规模化落地的关键瓶颈。在此背景下,云天励飞推出其第五代芯片架构——GPNPU(General-Purpose Neural Processing Unit,通用神经网络处理单元),以一场底层架构的革命,试图重塑AI算力格局,推动大模型推理走向极致性价比时代。
GPNPU的核心定位是:做推理时代的优等生。它摒弃了传统芯片追求大而全的通用计算思路,转而聚焦大模型推理的核心场景,如Prefill准备阶段和Decode生成阶段,进行深度定制与优化。其目标极具挑战性:将当前约1美元/百万Token的推理成本,压缩至仅需1美分/百万Token,实现百倍效率提升。
GPNPU的黑科技源于三大底层创新。首先是算力积木设计思想。传统芯片往往一刀切,难以兼顾云、边、端多样化的部署需求。GPNPU采用模块化架构,如同乐高积木般可灵活堆叠,实现一次流片、多规格输出。其算力覆盖从8T到256T,既能支撑云端大模型推理,也能赋能边缘设备与终端智能体,如机器人、手机、AR眼镜,真正实现全场景覆盖。
其次,GPNPU采用3D堆叠存储技术,直面内存墙难题。大模型推理对带宽极为敏感,数据搬运速度常成为性能瓶颈。通过3D堆叠,GPNPU大幅提升存储密度与带宽利用率,让计算单元得以持续满血运行,显著提升能效比。
第三,GPNPU实现异构化与灵活调度。它深刻洞察到推理任务的动态特性:Prefill阶段重算力,Decode阶段重带宽。因此,通过软硬协同优化,GPNPU可动态调整算力、带宽与存储的配比,不再依赖单一芯片硬扛,而是以灵活架构适配任务变化,实现资源最优利用。
与传统架构相比,GPNPU展现出显著差异化优势。传统GPU虽生态成熟、通用性强,但推理成本高昂;传统NPU能效较高,但多聚焦终端推理,通用性受限。而GPNPU则兼具GPU的通用性与NPU的高能效,专为大模型推理优化,覆盖端、边、云全场景,并以算力积木实现前所未有的架构灵活性,真正实现极致性价比。
目前,基于GPNPU架构的芯片正加速落地。正在研发的Nova 500系列,作为第五代GPNPU芯片,重点提升带宽与能效,是实现“1元内搞定百万Token”目标的关键一步。展望未来,Nova 600系列将探索光电一体化互联,构建高性价比的算力网络,进一步将推理成本推向分级成本新低。
依托GPNPU,云天励飞已构建“深穹”(云端)、“深界”(边缘)、“深擎”(具身智能)三大芯片产品矩阵,全面服务于互联网大厂、智能终端厂商与机器人企业,推动AI应用的广泛落地。
在国产工艺受限、高端GPU供应不确定的现实下,云天励飞没有选择在制程工艺上硬拼,而是以架构创新另辟蹊径。GPNPU不仅是技术的突破,更是一种战略智慧的体现——通过“算力积木+3D堆叠”的创新路径,走出一条高能效、低成本、全场景的差异化发展之路。它预示着,AI算力将不再昂贵稀缺,而是如水电般普惠,真正赋能千行百业的智能化变革。
GPNPU的核心定位是:做推理时代的优等生。它摒弃了传统芯片追求大而全的通用计算思路,转而聚焦大模型推理的核心场景,如Prefill准备阶段和Decode生成阶段,进行深度定制与优化。其目标极具挑战性:将当前约1美元/百万Token的推理成本,压缩至仅需1美分/百万Token,实现百倍效率提升。
GPNPU的黑科技源于三大底层创新。首先是算力积木设计思想。传统芯片往往一刀切,难以兼顾云、边、端多样化的部署需求。GPNPU采用模块化架构,如同乐高积木般可灵活堆叠,实现一次流片、多规格输出。其算力覆盖从8T到256T,既能支撑云端大模型推理,也能赋能边缘设备与终端智能体,如机器人、手机、AR眼镜,真正实现全场景覆盖。
其次,GPNPU采用3D堆叠存储技术,直面内存墙难题。大模型推理对带宽极为敏感,数据搬运速度常成为性能瓶颈。通过3D堆叠,GPNPU大幅提升存储密度与带宽利用率,让计算单元得以持续满血运行,显著提升能效比。
第三,GPNPU实现异构化与灵活调度。它深刻洞察到推理任务的动态特性:Prefill阶段重算力,Decode阶段重带宽。因此,通过软硬协同优化,GPNPU可动态调整算力、带宽与存储的配比,不再依赖单一芯片硬扛,而是以灵活架构适配任务变化,实现资源最优利用。
与传统架构相比,GPNPU展现出显著差异化优势。传统GPU虽生态成熟、通用性强,但推理成本高昂;传统NPU能效较高,但多聚焦终端推理,通用性受限。而GPNPU则兼具GPU的通用性与NPU的高能效,专为大模型推理优化,覆盖端、边、云全场景,并以算力积木实现前所未有的架构灵活性,真正实现极致性价比。
目前,基于GPNPU架构的芯片正加速落地。正在研发的Nova 500系列,作为第五代GPNPU芯片,重点提升带宽与能效,是实现“1元内搞定百万Token”目标的关键一步。展望未来,Nova 600系列将探索光电一体化互联,构建高性价比的算力网络,进一步将推理成本推向分级成本新低。
依托GPNPU,云天励飞已构建“深穹”(云端)、“深界”(边缘)、“深擎”(具身智能)三大芯片产品矩阵,全面服务于互联网大厂、智能终端厂商与机器人企业,推动AI应用的广泛落地。
在国产工艺受限、高端GPU供应不确定的现实下,云天励飞没有选择在制程工艺上硬拼,而是以架构创新另辟蹊径。GPNPU不仅是技术的突破,更是一种战略智慧的体现——通过“算力积木+3D堆叠”的创新路径,走出一条高能效、低成本、全场景的差异化发展之路。它预示着,AI算力将不再昂贵稀缺,而是如水电般普惠,真正赋能千行百业的智能化变革。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
AI
+关注
关注
90文章
38189浏览量
297017
发布评论请先 登录
相关推荐
热点推荐
端侧AI“堆叠DRAM”技术,这些国内厂商发力!
正3D DRAM等定制化存储方案正是基于利基存储和先进封装,以近存计算的方式满足AI推理的存储需求。SoC厂商、下游终端厂商都在积极适配这一类新型存储。 华邦电子CUBE 华邦
硅芯科技:AI算力突破,新型堆叠EDA工具持续进化
电子发烧友网报道(文/黄晶晶)先进封装是突破算力危机的核心路径。2.5D/3D Chiplet异构集成可破解内存墙、功耗墙与面积墙,但面临多物理场分析、测试容错等EDA设计挑战。现有E
国产AI芯片真能扛住“算力内卷”?海思昇腾的这波操作藏了多少细节?
反而压到了310W。更有意思的是它的异构架构:NPU+CPU+DVPP的组合,居然能同时扛住训练和推理场景,之前做自动驾驶算法时,用它跑模型时延直接降了20%。
但疑惑也有:这种算力密
发表于 10-27 13:12
积算科技上线赤兔推理引擎服务,创新解锁FP8大模型算力
北京2025年7月30日 /美通社/ -- 近日,北京积算科技有限公司(以下简称"积算科技")宣布其算力服务平台上线赤兔推理引擎。积
AI原生架构升级:RAKsmart服务器在超大规模模型训练中的算力突破
近年来,随着千亿级参数模型的崛起,AI训练对算力的需求呈现指数级增长。传统服务器架构在应对分布式
RAKsmart服务器如何重塑AI高并发算力格局
在AI大模型参数量突破万亿级、实时推理需求激增的当下,传统服务器架构的并发处理能力已逼近物理极限。RAKsmart通过“硬件重构+软件定义”的双引擎
Marvell展示2纳米芯片3D堆叠技术,应对设计复杂性挑战!
随着现代科技的迅猛发展,芯片设计面临着前所未有的挑战。特别是在集成电路(IC)领域,随着设计复杂性的增加,传统的光罩尺寸已经成为制约芯片性能和功能扩展的瓶颈。为了解决这一问题,3D堆叠技术应运而生
不再是HBM,AI推理流行,HBF存储的机会来了?
NAND闪存和高带宽存储器(HBM)的特性,能更好地满足AI推理的需求。 HBF的堆叠设计类似于HBM,通过硅通孔(TSVs)将多个高性能闪存核心芯片
腾讯混元3D AI创作引擎正式发布
近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具将为用户带来前所未有的3D内容创作体验,标志着腾讯在AI

算力积木+3D堆叠!GPNPU架构创新,应对AI推理需求
评论