0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

算力积木+3D堆叠!GPNPU架构创新,应对AI推理需求

Carol Li 来源:电子发烧友网 作者:李弯弯 2025-12-11 08:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)2025年,人工智能正式迈入应用推理时代。大模型从实验室走向千行百业,推理需求呈指数级爆发。然而,高昂的推理成本与有限的算力供给之间的矛盾日益凸显,成为制约AI规模化落地的关键瓶颈。在此背景下,云天励飞推出其第五代芯片架构——GPNPU(General-Purpose Neural Processing Unit,通用神经网络处理单元),以一场底层架构的革命,试图重塑AI算力格局,推动大模型推理走向极致性价比时代。

GPNPU的核心定位是:做推理时代的优等生。它摒弃了传统芯片追求大而全的通用计算思路,转而聚焦大模型推理的核心场景,如Prefill准备阶段和Decode生成阶段,进行深度定制与优化。其目标极具挑战性:将当前约1美元/百万Token的推理成本,压缩至仅需1美分/百万Token,实现百倍效率提升。

GPNPU的黑科技源于三大底层创新。首先是算力积木设计思想。传统芯片往往一刀切,难以兼顾云、边、端多样化的部署需求。GPNPU采用模块化架构,如同乐高积木般可灵活堆叠,实现一次流片、多规格输出。其算力覆盖从8T到256T,既能支撑云端大模型推理,也能赋能边缘设备与终端智能体,如机器人手机、AR眼镜,真正实现全场景覆盖。

其次,GPNPU采用3D堆叠存储技术,直面内存墙难题。大模型推理对带宽极为敏感,数据搬运速度常成为性能瓶颈。通过3D堆叠,GPNPU大幅提升存储密度与带宽利用率,让计算单元得以持续满血运行,显著提升能效比。

第三,GPNPU实现异构化与灵活调度。它深刻洞察到推理任务的动态特性:Prefill阶段重算力,Decode阶段重带宽。因此,通过软硬协同优化,GPNPU可动态调整算力、带宽与存储的配比,不再依赖单一芯片硬扛,而是以灵活架构适配任务变化,实现资源最优利用。

与传统架构相比,GPNPU展现出显著差异化优势。传统GPU虽生态成熟、通用性强,但推理成本高昂;传统NPU能效较高,但多聚焦终端推理,通用性受限。而GPNPU则兼具GPU的通用性与NPU的高能效,专为大模型推理优化,覆盖端、边、云全场景,并以算力积木实现前所未有的架构灵活性,真正实现极致性价比。

目前,基于GPNPU架构的芯片正加速落地。正在研发的Nova 500系列,作为第五代GPNPU芯片,重点提升带宽与能效,是实现“1元内搞定百万Token”目标的关键一步。展望未来,Nova 600系列将探索光电一体化互联,构建高性价比的算力网络,进一步将推理成本推向分级成本新低。

依托GPNPU,云天励飞已构建“深穹”(云端)、“深界”(边缘)、“深擎”(具身智能)三大芯片产品矩阵,全面服务于互联网大厂、智能终端厂商与机器人企业,推动AI应用的广泛落地。

在国产工艺受限、高端GPU供应不确定的现实下,云天励飞没有选择在制程工艺上硬拼,而是以架构创新另辟蹊径。GPNPU不仅是技术的突破,更是一种战略智慧的体现——通过“算力积木+3D堆叠”的创新路径,走出一条高能效、低成本、全场景的差异化发展之路。它预示着,AI算力将不再昂贵稀缺,而是如水电般普惠,真正赋能千行百业的智能化变革。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38189

    浏览量

    297017
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    端侧AI堆叠DRAM”技术,这些国内厂商发

    3D DRAM等定制化存储方案正是基于利基存储和先进封装,以近存计算的方式满足AI推理的存储需求。SoC厂商、下游终端厂商都在积极适配这一类新型存储。   华邦电子CUBE   华邦
    的头像 发表于 09-08 06:05 1.1w次阅读
    端侧<b class='flag-5'>AI</b>“<b class='flag-5'>堆叠</b>DRAM”技术,这些国内厂商发<b class='flag-5'>力</b>!

    硅芯科技:AI突破,新型堆叠EDA工具持续进化

    电子发烧友网报道(文/黄晶晶)先进封装是突破危机的核心路径。2.5D/3D Chiplet异构集成可破解内存墙、功耗墙与面积墙,但面临多物理场分析、测试容错等EDA设计挑战。现有E
    的头像 发表于 10-31 09:16 1.2w次阅读
    硅芯科技:<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>突破,新型<b class='flag-5'>堆叠</b>EDA工具持续进化

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    反而压到了310W。更有意思的是它的异构架构:NPU+CPU+DVPP的组合,居然能同时扛住训练和推理场景,之前做自动驾驶算法时,用它跑模型时延直接降了20%。 但疑惑也有:这种
    发表于 10-27 13:12

    什么是AI模组?

    未来,腾视科技将继续深耕AI模组领域,全力推动AI边缘计算行业的深度发展。随着AI技术的不断演进和物联网应用的持续拓展,腾视科技的
    的头像 发表于 09-19 15:26 1170次阅读
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模组?

    什么是AI模组?

    未来,腾视科技将继续深耕AI模组领域,全力推动AI边缘计算行业的深度发展。随着AI技术的不断演进和物联网应用的持续拓展,腾视科技的
    的头像 发表于 09-19 15:25 441次阅读
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模组?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    能力 2)内存带宽 3)边缘设备的AI 2、架构与形态 1)AGI芯片的基本架构 设计AGI
    发表于 09-18 15:31

    科技上线赤兔推理引擎服务,创新解锁FP8大模型

    北京2025年7月30日 /美通社/ -- 近日,北京积科技有限公司(以下简称"积科技")宣布其服务平台上线赤兔推理引擎。积
    的头像 发表于 07-30 21:44 734次阅读

    革命:RoCE实测推理时延比InfiniBand低30%的底层逻辑

    AI 训练与推理中的网络效率瓶颈,助力数据中心在高带宽、低延迟、高可靠性的需求下实现资源的最优配置。
    的头像 发表于 05-28 14:08 1757次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>革命:RoCE实测<b class='flag-5'>推理</b>时延比InfiniBand低30%的底层逻辑

    AI原生架构升级:RAKsmart服务器在超大规模模型训练中的突破

    近年来,随着千亿级参数模型的崛起,AI训练对需求呈现指数级增长。传统服务器架构应对分布式
    的头像 发表于 04-24 09:27 616次阅读

    RAKsmart服务器如何重塑AI高并发格局

    AI大模型参数量突破万亿级、实时推理需求激增的当下,传统服务器架构的并发处理能力已逼近物理极限。RAKsmart通过“硬件重构+软件定义”的双引擎
    的头像 发表于 04-03 10:37 696次阅读

    DeepSeek推动AI需求:800G光模块的关键作用

    随着人工智能技术的飞速发展,AI需求正以前所未有的速度增长。DeepSeek等大模型的训练与推理任务对
    发表于 03-25 12:00

    Marvell展示2纳米芯片3D堆叠技术,应对设计复杂性挑战!

    随着现代科技的迅猛发展,芯片设计面临着前所未有的挑战。特别是在集成电路(IC)领域,随着设计复杂性的增加,传统的光罩尺寸已经成为制约芯片性能和功能扩展的瓶颈。为了解决这一问题,3D堆叠技术应运而生
    的头像 发表于 03-07 11:11 908次阅读
    Marvell展示2纳米芯片<b class='flag-5'>3D</b><b class='flag-5'>堆叠</b>技术,<b class='flag-5'>应对</b>设计复杂性挑战!

    AI需求激增,数据中心如何应对能源挑战

      “AI的爆发带来了巨大的需求,为了满足AI大模型的训练和应用推理,智
    的头像 发表于 02-22 09:49 1092次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>需求</b>激增,数据中心如何<b class='flag-5'>应对</b>能源挑战

    不再是HBM,AI推理流行,HBF存储的机会来了?

    NAND闪存和高带宽存储器(HBM)的特性,能更好地满足AI推理需求。   HBF的堆叠设计类似于HBM,通过硅通孔(TSVs)将多个高性能闪存核心芯片
    的头像 发表于 02-19 00:51 4349次阅读
    不再是HBM,<b class='flag-5'>AI</b><b class='flag-5'>推理</b>流行,HBF存储的机会来了?

    腾讯混元3D AI创作引擎正式发布

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具将为用户带来前所未有的3D内容创作体验,标志着腾讯在AI
    的头像 发表于 01-23 10:33 990次阅读