0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI PC的算力天平:NPU之外,GPU是不可或缺的砝码

颖脉Imgtec 2026-06-01 10:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文来源:与非网


尽管AI PC在过去两年被视为产业热点,但从全球出货量与大众普及度来看,它距离真正的市场爆发显然还有一段路要走。目前,全球AI PC仍处于早期采用的过渡阶段。然而,在市场真正爆发前夕,芯片晶圆层面的算力架构变革已经悄然展开。传统PC的计算处理过度依赖CPU,而新一代端侧芯片则明确转向统筹CPU、GPU和NPU资源的异构计算架构。

在异构架构中,NPU凭借“AI算力担当”的概念在商用宣传中占据核心位置。这引发了行业内部的务实讨论:在实际的端侧AI任务中,GPU是否面临被边缘化的风险?它与NPU的边界究竟在哪里?

近期,与非网与全球半导体IP供应商Imagination展开了一场对话,以其最新发布的E系列GPU IP为切入点,探讨了端侧模型演进对芯片架构提出的硬性要求,并为未来边缘系统的设计提供了差异化的配置思路。

5e56ad72-5d62-11f1-ab55-92fbcf53809c.jpg

受访人:Rob Fisher, Imagination高级产品总监


换机周期的底层逻辑

在谈到推动AI PC发展的核心驱动力时,Rob Fisher在接受与非网采访时表示,这本质上源于向设备端 AI 的转变,其目的是在本地实现更高的生产力、更低的成本和更强的数据隐私。例如,开源端侧智能体框架OpenClaw即可部署在AI PC上,由本地硬件直接托管并运行AI Agent。产业链合作伙伴认为,这类本地AI体验的日趋成熟,将成为下一个换机周期的基础。

AI PC与传统PC的核心架构差异,在于异构计算中不同处理器角色的重新定义。传统PC主要依赖CPU处理所有计算任务,而AI PC旨在统筹调度CPU、GPU和NPU资源,通过引入NPU、GPU等面向AI的并行加速器,可以显著提升AI任务的处理速度与效率。

从全球范围来看,AI PC目前确实仍处于早期采用阶段。但预测显示,未来两到三年内,AI PC将逐步主导出货量。而随着生态系统的成熟,亚洲(尤其是中国)的进展会非常迅速。Rob Fisher 透露,Imagination目前已在与多家中国本土公司合作,开发下一代AI PC SoC。


灵活性打败纯算力,将成为端侧SoC的硬性指标

随着端侧大模型和Agent的技术演进,边缘端对芯片提出了与以往不同的要求。Rob Fisher在采访中强调:未来的端侧AI,需要更高的“灵活性”而不仅仅是算力。

对于边缘端模型而言,除了提供原始的TOPS算力之外,芯片还必须能在严格的功耗范围内,维持高存储带宽、高效的数据移动能力以及混合精度计算的支持。

与此同时,软件层面的创新同样在快速推进。模型量化、稀疏化、压缩、算子融合以及执行期图优化等技术,正在从根本上重塑可在设备端部署的模型形态。这也进一步强化了对灵活、可编程计算的需求——相比于针对有限模型集优化峰值吞吐量的固定架构,面向未来的硬件必须具备更强的适应性。

这正是硬件灵活性正变得与峰值算力同等重要的根本原因。边缘AI的工作负载变化极快:模型持续演进,算子日趋多样,处理流程也越来越复杂,视觉、语言、音频与经典计算常常交织在一起。

更重要的是,边缘SoC的运行逻辑与云端推理加速器截然不同。一颗AI PC SoC在承担AI推理任务的同时,还必须持续应对一系列混合运行的工作负载,包括实时渲染用户界面、管理网络连接、强制执行安全策略,以及处理操作系统与应用任务。因此,它不仅需要具备适应动态变化工作负载的灵活性,还必须能够在兼顾所有任务的同时,避免出现存储瓶颈或过度功耗。


GPU在AI PC中会被边缘化吗?

针对主流 AI PC 芯片普遍采用的CPU+GPU+NPU异构架构,与非网向Rob Fisher抛出了一个行业焦点关注问题:NPU常被宣传为算力担当,GPU是否会被边缘化?

对此,Rob Fisher的观点是,GPU在AI PC中不会被边缘化,理由如下:

从商业与设计现实来看,AI PC SoC无论如何都需要一个图形加速器来支持用户界面、专业渲染和游戏。因此,将同一个可编程计算引擎加以扩展以支持AI工作负载,是一个非常自然且具高性价比的步骤。它让SoC设计者能够从已有的硅片中获得更多价值,而不是将AI视为一个完全独立的功能。

NPU对于特定的推理工作负载来说非常高效,但这种专用化是有代价的。GPU虽然更具通用性,但提供了远为强大的灵活性和软件复用能力,并且非常适合那些快速演变、或必须与图形及系统工作负载同时运行的AI任务。

此外,还有一个实际的商业考量:对于SoC团队来说,设计、授权和集成一个全新的NPU会增加成本、风险和后期验证工作。相比之下,像GPU这样的通用并行计算架构,可以通过软件持续适配新模型,从而在多个产品周期中保持竞争力。

Imagination预测,未来3-5年,端侧AI芯片架构将朝着更深度的异构和更紧密的集成方向演进。CPU、GPU和更多专用加速器将共存,但在软件层面实现更好的统筹调度。架构的重点将从峰值AI指标转向持续的性能功耗比、内存效率和灵活性,这反映了边缘设备必须处理多样化、并发工作负载的现实。


E系列GPU最值得关注的优化是突发处理器与神经核

为了在功耗、性能和灵活性之间取得平衡,Imagination在设计新一代GPU架构时,基于“AI将与图形处理并列,成为同等重要核心工作负载”的前提,推出了E系列GPU IP

Rob Fisher告诉与非网,在边缘AI场景中,性能瓶颈往往不在计算本身,而在数据移动。针对这一点,E系列引入了“突发处理器(Burst Processors)”技术。

在传统的ALU架构中,主ALU管线中的算术指令会每个周期切换任务,这意味着每个周期都会中断当前任务,所有中间计算结果都必须存储到统一着色集群(USC)的内部寄存器或内存中。频繁的数据读写与搬移构成了传统功耗的主要部分。

而E系列的Burst Processor将多个算术指令聚合为一个指令突发(burst),并确保其作为一个完整单元顺序执行。在这个过程中产生的中间结果被直接保存在ALU流水线内部,避免了频繁的数据传输和高功耗的SRAM读写。

据悉,这种减少数据搬移的设计,使E系列在笔电级功耗范围内维持了高计算性能,平均降低功耗达35%。

而通过在ALU内部集成AI加速能力,E系列GPU可以作为“神经核(Neural Core)”运行。它在1GHz频率下可扩展到每核心32 TOPS INT8的算力(且可运行在更高频率)。

此外,E 系列在低精度 AI 计算任务中提供了不同的配置选项:

全性能版本:在低精度任务中提供显著加速,针对四分之一精度(如FP8)实现16倍加速,半精度(如 FP16)实现8倍加速,相较于全精度呈现116的加速比。原生支持包括FP16、BF16、INT8、INT4、FP8在内的主流数据格式。

面积优化版本:通过省略额外的低精度加速单元,使GPU整体面积减少约3%,同时在半精度和四分之一精度任务中均提供相较于全精度8倍的加速(即18方案)。

在内存管理方面,E系列每个统一着色集群(USC)专属配置了512KB高速内部寄存器存储以及32KB本地存储器。配合最新一代PVRIC5图像压缩技术(支持无损压缩与固定提供 50% 压缩率的视觉无损压缩模式),可进一步减少系统内存读写带来的带宽与功耗开销。


系统设计的理性权衡

除了AI PC,以GPU为中心的架构也适用于汽车、机器人等边缘终端。

对此,Rob Fisher表示,汽车和机器人领域更加强调确定性、安全认证和长产品寿命(E 系列汽车配置通过了ASIL-B认证,并采用分布式安全机制);而AI PC则优先考虑能效,但两者都需要应对混合、并发的工作负载。

通过内置高级固件处理器控制的“邮箱消息系统(Mailbox Messaging System)”,E系列GPU可通过GPIO接口与系统中的第三方NPU进行直接交互,无需回退至主CPU,从而可降低多任务并发时的系统延迟。

于是,基于这种性能与灵活性,E系列GPU给如今的SoC设计者又带来了新的决策思考:当系统已经搭载了具备AI计算能力的GPU,是否还需要单独配置独立的NPU?

对此,Imagination 提出了三种配置模型:

平衡型(Balanced):对于必须保证针对已知 AI 工作负载实现高性能加速的系统,继续配置NPU依然是合理的选择。已知的高频网络运行在NPU上,而GPU则为系统保留支持未来(未知)演进 AI 网络的灵活性。

成本优化型(Cost optimised):在对成本敏感、且对AI加速需求量或速度要求不高的市场——或者在未来AI网络支持风险尤为关键的应用场景中,E系列GPU凭借扩展算力,完全可以满足系统对AI加速的需求,从而省去对独立NPU的投资。

传统专用型(Simple):即传统的GPU搭配专用NPU孤立设计,在硅片面积与成本方面代价较大,且面临NPU未来无法支持新一代AI网络的技术迭代风险。


写在最后

根据Imagination与与非网的交流,面向不同市场的E系列定制版本将于2025年至2026年陆续推出

而在AI PC技术尚未全面爆发、算法模型仍在持续变化的过渡期,具备高度可编程与通用计算能力的通用GPU,或许能凭借软件持续适配新模型的能力,在多个产品周期中为设计者提供更具生命周期的长效优势。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5346

    浏览量

    136324
  • AI
    AI
    +关注

    关注

    91

    文章

    42415

    浏览量

    303368
  • NPU
    NPU
    +关注

    关注

    2

    文章

    396

    浏览量

    21478
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    是否有方法可以实现从 GPU (OpenCL) 到 NPU 的零拷贝数据传输?

    Hi, 我正在为 i.MX 8M Plus 开发管道,我想知道是否有任何方法可以实现从 GPU (OpenCL) 到 NPU 的零拷贝数据传输。 我遇到过 NNStreamer,它似乎支持
    发表于 05-28 08:19

    安谋科技“周易”X3 NPU R2升级,最高力翻倍+力密度跃升

    近日,安谋科技Tech Talk AI技术开放麦第二期,NPU高级产品经理Benjamin Ye分享了“周易”X3 NPU IP R2版本升级亮点,详解该版本在力、
    的头像 发表于 05-18 15:02 154次阅读
    安谋科技“周易”X3 <b class='flag-5'>NPU</b> R2升级,最高<b class='flag-5'>算</b>力翻倍+<b class='flag-5'>算</b>力密度跃升

    边缘AI力临界点:深度解析176TOPS香橙派AI Station的产业价值

    Jetson之外的国产力选择。 五、产业定位与横向对比 在当前的AI硬件版图中,OrangePi AI Station的定位非常清晰:填补了“AI
    发表于 03-10 14:19

    GPU 利用率<30%?这款开源智云平台让力不浪费 1%

    作为 AI 开发者,你是否早已受够这些困境:花数百万采购的 GPU 集群,利用率常年低于 30%,力闲置如同烧钱;跨 CPU/GPU/NPU
    的头像 发表于 01-26 14:20 355次阅读

    AI PC芯片三强争霸:NPU力狂飙、1.8nm工艺时代降临

    ,2025年大中华区32%的PC将具备AI能力,到2026年将达到一半的占比,约为46%。在此关键窗口期,高通、英特尔与AMD三大芯片巨头相继发布新一代AI PC处理器。    
    的头像 发表于 01-12 09:17 2640次阅读
    <b class='flag-5'>AI</b> <b class='flag-5'>PC</b>芯片三强争霸:<b class='flag-5'>NPU</b><b class='flag-5'>算</b>力狂飙、1.8nm工艺时代降临

    瑞芯微SOC智能视觉AI处理器

    系统控制和轻量级任务。NPU: 集成2.0 TOPS的NPU力高于RK3568B2),专为AI视觉任务优化。多媒体: 核心特点是强大的视频解码能力,支持4K@60fps H.265
    发表于 12-19 13:44

    AI硬件全景解析:CPU、GPUNPU、TPU的差异化之路,一文看懂!​

    CPU作为“通用基石”,支撑所有设备的基础运行;GPU凭借并行力,成为AI训练与图形处理的“主力”;TPU在Google生态中深耕云端大模型训练;NPU则让
    的头像 发表于 12-17 17:13 2638次阅读
    <b class='flag-5'>AI</b>硬件全景解析:CPU、<b class='flag-5'>GPU</b>、<b class='flag-5'>NPU</b>、TPU的差异化之路,一文看懂!​

    安谋科技:端侧NPU技术创新,拉动AI力落地引擎

    X3 NPU IP以及生态建设、NPU发展趋势等话题。   图:安谋科技产品总监鲍敏祺   周易X3 NPU IP正当时   安谋科技周易X3 NPU IP面向端侧
    的头像 发表于 12-09 16:44 6258次阅读
    安谋科技:端侧<b class='flag-5'>NPU</b>技术创新,拉动<b class='flag-5'>AI</b><b class='flag-5'>算</b>力落地引擎

    从CPU、GPUNPU,美格智能持续优化异构力计算效能

    前言AI力已成为数字经济时代的核心生产力,但全球AI产业正面临“供给不足、成本高企、生态待建”三重挑战。据行业统计,行业力资源平均利用率仅为30%~40%,存在严重的
    的头像 发表于 11-21 16:05 1446次阅读
    从CPU、<b class='flag-5'>GPU</b>到<b class='flag-5'>NPU</b>,美格智能持续优化异构<b class='flag-5'>算</b>力计算效能

    国产AI芯片真能扛住“力内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“力是AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下力直接拉到256 TFLOPS,比上一代提升了40%,但功耗
    发表于 10-27 13:12

    AI芯片:科技探索与AGI愿景》—— 深入硬件核心的AGI指南

    AI研发、半导体行业或科技投资的读者而言,这本书提供了不可或缺的底层视角和判断依据,是一本扎实而富有远见的必读之作。
    发表于 09-17 09:29

    天玑9500 性能大爆发!NPU AI力或达100TOPS

    电子发烧友网综合报道,据博主数码闲聊站独家爆料,联发科天玑9500 NPU用上全新IP硬件,AI力对比前代直接翻倍。此外,天玑9500将推出类似“存一体”的能效黑科技架构,目前大概
    的头像 发表于 08-21 11:12 4542次阅读
    天玑9500 性能大爆发!<b class='flag-5'>NPU</b> <b class='flag-5'>AI</b><b class='flag-5'>算</b>力或达100TOPS

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK6大模型语音
    发表于 07-04 11:14

    【「力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「力芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中的芯片知识是比较接近当前的顶尖芯片水平的,同时包含了芯片架构的基础知识,但该部分知识比较晦涩难懂,或许是由于我一直从事的事芯片
    发表于 06-18 19:31

    加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,力才是硬通货。你有没有发现,现在越来越多的AI企业不光用
    的头像 发表于 06-05 13:39 2092次阅读
    智<b class='flag-5'>算</b>加速卡是什么东西?它真能在<b class='flag-5'>AI</b>战场上干掉<b class='flag-5'>GPU</b>和TPU!