AI PC的算力天平：NPU之外，GPU是不可或缺的砝码-电子发烧友网

本文来源：与非网

尽管AI PC在过去两年被视为产业热点，但从全球出货量与大众普及度来看，它距离真正的市场爆发显然还有一段路要走。目前，全球AI PC仍处于早期采用的过渡阶段。然而，在市场真正爆发前夕，芯片晶圆层面的算力架构变革已经悄然展开。传统PC的计算处理过度依赖CPU，而新一代端侧芯片则明确转向统筹CPU、GPU和NPU资源的异构计算架构。

在异构架构中，NPU凭借“AI算力担当”的概念在商用宣传中占据核心位置。这引发了行业内部的务实讨论：在实际的端侧AI任务中，GPU是否面临被边缘化的风险？它与NPU的边界究竟在哪里？

近期，与非网与全球半导体IP供应商Imagination展开了一场对话，以其最新发布的E系列GPU IP为切入点，探讨了端侧模型演进对芯片架构提出的硬性要求，并为未来边缘系统的设计提供了差异化的配置思路。

受访人：Rob Fisher, Imagination高级产品总监

换机周期的底层逻辑

在谈到推动AI PC发展的核心驱动力时，Rob Fisher在接受与非网采访时表示，这本质上源于向设备端 AI 的转变，其目的是在本地实现更高的生产力、更低的成本和更强的数据隐私。例如，开源端侧智能体框架OpenClaw即可部署在AI PC上，由本地硬件直接托管并运行AI Agent。产业链合作伙伴认为，这类本地AI体验的日趋成熟，将成为下一个换机周期的基础。

AI PC与传统PC的核心架构差异，在于异构计算中不同处理器角色的重新定义。传统PC主要依赖CPU处理所有计算任务，而AI PC旨在统筹调度CPU、GPU和NPU资源，通过引入NPU、GPU等面向AI的并行加速器，可以显著提升AI任务的处理速度与效率。

从全球范围来看，AI PC目前确实仍处于早期采用阶段。但预测显示，未来两到三年内，AI PC将逐步主导出货量。而随着生态系统的成熟，亚洲（尤其是中国）的进展会非常迅速。Rob Fisher 透露，Imagination目前已在与多家中国本土公司合作，开发下一代AI PC SoC。

灵活性打败纯算力，将成为端侧SoC的硬性指标

随着端侧大模型和Agent的技术演进，边缘端对芯片提出了与以往不同的要求。Rob Fisher在采访中强调：未来的端侧AI，需要更高的“灵活性”而不仅仅是算力。

对于边缘端模型而言，除了提供原始的TOPS算力之外，芯片还必须能在严格的功耗范围内，维持高存储带宽、高效的数据移动能力以及混合精度计算的支持。

与此同时，软件层面的创新同样在快速推进。模型量化、稀疏化、压缩、算子融合以及执行期图优化等技术，正在从根本上重塑可在设备端部署的模型形态。这也进一步强化了对灵活、可编程计算的需求——相比于针对有限模型集优化峰值吞吐量的固定架构，面向未来的硬件必须具备更强的适应性。

这正是硬件灵活性正变得与峰值算力同等重要的根本原因。边缘AI的工作负载变化极快：模型持续演进，算子日趋多样，处理流程也越来越复杂，视觉、语言、音频与经典计算常常交织在一起。

更重要的是，边缘SoC的运行逻辑与云端推理加速器截然不同。一颗AI PC SoC在承担AI推理任务的同时，还必须持续应对一系列混合运行的工作负载，包括实时渲染用户界面、管理网络连接、强制执行安全策略，以及处理操作系统与应用任务。因此，它不仅需要具备适应动态变化工作负载的灵活性，还必须能够在兼顾所有任务的同时，避免出现存储瓶颈或过度功耗。

GPU在AI PC中会被边缘化吗？

针对主流 AI PC 芯片普遍采用的CPU+GPU+NPU异构架构，与非网向Rob Fisher抛出了一个行业焦点关注问题：NPU常被宣传为算力担当，GPU是否会被边缘化？

对此，Rob Fisher的观点是，GPU在AI PC中不会被边缘化，理由如下：

从商业与设计现实来看，AI PC SoC无论如何都需要一个图形加速器来支持用户界面、专业渲染和游戏。因此，将同一个可编程计算引擎加以扩展以支持AI工作负载，是一个非常自然且具高性价比的步骤。它让SoC设计者能够从已有的硅片中获得更多价值，而不是将AI视为一个完全独立的功能。

NPU对于特定的推理工作负载来说非常高效，但这种专用化是有代价的。GPU虽然更具通用性，但提供了远为强大的灵活性和软件复用能力，并且非常适合那些快速演变、或必须与图形及系统工作负载同时运行的AI任务。

此外，还有一个实际的商业考量：对于SoC团队来说，设计、授权和集成一个全新的NPU会增加成本、风险和后期验证工作。相比之下，像GPU这样的通用并行计算架构，可以通过软件持续适配新模型，从而在多个产品周期中保持竞争力。

Imagination预测，未来3-5年，端侧AI芯片架构将朝着更深度的异构和更紧密的集成方向演进。CPU、GPU和更多专用加速器将共存，但在软件层面实现更好的统筹调度。架构的重点将从峰值AI指标转向持续的性能功耗比、内存效率和灵活性，这反映了边缘设备必须处理多样化、并发工作负载的现实。

E系列GPU最值得关注的优化是突发处理器与神经核

为了在功耗、性能和灵活性之间取得平衡，Imagination在设计新一代GPU架构时，基于“AI将与图形处理并列，成为同等重要核心工作负载”的前提，推出了E系列GPU IP。

Rob Fisher告诉与非网，在边缘AI场景中，性能瓶颈往往不在计算本身，而在数据移动。针对这一点，E系列引入了“突发处理器（Burst Processors）”技术。

在传统的ALU架构中，主ALU管线中的算术指令会每个周期切换任务，这意味着每个周期都会中断当前任务，所有中间计算结果都必须存储到统一着色集群（USC）的内部寄存器或内存中。频繁的数据读写与搬移构成了传统功耗的主要部分。

而E系列的Burst Processor将多个算术指令聚合为一个指令突发（burst），并确保其作为一个完整单元顺序执行。在这个过程中产生的中间结果被直接保存在ALU流水线内部，避免了频繁的数据传输和高功耗的SRAM读写。

据悉，这种减少数据搬移的设计，使E系列在笔电级功耗范围内维持了高计算性能，平均降低功耗达35%。

而通过在ALU内部集成AI加速能力，E系列GPU可以作为“神经核（Neural Core）”运行。它在1GHz频率下可扩展到每核心32 TOPS INT8的算力（且可运行在更高频率）。

此外，E 系列在低精度 AI 计算任务中提供了不同的配置选项：

全性能版本：在低精度任务中提供显著加速，针对四分之一精度（如FP8）实现16倍加速，半精度（如 FP16）实现8倍加速，相较于全精度呈现116的加速比。原生支持包括FP16、BF16、INT8、INT4、FP8在内的主流数据格式。

面积优化版本：通过省略额外的低精度加速单元，使GPU整体面积减少约3%，同时在半精度和四分之一精度任务中均提供相较于全精度8倍的加速（即18方案）。

在内存管理方面，E系列每个统一着色集群（USC）专属配置了512KB高速内部寄存器存储以及32KB本地存储器。配合最新一代PVRIC5图像压缩技术（支持无损压缩与固定提供 50% 压缩率的视觉无损压缩模式），可进一步减少系统内存读写带来的带宽与功耗开销。

系统设计的理性权衡

除了AI PC，以GPU为中心的架构也适用于汽车、机器人等边缘终端。

对此，Rob Fisher表示，汽车和机器人领域更加强调确定性、安全认证和长产品寿命（E 系列汽车配置通过了ASIL-B认证，并采用分布式安全机制）；而AI PC则优先考虑能效，但两者都需要应对混合、并发的工作负载。

通过内置高级固件处理器控制的“邮箱消息系统（Mailbox Messaging System）”，E系列GPU可通过GPIO接口与系统中的第三方NPU进行直接交互，无需回退至主CPU，从而可降低多任务并发时的系统延迟。

于是，基于这种性能与灵活性，E系列GPU给如今的SoC设计者又带来了新的决策思考：当系统已经搭载了具备AI计算能力的GPU，是否还需要单独配置独立的NPU？

对此，Imagination 提出了三种配置模型：

平衡型（Balanced）：对于必须保证针对已知 AI 工作负载实现高性能加速的系统，继续配置NPU依然是合理的选择。已知的高频网络运行在NPU上，而GPU则为系统保留支持未来（未知）演进 AI 网络的灵活性。

成本优化型（Cost optimised）：在对成本敏感、且对AI加速需求量或速度要求不高的市场——或者在未来AI网络支持风险尤为关键的应用场景中，E系列GPU凭借扩展算力，完全可以满足系统对AI加速的需求，从而省去对独立NPU的投资。

传统专用型（Simple）：即传统的GPU搭配专用NPU孤立设计，在硅片面积与成本方面代价较大，且面临NPU未来无法支持新一代AI网络的技术迭代风险。

写在最后

根据Imagination与与非网的交流，面向不同市场的E系列定制版本将于2025年至2026年陆续推出。

而在AI PC技术尚未全面爆发、算法模型仍在持续变化的过渡期，具备高度可编程与通用计算能力的通用GPU，或许能凭借软件持续适配新模型的能力，在多个产品周期中为设计者提供更具生命周期的长效优势。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
5346

浏览量
136324
AI

AI

+关注

关注
91

文章
42415

浏览量
303368
NPU

NPU

+关注

关注
2

文章
396

浏览量
21478

搜索历史

AI PC的算力天平：NPU之外，GPU是不可或缺的砝码

灵活性打败纯算力，将成为端侧SoC的硬性指标

GPU在AI PC中会被边缘化吗？

E系列GPU最值得关注的优化是突发处理器与神经核

系统设计的理性权衡

写在最后

评论