如何通过交替式几何处理实现更优的多核 GPU 扩展-电子发烧友网

在理论上，通过增加更多GPU核心来提升性能似乎很简单：核心越多，性能越强。但在实践中，这是图形架构领域最棘手的挑战之一。虽然某些工作负载因其独立特性能实现良好扩展，但另一些工作负载（尤其是几何处理）会引入顺序依赖性，使得线性性能扩展成为业界所有GPU架构都难以攻克的难题。

为什么多核GPU性能扩展如此困难？

现代GPU的优势来自高度并行化，但并不是所有任务都能做到并行。以几何处理为例，它具有天然的顺序性。图形API要求按照提交顺序处理对象，因为可见性与渲染结果往往依赖这一顺序。这意味着几何工作负载通常只能在单一核心上运行，生成按顺序排列的tile列表供后续管线使用。当几何阶段成为瓶颈时，其他核心会处于闲置状态，从而导致扩展效率大幅下降。

这并非Imagination独有的困境。其他GPU架构同样面临类似挑战：它们同样难以在工作负载无法平均分配时保持高效扩展。虽然动态并行（dynamic parallelism）和硬件队列（hardware queues）等技术能够提供帮助，但在几何密集场景下问题依然突出。结果就是：增加核心数量并不一定能带来成比例的性能提升——无论使用的是哪种GPU。

那么，我们的解决方案是什么？

走进Imagination的多核GPU架构

在讨论我们的几何扩展方案之前，我们先回顾一下Imagination的多核基础。

Imagination GPU具备高度可扩展的多核技术，可帮助系统设计者实现更高峰值性能或最大工作负载灵活性。Imagination的方法是去中心化（decentralised）且松耦合（loosely-coupled），从而避免传统集中式多核架构所面临的拥塞和布局限制问题。

这些核心是松耦合的，仅通过内存共享命令列表和tile缓冲列表，共同分担工作负载。由于每个核心都被设计为一个独立、完整的GPU，它包含所有必要的功能，能够根据优先级自行管理并执行任务。

Imagination GPU多核网格的主–主(Primary-Primary）模式

Imagination GPU多核网格的主–从（Primary-Secondary）模式

多核网格中的每个核心都可以独立运行（主–主模式，Primary-Primary），也可以协同运行（主–从模式，Primary-Secondary）。在主–从配置下，只有主GPU核心（Primary GPU Core）内的一个固件处理器处于激活状态，它负责驱动所有属于多核网格的从GPU核心（Secondary GPU Cores）中的工作负载。多个GPU实例共享命令流，并共同尽可能快速地完成任务。

通过让每个GPU核心在渲染目标（render target）的不同区域上工作，我们能够保持带宽效率，因为每个核心始终处理屏幕上连续且具一致性的区域，从而确保最大的缓存命中率（每个核心的数据根据自身处理的任务进行针对性缓存，避免核心之间不必要的数据迁移和重复，提高整体效率）。

多核网格中的寄存器设置和同步通过专用的XPU总线来处理，它连接主GPU核心和所有从GPU核心，支持点对点及广播模式。该核间通信结构与内存层级经过优化，确保在核心数量增加时仍能降低延迟。该结构还能将GPU核心分布在多个Chiplet、芯片甚至不同的板上。这为客户提供了更灵活的设计选择，并显著降低成本——客户只需设计一个单一chiplet（或芯片），便可通过封装多个chiplet来构建不同性能档位，从而扩展GPU性能。

引入Alternate Geometry Processing（AGP）：交替式几何处理

现在我们回到如何在多核心环境中实现接近线性的性能扩展这一挑战上。

我们多核技术的一个关键特性——最早在B-Series中引入，并在后续几代中不断优化——这便是交替式几何处理（AGP）。AGP并不是强制所有几何任务都由一个核心处理，而是将几何工作负载分布到多个核心，但保留一个关键原则：不破坏同一渲染目标内部的严格顺序要求。

AGP的方法是：将不同的渲染目标（render targets）或不同帧分配给不同GPU核心处理几何阶段。

例如：