0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何通过交替式几何处理实现更优的多核 GPU 扩展

颖脉Imgtec 2025-12-01 10:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在理论上,通过增加更多GPU核心来提升性能似乎很简单:核心越多,性能越强。但在实践中,这是图形架构领域最棘手的挑战之一。虽然某些工作负载因其独立特性能实现良好扩展,但另一些工作负载(尤其是几何处理)会引入顺序依赖性,使得线性性能扩展成为业界所有GPU架构都难以攻克的难题。


为什么多核GPU性能扩展如此困难?

现代GPU的优势来自高度并行化,但并不是所有任务都能做到并行。以几何处理为例,它具有天然的顺序性。图形API要求按照提交顺序处理对象,因为可见性与渲染结果往往依赖这一顺序。这意味着几何工作负载通常只能在单一核心上运行,生成按顺序排列的tile列表供后续管线使用。当几何阶段成为瓶颈时,其他核心会处于闲置状态,从而导致扩展效率大幅下降。

这并非Imagination独有的困境。其他GPU架构同样面临类似挑战:它们同样难以在工作负载无法平均分配时保持高效扩展。虽然动态并行(dynamic parallelism)和硬件队列(hardware queues)等技术能够提供帮助,但在几何密集场景下问题依然突出。结果就是:增加核心数量并不一定能带来成比例的性能提升——无论使用的是哪种GPU。

那么,我们的解决方案是什么?


走进Imagination的多核GPU架构

在讨论我们的几何扩展方案之前,我们先回顾一下Imagination的多核基础。

Imagination GPU具备高度可扩展的多核技术,可帮助系统设计者实现更高峰值性能或最大工作负载灵活性。Imagination的方法是去中心化(decentralised)且松耦合(loosely-coupled),从而避免传统集中式多核架构所面临的拥塞和布局限制问题。

这些核心是松耦合的,仅通过内存共享命令列表和tile缓冲列表,共同分担工作负载。由于每个核心都被设计为一个独立、完整的GPU,它包含所有必要的功能,能够根据优先级自行管理并执行任务。

3e2b2dac-ce5b-11f0-8ce9-92fbcf53809c.png

Imagination GPU多核网格的主–主(Primary-Primary)模式

3e3bb604-ce5b-11f0-8ce9-92fbcf53809c.png

Imagination GPU多核网格的主–从(Primary-Secondary)模式

多核网格中的每个核心都可以独立运行(主–主模式,Primary-Primary),也可以协同运行(主–从模式,Primary-Secondary)。在主–从配置下,只有主GPU核心(Primary GPU Core)内的一个固件处理器处于激活状态,它负责驱动所有属于多核网格的从GPU核心(Secondary GPU Cores)中的工作负载。多个GPU实例共享命令流,并共同尽可能快速地完成任务。

通过让每个GPU核心在渲染目标(render target)的不同区域上工作,我们能够保持带宽效率,因为每个核心始终处理屏幕上连续且具一致性的区域,从而确保最大的缓存命中率(每个核心的数据根据自身处理的任务进行针对性缓存,避免核心之间不必要的数据迁移和重复,提高整体效率)。

多核网格中的寄存器设置和同步通过专用的XPU总线来处理,它连接主GPU核心和所有从GPU核心,支持点对点及广播模式。该核间通信结构与内存层级经过优化,确保在核心数量增加时仍能降低延迟。该结构还能将GPU核心分布在多个Chiplet、芯片甚至不同的板上。这为客户提供了更灵活的设计选择,并显著降低成本——客户只需设计一个单一chiplet(或芯片),便可通过封装多个chiplet来构建不同性能档位,从而扩展GPU性能。


引入Alternate Geometry Processing(AGP):交替式几何处理

现在我们回到如何在多核心环境中实现接近线性的性能扩展这一挑战上。

我们多核技术的一个关键特性——最早在B-Series中引入,并在后续几代中不断优化——这便是交替式几何处理(AGP)。AGP并不是强制所有几何任务都由一个核心处理,而是将几何工作负载分布到多个核心,但保留一个关键原则:不破坏同一渲染目标内部的严格顺序要求

AGP的方法是:将不同的渲染目标(render targets)或不同帧分配给不同GPU核心处理几何阶段。

例如:

  • 核心#1处理渲染目标A的几何任务;

  • 核心#2处理渲染目标B的几何任务;

  • 与此同时,像素处理和计算任务会被切片并分配到所有核心上并行执行。

这种方式既遵循了图形API的顺序规则,又能在多个渲染任务独立的情况下释放并行度。在多帧、多个渲染目标的场景中,AGP能显著减少闲置时间,让负载分配更均衡。


交替式几何处理(AGP)的实际优势

1.更高的扩展效率

通过在多个核心之间分配几何工作,AGP避免了单核心成为瓶颈的问题。这在云游戏或汽车系统等同时处理多场景、多显示的多核配置中尤为重要。

2.更佳的资源利用率

若没有AGP,负责几何处理的核心还要承担其像素处理任务,从而拖慢整个多核系统。而AGP能平衡负载、减少倾斜(skew),保持所有核心都持续工作。


Imagination的AGP与其他GPU厂商的比较

其他GPU厂商采用的方案不尽相同。

  • NVIDIA 多GPU架构多基于逐帧并行(Alternate Frame Rendering)。

  • AMD则采用命令处理器和硬件队列来分配工作负载。

但两种方案都面临类似的局限性:几何密集型场景仍可能阻碍扩展,因为在不破坏渲染正确性的前提下难以拆分这类场景。

Imagination的AGP技术之所以脱颖而出,在于其采用软件驱动模式并深度集成于我们的分块式(Tile-Based)架构,从而实现高效灵活的运行。结合去中心化、松耦合的多核设计,AGP能为原本可能陷入停滞的工作负载提供近乎线性的扩展能力。


对系统设计者意味着什么?

对系统设计者而言,结论非常清晰:

多核扩展的成功并不是简单地叠加更多核心,而是更智能合理地管理工作负载。

若您希望深入了解如何基于Imagination GPU IP构建高性能多核解决方案,以及如何高效分配工作负载,欢迎联系我们的团队。


英文链接:https://blog.imaginationtech.com/how-alternate-geometry-processing-enables-better-multi-core-gpu-scaling

声明:本文为原创文章,转载需注明作者、出处及原文链接。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5272

    浏览量

    136075
  • API
    API
    +关注

    关注

    2

    文章

    2479

    浏览量

    67028
  • imagination
    +关注

    关注

    1

    文章

    624

    浏览量

    63497
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI智能体推动芯片需求从GPU扩展至CPU

    4月20日有消息称,摩根士丹利分析指出,随着AI自主性不断提升,其对芯片的需求正从图形处理器(GPU)向中央处理器(CPU)扩展,这一趋势将重塑数据中心建设模式,并促使投资范畴从当前主
    的头像 发表于 04-21 10:55 1874次阅读

    中航光电推出可插拔GPU液冷组件

    随着AI芯片功耗持续攀升、单机算力密度不断突破上限,与之配套的液冷散热组件也正朝着更高散热性能、更小结构尺寸、更优集成封装的方向快速迭代升级。针对高功率PCIeGPU的散热需求,中航光电推出可插拔
    的头像 发表于 04-08 16:04 358次阅读
    中航光电推出可插拔<b class='flag-5'>式</b><b class='flag-5'>GPU</b>液冷组件

    MAX77874:16A高性能四相降压调节器,引领多核处理器电源解决方案

    MAX77874:16A高性能四相降压调节器,引领多核处理器电源解决方案 在电子设备飞速发展的今天,多核心CPU和GPU处理器对电源的要求
    的头像 发表于 03-06 16:40 1090次阅读

    请问没有用到的I/0如何处理

    没有用到的I/0如何处理
    发表于 01-12 06:29

    汽车中的GPU是如何使用的?

    (HMI)的发展尤为迅猛。随着电子电气架构(EEA)的集中化,车辆对高性能计算能力的需求显著提升,GPU(图形处理单元)的灵活性、可扩展性以及高效并行计算能力,使其成为支持这些创新应用的核心组件
    的头像 发表于 12-03 14:45 9706次阅读
    汽车中的<b class='flag-5'>GPU</b>是如何使用的?

    大语言模型如何处理上下文窗口中的输入

    本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
    的头像 发表于 12-03 13:48 767次阅读
    大语言模型如<b class='flag-5'>何处理</b>上下文窗口中的输入

    RISC-V B扩展介绍及实现

    B扩展简介 RISCV B扩展指的是RISCV用于位运算加速的一个扩展指令集,目的是使用一条指令实现原本需要2-3条指令才能实现的位操作指
    发表于 10-21 13:01

    Stduio使用wifi模块出错如何处理

    外设为潘多拉IOT开发板,使用Stduio配置了wifi框架,但是代码里在配置wifi模式时,没有找到wlan0这个设备,wifi整个功能也用不了,请问应该如何处理。使用正点原子资料包里的rtthread测试demo,wifi工作正常,wifi模块硬件没有问题。
    发表于 10-10 08:18

    多种类几何尺寸集成智能仪器定制 一站解决产线多维度测量需求

    、弯曲度、螺纹钢米重、钻杆螺纹等。 总结 多种几何尺寸集成智能仪器定制,本质是“产线测量需求的系统化解决方案”——通过整合多维度测量功能、融入智能数据能力、适配产线实际工况,实现“一台仪器解决多需求
    发表于 10-09 13:50

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell GPU,可提高工程
    的头像 发表于 08-18 11:50 1649次阅读

    静力水准仪在测量过程中遇到误差如何处理?

    静力水准仪在测量过程中遇到误差如何处理?静力水准仪在工程沉降监测中出现数据偏差时,需采取系统性处理措施。根据实际工况,误差主要源于环境干扰、设备状态、安装缺陷及操作不当四类因素,需针对性解决。静力
    的头像 发表于 08-14 13:01 1066次阅读
    静力水准仪在测量过程中遇到误差如<b class='flag-5'>何处理</b>?

    【老法师】多核异构处理器中M核程序的启动、编写和仿真

    文章,小编就将以飞凌嵌入的OKMX8MP-C开发板为例,为大家介绍多核异构处理器M核程序的启动配置、程序编写和实时仿真的过程。
    的头像 发表于 08-13 09:05 4205次阅读
    【老法师】<b class='flag-5'>多核</b>异构<b class='flag-5'>处理</b>器中M核程序的启动、编写和仿真

    T113-i芯片技术解析:高性能嵌入处理器的创新设计

     芯片概述 明远智睿的T113-i芯片是一款由全志科技推出的高性能、低功耗嵌入处理器,主要面向智能家居、工业控制、消费电子等领域。该芯片基于ARM架构,集成了多核CPU、GPU和丰富
    的头像 发表于 07-17 14:15 1534次阅读

    多节点并行处理架构

    /GPU)、内存及本地存储,节点间通过高速网络通信,避免资源争用,提升扩展性。 数据水平分片‌ 海量数据被分割存储在不同节点,查询时各节点并行处理本地数据,最后汇总结果(如Doris、
    的头像 发表于 06-12 08:18 761次阅读
    多节点并行<b class='flag-5'>处理</b>架构