0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何释放异构计算的潜能?Imagination与Baya Systems的系统架构实践启示

颖脉Imgtec 2025-06-13 08:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

报告作者:

Pallavi Sharma, Imaginaiton产品管理总监

Dr.Eric Norige, Baya Systems 首席软件架构师

091a70ee-47ee-11f0-986f-92fbcf53809c.png

你是否正在设计多核或CPU/GPU混合系统,却依然未能达成性能目标?你并不孤单。如今,系统架构师们不断追求构建更强大的SoC,过于专注于计算能力的“堆砌”:更多核、更快引擎、更强AI加速。然而现实是:如果数据无法及时送达,再强的算力也无从发挥。

在2025年Andes RISC-V大会上,Imagination Technologies与Baya Systems联手深入剖析了这一挑战,结果令人震惊。两家公司利用Baya的CacheStudio工具,对CPU、GPU及混合计算系统中的缓存行为进行了建模分析。

目的就是要揭示:尽管硬件资源充足,现实中的异构计算性能为何仍频频“失速”。
那么,让我们一起来看看他们的发现,以及这些见解如何帮助你打造更好、更快、更高效的系统。


隐藏的瓶颈:不是算力不足,而是数据流动受限

现代SoC的性能瓶颈早已不再是纯粹的计算能力。相反,系统越来越受到数据在各处理单元与存储层级之间传输效率的限制。

即使将CPU、GPU及各种加速器集成到同一芯片上,也并不自动等同于性能提升。事实上,若架构缺乏精细协同,这种集成反而可能带来资源竞争、延迟增加以及缓存效率下降等问题。

本次研究将缓存行为作为一种潜在的诊断工具,旨在揭示系统中的关键性能限制点,同时更深入地理解异构计算单元在缓存大小配置、一致性管理及内存访问模式方面所面临的权衡取舍。

尽管这些发现提供了诸多有价值的洞见,但应结合本研究的具体范围与假设前提进行解读。以下是部分关键发现:


纯CPU负载:优先考虑时间局部性与分层缓存策略


一级缓存(L1):性能提升随着缓存容量的增加呈线性趋势。将L1从16 KB提升至64 KB,命中率从约94.5%提升至约97.8%。这验证了CPU主导型任务具备显著的时间局部性——即最近访问的数据很可能会在短时间内再次被访问。

二级缓存(L2):命中率与L1容量呈负相关关系。随着L1缓存吸收更多访问请求,L2的利用率下降,从16 KB L1配置下的约50–56%降至64 KB L1下的约14–28%。这表明L2应侧重于一致性管理与回退路径延迟优化,而非盲目扩展容量。

三级缓存(L3):命中率维持在相对中等的水平(20–35%),其主要作用在于多核之间的一致性维护以及降低对DRAM的访问压力。

实际启示:对于以CPU为主的工作负载,最佳性能依赖于为每个核心配置合适容量的私有L1缓存,同时针对延迟与一致性需求精细调优L2。L3缓存主要在多核或共享内存环境中发挥作用,特别是在DRAM压力或一致性流量较高时更为关键。


纯GPU负载:单靠加大缓存容量无法弥补访问模式的不规则性

一级缓存(L1):相较于CPU,GPU工作负载的L1命中率更低——随着缓存从16 KB扩展到64 KB,命中率仅从约54%提升至约73%。这一收益受限,主要归因于高并行计算中常见的发散式和分散式内存访问模式。

二级缓存(L2):随着L1缓存增大,L2性能显著下降。在16 KB L1配置下,L2命中率可达约55%;但当L1提升至64 KB时,命中率骤降至6–7%。这表明,过度放大上层缓存可能会破坏下层缓存的重用机会。

三级缓存(L3):在所有配置下,L3利用率始终偏低,最高命中率仅约为2.2%。这可能反映出GPU的流式数据访问模式以及线程间局部性较差的特点。

实际启示:GPU的内存层级性能高度依赖于软件层的访问优化,例如本地存储使用、数据分块(tiling)及显式同步,而不能仅依赖传统的缓存层次结构。硬件改进必须与面向负载的编程模型相结合,才能充分发挥性能。


混合负载:缓存层级的协同至关重要

一级缓存(L1):CPU和GPU线程的命中率均有提升,随着L1从16 KB扩展至64 KB,命中率从约94%提升至约97%。

二级缓存(L2):行为对配置变化极为敏感。例如,在配置为256 KB L2和16 KB L1时,L2命中率达到61.7%;但当配置变为64 KB L1和64 KB L2时,命中率下降至23.2%。这表明在设计时必须同时考虑各级缓存的替换模式(eviction patterns)。

三级缓存(L3):在L1和L2容量不足的情况下,L3展现出显著优势。配置为1024 KB的L3时,对于较小L1/L2配置,命中率最高可达57%。

DRAM访问流量:随着缓存层级协调优化,内存访问量显著下降,从最小缓存配置下的约38.5万次访问减少至优化配置下的约32.8万次。

实际启示:在异构计算环境中,缓存设计不能孤立于某一处理引擎。必须精心架构各层缓存与计算单元之间的交互机制。经常被低估的L3,在降低DRAM压力和提升系统整体响应能力方面发挥着关键作用。


设计的重点应是数据流,而非仅仅追求FLOPS(浮点运算性能)

本研究再次强调系统架构设计中的核心原则:在异构计算环境中,性能扩展的决定因素并非计算引擎的数量,而是这些引擎与共享内存及互连架构的协同方式。

CacheStudio并非终点工具,而是一个分析代理,可用于揭示系统中不易察觉的性能下降,并在设计初期为更优架构决策提供指导依据。


以协同为核心进行架构设计,而非各自为战

针对CPU、GPU及混合负载,本研究得出以下关键结论:

CPU负载需配备针对性配置的私有L1缓存及延迟优化的L2缓存。

GPU负载需要架构层面支持发散式内存访问,并辅以软件层面的访问优化。

混合负载在依赖L3一致性缓冲和多级缓存平衡配置方面获益最大。

系统级性能剖析对于预判内存压力、指导缓存层级设计至关重要。


结论明确:聪明的架构优于一味堆砌算力。

通过聚焦数据流动与内存协调,工程师才能真正释放异构计算系统的全部潜力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 系统架构
    +关注

    关注

    1

    文章

    75

    浏览量

    24298
  • imagination
    +关注

    关注

    1

    文章

    627

    浏览量

    63552
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2026年异构计算时代,FPGA板卡核心服务商深度解析

    时代引擎:FPGA板卡服务商如何驱动2026年的智能硬件创新 当我们审视2026年的科技版图,从边缘AI计算到高速通信网络,从精密的医疗影像设备到智能汽车的感知决策系统,一个共同的“数字心脏”正发挥
    的头像 发表于 05-19 11:13 900次阅读
    2026年<b class='flag-5'>异构计算</b>时代,FPGA板卡核心服务商深度解析

    基于openEuler平台的CPU、GPU与FPGA异构加速实战

    随着 AI、视频处理、加密和高性能计算需求的增长,单一 CPU 已无法满足低延迟、高吞吐量的计算需求。openEuler 作为面向企业和云端的开源操作系统,在 多样算力支持 方面表现出色,能够高效调度 CPU、GPU、FPGA
    的头像 发表于 04-08 11:02 1395次阅读
    基于openEuler平台的CPU、GPU与FPGA<b class='flag-5'>异构</b>加速实战

    天数智芯助力DeepLink异构算力训推一体化升级

    当前,通用人工智能发展驶入快车道,大模型对算力的需求呈现爆发式增长,异构算力的高效协同成为释放算力潜能、降低算力成本的核心关键。
    的头像 发表于 03-26 09:30 485次阅读
    天数智芯助力DeepLink<b class='flag-5'>异构</b>算力训推一体化升级

    XC7Z020-2CLG484I 双核异构架构 全能型 SoC

    Zynq-7000 系列的核心型号,创新性地将双核 ARM Cortex-A9 处理器与 7 系列 FPGA 可编程逻辑深度集成,构建起 “软件可编程 + 硬件可定制” 的异构计算架构,为多领域智能设备提供了一体化
    发表于 02-28 23:37

    米尔RK3506核心板SDK重磅升级,解锁三核A7实时控制新架构

    的操作系统选择,更关键的是,通过软件架构优化,全面激活了芯片的异构实时控制潜能,帮助您在工业通信、运动控制与边缘计算场景中,构建性能、成本与
    发表于 12-19 20:35

    释放多屏潜能:迅为RK3588开发板Android多屏同显开发完全指南

    释放多屏潜能:迅为RK3588开发板Android多屏同显开发完全指南
    的头像 发表于 12-16 16:11 1209次阅读
    <b class='flag-5'>释放</b>多屏<b class='flag-5'>潜能</b>:迅为RK3588开发板Android多屏同显开发完全指南

    Imagination GPU上优化计算任务的十大技巧

    Imagination「开发者文档」网站正式上线,涵盖了从计算机图形学基础到如何充分发挥Imagination高能效PowerVRGPU架构优势的丰富内容。网站中不仅增加了针对我们最新
    的头像 发表于 09-25 09:37 1053次阅读
    在<b class='flag-5'>Imagination</b> GPU上优化<b class='flag-5'>计算</b>任务的十大技巧

    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全国产化智能异构计算平台

    TEC100TAI-KIT是一款基于国产100TAI的全国产智能异构计算平台开发套件,该套件包含1个100TAI核心板和1个PCIE规格的扩展底板。 该套件的核心板集成了100TAI的最小系统
    的头像 发表于 09-19 17:16 1153次阅读
    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全国产化智能<b class='flag-5'>异构计算</b>平台

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,为在场听众深入剖析了 MUSA 软件栈在驱动 KUAE 集群高效运转方面的核心技术与
    的头像 发表于 07-28 13:47 6555次阅读
    摩尔线程吴庆详解 MUSA 软件栈:以技术创新<b class='flag-5'>释放</b> KUAE 集群<b class='flag-5'>潜能</b>,引领 GPU <b class='flag-5'>计算</b>新高度​

    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,释放 AI 发展新潜能

    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,释放 AI 发展新潜能
    的头像 发表于 07-28 11:33 1381次阅读
    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,<b class='flag-5'>释放</b> AI 发展新<b class='flag-5'>潜能</b>

    PCIe协议分析仪能测试哪些设备?

    :提升数据中心的整体效率,降低CPU负载。 四、异构计算与扩展设备 多GPU系统 测试场景:利用PCIe协议分析仪模拟高负载的GPU间通信,测试PCIe交换机的性能和稳定性。 应用价值:确保复杂多GPU
    发表于 07-25 14:09

    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 异构架构下的智能边缘计算标杆

    璞致电子推出PZ-ZU15EG-KFB异构计算开发板,搭载Xilinx ZYNQ UltraScale+ XCZU15EG芯片,整合四核ARM Cortex-A53、双核Cortex-R5F
    的头像 发表于 07-22 09:47 1422次阅读
    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + <b class='flag-5'>异构架构</b>下的智能边缘<b class='flag-5'>计算</b>标杆

    智能安防边缘计算的技术解析

    维度,剖析核心板如何推动安防从"被动记录"到"主动决策"的升级,并给出选型建议。   --- 一、核心板的硬件架构创新**   1. 异构计算架构:算力与能效的平衡  以SSD2351为例,其采用**"CPU+NPU+IVE"三
    的头像 发表于 06-26 11:56 838次阅读

    异构计算解决方案(兼容不同硬件架构

    异构计算解决方案通过整合不同类型处理器(如CPU、GPU、NPU、FPGA等),实现硬件资源的高效协同与兼容,满足多样化计算需求。其核心技术与实践方案如下: 一、硬件架构设计
    的头像 发表于 06-23 07:40 1138次阅读

    能效提升3倍!异构计算架构让AI跑得更快更省电

    电子发烧友网报道(文/李弯弯)异构计算架构通过集成多种不同类型的处理单元(如CPU、GPU、NPU、FPGA、DSP等),针对不同计算任务的特点进行分工协作,从而在性能、能效和灵活性之间实现最优平衡
    的头像 发表于 05-25 01:55 4378次阅读