0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何释放异构计算的潜能?Imagination与Baya Systems的系统架构实践启示

颖脉Imgtec 2025-06-13 08:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

报告作者:

Pallavi Sharma, Imaginaiton产品管理总监

Dr.Eric Norige, Baya Systems 首席软件架构师

091a70ee-47ee-11f0-986f-92fbcf53809c.png

你是否正在设计多核或CPU/GPU混合系统,却依然未能达成性能目标?你并不孤单。如今,系统架构师们不断追求构建更强大的SoC,过于专注于计算能力的“堆砌”:更多核、更快引擎、更强AI加速。然而现实是:如果数据无法及时送达,再强的算力也无从发挥。

在2025年Andes RISC-V大会上,Imagination Technologies与Baya Systems联手深入剖析了这一挑战,结果令人震惊。两家公司利用Baya的CacheStudio工具,对CPU、GPU及混合计算系统中的缓存行为进行了建模分析。

目的就是要揭示:尽管硬件资源充足,现实中的异构计算性能为何仍频频“失速”。
那么,让我们一起来看看他们的发现,以及这些见解如何帮助你打造更好、更快、更高效的系统。


隐藏的瓶颈:不是算力不足,而是数据流动受限

现代SoC的性能瓶颈早已不再是纯粹的计算能力。相反,系统越来越受到数据在各处理单元与存储层级之间传输效率的限制。

即使将CPU、GPU及各种加速器集成到同一芯片上,也并不自动等同于性能提升。事实上,若架构缺乏精细协同,这种集成反而可能带来资源竞争、延迟增加以及缓存效率下降等问题。

本次研究将缓存行为作为一种潜在的诊断工具,旨在揭示系统中的关键性能限制点,同时更深入地理解异构计算单元在缓存大小配置、一致性管理及内存访问模式方面所面临的权衡取舍。

尽管这些发现提供了诸多有价值的洞见,但应结合本研究的具体范围与假设前提进行解读。以下是部分关键发现:


纯CPU负载:优先考虑时间局部性与分层缓存策略


一级缓存(L1):性能提升随着缓存容量的增加呈线性趋势。将L1从16 KB提升至64 KB,命中率从约94.5%提升至约97.8%。这验证了CPU主导型任务具备显著的时间局部性——即最近访问的数据很可能会在短时间内再次被访问。

二级缓存(L2):命中率与L1容量呈负相关关系。随着L1缓存吸收更多访问请求,L2的利用率下降,从16 KB L1配置下的约50–56%降至64 KB L1下的约14–28%。这表明L2应侧重于一致性管理与回退路径延迟优化,而非盲目扩展容量。

三级缓存(L3):命中率维持在相对中等的水平(20–35%),其主要作用在于多核之间的一致性维护以及降低对DRAM的访问压力。

实际启示:对于以CPU为主的工作负载,最佳性能依赖于为每个核心配置合适容量的私有L1缓存,同时针对延迟与一致性需求精细调优L2。L3缓存主要在多核或共享内存环境中发挥作用,特别是在DRAM压力或一致性流量较高时更为关键。


纯GPU负载:单靠加大缓存容量无法弥补访问模式的不规则性

一级缓存(L1):相较于CPU,GPU工作负载的L1命中率更低——随着缓存从16 KB扩展到64 KB,命中率仅从约54%提升至约73%。这一收益受限,主要归因于高并行计算中常见的发散式和分散式内存访问模式。

二级缓存(L2):随着L1缓存增大,L2性能显著下降。在16 KB L1配置下,L2命中率可达约55%;但当L1提升至64 KB时,命中率骤降至6–7%。这表明,过度放大上层缓存可能会破坏下层缓存的重用机会。

三级缓存(L3):在所有配置下,L3利用率始终偏低,最高命中率仅约为2.2%。这可能反映出GPU的流式数据访问模式以及线程间局部性较差的特点。

实际启示:GPU的内存层级性能高度依赖于软件层的访问优化,例如本地存储使用、数据分块(tiling)及显式同步,而不能仅依赖传统的缓存层次结构。硬件改进必须与面向负载的编程模型相结合,才能充分发挥性能。


混合负载:缓存层级的协同至关重要

一级缓存(L1):CPU和GPU线程的命中率均有提升,随着L1从16 KB扩展至64 KB,命中率从约94%提升至约97%。

二级缓存(L2):行为对配置变化极为敏感。例如,在配置为256 KB L2和16 KB L1时,L2命中率达到61.7%;但当配置变为64 KB L1和64 KB L2时,命中率下降至23.2%。这表明在设计时必须同时考虑各级缓存的替换模式(eviction patterns)。

三级缓存(L3):在L1和L2容量不足的情况下,L3展现出显著优势。配置为1024 KB的L3时,对于较小L1/L2配置,命中率最高可达57%。

DRAM访问流量:随着缓存层级协调优化,内存访问量显著下降,从最小缓存配置下的约38.5万次访问减少至优化配置下的约32.8万次。

实际启示:在异构计算环境中,缓存设计不能孤立于某一处理引擎。必须精心架构各层缓存与计算单元之间的交互机制。经常被低估的L3,在降低DRAM压力和提升系统整体响应能力方面发挥着关键作用。


设计的重点应是数据流,而非仅仅追求FLOPS(浮点运算性能)

本研究再次强调系统架构设计中的核心原则:在异构计算环境中,性能扩展的决定因素并非计算引擎的数量,而是这些引擎与共享内存及互连架构的协同方式。

CacheStudio并非终点工具,而是一个分析代理,可用于揭示系统中不易察觉的性能下降,并在设计初期为更优架构决策提供指导依据。


以协同为核心进行架构设计,而非各自为战

针对CPU、GPU及混合负载,本研究得出以下关键结论:

CPU负载需配备针对性配置的私有L1缓存及延迟优化的L2缓存。

GPU负载需要架构层面支持发散式内存访问,并辅以软件层面的访问优化。

混合负载在依赖L3一致性缓冲和多级缓存平衡配置方面获益最大。

系统级性能剖析对于预判内存压力、指导缓存层级设计至关重要。


结论明确:聪明的架构优于一味堆砌算力。

通过聚焦数据流动与内存协调,工程师才能真正释放异构计算系统的全部潜力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 系统架构
    +关注

    关注

    1

    文章

    72

    浏览量

    24128
  • imagination
    +关注

    关注

    1

    文章

    617

    浏览量

    63097
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Imagination GPU上优化计算任务的十大技巧

    Imagination「开发者文档」网站正式上线,涵盖了从计算机图形学基础到如何充分发挥Imagination高能效PowerVRGPU架构优势的丰富内容。网站中不仅增加了针对我们最新
    的头像 发表于 09-25 09:37 555次阅读
    在<b class='flag-5'>Imagination</b> GPU上优化<b class='flag-5'>计算</b>任务的十大技巧

    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全国产化智能异构计算平台

    TEC100TAI-KIT是一款基于国产100TAI的全国产智能异构计算平台开发套件,该套件包含1个100TAI核心板和1个PCIE规格的扩展底板。 该套件的核心板集成了100TAI的最小系统
    的头像 发表于 09-19 17:16 605次阅读
    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全国产化智能<b class='flag-5'>异构计算</b>平台

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,为在场听众深入剖析了 MUSA 软件栈在驱动 KUAE 集群高效运转方面的核心技术与
    的头像 发表于 07-28 13:47 5514次阅读
    摩尔线程吴庆详解 MUSA 软件栈:以技术创新<b class='flag-5'>释放</b> KUAE 集群<b class='flag-5'>潜能</b>,引领 GPU <b class='flag-5'>计算</b>新高度​

    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,释放 AI 发展新潜能

    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,释放 AI 发展新潜能
    的头像 发表于 07-28 11:33 882次阅读
    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,<b class='flag-5'>释放</b> AI 发展新<b class='flag-5'>潜能</b>

    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 异构架构下的智能边缘计算标杆

    璞致电子推出PZ-ZU15EG-KFB异构计算开发板,搭载Xilinx ZYNQ UltraScale+ XCZU15EG芯片,整合四核ARM Cortex-A53、双核Cortex-R5F
    的头像 发表于 07-22 09:47 692次阅读
    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + <b class='flag-5'>异构架构</b>下的智能边缘<b class='flag-5'>计算</b>标杆

    智能安防边缘计算的技术解析

    维度,剖析核心板如何推动安防从"被动记录"到"主动决策"的升级,并给出选型建议。   --- 一、核心板的硬件架构创新**   1. 异构计算架构:算力与能效的平衡  以SSD2351为例,其采用**"CPU+NPU+IVE"三
    的头像 发表于 06-26 11:56 381次阅读

    异构计算解决方案(兼容不同硬件架构

    异构计算解决方案通过整合不同类型处理器(如CPU、GPU、NPU、FPGA等),实现硬件资源的高效协同与兼容,满足多样化计算需求。其核心技术与实践方案如下: 一、硬件架构设计
    的头像 发表于 06-23 07:40 640次阅读

    能效提升3倍!异构计算架构让AI跑得更快更省电

    电子发烧友网报道(文/李弯弯)异构计算架构通过集成多种不同类型的处理单元(如CPU、GPU、NPU、FPGA、DSP等),针对不同计算任务的特点进行分工协作,从而在性能、能效和灵活性之间实现最优平衡
    的头像 发表于 05-25 01:55 3458次阅读

    国产芯片多架构开发实践:从工业控制到边缘AI的硬件设计经验

    近年来,国产处理器与异构计算架构的成熟为硬件开发者提供了新选择。我们基于飞腾、龙芯、海光等平台,在VPX/COMe/ITX架构上完成了多个工业级项目验证,在此分享一些实战经验。 硬件架构
    的头像 发表于 05-23 09:24 710次阅读

    Imagination与澎峰科技携手推动GPU+AI解决方案,共拓计算生态

    近日, Imagination Technologies 与国内领先的异构计算软件与智算混合云服务提供商 澎峰科技 ( PerfXLab )正式签署合作备忘录( MoU ),围绕 GPU 与 AI
    发表于 05-21 09:40 1111次阅读

    Imagination与澎峰科技携手推动GPU+AI解决方案,共拓计算生态

    近日,ImaginationTechnologies与国内领先的异构计算软件与智算混合云服务提供商澎峰科技(PerfXLab)正式签署合作备忘录(MoU),围绕GPU与AI的深度融合展开合作。双方将
    的头像 发表于 05-20 08:33 762次阅读
    <b class='flag-5'>Imagination</b>与澎峰科技携手推动GPU+AI解决方案,共拓<b class='flag-5'>计算</b>生态

    全志科技多核异构SoC助力行业智能化创新

    近日, “第十二届开源操作系统年度技术会议”在北京举行,全志科技受邀参会。会上,全志进行了题为《多核异构SoC在行业应用中软件方案的思考与实践》的分享。分享从市场和技术洞察、方案设计创新、场景化应用落地三个维度展开
    的头像 发表于 04-18 09:11 1029次阅读
    全志科技多核<b class='flag-5'>异构</b>SoC助力行业智能化创新

    RAKsmart智能算力架构异构计算+低时延网络驱动企业AI训练范式升级

    在AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临算力效率与成本的双重挑战。RAKsmart推出的智能算力架构,以异构计算资源池化与超低时延网络为核心,重构AI训练基础设施,助力企业实现训练速度提升、硬件成本下降与算法迭代加速的三重突破。
    的头像 发表于 04-17 09:29 598次阅读

    RK3399处理器:高性能多核异构计算平台

    RK3399是一款高性能的多核异构计算平台,集成了强大的CPU、GPU以及丰富的多媒体和接口功能。其独特的双Cortex-A72+四Cortex-A53大小核CPU结构,使得RK3399在处理复杂
    的头像 发表于 02-08 18:04 2394次阅读

    异构计算的概念、核心、优势、挑战及考虑因素

    异构计算就像是一支由“多才多艺”处理器组成的团队,每个成员都有自己的强项和责任。   什么是异构计算‍‍‍‍‍ “异构计算”指的是在同一个计算平台中,部署多种不同类型的处理单元(比如
    的头像 发表于 01-13 11:43 1660次阅读