作者:Arm 工程部高级首席系统架构师 Jumana Mundichipparakkal
现代服务器系统在多个维度持续扩展:核心数量不断增加,集成了各类加速器,并逐步演进为跨多晶粒 (die) 或多插槽的架构形态。这一发展趋势使性能分析成为一项系统级挑战。处理器核心本身依然具备出色的计算能力,但缓存、内存子系统以及一致性互连等共享资源,正日益成为决定整体应用性能的关键因素。
在 Arm Neoverse 平台上,一致性互连是至关重要的核心组件,它支持 CPU、内存和 I/O 共同实现可扩展的性能。性能瓶颈往往并不出现在单个处理单元 (PE) 内部,即便从表面看处理器核心仍处于未充分利用状态。在这种情况下,传统以处理器为中心的性能分析工具只能判断工作负载受限于系统层面,却难以揭示问题产生的根本原因。
为何仅依赖处理器遥测已不再足够
处理器遥测在理解 CPU 核心的指令执行、流水线效率以及缓存行为方面依然至关重要。然而,一旦内存或 I/O 请求离开核心,它们便会在复杂的共享互连架构中传输。在这一过程中,延迟、资源争用以及反压可能来自多个不同来源,例如多个请求方之间的资源竞争、缓存一致性活动、内存或 I/O 设备的带宽限制,或互连总线本身的拥塞。
如果无法洞察互连层面的运行情况,这些行为将难以被准确诊断,往往只能依赖反复试错的方式进行调优。
借助 Neoverse CMN 遥测
识别系统级性能瓶颈
在一致性网络互联 (Coherent Mesh Network, CMN) 的 Arm Neoverse 平台上,互连本身即可提供硬件层面的遥测能力。CMN 遥测能够直观展示流量在网络互连中的流动情况,包括请求方、目标端、带宽利用率以及内部资源压力等关键信息。
基于这一能力,Arm 推出了 Neoverse CMN 遥测解决方案的自顶向下方法论 (Neoverse CMN Telemetry Solution Topdown methodology)。这一结构化方法通过互连遥测数据,对系统级性能进行分析。与从底层计数器入手的传统方式不同,该方法引导用户沿着分层分析路径逐步展开,帮助对工作负载行为进行分类,并在深入分析微架构细节之前,率先识别互连结构中潜在的性能瓶颈。
用于互连性能分析的自顶向下方法
如下图所示,Arm Neoverse CMN 自顶向下方法沿用了在处理器性能分析中已被充分验证的核心原则:从宏观视角入手,逐步缩小分析范围,并最终定位根因。

图:CMN 自顶向下方法论
从总体层面来看,该方法重点回答以下关键问题:哪些组件产生了大部分流量?这些流量流向了哪里?哪些类型的事务主导了系统行为?性能瓶颈是由带宽限制、资源争用,还是一致性活动所导致?
在识别出主要流量模式和潜在瓶颈之后,便可将分析重点聚焦到具体的互连组件和资源上。该方法能够支持对诸如队列反压、缓存有效性以及内存子系统压力等问题开展有针对性的深入分析,而无需在一开始就进行穷尽式的数据采集。
关键解决方案参考
《Arm Neoverse CMN-700:性能分析方法》白皮书对这一方法进行了详细阐述,涵盖了该方法的整体结构,以及如何利用遥测指标来分析和推断系统性能。同时还配套提供了标准化的遥测规范和工具,以简化数据采集与分析流程。
白皮书:https://developer.arm.com/documentation/111028/latest/
Arm Neoverse CMN700 遥测规范列出了相关的 PMU 事件。这些事件基于从硬件中采集的监视点 (Watchpoints) 和过滤寄存器 (Filter registers),并结合派生指标构建而成。
规范:https://developer.arm.com/documentation/110467
该遥测规范以机器可读的 JSON 文件形式提供。此外,白皮书中提及的 Arm 自顶向下工具以及 sysstress 工作负载套件,现可在GitLab 的 telemetry-solution 代码仓库中获取。
代码仓库:https://gitlab.arm.com/telemetry-solution/telemetry-solution
小结
系统级性能问题,必须依托系统级可视性才能有效解决。Neoverse CMN 自顶向下遥测方法为分析互连行为提供了一条清晰路径,能够帮助开发者更高效,也更有把握地识别性能瓶颈。
-
处理器
+关注
关注
68文章
20343浏览量
255359 -
ARM
+关注
关注
135文章
9596浏览量
393836 -
cpu
+关注
关注
68文章
11336浏览量
226007
原文标题:借助 Arm Neoverse CMN 自顶向下遥测解决方案,释放系统级性能潜力
文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
如何在Arm Neoverse N2平台上提升llama.cpp扩展性能
Arm Neoverse平台集成NVIDIA NVLink Fusion
铁路车号识别系统的基本原理与应用
无人机AI视觉行为识别系统
Arm Neoverse N2平台实现DeepSeek-R1满血版部署
工地AI行为识别系统作用
景区AI行为识别系统作用
使用Arm Neoverse CMN自顶向下遥测方法识别系统级性能瓶颈
评论