如何实现在Arm Neoverse平台上运行SGLang推理-电子发烧友网

作者：安谋科技 (Arm China) 主任软件工程师蔡亦波

SGLang 是应用广泛的高吞吐大语言模型 (LLM) 服务引擎，在 GitHub 上的星标数已突破 27,000。SGLang 引入了 RadixAttention 机制，可高效复用前缀感知键值 (KV) 缓存；同时兼容诸如连续批处理、预填充与解码分离和推测解码等诸多功能。

在大规模部署场景下，SGLang 采用分层分布式 KV 缓存架构。HiCache 可在 GPU HBM、主机 DRAM 及 Mooncake 等分布式存储之间分层缓存数据。Mooncake 借助 RDMA 网络，将 KV 缓存拆解为集群共享资源池，实现跨节点 KV 缓存复用。

SGLang 最初开发时以 GPU 执行和 x86 CPU 路径作为首要目标。Arm Neoverse CPU 是当下高性能处理器的代表，具备优异的能效比与性价比。基于 Arm Neoverse 平台的服务具备 SVE2、Neon 等宽向量单指令多数据流 (SIMD) 流水线，高带宽内存系统，以及低延迟的内存访问。这类特性高度适配 LLM 推理中常见的内存受限、带宽敏感型工作负载。 同时，Arm 平台在存储与网络工作负载中表现出众，可支持 KV 缓存溢出及分离部署。

本文将为你介绍我们是如何实现在 Arm Neoverse 平台上运行 SGLang 推理，具体包括：

重构代码库，移除仅限于 x86 架构的逻辑

新增 INT8 量化和混合专家 (MoE) 模型支持

集成官方 Arm 持续集成 (CI) 流水线

上述改变使得 LLM 服务能够在 Arm 平台上达到生产就绪状态。

在 AArch64 CPU 上启用 SGLang

sgl-kernel 的 CPU 执行路径最初基于英特尔平台特性开发。GEMM 内核依赖 x86 架构的 VNNI 和 BRGEMM 例程，无法适配 Arm 平台。英特尔 AMX 特有的权重预打包改变了数据排布形式，代码库中的所有 x86 固有指令也都不能在 Arm 平台上编译。

拉取请求 (PR) #12527 和 #14867 重构了 SGLang CPU 代码库，破除了 CPU 执行逻辑对 x86 平台的硬性绑定。这一改变借助 oneDNN 与 ACL 后端，在 PyTorch 上实现 BF16 推理，为 Arm 系统稳定运行夯实基础。

实际部署场景越来越多地采用量化模型，以提升吞吐性能、减少内存占用。采用 8 位权重和 8 位激活值的 W8A8 格式，已然成为 CPU 推理的一项实用标准。相较于 BF16 格式，W8A8 不仅可将内存带宽需求减半，还能在新型硬件上实现整型 SIMD 加速。

PR #16045 为 Arm 平台添加了 W8A8 INT8 支持。这项支持同时涵盖稠密 Transformer 模型和稀疏 MoE 架构；随着 MoE 模型应用日趋广泛，此项功能的价值愈发重要。

重构后的代码库将内核按照架构划分至专属源代码目录，并在构建时选择正确的子树。这种方法使得针对 Arm I8MM (smmla) 和点积 (sdot) 指令优化的 INT8 GEMM 内核能够与 AMX 内核共存于同一个存储库中，无需繁杂的 #ifdef 保护。

精度测试结果表明，W8A8 量化模型和全精度基准模型相比，精度下降幅度可以忽略不计。

搭建专用的 AArch64 CI 流水线

在 Arm 平台上启用 SGLang 需要一套稳定可靠的 CI 流水线，有效规避功能回退问题。

2026 年 5 月合并的 PR #22123 搭建了针对 Arm 平台的 PR 准入测试通道。主要包含两大组成部分：

原生 AArch64 Dockerfile：与现有的 x86 容器镜像相互独立，为 AArch64 系统提供可复现的构建环境，确保 Arm 构建体系完整自治，各类库依赖项均可匹配 Arm 原生软件包。

专用 GitHub Actions 工作流：所有改动 CPU 相关路径的拉取请求都会触发该工作流。该工作流运行于 GitHub 托管的 AArch64 Runner，完整覆盖集成工作流，包括：容器构建、SGLang 安装、  sgl-kernel 编译及定制测试套件。

未来规划

随着 AI 系统从独立推理逐步发展为协调多模型、工具及记忆层的智能体工作流，高效的协同调度正变得愈发重要。

将 Arm KleidiAI 集成到 SGLang 中，提升 Arm 平台的 CPU 推理性能。

添加 CPU MoE 模型卸载等新功能，同时支持 INT4 等更多量化格式。

随着 Arm 原生实现方案不断推出，增补测试案例，扩大 CI 覆盖范围。

总结

SGLang 现已能够在 Arm Neoverse CPU 上运行。我们移除了仅限于 x86 架构的固有逻辑，为稠密模型和 MoE 模型添加了 W8A8 INT8 量化能力，并搭建了专用的 AArch64 CI 流水线。未来，我们也将不断优化性能、增添功能并扩大 CI 覆盖范围。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

ARM

ARM

+关注

关注
135

文章
9624

浏览量
394857
gpu

gpu

+关注

关注
28

文章
5344

浏览量
136321
模型

模型

+关注

关注
1

文章
3888

浏览量
52396

原文标题：SGLang 高性能 LLM 推理现已可在 Arm Neoverse 平台上运行

文章出处：【微信号：Arm社区，微信公众号：Arm社区】欢迎添加关注！文章转载请注明出处。

搜索历史

如何实现在Arm Neoverse平台上运行SGLang推理

评论

NVIDIA TensorRT LLM 1.0推理框架正式上线

一文了解Arm神经超级采样 (Arm Neural Super Sampling, Arm NSS) 深入探索架构、训练和推理

西门子 Veloce CS 助力 Arm Neoverse 计算子系统验证与确认

基于米尔瑞芯微RK3576开发板部署运行TinyMaix：超轻量级推理框架

Arm Neoverse N2平台实现DeepSeek-R1满血版部署

2.0.0版本的ST Edge AI Core在linux平台上可以把量化后的onnx模型转换为.nb，但是运行报错，缺少文件，为什么？