0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何实现在Arm Neoverse平台上运行SGLang推理

Arm社区 来源:Arm社区 2026-06-02 15:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:安谋科技 (Arm China) 主任软件工程师 蔡亦波

SGLang 是应用广泛的高吞吐大语言模型 (LLM) 服务引擎,在 GitHub 上的星标数已突破 27,000。SGLang 引入了 RadixAttention 机制,可高效复用前缀感知键值 (KV) 缓存;同时兼容诸如连续批处理、预填充与解码分离和推测解码等诸多功能。

在大规模部署场景下,SGLang 采用分层分布式 KV 缓存架构。HiCache 可在 GPU HBM、主机 DRAM 及 Mooncake 等分布式存储之间分层缓存数据。Mooncake 借助 RDMA 网络,将 KV 缓存拆解为集群共享资源池,实现跨节点 KV 缓存复用。

81a63caa-5bd4-11f1-90a1-92fbcf53809c.png

SGLang 最初开发时以 GPU 执行和 x86 CPU 路径作为首要目标。Arm Neoverse CPU 是当下高性能处理器的代表,具备优异的能效比与性价比。基于 Arm Neoverse 平台的服务具备 SVE2、Neon 等宽向量单指令多数据流 (SIMD) 流水线,高带宽内存系统,以及低延迟的内存访问。这类特性高度适配 LLM 推理中常见的内存受限、带宽敏感型工作负载。 同时,Arm 平台在存储与网络工作负载中表现出众,可支持 KV 缓存溢出及分离部署。

本文将为你介绍我们是如何实现在 Arm Neoverse 平台上运行 SGLang 推理,具体包括:

重构代码库,移除仅限于 x86 架构的逻辑

新增 INT8 量化和混合专家 (MoE) 模型支持

集成官方 Arm 持续集成 (CI) 流水线

上述改变使得 LLM 服务能够在 Arm 平台上达到生产就绪状态。

在 AArch64 CPU 上启用 SGLang

sgl-kernel 的 CPU 执行路径最初基于英特尔平台特性开发。GEMM 内核依赖 x86 架构的 VNNI 和 BRGEMM 例程,无法适配 Arm 平台。英特尔 AMX 特有的权重预打包改变了数据排布形式,代码库中的所有 x86 固有指令也都不能在 Arm 平台上编译。

拉取请求 (PR) #12527 和 #14867 重构了 SGLang CPU 代码库,破除了 CPU 执行逻辑对 x86 平台的硬性绑定。这一改变借助 oneDNN 与 ACL 后端,在 PyTorch 上实现 BF16 推理,为 Arm 系统稳定运行夯实基础。

实际部署场景越来越多地采用量化模型,以提升吞吐性能、减少内存占用。采用 8 位权重和 8 位激活值的 W8A8 格式,已然成为 CPU 推理的一项实用标准。相较于 BF16 格式,W8A8 不仅可将内存带宽需求减半,还能在新型硬件上实现整型 SIMD 加速。

PR #16045 为 Arm 平台添加了 W8A8 INT8 支持。这项支持同时涵盖稠密 Transformer 模型和稀疏 MoE 架构;随着 MoE 模型应用日趋广泛,此项功能的价值愈发重要。

重构后的代码库将内核按照架构划分至专属源代码目录,并在构建时选择正确的子树。这种方法使得针对 Arm I8MM (smmla) 和点积 (sdot) 指令优化的 INT8 GEMM 内核能够与 AMX 内核共存于同一个存储库中,无需繁杂的 #ifdef 保护。

精度测试结果表明,W8A8 量化模型和全精度基准模型相比,精度下降幅度可以忽略不计。

搭建专用的 AArch64 CI 流水线

在 Arm 平台上启用 SGLang 需要一套稳定可靠的 CI 流水线,有效规避功能回退问题。

2026 年 5 月合并的 PR #22123 搭建了针对 Arm 平台的 PR 准入测试通道。主要包含两大组成部分:

原生 AArch64 Dockerfile:与现有的 x86 容器镜像相互独立,为 AArch64 系统提供可复现的构建环境,确保 Arm 构建体系完整自治,各类库依赖项均可匹配 Arm 原生软件包。

专用 GitHub Actions 工作流:所有改动 CPU 相关路径的拉取请求都会触发该工作流。该工作流运行于 GitHub 托管的 AArch64 Runner,完整覆盖集成工作流,包括:容器构建、SGLang 安装、  sgl-kernel 编译及定制测试套件。

未来规划

随着 AI 系统从独立推理逐步发展为协调多模型、工具及记忆层的智能体工作流,高效的协同调度正变得愈发重要。

将 Arm KleidiAI 集成到 SGLang 中,提升 Arm 平台的 CPU 推理性能。

添加 CPU MoE 模型卸载等新功能,同时支持 INT4 等更多量化格式。

随着 Arm 原生实现方案不断推出,增补测试案例,扩大 CI 覆盖范围。

总 结

SGLang 现已能够在 Arm Neoverse CPU 上运行。我们移除了仅限于 x86 架构的固有逻辑,为稠密模型和 MoE 模型添加了 W8A8 INT8 量化能力,并搭建了专用的 AArch64 CI 流水线。未来,我们也将不断优化性能、增添功能并扩大 CI 覆盖范围。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9624

    浏览量

    394857
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5344

    浏览量

    136321
  • 模型
    +关注

    关注

    1

    文章

    3888

    浏览量

    52396

原文标题:SGLang 高性能 LLM 推理现已可在 Arm Neoverse 平台上运行

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从代码合入到社区共聚:SGLang × MUSA Meetup圆满落幕,国产GPU开源生态进入“原生支持”时代

    5月10日,由摩尔线程与SGLang社区联合主办的“MUSA开源技术沙龙|SGLang × MUSA Meetup”在北京成功举行。 本次Meetup不仅集结了SGLang核心开发成员,并邀
    发表于 05-12 22:00 1050次阅读
    从代码合入到社区共聚:<b class='flag-5'>SGLang</b> × MUSA Meetup圆满落幕,国产GPU开源生态进入“原生支持”时代

    MUSA获得SGLang主线支持!5月10日北京,AI Meetup等你来

    5月10日,北京,一场硬核技术沙龙即将开启。 SGLang、TileLang、Triton、Mooncake等技术大牛,将齐聚一堂,深度探讨「SGLang × MUSA」落地实践,分享推理引擎、算子
    发表于 04-30 10:29 723次阅读
    MUSA获得<b class='flag-5'>SGLang</b>主线支持!5月10日北京,AI Meetup等你来

    Arm亲自下场!自研首款数据中心AGI CPU发布!

    Arm今日发布首款由 Arm 设计的数据中心 CPU——Arm AGI CPU,专为代理式 AI 基础设施打造,可实现单机架性能达到 x86 平台
    的头像 发表于 03-25 08:39 3264次阅读
    <b class='flag-5'>Arm</b>亲自下场!自研首款数据中心AGI CPU发布!

    是德科技推出全新AI推理仿真平台

    是德科技(NYSE: KEYS)近日推出KAI推理构建器(Keysight AI Inference Builder),这款仿真与分析平台旨在大规模验证针对推理进行优化的AI基础设施。是德科技将在
    的头像 发表于 03-20 17:27 917次阅读
    是德科技推出全新AI<b class='flag-5'>推理</b>仿真<b class='flag-5'>平台</b>

    一文详解Arm Neoverse平台

    十年前,云基础设施主要承载 Web 应用和企业级工作负载,性能与功耗相对稳定可预测。而现在,云基础设施必须应对人工智能 (AI) 工作负载的规模化扩展,保障多租户环境的安全,并将算力从数据中心延伸至数据产生的源头。
    的头像 发表于 03-11 10:29 1449次阅读
    一文详解<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b><b class='flag-5'>平台</b>

    利用ExecuTorch和Arm SME2加速端侧机器学习推理

    贴纸、分离主体以替换背景,或是对图像局部进行选择性增强。这些效果背后,是轻量级分割模型在运行,这些模型通过 ExecuTorch(PyTorch 的开源端侧推理运行时)以及第二代 Arm
    的头像 发表于 03-03 10:27 824次阅读
    利用ExecuTorch和<b class='flag-5'>Arm</b> SME2加速端侧机器学习<b class='flag-5'>推理</b>

    如何在Arm Neoverse N2平台上提升llama.cpp扩展性能

    跨 NUMA 内存访问可能会限制 llama.cpp 在 Arm Neoverse 平台上的扩展能力。本文将为你详细分析这一问题,并通过引入原型验证补丁来加以解决。测试结果表明,在基于 Neo
    的头像 发表于 02-11 10:06 411次阅读

    西门子EDA与Arm携手合作加速系统设计验证进程与软件启动

    对芯片设计而言,加速产品的上市流程至关重要。为此,西门子EDA与Arm携手合作,为Arm的合作伙伴提供了一系列基于Arm Neoverse CSS与
    的头像 发表于 12-19 09:06 1018次阅读
    西门子EDA与<b class='flag-5'>Arm</b>携手合作加速系统设计验证进程与软件启动

    Arm Neoverse平台集成NVIDIA NVLink Fusion

    生态系统,实现全缓存一致性与高带宽互连。 随着 AI 数据中心对 Arm Neoverse 的需求持续增长,客户在将工作负载加速器连接至 Arm
    的头像 发表于 11-26 11:08 625次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上推理性能瓶颈。为实现
    的头像 发表于 10-21 11:04 1596次阅读

    一文了解Arm神经超级采样 (Arm Neural Super Sampling, Arm NSS) 深入探索架构、训练和推理

    本文将从训练、网络架构到后处理和推理等方面,深入探讨 Arm 神经超级采样 (Arm Neural Super Sampling, Arm NSS) 的工作原理,希望为机器学习 (ML
    的头像 发表于 08-14 16:11 3393次阅读

    西门子 Veloce CS 助力 Arm Neoverse 计算子系统验证与确认

    西门子数字化工业软件近日宣布,Veloce Strato CS 与Veloce proFPGA CS 已被 Veloce 的长期合作伙伴 Arm 部署应用,作为Arm Neoverse 计算
    的头像 发表于 08-06 09:26 3154次阅读

    基于米尔瑞芯微RK3576开发板部署运行TinyMaix:超轻量级推理框架

    本文将介绍基于米尔电子MYD-LR3576开发平台部署超轻量级推理框架方案:TinyMaix 摘自优秀创作者-短笛君 TinyMaix 是面向单片机的超轻量级的神经网络推理库,即 TinyML
    发表于 07-25 16:35

    Arm Neoverse N2平台实现DeepSeek-R1满血版部署

    颇具优势。Arm 携手合作伙伴,在 Arm Neoverse N2 平台上使用开源推理框架 llama.cpp
    的头像 发表于 07-03 14:37 1508次阅读
    <b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b> N2<b class='flag-5'>平台</b><b class='flag-5'>实现</b>DeepSeek-R1满血版部署

    2.0.0版本的ST Edge AI Core在linux平台上可以把量化后的onnx模型转换为.nb,但是运行报错,缺少文件,为什么?

    2.0.0版本的ST Edge AI Core工具在linux平台上应该是可以把量化后的onnx模型转换为.nb,但是运行报错,缺少文件。
    发表于 06-17 06:29