0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Arm Neoverse N2平台实现DeepSeek-R1满血版部署

Arm社区 来源:Arm社区 2025-07-03 14:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今年年初,开源大语言模型 (LLM) DeepSeek 在国内外人工智能 (AI) LLM 领域掀起热议。它在模型架构和训练、推理方法上实现创新,在性能和工程效率上带来了显著提升,并在成本效率方面颇具优势。Arm 携手合作伙伴,在 Arm Neoverse N2 平台上使用开源推理框架 llama.cpp 实现 DeepSeek-R1 满血版的部署,目前已可提供线上服务。

在基于 Neoverse N2 平台设计的服务器级 CPU 上,通过对软硬件架构的合理适配,以及出色调优来充分发挥平台的计算能力和内存带宽,能够以 INT8 的量化版本提供业界可用的词元 (token) 生成速度,并以更具竞争力的性价比为中小微企业提供业界顶尖的 LLM 服务。

在部署 DeepSeek 大模型过程中,Arm 结合底层架构特性进行了深度优化:模型本身跨多 ‌NUMA(非统一内存访问)节点以交错 (interleave) 方式加载,以便充分利用所有内存带宽;除 INT8 量化外,通过开启 KV 量化,以及激活 Flash Attention 机制,以此进一步降低计算量和压缩内存占用。通过技术团队的努力,DeepSeek 满血版的整体性能相较优化前提升了 67%。工程团队后续也会持续投入,提高多节点上的计算并发度及带宽利用率,并通过开发者社区不断完善 Arm 架构的软件生态。

细究 DeepSeek 的模型架构创新,它针对大模型运行时的痛点进行计算、内存访问和算法流水线上的效率提升,比如 MLA 和 FP8 训练和推理减少了内存占用和带宽需求,DeepSeekMoE 降低了计算强度、提高计算效率,DualPipe 提高了多计算节点间的通信和计算效率。这些工程优化思维与 Arm 一贯倡导的高能效设计目标不谋而合,也使得在纯 CPU 平台上运行如此大规模的模型成为可能。

Arm 平台致力于助力合作伙伴提高性能,并降低总体拥有成本 (TCO),在 Neoverse N2 平台运行 DeepSeek 大模型推理也淋漓尽致地体现了这一原则。在为中小微企业提供大模型服务时,并发需求降低,成本敏感度提高。在基于 Neoverse N2 平台上运行的 DeepSeek-R1 为他们提供了一个更为均衡的选择。相较传统多卡 GPU/加速器平台,这能极大地降低订阅服务成本,使用户能以较低代价快速启动业务部署。下图是两种方案订阅服务的价格对比:

826368a6-532f-11f0-b715-92fbcf53809c.png

搭载 Neoverse N2 平台的服务器平台能把部署成本降低约八倍。此外,对数据中心来说,在 CPU 上部署 LLM 也能充分利用在线的空闲算力,提高整体资源利用率。与此同时,基于 Neoverse N2 平台的服务器功耗仅为传统八卡 GPU 服务器的 1/12,能极大地降低数据中心的能耗压力。

如此大规模的模型(6,710亿参数)能够在数据中心服务器级 CPU 上运行,并迅速上线为客户提供快速部署,得益于 Neoverse 平台对 AI 推理负载的一贯思考和设计,包括 2 x 128 位的可伸缩向量扩展 (SVE2) 特性、BF16/INT8 数据格式支持,以及点积和矩阵乘法等指令的支持,加之多通道高带宽内存配置,和低延迟 CMN 互联等等。

随着 AI 领域的飞速发展,LLM 在持续的工程创新和优化之下应用领域不断变广。Arm 将持续通过 Neoverse 平台为行业赋能,并在这一新的技术纪元中引领变革。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9561

    浏览量

    392283
  • 人工智能
    +关注

    关注

    1818

    文章

    50129

    浏览量

    265658
  • DeepSeek
    +关注

    关注

    2

    文章

    836

    浏览量

    3295

原文标题:在 Arm Neoverse N2 平台上以更优成本、更低功耗,充分释放 DeepSeek-R1 满血版性能

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度腾讯抢滩布局!DeepSeek-R1升级和开源背后,国产AI的逆袭之路

    电子发烧友网报道(文/李弯弯)日前,DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级,当前版本为DeepSeek-R1-0528。次日,DeepSeek-R1-05
    的头像 发表于 06-03 06:34 6218次阅读

    如何在Arm Neoverse N2平台上提升llama.cpp扩展性能

    跨 NUMA 内存访问可能会限制 llama.cpp 在 Arm Neoverse 平台上的扩展能力。本文将为你详细分析这一问题,并通过引入原型验证补丁来加以解决。测试结果表明,在基于 Neo
    的头像 发表于 02-11 10:06 187次阅读

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4477次阅读
    <b class='flag-5'>DeepSeek</b> <b class='flag-5'>R1</b> MTP在TensorRT-LLM中的<b class='flag-5'>实现</b>与优化

    速看!EASY-EAI教你离线部署Deepseek R1大模型

    1.Deepseek简介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研发的推理模型。DeepSeek-R1采用强化学习进行后训练,旨在提升推理能力,尤其擅
    的头像 发表于 07-25 15:22 1396次阅读
    速看!EASY-EAI教你离线<b class='flag-5'>部署</b><b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大模型

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    本文将探讨 NVIDIA TensorRT-LLM 如何基于 8 个 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延迟场景中的性能纪录:在 GTC 2025
    的头像 发表于 07-02 19:31 3314次阅读
    NVIDIA Blackwell GPU优化<b class='flag-5'>DeepSeek-R1</b>性能 打破<b class='flag-5'>DeepSeek-R1</b>在最小延迟场景中的性能纪录

    瑞萨RZ/V2H平台支持部署离线版DeepSeek -R1大语言模型

    瑞萨RZ/V2H平台支持部署离线版DeepSeek -R1大语言模型
    的头像 发表于 05-13 17:07 1680次阅读
    瑞萨RZ/V<b class='flag-5'>2</b>H<b class='flag-5'>平台</b>支持<b class='flag-5'>部署</b>离线版<b class='flag-5'>DeepSeek</b> -<b class='flag-5'>R1</b>大语言模型

    SAP实施专家解答:如何用DeepSeek-R1实现需求沟通效率倍增

    工博科技分享AI工具链在IT项目中的深度应用:通过DeepSeek-R1实现智能会议记录结构化(2小时会议5分钟生成决策表)和精准多语言文档翻译(错误率降低14%),帮助IT团队将重复性工作耗时减少
    的头像 发表于 04-28 09:13 721次阅读

    解读基于Arm Neoverse V2平台的Google Axion处理器

    云计算需求在人工智能 (AI) 时代的爆发式增长,推动了开发者寻求性能优化且高能效的解决方案,以降低总体拥有成本 (TCO)。Arm 致力于通过 Arm Neoverse 平台满足不断
    的头像 发表于 04-21 13:47 1089次阅读

    【幸狐Omni3576边缘计算套件试用体验】CPU部署DeekSeek-R1模型(1B和7B)

    优化:动态分配计算资源至关键token 中文优化:在Wudao Corpus等中文数据集上强化训练 技术突破: 相比传统LLM,DeepSeek-R1通过以下创新实现低资源部署: MoE架构:专家混合层
    发表于 04-21 00:39

    ORinNano离线部署Deepseek R1大模型教程

    ORinNano离线部署Deepseek R1大模型教程
    的头像 发表于 04-10 15:32 1389次阅读
    ORinNano离线<b class='flag-5'>部署</b><b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大模型教程

    南京市政务云基于华为云Stack成功部署DeepSeek满血版大模型

    近期,南京市政务云基于华为云Stack成功部署上线满血DeepSeek-R1-671B,实现了“南京+DeepSeek
    的头像 发表于 03-31 09:30 1029次阅读

    香橙派发布OrangePi RV2本地部署Deepseek-R1蒸馏模型指南

    继香橙派昇腾系列产品、OrangePi5系列产品完成与DeepSeek模型的深度适配之后,香橙派日前官方发布OrangePiRV2运行Deepseek-R1蒸馏模型实操指南。OrangePiRV
    的头像 发表于 03-28 11:55 1720次阅读
    香橙派发布OrangePi RV<b class='flag-5'>2</b>本地<b class='flag-5'>部署</b><b class='flag-5'>Deepseek-R1</b>蒸馏模型指南

    DeepSeek到Qwen,AI大模型的移植与交互实战指南-飞凌嵌入式

    在不久前发布的《技术实战|OK3588-C开发板上部署DeepSeek-R1大模型的完整指南》一文中,小编为大家介绍了DeepSeek-R1在飞凌嵌入式OK3588-C开发板上的移植部署
    的头像 发表于 03-28 08:06 2855次阅读
    从<b class='flag-5'>DeepSeek</b>到Qwen,AI大模型的移植与交互实战指南-飞凌嵌入式

    【幸狐Omni3576边缘计算套件试用体验】DeepSeek 部署及测试

    /DeepSeek-R1-Distill-Qwen-1.5B_Demo/Readme.md 文档)即可实现 DeepSeek 部署。 这里使用瑞芯微转换好的 rkllm 进行推演。 仓
    发表于 03-21 19:31

    NVIDIA RTX 5880 Ada显卡部署DeepSeek-R1模型实测报告

    DeepSeek-R1 模型在 4 张 NVIDIA RTX 5880 Ada 显卡配置下,面对短文本生成、长文本生成、总结概括三大实战场景,会碰撞出怎样的性能火花?参数规模差异悬殊的 70B
    的头像 发表于 03-17 11:12 3170次阅读
    NVIDIA RTX 5880 Ada显卡<b class='flag-5'>部署</b><b class='flag-5'>DeepSeek-R1</b>模型实测报告