0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA NVLink Fusion技术提升AI推理性能

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2025-09-23 14:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI 模型复杂性的指数级增长驱动参数规模从数百万迅速扩展到数万亿,对计算资源提出了前所未有的需求,必须依赖大规模 GPU 集群才能满足。混合专家(MoE)架构的广泛应用以及测试时扩展(test-time scaling)在推理阶段的引入,进一步加剧了计算负载。为实现高效的推理部署,AI 系统已发展出大规模并行化策略,包括张量并行、流水线并行和专家并行等技术。这些需求推动了支持内存语义的纵向扩展(Scale-up)计算网络向更大的 GPU 域演进,构建统一的计算与内存资源池,实现高效协同。

本文详细阐述了NVIDIA NVLink Fusion如何借助高效可扩展的 NVIDIA NVLink scale-up 架构技术,满足日益复杂的 AI 模型不断增长的需求。

ac1a8cd6-8e2d-11f0-8c8f-92fbcf53809c.png

图 1:模型规模与复杂性的提升推动了 scale-up 域的扩展

NVLink 如何持续演进以满足不断增长的 scale-up 需求

NVIDIA 于 2016 年首次推出 NVLink,旨在克服 PCIe 在高性能计算和人工智能工作负载中的局限性。该技术实现了更快的 GPU 间通信,并构建了统一的内存空间。

2018年,NVIDIA 推出了 NVLink Switch 技术,实现了在 8 个 GPU 的网络拓扑中每对 GPU 之间高达 300 GB/s 的 all-to-all 带宽,为多 GPU 计算时代的 scale-up 网络奠定了基础。随后,在第三代 NVLink Switch 中引入了 NVIDIA 可扩展分层聚合与归约协议(SHARP)技术,进一步提升了性能,有效优化了带宽性能并降低了集合操作的延迟。

随着 2024 年第五代 NVLink 的发布,进一步增强的 NVLink Switch 支持 72 个 GPU 实现全互联通信,通信速率达 1800 GB/s,聚合总带宽高达 130 TB/s,较第一代产品提升了 800 倍。

尽管 NVIDIA 已大规模部署 NVLink 近十年,但仍在不断突破技术极限,对未来三代的 NVLink 产品,会保持每年推出一代的节奏。这一迭代策略推动了持续的技术进步,有效满足了 AI 模型在复杂性和计算需求方面的指数级增长。

NVLink 的性能取决于硬件和通信库,尤其是 NVIDIA 集群通信库(NCCL)。

NCCL 作为一个开源库,专为加速单节点和多节点拓扑中 GPU 之间的通信而设计,能够实现接近理论带宽的 GPU 到 GPU 通信性能。它无缝支持横向和纵向扩展,具备自动拓扑感知与优化能力。NCCL 已集成到所有主流深度学习框架中,历经 10 年的开发与 10 年的生产环境部署,技术成熟且广泛应用。

ac93a968-8e2d-11f0-8c8f-92fbcf53809c.png

图 2:NCCL 支持纵向扩展和横向扩展,在所有主流框架中均受支持

最大化 AI 工厂收入

NVIDIA 在 NVLink 硬件和软件库方面积累了丰富的经验,配合大规模的计算域,能够有效满足当前 AI 推理计算的需求。其中,72-GPU 机架架构在多种应用场景中实现了卓越的推理性能,发挥了关键作用。在评估大语言模型(LLM)推理性能时,前沿帕累托(Frontier Pareto)曲线清晰地展现了每瓦吞吐量与延迟之间的权衡关系。

AI 工厂的生产和收入目标是最大化曲线下的面积。影响该曲线动态的因素众多,包括原始算力、内存容量与吞吐量,以及 scale-up 技术,通过高速通信优化实现张量并行、流水线并行和专家并行等技术。

在检查各类 scale-up 配置的性能时,我们发现存在显著差异,即使是使用相同的 NVLink 速度。

在 4 个 GPU 的 NVLink mesh 拓扑(无交换机)中,由于每对 GPU 之间只能分到有限带宽,曲线会呈现下降趋势。

采用 NVLink Switch 的 8 GPU 网络拓扑能显著提升性能,因为每对 GPU 之间均实现完全带宽。

通过 NVLink Switch 扩展至 72 个 GPU 的域,可最大限度地提升性能和收益。

NVLink Fusion 实现对NVLink scale-up 技术的定制化使用

NVIDIA 推出了 NVLink Fusion,使超大规模数据中心能够采用经过生产验证的 NVLink scale-up 技术。该技术可让定制芯片(包括 CPU 和 XPU)与 NVIDIA 的 NVLink scale-up 网络技术以及机架级扩展架构相集成,从而实现半定制化的 AI 基础设施部署。

NVLink scale-up 技术涵盖 NVLink SERDES、NVLink chiplets、NVLink 交换机以及机架级扩展架构的整体方案。高密度机架级扩展架构包括 NVLink spine、铜缆系统、创新的机械结构、先进的供电与液冷技术,以及供应链就绪的完整生态系统。

NVLink Fusion 为定制 CPU、定制 XPU 或两者的组合配置提供了灵活的解决方案。作为模块化开放计算项目(OCP)MGX 机架架构的一部分,NVLink Fusion 可与任何网卡(NIC)、数据处理器(DPU)或横向扩展交换机集成,使客户能够根据需求灵活构建理想的系统。

对于自定义 XPU 配置,NVLink 通过通用芯粒互连(Universal Chiplet Interconnect Express, UCIe)IP 与接口实现集成。NVIDIA 提供支持 UCIe 的 NVLink 桥接芯片,既能实现极高性能,又便于集成,使客户能够像 NVIDIA 一样充分利用 NVLink 的功能。UCIe 作为一项开放标准,采用该接口进行 NVLink 集成可让客户为其 XPU 灵活选择当前或未来平台的多种方案。

对于自定义 CPU 配置,建议集成 NVIDIA NVLink-C2C IP,以连接 NVIDIA GPU,从而实现最佳性能。采用定制 CPU 与 NVIDIA GPU 的系统可平滑访问 CUDA 平台的数百个 NVIDIA CUDA-X 库,充分发挥加速计算的高性能优势。

由广泛的生产就绪合作伙伴生态系统提供有力支持

NVLink Fusion 拥有一个强大的芯片生态系统,涵盖定制芯片、CPU 以及 IP 技术合作伙伴,不仅确保了广泛的技术支持和快速的设计实现,还持续推动着技术创新。

对于机架产品,用户可受益于我们的系统合作伙伴网络以及数据中心基础设施组件供应商。这些合作伙伴和供应商已实现 NVIDIA Blackwell NVL72 系统的大规模生产。通过整合生态系统与供应链资源,用户能够加快产品上市速度,并显著缩短机架级扩展系统,以及 scale-up 网络的生产部署时间。

提升 AI 推理性能

NVLink 代表了满足 AI 推理时代计算需求的重大飞跃。NVLink Fusion 充分融合了 NVIDIA 在 NVLink scale-up 技术领域长达十年的深厚积累,结合 OCP MGX 机架架构及生态系统开放的生产部署标准,为超大规模数据中心提供了卓越的性能与全面的定制化选项。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109099
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296700
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51716

原文标题:借助 NVIDIA NVLink 和 NVLink Fusion 扩展 AI 推理性能和灵活性

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    英特尔FPGA 助力Microsoft Azure机器学习提供AI推理性能

    Machine Learning SDK 相集成以供预览。客户可以使用 Azure 大规模部署的英特尔® FPGA(现场可编程逻辑门阵列)技术,为其模型提供行业领先的人工智能 (AI推理性能
    的头像 发表于 05-16 17:25 6856次阅读

    NVIDIA扩大AI推理性能领先优势,首次在Arm服务器上取得佳绩

    最新MLPerf基准测试表明,NVIDIA已将其在AI推理性能和能效方面的高标准扩展到Arm以及x86计算机。
    发表于 09-23 14:18 2926次阅读
    <b class='flag-5'>NVIDIA</b>扩大<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>领先优势,首次在Arm服务器上取得佳绩

    NVIDIA打破AI推理性能记录

     NVIDIA凭借A100进一步扩大了在MLPerf基准测试中的领先优势,实现了比CPU快237倍的AI推理性能,助力企业将AI研究转化为生产力。
    发表于 10-22 14:07 1035次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    。 **英伟达Blackwell架构在数据中心方面的应用有哪些?** 1. **AI **大模型训练 Blackwell 架构的 GPU 针对当前火爆的 AI 大模型进行了优化,能够显著提升训练和
    发表于 05-13 17:16

    NVIDIA 在首个AI推理基准测试中大放异彩

    的BERT、GNMT 和Jasper 等AI模型开源优化帮助开发者实现顶尖推理性能NVIDIA的客户和合作伙伴中包括有会话式AI领域的一流公司,比如Kensho、微软、Nuance、
    发表于 11-08 19:44

    求助,为什么将不同的权重应用于模型会影响推理性能

    生成两个 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的类似模型,以不同的 fps (27fps 和 6fps) 运行 更多样化的权重是否会影响 Myriad X 上的推理性能
    发表于 08-15 07:00

    如何提高YOLOv4模型的推理性能

    使用 PyTorch 对具有非方形图像的 YOLOv4 模型进行了训练。 将 权重转换为 ONNX 文件,然后转换为中间表示 (IR)。 无法确定如何获得更好的推理性能
    发表于 08-15 06:58

    英特尔FPGA为人工智能(AI)提供推理性能

    Azure Machine Learning SDK 相集成以供预览。客户可以使用 Azure 大规模部署的英特尔 FPGA(现场可编程逻辑门阵列)技术,为其模型提供行业领先的人工智能 (AI) 推理性能。 “作为一家整体
    发表于 05-20 00:10 3351次阅读

    NVIDIA A100 GPU推理性能237倍碾压CPU

    )的12个提交者增加了近一倍。 结果显示,今年5月NVIDIANvidia)发布的安培(Ampere)架构A100 Tensor Core GPU,在云端推理的基准测试性能是最先进I
    的头像 发表于 10-23 17:40 5040次阅读
    <b class='flag-5'>NVIDIA</b> A100 GPU<b class='flag-5'>推理性能</b>237倍碾压CPU

    NVIDIA发布最新Orin芯片提升边缘AI标杆

    在首次参加行业 MLPerf 基准测试时,基于 NVIDIA Ampere 架构的低功耗系统级芯片 NVIDIA Orin 就创造了新的AI推理性能纪录,并在边缘
    的头像 发表于 04-08 10:14 5493次阅读
    <b class='flag-5'>NVIDIA</b>发布最新Orin芯片<b class='flag-5'>提升</b>边缘<b class='flag-5'>AI</b>标杆

    Nvidia 通过开源库提升 LLM 推理性能

    加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库,将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。 正如对相同硬件一轮又一轮改进
    的头像 发表于 10-23 16:10 1363次阅读

    开箱即用,AISBench测试展示英特尔至强处理器的卓越推理性能

    。 中国电子技术标准化研究院赛西实验室依据国家标准《人工智能服务器系统性能测试规范》(征求意见稿)相关要求,使用AISBench 2.0测试工具,完成了第五代英特尔至强可扩展处理器的AI大模型
    的头像 发表于 09-06 15:33 1266次阅读
    开箱即用,AISBench测试展示英特尔至强处理器的卓越<b class='flag-5'>推理性能</b>

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1327次阅读
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平台提高<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    NVIDIA推出NVLink Fusion技术

    NVIDIA 发布 NVIDIA NVLink Fusion,这款全新芯片将助力行业用户通过全球领先且广泛采用的计算互连架构 —— NVIDIA
    的头像 发表于 05-22 09:59 706次阅读

    Arm Neoverse平台集成NVIDIA NVLink Fusion

    新闻重点 Arm 与 NVIDIA 持续深化合作,在 AI 时代推动协同设计与合作迈向新高度。 生态系统合作伙伴可将高效的 Arm 架构计算能力集成至 NVIDIA NVLink
    的头像 发表于 11-26 11:08 292次阅读