0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA RTX PRO 5000 Blackwell GPU多卡系统深度测评

丽台科技 来源:丽台科技 2026-05-25 09:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA RTX PRO 5000 Blackwell 基于突破性的 NVIDIA Blackwell 架构构建,并配备 48GB 或 72GB 超高速 GDDR7 内存,有助于加速 AI 开发、LLM 推理和生成式 AI 工作流。

本文针对 NVIDIA RTX PRO 5000 Blackwell(多卡系统)进行了全面性能评估测试 ,涵盖硬件规格、显存带宽、PCIe 带宽、P2P 带宽、Tensor Core 各精度算力,以及实际 LLM 推理性能等多个维度。

核心亮点

低精度算力表现强劲:NVFP4 稠密模式下,单卡峰值算力接近 960 TFLOPS

带宽性能表现优秀:显存实测带宽效率达 83%,P2P 同域带宽达 52 GB/s

RTX PRO 5000 Blackwell 48GB 对比 RTX PRO 5000 Blackwell 72GB:硬件算力/带宽几乎一致,但 RTX PRO 5000 Blackwell 72GB 在 MoE 模型、高并发以及长上下文场景下展现显著优势

应用场景:RTX PRO 5000 Blackwell 48GB 适合高性价比稠密模型部署,RTX PRO 5000 Blackwell 72GB 更适合复杂 MoE 与高负载生产环境

GPU 硬件规格

f2251f4a-54b9-11f1-90a1-92fbcf53809c.jpg

测试环境

硬件环境

f2885cfe-54b9-11f1-90a1-92fbcf53809c.jpg

软件环境

f2e99f32-54b9-11f1-90a1-92fbcf53809c.jpg

一、基础带宽测试

1.1 显存带宽

测试结果:GDDR7 显存在大块数据传输场景下表现良好,RTX PRO 5000 Blackwell 48GB 与 RTX PRO 5000 Blackwell 72GB 版本带宽无显著差异。

f3524e74-54b9-11f1-90a1-92fbcf53809c.jpg

1.2 PCIe 带宽

f3b27b00-54b9-11f1-90a1-92fbcf53809c.jpg

二、GPU 间 P2P 通信能力

2.1 GPU 拓扑结构

f40c2902-54b9-11f1-90a1-92fbcf53809c.jpg

2.2 GPU P2P 通信能力矩阵

注: GPU 自身不能 P2P 访问自己(✗), 但所有其他 GPU 间均可互相访问(✓)

f468cdb0-54b9-11f1-90a1-92fbcf53809c.jpg

2.3 P2P 带宽矩阵 (Copy Engine Read, GB/s)

测试结果:

张量并行(TP)优先采用同域部署,可显著降低通信开销。

同 NUMA 域:~52 GB/s

跨 NUMA 域:~36-38 GB/s

同域双向峰值:~103 GB/s

多卡总聚合 P2P 带宽:~2,470 GB/s

f4c603b8-54b9-11f1-90a1-92fbcf53809c.jpg

三、Tensor Core 多精度算力测试

f5251092-54b9-11f1-90a1-92fbcf53809c.jpg

f57faff2-54b9-11f1-90a1-92fbcf53809c.jpg

注:NVFP4 性能随矩阵规模变化,NVFP4 需使用 b12x 库进行测试(cuBLAS暂不支持sm_120 NVFP4)。在大矩阵规模(≥8192×8192)场景下,性能最优。

四、LLM 推理性能

4.1 vLLM NVFP4 推理性能

NVFP4 是 NVIDIA 在新一代 AI 架构中重点推动的超低精度计算格式,本质上是一种 4-bit 浮点运算能力。它主要面向大模型推理场景,尤其适用于超大参数模型部署、多用户并发推理以及 Agent 推理系统。由于数据位宽只有 BF16 的四分之一,NVFP4 能够显著降低显存占用、提升 Tensor Core 吞吐率,并减少 GPU 间的数据传输压力。在相同 GPU 显存条件下,NVFP4 可以部署更大的模型,或者支持更高的并发请求数量。

f5db1450-54b9-11f1-90a1-92fbcf53809c.jpg

测试结果:

RTX PRO 5000 Blackwell 48GB与 RTX PRO 5000 Blackwell 72GB 在 NVFP4 精度下算力相同,吞吐量基本持平(差异 < 5%)

RTX PRO 5000 Blackwell 72GB 最优配置: TP=4 c=32 (986 t/s),RTX PRO 5000 Blackwell 48GB 上 TP=4 与 TP=8 的性能表现较为接近

TP=4 跨 NUMA 通信开销更小:TP=4 仅用 GPU 0-3(同 NUMA Node 0,P2P 52 GB/s),TP=8 需跨 NUMA(36-38 GB/s),RTX PRO 5000 Blackwell 72GB 在 TP=8 配置下的吞吐量下降 5.6%

注:RTX PRO 5000 Blackwell 72GB 在 Prefill 阶段优势更明显

4.2 vLLM BF16 推理性能

BF16 是目前大模型训练中最主流的高精度格式之一,它采用 16 位浮点结构,拥有与 FP32 相同的 8 位指数位,因此能够保留较大的数值动态范围。相比 FP16,BF16 更不容易在训练过程中出现梯度溢出或数值不稳定的问题,因此被广泛应用于 GPT、Llama、DeepSeek 等大模型的预训练与微调阶段。对于数据中心来说,BF16 可以在保证训练稳定性的同时,大幅降低显存占用与带宽压力,是当前 AI 训练集群的“标准工作精度”。

f632568e-54b9-11f1-90a1-92fbcf53809c.jpg

测试结果:

RTX PRO 5000 Blackwell 48GB 与 RTX PRO 5000 Blackwell 72GB 在 BF16 精度下的吞吐量持平(TP=4 +1%,TP=8 +0.8%),与两者硬件算力基本一致

RTX PRO 5000 Blackwell 72GB 在 TTFT(Time to First Token,首 token 生成时间)方面表现更优:TP=4 52ms vs 89ms(快 42%),TP=8 41ms vs 58ms(快 29%)

五、选型建议

f6912d80-54b9-11f1-90a1-92fbcf53809c.jpg

六、丽台软硬一体 AI 算力全栈解决方案

丽台科技可提供全生命周期专业技术服务,覆盖规划设计、部署实施及运维管理全链条。以成熟可靠的交付能力和精细化实施标准,为客户打造稳定、高效、可持续扩展的算力基础设施,助力企业从容应对数字化与智能化转型挑战。

同时,丽台科技将持续紧跟人工智能前沿趋势,深度融合最新一代 GPU 加速技术、高性能存储方案以及先进高速网络通信架构,全面提升智算集群的计算性能、数据吞吐能力和系统协同效率,为大模型训练、推理及高性能 AI 应用提供强劲、稳定且持久的算力支撑。

f6e75930-54b9-11f1-90a1-92fbcf53809c.jpg

*本文在测评过程中引入 AI Agent 工具,为相关测试提供辅助支持。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5726

    浏览量

    110292
  • 带宽
    +关注

    关注

    3

    文章

    1056

    浏览量

    43672
  • AI
    AI
    +关注

    关注

    91

    文章

    41982

    浏览量

    303080

原文标题:NVIDIA RTX PRO 5000 Blackwell 多卡深度测评:48GB vs 72GB,AI 推理怎么选?

文章出处:【微信号:Leadtek,微信公众号:丽台科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    Blackwell 架构 GPU 中的中端专业图形,高度仅为全高 GPU 的二分之一。如果您需要的是一块半高显卡,能适配小机箱,功耗不高,还要具备 AI 及光线追踪性能的话,那么
    的头像 发表于 11-28 09:39 7297次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> <b class='flag-5'>PRO</b> 2000 <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>性能测试

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    百亿亿次计算和万亿参数模型提供基础 NVIDIA推出世界首个高速GPU互连技术NVLink™,提供的速度远超基于PCIe的解决方案,是GPU系统
    发表于 05-13 17:16

    英伟达发布新一代 GPU 架构图灵和 GPU 系列 Quadro RTX

    (Real Time Ray Tracing)的 GPU 系列 Quadro RTX 8000、Quadro RTX 6000、Quadro RTX
    发表于 08-15 10:59

    NVIDIA发布 GeForce RTX 40 系列 GPU

    NVIDIA 发布 GeForce RTX 40 系列 GPU,旨在为游戏玩家和创作者提供革命性性能,其中新旗舰产品 RTX 4090 GPU
    的头像 发表于 09-22 10:38 2141次阅读

    NVIDIA和GeForce RTX GPU专为AI时代打造

    NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造。
    的头像 发表于 01-06 10:45 1749次阅读

    NVIDIA RTX 4500 Ada与NVIDIA RTX A5000的对比

    基于大众所熟知的 NVIDIA Ada Lovelace 架构,NVIDIA RTX 4500 Ada Generation是一款介于 NVIDIA
    的头像 发表于 03-05 10:30 5504次阅读

    NVIDIA Blackwell数据手册与NVIDIA Blackwell架构技术解析

    NVIDIA Blackwell数据手册与NVIDIA Blackwell 架构技术解析
    的头像 发表于 03-20 17:19 2958次阅读

    NVIDIA Blackwell白皮书:NVIDIA Blackwell Architecture Technical Brief

    NVIDIA Blackwell白皮书:NVIDIA Blackwell Architecture Technical Brief
    的头像 发表于 03-20 18:35 3665次阅读

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发

    NVIDIA GTC 推出新一代专业级 GPU 和 AI 赋能的开发者工具—同时,ChatRTX 更新现已支持 NVIDIA NIM,RTX Remix 正式结束测试阶段,本月的
    的头像 发表于 03-28 09:59 1504次阅读

    NVIDIA Blackwell推动流式传输和数据分析的未来发展

    RTX PRO Blackwell GPU 系列推动智能内容创建、超个性化媒体和实时视频管线的发展。
    的头像 发表于 03-28 10:02 1300次阅读

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition
    的头像 发表于 08-18 11:50 1750次阅读

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO
    的头像 发表于 08-28 11:02 4599次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> <b class='flag-5'>PRO</b> 4500 <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>测试分析

    NVIDIA RTX PRO 5000 72GB Blackwell GPU现已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 现已全面上市,将基
    的头像 发表于 12-24 10:32 1229次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> <b class='flag-5'>PRO</b> <b class='flag-5'>5000</b> 72GB <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>现已全面上市

    NVIDIA RTX PRO 4000 Blackwell GPU性能测试

    Generation 的全面超越。那么,这款划时代的专业 GPU 在真实应用场景中的表现究竟如何?今天,我们将通过深度实测,为您揭晓 NVIDIA RTX
    的头像 发表于 12-29 15:30 2114次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> <b class='flag-5'>PRO</b> 4000 <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>性能测试

    NVIDIA RTX PRO 5000 Blackwell GPU深度评测

    NVIDIA RTX PRO 5000 BlackwellNVIDIA
    的头像 发表于 01-06 09:51 4917次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> <b class='flag-5'>PRO</b> <b class='flag-5'>5000</b> <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>的<b class='flag-5'>深度</b>评测