NVIDIA RTX PRO 5000 Blackwell 基于突破性的 NVIDIA Blackwell 架构构建,并配备 48GB 或 72GB 超高速 GDDR7 内存,有助于加速 AI 开发、LLM 推理和生成式 AI 工作流。
本文针对 NVIDIA RTX PRO 5000 Blackwell(多卡系统)进行了全面性能评估测试 ,涵盖硬件规格、显存带宽、PCIe 带宽、P2P 带宽、Tensor Core 各精度算力,以及实际 LLM 推理性能等多个维度。
核心亮点
低精度算力表现强劲:NVFP4 稠密模式下,单卡峰值算力接近 960 TFLOPS
带宽性能表现优秀:显存实测带宽效率达 83%,P2P 同域带宽达 52 GB/s
RTX PRO 5000 Blackwell 48GB 对比 RTX PRO 5000 Blackwell 72GB:硬件算力/带宽几乎一致,但 RTX PRO 5000 Blackwell 72GB 在 MoE 模型、高并发以及长上下文场景下展现显著优势
应用场景:RTX PRO 5000 Blackwell 48GB 适合高性价比稠密模型部署,RTX PRO 5000 Blackwell 72GB 更适合复杂 MoE 与高负载生产环境
GPU 硬件规格

测试环境
硬件环境

软件环境

一、基础带宽测试
1.1 显存带宽
测试结果:GDDR7 显存在大块数据传输场景下表现良好,RTX PRO 5000 Blackwell 48GB 与 RTX PRO 5000 Blackwell 72GB 版本带宽无显著差异。

1.2 PCIe 带宽

二、GPU 间 P2P 通信能力
2.1 GPU 拓扑结构

2.2 GPU P2P 通信能力矩阵
注: GPU 自身不能 P2P 访问自己(✗), 但所有其他 GPU 间均可互相访问(✓)

2.3 P2P 带宽矩阵 (Copy Engine Read, GB/s)
测试结果:
张量并行(TP)优先采用同域部署,可显著降低通信开销。
同 NUMA 域:~52 GB/s
跨 NUMA 域:~36-38 GB/s
同域双向峰值:~103 GB/s
多卡总聚合 P2P 带宽:~2,470 GB/s

三、Tensor Core 多精度算力测试


注:NVFP4 性能随矩阵规模变化,NVFP4 需使用 b12x 库进行测试(cuBLAS暂不支持sm_120 NVFP4)。在大矩阵规模(≥8192×8192)场景下,性能最优。
四、LLM 推理性能
4.1 vLLM NVFP4 推理性能
NVFP4 是 NVIDIA 在新一代 AI 架构中重点推动的超低精度计算格式,本质上是一种 4-bit 浮点运算能力。它主要面向大模型推理场景,尤其适用于超大参数模型部署、多用户并发推理以及 Agent 推理系统。由于数据位宽只有 BF16 的四分之一,NVFP4 能够显著降低显存占用、提升 Tensor Core 吞吐率,并减少 GPU 间的数据传输压力。在相同 GPU 显存条件下,NVFP4 可以部署更大的模型,或者支持更高的并发请求数量。

测试结果:
RTX PRO 5000 Blackwell 48GB与 RTX PRO 5000 Blackwell 72GB 在 NVFP4 精度下算力相同,吞吐量基本持平(差异 < 5%)
RTX PRO 5000 Blackwell 72GB 最优配置: TP=4 c=32 (986 t/s),RTX PRO 5000 Blackwell 48GB 上 TP=4 与 TP=8 的性能表现较为接近
TP=4 跨 NUMA 通信开销更小:TP=4 仅用 GPU 0-3(同 NUMA Node 0,P2P 52 GB/s),TP=8 需跨 NUMA(36-38 GB/s),RTX PRO 5000 Blackwell 72GB 在 TP=8 配置下的吞吐量下降 5.6%
注:RTX PRO 5000 Blackwell 72GB 在 Prefill 阶段优势更明显
4.2 vLLM BF16 推理性能
BF16 是目前大模型训练中最主流的高精度格式之一,它采用 16 位浮点结构,拥有与 FP32 相同的 8 位指数位,因此能够保留较大的数值动态范围。相比 FP16,BF16 更不容易在训练过程中出现梯度溢出或数值不稳定的问题,因此被广泛应用于 GPT、Llama、DeepSeek 等大模型的预训练与微调阶段。对于数据中心来说,BF16 可以在保证训练稳定性的同时,大幅降低显存占用与带宽压力,是当前 AI 训练集群的“标准工作精度”。

测试结果:
RTX PRO 5000 Blackwell 48GB 与 RTX PRO 5000 Blackwell 72GB 在 BF16 精度下的吞吐量持平(TP=4 +1%,TP=8 +0.8%),与两者硬件算力基本一致
RTX PRO 5000 Blackwell 72GB 在 TTFT(Time to First Token,首 token 生成时间)方面表现更优:TP=4 52ms vs 89ms(快 42%),TP=8 41ms vs 58ms(快 29%)
五、选型建议

六、丽台软硬一体 AI 算力全栈解决方案
丽台科技可提供全生命周期专业技术服务,覆盖规划设计、部署实施及运维管理全链条。以成熟可靠的交付能力和精细化实施标准,为客户打造稳定、高效、可持续扩展的算力基础设施,助力企业从容应对数字化与智能化转型挑战。
同时,丽台科技将持续紧跟人工智能前沿趋势,深度融合最新一代 GPU 加速技术、高性能存储方案以及先进高速网络通信架构,全面提升智算集群的计算性能、数据吞吐能力和系统协同效率,为大模型训练、推理及高性能 AI 应用提供强劲、稳定且持久的算力支撑。

*本文在测评过程中引入 AI Agent 工具,为相关测试提供辅助支持。
-
NVIDIA
+关注
关注
14文章
5726浏览量
110292 -
带宽
+关注
关注
3文章
1056浏览量
43672 -
AI
+关注
关注
91文章
41982浏览量
303080
原文标题:NVIDIA RTX PRO 5000 Blackwell 多卡深度测评:48GB vs 72GB,AI 推理怎么选?
文章出处:【微信号:Leadtek,微信公众号:丽台科技】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
NVIDIA RTX PRO 2000 Blackwell GPU性能测试
进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片
英伟达发布新一代 GPU 架构图灵和 GPU 系列 Quadro RTX
NVIDIA发布 GeForce RTX 40 系列 GPU
NVIDIA RTX 4500 Ada与NVIDIA RTX A5000的对比
NVIDIA Blackwell数据手册与NVIDIA Blackwell架构技术解析
NVIDIA Blackwell白皮书:NVIDIA Blackwell Architecture Technical Brief
使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发
NVIDIA Blackwell推动流式传输和数据分析的未来发展
NVIDIA RTX PRO 4000 Blackwell GPU性能测试
NVIDIA RTX PRO 5000 Blackwell GPU多卡系统深度测评
评论