0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Blackwell平台带来性能跃升

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-11-19 14:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Blackwell 完成的每一项测试,都为各项 AI 应用树立了训练性能新标杆。

对于使用文本、计算机代码、蛋白质链、摘要、视频甚至 3D 图形的生成式 AI 应用,它们需要数据中心规模的加速计算来高效地训练其背后的大语言模型(LLM)。

在 MLPerf Training 4.1 行业基准测试中,NVIDIA Blackwell 平台在所有参与测试的工作负载上都取得了令人赞叹的测试结果。在 LLM 基准测试中,每块 GPU 的性能提高了 2.2 倍,其中包括 Llama 2 70B 微调和 GPT-3 175B 预训练。

此外,NVIDIA 提交的 NVIDIA Hopper 平台测试结果继续在所有基准测试上保持了规模级的记录,包括使用 11,616 块 Hopper GPU 进行的 GPT-3 175B 基准测试。

Blackwell 带来性能跃升

这是 NVIDIA 首次向 MLCommons 联盟提交 Blackwell 的训练测试结果,其结果突显了该架构是如何提高生成式 AI 训练性能的。MLCommons 联盟为业内公司创建了标准化、公正且经过严格的同行评审的测试。

例如,Blackwell 架构包括新的核函数,它们可以更高效地使用 Tensor Core。这些核函数执行优化的专用数学运算,例如矩阵乘,是许多深度学习算法的主要计算。

Blackwell 拥有更高的每块 GPU 计算吞吐量以及更大、更快的高带宽内存,使其能够在更少的 GPU 上运行 GPT-3 175B 基准测试,同时实现出色的每块 GPU 性能。

通过利用容量更大、带宽更高的 HBM3e 内存,仅仅 64 块 Blackwell GPU 就能够运行 GPT-3 LLM 基准测试,并且不损失每块 GPU 性能。使用 Hopper 进行相同的基准测试时则需要 256 块 GPU。

在提交 Blackwell 的训练测试结果之前,NVIDIA 还提交了 MLPerf Inference 4.1 推理测试结果。在该测试中,Blackwell 的 LLM 推理性能比 Hopper 高出 4 倍。测试结果显示,通过利用 Blackwell 架构的 FP4 精度以及 NVIDIA QUASAR 量化系统,Blackwell 在满足基准测试的精度要求的同时展现出了强大的性能。

持续优化

经过持续的软件开发,NVIDIA 平台在各种框架、模型和应用的训练和推理方面获得了性能提升和功能改进。

在本轮提交的 MLPerf 训练测试结果中,当使用 GPT-3 175B 进行训练时,Hopper 的每块 GPU 训练性能比上次提交该基准测试时提高了 1.3 倍。

NVIDIA 还提交了 GPT-3 175B 基准测试的大规模测试结果,该测试使用了 11,616 块 Hopper GPU,这些 GPU 通过 NVIDIA NVLink 和 NVSwitch 高带宽 GPU 间通信以及 NVIDIA Quantum-2 InfiniBand 网络连接在一起。

自去年以来,NVIDIA Hopper GPU 在 GPT-3 175B 基准测试中的规模和性能提升了三倍多。此外,在 Llama 2 70B LoRA 微调基准测试中,NVIDIA 在使用相同数量的 Hopper GPU 的情况下将性能提高了 26%,这体现了软件方面的持续优化。

NVIDIA 持续优化加速计算平台的努力,使其 MLPerf 测试结果得以不断提升——提高了容器化软件的性能,为使用现有平台的合作伙伴和客户带来更强大的算力,并让他们从平台投资中获得更高的回报。

携手合作

NVIDIA 的合作伙伴——包括华硕、Azure、思科、戴尔、富士通、Giga Computing、Lambda Labs、联想、Oracle Cloud、云达科技和超微等系统制造商和云服务提供商——也在最新一轮 MLPerf 测试中提交了令人印象深刻的测试结果。

作为 MLCommons 的创始成员,NVIDIA 认为,行业标准的基准测试和基准测试最佳实践对于 AI 计算而言至关重要。通过获取经过同行评审、精简的 AI 和 HPC 各个平台的对比信息,企业可以跟上最新的 AI 计算创新步伐,并获得有助于指导其重大平台投资决策的关键数据。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109075
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134443
  • 计算机
    +关注

    关注

    19

    文章

    7764

    浏览量

    92674
  • LLM
    LLM
    +关注

    关注

    1

    文章

    340

    浏览量

    1257

原文标题:巅峰的训练性能:Blackwell 在 MLPerf 测试中将训练性能带到新高度

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA扩大与微软合作推动AI超级工厂建设

    在 Microsoft Ignite 大会上,NVIDIA 扩大与微软的合作,包括在由 NVIDIA Blackwell 平台驱动的全新 Microsoft Fairwater AI
    的头像 发表于 12-01 09:52 424次阅读

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的头像 发表于 11-28 09:39 3590次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 <b class='flag-5'>Blackwell</b> GPU<b class='flag-5'>性能</b>测试

    通过NVIDIA Jetson AGX Thor实现7倍生成式AI性能

    Jetson Thor 平台还支持多种主流量化格式,包括 NVIDIA Blackwell GPU 架构的新 NVFP4 格式,有助于进一步优化推理性能。该
    的头像 发表于 10-29 16:53 1037次阅读

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,
    的头像 发表于 08-28 11:02 2868次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 <b class='flag-5'>Blackwell</b> GPU测试分析

    基于 NVIDIA Blackwell 的 Jetson Thor 现已发售,加速通用机器人时代的到来

    医疗、万集科技、优必选、银河通用、宇树科技、众擎机器人和智元机器人等公司已经率先使用 Jetson Thor。 ·基于 NVIDIA Blackwell 的 Jetson Thor,较上一代产品
    发表于 08-26 09:28 1194次阅读
    基于 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> 的 Jetson Thor 现已发售,加速通用机器人时代的到来

    OpenAI与NVIDIA共同开发全新开放模型

    NVIDIA 为 gpt-oss-120b 带来业界领先性能,在单个 NVIDIA Blackwell 系统上实现每秒 150 万个 Tok
    的头像 发表于 08-12 15:11 1229次阅读

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    本文将探讨 NVIDIA TensorRT-LLM 如何基于 8 个 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延迟场景中的性能纪录:在 G
    的头像 发表于 07-02 19:31 2937次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> GPU优化DeepSeek-R1<b class='flag-5'>性能</b> 打破DeepSeek-R1在最小延迟场景中的<b class='flag-5'>性能</b>纪录

    英伟达GTC2025亮点:NVIDIA Blackwell加速计算机辅助工程软件,实现实时数字孪生性能数量级提升

    、Altair、Cadence、Siemens 和 Synopsys 等在内的领先计算机辅助工程(CAE)软件供应商正在使用 NVIDIA Blackwell 平台加速其仿真工具,速度提升高达 50 倍
    的头像 发表于 03-21 15:12 1251次阅读

    NVIDIA Blackwell白皮书:NVIDIA Blackwell Architecture Technical Brief

    NVIDIA Blackwell白皮书:NVIDIA Blackwell Architecture Technical Brief
    的头像 发表于 03-20 18:35 2386次阅读

    NVIDIA Blackwell数据手册与NVIDIA Blackwell架构技术解析

    NVIDIA Blackwell数据手册与NVIDIA Blackwell 架构技术解析
    的头像 发表于 03-20 17:19 1694次阅读

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代
    的头像 发表于 03-20 15:35 1212次阅读

    Supermicro提高NVIDIA Blackwell机架级解决方案产量

    Supermicro, Inc.,作为人工智能/机器学习、高性能计算、云、存储和5G/Edge领域的整体IT解决方案提供商,近日宣布其基于NVIDIA Blackwell平台加速的端对
    的头像 发表于 02-11 09:45 657次阅读

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1313次阅读
    使用<b class='flag-5'>NVIDIA</b>推理<b class='flag-5'>平台</b>提高AI推理<b class='flag-5'>性能</b>

    MediaTek与NVIDIA携手设计GB10 Grace Blackwell超级芯片

    MediaTek与NVIDIA近日宣布了一项重要合作,双方将共同设计NVIDIA GB10 Grace Blackwell超级芯片。这款超级芯片将被应用于NVIDIA的个人AI超级计算
    的头像 发表于 01-13 10:48 886次阅读

    MediaTek与NVIDIA携手打造GB10 Grace Blackwell超级芯片

    MediaTek近日正式宣布与NVIDIA携手合作,共同设计NVIDIA GB10 Grace Blackwell超级芯片。这款芯片将被应用于NVIDIA的个人AI超级计算机——
    的头像 发表于 01-08 15:32 1301次阅读