0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MLPerf 联盟公布7项测试构成了当前机器学习领域的全新行业基准测试

NVIDIA英伟达企业解决方案 来源:lq 2018-12-24 14:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,MLPerf 联盟公布了其7项测试的首批结果,此7项测试构成了当前机器学习领域的全新行业基准测试。NVIDIA参与了其中6个类别的测试,在这6项测试中,从单节点测试到大规模测试,NVIDIA平台的测试结果都遥遥领先,证明了NVIDIA平台方法在加速机器学习领域的强大实力。

MLPerf 联盟的宗旨是“ 致力于确立一套通用的基准测试,助力机器学习 (ML) 领域跨移动设备和云服务测量系统的训练和推理性能。”NVIDIA 一直以来都是 MLPerf 联盟的主要成员,与其他成员一同积极构建、完善和发展首套商定一致的工作负载,以便可以跨用例范围地直接比较各平台性能。

作为快速成长的新兴市场,机器学习领域缺少用来评估平台性能的行业测试基准。虽然 ResNet-50 等网络经常用作训练和推理的性能代理,但其仍是一套主要基于图像任务的单一CNN,不能提供机器学习平台的完整性能图景。机器学习还包含许多其他用例,例如语音、翻译和推荐系统等。

认识 MLPerf

MLPerf 的关键设计目标之一是工作负载的多样化。因此,它涵盖了对图像和自然语言的使用,以及推荐系统和强化学习等,共 7 项测试。目前,这些工作负载仅可用于测试训练,未来版本的工作负载将计划以推理为重点。

NVIDIA最初致力于研究封闭组,旨在针对ML训练系统(包括硬件和软件)提供有价值的对比。为实现这一目标,封闭组要求所有提交成果均使用相同的数据准备和训练程序来训练相同的神经网络模型架构。从应用程序角度看,这将确保所有条目尽可能等同,性能的差异只归因于软件、硬件或规模不同。选择封闭组的网络模型、数据集和训练程序作为当今机器学习社区中的通用计算方法。另一方面,公开组不用于系统对比,而是用于鼓励网络模型架构和其算法方面的创新。

NVIDIA提交了7项测试类别中的6类测试结果,未提交强化学习测试,是因为这项测试基于战略游戏《GO》,该游戏最初在配备Tesla P100 GPU的服务器上进行开发。但目前情况是,服务器中包含重要的CPU组件,因此只能提供有限的扩展。

MLPerf分数的计算方法是,首先测量训练到达指定目标精度的时间,然后归一化为参考平台上未执行优化所需的时间。归一化的目的是将不同的基准测试转化为相似的分数量级,因为各基准测试所需的训练时间不同。训练时间和 MLPerf 分数均发布在 MLPerf 网站上,为此我们以分钟为单位公布训练时间。以下是 NVIDIA 达到收敛结果的时间,包括单节点和大规模的实现:

单节点封闭组 GPU 性能:

测试平台:DGX-2H – 双路Xeon Platinum 8174、1.5TB 系统 RAM、16 个 32GB Tesla V100 SXM-3 GPU通过NVSwitch互通。

大规模封闭组 GPU 性能:

测试平台:DGX-1V 集群,适用于图像分类和非重复性翻译。DGX-2H 集群,适用于重型物体检测和轻量型物体检测、重复性翻译。每个DGX-1V配备双路 Xeon E5-2698 V4、512GB 系统 RAM、8 个16GB Tesla V100 SXM-2 GPU。每个DGX-2H配备双路Xeon Platinum 8174、1.5TB系统RAM、16个32GB Tesla V100 SXM-3 GPU通过NVSwitch互通。

从以上数字可以看出:单个DGX-2节点能够在20分钟内完成多数工作负载。在大规模提交中,除1次测试外,都在7分钟内完成这些任务。与第二快的提交相比,GPU的交付速度提高达 5.3 倍。鉴于深度学习早期阶段的训练以天和周计算,上述完成时间证明我们在过去几年中取得了巨大进步。以下图表说明我们在训练 ResNet-50 模型方面取得的进步程度:

很显然,因为一系列平台创新,过去几年里性能提升巨大。这些创新包括:

NVLink 结构技术:Pascal 架构中引入NVLink允许GPU以300GB/秒的速度进行通信,比PCIe快近10倍。

Tensor Cores:Volta架构中引入Tensor Cores,加速了大型矩阵运算(这是AI的核心),在单次运算中执行混合精度矩阵乘法和累加计算。

NVSwitch:首款节点交换架构,在单个服务器节点中支持16个全互联GPU,并驱动全部8对GPU 分别以300GB/s的速度同时通信。这16个GPU 还可作为单个大型加速器,拥有0.5TB的统一内存空间和每秒2千万亿次的深度学习计算性能。

全栈优化:方法得当

NVIDIA的加速深度学习方法包含整套平台,并在硬件、软件和生态系统支持下持续创新。这种方法为深度学习社区带来巨大的优势,允许开发人员在任何提供商的云服务上使用任何热门框架,或者使用自己的GPU基础架构实现卓越的性能。NVIDIA向MLPerf提交的测试使用MXNet处理图像分类工作负载(ResNet-50),使用PyTorch提交涵盖翻译、对象检测和实例分割以及推荐器的工作负载。谷歌的TernsorFlow团队也展示了在谷歌云平台上使用NVIDIA V100 GPU处理ResNet-50的出色表现。

这些框架均可在NVIDIA GPU云(NGC)容器注册服务器中免费获取,并且每月更新一次,性能持续改进。此前发表的一篇博客中说明 11 月 18.11 版本的容器中对 NVIDIA 深度学习软件堆栈的最新改进。以下将简述这些改进:

MXNet

添加了 Horovod,改进跨多个节点训练的性能。

借助小批量 (<= 32) 优化大规模多节点训练的性能

有关更多详细信息,请参阅AWS上的博客,其中具体概述了MXNet的最新改进。

TensorFlow

更新了XLA图形编译器,优化了运算符融合以节省内存带宽,优化了Tensor Core数据布局。谷歌最近的一篇博客详细介绍了更具体的细节。

PyTorch

Apex中新添实用程序,并融合实施Adam优化器,通过减少冗余GPU设备内存通道、改进卷积翻译模型的层归一化性能以及为多进程和多节点训练改进DistributedDataParallel包装器,以提高性能。

cuDNN

多方面显著性改进了卷积性能,尤其在每个GPU 小批量处理数据之时;优化了Tensor Core的Persistent RNNs算法。

DALI

对象检测模型所需的各种图像预处理例程提速,现在它们可在GPU上运行,而无需CPU。

结束语

NVIDIA对第一组公布结果感到深受鼓舞,并对在AI社区中与各个框架开发团队的合作深感自豪。MLPerf作为一种工具,允许AI平台制造商使用一组商定的用例来比较他们的产品,我们将继续与MLPerf联盟合作,并随AI工作负载的进展,迭代这一基准。以上这些技术现已面向AI开发者社区开放,可从我们的 NGC容器注册服务器获取。敬请关注我们的开发者博客更新,了解有关 TensorFlow、PyTorch和MXNet框架中的具体优化的更多信息。www.mlperf.org 上提供MLPerf基准模型,可根据相关基准目录中的自述文件运行。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5732

    浏览量

    110360
  • 机器学习
    +关注

    关注

    67

    文章

    8571

    浏览量

    137457
  • 自然语言
    +关注

    关注

    1

    文章

    293

    浏览量

    14049
  • MLPerf
    +关注

    关注

    0

    文章

    37

    浏览量

    1000

原文标题:NVIDIA 在全球首个全行业 AI 基准测试中拔得头筹

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    HCT耐电流测试方法及行业规范

    HCT(HighCurrentTest)耐电流测试是电子制造领域,特别是印制电路板(PCB)生产中一关键的可靠性测试。其主要目的是评估电气设备或PCB在承受高电流条件下的性能和稳定性
    的头像 发表于 05-18 10:06 293次阅读
    HCT耐电流<b class='flag-5'>测试</b>方法及<b class='flag-5'>行业</b>规范

    如何评估忆联Gen5 eSSD UH812a在AI场景中的性能表现

    随着AI大模型进入万亿参数时代,传统存储性能测试已难以真实反映存储系统在实际训练场景中对成本与效率的核心影响。为此,全球权威AI基准测评组织MLCommons正式推出MLPerf Storage
    的头像 发表于 02-05 09:56 1526次阅读
    如何评估忆联Gen5 eSSD UH812a在AI场景中的性能表现

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的
    的头像 发表于 02-04 14:44 794次阅读

    时间基准的核心力量:低相噪铷原子振荡时钟的多领域应用解析

    够为通信系统提供统一的时间基准,保障多设备协同工作的协调性,助力通信网络向更高速度、更高容量、更高可靠性演进。二、航天航空:护航极端环境下的精准操控 航天航空领域的每一任务都关乎生命安全与国
    发表于 01-16 10:20

    艾德克斯发布全新IT9330电池充放电测试软件

    ITECH艾德克斯正式发布了全新的IT9330电池充放电测试软件。作为在电池测试解决方案领域的又一力作,该软件秉持“专业深度与用户友好”的设计哲学,旨在为电池企业、检测机构及研发团队提
    的头像 发表于 01-04 09:59 2037次阅读

    重磅发布 | 泰克(Tektronix)推出全新7系列DPO示波器与MP5000系列模块化精密测试

    重磅新品发布2025年9月16日,俄勒冈州比弗顿时间今天是泰克科技(Tektronix)发展史上的里程碑时刻。我们正式发布两突破性成果——全新7系列DPO示波器与MP5000系列模块化精密
    的头像 发表于 09-19 17:17 1725次阅读
    重磅发布 | 泰克(Tektronix)推出<b class='flag-5'>全新</b><b class='flag-5'>7</b>系列DPO示波器与MP5000系列模块化精密<b class='flag-5'>测试</b>

    泰克科技推出全新7系列DPO示波器与MP5000系列模块化精密测试系统

    今天是泰克科技(Tektronix)发展史上的里程碑时刻。我们正式发布两突破性成果——全新7系列DPO示波器与MP5000系列模块化精密测试系统,它们将重新定义
    的头像 发表于 09-17 09:13 2399次阅读

    泰凌微电子荣获蓝牙技术联盟殊荣

    在蓝牙技术联盟(Bluetooth SIG)2025年的“Awards & Recognition”评选中,泰凌微电子凭借其在蓝牙新标准互操作性原型(IOP)测试中的卓越表现,荣获“杰出
    的头像 发表于 09-16 16:10 1263次阅读

    全屋WiFi强电款WiFi6 86面板一站式测试解决方案

    WiFi6 86面板一站式测试方案,以精益生产逻辑重构测试流程,破解行业痛点,为智能硬件测试环节的提效、降本、安全升级提供全新思路 。 一、
    发表于 08-21 14:49

    RWC2500A Plus音频广播测试领域全新解决方案

    在音频广播领域测试设备是确保通信质量、优化广播发射机性能以及排查故障的关键工具。FMAB 作为一款经典的音频广播测试设备,凭借其稳定的性能和广泛的应用场景,长期以来在行业内占据重要地
    的头像 发表于 08-18 09:42 4090次阅读
    RWC2500A Plus音频广播<b class='flag-5'>测试</b><b class='flag-5'>领域</b><b class='flag-5'>全新</b>解决方案

    登顶!华为OceanStor A系列存储再登MLPerf全球性能之巅

    2025年8月5日,全球权威AI性能评测组织公布最新MLPerf® Storage v2.0基准测试结果,华为OceanStor A系列存储联合济南超级计算技术研究院(简称“JNIST
    的头像 发表于 08-07 14:02 991次阅读

    爱立信携手Telstra创下全新行业里程碑

    爱立信近日携手Telstra创下全新行业里程碑,在悉尼北部50多个商用5G-A站点成功部署自动载波聚合技术,使Telstra成为首个在商用网络环境中应用该功能的运营商。
    的头像 发表于 08-06 16:45 1.7w次阅读

    西部数据通过 MLPerfâ Storage V2 测试结果,验证其真实场景下的AI存储性能

    。西部数据(NASDAQ: WDC)近日公布MLPerf® Storage V2 测试结果,验证了旗下 OpenFlex™ Data24 4000 系列 NVMe-oF™ 存储平台
    发表于 08-05 18:15 1148次阅读

    横扫葵花奖14大奖,德施曼刷新行业记录!领航AI时代!

    2025年7月9日,中国建博会现场——全球智能家居最高荣誉“第九届葵花奖颁奖盛典”圆满落幕。德施曼凭借颠覆性的技术突破与全球化的品牌势能,一举斩获14顶级大奖,成为行业获奖最多的品牌,包揽最高荣誉
    的头像 发表于 07-10 21:49 1697次阅读
    横扫葵花奖14<b class='flag-5'>项</b>大奖,德施曼刷<b class='flag-5'>新行业</b>记录!领航AI时代!

    慧通测控的协作机器人有哪些测试项目?

    在智能制造与自动化浪潮席卷全球的当下,协作机器人(Cobots)以其能够与人类安全、高效协同作业的特性,成为工业、医疗、物流等领域的 “新宠”。然而,要确保协作机器人在复杂场景中稳定运行,一系列严格且全面的
    的头像 发表于 06-05 14:30 765次阅读
    慧通测控的协作<b class='flag-5'>机器</b>人有哪些<b class='flag-5'>测试</b>项目?