0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MLPerf 联盟公布7项测试构成了当前机器学习领域的全新行业基准测试

NVIDIA英伟达企业解决方案 来源:lq 2018-12-24 14:12 次阅读

近日,MLPerf 联盟公布了其7项测试的首批结果,此7项测试构成了当前机器学习领域的全新行业基准测试。NVIDIA参与了其中6个类别的测试,在这6项测试中,从单节点测试到大规模测试,NVIDIA平台的测试结果都遥遥领先,证明了NVIDIA平台方法在加速机器学习领域的强大实力。

MLPerf 联盟的宗旨是“ 致力于确立一套通用的基准测试,助力机器学习 (ML) 领域跨移动设备和云服务测量系统的训练和推理性能。”NVIDIA 一直以来都是 MLPerf 联盟的主要成员,与其他成员一同积极构建、完善和发展首套商定一致的工作负载,以便可以跨用例范围地直接比较各平台性能。

作为快速成长的新兴市场,机器学习领域缺少用来评估平台性能的行业测试基准。虽然 ResNet-50 等网络经常用作训练和推理的性能代理,但其仍是一套主要基于图像任务的单一CNN,不能提供机器学习平台的完整性能图景。机器学习还包含许多其他用例,例如语音、翻译和推荐系统等。

认识 MLPerf

MLPerf 的关键设计目标之一是工作负载的多样化。因此,它涵盖了对图像和自然语言的使用,以及推荐系统和强化学习等,共 7 项测试。目前,这些工作负载仅可用于测试训练,未来版本的工作负载将计划以推理为重点。

NVIDIA最初致力于研究封闭组,旨在针对ML训练系统(包括硬件和软件)提供有价值的对比。为实现这一目标,封闭组要求所有提交成果均使用相同的数据准备和训练程序来训练相同的神经网络模型架构。从应用程序角度看,这将确保所有条目尽可能等同,性能的差异只归因于软件、硬件或规模不同。选择封闭组的网络模型、数据集和训练程序作为当今机器学习社区中的通用计算方法。另一方面,公开组不用于系统对比,而是用于鼓励网络模型架构和其算法方面的创新。

NVIDIA提交了7项测试类别中的6类测试结果,未提交强化学习测试,是因为这项测试基于战略游戏《GO》,该游戏最初在配备Tesla P100 GPU的服务器上进行开发。但目前情况是,服务器中包含重要的CPU组件,因此只能提供有限的扩展。

MLPerf分数的计算方法是,首先测量训练到达指定目标精度的时间,然后归一化为参考平台上未执行优化所需的时间。归一化的目的是将不同的基准测试转化为相似的分数量级,因为各基准测试所需的训练时间不同。训练时间和 MLPerf 分数均发布在 MLPerf 网站上,为此我们以分钟为单位公布训练时间。以下是 NVIDIA 达到收敛结果的时间,包括单节点和大规模的实现:

单节点封闭组 GPU 性能:

测试平台:DGX-2H – 双路Xeon Platinum 8174、1.5TB 系统 RAM、16 个 32GB Tesla V100 SXM-3 GPU通过NVSwitch互通。

大规模封闭组 GPU 性能:

测试平台:DGX-1V 集群,适用于图像分类和非重复性翻译。DGX-2H 集群,适用于重型物体检测和轻量型物体检测、重复性翻译。每个DGX-1V配备双路 Xeon E5-2698 V4、512GB 系统 RAM、8 个16GB Tesla V100 SXM-2 GPU。每个DGX-2H配备双路Xeon Platinum 8174、1.5TB系统RAM、16个32GB Tesla V100 SXM-3 GPU通过NVSwitch互通。

从以上数字可以看出:单个DGX-2节点能够在20分钟内完成多数工作负载。在大规模提交中,除1次测试外,都在7分钟内完成这些任务。与第二快的提交相比,GPU的交付速度提高达 5.3 倍。鉴于深度学习早期阶段的训练以天和周计算,上述完成时间证明我们在过去几年中取得了巨大进步。以下图表说明我们在训练 ResNet-50 模型方面取得的进步程度:

很显然,因为一系列平台创新,过去几年里性能提升巨大。这些创新包括:

NVLink 结构技术:Pascal 架构中引入NVLink允许GPU以300GB/秒的速度进行通信,比PCIe快近10倍。

Tensor Cores:Volta架构中引入Tensor Cores,加速了大型矩阵运算(这是AI的核心),在单次运算中执行混合精度矩阵乘法和累加计算。

NVSwitch:首款节点交换架构,在单个服务器节点中支持16个全互联GPU,并驱动全部8对GPU 分别以300GB/s的速度同时通信。这16个GPU 还可作为单个大型加速器,拥有0.5TB的统一内存空间和每秒2千万亿次的深度学习计算性能。

全栈优化:方法得当

NVIDIA的加速深度学习方法包含整套平台,并在硬件、软件和生态系统支持下持续创新。这种方法为深度学习社区带来巨大的优势,允许开发人员在任何提供商的云服务上使用任何热门框架,或者使用自己的GPU基础架构实现卓越的性能。NVIDIA向MLPerf提交的测试使用MXNet处理图像分类工作负载(ResNet-50),使用PyTorch提交涵盖翻译、对象检测和实例分割以及推荐器的工作负载。谷歌的TernsorFlow团队也展示了在谷歌云平台上使用NVIDIA V100 GPU处理ResNet-50的出色表现。

这些框架均可在NVIDIA GPU云(NGC)容器注册服务器中免费获取,并且每月更新一次,性能持续改进。此前发表的一篇博客中说明 11 月 18.11 版本的容器中对 NVIDIA 深度学习软件堆栈的最新改进。以下将简述这些改进:

MXNet

添加了 Horovod,改进跨多个节点训练的性能。

借助小批量 (<= 32) 优化大规模多节点训练的性能

有关更多详细信息,请参阅AWS上的博客,其中具体概述了MXNet的最新改进。

TensorFlow

更新了XLA图形编译器,优化了运算符融合以节省内存带宽,优化了Tensor Core数据布局。谷歌最近的一篇博客详细介绍了更具体的细节。

PyTorch

Apex中新添实用程序,并融合实施Adam优化器,通过减少冗余GPU设备内存通道、改进卷积翻译模型的层归一化性能以及为多进程和多节点训练改进DistributedDataParallel包装器,以提高性能。

cuDNN

多方面显著性改进了卷积性能,尤其在每个GPU 小批量处理数据之时;优化了Tensor Core的Persistent RNNs算法。

DALI

对象检测模型所需的各种图像预处理例程提速,现在它们可在GPU上运行,而无需CPU。

结束语

NVIDIA对第一组公布结果感到深受鼓舞,并对在AI社区中与各个框架开发团队的合作深感自豪。MLPerf作为一种工具,允许AI平台制造商使用一组商定的用例来比较他们的产品,我们将继续与MLPerf联盟合作,并随AI工作负载的进展,迭代这一基准。以上这些技术现已面向AI开发者社区开放,可从我们的 NGC容器注册服务器获取。敬请关注我们的开发者博客更新,了解有关 TensorFlow、PyTorch和MXNet框架中的具体优化的更多信息。www.mlperf.org 上提供MLPerf基准模型,可根据相关基准目录中的自述文件运行。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4592

    浏览量

    101706
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130556
  • 自然语言
    +关注

    关注

    1

    文章

    269

    浏览量

    13203
  • MLPerf
    +关注

    关注

    0

    文章

    33

    浏览量

    599

原文标题:NVIDIA 在全球首个全行业 AI 基准测试中拔得头筹

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    广立微推出全新T4000 Max半导体参数测试

    近日,广立微电子宣布推出全新T4000 Max半导体参数测试机,该测试机配置100pin,并支持多通道并行测试,专为那些需要执行多项测试任务
    的头像 发表于 03-13 09:23 359次阅读

    CYW43438需要新增增强测试,请问如何测试SRRC?

    SRCNEW,增强了一也就是自适应,实现了跑流,测试设备干扰规避开。 需要新增增强测试,请问如何测试SRRC? 客户:IDPRT 操作系
    发表于 03-01 08:46

    通用CPU性能基准测试的研究现状

    经过持续迭代升级,TPC已发展成为能够满足多种应用场景性能测试需求的基准测试簇,根据测试场景和测试事务的不同,可将 TPC性能
    发表于 02-20 10:22 230次阅读
    通用CPU性能<b class='flag-5'>基准</b><b class='flag-5'>测试</b>的研究现状

    广立微推出全新晶圆级可靠性测试设备

    杭州广立微电子股份有限公司近日推出了一款全新的晶圆级可靠性(Wafer Level Reliability WLR)测试设备,该设备具备智能并行测试功能,能够显著缩短测试时间,提高工作
    的头像 发表于 12-28 15:02 437次阅读

    【先楫HPM5361EVK开发板试用体验】性能测试基准---Dhrystone (3)

    运算性能、内存访问性能等其他方面的性能。因此,在实际应用中,通常需要结合其他基准测试程序和实际应用场景来综合评估计算机处理器的性能。 总的来说,Dhrystone基准测试程序是计算机性
    发表于 12-20 22:14

    高精度基准电压源测试方法有哪些

    高精度基准电压源是一种能够产生稳定、可控的电压信号的设备,广泛应用于科学研究、工业检测和仪器仪表校准等领域。为了保证电压信号的准确性和可靠性,在使用高精度基准电压源进行测试时,需要采取
    的头像 发表于 11-27 17:11 396次阅读
    高精度<b class='flag-5'>基准</b>电压源<b class='flag-5'>测试</b>方法有哪些

    铝带拉力测试机:测试方法与应用领域

    铝带拉力测试机:测试方法与应用领域?|深圳磐石测控
    的头像 发表于 10-26 09:09 2342次阅读
    铝带拉力<b class='flag-5'>测试</b>机:<b class='flag-5'>测试</b>方法与应用<b class='flag-5'>领域</b>

    NVIDIA Grace Hopper超级芯片横扫MLPerf推理基准测试

    Hopper超级芯片首次亮相 MLPerf 行业基准测试,其运行了所有数据中心推理测试,进一步扩大了NVIDIA H100 Tensor
    发表于 09-13 09:45 165次阅读
    NVIDIA Grace Hopper超级芯片横扫<b class='flag-5'>MLPerf</b>推理<b class='flag-5'>基准</b><b class='flag-5'>测试</b>

    NVIDIA Grace Hopper 超级芯片横扫 MLPerf 推理基准测试

    超级芯片 首次亮相 MLPerf 行业基准测试,其运行了所有数据中心推理测试,进一步扩大了 NVIDIA H100 Tensor Core
    的头像 发表于 09-12 20:40 276次阅读

    最新MLPerf v3.1测试结果认证,Gaudi2在GPT-J模型上推理性能惊人

    英特尔产品在全新MLCommons AI推理性能测试中尽显优势 今日,MLCommons公布针对 60 亿参数大语言模型及计算机视觉与自然语言处理模型GPT-J的 MLPerf推理v3
    的头像 发表于 09-12 17:54 233次阅读
    最新<b class='flag-5'>MLPerf</b> v3.1<b class='flag-5'>测试</b>结果认证,Gaudi2在GPT-J模型上推理性能惊人

    离子平衡测试仪器的构成

    在电场中的运动来确定正负离子的平衡状态,而电阻法则是通过测量离子在电阻层中的电流来判断离子的平衡情况。 离子平衡测试仪器一般由以下几个组成部分构成: 1. 测试仪表:包括显示屏、控制按钮等,用于显示和控制
    的头像 发表于 09-04 09:29 535次阅读
    离子平衡<b class='flag-5'>测试</b>仪器的<b class='flag-5'>构成</b>

    LSI MegaRAID控制器基准测试提示

    电子发烧友网站提供《LSI MegaRAID控制器基准测试提示.pdf》资料免费下载
    发表于 08-24 09:53 0次下载
    LSI MegaRAID控制器<b class='flag-5'>基准</b><b class='flag-5'>测试</b>提示

    由浪潮云海SPEC Cloud基准测试引发的&quot;一云多芯&quot;之辨

    这是一次具有开创性和引领性意义的测试测试的主角是浪潮云海OS,其典型性表现在,完成了全球唯一面向"一云多芯"场景的SPEC Cloud基准测试
    的头像 发表于 07-20 19:08 835次阅读
    由浪潮云海SPEC Cloud<b class='flag-5'>基准</b><b class='flag-5'>测试</b>引发的&quot;一云多芯&quot;之辨

    《基于“矿板”低成本学习Zynq系列》之六-DDR测试

    《基于“矿板”低成本学习Zynq系列》之六-DDR测试
    的头像 发表于 07-19 19:19 1971次阅读
    《基于“矿板”低成本<b class='flag-5'>学习</b>Zynq系列》之六-DDR<b class='flag-5'>测试</b>

    热阻湿阻测试仪的应用领域

    的舒适性能的测试,纺织面料人体舒适度测试等。 热阻湿阻测试仪的应用领域 热阻湿阻测试仪广泛应用于以下领域
    的头像 发表于 06-29 14:49 262次阅读
    热阻湿阻<b class='flag-5'>测试</b>仪的应用<b class='flag-5'>领域</b>