0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达地位不保?BERT训练吞吐量提升4.7倍

lPCU_elecfans 来源:电子发烧友网 作者:电子发烧友网 2022-07-06 11:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)推理和训练作为AI/ML关键的一环,无论是通用的GPU,还是专用的推理/训练加速器,都想在各大流行模型和机器学习库上跑出优秀的成绩,以展示自己的硬件实力。业界需要一个统一的跑分标准,为此,各大厂商在2018年根据业内指标联合打造的MLPerf就承担了这一重任。

不过随着时间的推移,MLPerf几乎已经成了英伟达一家独大的跑分基准,这家GPU厂商凭借自己的产品几乎统治着整个AI硬件市场。这不,近日公布的MLPerf Training 2.0,就将这些AI硬件公司和服务器厂商提交的具体AI训练成绩公布了出来,其中既有一些新晋成员,也有一些出人意料的结果。

谷歌的反超这次跑分结果中,最惊艳的还是谷歌的TPU v4系统,谷歌凭借这一架构的系统,在五个基准测试中都打破了性能记录,平均训练速度比第二名的英伟达A100系统快了1.42倍左右,哪怕是与自己在1.0测试下的成绩相比,也提升了1.5倍。

能实现这样的成绩自然离不开谷歌自己的TPU芯片设计,谷歌的每个TPU v4 Pod都由4096个芯片组成,且带宽做到了6Tbps。除此之外,谷歌有着丰富的用例经验,相较其他公司而言,谷歌是唯一一个在搜索和视频领域都已经大规模普及AI/ML应用的。

00f1a358-fcb8-11ec-ba43-dac502259ad0.png

TPU v4与A100的对比 / 谷歌

不过谷歌与英伟达并不是直接竞争关系,他们对标的还是使用英伟达GPU系统的云服务公司,比如微软的Azure,谷歌也为此特地做了成本对比。如上图所示,在BERT模型的训练中,4096个TPU v4芯片与Azure 4096个A100芯片对比,谷歌的方案可以节省35%,ResNet模型的训练下更是可以节省近50%。

不过以上的成绩在所有8项测试中也只是和英伟达平分秋色,而且随着系统规模的不同,其结果或许会有更多的变化。再者,谷歌的TPU仅限于其自己的云服务,所以总的来说并不算一个通用方案,至少微软和亚马逊这样的竞争对手肯定是用不上。

英伟达地位不保?除了谷歌之外,还取得了不错的成绩的就是英特尔旗下Habana Labs的Gaudi2训练加速器。这款今年5月推出的处理器,从上一代的16nm换成了台积电7nm,Tensor处理器内核的数量因此增加了两倍,使其在ResNet-50的训练吞吐量上实现了3倍提升,BERT的训练吞吐量提升了4.7倍。

在与英伟达提交的A100-80GB GPU系统成绩相比,Gaudi2在ResNet-50上的训练时间缩短了36%;与戴尔提交的A100-40GB GPU系统成绩相比,Gaudi2在BERT上的训练时间缩短了45%。

从结果来看,已经有不少厂商的AI硬件已经可以在训练上对标甚至超过英伟达的GPU生态了,但这并不代表全部机器学习训练领域。比如在测试中,厂商是不需要将每个项目的测试结果都提交上去的。从这个角度来看,RetinaNet轻量型目标检测、COCO重型目标检测、语音识别数据集Librispeech和强化学习Minigo这几个项目中,只有基于英伟达GPU的系统提交了成绩。

不仅如此,如果你看所有提交成绩的服务器和云服务公司来看,他们用到的CPU或是AMD的EPYC处理器,或是英特尔的Xeon处理器,但加速器却是几乎清一色的英伟达A100。这也证明了在百度、戴尔、H3C、浪潮和联想这些厂商的眼中,英伟达的GPU依然是最具竞争力的那个。

不可小觑的软件还有一点需要指出,那就是以上都是封闭组的成绩,他们所用到的都是标准的机器学习库,比如TensorFlow 2.8.0和Pytorch 22.04等。而开放组则不受此限制,可以用到他们自己定制的库或优化器,这一组中三星和Graphcore都根据不同的软件配置提交了成绩,但最亮眼的还是MosaicML。

01187fc8-fcb8-11ec-ba43-dac502259ad0.png

Composer在ResNet-50下的训练时间对比 / MosaicML

这家公司所用的加速器硬件同样是和诸多提交者一样的英伟达A100-SXM-80GB GPU,但他们用到的是自己用Pytorch编写的库Composer。这家公司于今年4月推出了Composer,并声称可让模型训练速度提升2到4倍。在MLPerf Training 2.0的跑分中,使用MosaicML Composer的对比组在ResNet训练速度上实现了近4.6倍的提升。不过Composer虽说支持任何模型,但这个提速的表现目前还是体现在ResNet上比较明显,所以本次也并没有提交其他模型下的成绩。

考虑到英特尔等公司为了提升其软件开发实力,已经在收购Codeplay这样的软件开发公司,MosaicML作为刚公开不久的初创公司,创始人又是英特尔的前AI实验室骨干,如果能在未来展现出更优秀的成绩,说不定也会被英伟达这样的公司看中。

结语英伟达常年在MLPerf上霸榜,也有不少人认为MLPerf跑分成了英伟达的宣传工具,然而事实是英特尔、谷歌等同样重视AI的公司也将其视为一个公平的基准测试,而且MLPerf还有同行评审环节,进一步验证测试结果。从以上结果来看,AI训练硬件上的创新仍未停止,无论是GPU、TPU还是IPU都在推陈出新,但跑分结果并不代表任何用例都能达到高性能,还需要厂商自己去调校模型和软件才能达成最好的成绩。

原文标题:AI硬件反超英伟达?跑分来看尚不现实

文章出处:【微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112191
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137422
  • TPU
    TPU
    +关注

    关注

    0

    文章

    176

    浏览量

    21734
  • 英伟达
    +关注

    关注

    23

    文章

    4128

    浏览量

    99776

原文标题:AI硬件反超英伟达?跑分来看尚不现实

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RDMA设计65:如何根据包吞吐量性能权衡设计?

    吞吐量是评估零散数据传输性能的核心指标,包吞吐量越高,表明系统面临大量零散传输请求时拥有更强的数据传输能力和更高的包处理能力。因此这里在不同的队列数量配置下使用包吞吐量测试程序进行性能测试 ,选取
    发表于 05-12 10:36

    RDMA设计64:数据吞吐量性能测试分析

    对 RoCE v2 高速传输系统进行数据吞吐量、包吞吐量及传输延迟性能测试,并对测试结果进行解读与分析。 数据吞吐量是评估连续数据传输性能的核心指标,数据吞吐量越高,表明系统面临大量数
    发表于 05-09 07:54

    使用 LPC55S69 和 MCUX 驱动程序的 CDC 应该实现什么样的吞吐量

    ,使用 LPC55S69 和 MCUX 驱动程序的 CDC 应该实现什么样的吞吐量? 特别是,我想知道 CDC 驱动程序是否针对性能进行了优化,或者它是否设计为将复杂性降至最低。我试图避免切换到高速 USB
    发表于 04-16 09:20

    AD7739:高精度、高吞吐量模拟前端ADC的深度解析

    AD7739:高精度、高吞吐量模拟前端ADC的深度解析 在电子工程师的日常工作中,高精度、高吞吐量的模拟前端ADC是实现高质量信号采集和处理的关键组件。今天,我们就来深入了解一下ADI公司
    的头像 发表于 04-07 17:20 543次阅读

    AD7731:低噪声、高吞吐量的24位Sigma - Delta ADC

    AD7731:低噪声、高吞吐量的24位Sigma - Delta ADC 在电子工程师的日常设计中,一款性能优异的模数转换器(ADC)至关重要。今天我们就来详细探讨一下Analog Devices
    的头像 发表于 04-07 11:45 320次阅读

    高精度高吞吐量ADC——AD7732的特性与应用分析

    高精度高吞吐量ADC——AD7732的特性与应用分析 在当今的工业和自动化领域,高精度的模拟信号采集和处理至关重要。AD7732作为一款高性能的24位Σ - Δ ADC,为工程师们在设计高分辨率
    的头像 发表于 04-01 16:10 173次阅读

    欧洲快递行业巨头部署全新Matrix 830/930系统以应对高吞吐量业务

    迅速的市场认可,有力地证实了该新产品的战略意义。 该决定是在经过严格的基准测试、性能对比以及真实运行条件下的现场验证后做出的。在评估了其他配置方案后,客户确认新款 Matrix 830/930 是其高吞吐量物流环境下的最优解决方案——该环境要求吞吐量保持恒定且不容许
    的头像 发表于 03-17 16:46 888次阅读

    罗德与施瓦茨携手瑞昱展示蓝牙低功耗高数据吞吐量测试解决方案

    罗德与施瓦茨(以下简称“R&S”)与瑞昱半导体已成功验证了业界首个针对即将推出的蓝牙 低功耗高数据吞吐量(HDT)功能的测试解决方案。双方将联合在2026年巴塞罗那世界移动通信大会(以下简称
    的头像 发表于 03-09 13:57 675次阅读
    罗德与施瓦茨携手瑞昱展示蓝牙低功耗高数据<b class='flag-5'>吞吐量</b>测试解决方案

    用“分区”来面对超大数据集和超大吞吐量

    分区(partitions) 也被称为 分片(sharding),通常采用对数据进行分区的方式来增加系统的 可伸缩性,以此来面对非常大的数据集或非常高的吞吐量,避免出现热点。
    的头像 发表于 12-30 16:40 337次阅读
    用“分区”来面对超大数据集和超大<b class='flag-5'>吞吐量</b>

    KIOXIA推出全新开源软件,提升RocksDB中闪存存储的寿命和性能

    放大系数(WAF)降低了约46%,吞吐量提升至MDRAID性能的8.221。在2驱动器镜像配置中,WAF降至约三分之一,吞吐量则达到MDRAID的1.45
    的头像 发表于 10-13 11:15 565次阅读

    今日看点:苹果认证中国快充品牌遭美调查;英伟拟向OpenAI投资最高1000亿美元

    系统建设并部署至少10吉瓦的人工智能(AI)数据中心,用于训练和运行下一代模型。这一耗电量相当于800万户美国家庭的用电量。 英伟CEO黄仁勋曾表示,10吉瓦相当于400万至500万块图形处理器(GPU),约等于
    发表于 09-23 10:09 529次阅读

    使用罗德与施瓦茨CMX500的吞吐量应用层测试方案

    5G NR(New Radio)吞吐量应用层测试是评估5G网络性能的一个重要方面,它主要关注的是在实际应用条件下,用户能够体验到的数据传输速率。这种测试通常包括了对下行链路和上行链路的吞吐量进行测量,以确保网络可以满足各种应用场景的需求,比如高清视频流、虚拟现实、增强现实
    的头像 发表于 09-02 13:56 8264次阅读
    使用罗德与施瓦茨CMX500的<b class='flag-5'>吞吐量</b>应用层测试方案

    2天40%涨停!深圳传感器公司豪恩汽电 与英伟合作

    的飞跃。与上一代Jetson Orin相比,Jetson Thor 的 AI 计算性能提升多达 7.5 ,能效提升多达3.5 ,CPU性能提升
    的头像 发表于 08-28 19:20 3928次阅读
    2天40%涨停!深圳传感器公司豪恩汽电 与<b class='flag-5'>英伟</b><b class='flag-5'>达</b>合作

    CY7C65211 作为 SPI 从机模式工作时每秒的最大吞吐量是多少?

    CY7C65211 作为 SPI 从机模式工作时每秒的最大吞吐量是多少? 有实际的测试数据吗?
    发表于 05-27 07:38