0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI训练势起,GPU要让位了?

来源:电子发烧友网 作者:周凯扬 2021-12-18 06:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)人工智能在进化的过程中,最不可或缺的便是模型和算力。训练出来的通用大模型省去了重复的开发工作,目前不少大模型都为学术研究和AI开发提供了方便,比如华为的盘古、搜狗的BERTSG、北京智源人工智能研究院的悟道2.0等等。

那么训练出这样一个大模型需要怎样的硬件前提?如何以较低的成本完成自己模型训练工作?这些都是不少AI初创企业需要考虑的问题,那么如今市面上有哪些训练芯片是经得起考验的呢?我们先从国外的几款产品开始看起。

英伟达A100

英伟达的A100可以说是目前AI训练界的明星产品,A100刚面世之际可以说是世界上最快的深度学习GPU。尽管近来有无数的GPU或其他AI加速器试图在性能上撼动它的地位,但综合实力来看,A100依然稳坐头把交椅。

A100 GPU / 英伟达A100可是英伟达特推出的首个7nm GPU,在826mm2的芯片大小上铺满了542亿个晶体管。要知道,其消费级GPU虽然同样采用安培架构,但仍在使用三星的8nm制程。至于算力什么的,GPU在单个或多个处理器配置上都有着不俗的优势,甚至还能凭借英伟达自己的互联技术实现更高的带宽。具体的算力数据我们也已提过多次,我们这次讲的是AI训练,自然是要比训练上的表现,这里先留个悬念。 性能虽高,但使用A100的成本可并不便宜。今年10月,微软和英伟达推出了迄今为止训练最强大的生成语言模型Megatron-Turing Natural Language Generation(MT-NLG),拥有5300亿个参数。如此强大的模型究竟是如何训练出来的呢?答案是560个英伟达DGX A100服务器,每个服务器都内置了8 x A100 80GB GPU,训练出这个模型的造价最低也要在百万美元以上。 如此看来,难不成这些模型只能靠购置昂贵的GPU,或是靠花钱如流水一般的GPU服务器来训练了?并非如此。

英特尔Gaudi和Ponte Vecchio

19年12月,英特尔收购了以色列的Habana Labs,将其旗下的AI加速器产品线纳入囊中。Habana Labs目前推出了用于推理的Goya处理器和用于训练的Gaudi处理器。尽管Habana Labs已经隶属英特尔,但现有的产品仍然基于台积电的16nm制程,传言称其正在开发的Gaudi2将用上台积电的7nm制程。 目前Gaudi已经用于亚马逊云服务AWS的EC2 DL1训练实例中,该实例选用了AWS定制的英特尔第二代Xeon可扩展处理器,最多可配置8个Gaudi处理器,每个处理器配有32GB的HBM内存,400Gbps的网络架构加上100Gbps的互联带宽,并支持4TB的NVMe存储。

Gaudi与A100在ResNet-50和BERT训练成本上的对比 / Habana Labs Habana Labs和AWS共同宣称,Gaudi的方案可以提供云端深度学习模型训练的最佳性价比,与最新的GPU实例相比性价比高出40%。Habana Labs给出了直接的价格对比,在对比AWS EC2 P4d实例(8个英伟达A100 GPU)时,8个Gaudi处理器的每小时价格为13.11美元,比前者低了60%。针对特定的模型,Habana Labs也对A100和V100方案进行了对比,比如利用Tensorflow实现ResNet50图像处理(BF16/FP16)时,Gaudi处理每张图片的成本要比A100低46%,更是比V100低了61%。 Habana Labs为Gaudi定义的用例主要在物体识别/分割、图像分类和自然语言处理器方面的深度学习模型训练。比如生产中的故障检测、医疗中的2D/3D扫描和医学成像自动驾驶中的物体分割以及文本情感分析等等。 我们都知道在超算领域中,英特尔在主要处理器上的份额与出场率都比较高,加速器上则依旧是英伟达和AMD的GPU占优,不过Habana Labs的Gaudi其实已经开始发力,比如圣地亚哥超级计算中心SDSC)打造的AI超算Voyager。这里的Voyager可不是TOP500新晋第十名的Voyager-EUS2,而是SDSC打造的一款试验性超算,专注于高性能高效率的AI运算,该超算集成了336个Gaudi训练处理器和16个Goya推理处理器。

A100与Ponte Vecchio在ResNet-50 v1.5上的训练表现对比 / 英特尔 不过英特尔似乎也不打算放弃GPU这条路,甚至打算走的更远一点。今年的架构日上,英特尔为其Ponte Vecchio Xe HPC GPU透露了更多的细节。英特尔拿出了ResNet-50单个GPU处理图像的训练结果对比,Ponte Vecchio获得了超过3400张图片每秒的成绩,而英伟达单张A100 GPU的成绩为2963张图片每秒。根据Habana Labs于19年六月公布的数据,单个Gaudi处理器的成绩为1650张图片每秒。 单从结果来看,英特尔和英伟达两者打造的旗舰GPU在模型训练上还是很有优势的,而且还能承担推理工作负载,Gaudi的性能确实更适合高性价比的专用训练场景。依小编的观点来看,Ponte Vecchio更像是英特尔为HPC+AI准备的一张GPU,明年开始出货后我们说不定会在超算上看到更多应用。而Gaudi更像是为云服务和数据中心准备的训练处理器,让开发者在可负担的价格下享受到优秀的性能。更不用说英特尔也开始为FPGA(Stratix 10 NX)在相同的方向上铺路,英特尔可以说是为AI开发者提供了多个选择。

亚马逊Trainium

最后我们以亚马逊的训练芯片收尾,亚马逊提供的服务器实例可以说是最多样化的,也包含了以上提到的A100和Gaudi。亚马逊作为云服务巨头,早已开始部署自己的服务器芯片生态,不仅在今年推出了第三代Graviton服务器处理器,也正式发布了去年公开的训练芯片Trainium,并推出了基于该芯片的Trn1实例。

Trn1实例的参数 / 亚马逊 Trn1的计算引擎频率达到了3GHz,峰值内存带宽为13.1TB/s,FP32的算力为840TFLOPS,最出色的数据还是800Gbps的网络带宽,亚马逊甚至还提供了一个1.6TB。再次重申,这些都只是纸面参数而已,实际表现才是最重要的。

亚马逊训练实例对比 / 亚马逊 据亚马逊发布的数据,同样是在两周内完成GPT-3模型的训练,需要600个8 x V100 GPU的实例,或是128个8xA100 GPU的实例,但若用上16 x Trainium的实例,则只要96个。亚马逊称Trn1为云端成本效率最高的实例,这一点还真没说错。

小结

GPU一时半会不会跌落AI训练的神坛,但其他训练芯片的推陈出新证明了他们面对A100和Ponte Vecchio这种大规模芯片同样不惧,甚至还有自己独到的优势。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134447
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296509
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Isaac Lab多GPU多节点训练指南

    NVIDIA Isaac Lab 是一个适用于机器人学习的开源统一框架,基于 NVIDIA Isaac Sim 开发,其模块化高保真仿真适用于各种训练环境,可提供各种物理 AI 功能和由 GPU 驱动的物理仿真,缩小仿真与现实世
    的头像 发表于 09-23 17:15 1970次阅读
    NVIDIA Isaac Lab多<b class='flag-5'>GPU</b>多节点<b class='flag-5'>训练</b>指南

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    连接定义神经网络的拓扑结构。 不同神经网络的DNN: 一、基于大模型的AI芯片 1、Transformer 模型与引擎 1.1 Transformer 模型概述 Transformer 模型的出现
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    当今社会,AI已经发展很迅速,但是你了解AI的发展历程吗?本章作者将为我们打开AI的发展历程以及需求和挑战的面纱。 从2017年开始生成式AI
    发表于 09-12 16:07

    AI 芯片浪潮下,职场晋升新契机?

    职场、渴望在专业领域更进一步的人来说,AI 芯片与职称评审之间,实则有着千丝万缕的联系,为职业晋升开辟新的路径。 AI 芯片领域细分与职称对应 目前,AI 芯片从技术架构上主要分为
    发表于 08-19 08:58

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历从传统架构向AI工厂与AI云的转型。AI工厂依赖超大规模
    发表于 08-13 19:01

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    并行计算的崛起:为什么GPU将在边缘AI中取代NPU

    人工智能(AI)不仅是一项技术突破,它更是软件编写、理解和执行方式的一次永久性变革。传统的软件开发基于确定性逻辑和大多是顺序执行的流程,而如今这一范式正在让位于概率模型、训练行为以及数据驱动的计算
    的头像 发表于 06-06 14:55 504次阅读
    并行计算的崛起:为什么<b class='flag-5'>GPU</b>将在边缘<b class='flag-5'>AI</b>中取代NPU

    提升AI训练性能:GPU资源优化的12个实战技巧

    在人工智能与机器学习技术迅速发展的背景下,GPU计算资源的高效利用已成为关键技术指标。优化的GPU资源分配不仅能显著提升模型训练速度,还能实现计算成本的有效控制。根据AI基础设施联盟2
    的头像 发表于 05-06 11:17 1176次阅读
    提升<b class='flag-5'>AI</b><b class='flag-5'>训练</b>性能:<b class='flag-5'>GPU</b>资源优化的12个实战技巧

    海思SD3403边缘计算AI数据训练概述

    AI数据训练:基于用户特定应用场景,用户采集照片或视频,通过AI数据训练工程师**(用户公司****员工)** ,进行特征标定后,将标定好的训练
    发表于 04-28 11:11

    Deepseek海思SD3403边缘计算AI产品系统

    海思SD3403边缘计算AI框架,提供一套开放式AI训练产品工具包,解决客户低成本AI系统,针对差异化
    发表于 04-28 11:05

    适用于数据中心和AI时代的800G网络

    和性能隔离能力,以保障不同用户任务互不干扰。 分布式AI计算与网络架构设计 分布式计算已成为AI训练的主流方式,通过将工作负载分配到多个GPU节点并行处理,以加速模型
    发表于 03-25 17:35

    摩尔线程GPU原生FP8计算助力AI训练

    近日,摩尔线程正式开源MT-MegatronLM与MT-TransformerEngine两大AI框架。通过深度融合FP8混合训练策略和高性能算子库,这两大框架在国产全功能GPU上实现
    的头像 发表于 03-17 17:05 1210次阅读
    摩尔线程<b class='flag-5'>GPU</b>原生FP8计算助力<b class='flag-5'>AI</b><b class='flag-5'>训练</b>

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    GPU是如何训练AI大模型的

    AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU
    的头像 发表于 12-19 17:54 1322次阅读