0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU、FPGA和ASIC鏖战AI推理

E4Life 来源:电子发烧友网 作者:周凯扬 2022-03-15 07:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

深度学习的概念中,通常可以简化为两大工作流,一是训练,二是推理。两者完美融合才是一个现代化的完整深度学习网络,缺一不可。训练用于调整神经网络模型的参数,从而在给定的数据上实现良好的表现;推理则用于执行训练过的神经网络模型,以在新数据上获得输出。

为了让一个模型用于特定的用例,比如图像识别、语音识别等,开发者必须要先训练这个模型。一旦模型训练完成后,就可以投入使用(用于推理)。这两大工作流有着类似的特点,但对硬件资源的要求却存在一定的差距。

以训练来说,硬件需要的是大带宽大容量的内存,所以芯片之间的互联相当重要,当然了这些需求会极大地增加BOM和功耗。而推理则常用于自然语言处理、推荐系统和语音识别这样的实时应用中,因此必须做到低延迟、高吞吐量,再者由于更加贴近应用端,所以低功耗和低成本也是这类AI推理硬件的首选特性。

而这几年间,不少半导体公司、云服务厂商和初创AI芯片公司都在AI推理上频频布局,甚至收购了不少企业来放大优势或补全短板,尤其是“御三家”英伟达英特尔AMD。笔者这里特地选择了三家的代表性产品,以及他们走的不同技术路线。

市场与生态的宠儿——GPU王牌部队

自英伟达从2010年推出M2050专业GPU,并大肆推行GPGPU在AI推理上的应用后,英伟达DGX产品线在AI推理算力上的占比就在一路走高。2020年阿里云、AWS和腾讯云等公有云平台中,英伟达GPU AI推理算力超过了100 exaflops,也首次夺下了云端CPU统治多年的推理算力宝座,这其中的旗舰就是A100 GPU。

A100 SXM / 英伟达


我们以旗舰型号A100 80GB SXM为例,318 TFLOPS的TF32算力,1248 TOPS的INT8算力,80GB的GPU内存带宽达到了2039GB/s。不仅支持NVLink600GB/s的互联,也支持64GB/s的PCIe4.0互联。A100还可以被分为7个独立的GPU实例,无论是端到端AI还是数据中心的HPC平台,都适合该GPU大显身手。

但A100的缺点也相当明显,第一就是功耗,高达400W的功耗让这张卡成了很多AI推理加速器竞相对比能效比的对象。其次就是价格,高达一万美元以上的单价让不少人望而却步,至少个人开发者使用GPU或基于该GPU的云服务器的话,不免会肉疼好一阵了。

灵活的代表——FPGA抵抗军

对于AMD来说,过去主要是与英伟达、英特尔在一些通用计算领域进行交锋,而在AI训练和推理上,AMD其实并没有推出太多针对这类应用的方案,直到对Xilinx的收购。不可置否的是,AMD在数据中心和HPC已经崭露头角,甚至开始拔尖,但AI推理可以说一直是AMD的弱势所在。

其实收购的部分原因,也要归功于Xilinx在AI市场上得天独厚的优势,而这种优势在两家联手之下更加明显,这一点早在过去的合作中就可以看出来。2018年的Xilinx开发者论坛上,AMD的EPYC CPU和Xilinx的AlveoU250在GoogLeNet CNN框架上实现了3万张图片每秒的世界记录级吞吐量。目前不少公有云厂商也在用Xilinx的FPGA方案,比如阿里云就有基于XilinxVU9P的方案。

VCK5000 / Xilinx

Xilinx最近也推出了全新的VCK5000AI加速器,该卡基于Xilinx7nm的VersalACAP架构,专为高吞吐量的AI推理打造。从纸面参数上看,这张卡好像性能不算强大,在ResNet-50的吞吐量上只能算优于英伟达的T4显卡,但VCK5000还准备了一些奇招。

电路中有个叫做暗硅(DarkSilicon)的概念,指的就是在功耗限制下,处理器电路上常常出现“一方有难,多方看戏”的情况,所以实际的效能根本达不到纸面参数。而Xilinx称VCK5000将实际效率推至90%,相较英伟达GPU普遍低于50%的效率可谓秒杀了,甚至高过A100。成本上,VCK5000的单价也做到了2745美元,从性价比和TCO来说,FPGA方案可以说是真香了。

初创公司首选——ASIC异军突起

作为英特尔在2019年收购的一家以色列人工智能公司,Habana倒是很少出现在人们的视线中,远不如同被英特尔收购的以色列自动驾驶芯片公司Mobileye或是晶圆代工厂TowerSemiconductor那般高调,但他们给英特尔带来的AI方案还是有点东西的。

HL-100 / Habana


Habana拥有两大产品线,一是主打训练的Gaudi系列,二是主打推理的Goya系列。虽然两者采用了不同的芯片设计,但仍基于相同的基本架构(TPC),只不过是针对两种工作负载做了优化而已。同样以ResNet50的吞吐量作为比较,在Batch大小为10时,基于Goya的HL-100加速卡可以做到15488张图片每秒的吞吐量,更吃惊的是其延迟可以做到0.8ms。对于延迟敏感型应用来说,Goya很可能就是最佳的选择。

不过HL-100的TPC还只是基于台积电的16nm工艺而已,而基于更先进的工艺的TPC和HL-200系列迟迟没有消息公布。不知是不是Habana打算在新产品上直接用上英特尔的工艺。

孰优孰劣?还是取决于生态和市场选择

要想对比这三家AI推理加速器的性能着实有些困难,且不说三者在规模和功耗上的不同,所用系统、软件、模型、数据集和测试环境也都是各不一样。那么对于AI开发者来说,应该如何选择呢?我们不妨从市场和生态的角度来看。

首先是市场的主流选择,无疑目前市面应用占比最多的还是英伟达旗下的加速器,这在数据中心和超算等场景中都能看出来,无论是训练还是推理,云服务厂商推出最多的旗舰实例基本都是基于英伟达的A100、A30等GPU,在其TensorRT推理框架的大力推动下,英伟达占据了绝对的主导位置。然而作为通用方案,英伟达的A100在总体性能上虽然不错,但泛用性还是无法覆盖到一些特定的应用。比如主打超低延迟或超高吞吐量的场景,可能还是不如FPGA或推理专用ASIC给到的吸引力高,更不用说这些方案在成本上的优势了。

反观Xilinx的VCK5000,单纯比算力的话,FPGA与GPU、ASIC相比优势不大,倒是FPGA的可编程灵活性为开发带来了不少便利,可随时更新和优化硬件加速而无需重新设计硬件。但不少AI开发者可能看到Xilinx这个大名就望而生畏,纷纷表示自己一个深度学习“炼丹师”,可不想学Verilog之类的RTL编程设计。这也是为何英特尔和Xilinx等FPGA厂商近年来开始在软件上发力的原因,像Xilinx Vitis这样的统一软件,可以说给了一个面向全平台开发者的方案,直接支持到Pytorch和TensorFlow这些主流的框架和模型。

至于Habana的Goya这种产品形式,其实是目前不少初创公司走的路线。与以上GPU和FPGA方案相比,他们在软件开发上要花费更多的心力,所以不少初创企业的AI加速器支持的框架和模型都不是太多,支持的程度也尚未完善。至于市场反响来看,Goya也不比Habana的Gaudi训练加速器,后者已经有了基于该硬件的AWS实例,而Goya目前已知的应用还是超算。未来Goya面向的,可能还是比较“专”的场景。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1664

    文章

    22573

    浏览量

    640792
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5322

    浏览量

    136213
  • AI
    AI
    +关注

    关注

    91

    文章

    41988

    浏览量

    303082
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    英伟达失守中国区!推理需求爆发,国产GPU抢滩上市

    亿元。而在此前,另一家国产GPU公司摩尔线程已于9月26日率先过会。这两大GPU企业接连冲刺IPO,背后是中国AI算力需求爆发式增长与全球供应链格局重塑的多重驱动。   AI
    的头像 发表于 10-22 09:09 8744次阅读
    英伟达失守中国区!<b class='flag-5'>推理</b>需求爆发,国产<b class='flag-5'>GPU</b>抢滩上市

    直播预告|玄铁 x Canonical:从本地推理AI 工厂,基于 RISC-V 的 AI 基础设施创新路径探讨

    大模型浪潮下,AI 算力正向“本地推理”与“AI 工厂”两极延伸,而传统架构在低延迟与规模化之间往往顾此失彼。RISC-V 的可定制特性,提供了一条新路径——端侧精简高效,云侧通过众核与矩阵增强向上
    发表于 05-15 12:15

    从英伟达电话会看Agentic AI推理FPGA价值

    2026年2月,英伟达发布2026财年Q4财报:营收681亿美元,同比增长73%,数据中心业务增长75%——预期中的超预期。更值得关注的,是电话会中反复出现的几个关键词:Agentic AI推理
    的头像 发表于 03-04 17:07 1377次阅读
    从英伟达电话会看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>与<b class='flag-5'>FPGA</b>价值

    AI ASIC:博通份额将达60%,联发科成长显著,台积电成最大赢家

    电子发烧友报道(文/李弯弯)在人工智能芯片领域,专用集成电路(ASIC)正崛起。随着AI算力需求爆发,ASIC凭借定制化、高效能等优势,在数据中心、AI
    的头像 发表于 02-05 18:21 1.8w次阅读
    <b class='flag-5'>AI</b> <b class='flag-5'>ASIC</b>:博通份额将达60%,联发科成长显著,台积电成最大赢家

    AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

    领域占据主导,其GPU凭借强大的海量数据处理能力,成为全球AI爆炸式增长的重要基石。但随着AI不断演进,重点正从大规模训练转向对已训练模型的推理和推断,
    的头像 发表于 02-03 17:15 3423次阅读

    曦望发布新一代推理GPU芯片,单位Token推理成本降低90%

    电子发烧友网报道 1月27日,国产GPU厂商曦望(Sunrise)重磅发布新一代推理GPU芯片——启望S3。这是曦望在近一年累计完成约30亿元战略融资后的首次集中公开亮相。2025年,曦望芯片交付量
    的头像 发表于 01-28 17:38 9879次阅读

    端侧推理FPGA正崛起为“非GPU”阵营的中坚力量

    随着AI应用的迅猛发展,端侧推理正受到前所未有的关注。与数据中心对极致吞吐的追求不同,端侧推理更聚焦于低延迟、低功耗与高可靠性,其应用场景呈现出高度分散、类型多样的特征。从工业现场到车载系统,再到
    的头像 发表于 01-23 17:17 3993次阅读
    端侧<b class='flag-5'>推理</b>:<b class='flag-5'>FPGA</b>正崛起为“非<b class='flag-5'>GPU</b>”阵营的中坚力量

    AI芯片市场鏖战GPUASIC谁将占据主动?

    本文转自:TechSugar随着人工智能技术在大模型训练、边缘计算、自动驾驶等领域的深度渗透,核心算力硬件的竞争进入白热化阶段。图形处理单元(GPU)与专用集成电路(ASIC)作为两大主流技术路线
    的头像 发表于 10-30 12:06 1057次阅读
    <b class='flag-5'>AI</b>芯片市场<b class='flag-5'>鏖战</b>,<b class='flag-5'>GPU</b>与<b class='flag-5'>ASIC</b>谁将占据主动?

    AI推理需求爆发!高通首秀重磅产品,国产GPU的自主牌怎么打?

    10月29日,在安博会的2025智能算力应用及产业发展论坛上,超聚变数字技术有限公司深圳解决方案总监丁元钊表示,原来我们预计2026年是AI推理爆发元年,2025年DeepSeek-R1,V3模型
    的头像 发表于 10-30 00:46 1.4w次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆发!高通首秀重磅产品,国产<b class='flag-5'>GPU</b>的自主牌怎么打?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的工作吗? 从书中也了解到了AI芯片都有哪些?像CPU、GPUFPGAASIC都是AI芯片。 其他的还是知道的,
    发表于 09-12 16:07

    AI 芯片浪潮下,职场晋升新契机?

    职场、渴望在专业领域更进一步的人来说,AI 芯片与职称评审之间,实则有着千丝万缕的联系,为职业晋升开辟了新的路径。 AI 芯片领域细分与职称对应 目前,AI 芯片从技术架构上主要分为 GPU
    发表于 08-19 08:58

    AI芯片,需要ASIC

    电子发烧友网报道(文/李弯弯) 2025年,全球AI芯片市场正迎来一场结构性变革。在英伟达GPU占据主导地位的大格局下,ASIC(专用集成电路)凭借针对AI任务的定制化设计,成为推动算
    的头像 发表于 07-26 07:30 7817次阅读

    PCIe协议分析仪能测试哪些设备?

    场景:监测GPU与主机之间的PCIe通信,分析数据传输效率、延迟和带宽利用率。 应用价值:优化大规模AI训练任务的数据加载和模型参数同步,例如在多GPU系统中测试PCIe交换机的性能和稳定性。
    发表于 07-25 14:09

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(
    发表于 07-16 15:29

    边缘AI盒子技术解析:ASIC/FPGA/GPU芯片及边缘-云端协同与自适应推理

      电子发烧友网综合报道 边缘AI盒子是一种集成了高性能芯片、AI算法和数据处理能力的硬件设备,部署在数据源的边缘侧,如工厂、商场、交通路口等,能在本地进行数据采集、预处理、分析和决策,无需将所有
    的头像 发表于 07-13 08:25 5015次阅读