0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI优化的FPGA和GPU的芯片级对比

FPGA之家 来源:FPGA之家 作者:FPGA之家 2021-03-29 14:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本部分,我们就跟随作者一起看看Intel Stratix10 NX和Nvidia在这个领域的利器T4以及V100之间的对比,过程分为芯片级对比以及系统级对比。

本部分一起先来看看芯片级对比

首先来看下我们的GPU对手——Nvidia T4和V100分别有320个和640个张量核(专门用于AI工作负载的矩阵乘法引擎)

Nvidia Tesla T4

Nvidia Tesla V100

下面表格总结了与Stratix10 NX和这些同代工艺GPU的关键指标对比。 就die尺寸来说,V100是Nvidia最大的12nm GPU,几乎比T4大50%,而Stratix10 NX比两种GPU都小。

36bc17bc-8ecc-11eb-8b86-12bb97331649.png

首先,文章使用GPU最擅长处理的工作负载:通用矩阵乘(GEMM)来跑GPU的benchmark(什么是GEMM请移步https://spatial-lang.org/gemm),为了测量最佳的GPU性能,对每个器件使用最新的library,这些库不会出错,并且分别在使用和不使用张量核的情况下测试性能。对于fp32和fp16实验,分别使用CUDA10.0和10.2的CuBLAS库进行V100和T4。对于int8,我们使用CUDA10.2中的cuBLASLt库,这样可以比cuBLAS库获得更高的int8性能。文章使用Nvidia的官方(高度优化)的cuDNN kernel来处理DL工作负载,并且分别对V100和T4使用了从cuDNN7.6.2和7.6.5。 (cuBLAS API,从cuda6.0开始;cuBLASLt API,从cuda10.1开始)

cuDNN库不支持int8计算kernel,但它们支持将所有模型权重保存在片上内存中。对于每个工作负载、问题大小和序列长度,文章在两种GPU上运行了所有可能的配置组合,如精度{fp32、fp16、int8}、计算样式{persistent、non-persistent}、张量核心设置{enable、disable}。然后,选择最佳的性能,来和Stratix10 NX的NPU进行比较。 这里因为是芯片级对比,所以只考虑了芯核的计算效率,不包括任何初始化、芯核启动或主机-GPU数据传输开销。

下图给出了T4和V100 GPU上fp32、fp16和int8精度的GEMM benchmark测试结果。结果表明,相对于张量核禁用情况(蓝线),启用张量核(红线) 可以显著提高GPU在GEMM上的性能。

3735e1d2-8ecc-11eb-8b86-12bb97331649.png

然而,一个普遍的趋势是,张量核虽然是为GEMM设计的,但在矩阵大小为2048或以下情况时的利用效率明显不如峰值情况(红色虚线)。因此要实现高利用率,除非工作负载中的矩阵大小非常大,而这在实际DL工作负载中并不常见。T4和V100上的张量核都不支持fp32的精度,而是在执行乘法运算之前,将fp32数据转换为fp16。相对于纯fp16 GEMM,这种数据转换开销降低了张量核性能。另一个有趣的情况是,当T4张量核在int8模式下工作时,它们需要将输入矩阵从标准的行/列主要格式转换为特定于张量核的布局。因此,即使在处理非常大的8192×8192矩阵时,在张量核(没有标记的红线)上实现的int8性能还不到峰值性能的45%。

为了更好地理解这种数据转换的开销,文章还进行了一个额外的实验,在这个实验中,对张量核进行了特殊布局(带有标记的红线)。即使不算矩阵布局变化的开销,对于4096×4096及以下的矩阵大小,张量核利用率也小于40%,在6144×6144矩阵中利用率达到最高为72%。

下面来看看FPGA上的情况,上图(Fig.6)的右上角那张图比较了Stratix10 NX上的NPU性能与具有int8张量核的T4 GPU的性能。为了公平地比较,文章禁用了NPU两个输入矩阵其中一个的矩阵布局变换,只保留了对另一个输入以及输出矩阵的布局变换(因为NPU以标准格式使用和生成这些矩阵)。

虽然NPU是为矩阵向量运算而设计的,但它在GEMM工作负载上仍然实现了与T4相似的性能,其矩阵大小从512到3072不等(最大的矩阵可以fit进片上BRAM)。

最后,一起看看顶级FPGA和GPU的PK结果。下图(Fig.7)将文章在Stratix10 NX上增强型NPU的性能与T4和V100的最佳性能进行比较。对于比较小的batch-3和batch-6情况,FPGA性能总是显著高于两个GPU。FPGA在batch-6(其设计为:双核batch-3)中表现最好,平均性能分别是T4和V100的24.2x和11.7x。

与batch-6相比,FPGA在batch-3上的性能较低,因为两个核中的一个完全空闲。然而,它仍然比T4和V100分别平均快了22.3x和9.3x。在batch size高于6时,如果batch size不能被6整除,则NPU可能不能被充分利用。例如,在batch size为8、32和256的情况下,NPU最多可以达到其batch-6性能的67%、89%和99%,而batch size为12、36和258(上图中的虚线所示)可以达到100%的效率。在32输入的中等batch size情况下,NX仍然比T4具有更好的性能,并且与V100性能相当。

即使在比较大的batch size情况下,NX的性能也比T4高58%,只比die size更大(大将近一倍)的V100低30%。这些结果表明,人工智能优化的FPGA在低batch实时推理中不仅可以实现比GPU好一个数量级的性能,而且可以在放宽延迟约束下的高batch推理中和GPU匹敌。上图(Fig.7)中的右下角图总结了不同batch size情况下NX相对于CPU的平均加速情况。

上图(Fig.7)中的右上角图显示了与不同batch大小下的两个GPU相比,NX的平均利用率。NX在batch-6中的平均利用率为37.1%,而T4和V100分别仅为1.5%和3%。GPU张量核并非直接互连,它们只能接收来自本地核内寄存器文件的输入。因此,每个GPU张量核都必须发送它的partial result到全局内存中,并与其他张量核同步,以结合这些partial result。然后GPU从全局内存中读取组合好的矢量来执行进一步的操作,如激活函数(activation functions)。

较高的batch size可以摊销这种同步延迟,但即使在batch-256情况下,T4和V100的利用率分别只有13.3%和17.8%。 另一方面,FPGA在架构上也更具优势,其在张量块之间有专用的用来做减法的互连, FPGA的可编程布线资源还允许将MVU tile和矢量单元级引擎级联起来进行直接通信,减少了像GPU中那样必须通过内存通信的情况。

综上可以看到,FPGA依靠架构优势和超高的资源利用率,在AI性能PK上对GPU形成了强劲挑战。下一篇,我们再来一起看看从系统角度,FPGA和GPU的对比情况以及功耗方面的分析。

原文标题:读《超越巅峰性能:AI优化的FPGA和GPU真实性能对比》:芯对芯

文章出处:【微信公众号:FPGA之家】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1664

    文章

    22504

    浏览量

    639310
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302624

原文标题:读<超越巅峰性能:AI优化的FPGA和GPU真实性能对比>:芯对芯

文章出处:【微信号:zhuyandz,微信公众号:FPGA之家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    国产来袭!2nm AI GPU

    的时间和成本内实现。   近日,据媒体报道,上海棣山科技有限公司(以下简称“棣山科技”)对外披露其2nm高端AI GPU芯片最新研发进展。据悉,该公司自主攻关的这款芯片已达到国际前沿设
    的头像 发表于 04-15 07:02 8411次阅读

    AI Agent发展浪潮下,芯片级安全为何成为关键?主流芯片厂商如何布局?

    的安全挑战。海光信息港澳办总经理鲁千夫指出,面对更高复杂度的模型,芯片需具备更高的应用生态兼容性和性能,同时,芯片级安全的重要性也日益凸显。那么,为何芯片级安全如此关键?主流芯片厂商又
    的头像 发表于 04-15 16:39 5076次阅读

    矽典微发布XenD101HS:以“芯片级”隐形感知,重新定义毫米波交互边界

    定义“芯片级”毫米波新形态在智能设备日益追求“极简美学”与“无感交互”的今天,如何在不破坏设备外观的前提下,精准感知人体存在,一直是行业前进的目标和难题。矽典微推出新品XenD101HS,AiP人体
    的头像 发表于 03-23 19:13 292次阅读
    矽典微发布XenD101HS:以“<b class='flag-5'>芯片级</b>”隐形感知,重新定义毫米波交互边界

    OrangePi RV2 深度技术评测:RISC-V AI融合架构的先行者

    、PyTorch),但实际部署需针对性优化 对比 :比树莓派5(无专用NPU)强,但弱于Orange Pi 5 Max的6 TOPS NPU 2.3 GPU 与显示 GPU :仅能驱动
    发表于 03-03 20:19

    奥迪威芯片级风扇:面向高性能电子设备的芯片级主动热管理方案

    芯片级风扇代表了热管理领域的一次范式转变,从板或系统散热转向了精确的、芯片级的主动干预。其小型化、易于集成、高效运行和可扩展性的结合,使其成为下一代高性能、紧凑型电子产品不可或缺的
    的头像 发表于 02-25 11:13 302次阅读
    奥迪威<b class='flag-5'>芯片级</b>风扇:面向高性能电子设备的<b class='flag-5'>芯片级</b>主动热管理方案

    FPGA+GPU异构混合部署方案设计

    为满足对 “纳秒实时响应” 与 “复杂数据深度运算” 的双重需求,“FPGA+GPU”异构混合部署方案通过硬件功能精准拆分与高速协同,突破单一硬件的性能瓶颈 ——FPGA聚焦低延迟实时交易链路,
    的头像 发表于 01-13 15:20 489次阅读

    数字IC/FPGA设计中的时序优化方法

    在数字IC/FPGA设计的过程中,对PPA的优化是无处不在的,也是芯片设计工程师的使命所在。此节主要将介绍performance性能的优化,如何对时序路径进行
    的头像 发表于 12-09 10:33 3556次阅读
    数字IC/<b class='flag-5'>FPGA</b>设计中的时序<b class='flag-5'>优化</b>方法

    FPGAGPU加速的视觉SLAM系统中特征检测器研究

    特征检测是SLAM系统中常见但耗时的模块,随着SLAM技术日益广泛应用于无人机等功耗受限平台,其效率优化尤为重要。本文首次针对视觉SLAM流程开展硬件加速特征检测器的对比研究,通过对比现代SoC平台
    的头像 发表于 10-31 09:30 878次阅读
    <b class='flag-5'>FPGA</b>和<b class='flag-5'>GPU</b>加速的视觉SLAM系统中特征检测器研究

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    、Transformer 模型边缘部署 3、智能手机AI芯片 3.1概述 智能手机中最大的一块芯片就是应用处理器(AP)。AP中集成了CPU、GPU、NPU、DSP、5G调制解调器、图
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的工作吗? 从书中也了解到了AI芯片都有哪些?像CPU、GPUFPGA、ASIC都是AI芯片
    发表于 09-12 16:07

    AI 芯片浪潮下,职场晋升新契机?

    职场、渴望在专业领域更进一步的人来说,AI 芯片与职称评审之间,实则有着千丝万缕的联系,为职业晋升开辟了新的路径。 AI 芯片领域细分与职称对应 目前,
    发表于 08-19 08:58

    PCIe协议分析仪能测试哪些设备?

    场景:监测GPU与主机之间的PCIe通信,分析数据传输效率、延迟和带宽利用率。 应用价值:优化大规模AI训练任务的数据加载和模型参数同步,例如在多GPU系统中测试PCIe交换机的性能和
    发表于 07-25 14:09

    汉思新材料|芯片级底部填充胶守护你的智能清洁机器人

    (消毒作业)、商场(夜间保洁)等,技术融合AI视觉与机械臂,突破立体清洁瓶颈。2024年全球家庭机型出货量超2000万台,商用市场增速达19.7%。汉思芯片级底部
    的头像 发表于 07-04 10:43 1103次阅读
    汉思新材料|<b class='flag-5'>芯片级</b>底部填充胶守护你的智能清洁机器人

    ESD技术文档:芯片级ESD与系统ESD测试标准介绍和差异分析

    ESD技术文档:芯片级ESD与系统ESD测试标准介绍和差异分析
    的头像 发表于 05-15 14:25 4936次阅读
    ESD技术文档:<b class='flag-5'>芯片级</b>ESD与系统<b class='flag-5'>级</b>ESD测试标准介绍和差异分析

    提升AI训练性能:GPU资源优化的12个实战技巧

    在人工智能与机器学习技术迅速发展的背景下,GPU计算资源的高效利用已成为关键技术指标。优化GPU资源分配不仅能显著提升模型训练速度,还能实现计算成本的有效控制。根据AI基础设施联盟2
    的头像 发表于 05-06 11:17 1686次阅读
    提升<b class='flag-5'>AI</b>训练性能:<b class='flag-5'>GPU</b>资源<b class='flag-5'>优化</b>的12个实战技巧