0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无缝替代GPU,让FPGA来加速你的AI推理

电子设计 来源:电子设计 作者:电子设计 2020-10-30 12:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如今,基于深度学习(DL)的人工智能AI)应用越来越广泛,不论是在与个人消费者相关的智能家居、智能驾驶等领域,还是在视频监控、智慧城市等公共管理领域,我们都能看到其身影。

众所周知,实施一个完整的 AI 应用需要经历训练和推理两个过程。所谓“训练”,就是我们要将大量的数据代入到神经网络模型中运算并反复迭代,“教会”算法模型如何正确的工作,训练出一个 DL 模型。而接下来,我们就可以利用训练出来的模型来在线响应用户的需求,根据输入的新数据做出正确而及时的决策判断,这个过程就是“推理”。

通常来讲,一个 AI 应用中“训练”只需要做一次——有时这个工作会交给第三方专业的且有充沛算力资源的团队去做,而应用开发工程师要做的则是将训练好的模型部署到特定的硬件平台上,满足目标应用场景中推理过程的需要。由于推理过程会直接联系最终用户,推理的准确性和速度也会直接影响到用户体验的好坏,因此如何有效地为 AI 推理做加速,也就成了当下开发者普遍关心的一个热门的话题。


AI 推理加速,FPGA 胜出!

从硬件架构来看,可以支持 AI 推理加速的有四个可选方案,它们分别是:CPUGPU、FPGA 和 ASIC,如果对这几类器件的特性进行比较,会发现按照从左到右的顺序,器件的灵活性 / 适应性是递减的,而处理能力和性能功耗比则是递增的。

CPU 是基于冯∙诺依曼架构,虽然其很灵活,但由于存储器访问往往要耗费几个时钟周期才能执行一个简单的任务,延迟会很长,应对神经网络(NN)这种计算密集型的任务,功耗也会比较大,显然最不适合做 AI 推理。

GPU 具有强大的数据并行处理能力,在做海量数据训练方面优势明显,而推理计算通常一次只对一个输入项进行处理的应用,GPU 并行计算的优势发挥不出来,再加上其功耗相对较大,所以在 AI 推理方面也不是最优选择。

从高性能和低功耗的角度来看,定制的 ASIC 似乎是一种理想的解决方案,但其开发周期长、费用高,对于总是处于快速演进和迭代中的 DL 和 NN 算法来说,灵活性严重受限,风险太大,在 AI 推理中人们通常不会考虑它。

所以我们的名单上只剩下 FPGA 了。这些年来大家对于 FPGA 快速、灵活和高效的优点认识越来越深入,硬件可编程的特性使其能够针对 DL 和 NN 处理的需要做针对性的优化,提供充足的算力,而同时又保持了足够的灵活性。今天基于 FPGA 的异构计算平台,除了可编程逻辑,还会集成多个 Arm 处理器内核、DSP、片上存储器等资源,DL 所需的处理能力可以很好地映射到这些 FPGA 资源上,而且所有这些资源都可以并行工作 ,即每个时钟周期可触发多达数百万个同时的操作,这对于 AI 推理是再合适不过了。

与 CPU 和 GPU 相比,FPGA 在 AI 推理应用方面的优势还表现在:

不受数据类型的限制,比如它可以处理非标准的低精度数据,从而提高数据处理的吞吐量。


功耗更低,针对相同的 NN 计算,FPGA 与 CPU/GPU 相比平均功耗低 5~10 倍。


可通过重新编程以适应不同任务的需要,这种灵活性对于适应持续发展中的 DL 和 NN 算法尤为关键。


应用范围广,从云端到边缘端的 AI 推理工作,都可胜任。

总之一句话,在 AI 推理计算的竞争中,FPGA 的胜出没有悬念。


GPU 无缝对接,FPGA 即插即用

不过,虽然 FPGA 看上去“真香”,但是很多 AI 应用的开发者还是对其“敬而远之”,究其原因最重要的一点就是——FPGA 上手使用太难了!

难点主要体现在两个方面:

首先,对 FPGA 进行编程需要特定的技能和知识,要熟悉专门的硬件编程语言,还要熟练使用 FPGA 的特定工具,才能通过综合、布局和布线等复杂的步骤来编译设计。这对于很多嵌入式工程师来说,完全是一套他们所不熟悉的“语言”。


再有,因为很多 DL 模型是在 GPU 等计算架构上训练出来的,这些训练好的模型移植、部署到 FPGA 上时,很可能会遇到需要重新训练和调整参数等问题,这要求开发者有专门的 AI 相关的知识和技能。

如何能够降低大家在 AI 推理中使用 FPGA 的门槛?在这方面,Mipsology 公司给我们带来了一个“惊喜”——该公司开发了一种基于 FPGA 的深度学习推理引擎 Zebra,可以让开发者在“零努力(Zero Effort)”的情况下,对 GPU 训练的模型代码进行转换,使其能够在 FPGA 上运行,而无需改写任何代码或者进行重新训练。

这也就意味着,调整 NN 参数甚至改变神经网络并不需要强制重新编译 FPGA,而这些重新编译工作可能需要花费数小时、数天,甚至更长时间。可以说,Zebra 让 FPGA 对于开发者成了“透明”的,他们可以在 NN 模型训练好之后,无缝地从 CPU 或 GPU 切换到 FPGA 进行推理,而无需花费更多的时间!

目前,Zebra 可以支持 Caffe、Caffe2、MXNet 和 TensorFlow 等主流 NN 框架。在硬件方面,Zebra 已经可以完美地支持 Xilinx 的系列加速卡,如 Alveo U200、Alveo U250 和 Alveo U50 等。对于开发者来说,“一旦将 FPGA 板插入 PC,只需一个 Linux 命令”,FPGA 就能够代替 CPU 或 GPU 立即进行无缝的推断,可以在更低的功耗下将计算速度提高一个数量级。对用户来说,这无疑是一种即插即用的体验。

强强联手,全生态支持

更好的消息是:为了能够加速更多 AI 应用的落地,安富利亚洲和 Mipsology 达成了合作协议,将向其亚太区客户推广和销售 Mipsology 这一独特的 FPGA 深度学习推理加速软件 —— Zebra。

这对于合作的双方无疑是一个双赢的局面:对于 Mipsology 来说,可以让 Zebra 这个创新的工具以更快的速度覆盖和惠及更多的开发者;对安富利来说,此举也进一步扩展了自身强大的物联网生态系统,为客户带来更大的价值,为希望部署 DL 的客户提供一整套全面的服务,包括硬件、软件、系统集成、应用开发、设计链和专业技术。

安富利推理加速成功应用案例:智能网络监控平台 AI Bluebox

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5272

    浏览量

    136070
  • AI
    AI
    +关注

    关注

    91

    文章

    41133

    浏览量

    302608
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI芯片企业赚疯了?寒武纪营收暴涨453.21%,沐曦推理GPU销量大增866.02%

    智算推理GPU板卡销量辆大幅增长866.02%;天数智芯通用GPU产品营业收入同比增长149.6%。   而这得益于,人工智能技术迅猛发展,AI大模型和
    的头像 发表于 04-11 07:31 1.2w次阅读

    基于openEuler平台的CPU、GPUFPGA异构加速实战

    随着 AI、视频处理、加密和高性能计算需求的增长,单一 CPU 已无法满足低延迟、高吞吐量的计算需求。openEuler 作为面向企业和云端的开源操作系统,在 多样算力支持 方面表现出色,能够高效调度 CPU、GPUFPGA
    的头像 发表于 04-08 11:02 716次阅读
    基于openEuler平台的CPU、<b class='flag-5'>GPU</b>与<b class='flag-5'>FPGA</b>异构<b class='flag-5'>加速</b>实战

    从英伟达电话会看Agentic AI推理FPGA价值

    2026年2月,英伟达发布2026财年Q4财报:营收681亿美元,同比增长73%,数据中心业务增长75%——预期中的超预期。更值得关注的,是电话会中反复出现的几个关键词:Agentic AI推理
    的头像 发表于 03-04 17:07 1274次阅读
    从英伟达电话会看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>与<b class='flag-5'>FPGA</b>价值

    AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

    领域占据主导,其GPU凭借强大的海量数据处理能力,成为全球AI爆炸式增长的重要基石。但随着AI不断演进,重点正从大规模训练转向对已训练模型的推理和推断,
    的头像 发表于 02-03 17:15 3260次阅读

    使用NORDIC AI的好处

    ; 自定义 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的专用 AI 加速器,对 TensorFlow Lite 模型可实现最高约 15× 推理
    发表于 01-31 23:16

    端侧推理FPGA正崛起为“非GPU”阵营的中坚力量

    随着AI应用的迅猛发展,端侧推理正受到前所未有的关注。与数据中心对极致吞吐的追求不同,端侧推理更聚焦于低延迟、低功耗与高可靠性,其应用场景呈现出高度分散、类型多样的特征。从工业现场到车载系统,再到
    的头像 发表于 01-23 17:17 3313次阅读
    端侧<b class='flag-5'>推理</b>:<b class='flag-5'>FPGA</b>正崛起为“非<b class='flag-5'>GPU</b>”阵营的中坚力量

    AI推理需求爆发!高通首秀重磅产品,国产GPU的自主牌怎么打?

    推出,直接推动AI推理市场的上扬,未来3-5年都是AI推理领域的规模应用阶段。不管是行业应用,还是算力相关的芯片,都将大规模的围绕AI
    的头像 发表于 10-30 00:46 1.4w次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆发!高通首秀重磅产品,国产<b class='flag-5'>GPU</b>的自主牌怎么打?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    算法 5.2加速矩阵乘法的芯片架构 ①新的矩阵乘法器架构 ②基于RISC-V的矩阵乘法扩展指令集 ③用信息论的思想来减少AI推理计算量 三、用于边缘侧训练或推理
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的工作吗? 从书中也了解到了AI芯片都有哪些?像CPU、GPUFPGA、ASIC都是AI芯片。 其他的还是知道的,FPGA属于
    发表于 09-12 16:07

    华为亮相2025金融AI推理应用落地与发展论坛

    创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循
    的头像 发表于 08-15 09:45 1386次阅读

    PCIe协议分析仪能测试哪些设备?

    场景:监测GPU与主机之间的PCIe通信,分析数据传输效率、延迟和带宽利用率。 应用价值:优化大规模AI训练任务的数据加载和模型参数同步,例如在多GPU系统中测试PCIe交换机的性能和稳定性。
    发表于 07-25 14:09

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    大模型推理显存和计算量估计方法研究

    GPUFPGA等硬件加速。通过分析硬件加速器的性能参数,可以估算模型在硬件加速下的计算量。 四、实验与分析 为了验证上述估计方法的有效性,
    发表于 07-03 19:43

    智算加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,算力才是硬通货。有没有发现,现在越来越多的AI
    的头像 发表于 06-05 13:39 1894次阅读
    智算<b class='flag-5'>加速</b>卡是什么东西?它真能在<b class='flag-5'>AI</b>战场上干掉<b class='flag-5'>GPU</b>和TPU!

    英特尔发布全新GPUAI和工作站迎来新选择

    Pro B50 GPU,搭载了为AI推理和专业工作站量身定制的配置,扩展了英特尔锐炫Pro产品系列。 英特尔 ® Gaudi 3 AI 加速
    发表于 05-20 11:03 1917次阅读