0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何对推理加速器进行基准测试

星星科技指导员 来源:嵌入式计算设计 作者:Geoff Tate 2022-06-06 16:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在过去的十年中,神经网络已经从有趣的研究发展到广泛应用于语言翻译、关键词识别和对象识别。

长期以来,神经网络仅限于具有运行神经网络所需的计算资源的数据中心,最初是在微处理器上,然后越来越多地在 GPU 上,因为 GPU 具有运行神经网络所需的更多 MAC。

英伟达最近宣布,其推理产品的销售额首次超过了培训产品的销售额。

随着推理移动到电力和成本预算受限的边缘(数据中心之外的任何地方),客户正在寻找能够以他们能够承受的价格和电力提供所需吞吐量的推理加速器。

本博客讨论如何对推理加速器进行基准测试,以找到最适合您的神经网络的加速器;以及客户在学习曲线上通常如何发展他们对基准测试的思考。神经网络推理令人兴奋但也很复杂,因此最初非常令人困惑。当客户解决问题时,灯会逐步亮起。

首先让我们回顾一下推理加速器的常见元素以及它们运行的​​神经网络。

所有推理加速器的共同元素

所有推理加速器都有以下共同点:

MAC(很多)

片上 SRAM

片外DRAM

控制逻辑

所有单元之间的片上互连

推理加速器之间的元素和组织的数量差异很大;组织 MAC 的方法;MAC 与 SRAM/DRAM 的比率;以及它们之间的数据如何流动对于确定加速器的实际加速情况至关重要。

所有神经网络模型的共同元素

所有神经网络都包含以下元素:

数值选择:32 位浮点(模型训练时使用的),

16 位浮点、16 位整数或 8 位整数

输入数据:图像、音频、文本等

几十到几百层,每层处理前一层的激活,并将输出激活传递到下一层

模型每一层的权重

TOPS - 推理基准测试的第一阶段

刚接触神经网络性能估计的客户几乎总是先问“你的芯片/模块/板有多少 TOPS?” 因为他们假设 TOPS 和吞吐量相关 - 但事实并非如此。

TOPS 是每秒万亿次操作的首字母缩写词,可用 MAC 的数量(以千计)乘以 MAC 运行的频率(以千兆赫兹为单位)乘以 2(一个 MAC = 两个操作)。因此,简单来说,1GHz 的 1K MAC = 2 TOPS。

更多 MAC 意味着更多 TOPS。

重要的是内存组织和互连是否可以保持 MAC 的“馈送”,从而使它们得到高度利用,从而在模型上产生高吞吐量。

ResNet-50 - 推理基准测试的第二阶段

一旦客户意识到重要的指标是吞吐量,他们通常会继续询问,“ResNet-50 的芯片/模块/板的推理/秒吞吐量是多少?”

MLPerf 最近发布了众多制造商提交的 ResNet-50 基准。

ResNet-50 是一种流行的 CNN(卷积神经网络),用于对图像进行分类,多年来一直广泛用于基准测试。

问题是,没有客户真正使用 ResNet-50。

客户询问 ResNet-50 是因为他们假设他们模型上的芯片/模块/板的吞吐量将与 ResNet-50 吞吐量相关。

这个假设的两个主要缺陷是:

ResNet-50 使用 224x224 图像,但大多数客户希望处理 16 倍以上的百万像素图像。ResNet-50 对于 224x224 图像可能在芯片/模块/板上运行良好,但可能不适用于百万像素图像,因为较大的图像比较小的图像对内存子系统的压力更大。对于 2 兆像素的图像,中间激活可以是 64 兆字节,而对于 224x224 图像,中间激活最多为几兆字节。

批量大小:制造商希望引用他们可以为基准测试的最大数字,因此他们的 ResNet-50 基准数字通常是他们可以运行的最大批量大小。但对于边缘应用程序,几乎所有应用程序都需要批量大小 = 1 以实现最小延迟。考虑一辆车:如果你正在寻找像行人这样的物体,你需要尽快意识到它们。因此,大批量可能会最大化吞吐量,但在边缘需要的是最小延迟,即批量大小为 1。

如果 ResNet-50 在批量大小 = 1 的百万像素图像上运行,则它对于真实世界模型来说并不是一个糟糕的基准。但它不是通常使用的一个好的基准。

真实世界模型和图像 - 推理基准测试的第三阶段

客户在学习曲线中达到的下一个阶段是他们应该找到一个具有与他们相似特征的开源神经网络模型:相似类型的模型(CNN 或 RNN 或 LSTM),相似大小的图像(或其他输入类型),相似的层数和相似的操作。

例如,对 CNN 感兴趣的客户他们最常问的问题是:“对于 2 兆像素(或 1 或 4),YOLOv2(或 YOLOv3)的每秒帧数是多少?”

真正有趣的是,尽管大多数客户都想了解 YOLOv2/v3,但几乎没有制造商为其提供基准(一个例外是 Nvidia Xavier,它将 YOLOv3 的基准为 608x608 或 1/3 兆像素)。

YOLOv3 是一个压力很大的基准测试,它很好地测试了推理加速器的鲁棒性:6200 万个权重;100+层;和超过 3000 亿个 MAC 来处理单个 2 兆像素图像。对该模型进行基准测试显示了加速器是否可以同时获得高 MAC 利用率、管理存储读取/写入而不会使 MAC 停滞,以及互连是否可以在内存和 MAC 之间有效移动数据而不会停滞计算。

当然,不仅仅是吞吐量很重要,实现吞吐量的成本和功率也很重要。

2000 美元和 75 瓦的 Nvidia Tesla T4 可能具有您想要的吞吐量,但可能远远超出您的预算。

客户考虑的另一件事是他们计划运行的模型的吞吐量效率、吞吐量/美元和吞吐量/瓦特

第 4 阶段:对吞吐量、功率和成本的实际模型进行基准测试

客户对基准推理学习曲线的最后阶段是开发自己的模型,使用通常来自 Nvidia 或数据中心的训练硬件/软件,然后在可能的目标推理加速器上对该模型进行基准测试。

通过这种方式,客户可以真正判断哪个加速器将为他们提供最佳的吞吐量效率。

终点似乎很明显,但事后诸葛亮。神经网络推理非常复杂,所有客户都要经过学习曲线才能得出正确的结论。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106802
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134464
  • 数据中心
    +关注

    关注

    16

    文章

    5519

    浏览量

    74653
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工业级-专业液晶图形显示加速器RA8889ML3N简介+显示方案选型参考表

    本帖最后由 MTCN2013 于 2025-11-17 15:23 编辑 专业液晶图形显示加速器能够有效减少对MCU运算资源的占用,对于只需普通单片机运算资源的仪器仪表来说,专业图形显示加速器
    发表于 11-14 16:03

    边缘计算中的AI加速器类型与应用

    人工智能正在推动对更快速、更智能、更高效计算的需求。然而,随着每秒产生海量数据,将所有数据发送至云端处理已变得不切实际。这正是边缘计算中AI加速器变得不可或缺的原因。这种专用硬件能够直接在边缘设备上
    的头像 发表于 11-06 13:42 424次阅读
    边缘计算中的AI<b class='flag-5'>加速器</b>类型与应用

    航裕电源以大电流技术为国内外超导加速器项目提供优质方案

    航裕电源:以大电流技术,护航尖端科技 大科学装置建设热潮中,超导加速器作为探索微观世界、推动前沿科研的 “国之重”,对供电系统的稳定性、精度及功率提出极致要求。航裕电源以31.5kA、80kA万安
    的头像 发表于 10-12 15:02 1284次阅读

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、更高的效率,实现从模型训练的深度突破到推理部署的实时响应,为大模型的加速落地提供
    的头像 发表于 08-26 19:18 2586次阅读
    英特尔Gaudi 2E AI<b class='flag-5'>加速器</b>为DeepSeek-V3.1提供<b class='flag-5'>加速</b>支持

    创客总部加入MathWorks加速器计划

    全球领先的数学计算软件开发商 MathWorks 日前宣布,创客总部已加入 MathWorks 加速器计划。作为中关村科创孵化,创客总部致力于为人工智能创业企业、高校院所技术精英搭建推动与实体经济
    的头像 发表于 08-22 10:00 835次阅读

    PCIe协议分析仪能测试哪些设备?

    /ASIC加速器 测试场景:分析专用AI推理加速器与主系统的PCIe通信,优化数据传输和指令下发效率。 应用价值:提高推理吞吐量,确保
    发表于 07-25 14:09

    大模型推理显存和计算量估计方法研究

    GPU、FPGA等硬件加速。通过分析硬件加速器的性能参数,可以估算模型在硬件加速下的计算量。 四、实验与分析 为了验证上述估计方法的有效性,我们选取了几个具有代表性的深度学习模型,在多个硬件平台上
    发表于 07-03 19:43

    高压放大器在粒子加速器研究中的应用

    粒子加速器是现代科学研究中不可或缺的大型实验装置,广泛应用于物理学、化学、材料科学、生物学等多个领域。其核心原理是利用电场和磁场对带电粒子进行加速和约束,使粒子达到极高的能量,从而为研究微观世界
    的头像 发表于 06-19 17:09 401次阅读
    高压放大器在粒子<b class='flag-5'>加速器</b>研究中的应用

    粒子加速器 —— 科技前沿的核心装置

    粒子加速器全称“荷电粒子加速器”,是一种利用电磁场在高真空环境中对带电粒子(如电子、质子、离子)进行加速和控制,使其获得高能量的特种装置。粒子加速器
    的头像 发表于 06-19 12:05 2540次阅读
    粒子<b class='flag-5'>加速器</b> —— 科技前沿的核心装置

    树莓派5 + Hailo AI加速器:工业级数值数据处理实战,打通SQLite与机器学习全链路

    本文讨论了在工业自动化背景下,开发者利用树莓派5和HailoAI加速器进行工业级数值数据处理实战,打通SQLite与机器学习全链路时遇到的问题及解决方案。关键要点包括:1.开发者需求:构建能从
    的头像 发表于 03-25 09:22 1006次阅读
    树莓派5 + Hailo AI<b class='flag-5'>加速器</b>:工业级数值数据处理实战,打通SQLite与机器学习全链路

    小型加速器中子源监测系统解决方案

    小型加速器中子源是一种基于先进加速器技术的中子产生装置,凭借体积小、成本低、安全性高的优势,在医学、工业、科研、安全、能源等多个领域展现出巨大的应用潜力和价值。无论是用于医学领域的精准放疗,还是工业
    的头像 发表于 03-13 11:19 1148次阅读
    小型<b class='flag-5'>加速器</b>中子源监测系统解决方案

    使用OpenVINO™进行推理时的内存泄漏怎么解决?

    使用 OpenVINO™ 进行推理时,内存会随着时间的推移而增加,并导致程序崩溃。
    发表于 03-06 08:29

    使用修改后的基准C++工具推断灰度图像时的推理速度慢怎么解决?

    修改了 基准测试 C++ 工具 ,以加载灰度图像。 获得的推理速度非常低。
    发表于 03-06 07:11

    英特尔Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    Pro模型进行了深度优化。 这一优化举措使得AI开发者能够以更低的成本和更高的效率实现复杂任务的部署与优化。英特尔Gaudi 2D AI加速器通过其卓越的计算能力和高度优化的软件栈,为Janus Pro模型提供了强大的推理算力
    的头像 发表于 02-10 11:10 929次阅读

    DeepSeek发布Janus Pro模型,英特尔Gaudi 2D AI加速器优化支持

    Gaudi 2D AI加速器现已针对该模型进行了全面优化。这一优化举措使得AI开发者能够更轻松地实现复杂任务的部署与优化,从而有效满足行业应用对于推理算力的迫切需求。 英特尔Gaudi 2D AI
    的头像 发表于 02-08 14:35 914次阅读