0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在推理引擎中脱颖而出

星星科技指导员 来源:嵌入式计算设计 作者:Geoff Tate 2022-07-06 14:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着人工智能的爆炸式增长,人们越来越关注能够提供人工智能所需性能的新型专业推理引擎。因此,在过去六个月中,我们看到了一系列神经推理硬件公告,所有这些都承诺提供比市场上任何其他产品更好的加速。然而,挑战在于没有人真正知道如何衡量一个与另一个。这是一项新技术,就像任何新技术一样,我们需要指标,我们需要真正重要的指标。

一切都与吞吐量有关

当推理引擎的性能出现时,供应商会抛出诸如 TOPS(Tera-Operations/Second)性能和 TOPS/Watt 之类的基准。研究这些的系统/芯片设计人员很快意识到这些数字通常毫无意义。真正重要的是推理引擎可以为模型、图像大小、批量大小和过程以及 PVT(过程/电压/温度)条件提供多少吞吐量。这是衡量其性能表现的第一个衡量标准,但令人惊讶的是,很少有供应商提供它。

TOPS 的最大问题是,当一家公司说他们的引擎执行 X TOPS 时,他们通常会引用这一点而没有说明条件是什么。在不知道这些信息的情况下,他们错误地认为 X TOPS 意味着它可以执行 X 万亿次操作。实际上,报价 130 TOPS 的公司可能仅提供 27 TOPS 的可用吞吐量。

另一个正在使用但不太常用的基准是 ResNet-50。这个基准的问题是大多数引用它的公司都没有给出批量大小。如果他们不这样做,芯片设计人员可以假设这将是一个大批量,以最大限度地提高他们的硬件利用率。这使得 ResNet-50 作为基准不是很有帮助。相比之下,例如 YOLOv3 需要 100 倍以上的操作来处理 2 兆像素的图像。在“真实世界”模型中,硬件利用率将面临更大挑战。

如何正确测量神经推理引擎

在评估神经推理引擎时,需要注意几个关键事项。以下是最重要的考虑因素以及它们为何真正重要的原因。

定义什么是操作:一些供应商将乘法(通常为 INT 8 乘以 INT 8)计为一次操作,将累加(加法,通常为 INT 32)计为一次操作。因此,一次乘法累加等于 2 次操作。但是,一些供应商在其 TOPS 规范中包含其他类型的操作,因此必须在开始时进行澄清。

询问 操作条件是什么: 如果供应商提供 TOPS 而不提供条件,他们通常使用室温、标称电压和典型工艺。通常他们会提到他们所指的工艺节点,但不同供应商的运行速度不同,大多数工艺提供2、3或更多的标称电压。由于性能是频率的函数,而频率是电压的函数,因此芯片设计人员在 0.9V 时可以获得比在 0.6V 时高两倍以上的性能。频率因条件/假设而异。有关这方面的更多信息,请参阅此应用说明。

看看批量大小:即使供应商提供最坏情况的 TOPS,芯片设计人员也需要弄清楚所有这些操作是否真的有助于计算他们的神经网络模型。实际上,实际利用率可能非常低,因为没有推理引擎始终 100% 地使用所有 MAC。这就是批量大小很重要的原因。批处理是为给定层加载权重并同时处理多个数据集。这样做的原因是为了提高吞吐量,但放弃的是更长的延迟。ResNet-50 拥有超过 2000 万个权重;YOLOv3 拥有超过 6000 万个权重;并且必须为每个图像获取每个权重并将其加载到 MAC 结构中。权重太多,无法让它们都驻留在 MAC 结构中。

poYBAGLFMEOAYgAkAAFI6_5PqUw443.png

找出你的 MAC 利用率:并非所有神经网络的行为都相同。您需要以您需要的批量大小找出您想要部署的神经网络模型的神经推理引擎的实际 MAC 利用率。

深入TOPS

如果您是一名正在研究神经推理引擎的设计师,希望这篇文章能够阐明要寻找的内容。请记住——重要的是吞吐量。重要的是不要陷入诸如 TOPS 和 ResNet-50 之类的毫无意义的基准测试中,除非您知道围绕这些问题要问的问题。首先提出以下问题:在批量大小 = A 和 XYZ PVT 条件下,可以为特定模型(例如 YOLOv3)处理多少图像/秒。一旦您开始指定条件和假设,您将开始了解任何神经推理在现实世界中的表现如何。归根结底,这才是最重要的。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53534

    浏览量

    459079
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106796
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261503
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    淘宝API揭秘:如何让你的店铺在海量商品脱颖而出

    ​  在淘宝这个拥有亿万商品的庞大生态,如何让自己的店铺和商品不被淹没,吸引精准流量并促成转化,是每个卖家都面临的挑战。单纯依靠平台的自然流量或基础操作往往力不从心,而 淘宝开放平台提供的API
    的头像 发表于 12-03 14:38 127次阅读
    淘宝API揭秘:如何让你的店铺在海量商品<b class='flag-5'>中</b><b class='flag-5'>脱颖而出</b>?

    何在NVIDIA Jetson AGX Thor上通过Docker高效部署vLLM推理服务

    继系统安装与环境配置后,本期我们将继续带大家深入 NVIDIA Jetson AGX Thor 的开发教程之旅,了解如何在 Jetson AGX Thor 上,通过 Docker 高效部署 vLLM 推理服务。
    的头像 发表于 11-13 14:08 3027次阅读
    如<b class='flag-5'>何在</b>NVIDIA Jetson AGX Thor上通过Docker高效部署vLLM<b class='flag-5'>推理</b>服务

    机械ERP:制造业智能升级核心引擎,如何选、用、赢?全面解析

    在自动化与数字化浪潮下,机械制造企业正面临前所未有的机遇与挑战。如何高效整合资源、精准管理流程、快速响应市场,已成为决定企业能否在激烈竞争脱颖而出的关键。机械ERP(企业资源计划)系统,正是帮助
    的头像 发表于 10-24 15:19 577次阅读
    机械ERP:制造业智能升级核心<b class='flag-5'>引擎</b>,如何选、用、赢?全面解析

    利用NVIDIA DOCA GPUNetIO技术提升MoE模型推理性能

    在第三届 NVIDIA DPU 中国黑客松竞赛,我们见证了开发者与 NVIDIA 网络技术的深度碰撞。在 23 支参赛队伍,有 5 支队伍脱颖而出,展现了在 AI 网络、存储和安全等领域的创新突破。
    的头像 发表于 09-23 15:25 685次阅读

    智能电子指路牌公司排名 TOP1:如何在叁仟智慧城市细分市场脱颖而出

    在智能电子指路牌行业蓬勃发展的当下,众多企业纷纷角逐,而杭州叁仟智慧城市科技有限公司却能一路披荆斩棘,荣登行业排名榜首。这家公司究竟凭借何种实力,在激烈的市场竞争脱颖而出,成为行业内的标杆呢
    的头像 发表于 08-22 15:23 378次阅读

    40个项目脱颖而出!2025英特尔人工智能大赛圆满收官,下一个AI应用浪潮开启

    8月16日,2025英特尔人工智能创新大赛决赛暨颁奖典礼在深圳举行。英特尔副总裁、中国软件技术事业部总经理李映表示:“此次大赛,来自全国2817支年青队伍有40个优秀团队和作品脱颖而出,围绕工业
    的头像 发表于 08-22 10:56 7361次阅读
    40个项目<b class='flag-5'>脱颖而出</b>!2025英特尔人工智能大赛圆满收官,下一个AI应用浪潮开启

    固态铝电解电容:如何凭借高纹波电流承载能力脱颖而出

    固态铝电解电容作为电子元器件领域的重要成员,凭借其高纹波电流承载能力在众多应用场景脱颖而出。纹波电流是指叠加在直流电流上的交流分量,它对电容器的性能和寿命有着直接影响。在电源滤波、DC-DC转换器
    的头像 发表于 08-10 15:08 1052次阅读

    请问如何在RK3588上使用npu,用onnx模型来推理

    请问如何在瑞芯微 RK3588上使用npu,用onnx模型来推理。官网上介绍说要把ONNX模型转换成RKNN模型。但是我并不想这么干,请问有什么办法吗?
    发表于 08-09 00:51

    积算科技上线赤兔推理引擎服务,创新解锁FP8大模型算力

    北京2025年7月30日 /美通社/ -- 近日,北京积算科技有限公司(以下简称"积算科技")宣布其算力服务平台上线赤兔推理引擎。积算科技PowerFul-AI应用开发平台与赤兔合作,打造高性价比
    的头像 发表于 07-30 21:44 724次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    定位到出口路由器端口存在大量物理层错误计数,更换光模块后,故障立即排除,业务完全恢复正常。此案例充分验证了AI推理引擎在复杂网络故障诊断精准定位根因、大幅提升排障效率的核心价值。
    发表于 07-16 15:29

    3大优势,让锂电池外壳气密性检测仪脱颖而出

    应运而生,凭借三大显著优势,在众多同类产品脱颖而出。优势一:高精度检测技术。锂电池外壳气密性检测仪采用先进的传感器技术和算法,能够实现对锂电池外壳微小泄漏的精准识别
    的头像 发表于 04-18 13:42 461次阅读
    3大优势,让锂电池外壳气密性检测仪<b class='flag-5'>脱颖而出</b>

    单晶硅纳米力学性能测试方法

    在材料纳米力学性能测试的众多方法,纳米压痕技术凭借其独特的优势脱颖而出,成为当前的主流测试手段。
    的头像 发表于 03-25 14:38 1125次阅读
    单晶硅纳米力学性能测试方法

    何在C#中部署飞桨PP-OCRv4模型

    《超4万6千星的开源OCR黑马登场,PaddleOCR凭什么脱颖而出?》收到了读者热烈反响c,很多读者提出:如何在C#中部署飞桨PP-OCRv4模型?本文从零开始详细介绍整个过程。
    的头像 发表于 02-17 10:58 2648次阅读
    如<b class='flag-5'>何在</b>C#中部署飞桨PP-OCRv4模型

    工业网关:开启制造工程高效生产新时代

    在科技飞速发展的当下,制造业正经历着前所未有的变革。如何在激烈的市场竞争脱颖而出,实现高效生产成为了众多制造企业的核心追求。而明达技术MBox20工业网关,作为工业互联网的关键枢纽,正悄然改变着制造工程的格局。
    的头像 发表于 02-07 10:08 450次阅读

    选用哪款条码扫描引擎嵌入手持终端类使用?尺寸小巧读取率高?

    引擎为何能在众多产品脱颖而出,成为嵌入手持终端的理想选择。LV30条码扫描引擎以其紧凑的设计著称,这一特性使得它能够轻松融入各种尺寸的手持终端
    的头像 发表于 01-06 15:19 523次阅读
    选用哪款条码扫描<b class='flag-5'>引擎</b>嵌入手持终端类使用?尺寸小巧读取率高?