如何在推理引擎中脱颖而出-电子发烧友网

随着人工智能的爆炸式增长，人们越来越关注能够提供人工智能所需性能的新型专业推理引擎。因此，在过去六个月中，我们看到了一系列神经推理硬件公告，所有这些都承诺提供比市场上任何其他产品更好的加速。然而，挑战在于没有人真正知道如何衡量一个与另一个。这是一项新技术，就像任何新技术一样，我们需要指标，我们需要真正重要的指标。

一切都与吞吐量有关

当推理引擎的性能出现时，供应商会抛出诸如 TOPS（Tera-Operations/Second）性能和 TOPS/Watt 之类的基准。研究这些的系统/芯片设计人员很快意识到这些数字通常毫无意义。真正重要的是推理引擎可以为模型、图像大小、批量大小和过程以及 PVT（过程/电压/温度）条件提供多少吞吐量。这是衡量其性能表现的第一个衡量标准，但令人惊讶的是，很少有供应商提供它。

TOPS 的最大问题是，当一家公司说他们的引擎执行 X TOPS 时，他们通常会引用这一点而没有说明条件是什么。在不知道这些信息的情况下，他们错误地认为 X TOPS 意味着它可以执行 X 万亿次操作。实际上，报价 130 TOPS 的公司可能仅提供 27 TOPS 的可用吞吐量。

另一个正在使用但不太常用的基准是 ResNet-50。这个基准的问题是大多数引用它的公司都没有给出批量大小。如果他们不这样做，芯片设计人员可以假设这将是一个大批量，以最大限度地提高他们的硬件利用率。这使得 ResNet-50 作为基准不是很有帮助。相比之下，例如 YOLOv3 需要 100 倍以上的操作来处理 2 兆像素的图像。在“真实世界”模型中，硬件利用率将面临更大挑战。

如何正确测量神经推理引擎

在评估神经推理引擎时，需要注意几个关键事项。以下是最重要的考虑因素以及它们为何真正重要的原因。

定义什么是操作：一些供应商将乘法（通常为 INT 8 乘以 INT 8）计为一次操作，将累加（加法，通常为 INT 32）计为一次操作。因此，一次乘法累加等于 2 次操作。但是，一些供应商在其 TOPS 规范中包含其他类型的操作，因此必须在开始时进行澄清。

询问操作条件是什么：如果供应商提供 TOPS 而不提供条件，他们通常使用室温、标称电压和典型工艺。通常他们会提到他们所指的工艺节点，但不同供应商的运行速度不同，大多数工艺提供2、3或更多的标称电压。由于性能是频率的函数，而频率是电压的函数，因此芯片设计人员在 0.9V 时可以获得比在 0.6V 时高两倍以上的性能。频率因条件/假设而异。有关这方面的更多信息，请参阅此应用说明。

看看批量大小：即使供应商提供最坏情况的 TOPS，芯片设计人员也需要弄清楚所有这些操作是否真的有助于计算他们的神经网络模型。实际上，实际利用率可能非常低，因为没有推理引擎始终 100% 地使用所有 MAC。这就是批量大小很重要的原因。批处理是为给定层加载权重并同时处理多个数据集。这样做的原因是为了提高吞吐量，但放弃的是更长的延迟。ResNet-50 拥有超过 2000 万个权重；YOLOv3 拥有超过 6000 万个权重；并且必须为每个图像获取每个权重并将其加载到 MAC 结构中。权重太多，无法让它们都驻留在 MAC 结构中。

找出你的 MAC 利用率：并非所有神经网络的行为都相同。您需要以您需要的批量大小找出您想要部署的神经网络模型的神经推理引擎的实际 MAC 利用率。

深入TOPS

如果您是一名正在研究神经推理引擎的设计师，希望这篇文章能够阐明要寻找的内容。请记住——重要的是吞吐量。重要的是不要陷入诸如 TOPS 和 ResNet-50 之类的毫无意义的基准测试中，除非您知道围绕这些问题要问的问题。首先提出以下问题：在批量大小 = A 和 XYZ PVT 条件下，可以为特定模型（例如 YOLOv3）处理多少图像/秒。一旦您开始指定条件和假设，您将开始了解任何神经推理在现实世界中的表现如何。归根结底，这才是最重要的。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
447

文章
47804

浏览量
409170
神经网络

神经网络

+关注

关注
42

文章
4574

浏览量
98753
人工智能

人工智能

+关注

关注
1776

文章
43871

浏览量
230622

大模型推理显卡选购指南：4090显卡为何成为不二之选

开发者非常关注的话题。现在市面上加速卡型号多如牛毛,但说到适用大模型推理的显卡,那4090显卡绝对是现阶段“推理王卡”般的存在。论性能不如H100,论价格不如3090,看似平平无奇的4090显卡为何能在众多竞争者中脱颖而出,成

发表于 04-11 11:00 •149次阅读

大模型<b class='flag-5'>推理</b>显卡选购指南：4090显卡为何成为不二之选

HarmonyOS：使用MindSpore Lite引擎进行模型推理

使用 MindSpore Lite 推理引擎进行模型推理的通用开发流程。基本概念在进行开发前，请先了解以下概念。张量：它与数组和矩阵非常相似，是 MindSpore Lite 网络运算

发表于 12-14 11:41

NVG002F语音芯片：低功耗宽电压工作与可重复烧写脱颖而出

在芯片日益发展的时期，为满足用户的需求，九芯一款具有颇高竞争力的语音芯片-NVG002F出现在市场上。这款芯片低成本、生产周期短，适合大中小型批量生产以及在2.4V~5.2V宽电压范围内工作的特性，特别是可重复烧写的特点，在语音芯片市场中脱颖而出。

发表于 11-29 15:59 •211次阅读

ADAU1701输入正弦波信号因为过大而出现削波，如何在输出端输出不削波的信号？

ADAU1701输入正弦波信号因为过大而出现削波（输入端已经削波），如何在输出端输出不削波的信号？

发表于 11-29 08:18

澎峰科技发布大模型推理引擎PerfXLLM

要的巨额开销也引发了相关研究者的关注。如何高效地进行推理，并尽可能地减少成本，从而促进大模型应用的落地成为了目前的关键问题。于是，澎峰科技研发了一款大模型推理引擎—PerfXLLM ，并且已经在高通的骁龙8Gen2 平台

发表于 11-25 15:35 •482次阅读

怎样使用Streamlit创建AutoGen用户界面？

AutoGen作为一个最大化LLM(如GPT-4)能力的框架而脱颖而出。

发表于 11-08 14:56 •302次阅读

STM32为何在诸多的单片机中脱颖而出？

STM32为何在诸多的单片机中脱颖而出？

发表于 10-19 18:05 •291次阅读

锂电涂布模头技术派崛起打造模头“六边形”战士

锂电产业在全新的升级迭代要求下，技术能力更强、产业积淀更雄厚的公司将脱颖而出。

发表于 09-02 17:21 •1628次阅读

LibTorch-based推理引擎优化内存使用和线程池

LibTorch-based推理引擎优化内存使用和线程池

发表于 08-31 14:27 •632次阅读

橙群微电子NanoBeacon SoC 在 &quot;Truly Innovative Electronics &quot;评选中脱颖而出

InPlay我们的#NanoBeaconSoC产品在ElectronicsForYou的"TrulyInnovativeElectronics"评选中脱颖而出

发表于 08-18 08:32 •397次阅读

如何在OpenVINO工具包中使用带推理引擎的blob？

无法确定如何在OpenVINO™工具包中使用带推理引擎的 blob。

发表于 08-15 07:17

C++演示中的推理速度比Python演示中的推理速度更快是为什么？

在同一主机机上采用相同型号的 Ran Object Detection C++ 演示和对象检测 Python 演示。 C++ 演示中的推理速度比 Python 演示中的推理速度

发表于 08-15 06:52

炫酷高颜值！全新设计的蓝牙耳机让你独具一格

个性化体验，领跑时尚潮流——高颜值蓝牙耳机助你脱颖而出

发表于 07-13 16:28 •352次阅读

企业数字化办公，华为云 WeLink 为何能脱颖而出

平台中，华为云 WeLink 凭借其安全、开放、智能的特点脱颖而出。它提供了一站式的办公协同解决方案，帮助企业实现全场景智能办公，让企业无边界协同。下面，我们将详细介绍华为云 WeLink 办公协同解决方案的优势和特点。华为云 WeLin

发表于 07-03 22:32 •529次阅读

如何在RT-Thread OS环境下使用ncnn进行AI推理

今天简报较短，主要演示一下如何在RT-Thread OS环境下使用ncnn进行AI推理

发表于 05-04 16:29 •813次阅读