0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在推理引擎中去除TOPS的顶部

星星科技指导员 来源:嵌入式计算设计 作者:Geoff Tate 2022-12-01 15:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着 AI 的爆炸式增长,人们开始高度关注能够提供 AI 所需性能的新型专用推理引擎。因此,在过去的六个月里,我们看到了一系列神经推理硬件的发布,所有这些都有望提供比市场上任何其他产品更好的加速。然而,挑战在于没有人真正知道如何从另一个衡量一个。这是一项新技术,像任何新技术一样,我们需要指标,我们需要真正重要的指标。

一切都与吞吐量有关

当推理引擎的性能出现时,供应商会抛出基准测试,引用TOPS(Tera-Operations/second)性能和TOPS/Watt等内容。研究这些数字的系统/芯片设计人员很快意识到这些数字通常毫无意义。真正重要的是推理引擎可以为模型、图像大小、批量大小和过程以及 PVT(过程/电压/温度)条件提供多少吞吐量。这是衡量其性能的第一标准,但令人惊讶的是,很少有供应商提供它。

TOPS最大的问题是,当一家公司说他们的发动机做X TOPS时,他们通常会引用这个而不说明条件是什么。在不知道这些信息的情况下,他们错误地认为X TOPS意味着它可以执行X万亿次操作。实际上,报价 130 TOPS 的公司可能只能提供 27 TOPS 的可用吞吐量。

另一个正在使用但不太常见的基准测试是ResNet-50。这个基准的问题在于,大多数引用它的公司都没有给出批量大小。当他们不提供这一点时,芯片设计人员可以假设这将是一个大批量大小,以最大限度地提高他们的硬件利用率百分比。这使得 ResNet-50 作为基准测试不是很有帮助。相比之下,例如,YOLOv3 需要 100 倍以上的操作来处理 200 万像素的图像。硬件利用率在“现实世界”模型上将面临更大的挑战。

如何正确测量神经推理引擎

在评估神经推理引擎时,有几个关键事项需要考虑。以下是最重要的考虑因素以及它们真正重要的原因。

定义什么是操作:一些供应商将乘法(通常为 INT 8 乘以 INT 8)计为一个运算,将累加(加法,通常为 INT 32)计为一个运算。因此,单个乘法累加等于 2 个运算。但是,一些供应商在其TOPS规范中包含其他类型的操作,因此必须在开始时进行澄清。

询问操作条件是什么:如果供应商在没有提供条件的情况下给出 TOPS,他们通常使用室温、标称电压和典型工艺。通常他们会提到他们指的是哪个工艺节点,但不同供应商的运行速度不同,大多数工艺都提供 2、3 或更高的标称电压。由于性能是频率的函数,而频率是电压的函数,因此芯片设计人员在0.9V下可以获得比0.6V时两倍以上的性能。频率因条件/假设而异。有关此方面的更多信息,请参阅本应用笔记。

查看批量大小:即使供应商提供了最坏情况的TOPS,芯片设计人员也需要弄清楚所有这些操作是否真的有助于计算他们的神经网络模型。实际上,实际利用率可能非常低,因为没有推理引擎始终对所有 MAC 具有 100% 的利用率。这就是为什么批量大小很重要的原因。批处理是为给定层加载权重并同时处理多个数据集。这样做的原因是提高吞吐量,但放弃的是更长的延迟。ResNet-50 有超过 2000 万个权重;YOLOv3 有超过 6000 万个权重;并且必须获取每个权重并将其加载到每个图像的MAC结构中。有太多的权重,无法将它们全部驻留在 MAC 结构中。

查找您的 MAC 利用率:并非所有神经网络的行为都相同。您需要以所需的批大小找出要部署的神经网络模型的神经推理引擎的实际 MAC 利用率。

深入了解 TOPS

如果你是一个正在研究神经推理引擎的设计师,希望这篇文章能阐明要寻找什么。请记住,吞吐量才是最重要的。重要的是不要陷入无意义的基准测试,如TOPS和ResNet-50,除非你知道要问的事情。首先提出以下问题:在批量大小= A和XYZ PVT条件下,特定模型(例如YOLOv3)可以处理多少图像/秒。一旦你开始指定条件和假设,你就会开始了解任何神经推理在现实世界中的表现。归根结底,这才是最重要的。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54422

    浏览量

    469255
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108166
  • AI
    AI
    +关注

    关注

    91

    文章

    41101

    浏览量

    302580
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    米尔RK3576+Hailo-8突破6 TOPS极限,让高帧率摄像头真正“实时”

    的“性能天花板”。 米尔基于RK3576开发板 一、RK3576的算力极限在哪里? RK3576内置NPU由2核组成,具备6 TOPS 算力,常规轻量级模型推理中表现不俗。但在实际项目中,我们通过多路并发
    发表于 04-02 18:03

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    310P芯片的底层架构,深度剖析这款产品的技术细节、算力门槛及其实际产业落地中的真实价值。 一、176TOPS的产业门槛:为何这是边缘算力的新起点? AI硬件的核心指标始终是算力,但不同层级的算力决定
    发表于 03-10 14:19

    新品 | AI Pyramid AI Pyramid-Pro,面向本地推理与智能交互的高性能AI PC

    AIPyramid是一款金字塔形状的高性能AIPC,专为本地AI推理与边缘智能应用而生。内置AxeraAX8850SoC,集成八核Cortex-A55处理器与24TOPS@INT8NPU,轻松应对
    的头像 发表于 02-06 17:24 3896次阅读
    新品 | AI Pyramid AI Pyramid-Pro,面向本地<b class='flag-5'>推理</b>与智能交互的高性能AI PC

    6TOPS算力到底够不够做工业视觉?一篇讲清摄像头路数、模型选择与BL450实战

    工业视觉、AI检测、机器人抓取、边缘推理……这两年越来越多人在问一个看似简单却常吵出争议的问题: 6TOPS算力,到底够不够做视觉?到底能带几个摄像头? 有人说6TOPS“只能做轻量检测”;也有人说
    的头像 发表于 01-23 16:14 674次阅读
    6<b class='flag-5'>TOPS</b>算力到底够不够做工业视觉?一篇讲清摄像头路数、模型选择与BL450实战

    LLM推理模型是如何推理的?

    这篇文章《(How)DoReasoningModelsReason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越了表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键
    的头像 发表于 01-19 15:33 698次阅读
    LLM<b class='flag-5'>推理</b>模型是如何<b class='flag-5'>推理</b>的?

    QDPAK顶部散热封装简介

    QDPAK顶部散热器件是一种表贴器件产品。相对于传统表贴产品只能从底部进行散热的方式,顶部散热器件分离了电气路径和热流路径,尤其适合在高功率密度的应用,如AI服务器电源和车载充电器等应用。而英飞凌
    的头像 发表于 12-18 17:08 931次阅读
    QDPAK<b class='flag-5'>顶部</b>散热封装简介

    思必驰场景化推理AI重塑智能交互

    AI技术从“感知”走向“认知”的今天,推理能力正成为推动人工智能向更高阶跃迁的核心引擎
    的头像 发表于 12-12 11:31 859次阅读

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎本地享受企
    的头像 发表于 08-14 11:34 1547次阅读

    积算科技上线赤兔推理引擎服务,创新解锁FP8大模型算力

    的模型轻量化部署方案。用户通过远程算力平台预置的模型镜像与AI工具,仅需50%的GPU算力即可解锁大模型推理、企业知识库搭建、智能体开发,加速大模型智能问答、报告生成、客服助手、智能体等典型行业场景的落地。   赤兔推理
    的头像 发表于 07-30 21:44 1039次阅读

    基于米尔瑞芯微RK3576开发板部署运行TinyMaix:超轻量级推理框架

    本文将介绍基于米尔电子MYD-LR3576开发平台部署超轻量级推理框架方案:TinyMaix 摘自优秀创作者-短笛君 TinyMaix 是面向单片机的超轻量级的神经网络推理库,即 TinyML
    发表于 07-25 16:35

    研华科技推出紧凑型边缘AI推理系统AIR-120

    Hailo-8 AI加速器。这一强大的系统配置能够提供可扩展的性能,最多具备8个核心,AI计算能力高达26 TOPS,并且性能、功耗效率和成本之间进行平衡,从而实现高吞吐量、低延迟的推理,非常适用于轻量级视觉AI应用。
    的头像 发表于 07-17 17:16 1182次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型系统,构建了新一代
    发表于 07-16 15:29

    大模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型各个领域得到了广泛应用。然而,大模型的推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这一问题,本文将探讨大模型推理显存和计算量的估计
    发表于 07-03 19:43

    HarmonyOS实战:Tab顶部滑动悬停功能实现

    日常开发过程中,遇到这种 Scroll 嵌套 List 列表滑动顶部悬停的场景十分常见,鸿蒙开发时也正好实现了这个功能,本篇文章将带你一步步实现 Tab 顶部悬停的效果,建议点赞收藏!
    的头像 发表于 06-24 17:07 582次阅读

    芯原超低能耗NPU可为移动端大语言模型推理提供超40 TOPS算力

    芯原股份今日宣布其超低能耗且高性能的神经网络处理器(NPU)IP现已支持移动端进行大语言模型(LLM)推理,AI算力可扩展至40 TOPS以上。该高能效NPU架构专为满足移动平台日益增长的生成式
    的头像 发表于 06-11 10:47 986次阅读