0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TOPS 与现实世界的性能:AI 加速器的基准性能

juju宇哥 来源:juju宇哥 作者:juju宇哥 2022-07-14 17:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

蓬勃发展的机器学习人工智能新兴用例有望通过加速信息处理和提高决策准确性为行业创造重大价值。但机器学习模型是计算密集型、需要高频和实时 AI 分析场景,这导致企业依赖于使用每秒万亿次操作 (TOPS) 指标的性能指导。TOPS 捕捉到“加速器在一秒钟内可以提供多少数学运算?” 比较和确定给定推理任务的最佳加速器。

虽然 TOPS 是一个“容易”计算的指标,但它通常无法为实际工作负载提供可靠的性能指标。受限于加速器中乘法器和加法器的数量,该指标无法考虑处理神经网络模型的计算硬件结构。随着数据网络模型更快地处理数据,企业如何通过更快、更可靠的决策进行扩展,尤其是在边缘?

在这篇文章中,我们将回顾 TOPS、它在测量延迟方面的挑战以及它与现实世界的性能计算有何不同,并提供一种通过基准测试来计算性能的替代方法,它提供了一种更可靠的方法来解释计算硬件结构。

TOPS 作为绩效衡量标准的现实

TOPS 是一个简化指标:它告诉您 AI 加速器在一秒钟内可以处理多少计算操作,并且利用率为 100%。本质上,它着眼于加速器可以在很短的时间内解决多少数学运算问题。

例如,如果一个 AI 加速器提供 5 TOPS,另一个提供 15 TOPS,则推断后者比前者快三倍。但是,就像 CPU 速度的兆赫兹和千兆赫兹一样,TOPS 也失去了确定整体计算机性能的相关性。随着人们对 AI 应用的兴趣日益浓厚,最新的 AI 加速器可以比简单的算术更快地处理数据,并且更复杂。

然而,TOPS 很少准确地捕捉到 AI 处理器在整个硬件设备中的重要性。如今,相机、边缘服务器和计算机中的 AI 处理器通常是决定计算能力和能源效率的关键组件之一。事实上,TOPS 未能考虑到现实世界的工作量。通常,由于诸如空闲计算机单元等待来自内存的数据、加速器不同部分之间的同步开销和控制开销等因素,实际性能可能会显着低于 TOPS 值。根据加速器的架构和工作负载特性,

更高的 TOPS 不等于更高的性能

虽然较高的 TOPS 值可以表示具有更多计算元素的更大 AI 加速器,但现实情况可能恰恰相反。更高的 TOPS 通常会导致更大的加速器具有更多的计算元素和内存块,以将数据馈送到这些计算单元,这会导致更高的成本和功耗。另一方面,高效的加速器使用较少数量的计算资源提供更高的性能,因此 TOPS 评级较低。最终,理想的 AI 加速器是使用低 TOPS 提供高性能的加速器。

TOPS 不包括所有计算类型

TOPS 指标考虑了加速器的乘法器和加法器,这通常会导致性能指标不准确,因为加速器可以拥有除此之外的其他计算资源。例如,Kinara 的架构采用归约树而不是加法器阵列,从而显着降低能耗。由于在此计算中未捕获归约树的计算能力,TOPS 指标将不够准确。ResNet50、MobileNet V1 和 YOLO_v3 等标准神经网络在比较不同的加速器时非常有用,因为它们也可以用作“猜测”给定加速器是否能够满足开发人员自身工作负载需求的代理。

推理延迟是评估 AI 加速器性能的指标

对于在 Edge AI 上进行投资的企业,通过基准测试计算性能提供了一种可靠的方法来计算计算硬件结构与 TOPS。由于大多数实际应用程序需要极快的推理时间,因此衡量性能的最佳方法是运行特定的工作负载,通常是 ResNet-50、EfficientDet、Transformer 或自定义模型,以了解加速器的效率。使用不同类型、大小、拓扑和输入分辨率的网络进行实时处理,可以得出推理延迟度量。该指标计算加速器完成一个特定 AI 模型的干扰的执行时间。

随着 AI 工作负载及其支持计算架构的发展,通过准确的性能测量确保其可预测性具有重大影响,可以引导开发人员做出更优化的决策。通过使用推理延迟计算,它有助于处理和预测现代 AI 工作负载中的数据流,即使这些工作负载碎片化并且新架构的发展导致更多的不可预测性。最终,基准测试应用程序提供了一种可信且更可靠的 TOPS 替代方案,而 AI 加速器支持更有效的评估。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    842

    浏览量

    40361
  • AI
    AI
    +关注

    关注

    91

    文章

    42722

    浏览量

    303589
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    技嘉以创新 AI 驱动技术树立主板性能新标竿

    Turbo Mode 2.0 为技嘉 AI 关键技术的核心之一,专为 AMD Ryzen™ X3D 处理打造,并结合 AI 动态超频模型与搭载板载芯片,一键即可提升系统性能。透过大
    发表于 06-08 16:53

    英飞凌携手d-Matrix为AI推理加速器注入强劲电力

    近期,全球功率系统与物联网领域半导体领导者英飞凌科技股份公司(法兰克福证交所代码:IFX)宣布,与专注于数据中心高交互、低时延AI推理计算的先锋企业d-Matrix®达成合作。依托英飞凌电源解决方案,d-Matrix旗下Corsair™推理加速器在高密度板卡上实现了业界领
    的头像 发表于 06-01 10:25 982次阅读

    LTC1694 SMBus/I²C加速器:提升数据传输性能的利器

    LTC1694 SMBus/I²C加速器:提升数据传输性能的利器 在电子设计领域,数据传输的速度和可靠性一直是工程师们关注的重点。特别是在SMBus和I²C总线应用中,如何优化信号质量、提高传输效率
    的头像 发表于 05-13 14:10 297次阅读

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    AGX Orin 150 TOPS+ 本地大模型推理、具身智能控制、多模态实时交互 迷你AI服务 176TOPS 意味着OrangePi AI
    发表于 03-10 14:19

    瑞芯微SOC智能视觉AI处理

    RK1126B的基础上,增加了H.264/H.265视频编码能力的“全能型”视觉AI处理,实现编解码+AI分析一体化基础: 完全继承了RK1126B的所有特性,包括2TOPS NPU
    发表于 12-19 13:44

    重磅合作!Quintauris 联手 SiFive,加速 RISC-V 在嵌入式与 AI 领域落地

    (ADAS); 嵌入式平台的 AI 与机器学习加速器; 工业物联网与自动化系统(开放标准架构的优势能充分发挥)。 对咱们开发者来说,这波合作最大的好处就是能拿到集成式解决方案,不仅能缩短开发周期,还能
    发表于 12-18 12:01

    工业级-专业液晶图形显示加速器RA8889ML3N简介+显示方案选型参考表

    本帖最后由 MTCN2013 于 2025-11-17 15:23 编辑 专业液晶图形显示加速器能够有效减少对MCU运算资源的占用,对于只需普通单片机运算资源的仪器仪表来说,专业图形显示加速器
    发表于 11-14 16:03

    边缘计算中的AI加速器类型与应用

    提升AI应用的性能。在边缘计算中,有多种类型的AI加速器,各自具有不同的优势、局限性和适用场景。AI加速
    的头像 发表于 11-06 13:42 1195次阅读
    边缘计算中的<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>类型与应用

    亚马逊云科技第三期创业加速器圆满收官 助力初创释放Agentic AI潜力 加速全球化进程

    北京——2025年10月28日 ,亚马逊云科技第三期创业加速器项目圆满收官。35家入营企业齐聚一堂,分享了各自的业务发展情况,以及参与本期加速器的收获及体验。第三期创业加速器持续聚焦AI
    的头像 发表于 10-29 15:18 1177次阅读

    航裕电源以大电流技术为国内外超导加速器项目提供优质方案

    航裕电源:以大电流技术,护航尖端科技 大科学装置建设热潮中,超导加速器作为探索微观世界、推动前沿科研的 “国之重”,对供电系统的稳定性、精度及功率提出极致要求。航裕电源以31.5kA、80kA万安
    的头像 发表于 10-12 15:02 1896次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    乘法的新型架构 基于Transformer模型的高性能FPGA加速器。 4.2基于常微分方程的加速 5、基于ASIC的大模型计算 5.1 Sanger 5.2 Energon 6
    发表于 09-12 17:30

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、更高的效率,实现从模型训练的深度突破到推理部署的实时响应,为大模型的加速落地提供
    的头像 发表于 08-26 19:18 3531次阅读
    英特尔Gaudi 2E <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>为DeepSeek-V3.1提供<b class='flag-5'>加速</b>支持

    Arm神经技术是业界首创在 Arm GPU 上增添专用神经加速器的技术,移动设备上实现PC级别的AI图形性能

    Arm 神经技术是业界首创在 Arm GPU 上增添专用神经加速器的技术,首次在移动设备上实现 PC 级别的 AI 图形性能,为未来的端侧 AI 创新奠定基础 神经超级采样是 Arm
    的头像 发表于 08-14 17:59 3021次阅读

    粒子加速器 —— 科技前沿的核心装置

    粒子加速器全称“荷电粒子加速器”,是一种利用电磁场在高真空环境中对带电粒子(如电子、质子、离子)进行加速和控制,使其获得高能量的特种装置。粒子加速器技术现已发展成为集高能物理、核物理、
    的头像 发表于 06-19 12:05 4632次阅读
    粒子<b class='flag-5'>加速器</b> —— 科技前沿的核心装置

    芯原可扩展的高性能GPGPU-AI计算IP赋能汽车与边缘服务AI解决方案

    与人工智能 (AI) 加速器相融合,这些IP在热和功耗受限的环境下,能够高效支持大语言模型 (LLM) 推理、多模态感知以及实时决策等复杂的AI工作负载。 芯原的GPGPU-AI计算I
    的头像 发表于 06-16 10:44 1643次阅读