0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TOPS 与现实世界的性能:AI 加速器的基准性能

juju宇哥 来源:juju宇哥 作者:juju宇哥 2022-07-14 17:17 次阅读

蓬勃发展的机器学习人工智能新兴用例有望通过加速信息处理和提高决策准确性为行业创造重大价值。但机器学习模型是计算密集型、需要高频和实时 AI 分析场景,这导致企业依赖于使用每秒万亿次操作 (TOPS) 指标的性能指导。TOPS 捕捉到“加速器在一秒钟内可以提供多少数学运算?” 比较和确定给定推理任务的最佳加速器。

虽然 TOPS 是一个“容易”计算的指标,但它通常无法为实际工作负载提供可靠的性能指标。受限于加速器中乘法器和加法器的数量,该指标无法考虑处理神经网络模型的计算硬件结构。随着数据网络模型更快地处理数据,企业如何通过更快、更可靠的决策进行扩展,尤其是在边缘?

在这篇文章中,我们将回顾 TOPS、它在测量延迟方面的挑战以及它与现实世界的性能计算有何不同,并提供一种通过基准测试来计算性能的替代方法,它提供了一种更可靠的方法来解释计算硬件结构。

TOPS 作为绩效衡量标准的现实

TOPS 是一个简化指标:它告诉您 AI 加速器在一秒钟内可以处理多少计算操作,并且利用率为 100%。本质上,它着眼于加速器可以在很短的时间内解决多少数学运算问题。

例如,如果一个 AI 加速器提供 5 TOPS,另一个提供 15 TOPS,则推断后者比前者快三倍。但是,就像 CPU 速度的兆赫兹和千兆赫兹一样,TOPS 也失去了确定整体计算机性能的相关性。随着人们对 AI 应用的兴趣日益浓厚,最新的 AI 加速器可以比简单的算术更快地处理数据,并且更复杂。

然而,TOPS 很少准确地捕捉到 AI 处理器在整个硬件设备中的重要性。如今,相机、边缘服务器和计算机中的 AI 处理器通常是决定计算能力和能源效率的关键组件之一。事实上,TOPS 未能考虑到现实世界的工作量。通常,由于诸如空闲计算机单元等待来自内存的数据、加速器不同部分之间的同步开销和控制开销等因素,实际性能可能会显着低于 TOPS 值。根据加速器的架构和工作负载特性,

更高的 TOPS 不等于更高的性能

虽然较高的 TOPS 值可以表示具有更多计算元素的更大 AI 加速器,但现实情况可能恰恰相反。更高的 TOPS 通常会导致更大的加速器具有更多的计算元素和内存块,以将数据馈送到这些计算单元,这会导致更高的成本和功耗。另一方面,高效的加速器使用较少数量的计算资源提供更高的性能,因此 TOPS 评级较低。最终,理想的 AI 加速器是使用低 TOPS 提供高性能的加速器。

TOPS 不包括所有计算类型

TOPS 指标考虑了加速器的乘法器和加法器,这通常会导致性能指标不准确,因为加速器可以拥有除此之外的其他计算资源。例如,Kinara 的架构采用归约树而不是加法器阵列,从而显着降低能耗。由于在此计算中未捕获归约树的计算能力,TOPS 指标将不够准确。ResNet50、MobileNet V1 和 YOLO_v3 等标准神经网络在比较不同的加速器时非常有用,因为它们也可以用作“猜测”给定加速器是否能够满足开发人员自身工作负载需求的代理。

推理延迟是评估 AI 加速器性能的指标

对于在 Edge AI 上进行投资的企业,通过基准测试计算性能提供了一种可靠的方法来计算计算硬件结构与 TOPS。由于大多数实际应用程序需要极快的推理时间,因此衡量性能的最佳方法是运行特定的工作负载,通常是 ResNet-50、EfficientDet、Transformer 或自定义模型,以了解加速器的效率。使用不同类型、大小、拓扑和输入分辨率的网络进行实时处理,可以得出推理延迟度量。该指标计算加速器完成一个特定 AI 模型的干扰的执行时间。

随着 AI 工作负载及其支持计算架构的发展,通过准确的性能测量确保其可预测性具有重大影响,可以引导开发人员做出更优化的决策。通过使用推理延迟计算,它有助于处理和预测现代 AI 工作负载中的数据流,即使这些工作负载碎片化并且新架构的发展导致更多的不可预测性。最终,基准测试应用程序提供了一种可信且更可靠的 TOPS 替代方案,而 AI 加速器支持更有效的评估。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    744

    浏览量

    36600
  • AI
    AI
    +关注

    关注

    87

    文章

    26458

    浏览量

    264072
收藏 人收藏

    评论

    相关推荐

    Arm推动生成式AI落地边缘!全新Ethos-U85 AI加速器支持Transformer 架构,性能提升四倍

    ,以满足更高性能和更复杂的 AI 工作负载。Ethos-U NPU系列是业界首款 AI加速器,英飞凌、恩智浦半导体、奇景光电 (Himax)、Alif Semiconductor
    的头像 发表于 04-16 09:10 2306次阅读
    Arm推动生成式<b class='flag-5'>AI</b>落地边缘!全新Ethos-U85 <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>支持Transformer 架构,<b class='flag-5'>性能</b>提升四倍

    瑞萨电子宣布推出一款面向高性能机器人应用的新产品—RZ/V2H

    具有10TOPS/W能效的新一代AI加速器无需冷却风扇即可提供高达80TOPSAI推理性能
    的头像 发表于 03-01 10:41 485次阅读
    瑞萨电子宣布推出一款面向高<b class='flag-5'>性能</b>机器人应用的新产品—RZ/V2H

    粒子加速器加速原理是啥呢?

    粒子加速器加速原理是啥呢? 粒子加速器是一种重要的实验设备,用于研究粒子物理学、核物理学等领域。其主要原理是通过电场和磁场的作用,对带电粒子进行加速,在高速运动过程中使其获得较大的动
    的头像 发表于 12-18 13:52 899次阅读

    英特尔Gaudi 3系列AI加速器明年上市

    英特尔总裁帕特·基辛格(Pat Gelsinger)认为,鉴于英特尔Gaudi3具备的持续加强的性能优势和极具竞争性的TCO及定价机制,预测该产品有望在2024年凭借领先的AI加速器套件占据更大的市场份额。
    的头像 发表于 12-15 11:07 432次阅读

    英特尔发布第五代至强可扩展处理器:性能和能效大幅提升,AI 加速

    此外,至强可扩展处理器被誉为行业首屈一指的内置AI加速器数据中心处理器,全新第五代产品更能优化参数量高达200亿的大型语言模型,使其推理性能提升42%。眼下,它还是唯一历次刷新MLPerf训练及推理
    的头像 发表于 12-15 11:02 481次阅读

    21489的IIR加速器滤波参数设置如何对应加速器的滤波参数?

    目前在用21489内部的IIR加速器去做一个低通滤波,在例程的基础上修改参数。通过平板的fda 工具工具去设计参数,但是设计出来的参数不知道如何对应加速器的滤波参数,手册里也看得不是很明白。 设计的参数如下: 请问
    发表于 11-30 08:11

    PCIe在AI加速器中的作用

    从线上购物时的“猜你喜欢”、到高等级自动驾驶汽车上的实时交通信息接收,再到在线视频游戏,所有的这些都离不开人工智能(AI加速器AI加速器是一种高
    的头像 发表于 11-18 10:36 1238次阅读
    PCIe在<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>中的作用

    Hailo拓展Hailo-8人工智能加速器产品阵列,助力边缘设备实现高性能人工智能

    摘要:新的Hailo-8 Century和Hailo-8L AI加速器通过广泛的人工智能平台扩展了Hailo-8产品阵列,可在入门级和高要求边缘设备中实现高性能人工智能。 边缘人工智能处理器芯片
    的头像 发表于 11-07 10:16 295次阅读

    蜂板8PEdge AI SBC将恩智浦 i.MX 8M Plus SoC与Hailo-8 AI加速器相结合

    蜂板 8PEdge AI Pico-ITX SBC将NXP i.MX 8M Plus处理器(本身与2.3 TOPS NPU)与26 TOPS Hailo-8 AI
    的头像 发表于 10-17 11:49 561次阅读
    蜂板8PEdge <b class='flag-5'>AI</b> SBC将恩智浦 i.MX 8M Plus SoC与Hailo-8 <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>相结合

    AI加速器架构设计与实现》+第2章的阅读概括

    首先感谢电子发烧友论坛提供的书籍和阅读评测的机会。 拿到书,先看一下封面介绍。这本书的中文名是《AI加速器架构设计与实现》,英文名是Accelerator Based on CNN Design
    发表于 09-17 16:39

    AI加速器架构设计与实现》+学习和一些思考

    AI加速器设计的学习和一些思考 致谢 首先感谢电子发烧友论坛提供的书籍 然后为该书打个广告吧,32K的幅面,非常小巧方便,全彩印刷,质量精良,很有质感。 前言 设计神经网络首先要考虑的几个问题
    发表于 09-16 11:11

    CPU性能基准介绍及其在国内市场的应用

    基准是衡量最流行的消费设备中CPU性能的重要工具,尤其是在包括数字电视(DTV)和机顶盒(STB)在内的家庭领域。 然而,基准正在以快速的速度发展,从独立的测量转向考虑真实世界的用例,
    发表于 08-28 07:02

    Intel媒体加速器参考软件用户指南

    英特尔媒体加速器参考软件是用于数字标志、交互式白板(IWBs)和亭位使用模型的参考媒体播放应用软件,它利用固定功能硬件加速来提高媒体流速、改进工作量平衡和资源利用,以及定制的图形处理股(GPU)管道解决方案。该用户指南将介绍和
    发表于 08-04 07:07

    【书籍评测活动NO.18】 AI加速器架构设计与实现

    经验总结图解NPU算法、架构与实现,从零设计产品级加速器当前,ChatGPT和自动驾驶等技术正在为人类社会带来巨大的生产力变革,其中基于深度学习和增强学习的AI计算扮演着至关重要的角色。新的计算范式需要
    发表于 07-28 10:50

    大模型算力新选择——宝德AI服务器采用8颗英特尔Gaudi®2加速器

    近日,英特尔专门针对中国市场推出深度学习加速器Habana® Gaudi®2.以领先的性价比优势,加速AI训练及推理,提高深度学习性能和效率,从而成为大规模部署
    的头像 发表于 07-19 14:43 498次阅读