0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

不要相信报告的深度学习TOPS指标

萧蔼晨 来源:njlbdz 作者:njlbdz 2022-07-15 16:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能公司通常会关注一个标准:每秒更多 tera 操作 (TOPS)。不幸的是,当硅制造商宣传他们的 TOPS 指标时,他们并没有真正提供准确的指导。在大多数情况下,被炒作的数字并不是真正的 TOPS,而是峰值 TOPS。换句话说,你认为你在卡中获得的 TOPS 数字实际上是芯片在一个非常完美的世界中表现的最佳情况。

我将讨论行业因错误标记性能指标而造成的问题,并解释用户如何独立评估现实世界的 TOPS。

人造上衣与真上衣

AI 应用程序开发人员通常会通过衡量芯片制造商发布的 TOPS 性能数据是否足以支持他们的项目来开始进行尽职调查。

假设您尝试在 U-Net 神经网络上以 10 fps(每秒帧数)重新制作全高清图像。由于 U-Net 操作每张图像需要 3 TOPS,简单的数学表示您需要 30 TOPS 才能以所需的 FPS 完成项目。因此,在购买芯片时,您会假设声称运行 50、40 甚至 32 TOPS 的卡对项目来说是安全的。在一个完美的世界里,是的,但你很快就会发现这张卡很少能达到广告的数字。而且我们不是在谈论仅仅几滴TOPS;计算效率可低至 10%。

虽然调整神经网络以从卡中获得更好的性能当然是可能的,但您几乎不可能接近供应商列出的峰值 TOPS。试图获得 60% 或 70% 的计算效率将耗费大量时间。如果神经网络发生任何变化,您将不得不回到原点重新优化所有内容——但它甚至可能不适用于您的应用程序。这个问题对于小批量处理尤其明显;你会很幸运能获得超过 15% 的峰值 TOPS。

计算效率

此时,您可能想知道如何计算真正的 TOPS。这很简单!

要了解特定卡将提供多少真实 TOPS,您首先需要确定该卡的计算效率。理想情况下,这可以通过简单地在目标卡上运行所需的神经网络来完成。但是,您可能没有该卡。您仍然可以通过查看供应商的营销数据的详细信息来进行估算。通常可以获得像 ResNet50(或类似的)这样的神经网络的性能数据。假设这是一个典型的 ResNet50 实现,您可以找到计算单个图像的每秒千兆操作数(GOPS,而不是 TOPS)。然后,只需将其乘以供应商宣传的每秒图像数 (IPS),瞧!您就有了更真实的 TOPS 或“真实”TOPS。

效率只是 real 除以峰值 TOPS 的比率,或者:

峰值 TOPS x 计算效率 = 实际 TOPS

这个公式使用户能够在购买任何东西之前比较卡在运行神经网络时的真实效率。您可以使用所需的 TOPS 重用效率,看看它是否符合您的需求。虽然功率和批量大小等因素会影响结果,但如果您知道卡的效率,则此公式可以很好地估计其在实际用例中的实际性能。当然,供应商发布的神经网络的 IPS 仍然可以质疑,但至少估计比比较你真正需要的 TOPS 和一张卡的峰值 TOPS 更好。

还值得注意的是,这不仅仅是 GPU 问题。大多数专业 ASIC 的实际效率非常低,即使他们的营销促进了高效率。只需使用 IPS、已知的网络 GOPS 和简单的乘法运算,您就可以了解一个真实的数字。

高效的替代品

尽管 GPU 和 ASIC 都在效率和性能上苦苦挣扎,但有一种替代解决方案不涉及这些芯片中的任何一个。

2020 年 10 月的 MLPerf 结果表明,与推理加速相结合的 FPGA 比其他替代方案的效率要高得多,因此可以更接近其他芯片制造商宣传的最高 TOPS 数。

pYYBAGLO9LqAb-1dAACNdthL3nw757.jpg


比较不同架构下每个发布的 TOPS 数据的每秒帧数 (FPS)(来源:Mipsology)

FPGA 不仅在计算方面更高效,而且在计算硅片使用方面也更高效。从本质上讲,这些卡“事半功倍”,从而以一小部分成本获得更好的神经网络性能。

值得重复一遍:买家不应该因为 TOPS 营销炒作而堕落。这是一个夸大的性能数字,大多数神经网络在现实条件下永远不会看到。相反,利用这个公式:

峰值 TOPS x 计算效率 = 实际 TOPS

这样做将帮助您快速、轻松、准确地将您的性能需求与芯片的实际性能进行比较,而不是任何夸大的供应商声称。

——Ludovic Larzul 是 Mipsology 的创始人兼首席执行官。



审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108178
  • AI
    AI
    +关注

    关注

    91

    文章

    41109

    浏览量

    302595
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能-Python深度学习进阶与应用技术:工程师高培解读

    深度学习的工程化落地,早已不是纸上谈兵的事。从卷积神经网络到Transformer,从目标检测到大模型私有化部署,技术栈不断延伸,工程师面临的知识体系也越来越庞杂。现根据中际赛威工程师培训老师的一份
    的头像 发表于 04-21 11:01 304次阅读
    人工智能-Python<b class='flag-5'>深度</b><b class='flag-5'>学习</b>进阶与应用技术:工程师高培解读

    【智能检测】基于AI深度学习与飞拍技术的影像测量系统:实现高效精准的全自动光学检测与智能制造数据闭环

    内容概要:文档内容介绍了中图仪器(Chotest)影像测量仪融合人工智能深度学习与飞拍技术的自动化检测解决方案。系统通过AI深度学习实现抗干扰能力强、自适应高的智能寻边,精准识别复
    发表于 03-31 17:11

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    310P芯片的底层架构,深度剖析这款产品的技术细节、算力门槛及其在实际产业落地中的真实价值。 一、176TOPS的产业门槛:为何这是边缘算力的新起点? AI硬件的核心指标始终是算力,但不同层级的算力决定
    发表于 03-10 14:19

    资料] 汽车软件质量跃迁的系统性路径:基于ISO 26262标准的单元测试体系重构与中日实践深度对比(2026学术研究报告

    各位伙伴,请问一个问题,[资料] 汽车软件质量跃迁的系统性路径:基于ISO 26262标准的单元测试体系重构与中日实践深度对比(2026学术研究报告),这份数据谁有源参考文献,有酬感谢
    发表于 01-08 10:09

    机器学习深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 350次阅读
    机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    算力高达 1570 TOPS!支持多硬盘的高算力服务器 CSB2-N10

    CSB2-N10服务器内置10个分布式计算节点,单节点可提供6-157TOPS算力,可选瑞芯微、算能、NVIDIA等平台。支持主流AI大模型的私有化部署、多种深度学习框架。拥有2个万兆网口、2千兆网
    的头像 发表于 01-06 16:33 743次阅读
    算力高达 1570 <b class='flag-5'>TOPS</b>!支持多硬盘的高算力服务器 CSB2-N10

    穿孔机顶头检测仪 机器视觉深度学习

    LX01Z-DG626穿孔机顶头检测仪采用深度学习技术,能够实现顶头状态的在线实时检测,顶头丢失报警,顶头异常状态报警等功能,响应迅速,异常状态视频回溯,检测顶头温度,配备吹扫清洁系统,维护周期长
    发表于 12-22 14:33

    算力高达 1100 TOPS!内置 Jetson AGX Orin 模组的高算力服务器

    CSB1-N4AGXOrin最高可配置4个NVIDIAJetsonAGXOrin(64GB)计算节点,算力最高1100TOPS(INT8)。支持主流AI大模型的私有化部署、多种深度学习框架。拥有4个
    的头像 发表于 12-17 16:31 804次阅读
    算力高达 1100 <b class='flag-5'>TOPS</b>!内置 Jetson AGX Orin 模组的高算力服务器

    从直流到高频:深度解析电流探头的关键性能指标与选型指南

    深度解析电流探头的关键性能指标与选型指南
    的头像 发表于 12-17 14:54 520次阅读

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 329次阅读

    算力高达 275 TOPS!EC-AGXOrin 边缘计算主机

    采用NVIDIAJetsonAGXOrin(64GB)模组,算力可达275TOPS,支持多种AI大模型和深度学习框架。支持22路1080P视频解码。配置工业级全铝合金外壳、两个散热风扇设计,7×24
    的头像 发表于 10-21 16:33 2062次阅读
    算力高达 275 <b class='flag-5'>TOPS</b>!EC-AGXOrin 边缘计算主机

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概
    的头像 发表于 09-10 17:38 1049次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    深度学习对工业物联网有哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供了从数据感知到智能决策的全链路升级能力。以下从技术赋能、场景突破
    的头像 发表于 08-20 14:56 1209次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 4367次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    深度学习遇上嵌入式资源困境,特征空间如何破局?

    近年来,随着人工智能(AI)技术的迅猛发展,深度学习(Deep Learning)成为最热门的研究领域之一。在语音识别、图像识别、自然语言处理等领域,深度学习取得了显著成果。从原理上看
    发表于 07-14 14:50 1323次阅读
    当<b class='flag-5'>深度</b><b class='flag-5'>学习</b>遇上嵌入式资源困境,特征空间如何破局?