0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何透过数字直剖本质评估AI芯片的真实性能?

地平线HorizonRobotics 来源:地平线HorizonRobotics 作者:地平线HorizonRobot 2021-05-03 18:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

特斯拉 Hardware 3.0 的效率之谜

特斯拉在其推出的 Hardware 3.0 自动驾驶平台中,采用自研芯片替代了Nvidia Drive PX2,其理论算力直线提升了 3 倍,而以 MAPS 方式来评估,其真实 AI 性能更是惊人的提升了 21 倍。具体而言,Hardware 2.0 时每秒只能处理 110 帧图像,而现在则高达 2300 帧。

那么,Hardware 的效率提升应该如何认识呢?在“算力至上”的今天,如何透过数字直剖本质评估 AI 芯片的真实性能?

算力攀升,为什么却看不到实用性?

随着芯片制程技术的演进,摩尔定律的发展却逐渐进入瓶颈期,这与当下计算 AI 计算需求量爆发式的增长显得格格不入。追求纯算力突破并不可持续,同时算力也并不代表汽车智能芯片“真实性能”,芯片计算效率也同样需要关注。于是,软硬结合、算法加持的 AI 芯片接过了跑赢新场景的接力棒。

当前,行业普遍以“TOPS”为单位来评估AI的理论峰值算力。尽管在目前主流的AI芯片性能基准测试( MLPerf )下很多顶级厂商频繁刷新榜单记录,但在实际场景下的算力有效利用率却差强人意。

2b80db88-9572-11eb-8b86-12bb97331649.png

人们逐渐认识到,AI 芯片理论峰值算力并不一定能在实际运行中完全释放。例如,一款拥有理论峰值算力为 16 TOPS 的芯片,在计算不同模型时甚至会有接近 80% 的差异。此外,在卷积神经网络任务实测中,从 2014 年到 2019 年,最好的神经网络计算效率相差了 100 倍,相当于计算效率每 9 个月翻一倍,远快于每 18 个月翻倍的摩尔定律。因此在模型算法演进速度远快于芯片性能提升的速度的现在,不仅需要算力更高的芯片,也需要更合理的性能评估方法帮助用户选择适合的 AI 芯片。

对这些 AI 时代出现的新变化,以地平线为代表的 AI 芯片企业认为,单纯依赖于 PPA 芯片设计指标,很容易陷入算力至上的“误区”,但算力并不是完全反应芯片性能唯一评估标准。因此,地平线提出了 MAPS(Mean Accuracy-guaranteed Processing Speed)概念和评估方法,以此作为检验 AI 性能的真正标准。通俗来说,就是在特定的 AI 应用领域,看芯片处理 AI 任务的速度和精度,即“多快”和“多准”。

MAPS 动态评估芯片真实 AI 性能

随着 AI 算法的不断演进,几乎每 10-14 个月,相同的计算精度计算量可以下降一半。这种提升与算法设计的精妙程度息息相关,但算法的快速演进也对计算架构提出巨大的挑战,尤其是对传统通用的并行架构而言,例如亟需高效AI专用处理器的自动驾驶场景。

MAPS 其实是在物理算力的基础上,通过对大量模型的测试,综合各个模型的速度(正比与物理算力*实际利用率)和准确率得到的最佳方案的量化结果。它更聚焦于使用户能够通过可视化的图表直观的感知 AI 芯片真实算力。正如对于汽车来说,马力(单位: HP)不如百公里加速时间(单位:秒)更真实反映整车动力性能;算力(单位: TOPS)并不反映汽车智能芯片实际性能,而每秒准确识别帧率 MAPS(单位: FPS)才是更真实的性能指标。

2bb9df64-9572-11eb-8b86-12bb97331649.png

MAPS=最佳模型多边形面积/(精度上界—精度下界),其中横轴反应帧率,纵轴反应精度

此外,在自动驾驶中应该如何对速度和精度做取舍呢?现实生活中我们经常遇到一些极端的案例,例如当汽车遭遇小孩子横穿马路的突发状况时,如果自动驾驶识别延时过高,会刹车不及时;如果精度不够,则会造成无法识别。在很多类似的场景中,我们往往面临既要“快”,又要兼顾“准”的境况。而在 MAPS 评估方法下,我们可以清晰看到帧率和精度之间的动态关系,这也是其对实际场景的重要价值之一。

更高级别自动驾驶需要多少“FPS”?

软件定义的汽车的趋势下,未来汽车正逐步成为四个轮子上的超级计算机。可以清晰预见的是,电动车卖点不是车,而是「智能」,这是一个堪比计算机诞生级别的创新。

特斯拉在 Hardware 3.0 中,采用其自研 AI 芯片 FSD Chip 替代了 Hardware 2.5 中的 Nvidia Drive PX2,算力从 24 TOPS 提升到了 72 TOPS,但运行同样模型的精度却惊人的提升了 21 倍。具体而言,Hardware 2.0 时每秒只能处理 110 帧图像,而现在则高达 2300 帧。除了绝对算力的提升,额外提升则来自于利用率的提升。同时特斯拉也宣布针对 Hardware 3.0 重写自动驾驶软件,从而在 2020 年 10 月推出了 FSD beta,这是唯一不受场地限制、大规模测试的自动驾驶方案。

特斯拉革命性技术的重构与 MAPS背后体现的理念有相通之处:提升物理算力(HW 3.0 提升 3 倍)、提升利用率(提升近 2 倍),找到最佳的速度和准确率提升(重写自动驾驶软件),使得特斯拉从简单场景的 NOA 一步步突破到不受限的自动驾驶。而地平线在芯片设计之中一直贯彻 MAPS 背后的技术理念,关注提升物理算力的同时关注利用率的提升,并且不断把算法发展趋势,使得软硬件可以协同共振,发挥最高效能。

为了助力汽车厂商突破“特斯拉困境”,实现高级别自动驾驶的落地。地平线即将推出的征程 5 MAPS 整体跑分高达 3020 FPS,其中 MAPS@COCO (检测任务COCO MAPS) 跑分可高达 116,而 Nvidia Xavier MAPS@COCO 为 41 FPS (GPU&DLA@32W mode ),如此高的性能将助力车厂加速实现自动驾驶方案的落地。

驱动新基建数字底座,需要有算力也要有效率。自成立以来,地平线便致力于兼备算力与效率的高性能芯片。未来,地平线将推出性能更强大的征程6,其不仅在功耗、面积优化的基础上,同时在MAPS上继续提升一个数量级,助力全行业共同努力进一步大幅提升自动驾驶的安全性。

原文标题:不看算力看效率,更高级别的自动驾驶需要多少 “FPS”?

文章出处:【微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 特斯拉
    +关注

    关注

    66

    文章

    6404

    浏览量

    131016
  • AI
    AI
    +关注

    关注

    89

    文章

    38161

    浏览量

    296840
  • 自动驾驶
    +关注

    关注

    791

    文章

    14673

    浏览量

    176627

原文标题:不看算力看效率,更高级别的自动驾驶需要多少 “FPS”?

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一文理解模数转换器中的有效位数

    随着测量精度要求提升,有效位数(ENOB)已成为评估ADC、数字示波器真实性能的核心指标。ENOB由IEEE定义,综合了噪声、抖动、非线性失真等误差,反映设备在实际使用中的“有效分辨率”。
    的头像 发表于 10-09 11:01 2773次阅读
    一文理解模数转换器中的有效位数

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    和探索;人类级别的理解能力;常识推理;现实世界的知识整合。 3、测试时计算 测试时计算(TTC)是指在模型推理阶段利用额外的计算资源来提升泛化性能。 4、具身智能与渗透式AI 1)具身智能对AGI的意义
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    主要步骤: ①溯因②假说③实验 1、科学推理的类型 ①演绎②归纳 2、自动化科学发现框架 AI-笛卡儿-----自动化科学发现框架,利用数据和知识来生成和评估候选的科学假说。 4项规则:三、直觉
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    的同时,能够利用更小、更快的数字格式,提升模型的整体性能。 1.3Transformer 模型中的矩阵乘法计算 2、存内计算AI芯片 存内计算已经成为应对大模型不断增加的计算量和能耗
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的工作吗? 从书中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的还是知道的,FPGA属于AI
    发表于 09-12 16:07

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是一个由无数神经元通过突触连接而成的复杂网络,是极其复杂和精密的。大脑在本质
    发表于 09-06 19:12

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    AI芯片:科技探索与AGI愿景》这本书是张臣雄所著,由人民邮电出版社出版,它与《AI芯片:前沿技术与创新未来》一书是姊妹篇,由此可见作者在AI
    发表于 09-05 15:10

    AI 芯片浪潮下,职场晋升新契机?

    芯片设计为例,从最初的架构选型,到算法适配、性能优化,每个环节都考验着工程师的专业素养。在设计一款面向智能安防领域的 AI 芯片时,需要深入研究安防场景下图像识别算法的特点,针对性地
    发表于 08-19 08:58

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    名单公布 @LiuDW、@jinglixixi、@bruceleesohu 请于9月3日前,前往【书籍评测活动NO.64】《AI芯片:科技探索与AGI愿景》完成书籍兑换。 如有疑问请 添加小助手微信
    发表于 07-28 13:54

    Splashtop 成功入选 TrustRadius Trusted Seller 榜单,以透明与真实引领远程连接

    近日,全球权威技术评测平台TrustRadius基于企业产品信息真实性、用户反馈响应效率及商业道德实践等维度,正式公布「TrustedSeller」榜单。Splashtop凭借其在产品信息透明度
    的头像 发表于 05-14 17:36 711次阅读
    Splashtop 成功入选 TrustRadius Trusted Seller 榜单,以透明与<b class='flag-5'>真实</b>引领远程连接

    是德科技推出AI数据中心构建器以验证和优化网络架构和主机设计

    · 通过模拟真实工作负载验证AI基础设施的性能 · 通过评估新算法、组件或协议提高AI训练的性能
    的头像 发表于 04-10 08:50 501次阅读

    江西万年芯通过数字化转型成熟度星级评估

    2星级评估证书”。这一评估结果不仅是对企业数字化转型阶段性成果的认可,也标志着万年芯在智能化改造和数字化转型的道路上迈出了坚实的一步。数字
    的头像 发表于 02-19 15:35 827次阅读
    江西万年芯通<b class='flag-5'>过数字</b>化转型成熟度星级<b class='flag-5'>评估</b>

    数字电路仿真实

    电子发烧友网站提供《数字电路仿真实现.pdf》资料免费下载
    发表于 01-21 09:24 2次下载
    <b class='flag-5'>数字电路仿真实</b>现

    AI跑分超8000,天玑9400凭实力碾压一众旗舰芯片

    苏黎世AI Benchmark榜单冠军,以称霸行业的AI性能,加速智能手机的智能体化进程。 AI Benchmark自2018年推出以来,一
    的头像 发表于 01-10 12:40 1457次阅读
    <b class='flag-5'>AI</b>跑分超8000,天玑9400凭实力碾压一众旗舰<b class='flag-5'>芯片</b>

    MPU的性能评估方法

    MPU(Microprocessor Unit,微处理器单元)的性能评估是确保其在实际应用中能够满足需求的重要环节。以下是一些常用的MPU性能评估方法: 一、基准测试(Benchmar
    的头像 发表于 01-08 09:39 1287次阅读