0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何透过数字直剖本质评估AI芯片的真实性能?

地平线HorizonRobotics 来源:地平线HorizonRobotics 作者:地平线HorizonRobot 2021-05-03 18:11 次阅读

特斯拉 Hardware 3.0 的效率之谜

特斯拉在其推出的 Hardware 3.0 自动驾驶平台中,采用自研芯片替代了Nvidia Drive PX2,其理论算力直线提升了 3 倍,而以 MAPS 方式来评估,其真实 AI 性能更是惊人的提升了 21 倍。具体而言,Hardware 2.0 时每秒只能处理 110 帧图像,而现在则高达 2300 帧。

那么,Hardware 的效率提升应该如何认识呢?在“算力至上”的今天,如何透过数字直剖本质评估 AI 芯片的真实性能?

算力攀升,为什么却看不到实用性?

随着芯片制程技术的演进,摩尔定律的发展却逐渐进入瓶颈期,这与当下计算 AI 计算需求量爆发式的增长显得格格不入。追求纯算力突破并不可持续,同时算力也并不代表汽车智能芯片“真实性能”,芯片计算效率也同样需要关注。于是,软硬结合、算法加持的 AI 芯片接过了跑赢新场景的接力棒。

当前,行业普遍以“TOPS”为单位来评估AI的理论峰值算力。尽管在目前主流的AI芯片性能基准测试( MLPerf )下很多顶级厂商频繁刷新榜单记录,但在实际场景下的算力有效利用率却差强人意。

2b80db88-9572-11eb-8b86-12bb97331649.png

人们逐渐认识到,AI 芯片理论峰值算力并不一定能在实际运行中完全释放。例如,一款拥有理论峰值算力为 16 TOPS 的芯片,在计算不同模型时甚至会有接近 80% 的差异。此外,在卷积神经网络任务实测中,从 2014 年到 2019 年,最好的神经网络计算效率相差了 100 倍,相当于计算效率每 9 个月翻一倍,远快于每 18 个月翻倍的摩尔定律。因此在模型算法演进速度远快于芯片性能提升的速度的现在,不仅需要算力更高的芯片,也需要更合理的性能评估方法帮助用户选择适合的 AI 芯片。

对这些 AI 时代出现的新变化,以地平线为代表的 AI 芯片企业认为,单纯依赖于 PPA 芯片设计指标,很容易陷入算力至上的“误区”,但算力并不是完全反应芯片性能唯一评估标准。因此,地平线提出了 MAPS(Mean Accuracy-guaranteed Processing Speed)概念和评估方法,以此作为检验 AI 性能的真正标准。通俗来说,就是在特定的 AI 应用领域,看芯片处理 AI 任务的速度和精度,即“多快”和“多准”。

MAPS 动态评估芯片真实 AI 性能

随着 AI 算法的不断演进,几乎每 10-14 个月,相同的计算精度计算量可以下降一半。这种提升与算法设计的精妙程度息息相关,但算法的快速演进也对计算架构提出巨大的挑战,尤其是对传统通用的并行架构而言,例如亟需高效AI专用处理器的自动驾驶场景。

MAPS 其实是在物理算力的基础上,通过对大量模型的测试,综合各个模型的速度(正比与物理算力*实际利用率)和准确率得到的最佳方案的量化结果。它更聚焦于使用户能够通过可视化的图表直观的感知 AI 芯片真实算力。正如对于汽车来说,马力(单位: HP)不如百公里加速时间(单位:秒)更真实反映整车动力性能;算力(单位: TOPS)并不反映汽车智能芯片实际性能,而每秒准确识别帧率 MAPS(单位: FPS)才是更真实的性能指标。

2bb9df64-9572-11eb-8b86-12bb97331649.png

MAPS=最佳模型多边形面积/(精度上界—精度下界),其中横轴反应帧率,纵轴反应精度

此外,在自动驾驶中应该如何对速度和精度做取舍呢?现实生活中我们经常遇到一些极端的案例,例如当汽车遭遇小孩子横穿马路的突发状况时,如果自动驾驶识别延时过高,会刹车不及时;如果精度不够,则会造成无法识别。在很多类似的场景中,我们往往面临既要“快”,又要兼顾“准”的境况。而在 MAPS 评估方法下,我们可以清晰看到帧率和精度之间的动态关系,这也是其对实际场景的重要价值之一。

更高级别自动驾驶需要多少“FPS”?

软件定义的汽车的趋势下,未来汽车正逐步成为四个轮子上的超级计算机。可以清晰预见的是,电动车卖点不是车,而是「智能」,这是一个堪比计算机诞生级别的创新。

特斯拉在 Hardware 3.0 中,采用其自研 AI 芯片 FSD Chip 替代了 Hardware 2.5 中的 Nvidia Drive PX2,算力从 24 TOPS 提升到了 72 TOPS,但运行同样模型的精度却惊人的提升了 21 倍。具体而言,Hardware 2.0 时每秒只能处理 110 帧图像,而现在则高达 2300 帧。除了绝对算力的提升,额外提升则来自于利用率的提升。同时特斯拉也宣布针对 Hardware 3.0 重写自动驾驶软件,从而在 2020 年 10 月推出了 FSD beta,这是唯一不受场地限制、大规模测试的自动驾驶方案。

特斯拉革命性技术的重构与 MAPS背后体现的理念有相通之处:提升物理算力(HW 3.0 提升 3 倍)、提升利用率(提升近 2 倍),找到最佳的速度和准确率提升(重写自动驾驶软件),使得特斯拉从简单场景的 NOA 一步步突破到不受限的自动驾驶。而地平线在芯片设计之中一直贯彻 MAPS 背后的技术理念,关注提升物理算力的同时关注利用率的提升,并且不断把算法发展趋势,使得软硬件可以协同共振,发挥最高效能。

为了助力汽车厂商突破“特斯拉困境”,实现高级别自动驾驶的落地。地平线即将推出的征程 5 MAPS 整体跑分高达 3020 FPS,其中 MAPS@COCO (检测任务COCO MAPS) 跑分可高达 116,而 Nvidia Xavier MAPS@COCO 为 41 FPS (GPU&DLA@32W mode ),如此高的性能将助力车厂加速实现自动驾驶方案的落地。

驱动新基建数字底座,需要有算力也要有效率。自成立以来,地平线便致力于兼备算力与效率的高性能芯片。未来,地平线将推出性能更强大的征程6,其不仅在功耗、面积优化的基础上,同时在MAPS上继续提升一个数量级,助力全行业共同努力进一步大幅提升自动驾驶的安全性。

原文标题:不看算力看效率,更高级别的自动驾驶需要多少 “FPS”?

文章出处:【微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 特斯拉
    +关注

    关注

    66

    文章

    6008

    浏览量

    125668
  • AI
    AI
    +关注

    关注

    87

    文章

    26428

    浏览量

    264034
  • 自动驾驶
    +关注

    关注

    773

    文章

    13027

    浏览量

    163201

原文标题:不看算力看效率,更高级别的自动驾驶需要多少 “FPS”?

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一键消原音智能AI芯片PTN1118芯片简介

    PTN1118植入帕特纳微AI(SVS),实现将任意音源中人声部分消除,并在极大程度上保留伴奏,配合PTN 卡拉OK系列芯片,使传统音频设备更富娱乐性。 支持模拟与数字输入输出,数字
    发表于 04-12 17:40

    三星电子与Naver联手开发新一代AI芯片

    据相关消息人士透露,Naver主要负责关键软件的设计,而三星电子则承担芯片的设计及制造任务。Naver近期也同三星电子联合推出了AI推理芯片“Mach-1”,预计年内将会评估
    的头像 发表于 04-08 16:30 384次阅读

    Cerebras推出性能翻倍的WSE-3 AI芯片

    Cerebras Systems近日推出的Wafer Scale Engine 3(WSE-3)芯片无疑在人工智能领域掀起了一场革命。这款芯片不仅刷新了现有最快AI芯片
    的头像 发表于 03-20 11:32 417次阅读

    英伟达将用AI设计AI芯片

    AI芯片行业资讯
    深圳市浮思特科技有限公司
    发布于 :2024年02月19日 17:54:43

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构,旨在实现视频生成的一次性完成,同时保证视频的真实性和动作连贯性。
    的头像 发表于 02-04 13:49 592次阅读

    电阻上的数字是什么意思?如何通过数字辨别电阻值?

    电阻上的数字是什么意思?如何通过数字辨别电阻值? 电阻是电子元件中常见的一种,它用于控制电流的流动,限制电路中的电流大小。而电阻上的数字则是用来标示电阻的阻值的。阻值是电阻对电流的阻碍程度的度量
    的头像 发表于 12-07 13:53 2441次阅读

    数字隔离器可应用在本质安全应用中

    电子发烧友网站提供《数字隔离器可应用在本质安全应用中.pdf》资料免费下载
    发表于 11-24 10:24 1次下载
    <b class='flag-5'>数字</b>隔离器可应用在<b class='flag-5'>本质</b>安全应用中

    微软AI自研芯片与H100、特斯拉D1性能对比

    微软的多年投资显示,芯片对于在AI和云计算领域取得优势至关重要。自研芯片可以让微软从硬件中获得性能和价格优势,还可以避免微软过度依赖任何一家供应商。目前业界对英伟达
    发表于 11-22 15:38 228次阅读
    微软<b class='flag-5'>AI</b>自研<b class='flag-5'>芯片</b>与H100、特斯拉D1<b class='flag-5'>性能</b>对比

    #芯片 #AI 世界最强AI芯片H200性能大揭秘!

    芯片AI
    深圳市浮思特科技有限公司
    发布于 :2023年11月15日 15:54:37

    如何在RZ/V2L评估板套件上使用AI SDK

    本文章介绍如何在RZ/V2L评估板套件上使用AI SDK。
    的头像 发表于 10-27 15:53 442次阅读
    如何在RZ/V2L<b class='flag-5'>评估</b>板套件上使用<b class='flag-5'>AI</b> SDK

    智能化时代,EDA工具如何助力AI芯片设计?又如何被AI赋能?

    电子发烧友网报道(文/吴子鹏)由于AIGC的火爆,AI热潮再一次席卷全球,围绕大模型、AIGC、具身智能等创新理念,产业界积极进行各种前瞻性探索,并取得了显著的成果。透过现象看本质,这一轮AI
    的头像 发表于 09-08 00:27 2375次阅读
    智能化时代,EDA工具如何助力<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>设计?又如何被<b class='flag-5'>AI</b>赋能?

    TenstorrentInc首席CPU构架师 练维汉:助力数字化升级的RISC-V AI性能CPU

    师练维汉现场作了“助力数字化升级的RISC-V”专题演讲。Tenstorrent Inc.是一家加拿大AI芯片独角兽企业,从事高性能RISC-V芯片
    的头像 发表于 08-28 12:05 2416次阅读
    TenstorrentInc首席CPU构架师 练维汉:助力<b class='flag-5'>数字</b>化升级的RISC-V <b class='flag-5'>AI</b> 高<b class='flag-5'>性能</b>CPU

    HIT 18: 标准专利真实性及有效性问题辨析

    作者:高玉光 北京市信利(深圳)律师事务所 2023/08/10于深圳 #本文仅代表作者观点,未经作者许可,禁止转载# 标准专利真实性及有效性含义 根据专利法的立法本意,专利是国家授予发明人或其他
    的头像 发表于 08-10 18:45 484次阅读
    HIT 18: 标准专利<b class='flag-5'>真实性</b>及有效性问题辨析

    ai芯片和传统芯片的区别

    ai芯片和传统芯片的区别 随着人工智能的发展和应用的普及,越来越多的企业和科研机构开始研发人工智能芯片AI
    的头像 发表于 08-08 19:02 2643次阅读

    芯片性能小谈—时间并行

    从直观上来说,性能好代表着快。那么如何评估”快”呢?首先芯片根据应用场景分为很多不同的种类,通信类的5G,蓝牙,wifi;接口类的USB,以太网,HDMI;计算类的通用CPU,GPU,AI
    的头像 发表于 06-05 15:34 1713次阅读
    <b class='flag-5'>芯片</b><b class='flag-5'>性能</b>小谈—时间并行