0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Waymo对软件算法过分重视,忽视了硬件平台

佐思汽车研究 来源:佐思汽车研究 作者:佐思汽车研究 2022-08-11 10:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Waymo早在2008年就开始投入自动驾驶,当时还属于谷歌X事业部,不过14年过去,Waymo几乎一事无成,声音也越来越小,根本的原因就是Waymo对软件算法过分重视,忽视了硬件平台。这几年英伟达高通自动驾驶芯片的崛起与Waymo的没落形成鲜明对比。自动驾驶的软件和硬件是硬币的两面,无法分割,整套解决方案必然包括软件和硬件。单独提供软件或硬件都没有出路,因为自动驾驶软硬件配合度要求太高,很难移植。这主要是深度学习算法模型与硬件高度捆绑,两者不匹配很容易导致效率低下,硬件的利用率低到10%以下是经常遇到的。

Waymo早期是采用英特尔芯片做计算平台的,主要是基于服务器CPU至强和FPGA加速卡。

81e47c5e-191b-11ed-ba43-dac502259ad0.png

图片来源:互联网

Waymo计算平台,其中以太网交换机应该也是用FPGA搭建的,因为这么高带宽的以太网交换机现在还没有量产,几年前更不可能有了。只有FPGA能做到如此高的带宽,代价是价格很高,至少在1000美元以上。还有两个至强CPU之间应该还需要PCIe交换机。 FPGA可能是Arria 10 1150GX,目前售价大约2000美元,2013年时可能要4000美元以上。Altera的FPGA共有四大系列,分别是顶配的Stratix系列、成本与性能平衡的Arria系列、廉价的Cyclone系列、带NVM的MAX系列。Stratix系列多在近万美元以上,Arria系列大约在2000-5000美元之间,Cyclone系列多在10-20美元之间。Arria系列再细分10、V、II、GX四个系列,10系列为最新产品,于2013年推出,采用20纳米工艺,GX为第一代产品,2007年推出,采用90纳米工艺,II系列为2009年产品,采用40纳米工艺,V系列为2011年产品,采用28纳米工艺。10系列再分为带ARM内核和不带ARM内核两大类。ARM内核为双A9内核。 1150GX拥有标准FPGA的1150K个逻辑元素外,还拥有1518个硬核单精度浮点运算乘法器/加法器,3036个18*19乘法器。最终能够获得3340GMACS(等于每秒百万次的定点乘累加运算),还有1366 GFLOPS的浮点运算能力。AI算力最高是26TOPS@Int8。在2013年这个算力可以算是非常惊人的,价格当然也很惊人。 FPGA是效率最高的运算单元,FPGA之所以比CPU甚至GPU能效高,本质上是无指令、无需共享内存的体系结构带来的福利。冯氏结构中,由于执行单元(如CPU核)可能执行任意指令,就需要有指令存储器、译码器、各种指令的运算器、分支跳转处理逻辑。由于指令流的控制逻辑复杂,不可能有太多条独立的指令流,因此GPU使用SIMD(单指令流多数据流)来让多个执行单元以同样的步调处理不同的数据,CPU也支持SIMD指令。而FPGA每个逻辑单元的功能在重编程(烧写)时就已经确定,不需要指令。 FPGA中的寄存器和片上内存(BRAM)是属于各自的控制逻辑的,无需不必要的仲裁和缓存。对于通信的需求,FPGA每个逻辑单元与周围逻辑单元的连接在重编程(烧写)时就已经确定,并不需要通过共享内存来通信。FPGA实际就像是一片SRAM,它没有AI芯片难以克服的内存墙问题,有点像存内计算,但要比存内计算规模大太多了。FPGA的硬件利用率可轻松做到80%以上,因此FPGA的频率都比较低。 但FPGA的布线没有优化,有大面积的硅片资源闲置,浪费了,这导致其成本飞速上升,小规模的FPGA价格很低,一旦越过30-50万逻辑单元,价格直线飞升。 Waymo的计算平台单芯片成本就已超过4000美元,并且都是非车规的,显然这无法量产。2019年以后,Waymo的声音就慢慢沉寂,而软硬一体的高通和英伟达发展越来越顺利。 眼看英伟达和高通一飞冲天,Waymo也幡然悔悟,2021年就开始筹划与三星推出自动驾驶芯片,正式推出可能在2023年底。和英伟达、高通相比,Waymo的劣势在于英伟达和高通都是芯片巨头,两者出货量巨大,特别是高通,能够大幅度降低芯片成本。Waymo订制芯片,出货量必然是很低的,谷歌的TPU用在数据中心,成本敏感度不高,但汽车不行。同时谷歌的TPU出货量相对自动驾驶汽车还是不低的。 要做到商业化,成本是必须考虑的。Waymo找到了三星做合作伙伴,三星每年手机CPU芯片上亿,足以和高通抗衡,足以摊薄成本。三星与谷歌合作是从谷歌第一代手机芯片Tensor开始。高通的Snapdragon Ride平台目前是SA8540p+SA9000。SA8540p近似于高通手机5纳米芯片888,只不过SA8540p可能采用4大核4小核的设计,即4个Cortex-X1加4个A78。去掉了强调A55小核。高通以此还衍生出针对笔记本电脑的8cx gen3,与SA8540p非常近似,但去掉了5G modem。 能做手机SoC,就能做自动驾驶芯片,三星、苹果、联发科都可以。

81f050ce-191b-11ed-ba43-dac502259ad0.png

图片来源:互联网

谷歌第一代Tensor芯片,用于谷歌Pixel 6系列手机上,实际就是基于三星Exynos 2100的修改版。

第一代Tensor与三星Exynos2100对比

82073974-191b-11ed-ba43-dac502259ad0.png

图片来源:互联网

在NPU方面,Exynos 2100是压倒性优势的26TOPS,谷歌是5.7TOPS。不过在实际测试中,Exynos 2100优势不明显。

821210a6-191b-11ed-ba43-dac502259ad0.png

图片来源:互联网

骁龙888、谷歌Tensor与Exynos 2100的NNAPI即神经网络测试跑分,谷歌Tensor优势明显。

8223d3ae-191b-11ed-ba43-dac502259ad0.png

NLP自然语言处理方面,谷歌Tensor优势非常明显。

图片来源:互联网

8233d420-191b-11ed-ba43-dac502259ad0.png

离线图像分类跑分测试,Tensor差距也不算大。

图片来源:互联网

Waymo的自动驾驶芯片不大可能基于第一代Tensor,因为第二代Tensor已于2022年7月底量产了。Waymo的自动驾驶芯片很有可能基于第二代Tensor,目前未有基于第二代Tensor的消息,但很显然,三星不会给谷歌做太多工作,应该就是Exynos 2200的修改版,毕竟第一代Tensor的具体型号就是Samsung ExynosTensor GS101,从型号就能看出,这是Exynos2100的修改版。

8249311c-191b-11ed-ba43-dac502259ad0.png

图片来源:互联网

Waymo的自动驾驶芯片芯片应该会基于三星4纳米工艺。超大核应该还是两个Cortex-x2,而不是Exynos的1个。两个Cortex-710的中核,四个A510的小核。GPU方面估计也是基于AMD RNDA2代的GPU,足以和高通的Adreno 730一争高下。 CPU和GPU没有太多操作空间,NPU应该是谷歌擅长的。

谷歌历代TPU对比

8255d75a-191b-11ed-ba43-dac502259ad0.png

图片来源:互联网

谷歌从2016年推出第一代TPU,2021年推出第四代,第四代TPU的算力没有公开数据,只说比第三代的两倍。第三代TPU的算力是360TOPS@Int8,那么第四代应该是720TOPS@Int8。不过TPU是针对数据中心的。针对边缘计算,谷歌还有TPU EDGE,价格非常低廉,应该不超过10美元。 谷歌没有公布TPU V4的算力,但给出了下表,用在各种算法模型上的消耗时间,完全可以超越顶级英伟达系统。

8267cbd6-191b-11ed-ba43-dac502259ad0.png

备注:这是在2021年中期测试的数据。

图片来源:互联网

Waymo的策略应该与高通一样,也是一片SoC加一片加速器。SoC基于二代Tensor也就是基于三星Exynos 2200,其内部的NPU算力至少能到30TOPS。加速器应该基于4代TPU或5代TPU做修改而来,算力估计360TOPS。这样一来,成本大大降低,应该不高于英伟达系统的成本。此外4代或5代TPU都应该委托三星而非台积电代工,台积电代工当然更好,但价格会远高于三星,且谷歌的订单数量太少,在产能紧张大客户云集的台积电那里肯定要排队等待,因此谷歌一直选弱势的三星做合作伙伴。 自谷歌开始搞自动驾驶以来,其定位就比较模糊,战略经常变化,最初似乎是想提供全套软件解决方案,然后是自己制造无人驾驶小车,再后是做无人出租车运营,现在似乎是回归最初,提供包括硬件计算平台在内的全套解决方案。主要是自动驾驶算法的门槛极低,单独的算法没多少价值,自动驾驶软件里最有价值的应该是经过人工标注的数据集,这没什么技术含量,完全靠人力和资金。如今Waymo试图和英伟达或高通竞争,显然已经晚了,Waymo的最终结局想必大家都已经能预测到。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1656

    文章

    22298

    浏览量

    630489
  • 芯片
    +关注

    关注

    462

    文章

    53576

    浏览量

    459451
  • 自动驾驶
    +关注

    关注

    791

    文章

    14678

    浏览量

    176725

原文标题:Waymo幡然悔悟,做自动驾驶必须自研芯片

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广凌智慧教室建设内容:硬件软件介绍

    广凌科技(广凌股份)凭借“硬件+平台+数据”的深度融合,推出智慧教室整体解决方案,全面覆盖智慧教室建设的硬件配置、软件平台、数据驱动及场景适
    的头像 发表于 11-11 16:17 941次阅读
    广凌智慧教室建设内容:<b class='flag-5'>硬件</b>与<b class='flag-5'>软件</b>介绍

    寒武纪引领AI芯片软件新生态

    体系,实现计算架构、编译优化与算法调度的深度融合:硬件算法提供极致的并行性能与能效比,软件则通过编译优化、调度策略与模型适配,让每一份算
    的头像 发表于 11-06 11:23 768次阅读
    寒武纪引领AI芯片<b class='flag-5'>软件</b>新生态

    复杂的软件算法硬件IP核的实现

    具体方法与步骤 通过 C 语言实现软件算法,并验证算法的有效性以后,就可以进行算法的 HDL 转化工作了。通过使用 Altium Des
    发表于 10-30 07:02

    针对AES算法的安全防护设计

    软件中随机延迟的使用通常被认为是对抗侧信道攻击的一般对策,但随机延迟不能阻止攻击,只能让攻击变得复杂。因此基于蜂鸟E203平台的软硬件实现方式,我们的安全防护设计也会从软件
    发表于 10-28 07:38

    硬件融合拼接器与软件融合拼接的区别?

    、内存和存储设备等组成,具备强大的计算和数据处理能力。它可以将多个图像拼接成一个大的全景图像,这个过程是在硬件设备中进行的,因此速度较快。 而软件融合拼接则是通过软件算法来实现图像的拼
    的头像 发表于 09-28 14:33 318次阅读

    AI的核心操控:从算法硬件的协同进化

           人工智能(AI)的核心操控涉及算法、算力和数据三大要素的深度融合,其技术本质是通过硬件软件的协同优化实现对复杂任务的自主决策与执行。这一过程依赖多层技术栈的精密配合,从底层的芯片架构
    的头像 发表于 09-08 17:51 780次阅读

    电源控制器MCU硬件在环(HIL)测试方案

    、 EasyGo 实时仿真平台 EasyGo 实时仿真平台软件硬件两部分组成,二者协同工作,实现高精度、高实时性的仿真测试。 1、 硬件
    发表于 08-20 18:31

    PPEC电源DIY套件:图形化算法编程,解锁电力电子底层算法实践

    智能化设计平台,为用户提供一个接触和操作底层算法的便捷途径。 用户无需进行复杂的代码编写,可以一键套用工程模版,也可以通过图形化界面自定义控制算法,就能够轻松在实验室有限的环境中制
    发表于 08-14 11:30

    【干货速递】嵌入式数据可靠性,软件设计的这些细节不能忽视

    前两期内容分别讲述嵌入式数据可靠性的元器件选型和硬件设计,这一期我们来讲讲软件设计。哪怕硬件设计再完善,但如果软件没有设计好,也达不到预期
    的头像 发表于 07-31 11:34 373次阅读
    【干货速递】嵌入式数据可靠性,<b class='flag-5'>软件</b>设计的这些细节不能<b class='flag-5'>忽视</b>!

    自动化测试平台ATECLOUD推出AI算法功能

    作为纳米软件自主研发的自动化测试平台,ATECLOUD 始终致力于为用户提供高效优质的测试解决方案。面对5G、AI等前沿技术的迭代发展,平台深度融合新技术持续升级测试能力,最新推出的AI算法
    的头像 发表于 07-22 16:10 504次阅读
    自动化测试<b class='flag-5'>平台</b>ATECLOUD推出AI<b class='flag-5'>算法</b>功能

    硬件好还是学软件好?

    、计算机硬件等领域相关。 学习软件则侧重于编程、算法、数据结构等方面。软件工程师负责开发、测试和维护各种软件应用程序,如操作系统、办公
    发表于 04-07 15:27

    AI算法托管平台是什么

    AI算法托管平台是一种提供AI模型运行、管理和优化等服务的云端或边缘计算平台。下面,AI部落小编带您详细了解AI算法托管平台
    的头像 发表于 03-06 10:22 859次阅读

    西门子Veloce硬件辅助验证平台升级

    西门子数字化工业软件日前宣布扩展其 Veloce™ 硬件辅助验证平台以支持 1.6 Tbps 以太网。作为西门子软件/硬件和系统验证
    的头像 发表于 02-10 10:13 1069次阅读

    RAID 5 硬件软件 RAID 的区别

    磁盘阵列。 这些控制器内置独立的处理器(CPU)和内存,专门用于处理RAID运算和数据传输。 软件RAID : 由操作系统通过软件来管理和实现,不依赖于专用硬件。 使用主机的CPU资
    的头像 发表于 12-27 18:05 1870次阅读

    Moove携手Waymo,共塑城市出行新未来

    近日,全球创新出行方案的佼佼者Moove,欣然揭晓与自动驾驶技术领航者Waymo的突破性车队合作协议。这一携手,标志着Waymo One应用平台上首个此类商业伙伴关系的诞生。 根据双方达成的协议
    的头像 发表于 12-27 14:42 782次阅读