0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Mobileye和特斯拉差距在哪?

佐思汽车研究 来源:佐思汽车研究 2023-07-12 15:33 次阅读

对比Mobileye和特斯拉,两者做事风格截然不同。Mobileye有着十几年的积累,可靠性经过了市场和时间的验证,传统大厂无一例外都会选择Mobileye,但同时意味着有资产包袱,不舍得放弃以前的研究成果,难接受新的研究方向与潮流变化,对学术界的东西似乎完全不在意。特斯拉则是博采各家所长,时刻关注着学术界的最新动向,发现有好的技术点就努力将其落地,始终走在技术最前沿。

Mobileye在L2领域占据绝对霸主地位,市场占有率超过70%,特斯拉则是智能驾驶技术的引领者。对于感知任务,核心就是建立一个3D的周边环境模型,即3D场景重建,这也是L2与L2+系统的本质区别。L2的目的是避免碰撞,遇到可能发生的碰撞就刹车或减速,而L2+系统是自主驾驶,遇到可能发生的碰撞时,通过对周边3D场景重建,找到可行驶空间Freespace绕开障碍物,而不是减速或刹车。3D场景重建的最佳表征形式是BEV即鸟瞰,很多时候BEV几乎等于3D场景重建。

3D场景重建最佳解决办法是立体双目,即基于Depth Map的3D重建。立体双目可以准确测量出深度信息,但除了博世、奔驰、丰田这些大厂外,双目的标定和立体匹配是无法跨越的难关,包括特斯拉和Mobileye。还有一个原因是新兴造车在单目上累积了丰富的知识产权,跳到立体双目领域意味着这些累积都作废了,这是最核心资产的严重流失。

特斯拉和Mobileye的思路都是用单目做3D重建,常见方法有SfM和Transformer。此外3D场景重建还可以基于点云、VOXEL和MESH。

SfM(Structure From Motion)是最经典技术路线,通过使用诸如多视图几何优化之类的数学理论从2D图像序列中确定目标的空间几何关系,以通过相机移动恢复3D结构。SFM方便灵活,但在图像序列采集中遇到场景和运动退化问题。根据图像添加顺序的拓扑结构,可以将其分为增量/顺序SFM、全局SFM、混合SFM和分层SFM。此外,还有语义SFM和基于深度学习的SFM。步骤包括1.特征提取(SIFT、SURF、FAST等方法);2.配准(主流是RANSAC和它的改进版;3.全局优化bundleadjustment用来估计相机参数;4.数据融合。

6c81a5de-205f-11ee-962d-dac502259ad0.png

Mobileye的SuperVision

6c9f5278-205f-11ee-962d-dac502259ad0.png

Mobileye的multi-view stereo实际就是SFM的另一种说法,Mobileye还给它取了另一个名字Vidar或者叫伪激光雷达,这就是SuperVision的核心。

6cb3edc8-205f-11ee-962d-dac502259ad0.png

Mobileye的SuperVision,7个800万像素摄像头

6d044516-205f-11ee-962d-dac502259ad0.png

7个摄像头联合得到的3D场景重建

6d2617ae-205f-11ee-962d-dac502259ad0.png

伪激光雷达

6d5dee5e-205f-11ee-962d-dac502259ad0.png

VIDAR就是multi-view stereo

6d7dc9cc-205f-11ee-962d-dac502259ad0.png

Mobileye的SFM还混合了REM和视觉道路模型

6da5df66-205f-11ee-962d-dac502259ad0.png

SuperVision也可以得到BEV视角,不过不像特斯拉那样高精细度,特斯拉的所谓OccupancyGrid,Mobileye也有使用。当然,大部分情况下还是非BEV视角。

SFM的优点是设计简单,有些类型的SFM可以用非深度学习算法,对算力需求很低,即使深度学习算法,因为还是参数量不到千万的CNN,对算力需求还是很低。不过SFM精度不高,特别是大范围场景或者说远距离使用困难,因为一个大场景环境是很复杂的,如各种物体、多样的光照、反光表面,还有不同焦距、畸变和传感器噪声的多样摄像机。许多先前的方法采用多视角深度估计(MVS)来重建场景,预测每一帧图像的稠密深度图,这种depth-based方法可以估计准确的局部几何形状,但需要额外的步骤来融合这些深度图,例如解决不同视角之间的不一致性,这相当困难。Mobileye的解决办法是使用高像素摄像头,7个摄像头都是8百万像素,像素越高,有效距离越远。

再有就是SFM准确度有限,为了从多个输入视图中学习有效的3D表示,大多数基于CNN的方法遵循分而治之的设计原则,其中通常的做法是引入CNN进行特征提取和融合模块来集成多个视图的特征或重建得到。尽管这两个模块之间有很强的关联,但它们的方法设计是分开研究的。另外,在CNN特征提取阶段,很少研究不同视图中的目标关系。虽然最近的一些方法引入了递归神经网络(RNN)来学习不同视图之间的目标关系,但这种设计缺乏计算效率,而且RNN模型的输入视图是对顺序变化敏感的,难以与一组无序的输入视图兼容。

轮到特斯拉的BEVFormer闪亮登场了,BEV一直存在,BEV视角下的物体,不会出现图像视角下的尺度(scale)和遮挡(occlusion)问题。由于视觉的透视效应,物理世界物体在2D图像中很容易受到其他物体遮挡,2D感知只能感知可见的目标,而在BEV空间内,算法可以基于先验知识,对被遮挡的区域进行预测。再有就是BEV视角下,感知和决策规划有机地融为一体,依靠Freespace或者说Occupancy Grid提供直接路径规划,无需中间计算环节,速度和准确度都大幅提升。

6dd164c4-205f-11ee-962d-dac502259ad0.png

BEV可以分为基于深度/几何信息的和基于深度学习的两大类。

基于深度/几何信息的 BEV 是正向思维,采用自底向上、从2D 到3D 的方式,先在2D视角预测每个像素的深度再通过内外参投影到 BEV空间通过多视角的融合生成BEV特征,但对深度的估计一直都是难点。不过激光雷达和双目都可以提供准确的深度信息完全不是难点。纯单目的方式典型代表就是SFM,用SFM 推测深度信息。Mobileye 可以用SFM 做出BEV,但目前来看还似乎是没有使用,还是2D 平视。

基于深度学习的 BEV是逆向思维,采用自顶向下、从3D到2D 的方式,先在 BEV 空间初始化特征,再通过多层transformer 与每个图像特征进行交互融合,最终再得到 BEV特征。这就是特斯拉的BEVFormer。

早期自动驾驶研究阶段都是头顶64线或128线360度Velodyne机械激光雷达,就是为了制造BEV视角,但是要到落地阶段,Velodyne的64线或128线激光雷达显然无法商业化。

6df566c6-205f-11ee-962d-dac502259ad0.png

激光雷达制造的BEV

于是才有了纯摄像头的BEV。BEV是连接时空的理想桥梁。对于人类视觉感知系统来说,时间信息在推断目标的运动状态和识别遮挡目标方面起着至关重要的作用,视觉领域的许多工作已经证明了视频数据的有效性。然而,现有最先进的多摄像头3D检测方法很少利用时间信息。应用Transformer(空域)结构和Temporal结构(时域)从多摄像头输入生成鸟瞰图(BEV)特征。BEVFormer利用查询查找空域和时域,并相应地聚合时-空信息,有利于实现感知任务的更强表征。

Transformer是一种基于注意力机制(Attention)的神经网络模型,由Google在2017年提出。与传统神经网络RNN和CNN不同,Transformer不会按照串行顺序来处理数据,而是通过注意力机制,去挖掘序列中不同元素的联系及相关性,这种机制背后,使得Transformer可以适应不同长度和不同结构的输入。利用多个无序输入之间的自注意力来探索视图到视图的关系。将多视图3D重建问题重新表述为一个序列到序列的预测问题,并将特征提取和视图融合统一在单个transformer网络中。

另一方面,在Transformer模型中,自注意力机制在任意数量的输入标记内显示出其学习复杂语义抽象的强大能力,并且自然地适合于探索3D目标不同语义部分的视图到视图关系。鉴于此,transformer的结构成为多视图3D重建最吸引人的解决方案,transformer配合语义分割有更好的效果,传统的CNN也有不错的3D重建。

6e2f124a-205f-11ee-962d-dac502259ad0.png

BEVFormer整体架构

需要指出BEVFormer有两个概念,一个是南京大学、上海AI实验室和香港大学提出的,见论文《BEVFormer: Learning Bird’s-Eye-View Representation from Multi-CameraImages via Spatiotemporal Transformers》,另一个是人们根据特斯拉AI日中的介绍,认为特斯拉的感知结合了BEV和Transformer,因此称其为BEVFormer。特斯拉不会公布自己的源代码,而《BEVFormer: Learning Bird’s-Eye-ViewRepresentation from Multi-Camera Images via Spatiotemporal Transformers》内附源代码。

特斯拉自己对BEV + Transformer的叫法应该是Multi-CamVector Space Predictions。

6e4e29f0-205f-11ee-962d-dac502259ad0.png

其内部构造可以参考FACEBOOK的论文《End-to-End Object Detection with Transformers》

6e6f8a28-205f-11ee-962d-dac502259ad0.png

特斯拉图像到BEV的Transformer

6e90b374-205f-11ee-962d-dac502259ad0.png

特斯拉视觉系统整体架构,BEV+Transformer也就是第二层的Multi-camFusion+矢量空间。

特斯拉的第一层的BiFPN也值得一提。BiFPN当然也不是特斯拉创造的,它的详细理论参见论文《EfficientDet: Scalable and Efficient Object Detection》,作者是谷歌大脑研究小组。

6ecb61d6-205f-11ee-962d-dac502259ad0.png

BiFPN准确率很高,消耗算力比传统的ResNet要低很多。

Mobileye的算力不高,不是AI算力不高,CPU算力也不高,GPU几乎为零,因此Mobileye将环境模型分成4部分,降低计算密度。

6ef2836a-205f-11ee-962d-dac502259ad0.png

针对4个子目录有不同的处理技术

6f352e54-205f-11ee-962d-dac502259ad0.png

这其中的语义分割和特斯拉的Occupancy Grid基本一致,只是特斯拉是基于BEV视角的。

6f91617e-205f-11ee-962d-dac502259ad0.png

Mobileye的语义分割,Mobileye早在2018年就提出此项技术并于2019年商业化落地,技术实力还是很不错的。

表面上看,特斯拉和Mobileye的SuperVision的思路一致,但Transformer的使用让特斯拉明显远比Mobileye要强大,不过一代FSD或者说HW3.0能跑BEVFormer吗?典型的NLP用Transformer参数是10亿个,针对视频的可能会有20亿个,按照汽车行业惯用的INT8格式,意味着Transformer模型大小是2GB。特斯拉初代 FSD 使用的 LPDDR4,型号是MT53D512M32D2DS-046 AAT,容量为16Gb,总共 8 片,I/O 频率 2133MHz,其带宽为 2.133*64/8,即 17.064GB/s,由于DDR是双通道,所以带宽是34.12GB/s,这里非常抱歉,以前的算法有错误(错误照搬了英伟达的张量并行模式),严重高估了内存带宽。

顺便指出像ChatGPT这种大模型,英伟达是采用张量并行的方式计算,因此如果是8张H100显卡,英伟达是将权重模型一分为8,等同于内存带宽增加了8倍,但是张量并行是针对多张显卡服务器设计的,对于车载领域,Transformer还未听说用张量并行的,张量并行也是英伟达独创的。内存带宽仅有34.12GB/s是无法流畅运行Transformer的,因为每分钟单单读入权重模型的次数最高也不过17次,还未包括处理数据的时间和路径规划所需要的时间,而智能驾驶需要帧率至少是每秒30帧,也就是每秒30次以上计算,那么内存带宽至少要能支持每秒60次读入,也就是带宽要增加3倍以上。

不仅是内存带宽,Transformer不仅对AI算力需求大,对CPU的标量算力需求也大,初代FSD仅有12个ARM Cortex-A72,这是不够的。二代FSD或者说HW4.0用了昂贵的GDDR6,带宽大幅增加,CPU核心也从12个增加到20个,勉强可以跑Transformer。不过GDDR6虽然带宽高,但速度低,用在CPU领域并不合适。

70cdce24-205f-11ee-962d-dac502259ad0.png

服务器领域内存是分开的,CPU用强调速度的DDR5,GPU用强调带宽的HBM3。但汽车领域是CPU+GPU(AI),一般厂家都选择LPDDR5(LP是低功耗的意思),照顾CPU更多,特斯拉为了强调AI算力,用了GDDR6。

初代FSD可能还上不了BEVFormer,与Mobileye的SuperVision效果相比,Mobileye的像素远高于初代FSD,有效距离更远,安全系数更高。但二代FSD就目前来看,是可以全面胜过SuperVision的,不过即使是美国市场,二代FSD估计也要等到2024年才会上市,中国市场估计要到2025年甚至2026年,届时Mobileye或许也有技术升级。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2756

    浏览量

    106454
  • 服务器
    +关注

    关注

    12

    文章

    8116

    浏览量

    82509
  • Mobileye
    +关注

    关注

    2

    文章

    122

    浏览量

    33657

原文标题:Mobileye和特斯拉差距在哪?

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    大众汽车和Mobileye加强自动驾驶合作

    美国智能驾驶芯片巨头Mobileye与大众汽车集团近日宣布,在自动驾驶领域深化合作,共同推动全新自动驾驶功能在大众旗下量产车型的应用。Mobileye依托其领先的Mobileye
    的头像 发表于 03-22 11:46 434次阅读

    Mobileye将为大众旗下豪华品牌提供驾驶辅助软件

    英特尔旗下的自动驾驶技术领军企业Mobileye Global宣布,将携手大众汽车集团旗下的豪华品牌,包括奥迪、宾利、兰博基尼和保时捷,共同推动驾驶辅助技术的发展。Mobileye将为这些品牌提供先进的驾驶辅助软件,旨在进一步提升驾驶的安全性和便利性。
    的头像 发表于 03-22 11:07 302次阅读

    特斯拉股价跌超5% 特斯拉市值一夜蒸发3300亿

    特斯拉股价跌超5% 特斯拉市值一夜蒸发3300亿 近两日特斯拉的股价跌连续下超,目前市值特斯拉的不足6000亿美元。 周一特斯拉的股价跌逾7
    的头像 发表于 03-06 14:25 319次阅读

    英特尔子公司Mobileye与马兴达合作打造下一代智能驾驶技术

    美国芯片巨头英特尔的子公司Mobileye,近日宣布与印度汽车制造商马兴达拉(Mahindra & Mahindra)达成一项重要合作。根据协议,Mobileye将为马兴达拉的下一代汽车提供先进的驾驶辅助系统(ADAS)技术。
    的头像 发表于 01-12 17:05 656次阅读

    Mobileye披露与国际汽车制造商巨头基于核心技术平台的最新合作

    自2026年起,多个全球汽车品牌和17款新车型将搭载Mobileye自动驾驶技术 2024年1月 8日,美国拉斯维加斯 ——Mobileye(纳斯达克股票代码:MBLY)今日宣布,已获得一家西方主要
    的头像 发表于 01-09 14:40 262次阅读

    Mobileye暴跌25%:客户芯片库存过高导致

    英特尔自动驾驶子公司Mobileye发布2023年及2024年业绩展望,因客户芯片库存过高导致年度展望不及市场预期,股价重挫。
    的头像 发表于 01-05 16:28 474次阅读

    特斯拉超预期交付,比亚迪登顶全球销量之冠

    特斯拉2023年全年共计交付181万辆电动车,同比增长38%;累计生产185万辆。尽管较年初设定的50%复合年增长率的目标颇有差距,但仍展示出强大的增长后劲。
    的头像 发表于 01-03 10:43 231次阅读
    <b class='flag-5'>特斯拉</b>超预期交付,比亚迪登顶全球销量之冠

    伯恩斯坦分析师:特斯拉和比亚迪之间的估值差距不合理

    伯恩斯坦公司的分析师Toni Sacconaghi和Eunice Lee表示,考虑到特斯拉和比亚迪的销售额、纯电动汽车销售及利润相似,很难弥补特斯拉(市值约7300亿美元)和比亚迪(市值约840亿美元)之间的市值差距
    的头像 发表于 11-30 09:39 278次阅读

    Mobileye披露2023财年第三季度业务亮点

    (GAAP)为0.02美元,调整后摊薄每股收益(非GAAP)为0.22美元。        • 与主要汽车制造商在高阶产品合作方面持续取得进展,并在第三季度与中国一汽(Mobileye
    的头像 发表于 10-30 09:59 404次阅读

    高低温试验箱的性能差距主要表现在哪几个方面

    高低温试验箱的性能差距主要表现在哪几个方面
    的头像 发表于 09-13 15:02 497次阅读
    高低温试验箱的性能<b class='flag-5'>差距</b>主要表现<b class='flag-5'>在哪</b>几个方面

    国产智驾和座舱芯片与外资差距在哪

    国产芯片与外资芯片差距一目了然,主要就在CPU领域。国产芯片阵营CPU最高的是主要做手机芯片的展讯,其A7870平台配置了车规级6nm制程处理器,8核设计,包括1个2.7GHz的A76
    的头像 发表于 08-28 17:06 984次阅读
    国产智驾和座舱芯片与外资<b class='flag-5'>差距</b><b class='flag-5'>在哪</b>?

    Mobileye研究:被低估的Mobileye,重新定义自动驾驶

    2022 年,Mobileye收入为 19 亿美元,与 2021 年相比增长了 4.8 亿美元,增幅为 35%。与2021年相比,ADAS的采用率增加以及全球汽车产量略有改善,EyeQ SoC销售额增加了3.6亿美元(同比增28%)。
    的头像 发表于 07-29 16:13 1885次阅读
    <b class='flag-5'>Mobileye</b>研究:被低估的<b class='flag-5'>Mobileye</b>,重新定义自动驾驶

    三星成功拿下特斯拉下一代FSD芯片订单

    三星正在试图夺取特斯拉下一代全自动辅助驾驶(FSD)芯片的订单,这些订单最初是交给台积电代工的。之前,三星已经成功取代了台积电,为英特尔旗下自驾技术部门Mobileye生产芯片。
    的头像 发表于 07-19 17:01 507次阅读

    三星4纳米良率改善 分食台积电特斯拉订单;印度首度跃居苹果iPhone第五大市场

    热点新闻 1、韩媒:三星4纳米良率改善 分食台积电特斯拉订单 韩国媒体报道,三星继取代台积电,为英特尔旗下自驾技术部门Mobileye生产芯片后,将再分食才刚交由台积电代工的特斯拉下一代全自动辅助
    的头像 发表于 07-19 16:45 391次阅读
    三星4纳米良率改善 分食台积电<b class='flag-5'>特斯拉</b>订单;印度首度跃居苹果iPhone第五大市场

    解读无氧铜和全铜网线电阻差距

    市场上常用的网线材料有铜包铝、铜包银、全铜、无氧铜;那么,无氧铜和全铜网线电阻差距在哪些地方呢?哪种材料的网线电阻更高?科兰通讯小编为您解答。 无氧铜和全铜网线电阻差距: 所有铜线和无氧铜线都是铜线
    的头像 发表于 07-06 10:08 690次阅读