0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Mobileye和特斯拉差距在哪?

佐思汽车研究 来源:佐思汽车研究 2023-07-12 15:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

对比Mobileye和特斯拉,两者做事风格截然不同。Mobileye有着十几年的积累,可靠性经过了市场和时间的验证,传统大厂无一例外都会选择Mobileye,但同时意味着有资产包袱,不舍得放弃以前的研究成果,难接受新的研究方向与潮流变化,对学术界的东西似乎完全不在意。特斯拉则是博采各家所长,时刻关注着学术界的最新动向,发现有好的技术点就努力将其落地,始终走在技术最前沿。

Mobileye在L2领域占据绝对霸主地位,市场占有率超过70%,特斯拉则是智能驾驶技术的引领者。对于感知任务,核心就是建立一个3D的周边环境模型,即3D场景重建,这也是L2与L2+系统的本质区别。L2的目的是避免碰撞,遇到可能发生的碰撞就刹车或减速,而L2+系统是自主驾驶,遇到可能发生的碰撞时,通过对周边3D场景重建,找到可行驶空间Freespace绕开障碍物,而不是减速或刹车。3D场景重建的最佳表征形式是BEV即鸟瞰,很多时候BEV几乎等于3D场景重建。

3D场景重建最佳解决办法是立体双目,即基于Depth Map的3D重建。立体双目可以准确测量出深度信息,但除了博世、奔驰、丰田这些大厂外,双目的标定和立体匹配是无法跨越的难关,包括特斯拉和Mobileye。还有一个原因是新兴造车在单目上累积了丰富的知识产权,跳到立体双目领域意味着这些累积都作废了,这是最核心资产的严重流失。

特斯拉和Mobileye的思路都是用单目做3D重建,常见方法有SfM和Transformer。此外3D场景重建还可以基于点云、VOXEL和MESH。

SfM(Structure From Motion)是最经典技术路线,通过使用诸如多视图几何优化之类的数学理论从2D图像序列中确定目标的空间几何关系,以通过相机移动恢复3D结构。SFM方便灵活,但在图像序列采集中遇到场景和运动退化问题。根据图像添加顺序的拓扑结构,可以将其分为增量/顺序SFM、全局SFM、混合SFM和分层SFM。此外,还有语义SFM和基于深度学习的SFM。步骤包括1.特征提取(SIFT、SURF、FAST等方法);2.配准(主流是RANSAC和它的改进版;3.全局优化bundleadjustment用来估计相机参数;4.数据融合。

6c81a5de-205f-11ee-962d-dac502259ad0.png

Mobileye的SuperVision

6c9f5278-205f-11ee-962d-dac502259ad0.png

Mobileye的multi-view stereo实际就是SFM的另一种说法,Mobileye还给它取了另一个名字Vidar或者叫伪激光雷达,这就是SuperVision的核心。

6cb3edc8-205f-11ee-962d-dac502259ad0.png

Mobileye的SuperVision,7个800万像素摄像头

6d044516-205f-11ee-962d-dac502259ad0.png

7个摄像头联合得到的3D场景重建

6d2617ae-205f-11ee-962d-dac502259ad0.png

伪激光雷达

6d5dee5e-205f-11ee-962d-dac502259ad0.png

VIDAR就是multi-view stereo

6d7dc9cc-205f-11ee-962d-dac502259ad0.png

Mobileye的SFM还混合了REM和视觉道路模型

6da5df66-205f-11ee-962d-dac502259ad0.png

SuperVision也可以得到BEV视角,不过不像特斯拉那样高精细度,特斯拉的所谓OccupancyGrid,Mobileye也有使用。当然,大部分情况下还是非BEV视角。

SFM的优点是设计简单,有些类型的SFM可以用非深度学习算法,对算力需求很低,即使深度学习算法,因为还是参数量不到千万的CNN,对算力需求还是很低。不过SFM精度不高,特别是大范围场景或者说远距离使用困难,因为一个大场景环境是很复杂的,如各种物体、多样的光照、反光表面,还有不同焦距、畸变和传感器噪声的多样摄像机。许多先前的方法采用多视角深度估计(MVS)来重建场景,预测每一帧图像的稠密深度图,这种depth-based方法可以估计准确的局部几何形状,但需要额外的步骤来融合这些深度图,例如解决不同视角之间的不一致性,这相当困难。Mobileye的解决办法是使用高像素摄像头,7个摄像头都是8百万像素,像素越高,有效距离越远。

再有就是SFM准确度有限,为了从多个输入视图中学习有效的3D表示,大多数基于CNN的方法遵循分而治之的设计原则,其中通常的做法是引入CNN进行特征提取和融合模块来集成多个视图的特征或重建得到。尽管这两个模块之间有很强的关联,但它们的方法设计是分开研究的。另外,在CNN特征提取阶段,很少研究不同视图中的目标关系。虽然最近的一些方法引入了递归神经网络(RNN)来学习不同视图之间的目标关系,但这种设计缺乏计算效率,而且RNN模型的输入视图是对顺序变化敏感的,难以与一组无序的输入视图兼容。

轮到特斯拉的BEVFormer闪亮登场了,BEV一直存在,BEV视角下的物体,不会出现图像视角下的尺度(scale)和遮挡(occlusion)问题。由于视觉的透视效应,物理世界物体在2D图像中很容易受到其他物体遮挡,2D感知只能感知可见的目标,而在BEV空间内,算法可以基于先验知识,对被遮挡的区域进行预测。再有就是BEV视角下,感知和决策规划有机地融为一体,依靠Freespace或者说Occupancy Grid提供直接路径规划,无需中间计算环节,速度和准确度都大幅提升。

6dd164c4-205f-11ee-962d-dac502259ad0.png

BEV可以分为基于深度/几何信息的和基于深度学习的两大类。

基于深度/几何信息的 BEV 是正向思维,采用自底向上、从2D 到3D 的方式,先在2D视角预测每个像素的深度再通过内外参投影到 BEV空间通过多视角的融合生成BEV特征,但对深度的估计一直都是难点。不过激光雷达和双目都可以提供准确的深度信息完全不是难点。纯单目的方式典型代表就是SFM,用SFM 推测深度信息。Mobileye 可以用SFM 做出BEV,但目前来看还似乎是没有使用,还是2D 平视。

基于深度学习的 BEV是逆向思维,采用自顶向下、从3D到2D 的方式,先在 BEV 空间初始化特征,再通过多层transformer 与每个图像特征进行交互融合,最终再得到 BEV特征。这就是特斯拉的BEVFormer。

早期自动驾驶研究阶段都是头顶64线或128线360度Velodyne机械激光雷达,就是为了制造BEV视角,但是要到落地阶段,Velodyne的64线或128线激光雷达显然无法商业化。

6df566c6-205f-11ee-962d-dac502259ad0.png

激光雷达制造的BEV

于是才有了纯摄像头的BEV。BEV是连接时空的理想桥梁。对于人类视觉感知系统来说,时间信息在推断目标的运动状态和识别遮挡目标方面起着至关重要的作用,视觉领域的许多工作已经证明了视频数据的有效性。然而,现有最先进的多摄像头3D检测方法很少利用时间信息。应用Transformer(空域)结构和Temporal结构(时域)从多摄像头输入生成鸟瞰图(BEV)特征。BEVFormer利用查询查找空域和时域,并相应地聚合时-空信息,有利于实现感知任务的更强表征。

Transformer是一种基于注意力机制(Attention)的神经网络模型,由Google在2017年提出。与传统神经网络RNN和CNN不同,Transformer不会按照串行顺序来处理数据,而是通过注意力机制,去挖掘序列中不同元素的联系及相关性,这种机制背后,使得Transformer可以适应不同长度和不同结构的输入。利用多个无序输入之间的自注意力来探索视图到视图的关系。将多视图3D重建问题重新表述为一个序列到序列的预测问题,并将特征提取和视图融合统一在单个transformer网络中。

另一方面,在Transformer模型中,自注意力机制在任意数量的输入标记内显示出其学习复杂语义抽象的强大能力,并且自然地适合于探索3D目标不同语义部分的视图到视图关系。鉴于此,transformer的结构成为多视图3D重建最吸引人的解决方案,transformer配合语义分割有更好的效果,传统的CNN也有不错的3D重建。

6e2f124a-205f-11ee-962d-dac502259ad0.png

BEVFormer整体架构

需要指出BEVFormer有两个概念,一个是南京大学、上海AI实验室和香港大学提出的,见论文《BEVFormer: Learning Bird’s-Eye-View Representation from Multi-CameraImages via Spatiotemporal Transformers》,另一个是人们根据特斯拉AI日中的介绍,认为特斯拉的感知结合了BEV和Transformer,因此称其为BEVFormer。特斯拉不会公布自己的源代码,而《BEVFormer: Learning Bird’s-Eye-ViewRepresentation from Multi-Camera Images via Spatiotemporal Transformers》内附源代码。

特斯拉自己对BEV + Transformer的叫法应该是Multi-CamVector Space Predictions。

6e4e29f0-205f-11ee-962d-dac502259ad0.png

其内部构造可以参考FACEBOOK的论文《End-to-End Object Detection with Transformers》

6e6f8a28-205f-11ee-962d-dac502259ad0.png

特斯拉图像到BEV的Transformer

6e90b374-205f-11ee-962d-dac502259ad0.png

特斯拉视觉系统整体架构,BEV+Transformer也就是第二层的Multi-camFusion+矢量空间。

特斯拉的第一层的BiFPN也值得一提。BiFPN当然也不是特斯拉创造的,它的详细理论参见论文《EfficientDet: Scalable and Efficient Object Detection》,作者是谷歌大脑研究小组。

6ecb61d6-205f-11ee-962d-dac502259ad0.png

BiFPN准确率很高,消耗算力比传统的ResNet要低很多。

Mobileye的算力不高,不是AI算力不高,CPU算力也不高,GPU几乎为零,因此Mobileye将环境模型分成4部分,降低计算密度。

6ef2836a-205f-11ee-962d-dac502259ad0.png

针对4个子目录有不同的处理技术

6f352e54-205f-11ee-962d-dac502259ad0.png

这其中的语义分割和特斯拉的Occupancy Grid基本一致,只是特斯拉是基于BEV视角的。

6f91617e-205f-11ee-962d-dac502259ad0.png

Mobileye的语义分割,Mobileye早在2018年就提出此项技术并于2019年商业化落地,技术实力还是很不错的。

表面上看,特斯拉和Mobileye的SuperVision的思路一致,但Transformer的使用让特斯拉明显远比Mobileye要强大,不过一代FSD或者说HW3.0能跑BEVFormer吗?典型的NLP用Transformer参数是10亿个,针对视频的可能会有20亿个,按照汽车行业惯用的INT8格式,意味着Transformer模型大小是2GB。特斯拉初代 FSD 使用的 LPDDR4,型号是MT53D512M32D2DS-046 AAT,容量为16Gb,总共 8 片,I/O 频率 2133MHz,其带宽为 2.133*64/8,即 17.064GB/s,由于DDR是双通道,所以带宽是34.12GB/s,这里非常抱歉,以前的算法有错误(错误照搬了英伟达的张量并行模式),严重高估了内存带宽。

顺便指出像ChatGPT这种大模型,英伟达是采用张量并行的方式计算,因此如果是8张H100显卡,英伟达是将权重模型一分为8,等同于内存带宽增加了8倍,但是张量并行是针对多张显卡服务器设计的,对于车载领域,Transformer还未听说用张量并行的,张量并行也是英伟达独创的。内存带宽仅有34.12GB/s是无法流畅运行Transformer的,因为每分钟单单读入权重模型的次数最高也不过17次,还未包括处理数据的时间和路径规划所需要的时间,而智能驾驶需要帧率至少是每秒30帧,也就是每秒30次以上计算,那么内存带宽至少要能支持每秒60次读入,也就是带宽要增加3倍以上。

不仅是内存带宽,Transformer不仅对AI算力需求大,对CPU的标量算力需求也大,初代FSD仅有12个ARM Cortex-A72,这是不够的。二代FSD或者说HW4.0用了昂贵的GDDR6,带宽大幅增加,CPU核心也从12个增加到20个,勉强可以跑Transformer。不过GDDR6虽然带宽高,但速度低,用在CPU领域并不合适。

70cdce24-205f-11ee-962d-dac502259ad0.png

服务器领域内存是分开的,CPU用强调速度的DDR5,GPU用强调带宽的HBM3。但汽车领域是CPU+GPU(AI),一般厂家都选择LPDDR5(LP是低功耗的意思),照顾CPU更多,特斯拉为了强调AI算力,用了GDDR6。

初代FSD可能还上不了BEVFormer,与Mobileye的SuperVision效果相比,Mobileye的像素远高于初代FSD,有效距离更远,安全系数更高。但二代FSD就目前来看,是可以全面胜过SuperVision的,不过即使是美国市场,二代FSD估计也要等到2024年才会上市,中国市场估计要到2025年甚至2026年,届时Mobileye或许也有技术升级。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2990

    浏览量

    113837
  • 服务器
    +关注

    关注

    13

    文章

    10093

    浏览量

    90886
  • Mobileye
    +关注

    关注

    3

    文章

    131

    浏览量

    34535

原文标题:Mobileye和特斯拉差距在哪?

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    适用于Mobileye EyeQ6L平台的MPSafe电源子系统解决方案参考设计

    EVME6L_00A 是 MPS 提供的一种 MPSafeTM 电源子系统解决方案,它能够为 Mobileye EyeQ6L 平台供电以实现汽车自动驾驶功能。该解决方案凭借高效率的开关稳压器而具备出色的电力传输能力。
    的头像 发表于 11-24 11:42 456次阅读
    适用于<b class='flag-5'>Mobileye</b> EyeQ6L平台的MPSafe电源子系统解决方案参考设计

    特斯拉消息:机器人成本目标2万美元以内 马斯克:特斯拉或建巨型芯片工厂

    给大家带来一些特斯拉的最新消息: 特斯拉:机器人成本目标2万美元以内 11月7日,特斯拉在微博发文称人形机器人的试生产产线已经在弗里蒙特工厂开始运行,规模更大的第三代人形机器人的生产线将于2026年
    的头像 发表于 11-07 15:45 252次阅读

    国产测头与雷尼绍测头的差距到底在哪

    走回头路,开始换回进口品牌。因为最终使用的用户发现,不少产品,比如机床测头,不是说替代就能替代的。在一些高精密测量领域,国产虚标问题严重。有些“遥遥领先”的国产品牌,甚至根本不知道自己差在哪里。今天小编
    发表于 10-29 23:52

    新能源汽车充电桩,中国与欧盟差距很大!

    差距本质是技术路线与市场形态的选择差异
    的头像 发表于 05-28 17:21 682次阅读
    新能源汽车充电桩,中国与欧盟<b class='flag-5'>差距</b>很大!

    Mobileye选用Valens VA7000芯片组集成至自动化驾驶和自动驾驶项目

    摘要:优化的光路协同技术将应用于基于Mobileye EyeQ™6 High芯片系统的量产定点中 2025年4月2日,高性能连接技术领导者Valens Semiconductor(纽交所代码:VLN
    的头像 发表于 04-03 11:12 618次阅读

    传统PCB与高难度PCB,差距究竟在哪

    近期,折叠屏手机、AI服务器等创新产品频繁登上热搜,其背后离不开一项“隐形科技”——高难度PCB(印刷电路板)。随着电子终端向轻薄化、高性能化演进,PCB技术正面临前所未有的挑战与机遇。 以新能源车领域为例,某行业领先企业推出的内嵌式PCB封装电驱控制器(CEPU),通过将功率芯片直接埋入PCB,将厚度压缩至两个硬币直径(约20mm),同时实现超低杂感电感( 在AI服务器领域,高密度互连(HDI)PCB成为关键。某厂商采用0.1mm线宽/距的盲埋孔
    的头像 发表于 03-01 18:56 732次阅读

    特斯拉市值一夜蒸发超6400亿元 特斯拉总市值跌破1万亿美元

    在当地时间2月25日,特斯拉公司股价在盘中一度跌超10%,总市值跌穿1万亿美元,截至收盘特斯拉股价报302.8美元,跌幅达到8.39%,市值一夜蒸发892亿美元(换算下来约合人民币6469亿)。  
    的头像 发表于 02-26 14:52 826次阅读

    特斯拉能在中国玩转城市NOA吗?

    2月25日消息,特斯拉官方小程序发布了“2024.45.32.12软件更新”资讯,其中提到了“城市道路Autopilot自动辅助驾驶(优化现有NOA自动辅助导航驾驶功能)”。特斯拉FSD,即完全
    的头像 发表于 02-26 11:26 839次阅读
    <b class='flag-5'>特斯拉</b>能在中国玩转城市NOA吗?

    特斯拉中国FSD发布或延后

    据外媒teslarati的最新报道,特斯拉中国的FSD(Full-Self Driving,完全自动驾驶)辅助驾驶技术的发布时间可能会延后。这一消息引发了业界和消费者的广泛关注。 据了解,特斯拉中国
    的头像 发表于 02-19 11:36 906次阅读

    特斯拉内部担忧马斯克影响

    近日,一份内部录音揭示了特斯拉某部门员工会议上的紧张氛围。会上,特斯拉员工与高级管理人员纷纷表达了对公司CEO马斯克的担忧,认为他的行为正在对公司及其可持续发展使命造成损害。 据两名特斯拉员工透露
    的头像 发表于 02-18 11:12 877次阅读

    国产变频器与国外品牌存在的差距分析

    近日有网友问到:国产低压变频器跟合资低压变频器的差距到底在哪里?不是说低压的变频器其实国内跟合资已经是差不了多少,只是品牌效应?是在芯片?算法?员工素质?高压变频器国产跟进口的是不是差距还是很大
    的头像 发表于 02-17 10:06 1174次阅读
    国产变频器与国外品牌存在的<b class='flag-5'>差距</b>分析

    AD5934用于测试水体时,测量值与实际值差距巨大是怎么回事?

    您好,目前设计的一个水体电导率测试产品,按CN-0349参考设计,使用纯电阻校准,测试纯电阻精确度不错! 但现在发现用于测试水体时,测量值与实际值差距巨大, 校准方法: 1.仅使用电阻校准,使用中点
    发表于 12-19 08:47

    Mobileye牵手Innoviz合作激光雷达用于其Mobile Drive平台

    自动驾驶和驾驶辅助技术的全球领导者Mobileye 和Innoviz今天宣布,Mobileye将在Mobileye Drive平台上使用innoviz的激光雷达。这展示了Innoviz的激光雷达在
    的头像 发表于 12-12 18:41 1500次阅读

    特斯拉再陷专利侵权诉讼

    近日,特斯拉在美国遭遇了新的法律挑战。一家名为Granite Vehicle Ventures的公司,在美国德州东区地方法院对特斯拉提起诉讼,指控其全自动驾驶(FSD)技术侵犯了其三项新获得的专利
    的头像 发表于 12-10 13:52 1073次阅读

    数据驱动AI工具在哪

    数据驱动AI工具并不遥远,它们就存在于我们的日常生活中,只是我们可能没有意识到。这些工具通常被嵌入到各种应用程序、软件和服务中,为我们提供便利。接下来,AI部落小编为您详细介绍数据驱动AI工具在哪
    的头像 发表于 12-09 10:52 754次阅读