自动驾驶端到端时代，还会使用BEV和Transformer吗？-电子发烧友网

[首发于智驾最前沿微信公众号]在讨论自动驾驶技术时，很多人容易产生一种误解，认为端到端是一项孤立的新技术，会完全取代BEV（鸟瞰图）或Transformer，也有小伙伴曾在后台留言询问端到端模型还会使用BEV+Transformer吗？

事实上，端到端并不是要推翻现有的感知架构，而是将原本各司其职的模块，通过一种更高效、更具逻辑性的方式融合在一个庞大的神经网络里。BEV和Transformer依然是这套系统的眼睛和骨架，只是它们的工作方式发生了变革。

为什么空间感知依然是核心？

自动驾驶最基本的要求就是让车辆知道自己在哪里，周围有什么。虽然端到端模型可以直接输出驾驶轨迹，但如果系统内部没有建立起准确的空间模型，它给出的动作就会变得不可预测且缺乏逻辑。

BEV技术的核心价值在于它提供了一个统一的空间底座。它能将布置在车身四周的多个摄像头采集到的图像信息，实时投影到一个俯视的角度下。在这个角度里，物体之间的距离、车道的走向以及交叉口的布局，都变得和人类看地图一样直观。

图片源自：网络

在目前的端到端方案中，BEV不再只是为了画出漂亮的感知画面供工程师查看。它的真实作用是作为特征容器。当多路摄像头的数据涌入模型时，系统会在这个统一的空间平面内进行特征叠加。

这种做法解决了摄像头视野重叠或遮挡的问题，让模型在处理诸如大曲率弯道或复杂的城市路口时，能够拥有一份连贯的空间记忆。如果缺少了这个空间视角，端到端模型就只能在混乱的像素中摸索，很难表现出稳定的驾驶决策能力。

Transformer是如何连接时空的？

如果说BEV是舞台，那么Transformer就是舞台上的总导演，负责决定哪些信息该被保留，哪些信息该被重点关注。在端到端模型内部，Transformer的注意力机制解决了感知中的一个痛点，如何把不同位置、不同时间的信息关联起来。

图片源自：网络

通过这种机制，模型可以自主学习哪些画面特征对当前的驾驶任务最重要。如在通过红绿灯路口时，它会自动把权重分配给前方的信号灯和侧方的行人，而不是路边无关紧要的树木。

更重要的是，现在的端到端模型非常依赖Transformer来处理时间序列。驾驶不是一个静态的瞬间，而是一个连续的过程。Transformer能够像人类的短期记忆一样，把过去几秒钟的特征信息串联起来。这让模型具备了预测能力，即使遇到一个骑车人被路边的公交车挡住了的场景，系统依然能通过之前的观察记录，推断出这个人的大概位置和行进速度。这种对时空信息的深度整合，让端到端模型在面对“鬼探头”等极端场景时，反应比纯粹的规则算法更加灵敏且自然。

神经网络内部是怎么交流的？

传统的自动驾驶架构像是一条流水线，感知算完了给预测，预测算完了给规控。每一道工序都会把数据翻译成如目标物的坐标、速度数值等人类能读懂的格式。但在端到端模型中，这种交流变得更加高效。BEV和Transformer生成的特征，直接以高维向量的形式传给下游。这种方式最大的进步在于避免了信息折损。

图片源自：网络

以往如果我们把一个异形物体误识别成了电线杆，后面的规划模块就可能因为这个错误的标签而做出错误的规避。但在端到端系统里，即便模型叫不出那个物体的名字，它也能通过Transformer感知到那个位置的特征是不可通行的，从而直接计算出一条绕行的曲线。

这种从原始特征到驾驶行为的直接映射，省去了中间繁杂的人工规则定义，让车辆在面对各种奇奇怪怪的路况时，表现得更像一个有经验的老司机，而不是只会按说明书干活的机器人。

未来的模型还会怎么变？

虽然现在的端到端模型高度依赖BEV和Transformer，但这套组合也在不断进化。目前的趋势是让模型具备更强的世界感，很多技术方案也正在尝试引入Occupancy（占用网络）的思想，让模型不再关注具体的物体，而是关注空间中的每一个体积单位是否被占据。这种做法让端到端模型在处理施工区域、散落物等不规则障碍物时，拥有了更高的鲁棒性。