自动驾驶占据感知网络越精细越好吗？-电子发烧友网

[首发于智驾最前沿微信公众号]在自动驾驶的感知领域，占据感知网络（Occupancy Network，简称OCC）已成为理解三维世界的主流方案。它就像是将车身周围的空间切割成无数个细小的乐高方块，通过判断每个方块是否被物体占据，来构建出一张完整的三维地图。如果想让自动驾驶系统看得更清、避障更准，那就得把这些方块做得更小、更密，也就是提升体素的精细度，那体素越精细就越好吗？

怎样把虚拟空间刻画得更细腻？

想要提升体素的精细度，核心在于如何在特征提取阶段保留更多的细节。摄像头拍摄的高清图像在经过深度神经网络处理后，会为了提取语义信息而不断被压缩，导致很多微小的结构信息丢失。为了解决这个问题，算法会采用多尺度特征融合的技术，就是让模型在处理图像时，既盯着全局的大轮廓，也不放过局部的细微像素。通过将高层级的语义特征与低层级的细节特征进行融合，算法就能获得更加丰富的原始素材，为后续生成高精度的体素奠定基础。

图片源自：网络

在将图像信息映射到三维空间时，采样点的密度决定了最终的细腻程度。传统的方案只是在空间中稀疏地放一些探测点，而精细化的OCC则会撒下更密的查询网。每一个查询点都会去图像中寻找对应的像素特征，并结合深度预测信息，准确地填入对应的空间方块中。

时序信息的加入也起到了关键作用，由于车辆在行驶中视角会不断变化，系统可以利用前几帧的观察结果来补充当前的视野盲区。这种利用时间换空间的方法，通过多帧数据的交叉印证，能够让原本模糊的物体边缘变得清晰起来，甚至能识别出细长的电线杆或垂下的树枝。

空间表达方式的改进也是让体素变精细的有效途径，直接在三维空间中堆叠高分辨率的方块会消耗巨大的资源，因此有技术提出了像是三视图投影（TPV）等技术。这种方法不再死磕完整的三维立方体，而是把三维信息投影到三个相互垂直的平面上进行处理。在二维平面上操作高分辨率数据的成本远低于三维空间，通过这种巧妙的维度转换，算法能够在逻辑上实现极高的分辨率，最后再还原回三维世界，从而在保证精细度的同时，绕开了直接计算海量三维数据的难题。

算法如何避免计算量的爆炸式增长？

追求极致的精细度其实是一把双刃剑，当精细度提升后，必然会带来计算量的爆炸式增长。在三维空间中，分辨率的提升与计算成本之间并不是线性的关系，而是呈立方倍数增长。如果我们将体素的边长缩小一半，同一空间内的体素数量就会变成原来的八倍。这意味着车载芯片不仅要处理海量的浮点运算，还要面对巨大的显存压力。如果硬件的显存带宽无法支撑这种数据吞吐量，感知系统就会出现严重的延迟。在高速行驶的过程中，几十毫秒的延迟就可能导致车辆错过最佳的制动时机。

图片源自：网络

为了缓解这种压力，算法并不倾向于在所有区域都实行均匀细化，而是采用了更聪明的按需分配策略。如系统会引入稀疏化处理技术，只针对那些真正有物体存在的区域进行精细建模，而对于大片空旷的区域（如天空或开阔的远景）则采用粗略的描述甚至直接略过。这种思路也演变成了非均匀网格方案，即在车辆近处、对驾驶决策影响较大的范围内使用高精细度的体素，而在远处则逐渐降低分辨率。这种近实远虚的分配方案，既保留了关键的细节，又极大地节省了宝贵的算力资源。

层次化的结构也是一种有效的优化手段。系统可以先在一个较低的分辨率下进行预扫，确定哪些地方可能有东西，然后再对这些感兴趣的区域进行递归式的细化。这种从粗到细的处理流程，避免了在无意义的空域上浪费计算资源。通过这种动态调整精度的方法，感知网络可以在保持实时性的前提下，实现对复杂障碍物（如路边的绿化带、散落的纸箱等）的精准刻画。

变清晰之后会面临哪些新麻烦？

体素变精细后，另一个隐蔽但棘手的问题是噪声和虚警。当方块划分得非常细时，算法对于输入数据的细微抖动会变得异常敏感。摄像头图像中的一点光影闪烁，或者传感器在标定上的微小误差，在精细的体素空间里都可能被放大成不存在的障碍物。这种现象就像是照相机感光度调得太高后出现的噪点，会让系统误以为前方有障碍而触发频繁的减速甚至急刹车。如何在高分辨率和信号稳定性之间找到平衡，是技术落地时必须要解决的问题。

图片源自：网络

当体素更精细后，数据标注的复杂度也会大幅度提升。要训练一个精细的占据感知网络，就需要极其精准的真值作为参考，目前主流的做法是利用激光雷达收集的点云来生成标签。但激光雷达的点云会随着距离增加会迅速变得稀疏。当我们要求的体素精细度超过了激光雷达点的密度时，很多小方块里其实根本没有参考数据。这种数据的断层会让模型在学习时产生困惑，因为它不知道那些没有点云落入的缝隙到底是真实的物理空间，还是传感器的盲区。

体素精细化后还会涉及多传感器之间协同的问题，虽然摄像头能提供丰富的细节，但它对距离的感知天然不如激光雷达准确。在极高分辨率的体素网格中，这种距离上的微小偏差会被体现得淋漓尽致，导致不同传感器给出的信息在同一个细小方块里发生冲突。这种冲突如果不经过复杂的融合算法处理，反而会降低感知的可信度。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉