自动驾驶有了占用网络还需要卷积神经网络吗？-电子发烧友网

[首发于智驾最前沿微信公众号]在自动驾驶的视觉感知领域，占用网络（Occupancy Network）风头正劲，大有取代传统目标检测方案的势头。在最近一篇交流占用网络的文章中，有小伙伴提问，自动驾驶有了占用网络还需要卷积神经网络（CNN）吗？

对于这个问题我们需要先厘清它们在整个系统里扮演的角色。占用网络在自动驾驶中更像是一种对世界的表达方式，而CNN则是处理图像信息的基础工具。这两者之间并不是非此即彼的替代关系，而是各司其职。

传统的视觉识别是怎么工作的？

在占用网络流行之前，自动驾驶的主流感知方案是基于CNN的目标检测。你可以把它想象成给摄像头拍到的每一张照片画框。

当摄像头拍摄到前方的道路，CNN会通过一层层的卷积运算，从像素中提取出边缘、纹理、形状等特征。如果它发现某个区域的特征符合它学习过的车或者人的特征，就会在该位置打上一个标签，并给出一个矩形框。

卷积神经网络架构

这种方式在处理标准物体时效率非常高，因为它直接告诉了系统前方多远有一辆车。

然而，单纯依靠画框的方案存在一个明显的短板，就是它很难处理那些没见过的物体。

如果路面上掉落了一个形状奇特的塑料桶，或者有一辆侧翻的运载奇形怪状建筑材料的卡车，传统的CNN目标检测模型可能会因为找不到匹配的特征而漏检。

这是因为这类模型本质上是在做分类题，如果题目超出了它的知识库，它就可能选择视而不见。这种漏检对于追求极致安全的自动驾驶来说，显然是不可接受的。

为什么需要占用网络？

为了解决这种“长尾问题”，占用网络应运而生。它不再试图去分辨前方到底是车还是树，而是直接把三维空间切成无数个微小的方格，也就是我们常说的体素。

占用网络的目标非常单纯，那就是判断每一个方格是被占据了，还是空闲的。

通过这种方式，感知系统就能构建出一个实时的三维物理世界模型。在这个模型里，哪怕前方是一堆乱七八糟的杂物，只要它占据了空间，占用网络就会把它标记为不可通行。

这种从做分类题到做空间判断题的转变，极大地提升了自动驾驶对未知环境的适应能力。它不再依赖于复杂的物体标签，而是回归到了物理世界的本质。

通过占用网络，车辆可以更精准地感知物体的边缘、高度和深度，甚至能预测物体在空间中的运动趋势。

这不仅解决了漏检奇形怪状物体的问题，也为车辆的规控系统提供了更干净、更立体的环境地图。

占用网络和CNN是替代关系吗？

既然占用网络这么厉害，那CNN是不是就可以不再使用了呢？答案是否定的。实际上，目前的占用网络架构中，CNN依然发挥着不可替代的基础作用。

我们要明白，占用网络处理的是三维空间的占用情况，但传感器的输入，尤其是摄像头拍摄的原始画面，依然是二维的像素点。

要把这些杂乱的像素变成有意义的特征，最成熟、最高效的手段依然是CNN。

在目前的感知流程中，CNN充当着骨干网络的角色。摄像头捕获图像后，首先由CNN进行初步的特征提取，把图像转化成高维的特征向量。这些特征向量里包含了物体的颜色、纹理、明暗变化等关键信息。

随后，这些信息才会被送入后续的模块（比如Transformer或跨空间映射模块），转化成三维空间下的占用概率。

换句话说，CNN负责看，它提供了感知的素材；而占用网络负责想，它基于这些素材把世界构造成三维的模样。

未来的感知架构会如何演进？

虽然CNN目前依然稳坐骨干网络的宝座，但自动驾驶的感知架构确实在发生变化。随着计算硬件的升级，一些原本由CNN承担的任务正在向Transformer转移，尤其是在处理多摄像头融合和长时序信息时，Transformer表现出了更强的全局建模能力。

但这并不意味着CNN会彻底消失。在一些对实时性要求极高、计算资源相对有限的边缘处理任务上，CNN凭借其局部特征提取的极高效率，依然具有很强的竞争力。

未来的自动驾驶感知系统，大概率会是一种多种技术深度融合的状态。CNN可能会继续在底层处理图像像素，通过轻量化的设计快速提取基础特征；而占用网络则在更高层级上统领全局，把来自不同传感器的数据整合成统一的空间模型。

在这个进化的过程中，占用网络并没有淘汰CNN，而是把CNN从繁重的画框任务中解放了出来，让它回归到最擅长的图像特征提取工作中。

两者的结合，让自动驾驶汽车能够不仅看清路上的物体，更能真正读懂这个立体的物理世界。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

自动驾驶有了占用网络还需要卷积神经网络吗？