自动驾驶摄像头中的“目”是个啥？-电子发烧友网

[首发于智驾最前沿微信公众号]在自动驾驶系统的感知架构中，摄像头始终扮演着“眼睛”的角色，它以直观的方式捕捉车外环境，将光学信号转化为图像数据，供后端算法进行物体检测、分割、跟踪与深度估计。随着自动驾驶技术从辅助驾驶（Level 1/2）向中高阶自动驾驶（Level 3 及以上）演进，对环境感知的精度、可靠性和冗余度也提出了更苛刻的要求。与此同时，行业内主流的视觉方案也在不断丰富，从早期的单目摄像头，到双目立体视觉，再到近年来开始探索的三目甚至多目的多视角布局，自动驾驶纯视觉解决方案也更加丰富。

单目摄像头

单目摄像头因其硬件结构最为简单、成本最低廉、布置最为灵活而成为自动驾驶感知系统的基础配置。一台普通摄像头即可安装于挡风玻璃后方或车前格栅处，便可获得宽视角的彩色图像序列。单目深度估计主要依赖于图像中的透视几何线索（如远近关系产生的尺寸变化）、运动线索（双帧或多帧光流）、以及深度学习模型对场景先验的学习。

基于单目图像的深度估计方法可以分为监督式与自监督式。监督式借助激光雷达（LiDAR）或结构光相机标定出的真深度进行网络训练，精度较高但对大规模标注数据依赖严重；自监督式则通过视差一致性、光度一致性约束和多视角几何投影建立损失函数，摆脱了稠密标注的束缚，但在纹理匮乏和动态遮挡场景下精度波动明显。单目摄像头在弱光、强逆光条件下表现较好，且与毫米波雷达结合时能够形成较为完善的检测与跟踪管线；但由于其固有的“视差盲区”，在深度估计误差（数米级）与目标尺寸估计偏差（百分之十以内）的情况下，难以独立支撑高阶自动驾驶对亚米级、甚至亚米级以下的深度精度需求。

双目摄像头

双目视觉系统通过两台同步标定、具有固定基线的摄像机获取左右两路图像，以视差（disparity）为桥梁直接计算场景深度，双目视觉系统也更加近似于人眼。同一物点在左右图像中的横向偏移量与基线长度和焦距共同决定了其绝对距离。经典双目深度重建分为四大步骤：立体校正（stereo rectification）、视差匹配（disparity estimation）、视差滤波与优化（filtering & refinement）、以及点云重建（point cloud generation）。当前主流的视差匹配算法既包括基于局部窗口的代价聚合方法（如SAD、SSD与Census Transform），也包括全局能量最小化方法（如Graph Cuts、Semi-Global Matching），以及最近几年兴起的端到端深度学习方法（如GC-Net、PSMNet）。

双目视觉能够在中短距离（0.5 米至50 米）内提供亚米级的深度精度，并在静态与高纹理场景中表现卓越；但当面对低纹理、重复纹理、强光照不均或半透明遮挡时，视差匹配的正确率会显著下降，导致深度估计失真。此外，双目系统对摄像头外参（相对位置与姿态）的标定精度和时间同步提出了高要求，一旦标定误差超过千分之一（基线与焦距之比），就可能带来数毫米至数厘米的深度偏离。双目系统在算力消耗与数据带宽方面也高于单目，两路高分辨率图像的拼接与匹配、对称的图像预处理与后处理，都需要更强的视觉处理单元（VPU）或GPU支持。

三目摄像头

三目布局一般采用共面而非共线的设计，三台摄像头按一定几何形状（如等边三角形基线）分布，以获得更丰富的视差信息。相较于双目，三目系统能够形成两组或三组不同基线长度、不同匹配对的深度估计，从而在多种距离区间内兼顾近、中、远距离的测量精度。例如，基线较短的一对摄像头适合1至10 米范围的高精度测距，而基线较长的一对则能够延伸到100 米的目标探测。

在算法层面，三目视差匹配可同时在多对图像间建立代价体（cost volume），并通过多视角一致性约束（multiview consistency）剔除错误匹配，显著提升了在低纹理与弱光场景下的鲁棒性。三目系统还能够利用不同视角下的遮挡信息（occlusion reasoning）进行遮挡补偿，弥补双目在部分遮挡物体（如行人背后夹杂车辆或路牌）时深度估计的盲区。三目系统的一个挑战是算法复杂度，如何高效构建三维代价体、如何在保证实时性的前提下完成多对视差匹配、如何动态选择最优基线对进行深度融合，都是亟需解决的问题。在硬件方面，为了减轻时间同步与数据带宽压力，通常会采用板载FPGA或专用ISP（Image Signal Processor）进行初步预处理与视差计算，然后再将稀疏或半密集的深度信息传输给主算力单元。

技术方案

在更高阶的自动驾驶车辆上，为了实现360°无死角监控与高精度三维重建，厂商往往会将前向双目或三目视觉与侧向、后向、俯瞰等多路摄像头结合，构成四目、六目甚至八目的多视角网络。此时，系统需要解决的关键问题不仅仅是单对深度估计，更包括跨视角的时空对齐（temporal-spatial synchronization）、全局标定（global extrinsic calibration）、多视角深度融合（multiview depth fusion）与全景拼接（panorama stitching）。在全景感知中，车辆往往需要同时执行多任务，前方车辆与行人的距离测量、侧向障碍物的实时告警、倒车时的俯视图生成，以及自动泊车中的全景轨迹规划。多目布局能够提供更丰富的冗余信息，即便某一路摄像头因泥污、强逆光或物理损坏暂时失效，系统仍能依靠其它视角的深度信息维持基础感知能力，从而满足高安全等级（ASIL D）对感知冗余的要求。

单目方案凭借极低的硬件成本与成熟的深度学习生态，成为市面上大量量产车型实现L2 级别自动辅助驾驶的主流选择；双目方案在特定场景（如干式公路、高速公路集群货运）中能够提供亚米级精度，成为部分L3 级自动驾驶示范区的首选；而三目及多目方案则主要出现在少数高端概念车与少量具备大量数据标注与计算资源支持的示范车队中。对于工程实现而言，还需考虑视觉传感器与整车CAN总线、以太网交换机的带宽匹配；车载算力单元（如NVIDIA DRIVE、Mobileye EyeQ）对并行视觉算法的部署能力；视觉算法与其他传感器（LiDAR、毫米波雷达、超声波雷达）的融合策略以及在极端天气（雨、雪、雾、夜间）下的抗干扰与抗闪烁能力。

当前，为提升单目与双目在复杂场景下的鲁棒性，主流做法是将视觉深度估计与雷达或LiDAR点云进行时空融合，通过深度校正网络（depth correction network）对单目估计值进行回归补偿，或利用Kalman滤波与图优化（graph optimization）框架将多源深度信息整合到同一帧时空参照系内。对于三目与多目系统，则往往采用多视角神经网络（multiview neural network），直接在稠密的多目代价体上进行端到端训练，以统一的方式生成更高精度、更少噪声的稠密深度图。此外，利用自监督式多视角重投影损失（photometric consistency）与几何一致性约束（geometric consistency），进一步优化深度估计的精度和边缘完整性。

结语

其实单目、双目与三目乃至多目摄像头方案各有千秋，单目以简驭繁、成本友好；双目以立体、精度可控；三目以多基线、鲁棒性更强。随着算法的精进与硬件的升级，三目与多目系统在复杂场景下的优势将日益凸显，但其算力与集成成本也需要工程团队在量产化中不断权衡优化。自动驾驶视觉方案的选择，从来不只是“目”数越多越好，而是要在安全冗余、深度精度、实时算力与成本之间找到最佳平衡，最终服务于可持续、大规模部署的智能出行愿景。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉