纯视觉自动驾驶如何理解路边画报上的人？-电子发烧友网

[首发于智驾最前沿微信公众号]之前看到过一个非常有趣的新闻，那就是贴有董明珠海报的公交车经过十字路口时，被“行人闯红灯曝光台”识别到，并误以为董明珠闯红灯了。看似一个茶余饭后闲聊的话题，对于自动驾驶行业来说，其实是一个值得深思的问题。随着自动驾驶技术下沉到消费市场，基于纯视觉的自动驾驶系统就是依托于车载摄像头来识别路况，如果遇到了类似海报上的人，尤其是遇到了与真人大小类似的人物海报，自动驾驶系统将如何理解？

其实在纯视觉的自动驾驶系统中，摄像头就像汽车的“眼睛”，负责不停地拍下周围的风景，然后把这些画面交给车上的“大脑”——也就是各种算法和模型（决策系统），来判断前方有没有行人、车辆或障碍物。当汽车只靠摄像头“看世界”时，无论是真人、雕像，还是贴在墙上的海报、广告牌，都可以被它同样地“看到”，但这一切都只是二维的像素点。如果车上的“脑子”误把一张画得惟妙惟肖的海报人物当成了真实行人，它是否会不由自主地踩下刹车，甚至紧急停车？

要让纯视觉系统分清画报上的“假人”和马路上真正走动的行人，其实要从硬件和软件两条路同时发力。现阶段为了确保自动驾驶的安全性，很多车企都会选择在摄像头旁边再装一台雷达或激光雷达（基于激光雷达的自动驾驶方案）。雷达发射电磁波，激光雷达发射激光脉冲，不同于摄像头只“看到”表面纹理，这些传感器能直接给出物体到车身的距离。海报只是贴在墙上的一层薄薄的纸，它在雷达或激光雷达里几乎没有回波，汽车就能立刻判断：“哦，这不是立体的人，是个平面的东西。”但受成本和空间限制，量产车型并不总能一开始就配齐这些高精度传感器。

在只依赖摄像头的情况下，软件层面的改进更显关键。最先要做的，就是让摄像头拍到的画面经过更聪明的“人形检测”算法。目标检测模型通常会先在图像上划出许多小方框，然后再判断每个方框里是不是人。早期的做法像给照片打了“九宫格”，一点一点地扫；现在用深度学习的大脑，能一次性在不同大小的区域上同时判断，大幅提高了速度和准确率。但是这些大脑都是在大量真实行人的照片或视频上训练出来的，对海报、画报这样专门制作的人像平面并不陌生，因为它们往往长得和真人太像了，于是就容易“见人就当真人”。

为了解决这个问题，就会让模型在训练时多“看”一些海报、广告、橱窗人像的画面，把它们当作“负样本”喂给大脑，告诉它们“虽然这个区域里有一个人形，但它总是贴在同一个地方，不会移动，也不会有立体的深度变化”。这样，模型在识别“行人”时，就能多留一个心眼，如果它在连续的画面里每一帧都在同一个位置出现，而且旁边没有地面阴影、脚步移动产生的微小抖动，就可能是个海报，而不是一个真正走路的人。

除了让模型学得更聪明，纯视觉系统还会利用“深度估计”技术来给每个像素预测一个距离值。想象一下，如果你只用单只眼睛看东西，也能凭借物体大小、透视关系估计远近。深度估计网络就是这么一回事，它会结合数万张配有真实距离标注的照片，学会从平面图像里猜距离。问题是，海报和背景是一体的平面，网络有时候也会误以为海报里的“人”是在几米外的真实行人。为此，工程师们会在车上装两台摄像头或双目摄像头，前后或左右分开约几十厘米，模仿我们人眼的工作原理，通过左右图像的微小差别（视差），直接算出距离。对于真正立体的行人，视差足够明显；对于紧贴墙面的广告，其视差几乎为零，这时系统就能判定它是个平面。

更进一步的时，系统会追踪每个“人”在多帧画面中的运动轨迹。真的行人会自己动，每一步都带来位置和形状的微妙变化；而海报里的“人”只会随着车子的移动在画面里平移、缩放，却不会产生独立运动。现在主要采用一种叫“多目标跟踪”（MultiObject Tracking）的技术，把每个检测到的人都打上标签，然后观察它在时间轴上是如何变化。如果某个标签在反复观察中，从来没有过正常的人行运动，那么它的“行人”置信度就会被一帧一帧地降低，最终被系统忽略。

为了让纯视觉系统更早地识别出海报，很多车企还会选择在车辆首次经过某条路段时，自动绘制一张“静态地图”（高精度地图），记录下两旁那些看起来像人却不怎么动的画面位置。这样，车辆再次行驶同一路线时，就不用每次都去重新判断，而是把这些已知的静止“假人”从一开始就屏蔽掉，节省计算资源，也避免了重复误判。

尽管这些算法在实验室和小范围测试中已经取得了不错效果，但阳光直射、雨雪天气、夜晚路灯闪烁等复杂情况，仍然会让纯视觉系统偶尔“犯迷糊”。为此还会在虚拟仿真平台（比如CARLA、LG SVL）里，模拟各种极端光照和天气条件，让系统先在虚拟世界里“吃透”可能遇到的画面，再到真实道路上进行测试和验证。

随着“视觉大模型”（类似自然语言领域的GPT大模型）逐渐走向成熟，纯视觉方案将拥有更强的“常识推理”能力。它们不仅能看出图像里有人，还能结合场景理解。海报一般固定在墙面、广告牌上不会突然移动，也不会投下随行人的脚部阴影。这样一来，汽车的大脑就像多了常识一样，能够更好地区分“画报上的人”和真正的行人。

要让纯视觉自动驾驶系统既能敏锐地发现真实行人，又不会被路边的海报吓得乱刹车，其实需要软硬件多方面的配合。加装雷达或双目摄像头、利用深度估计、时空跟踪、静态语义地图和负样本训练，都是在让汽车“更聪明”地看世界。未来，当城市的路灯、路侧基站也都能把静态障碍信息实时广播给车辆时，纯视觉自动驾驶就能像人一样，用“眼睛+大脑”配合得更默契，真正做到在复杂的城市环境中，自信而平稳地前行，再也不用担心那些“画报上的人”会误导它。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉