0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

纯视觉自动驾驶如何理解路边画报上的人?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2025-05-19 09:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]之前看到过一个非常有趣的新闻,那就是贴有董明珠海报的公交车经过十字路口时,被“行人闯红灯曝光台”识别到,并误以为董明珠闯红灯了。看似一个茶余饭后闲聊的话题,对于自动驾驶行业来说,其实是一个值得深思的问题。随着自动驾驶技术下沉到消费市场,基于纯视觉的自动驾驶系统就是依托于车载摄像头来识别路况,如果遇到了类似海报上的人,尤其是遇到了与真人大小类似的人物海报,自动驾驶系统将如何理解?

其实在纯视觉的自动驾驶系统中,摄像头就像汽车的“眼睛”,负责不停地拍下周围的风景,然后把这些画面交给车上的“大脑”——也就是各种算法和模型(决策系统),来判断前方有没有行人、车辆或障碍物。当汽车只靠摄像头“看世界”时,无论是真人、雕像,还是贴在墙上的海报、广告牌,都可以被它同样地“看到”,但这一切都只是二维的像素点。如果车上的“脑子”误把一张画得惟妙惟肖的海报人物当成了真实行人,它是否会不由自主地踩下刹车,甚至紧急停车?

要让纯视觉系统分清画报上的“假人”和马路上真正走动的行人,其实要从硬件和软件两条路同时发力。现阶段为了确保自动驾驶的安全性,很多车企都会选择在摄像头旁边再装一台雷达或激光雷达(基于激光雷达的自动驾驶方案)。雷达发射电磁波,激光雷达发射激光脉冲,不同于摄像头只“看到”表面纹理,这些传感器能直接给出物体到车身的距离。海报只是贴在墙上的一层薄薄的纸,它在雷达或激光雷达里几乎没有回波,汽车就能立刻判断:“哦,这不是立体的人,是个平面的东西。”但受成本和空间限制,量产车型并不总能一开始就配齐这些高精度传感器。

在只依赖摄像头的情况下,软件层面的改进更显关键。最先要做的,就是让摄像头拍到的画面经过更聪明的“人形检测”算法。目标检测模型通常会先在图像上划出许多小方框,然后再判断每个方框里是不是人。早期的做法像给照片打了“九宫格”,一点一点地扫;现在用深度学习的大脑,能一次性在不同大小的区域上同时判断,大幅提高了速度和准确率。但是这些大脑都是在大量真实行人的照片或视频上训练出来的,对海报、画报这样专门制作的人像平面并不陌生,因为它们往往长得和真人太像了,于是就容易“见人就当真人”。

为了解决这个问题,就会让模型在训练时多“看”一些海报、广告、橱窗人像的画面,把它们当作“负样本”喂给大脑,告诉它们“虽然这个区域里有一个人形,但它总是贴在同一个地方,不会移动,也不会有立体的深度变化”。这样,模型在识别“行人”时,就能多留一个心眼,如果它在连续的画面里每一帧都在同一个位置出现,而且旁边没有地面阴影、脚步移动产生的微小抖动,就可能是个海报,而不是一个真正走路的人。

除了让模型学得更聪明,纯视觉系统还会利用“深度估计”技术来给每个像素预测一个距离值。想象一下,如果你只用单只眼睛看东西,也能凭借物体大小、透视关系估计远近。深度估计网络就是这么一回事,它会结合数万张配有真实距离标注的照片,学会从平面图像里猜距离。问题是,海报和背景是一体的平面,网络有时候也会误以为海报里的“人”是在几米外的真实行人。为此,工程师们会在车上装两台摄像头或双目摄像头,前后或左右分开约几十厘米,模仿我们人眼的工作原理,通过左右图像的微小差别(视差),直接算出距离。对于真正立体的行人,视差足够明显;对于紧贴墙面的广告,其视差几乎为零,这时系统就能判定它是个平面。

更进一步的时,系统会追踪每个“人”在多帧画面中的运动轨迹。真的行人会自己动,每一步都带来位置和形状的微妙变化;而海报里的“人”只会随着车子的移动在画面里平移、缩放,却不会产生独立运动。现在主要采用一种叫“多目标跟踪”(MultiObject Tracking)的技术,把每个检测到的人都打上标签,然后观察它在时间轴上是如何变化。如果某个标签在反复观察中,从来没有过正常的人行运动,那么它的“行人”置信度就会被一帧一帧地降低,最终被系统忽略。

为了让纯视觉系统更早地识别出海报,很多车企还会选择在车辆首次经过某条路段时,自动绘制一张“静态地图”(高精度地图),记录下两旁那些看起来像人却不怎么动的画面位置。这样,车辆再次行驶同一路线时,就不用每次都去重新判断,而是把这些已知的静止“假人”从一开始就屏蔽掉,节省计算资源,也避免了重复误判。

尽管这些算法在实验室和小范围测试中已经取得了不错效果,但阳光直射、雨雪天气、夜晚路灯闪烁等复杂情况,仍然会让纯视觉系统偶尔“犯迷糊”。为此还会在虚拟仿真平台(比如CARLA、LG SVL)里,模拟各种极端光照和天气条件,让系统先在虚拟世界里“吃透”可能遇到的画面,再到真实道路上进行测试和验证。

随着“视觉大模型”(类似自然语言领域的GPT大模型)逐渐走向成熟,纯视觉方案将拥有更强的“常识推理”能力。它们不仅能看出图像里有人,还能结合场景理解。海报一般固定在墙面、广告牌上不会突然移动,也不会投下随行人的脚部阴影。这样一来,汽车的大脑就像多了常识一样,能够更好地区分“画报上的人”和真正的行人。

要让纯视觉自动驾驶系统既能敏锐地发现真实行人,又不会被路边的海报吓得乱刹车,其实需要软硬件多方面的配合。加装雷达或双目摄像头、利用深度估计、时空跟踪、静态语义地图和负样本训练,都是在让汽车“更聪明”地看世界。未来,当城市的路灯、路侧基站也都能把静态障碍信息实时广播给车辆时,纯视觉自动驾驶就能像人一样,用“眼睛+大脑”配合得更默契,真正做到在复杂的城市环境中,自信而平稳地前行,再也不用担心那些“画报上的人”会误导它。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4810

    浏览量

    98599
  • 自动驾驶
    +关注

    关注

    795

    文章

    15008

    浏览量

    181643
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    视觉自动驾驶如何在夜晚感知场景?

    [首发于智驾最前沿微信公众号]在聊今天的话题前,先申明下,对于视觉自动驾驶来说,夜晚确实是一个极具挑战的场景,今天仅从技术实现上来讨论视觉
    的头像 发表于 04-22 09:00 216次阅读
    <b class='flag-5'>纯</b><b class='flag-5'>视觉</b><b class='flag-5'>自动驾驶</b>如何在夜晚感知场景?

    为啥有人认为自动驾驶视觉方案比激光雷达方案好?

    激光雷达曾被视为自动驾驶不可或缺的“安全拐杖”,但以特斯拉为代表的自动驾驶方案让大家看到了视觉的潜力。视觉方案不仅在成本上有优势,更在模拟
    的头像 发表于 03-30 17:18 1063次阅读

    为什么光照对视觉自动驾驶影响较大?

    自动驾驶的技术路线中,视觉方案因其模仿人类驾驶逻辑与低廉的硬件成本,一直是很多车企的选择。但这种高度依赖摄像头的感知方式,在夜幕降临、车辆驶入幽暗的隧道,或是遭遇强烈的逆光直射、漫
    的头像 发表于 03-09 17:06 1038次阅读

    视觉自动驾驶能识别出高透明玻璃墙吗?

    [首发于智驾最前沿微信公众号]最近在和大家聊视觉自动驾驶能否识别3D图像时,有小伙伴提问,视觉自动驾
    的头像 发表于 02-18 08:49 1.1w次阅读
    <b class='flag-5'>纯</b><b class='flag-5'>视觉</b><b class='flag-5'>自动驾驶</b>能识别出高透明玻璃墙吗?

    自动驾驶汽车如何实现自动驾驶

    人类驾驶员而言是非常直观且有效的指令,但对于自动驾驶汽车来说,则意味着需要一套极其复杂的感知、理解与决策链路。 自动驾驶如何看清文字? 自动驾驶
    的头像 发表于 02-10 08:50 814次阅读
    <b class='flag-5'>自动驾驶</b>汽车如何实现<b class='flag-5'>自动驾驶</b>

    视觉自动驾驶的优势和劣势有哪些?

    [首发于智驾最前沿微信公众号]最近有很多小伙伴在后台询问视觉自动驾驶的优劣,视觉自动驾驶以其
    的头像 发表于 01-18 09:50 2364次阅读
    <b class='flag-5'>纯</b><b class='flag-5'>视觉</b><b class='flag-5'>自动驾驶</b>的优势和劣势有哪些?

    世界模型是让自动驾驶汽车理解世界还是预测未来?

      [首发于智驾最前沿微信公众号]世界模型在自动驾驶技术中已有广泛应用。但当谈及它对自动驾驶的作用时,难免会出现分歧。它到底是让自动驾驶汽车得以理解世界,还是为其提供了预测未来的视角?
    的头像 发表于 12-16 09:27 1031次阅读
    世界模型是让<b class='flag-5'>自动驾驶</b>汽车<b class='flag-5'>理解</b>世界还是预测未来?

    视觉自动驾驶会像人眼一样“近视”吗?

    [首发于智驾最前沿微信公众号]在自动驾驶领域,视觉路线逐渐获得了一部分从业者和研究者的认可与支持。随着双目乃至三目摄像头方案的应用,通过视差计算、结构约束和算法建模,摄像头已经具备了一定程度的深度
    的头像 发表于 12-15 09:23 895次阅读
    <b class='flag-5'>纯</b><b class='flag-5'>视觉</b><b class='flag-5'>自动驾驶</b>会像人眼一样“近视”吗?

    没有地图,视觉自动驾驶就只能摸瞎吗?

    [首发于智驾最前沿微信公众号]最近在一篇讨论高精度地图的文章中,有位小伙伴提到一个非常有趣的观点“如果人在陌生的目的地,只依托视觉(眼睛)去辨别道路,若没有导航,就只能摸瞎”。对于视觉
    的头像 发表于 11-27 17:22 1603次阅读
    没有地图,<b class='flag-5'>纯</b><b class='flag-5'>视觉</b><b class='flag-5'>自动驾驶</b>就只能摸瞎吗?

    自动驾驶汽车如何正确进行道路识别?

    识别不仅仅是简单地判断车辆是否在车道中心行驶,更涉及到对车道线、交通标志、道路边缘以及其他道路要素的综合感知与理解。 传感器硬件 传感器硬件是自动驾驶道路识别的基础,当前主流的传感器包括摄像头、激光雷达(LiDAR)
    的头像 发表于 06-29 09:40 1913次阅读
    <b class='flag-5'>自动驾驶</b>汽车如何正确进行道路识别?

    卡车、矿车的自动驾驶和乘用车的自动驾驶在技术要求上有何不同?

    自动驾驶技术也得到了充足的应用,但因应用场景不同,技术的侧重方向也有所区别。今天就来和大家聊一聊这个话题。 应用场景:开放道路vs封闭场地 首先要理解的是,自动驾驶所面对的环境决定了它的技术基础。乘用车
    的头像 发表于 06-28 11:38 1820次阅读
    卡车、矿车的<b class='flag-5'>自动驾驶</b>和乘用车的<b class='flag-5'>自动驾驶</b>在技术要求上有何不同?

    SONY FCB-CR8530,如何重塑自动驾驶视觉感知格局?

    自动驾驶技术快速发展的当下,车辆对周围环境的精准感知是确保安全与高效运行的关键。凯茉锐电子SONY FCB-CR8530摄像机凭借其卓越性能,正逐渐成为自动驾驶领域视觉感知系统的核心组件。
    的头像 发表于 06-25 17:54 777次阅读

    自动驾驶视觉方案到底有哪些弊端?

    [首发于智驾最前沿微信公众号]随着人工智能与传感器技术的快速发展,自动驾驶汽车逐步走入公众视野。其中,关于感知系统的技术路线选择,始终是大家争论的焦点。尤其是“视觉方案”,也就是主要依赖摄像头进行
    的头像 发表于 06-23 09:27 1338次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>纯</b><b class='flag-5'>视觉</b>方案到底有哪些弊端?

    视觉自动驾驶会有哪些安全问题?

    强调视觉系统的先进性。视觉自动驾驶是指在车辆自动驾驶系统中仅依赖摄像头而不使用激光雷达或毫米波雷达等主动传感器。特斯拉率先倡导这一路线,宣
    的头像 发表于 06-16 09:56 1192次阅读
    <b class='flag-5'>纯</b><b class='flag-5'>视觉</b>的<b class='flag-5'>自动驾驶</b>会有哪些安全问题?

    自动驾驶视觉替代不了激光雷达?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的不断发展,视觉和激光雷达(LiDAR)两种主流环境感知成为了大家的热议话题。基于摄像头的“视觉
    的头像 发表于 06-11 09:06 1178次阅读