0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

纯视觉自动驾驶如何理解路边画报上的人?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2025-05-19 09:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]之前看到过一个非常有趣的新闻,那就是贴有董明珠海报的公交车经过十字路口时,被“行人闯红灯曝光台”识别到,并误以为董明珠闯红灯了。看似一个茶余饭后闲聊的话题,对于自动驾驶行业来说,其实是一个值得深思的问题。随着自动驾驶技术下沉到消费市场,基于纯视觉的自动驾驶系统就是依托于车载摄像头来识别路况,如果遇到了类似海报上的人,尤其是遇到了与真人大小类似的人物海报,自动驾驶系统将如何理解?

其实在纯视觉的自动驾驶系统中,摄像头就像汽车的“眼睛”,负责不停地拍下周围的风景,然后把这些画面交给车上的“大脑”——也就是各种算法和模型(决策系统),来判断前方有没有行人、车辆或障碍物。当汽车只靠摄像头“看世界”时,无论是真人、雕像,还是贴在墙上的海报、广告牌,都可以被它同样地“看到”,但这一切都只是二维的像素点。如果车上的“脑子”误把一张画得惟妙惟肖的海报人物当成了真实行人,它是否会不由自主地踩下刹车,甚至紧急停车?

要让纯视觉系统分清画报上的“假人”和马路上真正走动的行人,其实要从硬件和软件两条路同时发力。现阶段为了确保自动驾驶的安全性,很多车企都会选择在摄像头旁边再装一台雷达或激光雷达(基于激光雷达的自动驾驶方案)。雷达发射电磁波,激光雷达发射激光脉冲,不同于摄像头只“看到”表面纹理,这些传感器能直接给出物体到车身的距离。海报只是贴在墙上的一层薄薄的纸,它在雷达或激光雷达里几乎没有回波,汽车就能立刻判断:“哦,这不是立体的人,是个平面的东西。”但受成本和空间限制,量产车型并不总能一开始就配齐这些高精度传感器。

在只依赖摄像头的情况下,软件层面的改进更显关键。最先要做的,就是让摄像头拍到的画面经过更聪明的“人形检测”算法。目标检测模型通常会先在图像上划出许多小方框,然后再判断每个方框里是不是人。早期的做法像给照片打了“九宫格”,一点一点地扫;现在用深度学习的大脑,能一次性在不同大小的区域上同时判断,大幅提高了速度和准确率。但是这些大脑都是在大量真实行人的照片或视频上训练出来的,对海报、画报这样专门制作的人像平面并不陌生,因为它们往往长得和真人太像了,于是就容易“见人就当真人”。

为了解决这个问题,就会让模型在训练时多“看”一些海报、广告、橱窗人像的画面,把它们当作“负样本”喂给大脑,告诉它们“虽然这个区域里有一个人形,但它总是贴在同一个地方,不会移动,也不会有立体的深度变化”。这样,模型在识别“行人”时,就能多留一个心眼,如果它在连续的画面里每一帧都在同一个位置出现,而且旁边没有地面阴影、脚步移动产生的微小抖动,就可能是个海报,而不是一个真正走路的人。

除了让模型学得更聪明,纯视觉系统还会利用“深度估计”技术来给每个像素预测一个距离值。想象一下,如果你只用单只眼睛看东西,也能凭借物体大小、透视关系估计远近。深度估计网络就是这么一回事,它会结合数万张配有真实距离标注的照片,学会从平面图像里猜距离。问题是,海报和背景是一体的平面,网络有时候也会误以为海报里的“人”是在几米外的真实行人。为此,工程师们会在车上装两台摄像头或双目摄像头,前后或左右分开约几十厘米,模仿我们人眼的工作原理,通过左右图像的微小差别(视差),直接算出距离。对于真正立体的行人,视差足够明显;对于紧贴墙面的广告,其视差几乎为零,这时系统就能判定它是个平面。

更进一步的时,系统会追踪每个“人”在多帧画面中的运动轨迹。真的行人会自己动,每一步都带来位置和形状的微妙变化;而海报里的“人”只会随着车子的移动在画面里平移、缩放,却不会产生独立运动。现在主要采用一种叫“多目标跟踪”(MultiObject Tracking)的技术,把每个检测到的人都打上标签,然后观察它在时间轴上是如何变化。如果某个标签在反复观察中,从来没有过正常的人行运动,那么它的“行人”置信度就会被一帧一帧地降低,最终被系统忽略。

为了让纯视觉系统更早地识别出海报,很多车企还会选择在车辆首次经过某条路段时,自动绘制一张“静态地图”(高精度地图),记录下两旁那些看起来像人却不怎么动的画面位置。这样,车辆再次行驶同一路线时,就不用每次都去重新判断,而是把这些已知的静止“假人”从一开始就屏蔽掉,节省计算资源,也避免了重复误判。

尽管这些算法在实验室和小范围测试中已经取得了不错效果,但阳光直射、雨雪天气、夜晚路灯闪烁等复杂情况,仍然会让纯视觉系统偶尔“犯迷糊”。为此还会在虚拟仿真平台(比如CARLA、LG SVL)里,模拟各种极端光照和天气条件,让系统先在虚拟世界里“吃透”可能遇到的画面,再到真实道路上进行测试和验证。

随着“视觉大模型”(类似自然语言领域的GPT大模型)逐渐走向成熟,纯视觉方案将拥有更强的“常识推理”能力。它们不仅能看出图像里有人,还能结合场景理解。海报一般固定在墙面、广告牌上不会突然移动,也不会投下随行人的脚部阴影。这样一来,汽车的大脑就像多了常识一样,能够更好地区分“画报上的人”和真正的行人。

要让纯视觉自动驾驶系统既能敏锐地发现真实行人,又不会被路边的海报吓得乱刹车,其实需要软硬件多方面的配合。加装雷达或双目摄像头、利用深度估计、时空跟踪、静态语义地图和负样本训练,都是在让汽车“更聪明”地看世界。未来,当城市的路灯、路侧基站也都能把静态障碍信息实时广播给车辆时,纯视觉自动驾驶就能像人一样,用“眼睛+大脑”配合得更默契,真正做到在复杂的城市环境中,自信而平稳地前行,再也不用担心那些“画报上的人”会误导它。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4761

    浏览量

    97167
  • 自动驾驶
    +关注

    关注

    791

    文章

    14677

    浏览量

    176697
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶汽车是如何进行“场景理解”的?

    [首发于智驾最前沿微信公众号]场景理解这个词听起来可能有点深奥,但在自动驾驶里,它其实就是指车辆“看到周围环境之后,能不能真正搞明白正在发生什么”。要把这个概念讲清楚,不能只停留在感知系统能识别
    的头像 发表于 12-11 09:16 258次阅读
    <b class='flag-5'>自动驾驶</b>汽车是如何进行“场景<b class='flag-5'>理解</b>”的?

    没有地图,视觉自动驾驶就只能摸瞎吗?

    [首发于智驾最前沿微信公众号]最近在一篇讨论高精度地图的文章中,有位小伙伴提到一个非常有趣的观点“如果人在陌生的目的地,只依托视觉(眼睛)去辨别道路,若没有导航,就只能摸瞎”。对于视觉
    的头像 发表于 11-27 17:22 1226次阅读
    没有地图,<b class='flag-5'>纯</b><b class='flag-5'>视觉</b><b class='flag-5'>自动驾驶</b>就只能摸瞎吗?

    VLA能解决自动驾驶中的哪些问题?

    [首发于智驾最前沿微信公众号]很多从事自动驾驶的小伙伴应该对VLA这个概念已经非常熟悉了。VLA即“Visual-Language-Action”(视觉—语言—动作)模型,它的核心是将视觉信息
    的头像 发表于 11-25 08:53 188次阅读
    VLA能解决<b class='flag-5'>自动驾驶</b>中的哪些问题?

    自动驾驶中常提的ODD是个啥?

    理解,ODD就像自动驾驶系统的“活动许可书”,它明确告诉车辆在哪些环境、什么路况、什么速度范围、哪类交通参与者出现时,系统被允许接管驾驶任务。简单理解下,把
    的头像 发表于 09-22 09:04 557次阅读
    <b class='flag-5'>自动驾驶</b>中常提的ODD是个啥?

    自动驾驶汽车如何正确进行道路识别?

    识别不仅仅是简单地判断车辆是否在车道中心行驶,更涉及到对车道线、交通标志、道路边缘以及其他道路要素的综合感知与理解。 传感器硬件 传感器硬件是自动驾驶道路识别的基础,当前主流的传感器包括摄像头、激光雷达(LiDAR)
    的头像 发表于 06-29 09:40 1351次阅读
    <b class='flag-5'>自动驾驶</b>汽车如何正确进行道路识别?

    自动驾驶汽车是如何准确定位的?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的快速发展,车辆的精准定位成为安全驾驶与路径规划的核心基础。相比于传统人类驾驶依赖路标和视觉判断,自动
    的头像 发表于 06-28 11:42 891次阅读
    <b class='flag-5'>自动驾驶</b>汽车是如何准确定位的?

    卡车、矿车的自动驾驶和乘用车的自动驾驶在技术要求上有何不同?

    自动驾驶技术也得到了充足的应用,但因应用场景不同,技术的侧重方向也有所区别。今天就来和大家聊一聊这个话题。 应用场景:开放道路vs封闭场地 首先要理解的是,自动驾驶所面对的环境决定了它的技术基础。乘用车
    的头像 发表于 06-28 11:38 730次阅读
    卡车、矿车的<b class='flag-5'>自动驾驶</b>和乘用车的<b class='flag-5'>自动驾驶</b>在技术要求上有何不同?

    SONY FCB-CR8530,如何重塑自动驾驶视觉感知格局?

    自动驾驶技术快速发展的当下,车辆对周围环境的精准感知是确保安全与高效运行的关键。凯茉锐电子SONY FCB-CR8530摄像机凭借其卓越性能,正逐渐成为自动驾驶领域视觉感知系统的核心组件。
    的头像 发表于 06-25 17:54 478次阅读

    自动驾驶视觉方案到底有哪些弊端?

    [首发于智驾最前沿微信公众号]随着人工智能与传感器技术的快速发展,自动驾驶汽车逐步走入公众视野。其中,关于感知系统的技术路线选择,始终是大家争论的焦点。尤其是“视觉方案”,也就是主要依赖摄像头进行
    的头像 发表于 06-23 09:27 711次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>纯</b><b class='flag-5'>视觉</b>方案到底有哪些弊端?

    视觉自动驾驶会有哪些安全问题?

    强调视觉系统的先进性。视觉自动驾驶是指在车辆自动驾驶系统中仅依赖摄像头而不使用激光雷达或毫米波雷达等主动传感器。特斯拉率先倡导这一路线,宣
    的头像 发表于 06-16 09:56 594次阅读
    <b class='flag-5'>纯</b><b class='flag-5'>视觉</b>的<b class='flag-5'>自动驾驶</b>会有哪些安全问题?

    自动驾驶视觉替代不了激光雷达?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的不断发展,视觉和激光雷达(LiDAR)两种主流环境感知成为了大家的热议话题。基于摄像头的“视觉
    的头像 发表于 06-11 09:06 610次阅读

    自动驾驶安全基石:ODD

    电子发烧友网综合报道 自动驾驶ODD(Operational Design Domain)即设计运行域,是指自动驾驶系统被设计为安全、有效运行的具体条件范围。它定义了自动驾驶汽车在哪些环境、场景
    的头像 发表于 05-19 03:52 5816次阅读

    自动驾驶大模型中常提的Token是个啥?对自动驾驶有何影响?

    近年来,人工智能技术迅速发展,大规模深度学习模型(即大模型)在自然语言处理、计算机视觉、语音识别以及自动驾驶等多个领域取得了突破性进展。自动驾驶作为未来智能交通的重要方向,其核心技术之一便是对海量
    的头像 发表于 03-28 09:16 994次阅读

    2024年自动驾驶行业热点技术盘点

    感知轻地图以及视觉等。这些技术的出现,也代表着自动驾驶正从概念走向现实,今天就给大家来盘点2024年自动驾驶行业出现的那些技术热点!   城市NOA:迈向精细化
    的头像 发表于 01-14 10:48 1160次阅读