0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自动驾驶中常提的“深度估计”是个啥?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2026-02-16 13:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]当我们看一张照片时,可以通过肉眼自然地判断照片中的物体远近,这种对于空间和距离的感知,对于人类来说是本能,是从幼儿时期开始就形成的一种能力。

对于自动驾驶汽车来说,为了能更好地辨别路况,也需要类似的能力。

wKgZO2mRVxWATleBAAAQo00DEvw731.jpg

什么是深度估计?

自动驾驶汽车必须理解环境中物体距离它有多远,需要能快速辨别前面是行人还是车?那个车到底是在十米开外还是一两百米远?

深度估计就是让机器从感知到的图像或传感器数据中估计出物体到自身的距离,给计算机一个可以理解的“空间感”。

这种能力在计算机视觉领域里被称为深度估计(Depth Estimation),是自动驾驶感知系统的基础一环。

深度估计的结果表现为“深度图”,这张深度图和普通照片不一样,照片上的每个像素表示颜色,而深度图上的每个像素代表的是这个像素点对应的真实世界深度值,简单理解就是图片中的物体离我有多远。

有了深度图,车载系统就能把二维画面转化为三维空间的感觉,这对路径规划、避障、速度控制等任务来说非常重要。

wKgZO2mRVxaALdkbAAAR42n7O-I013.jpg

为什么自动驾驶要进行深度估计

如果只给自动驾驶系统提供一张照片,是无法让它直接判断距离的。这跟人类看照片的本能不同,机器只看到数字和像素点。

没有深度信息的话,计算机只能判断物体的大致形状、颜色和类别,但不知道它在空间中的实际位置。

举个例子,一辆车可能看起来很大很清晰,但它到底在十米还是一百米之外,是深度信息才能回答的问题。

传统的深度感知方式是用激光雷达(LiDAR)这样的感知硬件,利用激光直接测量距离,成像效果会非常好,也正因如此,现在很多自动驾驶系统都依托激光雷达来获取深度信息。

但是激光雷达成本高、算力要求高,也有安装和维护等各种后续问题。

深度估计作为计算机视觉的一种技术,就是希望用廉价的摄像头和算法来补充或者替代一些昂贵的传感硬件。

也就是说,深度估计技术是让自动驾驶车辆能从摄像头拍摄的普通图像中预测出每一处的距离。

比方说前方有个行人,机器不仅要知道这是个人,还要知道这个人距离车有多少米,这就是深度估计提供的数据。

没有这样的三维感知,即便能识别物体类别,也无法安全地制定行驶策略。

wKgZO2mRVxeALQ7GAAASG3BOmsQ165.jpg

如何实现深度估计?

深度估计本质上是从图像推断空间距离的过程,由于单张图像本身并不包含真实的深度信息,这一过程需要复杂的处理流程。

仅凭平面像素及色彩去推测三维空间中的距离,是一个典型的“欠定问题”,机器无法仅从一张图片确定真实距离,而必须结合几何原理、先验知识以及大量数据来辅助推断。

目前,主流的深度估计方法可分为两类。

一种是多视图方法,通过两个或多个不同视角的摄像头同时观察同一个场景,然后用传统的立体视觉算法去匹配、计算视差(就是确定同一个物体在不同视角中像素的偏移量),再根据视差转换成深度信息。

这其实跟我们双眼看到立体图像类似,左右眼看到的是有轻微偏差的画面,通过这种视差差异,我们的大脑能判断深度。

类似的原理也可以在自动驾驶系统里用两个摄像头实现简单的深度估计。

还有一种更常见的方法是单目深度估计,也就是只用一台摄像头实现深度估计。

由于单张图像本身没有视差信息,但是通过大量的数据和深度学习模型的训练,计算机还是可以学到一些图像里固有的深度线索。

像是路面变得模糊、物体变小、遮挡关系等都是跟深度有关的视觉信号

深度学习模型通过卷积神经网络、特征提取等手段,把这些线索编码起来,然后预测每个像素的深度。

单目深度估计在技术层面有一些难点,真实世界物体的尺度有很大变化,而且同样的像素在不同场景下可能对应完全不同的距离,因此算法需要在大规模标注数据上训练,让模型学习到一般性的深度规律。

这个过程就像让模型读书一样,通过成千上万张有深度标注的图像让它明白每种视觉特征对应什么样的深度分布。

训练出的模型在看到新图像时,就能给出合理的深度预测。

wKgZO2mRVxiAZe2KAAASAJELks8975.jpg

深度估计在自动驾驶中的具体作用

对于自动驾驶汽车而言,深度估计不仅意味着通过图像识别距离,更重要的是能以较低成本实现更高阶的自动驾驶功能。

没有深度信息,车辆虽能“看见”周围环境,却无法准确判断物体远近;而有了深度信息,自动驾驶系统的“思考”才能真正从二维提升到三维空间,深度估计的直接作用包括。

碰撞预警:知道前方物体到底有多远,从而判断是否需要刹车或避让。

路径规划:基于三维空间关系计算最佳行驶路线,而不仅仅是图像中的像素路径。

跟车距离控制:估计前车距离,决定加速或减速。

动态障碍物预测:结合机器学习追踪其他车辆、行人的运动,并预测它们的未来位置。

所有这些功能都离不开准确的深度预测。若缺少可靠的深度信息,后续的路径规划与控制决策便失去了空间依据。

在自动驾驶系统中,深度估计的结果并非依赖单一来源,而是与激光雷达、毫米波雷达等其他传感器数据进行融合(即“传感器融合”)。

这种方式既能充分利用视觉数据所蕴含的丰富信息,也能弥补单一传感器的局限性。

wKgZO2mRVx6AWAK8AAARwcz1hbg554.jpg

最后的话

把深度估计看成自动驾驶系统中的一个模块,其实有点低估它的价值。它不是简单的图像变换,而是把二维视觉转化成三维空间认知的桥梁。

它让机器不仅看到世界,还能理解世界的结构和远近关系。没有准确的深度估计,自动驾驶车辆就缺乏最基本的空间感觉。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    794

    文章

    14988

    浏览量

    181519
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶中常的模仿学习是什么?

    当谈及自动驾驶模型学习时,经常会提到模仿学习的概念。所谓模仿学习,就是模型先看别人怎么做,然后学着去做。自动驾驶中的模仿学习,就是把人类司机在各种路况下的行为做成范例,记录下看到了什么和做了什么等信息,然后将这些一一对应起来当作训练数据,并训练出一
    的头像 发表于 01-16 16:41 2153次阅读

    自动驾驶中提到的“深度相机”是

    自动驾驶的实现离不开各类传感器的支持,其中纯视觉方案成为很多技术方案的选择,但由于摄像头无法感知到环境深度信息,因此有部分技术方案提到了“深度相机”的技术。
    的头像 发表于 12-13 13:35 2669次阅读

    自动驾驶中常的卷积神经网络是

    自动驾驶领域,经常会听到卷积神经网络技术。卷积神经网络,简称为CNN,是一种专门用来处理网格状数据(比如图像)的深度学习模型。CNN在图像处理中尤其常见,因为图像本身就可以看作是由像素排列成的二维网格。
    的头像 发表于 11-19 18:15 2246次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的卷积神经网络是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的“强化学习”是

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 895次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“强化学习”是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的ToF是

    ToF。ToF输出的是物理意义上的“距离”,不是通过图像推理出来的估计值。这一点决定了它在很多应用里会被当作一很直接、可靠的深度来源。 ToF常被应用到能输出“深度图”的相机,或者做
    的头像 发表于 10-10 09:58 1215次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的ToF是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的“专家数据”是

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,经常会听到一概念,那便是“专家数据”。专家数据,说白了就是“按理应该这么做”的那类示范数据。它不是随机抓来的日志,也不是随便标注的标签,而是来源可靠
    的头像 发表于 10-09 09:33 893次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“专家数据”是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的ODD是

    [首发于智驾最前沿微信公众号]在自动驾驶中,经常会听到一概念,那就是ODD。所谓ODD,全称为Operational Design Domain,中文常译为“运行设计域”或者“作业域”。直观一点
    的头像 发表于 09-22 09:04 1080次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的ODD是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的硬件在环是

    [首发于智驾最前沿微信公众号]在谈及自动驾驶技术时,经常会提及一技术,那就是硬件在环,所谓的硬件在环是?对于自动驾驶来说有
    的头像 发表于 08-14 08:54 1466次阅读

    自动驾驶中常的RTK是

    [首发于智驾最前沿微信公众号]在谈及自动驾驶关键技术时,经常会听到一技术,那就是RTK,很多人看到RTK后一定会想,这到底是技术?为啥这个技术很少在发布会上看到,但对于
    的头像 发表于 08-10 10:35 1479次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的RTK是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的惯性导航系统是?可以不用吗?

    每次提到自动驾驶硬件时,大家可能第一反应想到的是激光雷达、车载摄像头、毫米波雷达等,但想要让自动驾驶车辆实际落地,有一硬件也非常重要,那就是惯性导航系统。在很多讨论自动驾驶技术的内容
    的头像 发表于 07-24 18:12 2185次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的惯性导航系统是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?可以不用吗?

    自动驾驶中常的“时序”是?有作用?

    [首发于智驾最前沿微信公众号]自动驾驶技术的发展,不仅依赖于感知算法的精度和决策规划的智能,还深深植根于系统内部对“时序”这一概念的精准把控。所谓时序,简单来讲,就是系统在不同模块之间、不同传感器
    的头像 发表于 07-17 09:07 1265次阅读

    自动驾驶中常的高精度地图是?有何审查要求?

    不仅在空间分辨率和数据丰富度上有质的飞跃,还在数据处理与安全管理方面提出了更严格的规范。那高精度地图到底是?是否有什么具体需求? 高精度地图,顾名思义,是一种面向自动驾驶的高分辨率、结构化道路环境数据集。它不仅包含道路的几何
    的头像 发表于 07-03 19:29 1224次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的高精度地图是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?有何审查要求?

    自动驾驶中常的世界模型是

    对外部环境进行抽象和建模的技术,让自动驾驶系统在一简洁的内部“缩影”里,对真实世界进行描述与预测,从而为感知、决策和规划等关键环节提供有力支持。 什么是世界模型? 我们不妨先把“世界模型”想象成一种“数字化的地
    的头像 发表于 06-24 08:53 1400次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的世界模型是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的HMI是

    控”的过程中,人机交互界面担负着承上启下、沟通信息与建立信任的重任。此外,这一领域也是可以给驾驶员和乘客带来最直观感知的一项技术,因此对于很多车企来说,这也是最值得深度研究的一部分。那HMI到底是
    的头像 发表于 06-22 13:21 2466次阅读

    自动驾驶中常的“点云”是

    ?对自动驾驶有何影响? 点云是? 点云(Point Cloud)是一种在三维空间中由大量离散点组成的数据集合,每个点包含自身的笛卡尔坐标(X、Y、Z),并可附带颜色、强度、时间戳
    的头像 发表于 05-21 09:04 1362次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“点云”是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?