0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

双目视觉是如何实现深度估计的?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2025-12-31 09:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]自动驾驶的纯视觉方案中,单目摄像头因无法直接感知深度,在环境理解上存在根本局限,双目视觉技术在此需求下应运而生。它通过模拟人眼,利用双摄像头的视差来推算距离,将二维图像转化为三维信息,从而为车辆决策提供关键的深度感知能力。

wKgZPGlUgEmAKvFWAAAQo00DEvw541.jpg

什么是双目深度估计?

平时我们用眼睛看东西其实就是一种最自然的深度估计。人的两只眼睛有一定的间距,大脑通过融合两只眼睛看到的略有不同的图像来判断远近。计算机视觉里“双目深度估计”就是借鉴这个原理,将两个相机并排排列,并拍下同一场景,然后分析两幅图像的差异来推算距离。

单目摄像头拍摄的二维图像,仅包含色彩与亮度信息,无法直接提供场景中物体的距离数据。要获取“距离”这一关键的深度信息,关键在于利用视差,也就是在另一个位置放置第二个相机,同时对同一场景成像。此时,物体在两个视角的图像中会产生位置偏移,通过计算这一偏移量,便可以精确推算出物体的三维距离。

wKgZO2lUgEqAGQMvAAA24pg8z-g051.jpg

图片源自:网络

如果我们知道了两个摄像头之间的距离(基线)和摄像机的焦距,当我们找到两个图像里同一个物体对应点的位置差(视差)时,就能用一个非常简单的公式计算出这个点的真实深度,即:

深度=焦距×基线/视差。

从公式中我们可以看到,视差越大,物体越近;视差越小,物体越远。

wKgZPGlUgEqAf93jAAAR42n7O-I885.jpg

双目深度估计的主要步骤

既然说到了视差,那么关键问题来了,怎么从一对左右图像里找到这些对应点?这中间其实涉及到多个流程。

wKgZO2lUgEqAKapUAABKhNTX3Gc934.jpg

图片源自:网络

两个摄像头从出厂到装在一起时,会有一些位置和角度误差,所以我们需要先做几何标定,确定每个摄像头的内部参数(比如焦距、主点位置)和它们之间的外部关系(位置和朝向)。只有这样才能让后面比较两个图像时的像素位置是准确对应的。

在完成双目系统的校准后,接下来要做的就是立体矫正。这一过程的目的是把两个图像都调整成在同一条水平线上,这样同一场景点在左右图像里的对应关系只会在水平方向上变化,这极大简化了后面的匹配难度。

立体匹配的核心任务,就是在左右两幅图像中为同一物体找到相互对应的像素点。由于之前已经做了立体矫正,这个搜索被大大简化了,只需要在右图中沿着与左图像素点对应的同一水平线去扫描,找出看起来最相似的那个区域即可。尽管如此,要为图像中每一个像素找到对应点,计算量依然会非常庞大。因此可借助如经典的块匹配(Block Matching)或效果更优的半全局匹配(Semi-Global Matching,SGM)来实现高效的匹配。

当我们找到每个像素的对应关系之后,就可以算出视差值。视差是同一个点在左右图像中水平方向坐标差的数量,这个差值越大代表这个点离相机越近。最后,把视差值带入我们前面提到的公式,就能得到每一个像素对应的深度值。这样我们就生成了一张“深度图”,每个像素不再只是颜色信息,还可以是一个距离值。

wKgZPGlUgEuASa8jAAASG3BOmsQ766.jpg

深度学习方法对双目深度估计有何作用?

通过传统计算机视觉方法完成上面的这些步骤,其实就可以做好双目深度估计了,但是传统方法主要依赖手工设计的特征和匹配算法,如比较左右图像里像素块的相似度,然后决定它们是不是对应的点。这样一来在一些纹理稀少的区域、光照变化大的情况下,这种匹配就很容易出错,而且计算量也不小。

近年来,深度学习也被引入双目深度估计领域。其核心目标与传统方法一致,仍是寻找左右图像间的对应关系并计算视差,但实现方式发生了根本改变。深度学习不再依赖人工设计的匹配代价与规则,而是通过卷积神经网络自动从数据中学习匹配特征。

wKgZO2lUgEuAMCBhAGWxt35A574746.jpg

图片源自:网络

该网络以左右视图作为输入,直接输出视差图或深度图。在大量立体图像数据训练下,网络能够自主掌握哪些图像特征利于匹配、哪些场景容易产生歧义,从而显著提升匹配的鲁棒性。因此,在遮挡区域、重复纹理或缺乏纹理的环境等传统方法容易失效的场景下,基于深度学习的方法会表现出更高的准确度和稳定性。

深度学习方法的处理流程是先用神经网络提取左右图像的特征,然后构建一个“代价体”,表示在不同视差值下左右特征的匹配代价。接着再让网络学习从代价体里回归出最终的视差值。整个过程可以端到端训练,不需要手工调各种参数。

当然,端到端的深度学习系统需要大量带真实深度标注的数据来训练模型,而且在训练数据和真实应用场景不一致时表现可能下降。这就需要一些自监督、数据增强等策略来提升鲁棒性。

wKgZPGlUgE2AKAIEAAASAJELks8096.jpg

双目深度估计会遇到什么问题?

双目深度估计一个常见的问题是像素匹配不准确。如果物体表面没什么纹理,两个视角的图像看起来就会一模一样,这就让系统难以判断哪个点是对应到哪个点。有些算法为了弥补这个问题,会用更复杂的特征或者上下文信息来辅助匹配,但仍不是万无一失的。

wKgZO2lUgE6AKPLmAAadZZ1MXyI284.jpg

图片源自:网络

我们讲的匹配过程是假设两个图像在同一时间点拍的。如果场景里有如行人、车辆等移动的物体,而两个摄像头抓拍的时间有微小差异,这就会让匹配变得更难。深度学习方法可以用时序信息来缓解,但这本质上还是一个复杂问题。

在双目立体系统的设计中,基线长度的选取,本质上是在测量精度和工程落地之间做选择。基线越长,同一物体在左右图像中产生的视差就越大,这不仅使匹配更容易,也能有效提高深度估计的精度。过长的基线会带来安装空间、机械稳定性以及视野重叠区域减少等问题。但基线过短,远处物体的视差将变得极其微小,在像素级的计算中很容易被图像噪声、量化误差等因素所淹没,从而导致深度估计失效。

最后,还有像光照变化、遮挡、反射表面这些现实场景都会让匹配变得不稳定。这也是为什么在双目系统设计中,需要花费大量精力在图像预处理、匹配优化、后处理滤波等步骤上。

wKgZPGlUgE6APePuAAARwcz1hbg184.jpg

最后的话

双目深度估计的应用场景十分广泛,除了自动驾驶,它在工业检测、无人机测绘、实时三维建模等领域也发挥着重要作用。在需要快速感知和重建三维空间的场景中,双目视觉结合点云生成等技术,能够实现高效的实时环境建模。虽然激光雷达等主动式传感器在精度上更具优势,但双目方案以其显著的成本优势,成为许多对成本敏感应用的理想选择。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 双目视觉
    +关注

    关注

    2

    文章

    39

    浏览量

    14545
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一文带你了解双目深度相机

    在如今的智能化时代,不管是工业车间里的机器人、家里的扫地机器人,还是AR眼镜、自动驾驶汽车,都需要一双能“看懂”三维世界的“眼睛”——双目深度相机就是这样一款设备。可能有人会问,这东西到底是啥?其实
    的头像 发表于 04-14 14:30 347次阅读
    一文带你了解<b class='flag-5'>双目</b><b class='flag-5'>深度</b>相机

    双目深度相机:模拟人眼视觉,解锁三维感知新可能

    在三维感知技术快速迭代的现在,深度相机作为机器获取空间信息的重要“眼睛”,已渗透到工业自动化、机器人导航、AR/VR、智能家居等多个领域。其中,双目深度相机凭借其被动式工作、成本可控、强光适应性强等
    的头像 发表于 04-13 14:50 424次阅读
    <b class='flag-5'>双目</b><b class='flag-5'>深度</b>相机:模拟人眼<b class='flag-5'>视觉</b>,解锁三维感知新可能

    2026视觉检测产业深度调研及未来趋势分析

    视觉检测技术融合深度学习与多模态传感,实现从辅助工具向决策中枢的转变,推动智能制造与工业4.0发展。
    的头像 发表于 04-01 09:26 356次阅读
    2026<b class='flag-5'>视觉</b>检测产业<b class='flag-5'>深度</b>调研及未来趋势分析

    RTK-SCAM-60 双目立体视觉相机|精准深度感知 全场景智能视觉

    RTK-SCAM-60双目相机是一款专为三维空间感知与距离测量打造的高精度双目立体视觉相机,整机采用5V低压供电模式,无需外接独立电源,真正实现即插即用,全方位简化部署与使用流程。设备
    的头像 发表于 03-27 14:28 258次阅读
    RTK-SCAM-60 <b class='flag-5'>双目</b>立体<b class='flag-5'>视觉</b>相机|精准<b class='flag-5'>深度</b>感知 全场景智能<b class='flag-5'>视觉</b>

    双目立体视觉相机产品介绍

    本产品是一款主打高精度感知、采用5V稳定供电的双目立体视觉相机,核心由两个经过精密同步调试与专业校准的独立相机模块组成,固定基线严格设定为60mm,专为各类场景下的三维空间感知与精准距离测量需求量
    的头像 发表于 02-28 15:08 347次阅读
    <b class='flag-5'>双目</b>立体<b class='flag-5'>视觉</b>相机产品介绍

    基于SD3589高精度双目立体视觉相机:助力三维感知与智能化应用

    的单独相机模块组成,固定基线60mm,内置高性能双目光学采集卡与立体匹配算法,实现毫秒级数据同步采集,可直接输出高精度深度图、点云数据及校正后RGB图像,为自动化产
    的头像 发表于 01-05 15:29 649次阅读
    基于SD3589高精度<b class='flag-5'>双目</b>立体<b class='flag-5'>视觉</b>相机:助力三维感知与智能化应用

    自动驾驶既然有双目摄像头了,为什么还要三目摄像头?

    视觉系统中。 但在实地落地时,有些厂商并未止步于双目,而是选择了三目摄像头的方案。为什么有了双目,还要选择三目摄像头? 双目摄像头怎么“看出”深度
    的头像 发表于 12-09 08:59 1383次阅读
    自动驾驶既然有<b class='flag-5'>双目</b>摄像头了,为什么还要三目摄像头?

    车载双目摄像头如何“看见”世界?

    源自:网络 车载双目摄像头(也称立体视觉摄像头,Stereo Camera)模仿人眼的视觉机制,通过两个略有间距的摄像头同时拍摄同一场景,比较两幅图像之间的差异,从而计算出深度信息。
    的头像 发表于 11-13 09:17 1790次阅读
    车载<b class='flag-5'>双目</b>摄像头如何“看见”世界?

    欧菲光与广和通联合首发ToF+双目感知定位模块

    11月,欧菲光与广和通共研共创,首发ToF+双目感知定位模块,即将批量交付,将机器视觉感知与端侧AI模型进行融合,实现新一代智能割草机在深度估算与定位感知性能的全面跃升,为其智能化升级
    的头像 发表于 11-07 15:43 659次阅读

    双目环视立体视觉系统在智能驾驶行业的应用

    在智能驾驶技术飞速发展的当下,双目立体视觉凭借其独特的感知优势,在 360 环视产品方案以及各类辅助驾驶功能中发挥着关键作用,在最新法规要求与复杂场景下表现突出,为汽车在AEB、NOA、自动泊车等核心场景中重构了安全与效率的边界。
    的头像 发表于 09-23 11:35 1422次阅读

    奥比中光发布最新一代3D激光雷达及双目深度相机

    近日,世界机器人大会现场,奥比中光发布最新一代3D激光雷达及双目深度相机,以“场景拓展”与“极限感知”为核心优势,进阶全领域能力矩阵,刷新机器人性能上限,为各类机器人带来更灵活可靠的视觉解决方案。
    的头像 发表于 08-15 15:05 1723次阅读

    基于凌智视觉识别模块的基于单目视觉的目标物测量装置

    1.视觉测量整体方案本视觉测量系统采用单目视觉技术实现目标物距离
    的头像 发表于 07-31 15:35 1188次阅读
    基于凌智<b class='flag-5'>视觉</b>识别模块的基于单<b class='flag-5'>目视觉</b>的目标物测量装置

    光子精密双目3D线激光轮廓测量仪,摆脱视觉盲区,1台更比2台强!

    光子精密双目3D线激光轮廓测量仪(GL-8160D),在GL-8000系列的基础上创新升级。GL-8160D采用全新双目单线设计,突破传统3D视觉检测限制,而且不受外部拼接标定误差影响,有效消除单目盲区,抗光干扰能力更强,可
    的头像 发表于 07-16 17:21 1626次阅读
    光子精密<b class='flag-5'>双目</b>3D线激光轮廓测量仪,摆脱<b class='flag-5'>视觉</b>盲区,1台更比2台强!

    双目视觉在智能驾驶领域的应用

    围绕“双目智驾应用”,我们将推出系列文章深入解析双目视觉如何跨越技术鸿沟,在中国智驾的沃土上生根发芽,探索其赋能未来出行的无限可能。
    的头像 发表于 07-09 16:21 1545次阅读

    大模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型的推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这一问题,本文将探讨大模型推理显存和计算量的估计
    发表于 07-03 19:43