0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种端到端的立体深度感知系统的设计

3D视觉工坊 来源:3D视觉工坊 2023-05-26 16:12 次阅读

本文提出了一种生产化的端到端立体深度感知系统设计,可以完成预处理、在线立体校正和立体深度估计,并支持纠偏失败后的单目深度估计备选方案。同时,该深度感知系统的输出应用于一种基于智能眼镜拍摄的视角生成管道,创造出具有3D计算摄影效果的视觉效果。此外,该系统设计可以在手机的严格计算预算内运行,具有通用性,可以适用于各种品牌智能手机。该论文的设计是为了解决智能眼镜中的深度感知问题,可以为智能眼镜提供更好的增强现实体验。

1 前言

本文介绍了一种生产化的端到端深度感知系统,包括预处理、在线立体校正、立体深度估计并支持单目深度估计的备用方案。该系统的输出结果应用于视角生成的渲染管道,创建具有3D计算摄影效果的效果。该系统设计具有通用性和稳健性,可以用于不同品牌的主流手机。

我们的技术和系统贡献包括:

详细描述了一个端到端的立体系统,并提供了小心的设计选择和备用方案,这些策略可以成为其他类似深度系统的基线;

引入了一种新的在线校正算法,具有快速和稳健的特点,有助于提高立体视觉的准确性;

提出了一种新颖的策略,共同设计立体网络和单目深度网络,使两个网络的输出格式相似,从而更好地利用他们的结构信息

证明了在计算预算有限的情况下,本文的量化网络实现了竞争性的准确度,可以应用于计算资源有限的场景。

020f030a-fae3-11ed-90ce-dac502259ad0.png

2 相关背景

本文关注于构建用于灵活智能眼镜的完整立体系统,该系统具有鲁棒性和轻量化处理,能够在线校正,具有用于提显和3D效果等功能。现有工作多集中在系统的某些组件,很少有文章着眼于整个系统设计。对于在线立体校正,因为几乎所有实际立体系统都存在校正问题,研究者尝试了一些方法,其中的一个是在匹配代价中只利用水平梯度或使用包含小的垂直视差样本进行匹配代价训练等。对于单目深度估计,有监督和无监督方法都被用于深度学习中,输出通常是相对深度/视差。对于立体深度估计,最近的研究中,立体匹配的特征学习通过深度学习进行替代,目前主要关注于端到端学习,有2D CNNs、3D CNNs和RNNs等三种类型的架构。其中RNN方法得到最先进的性能,但无法在设备上运行,近期的工作则尝试着使立体网络在设备上运行更快。

3 系统概述

本文提出了一种基于智能眼镜的深度感知计算摄影系统。该系统配备一对硬件同步的鱼眼相机,可拍摄场景图像并将其传输至智能手机进行进一步处理。作者使用在线校准和校准算法估计外部和内部参数进行准确的校准,使用相对视差来创建深度计算摄影效果,并通过共享数据集训练两个网络以实现相同的下游处理。最终,预测的视差和相应的图像被传递到渲染流水线,以创建最终的三维效果。

0217274c-fae3-11ed-90ce-dac502259ad0.png

4 在线校正

根据输入的鱼眼图像,通过计算精确的对应特征点,然后在原始图像和重新校正后的图像中保持世界坐标系与立体系统相对,来估计两个摄像机的旋转角度,从而进行在线校正。此方法通过估计相对尺度来补偿焦距随温度的变化,最终使得双视图立体算法更加准确和鲁棒。其中,相对俯仰角是相对的,而绝对俯仰角是一个自由参数

02209a84-fae3-11ed-90ce-dac502259ad0.png

4.1 Projection model - 投影模型

该部分内容介绍了通过投影模型计算两张图片中点的相对位置和姿态。其中,对内参矩阵和径向畸变进行了校正。通过将点投影到不同的相机中并估计其在两张图片中的深度,可以计算相机之间的相对方向和绝对的旋转和偏航。通过引入尺度修正,可以进一步约束相机之间的相对高度。

4.2 Rectification algorithm - 矫正算法

该算法通过使用Harris角点和层次亚像素ZSSD特征匹配器在图像间匹配特征点,并配合使用鲁棒最小二乘法求解方程组来实现对图像的矫正。该算法能够可靠地提取到特征点并计算出矫正角度。算法采用四个参数模型,包括∆ωx、∆ωy、∆ωz和∆f ,并且通过内点控制实现超约定系统的求解。对于每个匹配,它的表现很稳定并产生了很好的结果。

5 Co-design of monocular and stereo networks - 单目和立体网络的联合设计

本文提出了一种新的方法来协同设计立体和单目深度网络,以使其输出具有一致性,轻量级并且尽可能精确。该方法通过将单目深度网络训练为预测相对深度和相机运动,而不是绝对深度,来保持输出格式的一致性。接着,作者设计了一个立体网络,使用相同的特征提取器来预测相对视差。为了保持一致性,作者还使用了可训练的缩放和偏移参数,并使用一个损失函数来同时考虑单目和立体网络的输出。该方法在联合训练中表现出很好的稳定性和精度。

5.1 Stereo network - 立体网络

作者设计了一个立体视网络,其组件灵感来源于经典的和深度的立体视方法:

一个编码器,从输入的立体图像中独立提取多分辨率特征和特征 ,其中 l = 1 … L,用于 L 层特征金字塔。

利用余弦距离比较左右特征距离的三维代价体02299a3a-fae3-11ed-90ce-dac502259ad0.png

使用许多中间层将代价体和参考图像的图像特征作为输入,并汇总视差信息。因为中间层直接从代价体和参考图像获取信息,所以它们可以在立体匹配线索较弱(例如在无纹理区域)或缺失时(例如在半遮挡区域)更好地利用单眼深度线索。

粗到细解码器以预测输出视差图。输出视差图的分辨率与输入右图像相同。每个解码器模块结合低分辨率解码器模块的输出和相同分辨率中间层的输出。

0231f662-fae3-11ed-90ce-dac502259ad0.png

5.2 Monocular network - 单目网络

我们设计了一个单目深度估计网络,其包含三个组件:

用于提取多分辨率图像特征f_l=1...L的编码器;

中间层用于聚合深度信息;

粗到细的解码器用于预测视差图。

0242d61c-fae3-11ed-90ce-dac502259ad0.png

5.3 Shared network components - 共享网络组件

作者研究了单目深度估计和立体视觉之间的联合训练,从而提高了深度估计的质量。在共享网络组件方面,该文使用相同的编码器、中间层和解码器,同时使用立体代价体模块,从而提高网络的表现。为了提高效率,文章使用反向残差模块进行所有层的量化,并将权重和激活量化为8位。同时,输出层保持为32位来获得亚像素分辨率。其损失函数使用平滑L1损失和梯度损失项来训练网络。

5.4 Novel training datasets - 新型训练数据集

本文提出了一种通过渲染内部单目数据集来获得立体数据集以进行联合训练的方法。为了使立体数据集具有逼真性和挑战性,作者对其进行了数据增强(亮度、对比度、色相、饱和度、jpeg压缩等),并在遇到高光反射和无效区域(由深度流水线中的变形和矫正引起)时进行了训练,使网络能够忽略这些干扰。文章还探讨了简化立体数据集生成的方法,使得该数据集比任何现有的训练数据集都更具多样性。

6 Novel view synthesis - 新视角合成

本文采用基于LDI的方法来实现新视角合成。对于立体数据集的创建,使用单目真实深度和彩色图像来创建纹理网格,并渲染第二个视角。对于3D效果,使用来自立体系统的预测和预定义的轨迹来生成平滑的新视角视频。其中LDI是层深度图,可以通过LDI修复插值法推测被遮挡的几何形状。

7 实验

在本文中,作者介绍了一种新的立体视觉深度估计方法,即使用共享编码器、中间层和解码器的高效单目网络Tiefenrausch和附加的成本体积模块来构建立体网络Argos。对于生产模型,作者使用4M内部iPhone数据集重新训练了Tiefenrausch,并使用FBGEMM后端进行量化感知训练(QAT),从而实现了高精度。作者还使用Sceneflow数据集进行了对比实验。

作者在三星Galaxy S8 CPU上对流水线进行了基准测试。校正流水线需要300-400ms,立体网络需要大约965ms。流水线的其他部分总共需要比这两个步骤更低的延迟。作者的模型经过了移动CPU优化,但将SotA模型转换为移动友好的格式并不容易,也不是非常有意义,因为它们并不是为移动设备设计的。为了权衡,作者在Intel(R) Xeon(R) Gold 6138 CPU @ 2.00GHz的计算机服务器上比较所有模型的运行时间。

0254aac2-fae3-11ed-90ce-dac502259ad0.png

本文在Middlebury 2014数据集上对作者的方法与几种SotA立体方法进行了定量比较。作者的方法在速度上快于其他方法,并且实现了与SotA方法相当的性能。通过使用内部渲染的立体数据集进行训练,作者的性能进一步提高,并实现了最佳的绝对相对误差。作者新设计有效地从单目数据集呈现了立体数据集以训练模型。虽然作者的设计选择可能在Middlebury等基准测试上导致精度下降,但作者追求的是设计一个稳健的端到端深度系统。作者的量化8位立体模型是首次提出的,比较模型都使用32位权重和激活。尽管存在一些不利因素,但作者还是实现了与SotA方法相当的性能,并且运行速度更快。

本文描述了一项针对3D照片质量的调查。通过渲染深度系统的新视角视频进行调查,参与者对视频质量进行评分。研究结果表明,立体声得分的平均分数为3.44,单目深度得分的平均分数为2.96。结果显示,深度图质量有时与渲染的新视角视频的质量并不直接相关。作者强调了仅使用标准指标来比较方法是不足以评价立体声方法在实践中的表现的

8 结论

本文介绍了一种端到端的立体深度感知系统的设计,可以在智能手机上高效运行。该系统包括了一个在线矫正算法、单目和立体视差网络的协同设计,以及从单目数据集中提取大型立体数据集的新方法。作者还提出了一个8位量化的立体模型,与最先进的方法相比,在标准立体基准测试中具有竞争性能。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能手机
    +关注

    关注

    66

    文章

    18058

    浏览量

    177063
  • 感知系统
    +关注

    关注

    1

    文章

    62

    浏览量

    15717
  • 智能眼镜
    +关注

    关注

    8

    文章

    592

    浏览量

    72032

原文标题:CVPR2023 I 一种实用的智能眼镜深度感知系统

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何通过立体视觉构建小巧轻便的深度感知系统

    有多种 3D 传感器方案来实现深度感知系统,包括立体视觉相机、激光雷达和TOF(飞行时间)相机。每个选择都有其优缺点,其中,嵌入式深度
    的头像 发表于 08-23 16:45 1089次阅读
    如何通过<b class='flag-5'>立体</b>视觉构建小巧轻便的<b class='flag-5'>深度</b><b class='flag-5'>感知</b><b class='flag-5'>系统</b>

    一种新的判别变压器绕组同名的检测方法

    一种新的判别变压器绕组同名的检测方法
    发表于 08-10 01:03

    动态分配多任务资源的移动深度学习框架

    需求和准确率之间的权衡是固定的。因此,第大挑战在于设计个能让深度学习模型提供灵活的资源-准确率权衡的方案。一种朴素的方法是在移动系统中安
    发表于 10-31 16:32

    点到点和通讯

    传输的缺点是发送发出数据后,不知道接收能否收到或何时能收到数据。在个网络系统的不同分层中,可能用到
    发表于 01-18 18:06

    如何用FPGA实现实时深度感知

    对于自主机器人导航和其它机器视觉应用来说,实时深度感知是很关键的。目前通过立体图像来计算深度的算法计算量很大,例如差异测绘,要占用CPU大量的时间,或者需要用昂贵的器件进行实时操作。
    发表于 10-17 08:28

    一种先分割后分类的两阶段同步缺陷检测方法

    作者:SFXiang首发:AI算法修炼营本文是一种的先分割后分类的表面缺陷检测方法。主要的创新点在于如何将两类任务更好地进行同步学习,本文首先平衡分割损失和分类损失,然后对负样本
    发表于 07-24 11:01

    采用OPT9221 ToF传感器设计的立体视觉和深度感知电路

    成像对于许多机器人应用至关重要,能让机器人执行基本任务,躲避障碍物,进行导航以及确保基本安全。 显然,提供成像的方式是采用低成本视频摄像头,或者再好点,使用两个摄像头实现立体视野和深度感知。 但后者
    发表于 11-27 06:20

    怎样去设计一种发射和接收调制解调器?

    怎样去设计一种发射调制解调器硬件电路?怎样去设计一种接收方调制解调器硬件电路?
    发表于 05-25 06:54

    如何去实现一种立体图像获取及显示系统的设计?

    如何去实现一种立体图像获取及显示系统的设计?
    发表于 06-03 07:10

    一种的定制IC模拟与验证解决方案

    一种的定制IC模拟与验证解决方案如何对存储器和混合信号设计进行仿真?
    发表于 06-22 07:58

    设计一种基于云平台+APP+设备的身体参数测试系统

    【背景描述】随着生活质量的提高和生活节奏的加快,人们愈加需要关注自己的健康状况,本项目意在设计一种基于云平台+APP+设备的身体参数测试系统,利用脉搏传感器、红外传感器、微弱信号检测电...
    发表于 08-06 07:53

    如何去实现一种基于物联网感知的家居人体健康状况检测系统设计

    为什么要设计一种基于物联网感知的家居人体健康状况检测系统?如何去实现一种基于物联网感知的家居人体健康状况检测
    发表于 10-20 06:23

    怎样去设计一种基于云平台+APP+设备的身体参数测试系统

    身体参数测试系统的硬件部分是由哪些部分组成的呢?怎样去设计一种基于云平台+APP+设备的身体参数测试系统呢?
    发表于 11-11 09:14

    立体摄像深度感知的FPGA实现

    针对立体摄像的深度感知,FPGA解决方案能使处理器的时间得到缓解,减少或除去器件的成本,例如MPU、DSP、激光器和昂贵的镜头
    发表于 03-31 11:14 1306次阅读
    <b class='flag-5'>立体</b>摄像<b class='flag-5'>深度</b><b class='flag-5'>感知</b>的FPGA实现

    边缘AI套件上的立体视觉深度感知

    电子发烧友网站提供《边缘AI套件上的立体视觉深度感知.zip》资料免费下载
    发表于 06-12 14:36 0次下载
    边缘AI套件上的<b class='flag-5'>立体</b>视觉<b class='flag-5'>深度</b><b class='flag-5'>感知</b>