0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浙大团队研发基于单目视频的三维场景重建框架NeuralRecon

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2021-05-11 10:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

最近,iPadiPhone 上的 LiDAR 有了新玩法,Apple Clips 应用程序中更新了基于三维重建的 AR 空间特效。通过 Clips 3.1 的 AR 空间功能,用户只需用带有 LiDAR 传感器的 iPad Pro 或 iPhone Pro 在房间中进行扫描和重建,就能为拍摄的视频中添加绚丽的 AR 效果。

比如跟着 AR 投射出来的灯光跳舞;

再比如用 Star Walk 2 的 AR 功能,足不出户在房间屋顶上观看星座。

不过要实现上述视频中的效果,需要 iPad 和 iPhone 高端型号上配备的 LiDAR 深度传感器,而使用浙江大学-商汤三维视觉联合实验室所提出的方法,希望能让普通手机的单目摄像头也可实现上述效果。

实验室成员周晓巍接受了我们的采访。他是国内计算机视觉领域青年学者、也是浙江大学计算机辅助设计与图形学国家重点实验室的“百人计划” 研究员和博士生导师。几年前,在结束美国宾夕法尼亚大学 GRASP 机器人实验室的博士后研究后,回到母校任教。他告诉 DeepTech:“目前我们跟商汤、华为都有非常紧密的合作,通过这种产学研的结合,我们的研究成果既有对学术前沿的探索,又能根据实际需求去攻克一些技术瓶颈。与此同时,国内的 3D 视觉领域还处于新兴发展阶段,也需要我们回来一起把这个方向给发展壮大起来,不断缩短与国际领先水平之间的差距。”

周晓巍所在的团队提出了一种基于单目视频的三维场景重建框架 NeuralRecon。在实时 (25 FPS) 的速度下,使用该方法可高质量地重建三维场景。对比结果显示,在 ScanNet、7-Scenes 等数据集上,NeuralRecon 的速度和精度均大幅领先以往方法。该工作将发表于今年的计算机视觉顶级会议 CVPR,并录用为口头报告。

据其表示,NeuralRecon 提出了用神经网络、直接回归基于 TSDF 表示的局部三维表面,并能使用基于 GRU 的 TSDF 融合模块,来融合历史局部表面的特征。这样设计的好处是,网络不仅能直接学习到三维表面的局部光滑性先验并借此实现准确且一致的重建,还可以减少以往方法中重复冗余的计算量,在保持质量的前提下实现实时的重建。据该团队所知,这是首个基于深度学习方法、并能实时重建稠密且一致三维表面的系统。

问题和挑战:基于图像的实时场景的三维重建依然任重道远

一直以来,稠密场景重建都是三维视觉的核心问题,在增强现实(AR)等应用中,扮演着重要角色。在 AR 应用中,要想实现真实、沉浸式的虚实融合体验,就需要正确处理真实场景和虚拟的AR物体之间的遮挡关系,并对阴影等效果做出正确的渲染,如此才能实现合理的虚拟内容放置、以及它和与真实场景的交互。概括来说,要想实现这些效果,都得对场景进行实时且精确的三维重建。

三维重建需要依赖精确的六自由度相机位姿估计。最近几年,视觉惯性 SLAM 逐渐成熟,且已得到大范围的落地应用。ARKit 和 ARCore 等 AR 框架的出现,让多数智能手机都能准确跟踪其自身六自由度的姿态。

然而,基于图像的实时场景的三维重建依然任重道远。目前常用的三维重建方案如 KinectFusion、BundleFusion 等,非常依赖深度传感器提供的深度测量。但是,由于深度传感器价格昂贵、功耗也比较高,因此其普及程度依然较低,通常只有少数高端型号的移动设备才舍得配备。因此,使用单目多视角图像去实现实时三维重建,具有非常大的应用前景。在不增加传感器的前提下,它可直接用在现有智能设备中。

而在基于多视角图像的三维重建方法中,基于深度图融合的方法非常流行。可是,这种方法存在两个问题:

第一,其中有大量重复计算,从相邻帧之间,可以看到相邻区域中有大面积的重合,同一区域的深度则会被计算多次,这会带来计算量上的冗余;第二,即便相邻两帧能看到的区域有较大重合,每一帧深度图的计算却都得重新开始,而非基于之前相邻帧的深度预测结果。

如下图所示,这会导致计算出来的相邻两帧的深度图不一致,重建的结果也因此常会非常分散,甚至会产生分层。

5f90f53a-b178-11eb-bf61-12bb97331649.png

图 | 基于深度图融合方法的重建效果

NeuralRecon:新型三维场景重建框架

为解决上述痛点,该团队提出这一新型三维场景重建框架 NeuralRecon,下图展示了它的算法流程。这是一个轻量级的实时端到端系统,可直接从已知相机位姿的多视角图像中,重建基于稀疏 TSDF 表示的三维场景几何信息。

NeuralRecon 主要有如下两个步骤,第一步是关键帧的选择。

关键帧选择的目的,是为了在提供足够运动视差的同时,还能保持多视角的共视关系,因此所选关键帧之间的距离,不能太近也不能太远。具体来说, 假如一个新传入的帧和上一个关键帧的相对平移大于 t [max],并且相对旋转角度大于 R [max],那么就可选择该帧作为关键帧。而具备 N 个关键帧的窗口,可被定义为一个片段。

第二步是联合片段重建和融合,其中涉及三个分步骤。

第一个分步骤是图片特征提取和反投影,这里指的是某个视频片段中的 N 张图片,最初会通过一个 CNN 网络来提取多个分辨率下的图像深度特征。而图片特征会反投影到三维空间中,得到三维特征体。

第二个分步骤是从粗到细的三维场景重建。采取从粗到细的方式,分阶段地预测并细化场景的几何信息。在每个阶段中,稀疏三维卷积神经网络会被用来处理三维特征体,最终通过一个多层感知机 (MLP),获悉占有分数 (Occupancy score) 和 TSDF 值。

其中,占有分数代表着三维特征体中体素在 TSDF 截断距离之内的概率。在每个阶段的最后,占有分数小于阈值的体素,都会被定为空、并会被除掉。而在稀疏化之后,稀疏三维特征体会被上采样。下图是稀疏 TSDF 表示的可视化。

图 | 稀疏 TSDF 表示示意图

第三个分步骤是基于 GRU 的融合,这一步的目的,在于让片段的重建之间得以保持一致,希望当前片段的重建可建立在历史片段重建结果的基础上。

具体来说,该方法提出了一个基于 GRU 的联合重建与融合模块。在每个阶段,三维特征体都会首先通过一个三维稀疏卷积,并进行三维几何特征提取。然后,三维几何特征会被输入进 GRU 联合重建与融合模块。该模块会将三维几何特征与在历史片段重建中获得的隐变量进行融合,并通过一个全局感知机回归 TSDF 和占有分数。

直观地说,这里的 GRU 作为一种基于学习的选择性注意机制,可取代传统 TSDF 融合中的线性操作。在后续的步骤中,因为GRU 进行了联合重建与融合的操作,所以会直接将回归的 TSDF 替换对应区域的全局 TSDF,最终的重建结果可以从更新后的全局 TSDF 中通过 Marching Cubes 算法获得。

两大优势:重建结果具有一致性、重建过程用时更短

根据实验结果,作者们做出了可视效果的对比图。

对比可知,相比较传统的基于深度图的方法,NeuralRecon 主要有两方面优势:

其一,重建结果具有一致性;其二,重建过程用时更短。

作者们在 ScanNet 数据集上,将本次方法和当前最好的方法做定量对比。对比发现,本次方法在 F-score 上和速度上,都能超过此前方法,并能做到实时且精确的估计。

与此前最快的方法 MVDepthNet 比较,本次方法不仅速度略有领先,F-score 也从 0.329 提到了 0.562。相比此前精度最高的方法 COLMAP,本次方法在精度稍胜一筹的情况下,处理每个关键帧所需时间也从 2076ms 降至 30ms。

结语:NeuralRecon 为基于深度学习的三维感知系统打开新的可能性

概括来说,NeuralRecon 的核心思想,在于对每个视频片段的可视区域进行增量式的联合重建和联合融合。这个设计让 NeuralRecon 能实时输出精确、且具有一致性的三维表面。

展望未来,使用 NeuralRecon 重建的稀疏 TSDF 表示能直接用于三维语义分割、三维目标检测和可微渲染等下游任务。借助与下游任务的端到端联合训练,NeuralRecon 可为基于深度学习的三维感知系统提供出新的可能性。

原文标题:浙大团队研发新型三维重建框架NeuralRecon,是首个基于深度学习的实时单目三维场景重建系统 | 专访

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Ar
    Ar
    +关注

    关注

    25

    文章

    5236

    浏览量

    175455
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123899

原文标题:浙大团队研发新型三维重建框架NeuralRecon,是首个基于深度学习的实时单目三维场景重建系统 | 专访

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一文读懂 | 三维视觉领域国家级制造业单项冠军——先临三维的品牌布局

    先临三维科技股份有限公司成立于2004年,是三维视觉领域国家级制造业单项冠军、国家专精特新“小巨人”企业。公司专注于高精度三维视觉软、硬件的研发和应用,致力于成为具有全球影响力的
    的头像 发表于 11-11 14:55 266次阅读
    一文读懂 | <b class='flag-5'>三维</b>视觉领域国家级制造业单项冠军——先临<b class='flag-5'>三维</b>的品牌布局

    从“重建”到“可用”:aiSim3DGS方案如何闭环自动驾驶仿真场景

    3DGaussianSplatting(3DGS)凭借高效渲染与逼真场景还原能力,逐渐成为三维重建与仿真领域的焦点。然而,实际应用中,如何将多源异构数据高效转化为可用的3DGS场景,如
    的头像 发表于 10-24 17:33 28次阅读
    从“<b class='flag-5'>重建</b>”到“可用”:aiSim3DGS方案如何闭环自动驾驶仿真<b class='flag-5'>场景</b>?

    机器视觉三维成像技术简介(一)

    本文讨论了机器视觉三维成像技术,涵盖了各种成像技术的原理、特点、优缺点及应用场景等内容。关键要点包括: 1. 三维成像技术分类 2. 飞行时间法(ToF) 3. 结构光 4. 激光
    的头像 发表于 10-20 14:04 371次阅读
    机器视觉<b class='flag-5'>三维</b>成像技术简介(一)

    一种基于多次观测融合的可交互三维高斯场景重建框架

    在计算机视觉和机器人领域,如何完整、真实地重建一个可交互的三维场景,一直是一个难题。传统方法往往依赖复杂的多阶段流程,比如先做分割,再进行背景补全或修复,或者需要对每个物体进行密集扫描。这些方式不仅成本高、容易出错,而且很难扩展
    的头像 发表于 09-29 11:12 425次阅读
    一种基于多次观测融合的可交互<b class='flag-5'>三维</b>高斯<b class='flag-5'>场景</b><b class='flag-5'>重建</b><b class='flag-5'>框架</b>

    请帮帮我:AutoCAD三维显示问题,和人正常视角相背

    AutoCAD三维显示问题,和人正常视角相背 AutoCAD三维显示问题,和人正常视角相背
    发表于 08-14 09:50

    航天宏图全栈式3DGS实景三维重建系统解决方案

    “实景三维中国”作为国家推进数字中国建设、提升空间地理信息服务能力的重要战略性工程,正在深度融入低空经济、智能交通、智慧城市、数字文旅和应急指挥等关键领域。三维重建是实现真实世界“实景三维”数字化
    的头像 发表于 06-27 09:28 1072次阅读
    航天宏图全栈式3DGS实景<b class='flag-5'>三维重建</b>系统解决方案

    激光三维扫描技术:无喷粉条件下高反光表面三维重建的光学原理与应用

    高反光表面的三维重建是工业检测、文化遗产保护等领域的关键技术瓶颈。传统激光扫描依赖喷粉增强漫反射,但会对精密器件或文物造成不可逆损伤。本文通过融合结构光调制、偏振分析及多视角协同技术,构建无喷粉测量
    的头像 发表于 06-25 10:19 612次阅读

    站闪电定位仪和三维闪电定位仪的精度对比如何

    电子发烧友网站提供《站闪电定位仪和三维闪电定位仪的精度对比如何.docx》资料免费下载
    发表于 06-24 15:26 0次下载

    南方测绘推出实景三维中国整体解决方案

    新型基础测绘与实景三维中国建设持续推进,南方测绘深度聚焦,基于自主研发的SmartGIS平台,打造以地理实体数据为核心的“生产、处理、质检、管理、可视化分析”实景三维系列产品,提供全流程、按需定制的实景
    的头像 发表于 03-26 16:44 1055次阅读

    使用DLP LightCrafter4500投影结构光进行三维重建遇到的疑问求解

    使用DLP LightCrafter4500 投影结构光进行三维重建,遇到以下问题: (1)投影自己的图片,如何使投影出的图片和原图片的亮度一致。它是可以设定LED的亮度,我投影出来的图片亮度很
    发表于 03-03 06:29

    三维测量在医疗领域的应用

    三维测量在医疗领域的应用十分广泛,为医疗诊断、治疗及手术规划等提供了重要的技术支持。以下是对三维测量在医疗领域应用的分析: 一、医学影像的三维重建与分析 CT、MRI等影像的三维重建
    的头像 发表于 12-30 15:21 1090次阅读

    三维测量软件的使用技巧

    在现代工业和科研领域,三维测量技术已经成为不可或缺的一部分。它能够提供精确的空间数据,帮助工程师和研究人员更好地理解和设计复杂的三维结构。 选择合适的三维测量软件 功能需求分析 :根据项目需求,确定
    的头像 发表于 12-30 15:05 1338次阅读

    常见的三维测量方法和工具

    三维测量是用于获取物体三维几何信息的技术,它在工业制造、建筑、考古、医学等领域有着广泛的应用。以下是一些常见的三维测量方法和工具的概述,以及它们的特点和应用场景: 激光扫描技术(Las
    的头像 发表于 12-30 15:02 1913次阅读

    三维测量技术在工业中的应用

    中不可或缺的一部分。 一、三维测量技术的工作原理 三维测量技术,也称为三维扫描技术,是一种通过捕捉物体表面点的三维坐标信息来重建物体
    的头像 发表于 12-30 15:01 1161次阅读

    三维扫描与建模的区别 三维扫描在工业中的应用

    三维扫描与建模的区别 三维扫描与建模是两种不同的技术,它们在操作过程、输出结果及应用领域上存在显著的区别。 操作过程 : 三维扫描 :主要通过激光或光学扫描设备,获取实物表面的形状、纹理信息等
    的头像 发表于 12-19 14:55 1565次阅读