牛津博士论文学习重建和分割3D物体，突破AI和机器理解的界限-电子发烧友网

让机器拥有像人类一样感知 3D 物体和环境的能力，是人工智能领域的一项重要课题。牛津大学计算机科学系博士生 Bo Yang 在其毕业论文中详细解读了如何重建和分割 3D 物体，进而赋予机器感知 3D 环境的能力，突破了人工智能和机器理解的界限。

赋予机器像人类一样感知三维真实世界的能力，这是人工智能领域的一个根本且长期存在的主题。考虑到视觉输入具有不同类型，如二维或三维传感器获取的图像或点云，该领域研究中一个重要的目标是理解三维环境的几何结构和语义。

传统方法通常利用手工构建的特征来估计物体或场景的形状和语义。但是，这些方法难以泛化至新物体和新场景，也很难克服视觉遮挡的关键问题。

今年九月毕业于牛津大学计算机科学系的博士生 Bo Yang 在其毕业论文《Learning to Reconstruct and Segment 3D Objects》中对这一主题展开了研究。与传统方法不同，作者通过在大规模真实世界的三维数据上训练的深度神经网络来学习通用和鲁棒表示，进而理解场景以及场景中的物体。

总体而言，本文开发了一系列新型数据驱动算法，以实现机器感知到真实世界三维环境的目的。作者表示：「本文可以说是突破了人工智能和机器理解的界限。」

这篇博士论文有 143 页，共六章。机器之心对该论文的核心内容进行了简要介绍，感兴趣的读者可以阅读论文原文。

论文地址：https://arxiv.org/pdf/2010.09582.pdf

论文概述

作者在第 2 章首先回顾了以往 3D 物体重建和分割方面的研究工作，包括单视图和多视图 3D 物体重建、3D 点云分割、对抗生成网络（GAN）、注意力机制以及集合上的深度学习。此外，本章最后还介绍了在单视图 / 多视图 3D 重建和 3D 点云分割方面，该研究相较于 SOTA 方法的新颖之处。

基于单视图的 3D 物体重建

在第 3 章，作者提出以一种基于 GAN 的深度神经架构来从单一的深度视图学习物体的密集 3D 形状。作者将这种简单但有效的模型称为 3D-RecGAN++，它将残差连接（skip-connected）的 3D 编码器 - 解码器和对抗学习结合，以生成单一 2.5D 视图条件下的完整细粒度 3D 结构。该模型网络架构的训练和测试流程如下图所示：

接着，作者利用条件对抗训练来细化编码器 - 解码器估计的 3D 形状，其中用于 3D 形状细化的判别器结构示意图如下：

最后，作者将提出的 3D-RecGAN++ 与 SOTA 方法做了对比，并进行了控制变量研究。在合成和真实数据集上的大量实验结果表明，该模型性能良好。

基于多视图的 3D 物体重建

在第 4 章，作者提出以一种新的基于注意力机制的神经模块来从多视图中推理出更好的 3D 物体形状。这种简单但高效的注意力聚合模块被称为 AttSets，其结构如下图所示。与现有方法相比，这种方法可以学习从不同图像中聚合有用信息。

此外，研究者还引入了两阶段训练算法，以确保在给出一定数量输入图像的情况下，预估的 3D 形状具有鲁棒性。研究者在多个数据集上进行了实验，证明该方法能够精确地恢复物体的 3D 形状。

从点云中学习分割 3D 物体

在第五章中，研究者提出了一个新的框架来识别大规模 3D 场景中的所有单个 3D 物体。与现有的研究相比，该研究的框架能够直接并且同时进行检测、分割和识别所有的目标实例，而无需任何繁琐的前 / 后处理步骤。研究者在多个大型实际数据集上展现了该方法相对于基线的性能提升。

作者介绍

本文作者 Bo Yang 现为香港理工大学计算机系助理教授。他本科和硕士分别毕业于北京邮电大学和香港大学，然后进入牛津大学计算机科学系攻读博士学位，其导师为 Niki Trigoni 和 Andrew Markham 教授。

Bo Yang 作为一作以及合著的论文曾被《计算机视觉国际期刊》（IJCV）以及 NeurIPS 和 CVPR 等学术会议接收，谷歌学术主页上显示他共著有 22 篇论文，被引用数超过 400。

论文目录如下：

责任编辑：PSY

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26443

浏览量
264044
机器学习

机器学习

+关注

关注
66

文章
8122

浏览量
130557
3D物体识别

3D物体识别

+关注

关注
0

文章
3

浏览量
6302

基于深度学习的3D点云实例分割方法

3D实例分割（3DIS）是3D领域深度学习的核心问题。给定由点云表示的 3D 场景，我们寻求为每个点分配语义类和唯一的实例标签。 3DIS

发表于 11-13 10:34 •602次阅读

基于深度<b class='flag-5'>学习</b>的<b class='flag-5'>3D</b>点云实例<b class='flag-5'>分割</b>方法

基于3D形状重建网络的机器人抓取规划方法

一个带有分割掩码的输入RGB-D图像被提供给两个神经网络，分别产生一个6自由度的抓取姿势和一个物体的3D点云重建。通过将抓取姿势投影到点云中最近的点来优化抓取姿势，从而产生最终的输出抓

发表于 11-02 10:39 •216次阅读

基于<b class='flag-5'>3D</b>形状<b class='flag-5'>重建</b>网络的<b class='flag-5'>机器</b>人抓取规划方法

光学3D表面轮廓仪可以测金属吗？

重建物体的三维模型。这种测量方式具有非接触性、高精度、高速度等优点，非常适合用于金属等材料的表面测量。光学3D表面轮廓仪可以测量金属的形状、表面缺陷、几何尺寸等多个方面： 1、形状测量。光学3D表面

发表于 08-21 13:41

三维场景点云理解与重建技术

三维场景理解与重建技术主要包含场景点云特征提取、扫描点云配准与融合、场景理解与语义分割、扫描物体点云补全与细粒度

发表于 08-08 16:58 •704次阅读

三维场景点云<b class='flag-5'>理解</b>与<b class='flag-5'>重建</b>技术

实时3D艺术最佳实践-纹理技术解读

、mipmapping和法线贴图。本指南也以Unity学习课程的形式提供-Arm&Unity Presents:移动应用程序的3D艺术优化

发表于 08-02 06:12

基于深度学习的点云分割的方法介绍

　　摘要：点云分割是点云数据理解中的一个关键技术，但传统算法无法进行实时语义分割。近年来深度学习被应用在点云分割上并取得了重要进展。综述了

发表于 07-20 15:23 •0次下载

北工大校友Cheng Zhang获SIGGRAPH最佳博士论文奖！

SIGGRAPH 博士论文奖设立于 2016 年，每年颁发给在计算机图形学和交互技术领域成功答辩并完成博士论文的近期博士候选人，以表彰他们的杰出成就。该奖项旨在认可在博士研究早期已经做

发表于 07-04 10:55 •334次阅读

北工大校友Cheng Zhang获SIGGRAPH最佳<b class='flag-5'>博士论文</b>奖！

基于未知物体进行6D追踪和3D重建的方法

如今，计算机视觉社区已经广泛展开了对物体姿态的 6D 追踪和 3D 重建。本文中英伟达提出了同时对未知物体进行 6D 追踪和 3D

发表于 07-03 11:24 •335次阅读

基于未知<b class='flag-5'>物体</b>进行6D追踪和<b class='flag-5'>3D</b><b class='flag-5'>重建</b>的方法

英伟达提出了同时对未知物体进行6D追踪和3D重建的方法

一种用于新颖未知动态物体的因果 6 自由度姿态跟踪和 3D 重建的新方法。该方法利用了并发跟踪和神经重建过程的新颖共同设计，能够在几乎实时的在线环境中运行，同时大大减少了跟踪漂移。

发表于 07-03 10:49 •308次阅读

英伟达提出了同时对未知<b class='flag-5'>物体</b>进行6D追踪和<b class='flag-5'>3D</b><b class='flag-5'>重建</b>的方法

CVPR 2023最佳论文候选！真实高精3D物体数据集OmniObject3D

面向真实 3D 物体的感知、理解、重建与生成是计算机视觉领域一直倍受关注的问题，也在近年来取得了飞速的进展。然而，由于社区中长期缺乏大规模的实采 3

发表于 06-19 15:30 •1053次阅读

3D打印两台机器同时干

3D打印

YS YYDS
发布于 :2023年05月25日 17:39:14

关于3D机器视觉的几个技术趋势

机器视觉正在为超大场景的3D数据感知提供很多新的方法。比如自动化的成像方法，像视觉SLAM在线处理连续帧的图像，实现实时重建巨大3D场景。再比如说对航拍数据进行点云

发表于 05-22 10:21 •384次阅读

视觉处理，2d照片转3d模型

首先，太阳高度是恒定的。照片每像素的亮度可求。我们只需要求出太阳与眼睛到物体的夹角就能求出3d模型。最多就是各种物质的反射率。英伟达的oir芯片就是做汽车视觉的，大家去取取经。有时，2-3张位置不同的照片，可以快速生成模

发表于 05-21 17:13

AI算法说-图像分割

语义分割是区分同类物体的分割任务，实例分割是区分不同实例的分割任务，而全景分割则同时达到这两个目

发表于 05-17 14:44 •882次阅读

高效理解机器学习

来源：DeepNoMind对于初学者来说，机器学习相当复杂，可能很容易迷失在细节的海洋里。本文通过将机器学习算法分为三个类别，梳理出一条相对清晰的路线，帮助初学者

发表于 05-08 10:24 •356次阅读

搜索历史

牛津博士论文学习重建和分割3D物体，突破AI和机器理解的界限

评论

基于深度学习的3D点云实例分割方法

基于3D形状重建网络的机器人抓取规划方法

光学3D表面轮廓仪可以测金属吗？

三维场景点云理解与重建技术

实时3D艺术最佳实践-纹理技术解读

基于深度学习的点云分割的方法介绍

北工大校友Cheng Zhang获SIGGRAPH最佳博士论文奖！

基于未知物体进行6D追踪和3D重建的方法

英伟达提出了同时对未知物体进行6D追踪和3D重建的方法

CVPR 2023最佳论文候选！真实高精3D物体数据集OmniObject3D

3D打印两台机器同时干

关于3D机器视觉的几个技术趋势

视觉处理，2d照片转3d模型

AI算法说-图像分割

高效理解机器学习