0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

牛津博士论文学习重建和分割3D物体,突破AI和机器理解的界限

工程师邓生 来源:机器之心Pro 作者:Bo Yang 2020-11-26 18:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

让机器拥有像人类一样感知 3D 物体和环境的能力,是人工智能领域的一项重要课题。牛津大学计算机科学系博士生 Bo Yang 在其毕业论文中详细解读了如何重建和分割 3D 物体,进而赋予机器感知 3D 环境的能力,突破了人工智能和机器理解的界限。

赋予机器像人类一样感知三维真实世界的能力,这是人工智能领域的一个根本且长期存在的主题。考虑到视觉输入具有不同类型,如二维或三维传感器获取的图像或点云,该领域研究中一个重要的目标是理解三维环境的几何结构和语义。

传统方法通常利用手工构建的特征来估计物体或场景的形状和语义。但是,这些方法难以泛化至新物体和新场景,也很难克服视觉遮挡的关键问题。

今年九月毕业于牛津大学计算机科学系的博士生 Bo Yang 在其毕业论文《Learning to Reconstruct and Segment 3D Objects》中对这一主题展开了研究。与传统方法不同,作者通过在大规模真实世界的三维数据上训练的深度神经网络来学习通用和鲁棒表示,进而理解场景以及场景中的物体。

总体而言,本文开发了一系列新型数据驱动算法,以实现机器感知到真实世界三维环境的目的。作者表示:「本文可以说是突破了人工智能和机器理解的界限。」

这篇博士论文有 143 页,共六章。机器之心对该论文的核心内容进行了简要介绍,感兴趣的读者可以阅读论文原文。

论文地址:https://arxiv.org/pdf/2010.09582.pdf

论文概述

作者在第 2 章首先回顾了以往 3D 物体重建和分割方面的研究工作,包括单视图和多视图 3D 物体重建、3D 点云分割、对抗生成网络(GAN)、注意力机制以及集合上的深度学习。此外,本章最后还介绍了在单视图 / 多视图 3D 重建和 3D 点云分割方面,该研究相较于 SOTA 方法的新颖之处。

基于单视图的 3D 物体重建

在第 3 章,作者提出以一种基于 GAN 的深度神经架构来从单一的深度视图学习物体的密集 3D 形状。作者将这种简单但有效的模型称为 3D-RecGAN++,它将残差连接(skip-connected)的 3D 编码器 - 解码器和对抗学习结合,以生成单一 2.5D 视图条件下的完整细粒度 3D 结构。该模型网络架构的训练和测试流程如下图所示:

接着,作者利用条件对抗训练来细化编码器 - 解码器估计的 3D 形状,其中用于 3D 形状细化的判别器结构示意图如下:

最后,作者将提出的 3D-RecGAN++ 与 SOTA 方法做了对比,并进行了控制变量研究。在合成和真实数据集上的大量实验结果表明,该模型性能良好。

基于多视图的 3D 物体重建

在第 4 章,作者提出以一种新的基于注意力机制的神经模块来从多视图中推理出更好的 3D 物体形状。这种简单但高效的注意力聚合模块被称为 AttSets,其结构如下图所示。与现有方法相比,这种方法可以学习从不同图像中聚合有用信息。

此外,研究者还引入了两阶段训练算法,以确保在给出一定数量输入图像的情况下,预估的 3D 形状具有鲁棒性。研究者在多个数据集上进行了实验,证明该方法能够精确地恢复物体的 3D 形状。

从点云中学习分割 3D 物体

在第五章中,研究者提出了一个新的框架来识别大规模 3D 场景中的所有单个 3D 物体。与现有的研究相比,该研究的框架能够直接并且同时进行检测、分割和识别所有的目标实例,而无需任何繁琐的前 / 后处理步骤。研究者在多个大型实际数据集上展现了该方法相对于基线的性能提升。

作者介绍

本文作者 Bo Yang 现为香港理工大学计算机系助理教授。他本科和硕士分别毕业于北京邮电大学和香港大学,然后进入牛津大学计算机科学系攻读博士学位,其导师为 Niki Trigoni 和 Andrew Markham 教授。

Bo Yang 作为一作以及合著的论文曾被《计算机视觉国际期刊》(IJCV)以及 NeurIPS 和 CVPR 等学术会议接收,谷歌学术主页上显示他共著有 22 篇论文,被引用数超过 400。

论文目录如下:

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38271

    浏览量

    297306
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136271
  • 3D物体识别
    +关注

    关注

    0

    文章

    3

    浏览量

    6405
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人形机器3D 视觉路线之争:激光雷达、双目和 3D - ToF 谁更胜一筹?

    电子发烧友网报道(文 / 吴子鹏)在人形机器人的设计方案中,3D 视觉技术是实现环境感知与智能化决策的核心支撑之一。它能够助力人形机器人完成环境感知与建模、动态目标检测与跟踪、物体操作
    的头像 发表于 04-15 00:14 3569次阅读

    DIPO框架实现应用于具身智能仿真的3D铰链物体生成新范式

    在具身智能从理解环境向与环境交互进化的当下,构建真实且可交互的仿真环境是重要路径。单一刚体生成已难满足需求,机器人需要面对的是柜门、抽屉、微波炉等大量具有物理约束的铰链物体。受限于复杂的运动学结构,高质量
    的头像 发表于 12-03 09:18 151次阅读
    DIPO框架实现应用于具身智能仿真的<b class='flag-5'>3D</b>铰链<b class='flag-5'>物体</b>生成新范式

    仅使用智能手机在NVIDIA Isaac Sim中重建场景

    使用 iPhone 拍摄照片,到利用 3DGUT 进行 3D 场景重建,再到将重建的场景导入 NVIDIA Isaac Sim 并添加机器
    的头像 发表于 11-10 14:03 465次阅读

    突破传统!AI3D相机与边缘计算打造智能运动系统

    ,一个新的维度变得至关重要:智能。要实现真正智能的运动系统,必须融合三项关键技术:人工智能(AI)、3D相机和边缘计算。三者结合,使机器不仅能精准移动,还能实时感知
    的头像 发表于 10-31 17:02 379次阅读
    <b class='flag-5'>突破</b>传统!<b class='flag-5'>AI</b>、<b class='flag-5'>3D</b>相机与边缘计算打造智能运动系统

    京东11.11直播技术全面升级,立影3D技术、JoyAI大模型重构沉浸式购物体

    随着京东 11.11 大促的火热进行,京东直播再度升级技术布局,以 “立影 3D 技术”“JoyAI大模型”等创新技术,打破传统直播边界,为用户带来更具沉浸感、趣味性的购物体验,引领直播电商技术创新
    的头像 发表于 10-27 14:58 241次阅读

    玩转 KiCad 3D模型的使用

    “  本文将带您学习如何将 3D 模型与封装关联、文件嵌入,讲解 3D 查看器中的光线追踪,以及如何使用 CLI 生成 PCBA 的 3D 模型。  ”   在日常的 PCB 设计中,
    的头像 发表于 09-16 19:21 1.1w次阅读
    玩转 KiCad <b class='flag-5'>3D</b>模型的使用

    iTOF技术,多样化的3D视觉应用

    。 ◆ 应用2—机舱内的 3D 传感 应用3—自主移动机器人 (AMR) 在室外(~150,000 勒克斯)和黑暗环境中进行障碍物检测。 高分辨率能力,可准确检测细长物体,例如椅
    发表于 09-05 07:24

    索尼与VAST达成3D业务合作

    近日,索尼空间现实显示屏与VAST旗下的3D大模型Tripo AI正式宣布达成业务合作:双方将围绕裸眼3D显示技术、AI驱动的3D内容生成与
    的头像 发表于 08-28 17:32 1053次阅读

    普渡科技推出3D感知AI扫地机器人PUDU MT1 Max

    在持续探索机器人技术与真实场景深度融合的进程中,普渡机器人以场景驱动创新,正式推出PUDU MT1 Max 3D感知AI扫地机器人。它在MT
    的头像 发表于 08-25 15:47 926次阅读

    基于NVIDIA AI3D机器人感知与地图构建系统设计

    机器人必须感知和理解3D 环境,才能安全高效地行动。这一点在非结构化或陌生空间中的自主导航、对象操作和远程操作等任务尤为重要。当前机器人感知技术的进展,越来越多地体现在通过统一的实
    的头像 发表于 07-04 14:31 843次阅读
    基于NVIDIA <b class='flag-5'>AI</b>的<b class='flag-5'>3D</b><b class='flag-5'>机器</b>人感知与地图构建系统设计

    NVIDIA助力影眸科技3D生成工具Rodin升级

    AI、计算机视觉技术在大众娱乐市场的推广应用,其 3D 生成工具 Rodin(Hyper3d.ai)去年 6 月发布后迅速突破了百万用户量级,背后技术
    的头像 发表于 04-27 15:09 1035次阅读

    将应用程序工具套件集成到Unity 3D OpenVINO™过程中遇到\"DLLNotFound异常\"错误怎么解决?

    。 在机器上设置所有环境路径,并且可以全局访问每个依赖关系/dll。 Unity 3D 编辑器无法找到任何依赖关系,并引发DLLNotFound Exception。 项目可以独立构建和运行。
    发表于 03-05 06:22

    腾讯混元3D AI创作引擎正式发布

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具将为用户带来前所未有的3D内容创作体验,标志着腾讯在AI技术领域的又一重大
    的头像 发表于 01-23 10:33 1000次阅读

    腾讯混元3D AI创作引擎正式上线

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具,标志着腾讯在3D内容生成领域迈出了重要一步。 混元3D AI
    的头像 发表于 01-22 10:26 993次阅读

    3D打印技术在材料、工艺方面的突破

    2024年3D打印技术领域在新材料、新工艺和新应用方面继续取得突破,并呈现出多样的发展态势。工艺方面,行业更加关注极限制造能力,从2023年的无支撑3D打印到2024年的点熔化、锻打印、光束整形、多
    的头像 发表于 01-13 18:11 1631次阅读
    <b class='flag-5'>3D</b>打印技术在材料、工艺方面的<b class='flag-5'>突破</b>