侵权投诉

牛津博士论文学习重建和分割3D物体,突破AI和机器理解的界限

2020-11-26 18:11 次阅读

让机器拥有像人类一样感知3D物体和环境的能力,是人工智能领域的一项重要课题。牛津大学计算机科学系博士生BoYang在其毕业论文中详细解读了如何重建和分割3D物体,进而赋予机器感知3D环境的能力,突破了人工智能和机器理解的界限。

赋予机器像人类一样感知三维真实世界的能力,这是人工智能领域的一个根本且长期存在的主题。考虑到视觉输入具有不同类型,如二维或三维传感器获取的图像或点云,该领域研究中一个重要的目标是理解三维环境的几何结构和语义。

传统方法通常利用手工构建的特征来估计物体或场景的形状和语义。但是,这些方法难以泛化至新物体和新场景,也很难克服视觉遮挡的关键问题。

今年九月毕业于牛津大学计算机科学系的博士生BoYang在其毕业论文《LearningtoReconstructandSegment3DObjects》中对这一主题展开了研究。与传统方法不同,作者通过在大规模真实世界的三维数据上训练的深度神经网络来学习通用和鲁棒表示,进而理解场景以及场景中的物体。

总体而言,本文开发了一系列新型数据驱动算法,以实现机器感知到真实世界三维环境的目的。作者表示:「本文可以说是突破了人工智能和机器理解的界限。」

这篇博士论文有143页,共六章。机器之心对该论文的核心内容进行了简要介绍,感兴趣的读者可以阅读论文原文。

论文地址:https://arxiv.org/pdf/2010.09582.pdf

论文概述

作者在第2章首先回顾了以往3D物体重建和分割方面的研究工作,包括单视图和多视图3D物体重建、3D点云分割、对抗生成网络(GAN)、注意力机制以及集合上的深度学习。此外,本章最后还介绍了在单视图/多视图3D重建和3D点云分割方面,该研究相较于SOTA方法的新颖之处。

基于单视图的3D物体重建

在第3章,作者提出以一种基于GAN的深度神经架构来从单一的深度视图学习物体的密集3D形状。作者将这种简单但有效的模型称为3D-RecGAN++,它将残差连接(skip-connected)的3D编码器-解码器和对抗学习结合,以生成单一2.5D视图条件下的完整细粒度3D结构。该模型网络架构的训练和测试流程如下图所示:

接着,作者利用条件对抗训练来细化编码器-解码器估计的3D形状,其中用于3D形状细化的判别器结构示意图如下:

最后,作者将提出的3D-RecGAN++与SOTA方法做了对比,并进行了控制变量研究。在合成和真实数据集上的大量实验结果表明,该模型性能良好。

基于多视图的3D物体重建

在第4章,作者提出以一种新的基于注意力机制的神经模块来从多视图中推理出更好的3D物体形状。这种简单但高效的注意力聚合模块被称为AttSets,其结构如下图所示。与现有方法相比,这种方法可以学习从不同图像中聚合有用信息。

此外,研究者还引入了两阶段训练算法,以确保在给出一定数量输入图像的情况下,预估的3D形状具有鲁棒性。研究者在多个数据集上进行了实验,证明该方法能够精确地恢复物体的3D形状。

从点云中学习分割3D物体

在第五章中,研究者提出了一个新的框架来识别大规模3D场景中的所有单个3D物体。与现有的研究相比,该研究的框架能够直接并且同时进行检测、分割和识别所有的目标实例,而无需任何繁琐的前/后处理步骤。研究者在多个大型实际数据集上展现了该方法相对于基线的性能提升。

作者介绍

本文作者BoYang现为香港理工大学计算机系助理教授。他本科和硕士分别毕业于北京邮电大学和香港大学,然后进入牛津大学计算机科学系攻读博士学位,其导师为NikiTrigoni和AndrewMarkham教授。

BoYang作为一作以及合著的论文曾被《计算机视觉国际期刊》(IJCV)以及NeurIPS和CVPR等学术会议接收,谷歌学术主页上显示他共著有22篇论文,被引用数超过400。

论文目录如下:

责任编辑:PSY

收藏 人收藏
分享:

评论

相关推荐

谷歌大脑高级研究科学家:机器学习六年读博经历中的经验与教训

机器学习读博是什么体验?期间遇到的挫折与挑战又要如何应对? 在ML领域小有名气的青年科学家Maith....
的头像 深度学习自然语言处理 发表于 01-18 17:31 124次 阅读
谷歌大脑高级研究科学家:机器学习六年读博经历中的经验与教训

浙大生完成脑机接口15000小时人体植入和实验

钢铁与肉体,虚拟与现实,鲜活的思想和冰冷的机器,诸如此类的人机共生画面与赛博朋克情节,早已在科幻 “....
的头像 DeepTech深科技 发表于 01-18 17:21 177次 阅读
浙大生完成脑机接口15000小时人体植入和实验

深度学习Pytorch翻车记录:单卡改多卡踩坑记

先说明一下背景,目前正在魔改以下这篇论文的代码: https://github.com/Qipeng....
的头像 深度学习自然语言处理 发表于 01-18 17:06 72次 阅读
深度学习Pytorch翻车记录:单卡改多卡踩坑记

工业界AI项目研发中的各个环节的重要细节点

导读 本文从作者的经历和经验教训展开,阐述了在AI项目研发中的各个环节的重要细节点,展现了一个AI项....
的头像 深度学习自然语言处理 发表于 01-18 16:51 152次 阅读
工业界AI项目研发中的各个环节的重要细节点

闲谈全球七大国家的AI相关战略

随着二十一世纪到来,各个国家的成功与失败已经不再单纯取决于其公民与政府领导;对于技术的远景规划,开始....
的头像 如意 发表于 01-18 16:28 119次 阅读
闲谈全球七大国家的AI相关战略

区块链价格狂躁 2021迎接以区块链技术为名的春天

刚刚过去的2020年,很多科技名词都真正走到了老百姓的日常生活之中。我们习惯了刷脸支付,通过时空大数....
的头像 脑极体 发表于 01-18 16:21 235次 阅读
区块链价格狂躁 2021迎接以区块链技术为名的春天

研究验证:AI无法保证任何情况下不能伤害人类

“人工智能(AI)叛乱”听起来像是科幻电影的情节,但这个概念是一项新研究课题。一个国际科研团队设计了....
的头像 如意 发表于 01-18 16:20 201次 阅读
研究验证:AI无法保证任何情况下不能伤害人类

谷歌训练开发一个万亿参数的AI语言模型

参数是机器学习算法的关键。它们是从历史训练数据中学到的模型的一部分。一般来说,在语言领域,参数的数量....
的头像 lhl545545 发表于 01-18 16:19 180次 阅读
谷歌训练开发一个万亿参数的AI语言模型

2021年AI领域的你最应该学的是什么

进入到2021年,AI领域的你最应该学的是什么?我觉得是强化学习。 为什么这么说?首先要知道什么是强....
的头像 深度学习自然语言处理 发表于 01-18 16:16 77次 阅读
2021年AI领域的你最应该学的是什么

深度学习:基于语境的文本分类弱监督学习

高成本的人工标签使得弱监督学习备受关注。seed-driven 是弱监督学习中的一种常见模型。该模型....
的头像 深度学习自然语言处理 发表于 01-18 16:04 160次 阅读
深度学习:基于语境的文本分类弱监督学习

预计到2023年年底,中国50%的制造业供应链环节将采用人工智能

  中国制造2025全面推进,作为主攻方向的“智能制造”在各地政府的大力推动下向纵深推进,与人工智能....
的头像 Megvii旷视科技 发表于 01-18 16:01 276次 阅读
预计到2023年年底,中国50%的制造业供应链环节将采用人工智能

旷视万象助力上海市宝山实现对垃圾站点智能管理

  在全国大力推进城镇化的大背景下,争创文明城市,打造宜居宜业环境成为各地深化发展的长期课题。城市促....
的头像 Megvii旷视科技 发表于 01-18 15:58 247次 阅读
旷视万象助力上海市宝山实现对垃圾站点智能管理

触景无限入选中关村高企协榜单:人工智能行业“潜力10强企业”

近日,中关村高新技术企业协会举办“高成长企业TOP100活动”,发布重要榜单,触景无限科技(北京)有....
的头像 触景无限 发表于 01-18 15:34 303次 阅读
触景无限入选中关村高企协榜单:人工智能行业“潜力10强企业”

安霸半导体推支持4K/8K视频的AI视觉芯片

Ambarella(安霸半导体)虽然在知名度上不如英特尔、AMD 或者高通,但已经有不少设备使用了该....
的头像 如意 发表于 01-18 15:17 156次 阅读
安霸半导体推支持4K/8K视频的AI视觉芯片

奥比中光代表选手获A-tech科技精英赛头名

  20位青年程序员,能够碰撞出怎样的火花? 近日,首届“Inclusion|A-tech科技精英赛....
的头像 奥比中光 发表于 01-18 14:57 164次 阅读
奥比中光代表选手获A-tech科技精英赛头名

人工智能3D传感技术“独角兽”企业创始人:黄源浩

“80后”青年黄源浩,2020年入选“深圳经济特区40年40人”        作为一家人工智能3D....
的头像 奥比中光 发表于 01-18 14:54 434次 阅读
人工智能3D传感技术“独角兽”企业创始人:黄源浩

2021年视频监控和相关安全市场将呈现五大趋势

分析和AI将视频监控安全系统变成业务解决方案:视频监控系统不再只是为了安全,它们还是用于商业智能(B....
的头像 视频监控安防D1net 发表于 01-18 14:35 127次 阅读
2021年视频监控和相关安全市场将呈现五大趋势

2021年的人工智能和机器学习趋势

人工智能和机器学习是市场上的热门技术,其重要性在2020年达到顶峰,这两种技术已经广泛应用在各行业领....
的头像 电子魔法师 发表于 01-18 11:24 573次 阅读
2021年的人工智能和机器学习趋势

华为好望D2120-10-SIU 1T 200万红外AI筒型摄像机的性能评测

华为好望D2120-10-SIU 1T 200万红外AI筒型摄像机采用白色烤漆铝合金外壳,厚实耐用,....
发表于 01-18 11:04 82次 阅读
华为好望D2120-10-SIU 1T 200万红外AI筒型摄像机的性能评测

华为AI超微光卡口摄像机X2391-20-T的性能评测及应用优势

需求来驱动技术发展,是一个商业逻辑。卡口场景,鉴于24小时监控需要,当夜色降临,随着环境照度降低,图....
发表于 01-18 10:58 142次 阅读
华为AI超微光卡口摄像机X2391-20-T的性能评测及应用优势

医疗AI的一切,是建立在好的数据基础上

  站在新的一年回望过去,不管是在基础设施、AI医疗场景成熟度、资本注入等环节,以医学影像AI产品为....
的头像 IoT科技评论 发表于 01-18 10:38 252次 阅读
医疗AI的一切,是建立在好的数据基础上

中国医学影像AI,齐赴科创板

医疗AI,齐赴科创板。   雷锋网《医健AI掘金志》消息,据资本邦报道,推想医疗科技股份有限公司(以....
的头像 IoT科技评论 发表于 01-18 10:36 321次 阅读
中国医学影像AI,齐赴科创板

小米智能摄像机AI探索版全渠道开售

今天,小米智能摄像机AI探索版发布,将于1月20日早10点小米商城众筹开启,原价499元,众筹价只要....
的头像 lhl545545 发表于 01-18 10:33 196次 阅读
小米智能摄像机AI探索版全渠道开售

FDA终于发布首个医疗AI行动计划

监管的新靴子落地。   雷锋网《医健AI掘金志》消息,1月12日,FDA正式发布了该机构的第一个人工....
的头像 IoT科技评论 发表于 01-18 10:28 260次 阅读
FDA终于发布首个医疗AI行动计划

“三箭”齐发!微视图灵AI行为分析扬帆起航, 奋力续写新篇章!

中国近两年一直处于全球持续创新中步伐较快的行列,2020年的疫情似乎进一步推动了所有信息化的步伐,包....
发表于 01-18 10:26 674次 阅读
“三箭”齐发!微视图灵AI行为分析扬帆起航, 奋力续写新篇章!

审视医学影像AI,哪些算法最具生命力?

  9大Fellow得主,用11个案例,带你看清今年的医学影像AI算法和研究热点。   近日,第四届....
的头像 IoT科技评论 发表于 01-18 10:15 129次 阅读
审视医学影像AI,哪些算法最具生命力?

人工智能机器学习为临床医生提供精神病患者的预测

精神错乱有许多可能的病因,包含精神疾患、某些身体疾病、某些药物、物质滥用、缺乏睡眠等情况。精神错乱是....
发表于 01-18 09:52 124次 阅读
人工智能机器学习为临床医生提供精神病患者的预测

机器人企业从0到1的发展需要哪些资源?

资本的风向一定程度上反映当前行业的风向,资本的持续注入,一方面加速了该领域的发展速度;另一方面,也加....
的头像 高工机器人 发表于 01-18 09:34 292次 阅读
机器人企业从0到1的发展需要哪些资源?

人工智能公司Rokid发布新双目混合现实眼镜

1月15日消息,据国外媒体报道,今日,人工智能公司Rokid发布了最新的双目混合现实(MR)眼镜Ro....
的头像 电子魔法师 发表于 01-17 09:27 607次 阅读
人工智能公司Rokid发布新双目混合现实眼镜

OPPO Reno5系列登上央视,开售十分钟销量破亿

近日,在央视二套财经频道中,对我国全年智能手机市场进行了回顾:2020年,我国智能手机出货量2.96....
的头像 我快闭嘴 发表于 01-16 10:12 579次 阅读
OPPO Reno5系列登上央视,开售十分钟销量破亿

赛昉科技发布全球首款基于RISC-V的AI单板计算机

2021开年,RISC-V的生态建设又就有了新动态。本周,赛昉科技发布了全球首款基于RISC-V的A....
的头像 lhl545545 发表于 01-16 10:08 474次 阅读
赛昉科技发布全球首款基于RISC-V的AI单板计算机

第二届AETA地震预测AI算法大赛启动啦!

三九严冬 天寒地冻 即便在号称四季如夏的深圳 这几天也冻得瑟瑟发抖! 天这么冷除了抖腿还能做啥子嘛?....
的头像 Duke 发表于 01-15 19:30 627次 阅读
第二届AETA地震预测AI算法大赛启动啦!

聪明又能干的机器人化学家 每天工作21.5小时,自主发现新型材料

  有一个聪明又肯干的员工是一种怎样的体验? 灵活穿梭在化学实验室的科学家,可能不是人类,而是AI机....
的头像 机器人大讲堂 发表于 01-15 17:37 498次 阅读
聪明又能干的机器人化学家 每天工作21.5小时,自主发现新型材料

百度灵医智惠推出全系AI医疗解决方案

对于AI+医疗类公司,艾瑞认为,综合技术能力主要体现在覆盖医疗场景的广度与对医疗垂直及细分领域研究的....
的头像 牵手一起梦 发表于 01-15 17:34 497次 阅读
百度灵医智惠推出全系AI医疗解决方案

物联网和AI新格局的塑造,从半导体上游开始

物联网的碎片化和无处不在的AI几乎是缔造创新的两个最大的机会。在芯片领域,它袭卷了半导体上下游,当然....
的头像 电子发烧友网 发表于 01-15 17:09 868次 阅读
物联网和AI新格局的塑造,从半导体上游开始

腾讯启动碳中和规划,用AI与大数据助力实现0碳排放

冰川消融、海平面上升、极端天气事件……气候变暖带来的一系列问题,正影响我们每一个人的生活。 减少碳排....
的头像 电网智囊团 发表于 01-15 16:58 737次 阅读
腾讯启动碳中和规划,用AI与大数据助力实现0碳排放

快讯:智能机器人在沈阳核酸检测中开展试验性应用

近日,在沈阳市面向市民的第三轮核酸检测过程中,“灵采”咽拭子采样机器人(以下简称“灵采”机器人)进行....
的头像 机器人大讲堂 发表于 01-15 16:38 460次 阅读
快讯:智能机器人在沈阳核酸检测中开展试验性应用

MedicTec大麦客首款纯人工智能手表守望者1问世 1月18日正式线上发售

港股上市公司汇彩控股旗下品牌MedicTec大麦客首款纯人工智能手表守望者1惊艳问世,1月18日正式....
的头像 Les 发表于 01-15 15:32 355次 阅读
MedicTec大麦客首款纯人工智能手表守望者1问世 1月18日正式线上发售

将TDK的传感器领先地位扩展到新的应用和解决方案中

TCE-11101是基于TDK各种技术的突破性平台,融合TDK独一无二的新材料开发、MEMS工艺技术....
的头像 MEMS 发表于 01-15 14:47 359次 阅读
将TDK的传感器领先地位扩展到新的应用和解决方案中

Cradlewise开发内置显示器的AI智能婴儿床

据engadget报道,对于新父母来说,世界上没有什么比睡觉更有价值了。为了帮助解决这个问题,Cra....
的头像 如意 发表于 01-15 14:44 182次 阅读
Cradlewise开发内置显示器的AI智能婴儿床

开放智能:聚焦边缘端部署痛点,推出边缘AI推理框架Tengine

Tengine要做AIoT时代的Android随着越来越多的物联网终端设备在各个行业加速部署,边缘计....
的头像 我快闭嘴 发表于 01-15 14:05 361次 阅读
开放智能:聚焦边缘端部署痛点,推出边缘AI推理框架Tengine

AI芯片企业燧原科技成融资 “专业户”,究竟有何魅力?

2021 年第二个工作日,总部位于上海的一家中国人工智能芯片企业发布了 C 轮 18 亿元融资喜讯。....
的头像 我快闭嘴 发表于 01-15 14:01 384次 阅读
AI芯片企业燧原科技成融资 “专业户”,究竟有何魅力?

百度正式发布2021年十大科技趋势预测

1月15日,百度研究院正式发布2021年十大科技趋势预测,智能技术将不断渗透到千行万业以及我们的生活....
的头像 lhl545545 发表于 01-15 11:35 279次 阅读
百度正式发布2021年十大科技趋势预测

蜂拥而上必有泡沫 AI独角兽抱团IPO之路不好走

本文基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。 2020年尾声,一众AI独角兽集体冲....
的头像 Les 发表于 01-15 11:33 369次 阅读
蜂拥而上必有泡沫 AI独角兽抱团IPO之路不好走

这个AI找狗工具识别准确率高达95%

美国政府的一项调查显示,7%的走失狗再也找不回来了。现在美国一家名为Shadow的初创公司正试图利用....
的头像 如意 发表于 01-15 11:21 464次 阅读
这个AI找狗工具识别准确率高达95%

AI驱动的自动化平台的四大关键要素

COVID-19 带来的挑战倒逼全球几乎每一个行业都在加速其数字化转型,企业越来越需要直面混合云环境....
的头像 电子魔法师 发表于 01-15 10:58 205次 阅读
AI驱动的自动化平台的四大关键要素

AI+医疗迈进医疗产业“深水区”

智能经济时代,生命健康领域、医疗行业频频吸引互联网科技企业的焦点,“互联网+”、“AI+”等新模式、....
的头像 Les 发表于 01-15 10:49 515次 阅读
AI+医疗迈进医疗产业“深水区”

新三板AI企业超音速:宁德时代上游供应商

在股市近期的新能源热潮中,宁德时代(SZ:300750)是当之无愧的锂电龙头,可以算是锂电茅台。 宁....
的头像 Les 发表于 01-15 10:37 440次 阅读
新三板AI企业超音速:宁德时代上游供应商

AI时代的追星逐浪,中国科技的奋发自强

最近,互联网公司的技术责任与时代使命一下成为社会热议的话题。而在争议的另一面,则是很多互联网公司并没....
的头像 电子魔法师 发表于 01-15 09:48 721次 阅读
AI时代的追星逐浪,中国科技的奋发自强

机器学习的创新/开发和应用能力

机器学习的未来   在工业领域采用机器学习   机器学习和大数据 工业人工智能生态系统 ...
发表于 12-16 07:47 0次 阅读
机器学习的创新/开发和应用能力

防御机器学习算法对抗欺骗攻击的研究

DARPA与英特尔、乔治亚理工学院合作,开创机器学习“免疫系统”...
发表于 11-26 07:04 0次 阅读
防御机器学习算法对抗欺骗攻击的研究

机器学习处理器单元支持浮点的乘加运算

  随着机器学习(Machine Learning)领域越来越多地使用现场可编程门阵列(FPGA)来进行推理(inference)加速,而传统F...
发表于 11-26 06:42 101次 阅读
机器学习处理器单元支持浮点的乘加运算

Microchip的机器学习开发工具有哪些

Microchip的机器学习开发工具
发表于 11-25 07:58 101次 阅读
Microchip的机器学习开发工具有哪些

机器学习在医疗保健中有哪些应用?

全球医疗保健行业正在蓬勃发展。根据最近的研究,尽管经济前景疲软和全球贸易紧张局势,今年有望突破2万亿美元大关。一般来说,。...
发表于 11-24 07:15 0次 阅读
机器学习在医疗保健中有哪些应用?

基于signoff驱动的PrimeECO解决方案

业内首个signoff驱动的PrimeECO解决方案发布
发表于 11-23 14:28 0次 阅读
基于signoff驱动的PrimeECO解决方案

机器学习可以有效的控制物联网应用的安全性

        随着这个智能物联的时代不断前行,不仅仅带来无限的便捷,同时也带来了网络安全的隐患。...
发表于 11-03 09:09 101次 阅读
机器学习可以有效的控制物联网应用的安全性

【AI学习】第2篇--AI 的基础知识

簡介人工智慧(AI) 人工智慧的定義 • 人工智慧(Artificial intelligence,簡稱AI),是指讓電腦能夠表現出與人類相類似的...
发表于 11-02 11:56 452次 阅读
【AI学习】第2篇--AI 的基础知识

【AI学习】AI概论:(Part-C)AI(机器)是如何学习呢?

任务十四:从连连看出发 目标: 1. 前面说明了,许多人认为,在AI领域里的天字第1号术语是:特征(Feature)。 2. 在本任务里...
发表于 10-30 15:24 474次 阅读
【AI学习】AI概论:(Part-C)AI(机器)是如何学习呢?

机器学习如何解决芯片设计中的NP-hard的问题?

EDA 中的大部分设计问题都属于 NP-hard 问题,由于不存在解决这些问题的多项式时间算法,因此无法通过分析确定最优解决方案...
发表于 09-03 01:15 1011次 阅读
机器学习如何解决芯片设计中的NP-hard的问题?