0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Facebook的研究人员提出了Mesh R-CNN模型

nlfO_thejiangme 来源:lq 2019-08-02 15:51 次阅读

随着计算机视觉的发展,2D目标检测在精度和速度方面已经得到了巨大的提升,并在各个领域取得了令人瞩目的成绩。但2D检测却忽视了物体的三维信息。目前的3D形状预测研究主要基于合成数据集和当个目标的预测。

为了解决这一问题,来自Facebook的研究人员提出了Mesh R-CNN模型,可以从单张输入图像中检测不同物体,并预测出每个物体对应的三角网格,将二维目标检测的能力成功地拓展到了三维目标检测和形状预测。

三维目标检测与形状预测

近年来深度学习在三维形状理解领域有了很大的提升,研究人员们利用神经网络对体素、点云、网格等三维表示进行学习,推进了三维世界表示和理解的发展。但这些技术主要基于合成数据集进行开发和研究,缺乏复杂的形状和条件,相比二维图像的大型数据集还远远不够。研究人员认为三维研究领域需要开发新的识别与理解系统,可以在非限制环境、复杂形状、多物体以及光照条件变化的情境下稳定运行。

为了实现这一目标,研究人员开发了2D感知和3D形状预测的方法,可以在单张RGB输入的情况下实现目标检测、实例分割以及目标3D三角网格预测的功能。这一方法基于Mask R-CNN改进而来,增加了网格预测分支来输出高分辨的目标三角网格。这种方法预测出的网格不仅能够捕捉不同的3D结构中,同时可以适用于不同的几何复杂度。Mesh R-CNN克服了先前固定网格模板的形态预测方法,利用多种三维表示方法完成预测。

Mesh R-CNN首先预测出目标粗糙的体素、随后转换为网格并利用精确的网格预测分支进行优化,最后实现了对于任意几何结构的精细预测。

Mesh R-CNN

这一研究的目标是通过单张图像输入,对图像中的物体进行检测、获取不同物体的类别、掩膜和对应的三维网格,并对真实世界中的复杂模型进行有效处理。在2D深度网络的基础上,研究人员改进并提出了新的架构。

这一模型主要分为三个部分,包括了预测box和mask的检测分支、预测体素的分支和mesh优化分支。受到RoIAlign的启发,研究人员在网格预测中加入了VertAlign将输入图像与特征进行对应。

体素预测分支与box/mask预测分支的输入相同,都使用了与图像对齐的特征。模型最后将目标检测、语义分割损失与网格预测损失结合起一同对网络进行端到端的训练和优化。Mesh R-CNN的核心是网格预测器,它将对齐的图像特征进行输入,并输出目标的三维网格。与二维图像的处理相似,研究人员同时也维护了特征在不同阶段的对齐,包括区域和体素对应的对齐操作(RoIAlign和VertAlign),并捕捉图像中所有实例的3D形状。

这意味着每一个预测出的网格都具有自己的拓扑结构(包括网格种类、一定数量的顶点、边和面)以及几何形状。这一模型可以预测不同形状和拓扑结构的网格。

模型的体素分支将针对每一个检测到的物体预测栅格在空间中的占据概率,并得到三维模型最终的形状结果。可以将其视为3D版的Mask R-CNN,利用GxGxG的栅格在三维空间中预测出目标的外形。

同样和Mask R-CNN类似的是,对于体素的预测同样适用了来自RoIAlign的特征,并得到G个通道特征,其中的体素表示了输入位置的占据分数,在实验中研究人员使用了24x24x24大小的体素表示。

随后立方体化方法(Cubify)将3D体素的占据概率转换为三角网格模型。它将输入的占据概率二进制输出,每一个体素占据点被一个立方体的三角网格代替,包含了8个顶点、18条边和12个面。相邻立方体共享边,紧邻的面被消除,最终得到与体素形态学相同的网格表示。

最后需要将得到的网格进一步优化以获取更为精确的结果。与很多体素/网格的优化方法相同,首先需要将顶点与图像特征对齐,随后利用图网络卷积的方法在每一条mesh边上对信息进行传播,最后将得到的结果用于更新每一个顶点的位置。

上面三个步骤在优化过程中不断进行。最后为了给mesh优化分支建立损失,研究人员在网格表面进行稠密的采样得到点云来计算网格优化分支的损失。

结果

最终研究人员在ShapeNet 数据集和Pix3D数据集上验证了这种方法的有效性。可以看到新提出的方法可以有效地预测带有孔洞的物体。

同时对于复杂环境中的三维物体也有良好的预测效果:

文章附录里给出了包括立方体化、网格采样、消融性分析以及与各种方法的比较,如果想要了解更多的实现细节,请参看:

https://arxiv.org/pdf/1906.02739.pdf

ref:

paper:https://arxiv.org/pdf/1906.02739.pdf

logopicture:https://dribbble.com/shots/1143435-Pikachu-Polymon

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40037
  • Facebook
    +关注

    关注

    3

    文章

    1427

    浏览量

    54028
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24347

原文标题:Facebook研究员提出Mesh R-CNN,向三维进击的目标检测!

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    美国普渡大学和哈佛大学的研究人员出了一项新发明 新...

    据物理学家组织网报道,美国普渡大学和哈佛大学的研究人员出了一项极为应景的新发明:一种外形如同一颗圣诞树一样的新型晶体管,其重要组件“门”(栅极)的长度缩减到了突破性的20纳米。这个被称为“4维
    发表于 02-03 20:30

    结合预测框和目标框之间的归一化距离来提出距离-IoU (DIoU) Loss

    2017; 2018) 和SSD (Liu et al. 2016; Fu et al. 2017),  两阶段检测,如 R-CNN系列检测 (Girshick et al. 2014
    发表于 11-14 15:46

    如何将PyTorch模型与OpenVINO trade结合使用?

    无法确定如何转换 PyTorch 掩码 R-CNN 模型以配合OpenVINO™使用。
    发表于 08-15 07:04

    研究人员提出了一种柔性可拉伸扩展的多功能集成传感器阵列

    研究人员提出了一种柔性可拉伸扩展的多功能集成传感器阵列,成功将电子皮肤的探测能力扩展到7种,实现温度、湿度、紫外光、磁、应变、压力和接近等多种外界刺激的实时同步监测。
    的头像 发表于 01-24 15:15 6914次阅读
    <b class='flag-5'>研究人员</b><b class='flag-5'>提出了</b>一种柔性可拉伸扩展的多功能集成传感器阵列

    介绍目标检测工具Faster R-CNN,包括它的构造及实现原理

    在本篇文章中,公司的研究人员介绍了他们在研究过程中所使用的先进目标检测工具Faster R-CNN,包括它的构造及实现原理。
    的头像 发表于 01-27 11:49 1.8w次阅读
    介绍目标检测工具Faster <b class='flag-5'>R-CNN</b>,包括它的构造及实现原理

    Mask R-CNN:自动从视频中制作目标物体的GIF动图

    用深度学习模型——Mask R-CNN,自动从视频中制作目标物体的GIF动图。
    的头像 发表于 02-03 14:19 1.1w次阅读

    什么是Mask R-CNN?Mask R-CNN的工作原理

    它的概念很简单:对于每个目标对象,Faster R-CNN都有两个输出,一是分类标签,二是候选窗口;为了分割目标像素,我们可以在前两个输出的基础上增加第三个输出——指示对象在窗口中像素位置的二进制
    的头像 发表于 07-20 08:53 6.7w次阅读

    手把手教你操作Faster R-CNN和Mask R-CNN

    Pooling的基础之上提出了ROI Align。所以要想理解Mask R-CNN,就要先熟悉Faster R-CNN。同样的,Faster R-CNN是承继于Fast
    的头像 发表于 04-04 16:32 1.3w次阅读

    研究人员提出了一系列新的点云处理模块

    为了探索这些问题的解决办法、来自伦敦大学学院的研究人员提出了一系列新的点云处理模块,从效率、信息共享和点云卷积操作等方面进行了研究,得到了更宽、更深、更快效率更高的点云处理网络,让更深的点云深度学习
    的头像 发表于 08-02 14:44 2756次阅读
    <b class='flag-5'>研究人员</b>们<b class='flag-5'>提出了</b>一系列新的点云处理模块

    JD和OPPO的研究人员提出了一种姿势引导的时尚图像生成模型

    研究人员的主要目的在于训练一个生成模型,将模特在当前姿势上的图像迁移到其他的目标姿势上去,实现对于衣着等商品的全面展示。
    的头像 发表于 08-02 14:50 2360次阅读

    Facebook研究人员发布友谊数据

    Facebook在一篇博文中表示,卡耐基梅隆大学的研究人员“不会与Facebook分享个人调查反馈,Facebook也不会与研究人员分享关于
    的头像 发表于 04-22 10:58 3160次阅读

    华裔女博士提出Facebook提出用于超参数调整的自我监督学习框架

    【导读】Facebook研究人员近日提出了一种用于超参数调整的自我监督学习框架。
    的头像 发表于 04-26 09:45 1538次阅读
    华裔女博士<b class='flag-5'>提出</b>:<b class='flag-5'>Facebook</b><b class='flag-5'>提出</b>用于超参数调整的自我监督学习框架

    用于实例分割的Mask R-CNN框架

    我们的方法称为 Mask R-CNN,扩展了 Faster RCNN ,方法是在每个感兴趣区域 (RoI) 上添加一个用于预测分割掩码的分支,与用于分类和边界框回归的现有分支并行(图 1)。掩码分支
    的头像 发表于 04-13 10:40 2195次阅读

    PyTorch教程14.8之基于区域的CNN(R-CNN)

    电子发烧友网站提供《PyTorch教程14.8之基于区域的CNN(R-CNN).pdf》资料免费下载
    发表于 06-05 11:09 0次下载
    PyTorch教程14.8之基于区域的<b class='flag-5'>CNN</b>(<b class='flag-5'>R-CNN</b>)

    PyTorch教程-14.8。基于区域的 CNN (R-CNN)

    )、faster R-CNN ( Ren et al. , 2015 )和掩模 R-CNN ( He等,2017)。由于篇幅有限,我们将只关注这些模型的设计。 14.8.1。R
    的头像 发表于 06-05 15:44 380次阅读
    PyTorch教程-14.8。基于区域的 <b class='flag-5'>CNN</b> (<b class='flag-5'>R-CNN</b>)