0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

直接通过预测 3D 关键点来估计透明物体深度的 ML 系统

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2020-09-23 18:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

计算机视觉应用领域的核心问题是3D 物体的位置与方向的估计,这与对象感知有关(如增强现实和机器人操作)。在这类应用中,需要知道物体在真实世界中的 3D 位置,以便直接对物体进行操作或在其四周正确放置模拟物。

围绕这一主题已有大量研究,但此类研究虽然采用了机器学习 (ML) 技术,特别是 Deep Nets,但直接测量与物体的距离大多依赖于 Kinect 等深度感应设备。而对于表面有光泽或透明的物体,直接采用深度感应难以发挥作用。例如,下图包括许多物体(左图),其中两个是透明的星星。深度感应设备无法很好的为星星测量深度值,因此难以重建 3D 点云效果图(右图)。

Deep Nets
https://arxiv.org/abs/1901.04780

左图:透明物体的 RGB 图像;右图:左侧场景的深度重建效果四格图,上排为深度图像,下排为 3D 点云,左侧图格采用深度相机重建,右侧图格是 ClearGrasp 模型的输出。需要注意的是,虽然 ClearGrasp 修复了星星的深度,但它却错误地识别了最右边星星的实际深度

要解决这个问题,可以使用深度神经网络来修复 (Inpainting) 透明物体的错误深度图,例如使用 ClearGrasp 提出的方法:给定透明物体的单个 RGB-D 图像,ClearGrasp 使用深度卷积网络推断透明表面法线、遮挡和遮挡边界,然后通过这些信息完善场景中所有透明表面的初始深度估计(上图最右)。这种方法很有前景,可以通过依赖深度的位置姿态估计方法处理具有透明物体的场景。但是修复可能会比较棘手,仍然可能导致深度错误,尤其是完全使用合成图像进行训练的情况。

我们与斯坦福大学 AI 实验室在 CVPR 2020 上合作发表了“KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects”,论文描述了直接通过预测 3D 关键点来估计透明物体深度的 ML 系统。为了训练该系统,我们以半自动化方式收集了真实世界中透明物体图像的大型数据集,并使用人工选择的 3D 关键点标记有效姿态。然后开始训练深度模型(称为 KeyPose),从单目或立体图像中估计端到端 3D 关键点,而不明确计算深度。

论文
https://openaccess.thecvf.com/content_CVPR_2020/html/Liu_KeyPose_Multi-View_3D_Labeling_and_Keypoint_Estimation_for_Transparent_Objects_CVPR_2020_paper.html

在训练期间,模型在见过和未见过的物体上运行,无论是单个物体还是几类物体。虽然 KeyPose 可以处理单目图像,但立体图像提供的额外信息使其结果提高了两倍,根据物体不同,典型误差在 5 毫米至 10 毫米之间。它对这些物体的姿态预测远高于当前最先进水平,即使其他方法带有地面真实深度。我们将发布关键点标记的透明物体数据集,供研究界使用。

关键点标记的透明物体数据集
https://sites.google.com/corp/view/transparent-objects

透明物体数据集

为了方便收集大量真实世界图像,我们建立了一个机器人数据收集系统。系统的机械臂通过轨迹移动,同时使用立体摄像头和 Kinect Azure 深度摄像头拍摄视频。

使用带有立体摄像头和 Azure Kinect 设备的机械臂自动捕捉图像序列

目标上的 AprilTags 可以让摄像头准确跟踪姿态。通过人工标记每个视频中少量图像 2D 关键点,我们可以使用多视角几何图形为视频的所有帧提取 3D 关键点,将标记效率提高 100 倍。

我们捕捉了五种类别的 15 个不同透明物体的图像,对每个物体使用 10 种不同的背景纹理和 4 种不同的姿势,总计生成 600 个视频序列,包括 4.8 万个立体和深度图像。我们还用不透明版本的物体捕捉了相同的图像,以提供准确的深度图像。所有图像都标有 3D 关键点。我们将公开发布这一真实世界图像数据集,为 ClearGrasp 合成数据集提供补充。

真实世界图像数据集
https://sites.google.com/corp/view/transparent-objects

使用前期融合立体的 KeyPose 算法

针对关键点估计,本项目独立开发出直接使用立体图像的概念;这一概念最近也出现在手动跟踪的环境下。下图为基本思路:来自立体摄像头的两张图像的物体被裁剪并馈送到 KeyPose 网络,该网络预测一组稀疏的 3D 关键点,代表物体的 3D 姿态。KeyPose 网络使用 3D 关键点标记完成监督训练。

手动跟踪
https://bmvc2019.org/wp-content/uploads/papers/0219-paper.pdf

立体 KeyPose 的一个关键是使用允许网络隐式计算视差的前期融合来混合立体图像,与后期融合不同。后期融合是分别预测每个图像的关键点,然后再进行组合。如下图所示,KeyPose 的输出图像在平面上是 2D 关键点热力图,以及每个关键点的视差(即逆深度)热力图。这两张热力图的组合会为每个关键点生成关键点 3D 坐标。

Keypose 系统图:立体图像被传递到 CNN 模型,为每个关键点生成概率热力图。此热力图输出关键点的 2D 图像坐标 (U,V)。CNN 模型还为每个关键点生成一个视差(逆深度)热力图,与 (U,V) 坐标结合时,可以给出 3D 位置 (X,Y,Z)

相较于后期融合或单目输入,前期融合立体通常可以达到两倍的准确率。

结果

下图显示了 KeyPose 对单个物体的定性结果。左侧是一个原始立体图像,中间是投射到图像上的预测 3D 关键点。在右侧,我们将 3D 瓶子模型中的点可视化,并放置在由预测 3D 关键点确定的姿态上。该网络高效准确,在标准 GPU 上仅用 5 ms 的时间就预测出瓶子的 5.2 mm MAE (Mean Absolute Error) 和杯子的 10.1 mm MAE 关键点。

下表为 KeyPose 类别级别估计的结果。测试集使用了训练集未见过的背景纹理。注意,MAE 从 5.8 mm 到 9.9 mm 不等,这表明该方法的准确率非常高。

在类别级别数据上,KeyPose 与最先进的 DenseFusion 系统进行定量比较。我们为 DenseFusion 提供了两个版本的深度:透明物体与不透明物体。<2cm是误差小于 2cm 的估计百分比。MAE是关键点的平均绝对误差,以 mm 为单位。

DenseFusion
https://arxiv.org/abs/1901.04780

有关定量结果以及消融研究的完整说明,请参见论文和补充材料以及 KeyPose 网站。

论文和补充材料
https://openaccess.thecvf.com/content_CVPR_2020/html/Liu_KeyPose_Multi-View_3D_Labeling_and_Keypoint_Estimation_for_Transparent_Objects_CVPR_2020_paper.html

KeyPose 网站
https://sites.google.com/corp/view/keypose/

结论

该研究表明,在不依赖深度图像的情况下,从 RGB 图像中可以准确估计透明物体的 3D 姿态。经过验证,立体图像可以作为前期融合 Deep Net 的输入。在其中,网络被训练为直接从立体对中提取稀疏 3D 关键点。我们希望提供广泛的带标签透明物体数据集,推动这一领域的发展。最后,尽管我们使用半自动方法对数据集进行了有效标记,但我们希望在以后的工作中能够采用自监督方法来消除人工标记。

致谢

感谢合著者:斯坦福大学的 Xingyu Liu 以及 Rico Jonschkowski 和 Anelia Angelova;以及在项目和论文撰写过程中,与我们一起讨论并为我们提供帮助的人,包括 Andy Zheng、Suran Song、Vincent Vanhoucke、Pete Florence 和 Jonathan Tompson。

原文标题:机器人收集 + Keypose 算法:准确估计透明物体的 3D 姿态

文章出处:【微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30600

    浏览量

    219655
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47457

原文标题:机器人收集 + Keypose 算法:准确估计透明物体的 3D 姿态

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    京东11.11直播技术全面升级,立影3D技术、JoyAI大模型重构沉浸式购物体

    随着京东 11.11 大促的火热进行,京东直播再度升级技术布局,以 “立影 3D 技术”“JoyAI大模型”等创新技术,打破传统直播边界,为用户带来更具沉浸感、趣味性的购物体验,引领直播电商技术创新
    的头像 发表于 10-27 14:58 228次阅读

    【海翔科技】玻璃晶圆 TTV 厚度对 3D 集成封装可靠性的影响评估

    ,在 3D 集成封装中得到广泛应用 。总厚度偏差(TTV)作为衡量玻璃晶圆质量的关键指标,其数值大小直接影响 3D 集成封装的可靠性 。深入评估玻璃晶圆 TTV 厚
    的头像 发表于 10-14 15:24 253次阅读
    【海翔科技】玻璃晶圆 TTV 厚度对 <b class='flag-5'>3D</b> 集成封装可靠性的影响评估

    iTOF技术,多样化的3D视觉应用

    动态模糊,确保高耐光性,同时输出2D(红外)和3D深度)数据。 ◆ Testing Principles ※ 测量脉冲光的飞行时间,以检测 TOF 相机与被测物体之间的距离。
    发表于 09-05 07:24

    索尼与VAST达成3D业务合作

    近日,索尼空间现实显示屏与VAST旗下的3D大模型Tripo AI正式宣布达成业务合作:双方将围绕裸眼3D显示技术、AI驱动的3D内容生成与交互创新展开深度协同,致力于
    的头像 发表于 08-28 17:32 1033次阅读

    Zivid3D相机安装使用教程

    Zivid3D相机小巧便携,重量轻,分辨率高,速度快,适合高反光透明物体。本文介绍Zivid 3D相机的操作流程,帮助用户掌握其功能。从硬件连接、软件安装到参数设置,重点涵盖点云生成、
    的头像 发表于 08-26 15:34 436次阅读
    Zivid<b class='flag-5'>3D</b>相机安装使用教程

    台阶仪在3D打印中的应用:精确测量物体表面粗糙度

    增材制造(AM)技术通过逐层堆积材料实现复杂结构成型,但3D打印表面质量存在层厚均匀性和组装方式导致的台阶效应问题,表面粗糙度直接影响机械性能与功能可靠性,尤其在航空航天、生物医疗等领域至关重要
    的头像 发表于 07-22 09:51 596次阅读
    台阶仪在<b class='flag-5'>3D</b>打印中的应用:精确测量<b class='flag-5'>物体</b>表面粗糙度

    安森美这款iToF传感器让3D深度测量技术轻松落地

    现代工业自动化的成功离不开3D视觉技术的强大功能。传统的2D传感器只能提供平面图像,这使其在设备检测等应用中的效能大打折扣。2D传感器可以读取包含物品尺寸的条形码,但无法独立测量物体
    的头像 发表于 03-28 14:31 863次阅读
    安森美这款iToF传感器让<b class='flag-5'>3D</b><b class='flag-5'>深度</b>测量技术轻松落地

    【AIBOX 应用案例】单目深度估计

    ‌Firefly所推出的NVIDIA系列的AIBOX可实现深度估计,该技术是一种从单张或者多张图像预测场景深度信息的技术,广泛应用于计算机视觉领域,尤其是在三维重建、场景理解和环境感知
    的头像 发表于 03-19 16:33 890次阅读
    【AIBOX 应用案例】单目<b class='flag-5'>深度</b><b class='flag-5'>估计</b>

    使用海尔曼太通/HellermannTyton 3D CAD 模型进行快速高效的设计

    网站源链接和每个产品的相应目录页面一起出现在搜索结果列表中。用户可以在线浏览查看相应的 3D CAD 模型及其数据信息。双方通过合作,CADENAS能将3dfindit的三维模型下载直接
    发表于 03-14 16:55

    3D IC背后的驱动因素有哪些?

    3D多芯片设计背后的驱动因素以及3D封装的关键芯片到芯片和接口IP要求。3D多芯片设计的市场预测显示,硅片的设计和交付方式将发生前所未有的变
    的头像 发表于 03-04 14:34 904次阅读
    <b class='flag-5'>3D</b> IC背后的驱动因素有哪些?

    2.5D3D封装技术介绍

    。 2.5D封装将die拉近,并通过硅中介连接。3D封装实际上采用2.5D封装,进一步垂直堆叠die,使die之间的连接更短。通过这种方式
    的头像 发表于 01-14 10:41 2638次阅读
    2.5<b class='flag-5'>D</b>和<b class='flag-5'>3D</b>封装技术介绍

    3D深度感测的原理和使用二极管激光来实现深度感测的优势

      本文介绍了3D深度感测的原理和使用二极管激光来实现深度感测的优势。 世界是三维的。这句话如此容易理解,以至于大多数人从未怀疑过自己感知世界的方式。但事实上,人的每只眼睛每次可捕获一幅平面图
    的头像 发表于 01-07 09:54 1088次阅读
    <b class='flag-5'>3D</b><b class='flag-5'>深度</b>感测的原理和使用二极管激光来实现<b class='flag-5'>深度</b>感测的优势

    光学系统3D可视化

    Results Profile提供有关传播光线的信 息,而后者只显示组件和探测器。 在接下来的使用案例中,我们将重点介绍 System:3D视图。 系统:Ray Results Profile的3D
    发表于 01-06 08:53

    C#通过Halcon实现3D点云重绘

    C# 通过 Halcon 实现 3D 点云重绘
    发表于 01-05 09:16 0次下载

    3D打印技术,推动手板打样从概念到成品的高效转化

    相关数据,有效规避传统大规模生产中容易造成的材料浪费和库存积压问题,做到“能省则省”。尤其是在一小批量生产或定制产品的过程中,3D打印技术可以通过数字文件直接进行生产,节省模具的制造成本,为制造企业成功
    发表于 12-26 14:43