0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于去遮挡和移除的3D交互手姿态估计框架

工程师邓生 来源:商汤学术 作者:孟浩、金晟 2022-09-14 16:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文主要介绍商汤智能感知终端团队,发表在 ECCV 2022 上的工作。针对3D交互双手姿态估计问题,作者采用分而治之的策略,把交互的双手姿态估计问题,解耦成两个单手姿态估计问题。

作者提出了一种基于去遮挡和移除的3D交互手姿态估计框架,补全目标手被遮挡的部分,并移除另一只有干扰的手。此外,作者还构建了一个大规模数据集Amodal InterHand Dataset (AIH),用以训练手势去遮挡和移除网络。实验结果表明,论文提出的框架在InterHand2.6M 和 Tzionas 两个主流的公开数据集上,都获得了显著的性能提升。

7bb4cbfa-305d-11ed-ba43-dac502259ad0.png      

Part 1动机和背景

7c04d99c-305d-11ed-ba43-dac502259ad0.jpg

图1 本文算法(右)与baseline(左)的对比

手,是人和世界交互的主要工具。3D交互手姿态估计,指从单目彩色图中,恢复出一个人两只互相交互的手的骨架。它是人机交互、AR/VR、手语理解等诸多现实应用的基础。 与被充分研究的单手姿态估计任务不同,交互手3D姿态估计是近两年来刚兴起的学术方向。

现存的工作会直接同时预测交互手的左右两手的姿态,而我们则另辟蹊径,将交互手姿态估计任务,解耦成左右两手分别的单手姿态估计任务。这样,我们就可以充分利用当下单手姿态估计技术的最新进展。 然而相比通常的单手姿态估计任务来说,交互手姿态估计有以下两个难点:一是左右手间可能存在的严重的遮挡,难以估计被遮挡的手的姿态;二是左右手颜色纹理相近有歧义性,预测一只手的姿态可能会因另一只手的存在而被干扰。

为了解决这两个困难,我们提出了去遮挡和移除框架,旨在预测一只手的姿态时,补全它被遮挡的部分,并移除有干扰的另一只手的部分。由图1的示例可见,在用去遮挡和移除框架后,交互手的图片会恢复右手被遮挡的部分,也会移除有干扰的左手的部分,进而转换成右手的单手姿态估计任务。

此外,我们还构建了第一个大规模的合成交互手数据集(Amodal InterHand Dataset)。该数据集具有很多应用前景,如交互式双手姿态估计、Amodal & modal的实例分割、以及手部去遮挡。

Part 2方法

7c365d00-305d-11ed-ba43-dac502259ad0.jpg

图2 本文提出的框架示意图

本文的框架包括三个部分:手部非模态分割模块(HASM)、手部去遮挡和移除模块(HDRM)、单手姿态估计模块(SHPE)。

我们首先用HASM去分割图像中左右手的模态和非模态掩码,在得到掩码后,我们可以分别定位左右两手的位置并对图片进行裁剪。

之后,我们利用HDRM恢复手被遮挡的部分并移除另一只有干扰的手。

这样,一个交互手的图片会被转换成左右两手的单个手的图片,通过SHPE后可以得到左右手分别的姿态。

2.1 手部非模态分割模块(HASM)

我们基于mmsegmentation框架,从交互手的图片中分割出四种掩码:左手可见区域、左手完整区域、右手可见区域和右手完整区域。

2.2 手部去遮挡和移除模块(HDRM)

7c4e1c60-305d-11ed-ba43-dac502259ad0.jpg

图3 HDRNet示意图 以右手为例,首先根据2.1预测的掩码,以右手完整部分掩码为中心,裁剪得到图片。

而HDRNet的输入则有以下四部分拼接而成:(1)图片右手被遮挡区域被涂黑;(2)右手可见部分掩码;(3)I图片左手多余区域被涂黑;(4)除左右两手外的背景区域的掩码。

我们借鉴经典的inpainting方法中的网络结构(UNet + Partial Convolutions),并在其中加入了一些Transformer结构,来增强图像特征、扩大感受野,以及让网络关注更重要的图像区域。

网络HDRNet最终预测出右手被遮挡区域的像素,以及左手多余区域背后背景的像素,这样最终预测结果即为单个右手的图片。

2.3 单手姿态估计模块(SHPE)

由于SHPE不是本文的重点,因此我们使用了一个简单有效的开源方法MinimalHand作为我们的baseline。

Part3AIH虚拟交互手数据集

7c741712-305d-11ed-ba43-dac502259ad0.jpg

图4 AIH数据集中的样例 为了充分训练我们提出的HDRM网络,我们基于InterHand2.6M V1.0数据集,构建了第一个大规模的虚拟合成的Amodal交互手数据集(AIH)。

AIH有大约300万样本组成,其中AIH_Syn 有220万样本,AIH_Render有70万样本。前者是将InterHand2.6M V1.0数据集的单个右手或单个左手的图片,进行复制粘贴,合成的交互手图片。

后者是将InterHand2.6M V1.0数据集的双手mesh装饰上纹理,经过随机的旋转和平移,最终渲染到随机的数据集背景上得到的图片。图4展示了AIH数据集的可视化效果。

Part 4实验结果

我们在 InterHand2.6M V1.0 和 Tzionas 两个主流的数据集上做了实验。如表1和表2所示,定量实验表明,我们提出的算法,取得了最优的精度。

而且在耗时方面,在Tesla P40机器上单个样本预测,HDRM(我们的主要贡献点)只需要0.6ms,占整个框架预测时间47.2ms中很小一部分。更多可视化效果见图5。

表1InterHand2.6M V1.0 数据集的定量结果对比

7c9c08da-305d-11ed-ba43-dac502259ad0.jpg

表2Tzionas 数据集的定量结果对比

7cbac54a-305d-11ed-ba43-dac502259ad0.jpg7cd8c9dc-305d-11ed-ba43-dac502259ad0.jpg

图5 更多可视化结果



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1821

    文章

    50511

    浏览量

    267745
  • 智能传感器
    +关注

    关注

    16

    文章

    638

    浏览量

    57098
  • 计算机视觉
    +关注

    关注

    9

    文章

    1716

    浏览量

    47760

原文标题:ECCV 2022 | 基于去遮挡和移除的3D交互双手姿态估计

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    3D-Fixer框架基于原位补全重构单图3D场景生成流程

    基于单张图像生成完整三维场景,是构建物理世界数字孪生的关键问题。现有方法在复杂场景中普遍面临两方面瓶颈:是受遮挡等因素影响,几何重建往往不完整;二是依赖显式姿态对齐,易引发误差累积与结构错位。此外
    的头像 发表于 05-19 09:08 282次阅读
    <b class='flag-5'>3D</b>-Fixer<b class='flag-5'>框架</b>基于原位补全重构单图<b class='flag-5'>3D</b>场景生成流程

    英伦科技2D/3D可切换显示技术未来应用场景深度解析

    引言:从“被动接受”到“主动选择”的显示革命显示技术的迭代,始终围绕“更真实、更自由”的核心需求展开。从CRT到LCD、OLED,再到如今的裸眼3D,每次技术突破都在重构人与信息的交互方式。而英伦
    的头像 发表于 05-08 16:08 170次阅读
    英伦科技2<b class='flag-5'>D</b>/<b class='flag-5'>3D</b>可切换显示技术未来应用场景深度解析

    FBX/glTF 模型渲染与动画技术解析 | 图扑 HT 框架

    Web 3D 渲染框架, 为 FBX/glTF 模型的骨骼动画、材质切换及自定义 Shader 开发提供完善支持 ,可大幅降低开发门槛,提升 3D 应用的开发效率与视觉呈现质量。 FBX/glTF 模型骨骼动画实现 骨骼动画是
    的头像 发表于 04-21 11:31 141次阅读
    FBX/glTF 模型渲染与动画技术解析 | 图扑 HT <b class='flag-5'>框架</b>

    常见3D打印材料介绍及应用场景分析

    3D打印材料种类丰富,不同材料性能差异明显。本文介绍PLA、ABS、PETG等常见3D打印材料的特点与应用场景,帮助读者了解3D打印用什么材料更合适,为选材提供基础参考。
    的头像 发表于 12-29 14:52 1082次阅读
    常见<b class='flag-5'>3D</b>打印材料介绍及应用场景分析

    探索TLE493D-P3XX-MS2GO 3D 2Go套件:开启3D磁传感器评估之旅

    探索TLE493D-P3XX-MS2GO 3D 2Go套件:开启3D磁传感器评估之旅 在电子工程师的日常工作中,评估和开发磁传感器是项常见且重要的任务。英飞凌(Infineon
    的头像 发表于 12-18 17:15 1484次阅读

    DIPO框架实现应用于具身智能仿真的3D铰链物体生成新范式

    在具身智能从理解环境向与环境交互进化的当下,构建真实且可交互的仿真环境是重要路径。单刚体生成已难满足需求,机器人需要面对的是柜门、抽屉、微波炉等大量具有物理约束的铰链物体。受限于复杂的运动学结构,高质量
    的头像 发表于 12-03 09:18 645次阅读
    DIPO<b class='flag-5'>框架</b>实现应用于具身智能仿真的<b class='flag-5'>3D</b>铰链物体生成新范式

    中国科学院研发3D型微纳机器人

    微纳机器人是工作在微米至纳米尺度的“智能微型机器”,在精准医疗、环境修复等领域应用前景广阔。然而,当前微纳机器人多采用单材料体系,功能扩展受限,复杂环境下的多刺激协同控制与多步操作成为科研挑战。为此,科研团队提出新思路,采用多材料多模块加工微纳机器人,并设计出仿型的
    的头像 发表于 11-13 14:49 507次阅读

    微纳尺度的神笔——双光子聚合3D打印 #微纳3D打印

    3D打印
    杨明远
    发布于 :2025年10月25日 13:09:29

    索尼与MIIIX幕象科技达成3D内容合作

    交互内容研发能力,共同推出沉浸式交互体验作品《幕象·榫卯》。该项目利用索尼4K裸眼3D技术展示“启、构、聚、筑、归”五大叙事章节,打造无需佩戴头显等外设的裸眼3D沉浸旅程。 本次合作
    的头像 发表于 10-09 11:46 1210次阅读

    玩转 KiCad 3D模型的使用

    时间都在与 2D 的焊盘、走线和丝印打交道。但个完整的产品,终究是要走向物理世界的。元器件的高度、接插件的朝向、与外壳的配合,这些都是 2D 视图难以表达的。 幸运的是,KiCad 提供了强大的
    的头像 发表于 09-16 19:21 1.2w次阅读
    玩转 KiCad <b class='flag-5'>3D</b>模型的使用

    索尼与VAST达成3D业务合作

    近日,索尼空间现实显示屏与VAST旗下的3D大模型Tripo AI正式宣布达成业务合作:双方将围绕裸眼3D显示技术、AI驱动的3D内容生成与交互创新展开深度协同,致力于通过索尼空间现实
    的头像 发表于 08-28 17:32 1843次阅读

    AD 3D封装库资料

     AD  PCB 3D封装
    发表于 08-27 16:24 8次下载

    3D打印能用哪些材质?

    3D打印的材质有哪些?不同材料决定了打印效果、强度、用途乃至安全性,本文将介绍目前主流的3D打印材质,帮助你找到最适合自己需求的材料。
    的头像 发表于 07-28 10:58 4568次阅读
    <b class='flag-5'>3D</b>打印能用哪些材质?

    如何在树莓派 AI HAT+上进行YOLO姿态估计

    大家好,接下来会为大家开个树莓派5和YOLO的连载专题。内容包括四个部分:在树莓派5上使用YOLO进行物体和动物识别-入门指南在树莓派5上开启YOLO姿态估计识别之旅!如何在树莓派AIHAT+上进
    的头像 发表于 07-20 20:34 1323次阅读
    如何在树莓派 AI HAT+上进行YOLO<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>?

    3D AD库文件

    3D库文件
    发表于 05-28 13:57 6次下载