0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

3D姿态估计 时序卷积+半监督训练

电子设计 来源:电子设计 作者:电子设计 2020-12-08 22:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

首发:AIWalker

标题&作者团队

1. 论文简要

在这项工作中,视频中的3D姿态可以通过全卷积模型来估计,具体是在二维关键点上通过空洞时间卷积的模型得到3D姿态。我们还介绍了一种不带标签(反向投影)的半监督式训练方法。我们先从未标注视频中得到2D姿态,然后估计3D姿态和最后反向投影到输入的2D关键点。在实验中,全卷积模型相比之前state-of-arts,在Human3.6 M上平均每个关节位置误差小6mm,对应误差降低11%,模型在HumanEva-I中也有显著改进。

代码和模型的下载地址:https://github.com/facebookre...

2. 背景介绍

我们的工作重点是视频中的三维人体姿态估计。我们以最先进的方法为基础,然后将问题描述为2D关键点检测三维姿态估计,这种方法可能导致不同的3D姿态对应相同的2D关键点。早期为解决这一问题主要通过RNN构建时序信息,但是由于RNN的串行结构无法多帧并行处理,因此本文提出一个完整的卷积架构,在二维关键点上执行时序卷积用于视频中准确的三维姿态预测,该方法兼容任何二维关键点检测器,并能通过空洞卷积有效地处理较大的上下文信息。与依赖RNNs的方法相比,它在计算复杂度和参数数量方面都提供了更高的精度、简单性和效率。

在构建一个高度精确和高效的架构之后,接下来需要关注训练数据,本文引入了半监督训练的方案,因为3D姿态的监督学习需要大量的带标签的训练数据,收集3D人体姿态标签需要昂贵的动作捕捉设备和长时间录制。本文的方法的灵感来自于无监督机器翻译中的循环一致性,即翻译到中间语言和翻译回原始语言的往返应该接近恒等函数。具体地说,使用现有的2D关键点检测器为未标记的视频预测2D关键点,然后预测3D姿态,最后将它们映射回2D空间中。

本文创新点有两个:(1)在网络结构方面,基于空洞时序卷积将2D关键点轨迹推理出3D人体姿态,在计算量和模型参数量上远小于基于RNN的模型;(2)在训练数据方面,采用半监督学习解决数据量不足的问题,相比于其他方法,该方法仅仅需要相机内部参数(数据增强的过程中需要相机参数对ground-truth姿态进行几何变换),不需要2D标签或带有外部摄像机参数的多视图图像。

image-20201126105219606

3. 相关工作

深度学习成功之前,大部分的三维姿态估计方法都是基于特征工程和骨骼和关节灵活性的假设。目前大多数的姿态估计方法是在二维姿态估计器的基础上,建立了一种新的三维姿态估计器,然后 被提升到3D空间中。

视频姿态估计,大多数以前的工作都是在单帧的背景下进行的,但最近几年利用视频的时间信息来产生更可靠的预测,并降低对噪音的敏感性。最近,有人提出了LSTM序列到序列学习模型,该模型将视频中的二维姿态序列编码为固定大小的向量,然后解码为三维姿态序列。然而,输入和输出序列具有相同的长度,2D姿态的确定性转换是更自然的选择。用seq2seq模型进行的实验表明,输出姿势在较长的序列上容易产生漂移。

4. 本文方法

4.1 时序空洞卷积模型

image-20201126112311029

我们的模型是一个具有残差结构的完全卷积的架构,它将一个2D姿态序列作为输入,并通过时间卷积对其进行转换。卷积模型允许在批处理维度和时间维度上并行化,而RNNs不能在时间维度上并行化。在卷积模型中,无论序列长度如何,输出和输入之间的梯度路径都是固定长度的,这可以缓解影响RNN的消失和爆炸梯度。卷积架构也提供了对时间感受域的精确控制,这有利于建立三维姿态估计任务的时间依赖模型。此外,使用空洞卷积能够对长期依赖关系进行建模,同时也保持较高计算效率。(上图表示带有2D关键点的243帧图像,经过网络推理得到3D关节点)

4.2 半监督训练方法

image-20201126113555405

本文引入了一种半监督训练方法,以提高真实的标记数据不足的情况下的模型的准确性。我们利用未标记的视频,然后结合一个现成的2D关键点检测器,来扩展监督损失函数一个反向投影损失项。解决了未标记数据的自动编码问题:编码器(位姿估计器)根据二维关节坐标进行三维位姿估计,解码器(投影层)将三维位姿投影回二维关节坐标。当来自解码器的二维关节坐标远离原始输入时,训练就会受到惩罚。

上图将监督组件与充当正则化器的非监督组件组合在一起。这两个目标是共同优化的,标记数据占据Batch的前半部分,未标记数据占据Batch的后半部分一半。对于标记数据,我们使用真实三维姿态作为目标,训练一个监督损失。未标记的数据用于实现自动编码器损失,其中预测的3D姿态被投影回2D,然后检查与输入的一致性。

轨迹模型,由于透视投影,屏幕上的2D姿态都取决于轨迹(人体根节点整体位置,可以理解成人体中心点)和3D姿态(所有关节点相对于根关节的位置)。目标函数为每个关节的加权平均轨迹的位置误差(WMPJPE)。

骨骼长度损失,添加一个软约束来近似匹配未标记batch的受试者与已标记batch的受试者的平均骨长度。

5. 实验论证

5.1 数据集与评价标准

数据集有两个分别是Human3.6M,HumanEva-I,评价标准是Protocol 1: MPJPE(每个关节点的平均误差), Protocol 2:P-MPJPE(与标签数据对准后的平移、旋转、缩放误差),Protocol 3:N-MPJPE(只在比例上与真实标签相匹配)

5.2 2D姿态估计

2D姿态估计网络模型:stacked hourglass detector, Mask R-CNN with ResNet-101-FPN,CPN

5.3 3D姿态估计

image-20201126140916717

image-20201126141002629

image-20201126141144006

6. 总结

介绍了一个简单的完全卷积模型用于视频中三维人体姿态估计。网络结构利用时间信息在2D关键点轨迹上进行空洞卷积。这项工作的第二个贡献是反向投影,这是一种半监督训练方法,在标记数据稀缺的情况下提高性能。该方法适用于未标记的视频,只需要内在的摄像机参数,使其在运动捕捉具有挑战性的场景中切实可行。

7. 论文复现

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏深度学习从入门到精通

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    4011

    浏览量

    143366
  • 深度学习
    +关注

    关注

    73

    文章

    5608

    浏览量

    124635
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    常见3D打印材料介绍及应用场景分析

    3D打印材料种类丰富,不同材料性能差异明显。本文介绍PLA、ABS、PETG等常见3D打印材料的特点与应用场景,帮助读者了解3D打印用什么材料更合适,为选材提供基础参考。
    的头像 发表于 12-29 14:52 902次阅读
    常见<b class='flag-5'>3D</b>打印材料介绍及应用场景分析

    简单认识3D SOI集成电路技术

    在半导体技术迈向“后摩尔时代”的进程中,3D集成电路(3D IC)凭借垂直堆叠架构突破平面缩放限制,成为提升性能与功能密度的核心路径。
    的头像 发表于 12-26 15:22 947次阅读
    简单认识<b class='flag-5'>3D</b> SOI集成电路技术

    探索TLE493D-P3XX-MS2GO 3D 2Go套件:开启3D磁传感器评估之旅

    探索TLE493D-P3XX-MS2GO 3D 2Go套件:开启3D磁传感器评估之旅 在电子工程师的日常工作中,评估和开发磁传感器是一项常见且重要的任务。英飞凌(Infineon
    的头像 发表于 12-18 17:15 1322次阅读

    iDS iToF Nion 3D相机,开启高性价比3D视觉新纪元!

    一、友思特新品 友思特 iDS uEye Nion iTof 3D相机将 120 万像素的卓越空间分辨率与可靠的深度精度相结合—即使在极具挑战性的环境中也能确保获取精细的 3D 数据。 其外壳达到
    的头像 发表于 12-15 14:59 556次阅读
    iDS iToF Nion <b class='flag-5'>3D</b>相机,开启高性价比<b class='flag-5'>3D</b>视觉新纪元!

    微纳尺度的神笔——双光子聚合3D打印 #微纳3D打印

    3D打印
    杨明远
    发布于 :2025年10月25日 13:09:29

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    模型。 我们使用MNIST数据集,训练一个卷积神经网络(CNN)模型,用于手写数字识别。一旦模型被训练并保存,就可以用于对新图像进行推理和预测。要使用生成的模型进行推理,可以按照以下步骤进行操作: 1.
    发表于 10-22 07:03

    玩转 KiCad 3D模型的使用

    “  本文将带您学习如何将 3D 模型与封装关联、文件嵌入,讲解 3D 查看器中的光线追踪,以及如何使用 CLI 生成 PCBA 的 3D 模型。  ”   在日常的 PCB 设计中,我们大部分
    的头像 发表于 09-16 19:21 1.2w次阅读
    玩转 KiCad <b class='flag-5'>3D</b>模型的使用

    季丰电子邀您相约2025国际3D视觉感知与应用大会

    9月20日 - 21日,国际3D视觉感知与应用大会将在苏州太湖国际会议中心盛大启幕,大会议题涵盖3D成像与测量、3D视觉、3D显示、3D应用
    的头像 发表于 09-08 15:03 1197次阅读

    索尼与VAST达成3D业务合作

    近日,索尼空间现实显示屏与VAST旗下的3D大模型Tripo AI正式宣布达成业务合作:双方将围绕裸眼3D显示技术、AI驱动的3D内容生成与交互创新展开深度协同,致力于通过索尼空间现实显示屏
    的头像 发表于 08-28 17:32 1709次阅读

    AD 3D封装库资料

     AD  PCB 3D封装
    发表于 08-27 16:24 8次下载

    3D打印能用哪些材质?

    3D打印的材质有哪些?不同材料决定了打印效果、强度、用途乃至安全性,本文将介绍目前主流的3D打印材质,帮助你找到最适合自己需求的材料。
    的头像 发表于 07-28 10:58 4439次阅读
    <b class='flag-5'>3D</b>打印能用哪些材质?

    如何在树莓派 AI HAT+上进行YOLO姿态估计

    大家好,接下来会为大家开一个树莓派5和YOLO的连载专题。内容包括四个部分:在树莓派5上使用YOLO进行物体和动物识别-入门指南在树莓派5上开启YOLO姿态估计识别之旅!如何在树莓派AIHAT+上进
    的头像 发表于 07-20 20:34 1194次阅读
    如何在树莓派 AI HAT+上进行YOLO<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>?

    TechWiz LCD 3D应用:FFS仿真

    建模任务 堆栈结构 建模过程 2.1使用TechWiz Layout绘制各层掩模版平面图 2.2创建堆栈结构,并生成3D结构 2.3 使用TechWiz LCD 3D进行各项参数计算 3. 结果分析
    的头像 发表于 07-14 14:08 915次阅读
    TechWiz LCD <b class='flag-5'>3D</b>应用:FFS仿真

    3D AD库文件

    3D库文件
    发表于 05-28 13:57 6次下载

    2025年3D工业相机选型及推荐

    3D工业相机的选型
    的头像 发表于 05-21 16:49 2091次阅读
    2025年<b class='flag-5'>3D</b>工业相机选型及推荐