0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

单摄像头输入的基于学习的动作捕捉模型实例分析

mK5P_AItists 2017-12-11 09:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

目前,从单摄像头中进行动作捕捉(motioncapture)的最好方法是优化驱动的:通过优化3D人体模型的参数从而使二次投影与视频中的测量结果相匹配(例如,人像分割、光流、关键点检测等)。优化模型容易受到局部最小值(local minima)的影响。这成为了限制动作捕捉的瓶颈,致使每次捕捉动作时必须用干净的绿布作为背景,并且要手动初始化或切换成多摄像头作为输入源。在本项研究中,我们提出了一个用于单摄像头输入的基于学习的动作捕捉模型。我们的模型没有直接优化网格和骨骼参数,而是通过优化神经网络权重来预测给定单目RGB视频的3D形状和骨骼构造。我们的的模型是使用来自合成数据的强监督与来自一个端到端框架中(a)骨骼关键点(b)密集型网格运动(c)人物背景分割可微渲染中的自监督进行联合训练的通过检验,我们证实,我们的模型结合了监督学习和测试时间优化二者的优点:监督学习在适时情况下初始化参数,在测试中确保良好的姿态和表面初始化,不需要手动操作。通过可微渲染的反向传播进行的自监督,使得(无监督的)模型适应测试数据,并且相较预训练固定模型而言,可提供更好的拟合性。我们在此表示,此次提出的模型将随着经验的不断积累,以及总结过去的低误差解决方案而不断改进。

从“自然环境下”的单目装置中详细了解人体及其运动将为自动化健身房、舞蹈教师、康复指导、患者监护以及更安全的人机交互的应用开辟道路。这也会影响到电影行业,因为目前,人物动作捕捉(MOCAP)和重定向,仍需要艺术家花费繁重的劳动力,或者使用昂贵的多摄像机设置和绿屏才能达到理想的精度。

当前,大多数动作捕捉系统都是优化驱动,其并不能从经验中获益。单目动作捕捉系统优化3D人体模型的参数以在视频中与测量结果相匹配(如人像分割、光流等)。背景杂乱和优化困难显著影响追踪性能,这导致过去在工作中总使用绿色的背景幕布,并且进行细致的初始化工作。此外,通过这些费力的方法所捕捉到的动作数据,并不能随着时间的推移而改进。这意味着每次处理视频时,都需要从头重复进行优化和手动操作。

图1 动作捕捉的自监督学习

给定一个视频序列和一组2D肢体关节热图,我们的网络可预测SMPL3D人体网格模型的肢体参数。神经网络权重使用合成数据进行预训练,并使用可微关键点、分割和二次投影误差分别针对检测到的2D关键点、2D分割和2D光流的自监督缺失驱动(self-supervised losses driven)进行微调。通过在测试时运用自监督损失(self-supervised losses)微调其参数,本文提出的模型要比基于模型的纯监督或纯优化具有更高的3D重建精度。其中,基于模型的纯监督或纯优化模型既不能适应也不能从训练数据中受益。

我们提出了一个在单目视频中进行动作捕捉的神经网络模型,学习将一个图像序列映射到一个相应的3D网格序列中。深度学习模型的成功在于从大规模注释数据集中进行监督。然而,详细的3D网格标注是非常繁琐而耗时的,因此在实际生活中,大规模的标注3D人体姿态是不现实的。在真实视频中,我们的工作通过将手动渲染模型的大规模合成数据中的强监督、与3D关键点的3D转2D可微渲染、动作和分割以及真实独目视频中2D相应检测量的匹配中所包含的监督相结合,从而避免了真实视频中缺乏3D网格注释这一问题。我们的自监督利用了2D身体关节检测、2D图底分割和2D光流技术的最新研发成果,分别使用真实或合成数据集(如MPII、COCO和flying chairs)的强大监督进行学习。事实上,注释2D身体关节比注释3D关节或3D网格更容易,而光流被证明可以很容易地从合成数据泛化到真实数据。我们展示了最先进的2D关节、光流和2D人像分割模型是如何用于推理出自认环境下视频中密集的3D人体结构的,而这些工作是难以通过手动操作来完成。与之前基于优化的动作捕捉研究相比,我们现在对光流和分割损耗使用的可微变形(differentiable warping)和可微相机投影技术,使得模型可以通过标准的反向传播进行端对端的训练。

我们使用SMPL作为我们的密集人体3D网格模型。它由一定数量的固定拓扑结构顶点和三角形拓扑结构组成,其中,全局姿势由身体各部分之间的角度θ控制,局部姿势由网格表面参数β控制。对于给定姿势和表面参数,密集网格可以以一种分析法(可微分)形式生成,然后将其全局旋转并转换到期望的位置。我们模型的任务是对渲染过程进行逆向工程,并且预测SMPL模型(θ和β)的参数以及每个输入帧中的焦距、3D旋转和3D翻译,在检测到的人身周围提供图像分割。

给定两个连续帧中的3D网络预测,我们可以对网格顶点的3D动作向量进行差分投影,并将它们与已评估的2D可见光流向量进行有针对性的匹配(图1)。可微动作渲染和匹配需要对顶点可见性进行评估,对于这一点,我们使用光线投射(ray casting),以及用来执行代码加速的我们神经模型实现。类似地,在每一帧中,3D关键点都会被投影,并且他们与相应被检测到的2D关键点之间的距离将会被惩罚。最后,重要的是,可微分割匹配使用倒角距离(Chamferdistances)针对人类前景2D分割的投影顶点的欠拟合和过度拟合进行惩罚。请注意,由于3D网格是无纹理的,因此我们的预测中,二次投影的误差只存在于形态上而非设计的纹理上。

我们提供了在SURREAL和H3.6M数据集上进行的3D密集型人体形态追踪的定量和定性分析结果。我们将其与相应的优化版本进行比较,在这些版本中,网格参数通过最小化我们的自监督损失而优化,并且在测试时不使用自监督,进而达到屏蔽监督模型的效果。优化基线很容易陷入局部极小值,而且它对初始化非常敏感。相比之下,我们的基于学习的MOCAP模型通过预训练(合成数据)可在测试时提供良好的姿态初始化。此外,自监督适应模型比预训练的非适应模型的3D重建误差低。最后,我们的ablation研究突出了三种自监督损失的互补性。

相关研究

3D动作捕捉

使用多台摄像机进行3D动作捕捉(四个或四个以上)是一个已被详细研究的问题,其中现有的方法取得了令人印象深刻的结果。然而,即使对于仅有骨架的捕捉/追踪,单个单目照相机的动作捕捉仍是一个尚待解决的问题。由于单目动作捕捉中的模糊和遮挡可能是严重的,大多数方法依赖于先前的姿势和动作模型。早期的研究考虑线性动作模型。诸如高斯过程动力学模型、以及双高斯过程这样的非线性先验,都已经被提出,并且被证明优于其线性对应结构。最近,Bogo等人提出了一种静态图像姿势和3D密集形状预测模型,其工作分为两个阶段:首先,从图像中预测一个三维人体骨架,然后使用优化过程将参数3D形状拟合到预测骨架,在此过程中骨架保持不变。相反,我们的研究通过测试时间适应,将3D骨架和3D网格估计结合到一个端到端的可微框架中。

3D人体姿态评估

早期的3D姿态评估研究考虑了优化方法和硬编码的拟人约束(anthropomorphic constraints)(例如肢体对称),以消除2D-to-3D提升期间的模糊性,。许多最近研究使用深度神经网络和大型监督训练集,对于给定给定RGB图像,学习直接复归为3D人体姿势。一些研究已经探索使用2D身体姿态作为中间表征,或者作为多任务设置中的辅助任务,其中丰富的被标注的2D姿势训练实例有助于特征学习,并补充有限的3D人体姿势监督,这需要一个Vicon系统,因此被限制只能在实验室仪器化的环境中进行。Rogez和Schmid通过将合成的3D人体模型与逼真的背景相结合,获得了大规模的RGB到3D的合成注释,也在这项研究中使用的数据集。

深度几何学习

我们的可微渲染器遵循最近将深度学习和几何推理相结合的研究。可微变形和可后置摄像头投影已经被用于学习3D摄像机动作,以及学习一个以端到端的自监督的方式进行的3D摄像机和3D物体联合动作,从而使光度损失最小化。Garg等人学习单目深度预测器,由光度误差监督,给定一个立体图像且已知基线作为输入。《gvnn:几何计算机视觉的神经网络库》中贡献了一个深度学习库,有许多几何操作,包括一个可后置的摄像头投影层,类似于Yan等人和吴等人所使用的摄像头。

结论

我们已经提出了一个基于学习的用于密集人体3D动作追踪的模型,用合成数据进行监督,并并通过动网格、关键点和分割的可微渲染进行自监督,并与2D等价量相匹配。我们发现,我们的模型通过使用未标记的视频数据得到了改进,这对于动作捕捉非常有价值,其中,密集3D对照数据难以进行标记。未来研究的一个明确方向是对网格参数的迭代加性反馈,以获得更高的3D重建精度,然后同样以自监督的方式,在参数SMPL模型的顶部学习残差自由形态变形(residual free formdeformation)。 我们的模型在人类3D姿势之外的扩展将使神经智能体以人类的经验学习3D,而其仅由视频动作进行监督。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 摄像头
    +关注

    关注

    61

    文章

    5133

    浏览量

    103651
  • RGB
    RGB
    +关注

    关注

    4

    文章

    840

    浏览量

    62325

原文标题:卡内基梅隆大学提出基于学习的动作捕捉模型,用自监督学习实现人类3D动作追踪

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI智能摄像头:为低空经济装上智慧的眼睛

    传统摄像头在城市安防中往往只能提供事后取证的价值,而AI智能摄像头通过集成先进的AI算法,能够实时分析视频内容,主动识别异常情况。
    的头像 发表于 04-23 19:08 160次阅读
    AI智能<b class='flag-5'>摄像头</b>:为低空经济装上智慧的眼睛

    视觉摄像头vs毫米波雷达:谁才是全屋智能的“终极眼睛”?

    ”?答案或许并非二选一。一、视觉摄像头摄像头的优势无可替代:它能捕捉色彩、纹理、人脸和姿态,实现身份识别、物品检测甚至表情分析。这种语义级理解能力让智能家居可以预
    的头像 发表于 04-09 13:55 212次阅读
    视觉<b class='flag-5'>摄像头</b>vs毫米波雷达:谁才是全屋智能的“终极眼睛”?

    摄像头可靠性EMC设计优化

    一前言摄像头作为现代电子设备的重要组成部分,已广泛应用于智能手机、安防监控、自动驾驶等领域。详细了解摄像头,不仅有助于我们更好地使用相关设备,也为后续探讨其应用场景和技术优化奠定了基础,并且能快速
    的头像 发表于 04-07 11:34 245次阅读
    <b class='flag-5'>摄像头</b>可靠性EMC设计优化

    ESP32-S3在初始化摄像头时检测到摄像头模组型号不被支持

    你现在遇到的核心问题是:ESP32-S3在初始化摄像头时检测到摄像头模组型号不被支持(错误码0x106(ESP_ERR_NOT_SUPPORTED)),导致摄像头探测失败并触发设备重启。这个错误
    发表于 02-11 06:38

    Termux手机摄像头采集图像/视频流 部署 YOLO 模型推理

    Termux手机摄像头采集图像/视频流 部署 YOLO 模型推理
    的头像 发表于 12-14 07:26 3439次阅读

    智能摄像头行业分析:从被动监控到主动思考的安全伙伴

    智能摄像头行业正经历从基础智能到高级智能的深刻变革,通过AI大模型赋能、多目成像与高像素技术升级,逐步实现从"看得见"到"看得懂"的智能化转型。随着全球消费级市场出货量突破2亿台、车载摄像头单车配置
    的头像 发表于 12-09 18:14 1868次阅读
    智能<b class='flag-5'>摄像头</b>行业<b class='flag-5'>分析</b>:从被动监控到主动思考的安全伙伴

    自动驾驶既然有双目摄像头了,为什么还要三目摄像头

    [首发于智驾最前沿微信公众号]在自动驾驶领域,纯视觉方案一直受到不少人的认可。双目摄像头由于模拟了人眼的工作方式,能够通过视差计算还原三维信息,在距离判断和空间感知上具有天然优势,因此被广泛应用于纯
    的头像 发表于 12-09 08:59 1399次阅读
    自动驾驶既然有双目<b class='flag-5'>摄像头</b>了,为什么还要三目<b class='flag-5'>摄像头</b>?

    车载双目摄像头如何“看见”世界?

    源自:网络 车载双目摄像头(也称立体视觉摄像头,Stereo Camera)模仿人眼的视觉机制,通过两个略有间距的摄像头同时拍摄同一场景,比较两幅图像之间的差异,从而计算出深度信息。 与
    的头像 发表于 11-13 09:17 1799次阅读
    车载双目<b class='flag-5'>摄像头</b>如何“看见”世界?

    索尼4K超高清摄像头模块——FCB-ER8530

    摄像头
    szxuanzhan
    发布于 :2025年08月13日 17:12:43

    创世SD NAND贴片卡:智能摄像头存储难题的完美解决方案 #人工智能 #智能摄像头 #摄像头

    摄像头
    深圳市雷龙发展有限公司
    发布于 :2025年08月05日 11:17:13

    红外摄像头模组是什么?科技时代的眼睛

    深入探讨红外摄像头模组的工作原理、应用领域以及选择红外摄像头时需要考虑的因素。什么是红外摄像头模组?红外摄像头模组是一种能够捕捉红外线图像的
    的头像 发表于 07-31 10:07 1465次阅读
    红外<b class='flag-5'>摄像头</b>模组是什么?科技时代的眼睛

    【干货分享】基于QT和ffmpeg硬解码的多路摄像头取流

    前言其实官方为我们已经提供了三个官方实例,我打开学习了一下,QT实例虽然也用到了信号槽,是点击按钮的信号槽,我觉的QT妙就妙在了信号槽和多线程,而且官方的是QT5;多路摄像头取流案例使
    的头像 发表于 07-29 08:05 1432次阅读
    【干货分享】基于QT和ffmpeg硬解码的多路<b class='flag-5'>摄像头</b>取流

    【EASY EAI Orin Nano开发板试用体验】--USB摄像头使用

    .代码准备与编译运行 1.代码准备 代码使用官方外设02_camera摄像头,结合摄像头资料,将像素宽高设为1280*720。。 代码如下: 2.编译cd /home/orin-nano/Desktop
    发表于 07-13 18:21

    【Milk-V Duo S 开发板免费体验】4 - OV5647 摄像头摄像头测试

    引言 以前使用Milk-V Duo的时候,觉得它的摄像头支持比较弱,只能支持特定型号的摄像头,还不好买。我有个学生甚至因为这个原因退出了集创赛。这次特意测试了一下它的摄像头。 DuoS的摄像头
    发表于 07-08 21:26

    庐山派K230可以直接使用usb摄像头吗,可以的话摄像头有啥要求吗?

    庐山派K230可以直接使用usb摄像头吗,可以的话摄像头有啥要求吗
    发表于 06-24 07:07