0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

清华&西电提出HumanMAC:人体动作预测新范式

CVer 来源:CVer 2023-07-17 16:56 次阅读

我们一篇关于人体动作预测的研究工作被计算机视觉国际顶级会议ICCV 2023录用,代码[1]开源,demo讲解[2]、项目主页[3]、中文文档[4]开放。

7d90cb98-23f2-11ee-962d-dac502259ad0.png

HumanMAC: Masked Motion Completion for Human Motion Prediction 主页:https://lhchen.top/Human-MAC 论文:https://arxiv.org/abs/2302.03665 代码:https://github.com/LinghaoChan/HumanMAC

人体动作预测是计算机视觉和图形学中的一个经典问题,旨在提升预测结果的多样性、准确性,并在自动驾驶、动画制作等多领域有非常多具体的应用。本研究梳理了今年来大家对于该问题的建模方式,认为以往的大多数工作对于动作预测任务都是使用一种encoding-decoding的范式。这类范式大多是将观测帧编码进隐空间,然后从隐空间解码出预测帧。我们认为这种方式存在三个缺点:

大多数SOTA的方法需要多个loss作为目标约束,需要精细化地调节多个loss之间的权重,需要极其繁重的调参工程。

大多数SOTA的方法需要多阶段训练,特别是需要预训练encoder和decoder,这使得预测结果非常依赖于预训练的质量。

对于这些方法来说,很难实现不同类别运动的切换,例如从“WalkDog”到“Sitting”的切换,这对于结果多样性至关重要。出现这个现象的原因是这些方法所使用的训练数据包括很少这样的切换。

为克服上述问题,我们提出了一种建模动作预测问题的全新范式:掩码动作补全。如图1(b)所示,我们认为预测问题就是一种特殊的补全问题,可以借助diffusion model的补全能力解决上述挑战。如果使用这种范式,我们是需要一个loss、训练一个阶段就可以实现预测,可以说是“大道至简”。并且由于我们建模了全局的动作,模型很容易学习到平滑性,就能自动实现动作的切换。

7d99eed0-23f2-11ee-962d-dac502259ad0.jpg

encoding-decoding方式与掩码运动补全的比较。(a)encoding-decoding的方法将观测帧显式地编码到隐空间,然后将隐空间变量解码为预测结果。(b)HumanMAC在训练阶段由噪声生成运动。在推理阶段完成补全动作的任务。

为了解决动作抖动等问题,我们借鉴了以往工作在频域建模的思路[5][6],通过DCT变换,对数据在频域进行训练。也就是说,我们的diffusion model是动作频谱的生成模型,在输出结果的时候只需要做iDCT变换即可复原动作。为此,我们设计了一个补全算法:DCT-Completion。算法流程和示意图如下。

7da1dfaa-23f2-11ee-962d-dac502259ad0.jpg

7da8a66e-23f2-11ee-962d-dac502259ad0.jpg

由于动作预测的问题只是一个特殊的掩码补全问题,我们可以灵活地使用mask实现各种“花式”可控动作补全:

动作切换

7dae2de6-23f2-11ee-962d-dac502259ad0.jpg

动作切换

特定躯体可控动作编辑

7db359d8-23f2-11ee-962d-dac502259ad0.jpg

特定躯体可控动作编辑

在量化指标上我们仅仅通过一个loss、一阶段训练就可以和以往的工作不相上下了(我们还比较了最新的arxiv算法)。多样性的指标逊色于baseline方法的原因,主要来自于baseline方法生成的“多样”结果存在大量的failure cases,详情可以见论文和demo中的可视化结果比较。

7dbabf84-23f2-11ee-962d-dac502259ad0.jpg

主实验结果

在正文中,我们对网络结构、DCT设计、频谱频段选择、网络结构、采样步数、噪声建模等进行了精细的消融验证。同时,由于以往研究的codebase计算效率太低,我们重新优化了评估代码并开源(加速上千倍),为后续研究者提供便利。

为了探究模型的泛化性能,我们还做了在H3.6M数据训练,在AMASS上做zero-shot预测实验的研究,效果也特别好。

7dc01e52-23f2-11ee-962d-dac502259ad0.jpg

AMASS上的zero-shot预测实验

这是我们基于对动作生成任务全新理解,在动作预测问题上的一个探索性工作。我们的大量实验表明这种框架的扩展性非常好,还有很大的扩展空间,欢迎大家关注我们的后续工作。

该研究是我和原来本科的同学多次交流获得的灵感,在此也感谢一下母校。衷心感谢所有合作者,特别是Xiaobo全方位的指导,让我获益匪浅(^_^)。P.S.: 该工作做完刚刚挂出arxiv的时候就有很多工业界的同行发邮件来交流,甚至希望部署到他们的产品线中,给予了我们极大的鼓舞,在此也向他们表示感谢。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47697
  • DCT
    DCT
    +关注

    关注

    1

    文章

    55

    浏览量

    19737
  • 计算机视觉
    +关注

    关注

    8

    文章

    1600

    浏览量

    45619

原文标题:ICCV 2023 | 清华&西电提出HumanMAC:人体动作预测新范式

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    范式间区别

    第二范式(2NF),其余范式以次类推。一般说来,数据库只需满足第三范式(3NF)就行了。下面我们举例介绍第一范式(1NF)、第二范式(2NF
    发表于 10-22 11:40

    R&S ZNLE矢量网络分析仪的主要特点及应用优势

    R&S®ZNLE 矢量网络分析仪契合“Measurements as easy as ABC”的标语: 易于配置、易于校准、易于测量。 闻名遐迩的优质设计、创新的用户界面以及紧凑尺寸使 R&
    发表于 12-09 09:29 1177次阅读

    R&S FSC3台式频谱分析仪的主要特点及应用范围

    罗德与施瓦茨的R&S®FSC是一款高性价比,小体积的台式频谱分析仪,它具备罗德与施瓦茨一贯的高品质,可以满足所有重要的频谱分析任务。R&S®FSC应用范
    发表于 12-09 09:41 919次阅读

    R&S FSL6台式信号分析仪的功能特点及应用范围

    R&S®FSL 是一款多功能而且经济实用的信号分析仪。R&S®FSL全系列标配28MHz的信号解调带宽,远高于其他同类产品。无论是频谱、噪声系数、ACL
    发表于 12-09 09:46 1126次阅读

    欧拉 Summit 2021 安全&可靠性&运维专场:主流备份技术探讨

    在openEuler Summit 2021 安全&可靠性&运维专场上,高冲对为数据安全而生,统信软件备份还原工具分享。
    的头像 发表于 11-10 17:42 1548次阅读
    欧拉 Summit 2021 安全&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;可靠性&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;运维专场:主流备份技术探讨

    串口mpu6050 &amp;&amp; 透传模块(LC12S_V2)教程

    软硬件1.串口mpu6050 &amp;amp;&amp;amp; 串口模块 &amp;amp;
    发表于 12-06 15:36 5次下载
    串口mpu6050 &<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>; 透传模块(LC12S_V2)教程

    存储类&amp;作用域&amp;生命周期&amp;链接属性

    目录前言一、存储类&amp;amp;作用域&amp;amp;生命周期&amp;amp;链接属性的
    发表于 12-09 15:51 5次下载
    存储类&<b class='flag-5'>amp</b>;作用域&<b class='flag-5'>amp</b>;生命周期&<b class='flag-5'>amp</b>;链接属性

    嵌入基础:&amp;,|,^,~,<<,>>运算符使用

    &amp;,按位与功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位都为1时,结果位才为1。参与运算的两个数均以补码出现。1&amp;1=11&amp;0=00&amp;1=
    发表于 01-12 20:38 0次下载
    嵌入基础:&<b class='flag-5'>amp</b>;,|,^,~,<<,>>运算符使用

    ATT7053典型应用原理图&amp;PCB&amp;BOM

    ATT7053典型应用原理图&amp;PCB&amp;BOM免费下载。
    发表于 06-14 14:20 22次下载
    ATT7053典型应用原理图&<b class='flag-5'>amp</b>;PCB&<b class='flag-5'>amp</b>;BOM

    A2B车载音频总线-车机音频&amp;amp;amp;麦克风阵列测试

    基于美格信系统的A2B车载音频总线-车机音频&amp;amp;麦克风阵列测试应用笔记
    发表于 09-19 11:04 2445次阅读
    A2B车载音频总线-车机音频&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;麦克风阵列测试

    如何区分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先给i赋值为0,如果i大于10,并且i++等于1,则输出“错误”和i的值。否则输出“正确”和i的值。分别用&amp;和&amp;&amp;运行,观察运行结果的不同。
    的头像 发表于 02-24 10:46 1226次阅读
    如何区分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    if(a==1 &amp;amp;&amp;amp; a==2 &amp;amp;&amp;amp; a==3),为true,你敢信?

    接下来咱们来尝试解决这个问题。假设 if(a==1&amp;&amp;a==12)是等于 true的,那么a肯定不可能是一个“普通的变量”。它势必要有能力在执行的时候能够动态改动值。
    的头像 发表于 05-08 11:01 755次阅读
    if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3),为true,你敢信?

    HarmonyOS &amp;amp;amp;amp;润和HiSpark 实战开发,“码”上评选活动,邀您来赛!!!

    出色的系统 助力优秀的设备 为应用开发者带来丰富的体验与想象空间 正如当HarmonyOS遇见润和HiSpark 这万物互联的时代 将由你的&amp;lt; 代码 &amp;gt;来定义
    的头像 发表于 04-11 15:33 831次阅读
    HarmonyOS &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;润和HiSpark 实战开发,“码”上评选活动,邀您来赛!!!

    你使用shell脚本中的2&amp;gt;&amp;amp;1了吗?

    run_cmax > ./starrc_cmax.logs 2>&amp;1中的 2>&amp;1是啥意思?
    的头像 发表于 07-30 14:44 1071次阅读

    摄像机&amp;amp;amp;雷达对车辆驾驶的辅助

    摄像机&amp;amp;雷达担负着可辅助驾驶员安全驾驶的、高级驾驶辅助系统的传感功能。尼得科正在进一步推进摄像机&amp;amp;雷达的高性能化进程。
    的头像 发表于 11-26 10:02 521次阅读
    摄像机&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;雷达对车辆驾驶的辅助