0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

北大提出MotionBERT:人体运动表征学习的统一视角

CVer 来源:北京大学前沿计算研究中 2023-07-19 14:23 次阅读

导 读

本文是对发表于计算机视觉领域顶级会议 ICCV 2023 的论文MotionBERT: A Unified Perspective on Learning Human Motion Representations的解读。该论文由北京大学王亦洲课题组与上海人工智能实验室合作完成。

这项工作提出了一个统一的视角,从大规模、多样化的数据中学习人体运动的通用表征,进而以一个统一的范式完成各种以人为中心的下游视频任务。实验表明提出的框架在三维人体姿态估计、动作识别、人体网格重建等多个下游任务上均能带来显著提升,并达到现有最佳的表现。

d7bc5c66-25f2-11ee-962d-dac502259ad0.gif

图1. 以统一的范式完成各种以人为中心的视频任务

01

背景介绍

感知和理解人类活动一直是机器智能的核心追求。为此,研究者们定义了各种任务来从视频中估计人体运动的语义标签,例如骨骼关键点、行为类别、三维表面网格等。尽管现有的工作在这些任务上已经取得了显著的进步,但它们往往被建模为孤立的任务。理想情况下,我们可以构建一个统一的以人为中心的运动表征,其可以在所有相关的下游任务中共享。

构建这种表征的一个重要挑战是人体运动数据资源的异质性。运动捕捉(MoCap)系统提供了基于标记和传感器高精度 3D 运动数据,但其内容通常被限制在简单的室内场景。动作识别数据集提供了动作语义的标注,但它们要么不包含人体姿态标签,要么只有日常活动的有限动作类别。具备外观和动作多样性的非受限人类视频可以从互联网大量获取,但获取精确的姿势标注需要额外的努力,且获取准确真实(GT)的三维人体姿态几乎是不可能的。因此,大多数现有的研究都致力于使用单一类型的人体运动数据解决某一特定任务,而无法受益于其他数据资源的特性。

在这项工作中,我们提供了一个新的视角来学习人体运动表征。关键的想法是,我们可以以统一的方式从多样化的数据来源中学习多功能的人体运动表征,并利用这种表征以统一的范式处理不同的下游任务。

02

方法概览

d7d2f520-25f2-11ee-962d-dac502259ad0.jpg

图2. 框架概览

我们提出了一个包括预训练和微调两个阶段的框架,如图2所示。在预训练阶段,我们从多样化的运动数据源中提取 2D 关键点序列,并添加随机掩码和噪声。随后,我们训练运动编码器从损坏的 2D 关键点中恢复 3D 运动。这个具有挑战性的代理任务本质上要求运动编码器(i)从时序运动中推断出潜在的 3D 人体结构;(ii)恢复错误和缺失的数据。通过这种方式,运动编码器隐式地学习到人体运动的常识,如关节拓扑,生理限制和时间动态。在实践中,我们提出双流空间-时间变换器(DSTformer)作为运动编码器来捕获骨骼关键点之间的长距离关系。我们假设,从大规模和多样化的数据资源中学习到的运动表征可以在不同的下游任务之间共享,并有利于它们的性能。因此,对于每个下游任务,我们仅需要微调预训练的运动表征以及一个简单的回归头网络(1-2层 MLP)。

在设计统一的预训练框架时,我们面临两个关键挑战:

如何构建合适的代理任务(pretext task)学习的运动表征。

如何使用大规模但异质的人体运动数据。

针对第一个挑战,我们遵循了语言和视觉建模的成功实践[1]来构建监督信号,即遮蔽输入的一部分,并使用编码的表征来重构整个输入。我们注意到这种“完形填空”任务在人体运动分析中自然存在,即从 2D 视觉观察中恢复丢失的深度信息,也就是 3D 人体姿态估计。受此启发,我们利用大规模的 3D 运动捕捉数据[2],设计了一个 2D 至 3D 提升(2D-to-3D lifting)的代理任务。我们首先通过正交投影 3D 运动来提取 2D 骨架序列 x。然后,我们通过随机遮蔽和添加噪声来破坏 x,从而产生破坏的 2D 骨架序列,这也类似于 2D 检测结果,因为它包含遮挡、检测失败和错误。在此之后,我们使用运动编码器来获得运动表征并重建 3D 运动。

对于第二个挑战,我们注意到 2D 骨架可以作为一种通用的中介,因为它们可以从各种运动数据源中提取。因此,可以进一步将 RGB 视频纳入到 2D 到 3D 提升框架以进行统一训练。对于 RGB 视频,2D 骨架可以通过手动标注或 2D 姿态估计器给出。由于这一部分数据缺少三维姿态真值(GT),我们使用加权的二维重投影误差作为监督。

d7dd81fc-25f2-11ee-962d-dac502259ad0.jpg

图3. DSTformer 网络结构

在运动编码器的具体实现上,我们根据以下原则设计了一个双流时空变换器(DSTformer)网络结构(如图3所示):

两个流都有综合建模时空上下文信息的能力。

两个流侧重不同方面的时空特征。

将两个流融合在一起时根据输入的时空特征动态平衡融合权重。

03

实验结论

我们在三个下游任务上进行了定性和定量的评估,所提出的方法均取得了最佳表现。

d7e7db02-25f2-11ee-962d-dac502259ad0.gif

图4. 效果展示

d7f9254c-25f2-11ee-962d-dac502259ad0.jpg

表1. 三维人体姿态估计的定量评估。数字代表 Human3.6M 上的平均关节误差 MPJPE(mm)。(上)使用检测到的 2D 姿态序列作为输入。(下)使用真值(GT)2D 姿态序列作为输入。

对于三维人体姿态估计任务,我们在 Human3.6M[3]上进行了定量测试。如表1所示,本文的两个模型都优于最先进的方法。所提出的预训练运动表征额外降低了误差,这证明了在广泛而多样的人体运动数据上进行预训练的好处。

d8024de8-25f2-11ee-962d-dac502259ad0.jpg

表2. 基于骨架的动作识别准确度的定量评估。(左)NTU-RGB+D 上的跨角色(X-Sub)和跨视角(X-View)识别准确度。(右)NTU-RGB+D-120 上的单样本学习识别精度。所有结果都是第一选项准确度(%)。

对于基于骨架的动作识别任务,我们在 NTU-RGB+D[4]和 NTU-RGB+D-120[5]上进行了定量测试。在完全监督的场景下本文的方法与最先进的方法相当或更好,如表2(左)所示。值得注意的是,预训练阶段带来了很大的性能提升。此外,本文研究了可用于未见动作和稀缺标签的单样本学习设置。表2(右)说明所提出的模型大幅度优于此前最佳的模型。值得注意的是,预训练运动表征只需1-2轮微调即可达到最佳性能。

d80b28e6-25f2-11ee-962d-dac502259ad0.jpg

表3. 人体表面网格重建的定量评估。数字代表平均三维位置误差(mm)。

对于人体表面网格重建任务,我们在 Human3.6M[3] 和 3DPW[6]数据集上进行了定量测试。本文的模型超过了此前所有基于视频的方法。此外,所提出的预训练运动表征可以和 RGB 图像的方法相结合并进一步改善其表现。

d8166602-25f2-11ee-962d-dac502259ad0.jpg

图5. 在三个下游任务上随机初始化训练和微调预训练运动表征的学习曲线对比。

我们还比较了微调预训练运动表征和随机初始化训练模型的训练过程。如图5所示,使用预训练运动表征的模型在所有三个下游任务上都具有更好的性能和更快的收敛速度。这表明该模型在预训练期间学习了关于人体运动的可迁移知识,有助于多个下游任务的学习。

04

总 结

在这项工作中,我们提出了:

一个统一的视角以解决各种以人为中心的视频任务。

一个预训练框架以从大规模和多样化的数据源中学习人体运动表征。

一个通用的人体运动编码器 DSTformer 以全面建模人体运动的时空特征。

在多个基准测试上的实验结果证明了学习到的运动表征的多功能性。未来的研究工作可以探索将学习到的运动表征作为一种以人为中心的语义特征与通用视频架构融合,并应用到更多视频任务(例如动作评价、动作分割等)。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    41

    文章

    3362

    浏览量

    131558
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47697
  • 数据源
    +关注

    关注

    1

    文章

    59

    浏览量

    9590

原文标题:ICCV 2023 | 北大提出MotionBERT:人体运动表征学习的统一视角

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    多站低频雷达运动人体微多普勒特征提取与跟踪技术【论文干货】

    多普勒分析方法在叶簇穿透环境下不能得到高质量的慢时间-多普勒谱(Slow Time-Doppler Spectrogram,STDS),也未考虑多个人体微多普勒特征的分离问题。因此本文提出种基于
    发表于 12-20 15:49

    (建议收藏)OpenHarmony系统能力SystemCapability列表

    是 是 是 是 否 否 SystemCapability.UserIAM.UserAuth.Core 统一用户认证 Default 运动表 智能表 平板 车机 智慧屏 Smart-Vision Router
    发表于 09-20 18:04

    人体上肢运动表面肌电特征研究

    目的 根据检测的人体上肢表面肌电信号,研究日常生活活动中男性、女性和左右上肢肌肉功能状态的差异性。方法 对20 个被试者的三角肌中部、肱二头肌、肱三头肌、掌长肌和指伸
    发表于 01-22 13:46 18次下载

    基于多区域的人体运动跟踪研究

    针对单区域跟踪快速运动人体易产生漂移的缺点, 本文提出一种基于Kalman Filter 预测的多区域跟踪的新算法。该算法利用Kalman Filter 预测人体各区域, 然后利用颜色直方图匹配算法精确定
    发表于 05-25 15:11 14次下载
    基于多区域的<b class='flag-5'>人体</b><b class='flag-5'>运动</b>跟踪研究

    CASIO登山运动表PRG-110T-使用说明书

    CASIO登山运动表PRG-110T-说明书
    发表于 03-24 17:40 43次下载

    监测人体健康和运动表

    高度微型化的传感器系列,如压电MEMS和光学传感器,使人体监测应用的快速发展,借助高精度模拟和处理芯片,以及最新的IEEE 802.15.6无线体域网的出现(禁止)标准
    发表于 06-20 09:48 23次下载

    基于多区域的人体运动跟踪分析

     针对单区域跟踪快速运动人体易产生漂移的缺点,本文提出一种基于KalmanFilter预测的多区域跟踪的新算法。该算法利用KalmanFilter预测人体各区域,然后利用颜色直方图匹配算法精确定位
    发表于 09-08 15:13 4次下载

    时空特征嵌入结合的运动视频关键帧提取技术

    为提高运动视频关键帧的运动表达能力和压缩率,提出柔性姿态估计和时空特征嵌入结合的运动视频关键帧提取技术。首先,利用人体动作的时间连续性保持建
    发表于 11-28 15:38 1次下载
    时空特征嵌入结合的<b class='flag-5'>运动</b>视频关键帧提取技术

    基于视角相容性的多视角数据缺失补全

    的多视角数据出现视角缺失,这使得一些多视角学习方法无法有效进行,为此。本文提出了一种基于视角相容
    发表于 12-18 10:46 1次下载

    基于块稀疏模型的人体运动模式识别方法

    人体运动模式识别中,传统稀疏表示分类算法未考虑待测试样本相应稀疏系数向量内在块结构相关性信息,影响了算法识别性能。为此,提出一种基于块稀疏模型的人体
    发表于 12-20 15:12 0次下载
    基于块稀疏模型的<b class='flag-5'>人体</b><b class='flag-5'>运动</b>模式识别方法

    基于多视角自步学习人体动作识别方法

    自步学习的动作识别方法采用课程学习的思路,忽略了不同视角动作特征对课程的影响,对多分类的人体两维视频复杂动作识别无法取得满意效果。针对上述问题,提出
    发表于 03-29 17:02 0次下载
    基于多<b class='flag-5'>视角</b>自步<b class='flag-5'>学习</b>的<b class='flag-5'>人体</b>动作识别方法

    小米众筹上架一款智能跑鞋 可强化运动表

    5月30日,今天小米众筹上架了一款自适应科技跑步鞋,号称可根据不同运动状态,发挥“自适应”特性,提供恰到好处的缓震回弹和支撑,强化运动表现。
    发表于 05-31 15:17 2404次阅读

    小米有品推出一款C+86运动表

    7月29日消息,小米有品推出一款C+86运动表,采用进口机芯金属,还有多功能计时表盘。
    发表于 07-30 15:00 1224次阅读

    视角构建全局统一、云边融合调度管理体系

    视角为中国铀业部署了1个汇聚管理中心、16处地方推理平台、43处野外算力节点,实现了「云—边—端」整体资源布局,构建了全局统一、云边融合的调度管理体系。
    的头像 发表于 04-29 11:25 1276次阅读

    稠密向量检索的Query深度交互的文档多视角表征

    今天给大家带来一篇北航和微软出品的稠密向量检索模型Dual-Cross-Encoder,结合Query生成和对比学习技术,将文档与生成的不同伪query进行深度交互学习构建文档的不同视角表征
    的头像 发表于 08-18 15:37 1359次阅读