0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

完整关注跨模态转换器网络

Tensorflowers 来源:TensorFlow 作者:Shan Yang、Angjoo Ka 2021-10-15 10:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

舞蹈是几乎所有文化中的一种通用语言,也是如今许多人在当代媒体平台上表达自己的一种方式。跳舞的能力(组织形成与音乐节拍一致的动作模式)是人类行为的一个基本方面。然而,舞蹈是一种需要练习的艺术形式。事实上,舞者若要创造极具表现力的编舞 (Choreography),就需要丰富的舞蹈动作,而这通常需要进行专业训练。这个过程对人来说很困难,对机器学习 (ML) 模型来说则更具挑战性,因为这项任务要求能够产生具有高度运动学复杂性的连续动作,同时捕捉到动作和伴奏音乐之间的非线性关系。

在“ AIChoreographer:利用 AIST++ 生成音乐条件下的 3D 舞蹈 (AIChoreographer:Music-Conditioned 3D Dance Generation with AIST++) ”一文中(载于 ICCV 2021),我们提出了一个完整关注 (Attention) 跨模态转换器 (FACT) 模型,此模型可以模仿和理解舞蹈动作,甚至可以提高用户的编舞能力。提出该模型的同时,我们发布了一个大规模的多模态 3D 舞蹈动作数据集 AIST++,该数据集包含 5.2 小时的 3D 舞蹈动作,分为 1408 个序列,涵盖了 10 种舞蹈类型,每个类型都包括从已知相机位置方向拍摄的多视角视频。通过对 AIST++ 进行广泛用户研究,我们发现 FACT 模型无论在质量还是数量上都优于日前领先的方法。

我们提出了一个新颖的完整关注跨模态转换器 (FACT) 网络,可以在音乐和新的 3D 舞蹈数据集 AIST++(左)的条件下生成真实的 3D 舞蹈动作(右)

AIChoreographer:利用 AIST++ 生成音乐条件下的 3D 舞蹈

https://google.github.io/aichoreographer/

AIST++

https://google.github.io/aistplusplus_dataset/

我们根据现有的 AIST 舞蹈数据库生成了建议的 3D 运动数据集,该数据集是一个有音乐伴奏的舞蹈视频集合,但没有任何 3D 信息。AIST 包含 10 种舞蹈类型:旧学派(霹雳、机械舞、锁舞和威金)和新学派(Middle Hip-Hop、LA-style Hip-Hop、House、Krump、Street Jazz 和 Ballet Jazz)。虽然其中包含了舞者的多视角视频,但这些相机并没有经过校准。

为了实现目的,我们根据广泛使用的 SMPL 3D 模型所使用的参数恢复了相机校准参数和 3D 人体动作。由此产生的数据库 (AIST++) 是一个大规模的 3D 人类舞蹈动作数据集,包含了与音乐相配的各种各样的3D 动作,每一帧都包含大量的注释:

9 个相机内在和外在参数的视图;

17 个 COCO 格式的人体关节位置(2D 和 3D 形式);

24 个 SMPL 姿势参数,带有全局缩放和平移。

这些动作在所有的 10 种舞蹈类型中平均分布,涵盖了以每分钟节拍 (BPM) 为单位的各种音乐节奏。每种类型的舞蹈包含 85% 的基本动作和 15% 的高级动作(由舞者自由设计的较长编舞)。

AIST++ 数据集还包含多视角同步图像数据,使其对其他研究方向(例如 2D/3D 姿势预测)很有帮助。据我们所知,AIST++ 是截止目前最大的 3D 人类舞蹈数据集,包含 1408 个序列、30 个主题和 10 个舞蹈类型,并同时包含基本和高级的编舞。

由于 AIST 是一个教学数据库,因此它记录了在不同音乐和各种 BPM 下遵循相同编舞的多个舞者,这是舞蹈中常见的做法。这给跨模态序列到序列的生成带来了独特挑战,因为该模型需要学习音频和动作之间的一对多映射。我们在 AIST++ 上精心构建了不重叠的训练和测试子集,以确保在子集之间编舞和音乐都不相同。

全注意力跨模态转换器

(FACT) 模型

我们利用这些数据训练 FACT 模型,以便根据音乐生成 3D 舞蹈。该模型首先使用单独的动作和音频转换器对种子动作和音频输入进行编码。然后,将嵌入向量串联起来并发送给跨模态转换器,该转换器学习两种模态之间的对应关系并生成 N 个未来动作序列。随后利用这些序列以自我监督 (Self-supervised learning) 的方式来训练模型。所有三个转化器都是联合学习的端到端。进行测试时,我们在一个自回归 (GPT-3) 框架中应用这个模型,其中预测的动作充当下一个生成步骤的输入。因此,FACT 模型能够逐帧地生成长时间的舞蹈动作。

FACT 网络接收一段音乐 (Y) 和一个 2 秒的种子动作序列 (X),然后生成与输入音乐相关的长时间未来动作

FACT 涉及三个关键的设计选择,对于根据音乐产生真实的 3D 舞蹈动作至关重要。

1. 所有的转换器都使用完整关注掩码,它比典型的因果模型更具表现力,因为内部令牌可以访问所有输入。

2. 我们训练模型来预测当前输入以外的 N 个未来动作,而不是仅仅预测下一个动作。这鼓励网络更多地关注时间背景,并有助于防止模型在几个生成步骤后出现动作停滞或分歧。

3. 我们在早期融合了两个嵌入向量(动作和音频),并采用了一个深度的 12 层跨模态转换器模块,这对于训练一个真正关注输入音乐的模型至关重要。

结果

我们根据三个指标来进行性能评估:

动作质量:我们计算 AIST++ 测试集中的真实舞蹈动作序列和 40 个模型生成的动作序列之间的 Frechet Inception Distance (FID),每个序列有 1200 帧(20 秒)。我们将基于几何和运动特征的 FID 分别表示为 FIDg 和 FIDk。

生成多样性:与此前的研究类似,为了评估模型生成潜水舞蹈动作的能力,我们计算了 AIST++ 测试集上 40 个生成动作的特征空间中的平均欧氏距离,再次比较几何特征空间 (Distg) 和运动特征空间 (Distk)。

动作与音乐的相关性:由于没有设计良好的指标来衡量输入音乐(音乐节拍)和生成的 3D 动作(运动节拍)之间的相关性,我们提出了一个新的指标,称为节拍对齐得分 (BeatAlign)。

生成舞蹈动作的运动速度(蓝色曲线)和运动节拍(绿色虚线),以及音乐节拍(橙色虚线)

提取运动节拍的方式是从运动速度曲线中找到局部最小值

定量评估

我们将 FACT 在这些指标方面的表现与其他最先进的方法进行比较。

我们还通过一项用户研究,对动作与音乐的相关性进行了感知评估,在这项研究中,我们要求各位参与者观看 10 个视频,视频中包含我们的一个成果和一个随机的对照输出,然后选择哪个舞者与音乐更同步。这项研究包括 30 名参与者,从专业舞者到很少跳舞的人都有。与每个基线相比,81% 的人认为 FACT 模型的输出优于 Li et al. 的输出,71% 的人认为 FACT 优于 Dancenet,77% 的人认为它优于 Dance Revolution。有趣的是,75% 的参与者更喜欢未配对的 AIST++ 舞蹈动作,而不是 FACT 生成的动作,这并不奇怪,因为原始舞蹈动作具有高度表现力。

定性结果

与 DanceNet(左图)和 Li et. al.(中图)等之前的方法相比,使用 FACT 模型(右图)生成的 3D 舞蹈更加逼真,与输入音乐有更高的相关性。

结论和讨论

我们提出的模型不仅可以学习音频和动作的对应关系,还可以根据音乐生成高质量的 3D 动作序列。根据音乐生成 3D 动作是一个新兴的研究领域,我们希望这项研究能够为未来的跨模态音频到 3D 动作生成铺平道路。我们还发布了 AIST++,这是迄今为止最大的 3D 人类舞蹈数据集。本文提出的多视角、多类型、跨模态 3D 动作数据集不仅有助于有条件 3D 动作生成方面的研究,还可以帮助一般的人类理解研究。我们将在 GitHub 代码库中发布代码,并在此处发布训练好的模型。

虽然我们的研究结果为音乐条件下的 3D 动作生成问题指出了一个有前景的方向,但尚有更多可探索的空间。首先,我们的方法是基于运动学的,且我们没有推理出舞者和地板之间的物理学相互作用。因此,全局平移可能会导致伪影,如脚部的滑动和悬浮。第二,我们的模型目前具有确定性。探索如何根据每段音乐产生多种真实舞蹈,这一研究方向极具潜力。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 转换器
    +关注

    关注

    27

    文章

    9448

    浏览量

    156954
  • 3D
    3D
    +关注

    关注

    9

    文章

    3022

    浏览量

    115559
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95014

原文标题:利用 AIST++ 生成音乐条件下的 3D 舞蹈

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索Enpirion EP5368QI DC/DC转换器模块评估板

    EP5368QI转换器,深入了解其特点和使用方法。 文件下载: EVB-EP5368QI.pdf 一、EP5368QI转换器概述 EP5368QI转换器属于新一代DC/DC转换器产品,
    的头像 发表于 03-29 14:30 140次阅读

    网络分析仪测量DC-DC转换器的反馈环路特征

    系统阐述如何利用网络分析仪对DC-DC转换器的反馈环路特征进行精确测量,涵盖基本原理、测量方法、配置示例及实际操作中的关键注意事项。 图 1. DC-DC 转换器的基本工作原理 在深入测量方法之前,需理解DC-DC
    的头像 发表于 03-04 15:02 330次阅读
    用<b class='flag-5'>网络</b>分析仪测量DC-DC<b class='flag-5'>转换器</b>的反馈环路特征

    降压转换器与LDO的优劣对比

    本文将继续介绍降压转换器的自发热效应考量、降压转换器与LDO的优劣对比等。
    的头像 发表于 02-25 15:37 509次阅读
    降压<b class='flag-5'>转换器</b>与LDO的优劣对比

    电子工程师视角:LTC1555L 电源转换器与电平转换器的深度剖析

    电子工程师视角:LTC1555L 电源转换器与电平转换器的深度剖析 在当今电子设备飞速发展的时代,低电压设备与高电压模块之间的通信和供电问题成为了工程师们关注的焦点。为了解决这一问题,Linear
    的头像 发表于 02-12 10:45 434次阅读

    IP转换器解决PLC网段通信难题

    信息化管理平台得不到数据支持。 通常,工厂就需要向PLC厂家去要求修改IP地址,一方面需要工程师现场操作,耗时长、成本高;另一方面也会遇到IP固定无法修改的窘境,十分容易影响到工厂的生产效率。物通博联(WideIoT)通过部署IP转换器
    的头像 发表于 02-11 15:14 397次阅读
    IP<b class='flag-5'>转换器</b>解决PLC<b class='flag-5'>跨</b>网段通信难题

    振弦信号转换器 多输出与导轨安装

    转换器
    稳控自动化
    发布于 :2026年02月05日 14:49:18

    北斗信号转发 多通道GNSS卫星信号转发介绍 gps信号转换器

    转换器
    jf_47371611
    发布于 :2026年01月23日 10:27:08

    如何使用多相升压转换器

    当系统需要的电压高于可用电压时,升压转换器是满足这一需求的理想选择。然而,经典的标准升压拓扑结构并非唯一方案。一种更优的解决方案或许是移相多相升压转换器。这类转换器在高负载工况下效率更高,同时能降低输入及输出电容值。
    的头像 发表于 01-20 10:02 3639次阅读
    如何使用多相升压<b class='flag-5'>转换器</b>

    国产电平转换器双雄登场!GS0104/GS0108 如何破解多场景电压适配难题?

    电平转换器
    聚洵半导体科技
    发布于 :2025年12月22日 14:27:36

    模数转换器最高使用频段

    模数转换器最高使用频段模数转换器(ADC)的最高使用频段取决于其采样率、输入带宽及具体应用场景,部分高性能ADC的最高使用频段可达W波段(80-100GHz)。一、采样率与奈奎斯特采样定理采样率
    发表于 12-16 09:58

    422/BISS/SSI转485/232模拟防真信号转换器

    信号转换器
    IBF贝福
    发布于 :2025年12月06日 15:22:38

    ‌ADS8517 16位模数转换器技术文档总结

    该ADS8517是一个完整的低功耗单一5伏电源、16位采样模数转换器。它包含一个完整的16位, 基于电容的逐次近似寄存(SAR)A/D转换器
    的头像 发表于 11-25 09:47 590次阅读
    ‌ADS8517 16位模数<b class='flag-5'>转换器</b>技术文档总结

    斜齿式超声电机定子振动模态的有限元分析

    ,点击下方附件免费获取完整资料~~~ 内容有帮助可以关注、点赞、评论支持一下,谢谢! 【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容,谢谢!
    发表于 07-16 19:04

    环网式CANFD转光纤转换器配置流程#三格电子

    光纤转换器
    三格电子科技
    发布于 :2025年07月03日 14:23:30

    电机联轴控制的旋转机械定转子模态分析

    结构优化具有指导意义。纯分享帖,需要者可点击附件获取完整资料~~~*附件:电机联轴控制的旋转机械定转子模态分析.pdf 【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删
    发表于 04-24 21:07