0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

智能感知与物联网技术研究所 来源:未知 2023-09-10 22:30 次阅读

人体动作生成任务旨在生成逼真的人体动作序列,以满足娱乐、虚拟现实、机器人技术等领域的需求。传统的生成方法包括 3D 角色创建、关键帧动画和动作捕捉等步骤,其存在诸多限制,如耗时较长,需要专业技术知识,涉及昂贵的系统和软件,不同软硬件系统之间可能存在兼容性问题等。随着深度学习的发展,人们开始尝试使用生成模型来实现人体动作序列的自动生成,例如通过输入文本描述,要求模型生成与文本要求相匹配的动作序列。随着扩散模型被引入这个领域,生成动作与给定文本的一致性不断提高。

然而,生成动作的自然程度离使用需求仍有很大差距。为了进一步提升人体动作生成算法的能力,本文在 MotionDiffuse [1] 的基础上提出了 ReMoDiffuse 算法(图 1),通过利用检索策略,找到高相关性的参考样本,提供细粒度的参考特征,从而生成更高质量的动作序列。

wKgaomT91ByAJfNFAAFXJu_whUs405.png

  • 论文链接:https://arxiv.org/pdf/2304.01116.pdf

  • GitHub:https://github.com/mingyuan-zhang/ReMoDiffuse

  • 项目主页:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

通过巧妙地将扩散模型和创新的检索策略融合,ReMoDiffuse 为文本指导的人体动作生成注入了新的生命力。经过精心构思的模型结构,ReMoDiffuse 不仅能够创造出丰富多样、真实度高的动作序列,还能有效地满足各种长度和多粒度的动作需求。实验证明,ReMoDiffuse 在动作生成领域的多个关键指标上表现出色,显著地超越了现有算法。

wKgaomT91ByAZF-fAAIVPX6J5mM831.png

图 1. ReMoDiffuse 概览

方法介绍

ReMoDiffuse 主要由两个阶段组成:检索和扩散。在检索阶段,ReMoDiffuse 使用混合检索技术,基于用户输入文本以及预期动作序列长度,从外部的多模态数据库中检索出信息丰富的样本,为动作生成提供强有力的指导。在扩散阶段,ReMoDiffuse 利用检索阶段检索到的信息,通过高效的模型结构,生成与用户输入语义一致的运动序列。

为了确保高效的检索,ReMoDiffuse 为检索阶段精心设计了以下数据流(图 2):

共有三种数据参与检索过程,分别是用户输入文本、预期动作序列长度,以及一个外部的、包含多个 < 文本,动作 > 对的多模态数据库。在检索最相关的样本时,ReMoDiffuse 利用公式wKgaomT91ByAJvU7AABIc-hXsEw192.jpg计算出每个数据库中的样本与用户输入的相似度。这里的第一项是利用预训练的 CLIP [2] 模型的文本编码器对用户输入文本和数据库实体的文本计算余弦相似度,第二项计算预期动作序列长度和数据库实体的动作序列长度之间的相对差异作为运动学相似度。计算相似度分数后,ReMoDiffuse 选择相似度排名前 k 的样本作为检索到的样本,并提取出文本特征wKgaomT91ByAERawAAAc-TaYXRo557.jpg,和动作特征wKgaomT91B2APqtpAAAgTdunvyo004.jpg。这两者和从用户输入的文本中提取的特征wKgaomT91B2AKwE8AAAszx0bnmc131.jpg一同作为输入给扩散阶段的信号,指导动作生成

wKgaomT91B2AT9ZKAAIx47aDiPw641.png

图 2:ReMoDiffuse 的检索阶段

扩散过程(图3.c)由正向过程和逆向过程两个部分组成。在正向过程中,ReMoDiffuse 逐步将高斯噪声添加到原始动作数据中,并最终将其转化为随机噪声。逆向过程专注于除去噪声并生成逼真的动作样本。从一个随机高斯噪声开始,ReMoDiffuse 在逆向过程中的每一步都使用语义调制模块(SMT)(图3.a)来估测真实分布,并根据条件信号来逐步去除噪声。这里 SMT 中的 SMA 模块将会将所有的条件信息融入到生成的序列特征中,是本文提出的核心模块。

wKgaomT91B2ASSzuAAJAGhFuaLk707.png

图 3:ReMoDiffuse 的扩散阶段

对于 SMA 层(图 3.b),我们使用了高效的注意力机制(Efficient Attention)[3] 来加速注意力模块的计算,并创造了一个更强调全局信息的全局特征图。该特征图为动作序列提供了更综合的语义线索,从而提升了模型的性能。SMA 层的核心目标是通过聚合条件信息来优化动作序列wKgaomT91B2ABzoxAAAdxhjtZao260.jpg的生成。在这个框架下:

1.Q 向量具体地代表了我们期望基于条件信息生成的预期动作序列wKgaomT91B2ABzoxAAAdxhjtZao260.jpg

2.K 向量作为一种索引机制综合考虑了多个要素,包括当前动作序列特征wKgaomT91B2ABzoxAAAdxhjtZao260.jpg、用户输入的语义特征wKgaomT91B2AKwE8AAAszx0bnmc131.jpg,以及从检索样本中获取的特征wKgaomT91B2APqtpAAAgTdunvyo004.jpgwKgaomT91ByAERawAAAc-TaYXRo557.jpg其中,wKgaomT91B2APqtpAAAgTdunvyo004.jpg表示从检索样本中获取的动作序列特征,wKgaomT91ByAERawAAAc-TaYXRo557.jpg表示从检索样本中获取的文描述特征。这种综合性的构建方式保证了 K 向量在索引过程中的有效性。

3.V 向量提供了动作生成所需的实际特征。类似 K 向量,这里 V 向量也综合考虑了检索样本、用户输入以及当前动作序列。考虑到检索样本的文本描述特征与生成的动作之间没有直接关联,因此在计算 V 向量时我们选择不使用这一特征,以避免不必要的信息干扰。

结合 Efficient Attention 的全局注意力模板机制,SMA 层利用来自检索样本的辅助信息、用户文本的语义信息以及待去噪序列的特征信息,建立起一系列综合性的全局模板,使得所有条件信息能够被待生成序列充分吸收。

实验及结果

我们在两个数据集 HumanML3D [4] 和 KIT-ML [5] 上评估了 ReMoDiffuse。在与文本的一致性与动作质量两个角度上,实验结果(表 1、2)展示了我们提出的 ReMoDiffuse 框架的强大性能和优势。

wKgaomT91B2AJZskAAOGmlEXtww746.png

表 1. 不同方法在 HumanML3D 测试集上的表现

wKgaomT91B2ASgAKAAHjqaBlL_o118.png

表 2. 不同方法在 KIT-ML 测试集上的表现

以下是一些能定性展示 ReMoDiffuse 的强大性能的示例(图 4)。与之前的方法相比,例如,在给定文本 “一个人在圆圈里跳跃” 时,只有 ReMoDiffuse 能够准确捕捉到 “跳跃” 动作和 “圆圈” 路径。这表明 ReMoDiffuse 能够有效地捕捉文本细节,并将内容与给定的运动持续时间对齐。

wKgaomT91B6AWLC-AAQ2rL4uyGM058.png

图 4. ReMoDiffuse 生成的动作序列与其他方法生成的动作序列的比较

我们对 Guo 等人的方法 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所生成的相应动作序列进行了可视化展示,并以问卷形式收集测试参与者的意见。结果的分布情况如图 5 所示。从结果中可以清晰地看出,在大多数情况下,参与测试者认为我们的方法 —— 即 ReMoDiffuse 所生成的动作序列在四个算法中最贴合所给的文本描述,也最自然流畅。

wKgaomT91B6ANVwDAAEHvu5tSPY908.png

图 5:用户调研的结果分布

引用

[1] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. Motiondiffuse: Text-driven human motion generation with diffusion model. arXiv preprint arXiv:2208.15001, 2022.

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2022.

[5] Matthias Plappert, Christian Mandery, and Tamim Asfour. The kit motion-language dataset. Big data, 4 (4):236–252, 2016.

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.


原文标题:ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2870

    文章

    41662

    浏览量

    358438

原文标题:ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构,旨在实现视频生成的一次性完成,同时保证视频的真实性和
    的头像 发表于 02-04 13:49 595次阅读

    基于DiAD扩散模型的多类异常检测工作

    现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近,扩散模型因其强大的生成能力而闻名,因此本文作者希望通过扩散
    的头像 发表于 01-08 14:55 424次阅读
    基于DiAD<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的多类异常检测工作

    3D人体生成模型HumanGaussian实现原理

    在 3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程,如 3D 人体模型回归、绑定、蒙皮、纹理贴图
    的头像 发表于 12-20 16:37 599次阅读
    3D<b class='flag-5'>人体</b><b class='flag-5'>生成</b><b class='flag-5'>模型</b>HumanGaussian实现原理

    亚马逊云科技全面发力生成式AI 2023 re:Invent中国行开启

    北京2023年12月12日 /美通社/ -- 亚马逊云科技在2023 re:Invent全球大会上围绕底层基础设施、生成式人工智能(AI)、数据战略等推出了一系列新服务及功能,以创新性的技术
    的头像 发表于 12-12 16:13 427次阅读

    如何在PyTorch中使用扩散模型生成图像

    除了顶尖的图像质量,扩散模型还带来了许多其他好处,包括不需要对抗性训练。对抗训练的困难是有据可查的。在训练效率的话题上,扩散模型还具有可伸缩
    发表于 11-22 15:51 338次阅读
    如何在PyTorch中使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b><b class='flag-5'>生成</b>图像

    什么是检索增强生成

    检索增强 生成是一种使用从外部来源获 取的事实,来提高生成式 AI 模型准确性和可靠性的技术。 为了理解这一生成式 AI 领域的最新进展,让
    的头像 发表于 11-16 21:15 623次阅读
    什么是<b class='flag-5'>检索</b>增强<b class='flag-5'>生成</b>?

    基于检索的大语言模型简介

    简介章节讲的是比较基础的,主要介绍了本次要介绍的概念,即检索(Retrieval)和大语言模型(LLM)
    的头像 发表于 11-15 14:50 357次阅读
    基于<b class='flag-5'>检索</b>的大语言<b class='flag-5'>模型</b>简介

    ICCV 2023生成式AI引人瞩目,商汤多项技术突破展现中国“创新力”

    2160篇被接收,录用率为26.8%,略高于上届ICCV 2021录用率25.9%。 商汤科技及联合实验室共 49篇 论文入选,涵盖 文生图、3D数字人、自动驾驶、目标检测、视频分割 等多个与大模型生成
    的头像 发表于 10-04 18:50 678次阅读
    <b class='flag-5'>ICCV</b> <b class='flag-5'>2023</b><b class='flag-5'>生成</b>式AI引人瞩目,商汤多项技术突破展现中国“创新力”

    DDFM:首个使用扩散模型进行多模态图像融合的方法

    近来去噪扩散概率模型 Denoising diffusion probabilistic model (DDPM)在图像生成中获得很多进步,通过对一张noise-corrupted图像恢复为干净图像的
    的头像 发表于 09-19 16:02 1604次阅读
    DDFM:首个使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>进行多模态图像<b class='flag-5'>融合</b>的方法

    顶刊TPAMI 2023生成式AI与图像合成综述发布!

    近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的DALLE-2和Imagen都是基于扩散模型实现的。相比于GAN,扩散
    的头像 发表于 09-05 16:06 449次阅读
    顶刊TPAMI <b class='flag-5'>2023</b>!<b class='flag-5'>生成</b>式AI与图像合成综述发布!

    如何加速生成2 PyTorch扩散模型

    加速生成2 PyTorch扩散模型
    的头像 发表于 09-04 16:09 823次阅读
    如何加速<b class='flag-5'>生成</b>2 PyTorch<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>

    清华&amp;西电提出HumanMAC:人体动作预测新范式

    人体动作预测是计算机视觉和图形学中的一个经典问题,旨在提升预测结果的多样性、准确性,并在自动驾驶、动画制作等多领域有非常多具体的应用。本研究梳理了今年来大家对于该问题的建模方式,认为以往的大多数工作对于动作预测任务都是使用一种e
    的头像 发表于 07-17 16:56 313次阅读
    清华&amp;西电提出HumanMAC:<b class='flag-5'>人体</b><b class='flag-5'>动作</b>预测新<b class='flag-5'>范式</b>

    基于扩散模型的图像生成过程

    近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。 不过仅凭文本来控制图像的生成
    的头像 发表于 07-17 11:00 2113次阅读
    基于<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的图像<b class='flag-5'>生成</b>过程

    英特尔研究院发布全新AI扩散模型,可根据文本提示生成360度全景图

    英特尔研究院宣布与Blockade Labs合作发布LDM3D(Latent Diffusion Model for 3D)模型,这一全新的扩散模型使用生成式AI创建3D视觉内容。LD
    的头像 发表于 06-30 19:50 237次阅读

    英特尔研究院发布全新AI扩散模型,可根据文本提示生成360度全景图

    for 3D)模型,这一全新的扩散模型使用生成式AI创建3D视觉内容。LDM3D是业界领先的利用扩散过程(diffusion proces
    的头像 发表于 06-25 09:19 281次阅读