一种简单的“动作迁移法”-电子发烧友网

伯克利的研究人员提出了一种简单的“动作迁移法”，可以将源视频中一个人的动作和姿态，迁移到新的视频对象上，让后者也具有同样流畅优美的动作，整个过程只需要几分钟就成完成。

说起去年让“马变斑马”的CycleGAN，大家应该还记忆犹新。

CycleGAN利用pixel2pixel技术，能自动将某一类图片转换成另外一类图片，过度真实自然，可以说是2017年最受关注的模型之一。CycleGAN论文的第一作者、加州大学伯克利分校的朱俊彦（现已在MIT CSAIL担任博士后），也由此获得了SIGGRAPH 2018的杰出博士论文奖。

现在，同样是伯克利的Caroline Chan、ShiryH Ginosar、Tinghui Zhou、Alexel A. Efros提出了或许更有意思的一篇论文，不仅是图像，而是实现不同视频之间的人物动作姿态转换，而且面部也能逼真合成效果，整个过程只需要几分钟就能完成。

将专业舞者的动作迁移到其他人身上，让每个人都能成为顶级舞者

作者在论文摘要中这样介绍：

本文提出一种简单的 “跟我做”（do as I do）的动作迁移方法：给定一个人跳舞的源视频，我们可以在目标人物表演标准动作几分钟后将该表演迁移到一个新的目标身上（业余舞者）。

我们将这个问题视为一个具有时空平滑的每帧 image-to-image 转换问题。利用姿势检测作为原和目标之间的中间表示，我们学习了从姿势图像到目标对象外观的映射。

我们利用这样的设置实现了连贯时间的视频生成，并且包括逼真的面部合成。

基于人体姿态关键点，实现视频间不同主体的复杂动作

伯克利研究者提出了一种在不同视频中转移人体动作的方法。

他们要实现的目的很简单——给定两个视频：一个是目标人物，我们想合成他的表演；另一个是源视频，我们想将他的动作转移到目标人物身上。

这与过去使用最近邻搜索或 3D 重定向运动的方法不同。在伯克利研究人员提出的框架下，他们制作了各种各样的视频，让业余舞蹈爱好者能够像芭蕾舞演员一样旋转、跳跃，表演武术，跳舞。

最初，为了逐帧地在两个视频的主体之间迁移运动，研究人员认为他们必须学习两个人的图像之间的映射。因此，目标是在源集和目标集之间发现图像到图像的翻译（image-to-image translation）。

但是，他们并没有用两个实验对象对应的相同动作来直接监督学习这种翻译。即使两个实验对象都做同样的动作，由于每个实验对象的体型和风格差异，仍然不太可能有帧到帧的 body-pose 对应的精确框架。

于是，他们观察了基于人体姿态关键点（keypoint），关键点本质上是编码身体的位置而不是外观，可以作为任何两个主体之间的中间表示。而姿势可以随着时间的推移保持动作特征，同时尽可能地抽象出对象身份标识。因此，我们将中间的表示设计为火柴人自试图，如下图所示。

将源视频中人物（左上）动态的姿态关键点（左下）作为转化，迁移到目标视频人物（右）。

从目标视频中，我们得到每一帧的姿势检测，得到一组（姿势火柴人，目标人物形象）的对应数据。有了这些对齐的数据，我们就可以在有监督的情况下，学习一种在火柴人和目标人物图像之间的 image-to-image 的转换模型。

因此，的模型经过训练，可以生成特定目标对象的个性化视频。然后，将动作从源迁移到目标，将姿势火柴人图形输入到训练模型中，得到与源姿势相同的目标对象的图像。

为了提高结果的质量，研究人员还添加了两个组件：

为了提高生成的视频的时间平滑度，我们在每一帧都将预测设置在前一帧的时间步长上。

为了在结果中增加人脸的真实感，我们加入了一个专门训练来生成目标人物面部的 GAN。

这种方法生成的视频，可以在各种视频主体之间迁移运动，而无需昂贵的 3D 或动作捕捉数据。

作者在论文中写道：“我们的主要贡献是一个基于学习的视频之间人体运动迁移的 pineline，所得结果的质量展示了现实的详细视频中的复杂运动迁移。”

选一个你喜欢的舞蹈视频，以及你自己动几下的视频，一键转换！

首先，我们需要准备两种视频素材：

一个是你理想舞者表演的视频：

一个是你自己随性 “凹” 出的动作视频：

最终的目标，就是让你能够跳出梦寐以求的曼妙舞姿：

为了实现这一目标，可以将 pipeline 分为三个阶段：

1、姿势检测：根据源视频中给定的帧，使用预训练好的姿势检测器来制作姿势线条图；

2、全局姿势归一化：该阶段考虑了源视频与目标视频中人物身形的不同，以及在各自视频中位置的差异；

3、将归一化的姿势线条图与目标人物进行映射：该阶段通过对抗性学习设计了一个系统，来将归一化的姿势线条图与目标人物进行映射。

完整的训练过程

模型根据源视频中给定的帧，使用预训练好的姿势检测器 P 来制作姿势线条图。在训练期间，学习了一种映射 G 和一个对抗性鉴别器 D，来试图区分哪些匹配是真，哪些是假。

完整的转换过程

模型使用一个姿势检测器 P : Y′ → X′来获取源视频中人物的姿势关节，这些关节通过归一化，转换为姿势条形图中目标人物的关节。而后，我们使用训练好的映射 G。

增加人脸真实感：图像到图像转换的对抗训练

好了，现在“炫酷舞姿”的问题解决了，剩下的就是将目标视频中因为动作改变而随之模糊的脸部变得更加逼真而清晰。

为了实现这一点，研究人员将 pix2pixHD 的对抗性训练设置修改为:

(1) 产生时间相干视频帧;

(2) 合成逼真的人脸图像。

接下来将详细描述原始目标和对它的修改。

pix2pixHD 框架

方法是基于 pix2pixHD 中的目标提出来的。在初始条件 GAN 设置中，生成器网络 G 对多尺度鉴别器 D = (D1,D2,D3) 进行极大极小博弈。

其中，是对抗性损失：

让动作更加连贯

时间平滑（Temporal Smoothing）设置

Face GAN

我们添加了一个专门的 GAN 设置，用于为面部区域添加更多细节和真实感，如下图所示。

Face GAN 设置

在 Face GAN 中，通过生成器预测残差，并将其添加到来自主生成器的原始面部预测中。

更进一步：从pix2pix到pix2pixHD

我们探讨了对 pix2pixHD baseline 的修改效果，并根据收集的数据集评估结果的质量。

迁移的结果。每个部分显示 5 个连续的帧。上面一行显示 source subject，中间一行显示规范化的 pose stick figures，下面一行显示目标人物的模型输出。

不同模型合成结果的比较

人人都能在几分钟之内，成为世界顶级舞者

总的来说，新的这个动作迁移模型能够创建合理的、将任意长度的目标人物跳舞的视频，其中他们的舞姿跟随另一个跳舞者的输入视频。虽然我们的设置在很多情况下都可以产生可信的结果，但偶尔会遇到几个问题。

从根本上说，作为输入的 pose stick figures 依赖于噪声姿态估计，这些估计不会逐帧携带时间信息。在姿势检测中丢失关键点，关键点位置不正确，会将错误引入到输入中，并且这些失败通常会延续到结果中，虽然我们尝试了通过时间平滑设置来减轻这些限制。但即使我们试图在设置中注入时间连贯性（temporal coherence），以及预平滑关键点，结果经常仍然会受到抖动的影响。

虽然我们的全局姿势归一化方法合理地调整了任何源对象的运动，使其与训练中看到的目标人物的体型和位置相匹配，但这种简单缩放和平移解决方案并未考虑不同的肢长和摄像机位置或角度。这些差异也会导致在训练和测试时看到的运动之间存在更大的差距。

另外，2D 坐标和缺失检测限制了在对象之间重新定位运动的方式，这些方法通常在 3D 中工作，需要有完美的关节位置和时间连贯运动。

为了解决这些问题，需要在时间上连贯的视频生成和人体运动表示方面做更多的工作。虽然整体上 pose stick figures 产生了令人信服的结果，但我们希望在未来的工作中,通过使用为运动迁移特别优化的时间连贯输入和表示来避免它所带来的限制。

尽管存在这些挑战，但我们的方法能够在给出各种输入的情况下制作吸引人的视频。

难度被誉为最高的芭蕾舞黑天鹅48圈转，可以换上自己的脸，想想还是有些小激动呢。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1063

浏览量
40041
迁移

迁移

+关注

关注
0

文章
32

浏览量
7889

原文标题：【超越CycleGAN】这个人体动态迁移技术让白痴变舞王（视频）

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

鸿蒙OS 跨设备迁移

跨设备迁移（下文简称“迁移”）支持将 Page 在同一用户的不同设备间迁移，以便支持用户无缝切换的诉求。以 Page 从设备 A 迁移到设备 B 为例，

发表于 01-31 15:47 •855次阅读

一分钟，自动完成Redis数据迁移

NineData提供了高效、安全的Redis不停机数据迁移方案。与传统迁移方案相比，NineData具备简单易用、强劲性能和高可靠性的优势。通过优化核心技术，NineData的迁移性能

发表于 01-08 11:34 •188次阅读

什么是EM电迁移？它带来的影响有哪些？

电迁移简写为EM，electromigration，这是一种很基本的电学现象，可能在电路课上讲的少，反而物理课上会听过。

发表于 12-06 15:29 •523次阅读

详解半导体中的银迁移现象

半导体设备中的一种现象—银迁移（SilverMigration）对可靠性（由于银涂层、银焊接和金属银作为电极，绝缘电阻会降低，最终形成短路，导致故障）的影响。当然，这种金属迁移不仅发生在银上，还发生在其他金属元素（铅、铜、锡、金

发表于 11-06 13:05 •734次阅读

高效mongodb迁移工具，NineData实现数据迁移不停机# 工欲善其事必先利其器，晒一晒你的工具库

数据迁移

数据库小组

发布于 :2023年10月26日 10:33:06

常见的ARM架构分为两种一种是M系列另外一种是A系列，这两种有什么区别啊？

现在市面上常见的ARM架构分为两种一种是M系列另外一种是A系列，这两种有什么区别啊，用的时候他们一般分别用在什么地方啊。

发表于 10-26 07:00

请问IAR中的sizeof是一种运算符吗？

IAR中的sizeof是一种运算符吗？是怎么实现的？

发表于 10-08 06:44

一种脉冲信号载波频率同步环及FPGA实现

对脉冲信号载波频率的同步问题，提出一种快速高精度的数字锁频环路。该环路采用改进的相位差分频率估计算法进行快速载波频率粗估计，其信噪比阚值低于Kay法，在信噪比偏低时也能达到Cramer-Rao界

发表于 09-20 08:28

一种高精度电子秤的设计

能够达到较高的准确度和可靠性，但他们使用的称重传感器的成本都非常高，这样就使得整机的成本过高。由于这些不足之处的存在，本研究设计一种高精度、低成本的电子秤。该设计采用HX711芯片对传感器输出的信号进行放大和模数转换，采用中位值平均滤波法进行滤波。

发表于 09-19 07:44

从电源架构迁移到ARM的应用说明

本文档的目的是强调那些参与将软件应用程序从Power架构迁移到ARM平台的人员感兴趣的领域。本文并不试图将一种体系结构提升到另一种体系结构之上，只是为了清楚地解释将现有软件应用程序从一种

发表于 08-22 06:09

如何使用Neon intrinsic的矢量处理代码迁移到氦intrinsic

本指南旨在帮助任何将使用霓虹灯内部函数的现有矢量处理代码迁移到氦内部函数的人。我们将研究不同复杂度的霓虹灯代码示例，并研究如何将该霓虹灯代码迁移到氦。通过研究这些示例，您将了解一些通用的迁移

发表于 08-02 07:39

是否有一种简单的方法将esp连接到openhab并发送特殊命令？

嗨，（首先抱歉我的英语不好）一个月以来我一直在玩 ESP，我真的很喜欢它！但现在我想更进一步，将 ESP 连接到 Openhab 并控制灯、RGB-LED 等。所以我的问题：是否有一种

发表于 05-24 08:14

一种简单的报错设计，分享

一种简单的报错设计，可在次基础上增加。冲突阻挡重复不在工位不在岗计时不准范围外强停其它

发表于 05-20 20:07

是否有一种“简单”的方法来增加允许的“打开”文件的最大数量？

问题：是否有一种“简单”的方法来增加允许的“打开”文件的最大数量（=====>SPIFFS）我在 esp8266 HTML 页面上使用#include

发表于 05-15 07:21

如何利用PLC实现简单的搬运动作

今天咱们来谈一谈如何利用PLC来实现简单的搬运动作。这个例子完美地用到了顺序控制的指令，实际应用起来真的是非常方便，程序循环控制起来也是得心应手！

发表于 05-10 10:07 •619次阅读

搜索历史

一种简单的“动作迁移法”

评论

鸿蒙OS 跨设备迁移

一分钟，自动完成Redis数据迁移

什么是EM电迁移？它带来的影响有哪些？

详解半导体中的银迁移现象

高效mongodb迁移工具，NineData实现数据迁移不停机# 工欲善其事必先利其器，晒一晒你的工具库

常见的ARM架构分为两种一种是M系列另外一种是A系列，这两种有什么区别啊？

请问IAR中的sizeof是一种运算符吗？

一种脉冲信号载波频率同步环及FPGA实现

一种高精度电子秤的设计

从电源架构迁移到ARM的应用说明

如何使用Neon intrinsic的矢量处理代码迁移到氦intrinsic

是否有一种简单的方法将esp连接到openhab并发送特殊命令？

一种简单的报错设计，分享

是否有一种“简单”的方法来增加允许的“打开”文件的最大数量？

如何利用PLC实现简单的搬运动作