UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术-电子发烧友网

UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术，让智能体从单一视频中学习人物动作，并生成近乎相同的结果。更重要的是，智能体还能将所学到的技能应用于不同环境中。以下是论智对其博文的编译。

不论是像洗手这样日常的动作，还是表演杂技，人类都可以通过观察学习一系列技能。随着网络上越来越多视频资源的出现，想找到自己感兴趣的视频比之前更容易了。在YouTube，每分钟都有300小时的视频上传成功。但是，对于机器来说，从如此大量的视觉数据中学习技能仍然困难。大多数动作模仿的学习方法都需要有简洁地表示，例如从动作捕捉获取的记录。但想得到动作捕捉的数据可能也非常麻烦，需要大量设备。另外，动作捕捉系统也仅限于遮挡较少的室内环境，所以有很多无法记录的动作技能。那么，如果智能体可以通过观看视频片段来学习技能，不是很好吗？

在这一项目中，我们提出了一种可以从视频中学习技能的框架，通过结合计算机视觉和强化学习中出现的先进技术，该框架能让智能体学会视频中出现的全部技能。例如给定一段单目视频，其中一个人在做侧手翻或后空翻，该系统的智能体就可以学习这些动作，并重现出一样的行为，无需人类对动作进行标注。

从视频中学习身体动作的技能最近得到很多人的关注，此前的技术大多依靠人们手动调整框架结构，对生成的行为有很多限制。所以，这些方法也仅在有限的几种情境下使用，生成的动作看起来也不太自然。最近，深度学习在视觉模拟领域表现出了良好的前景，例如能玩雅达利游戏,机器人任务

框架

我们提出的框架包含三个阶段：姿态估计、动作重建和动作模拟。在第一阶段，框架首先对输入的视频进行处理，在每一帧预测人物动作。第二步，动作重建阶段会将预测出的动作合并成参考动作，并对动作预测生成的人工痕迹做出修正。最后，参考动作被传递到动作模拟阶段，其中的模拟人物经过训练，可以用强化学习模仿动作。

动作估计

给定一段视频，我们用基于视觉的动作估计器预测每一帧演员的动作qt。该动作预测器是建立在人类网格复原这一工作之上的（akanazawa.github.io/hmr/），它用弱监督对抗的方法训练动作估计器，从单目图像中预测动作。虽然在训练该估计器的时候需要标注动作，不过一旦训练完成，估计器在应用到新图片上时就无需再次训练了。

用于估计人物动作的姿态估计器

动作重建

姿态估计给视频中的每一帧都做出了单独的动作预测，但两帧之间的预测可能会出现抖动伪影。另外，虽然近些年基于是觉得姿态估计器得到了很大进步，但有时它们也可能会出现较大失误。所以，这一步的动作重建就是减少出现的伪影，从而生成更逼真的参考动作，能让智能体更轻易地模拟。为了实现这一点，我们对参考动作进行了优化Q={q0,q1,…,qt}，以满足以下目标：