一种新型深度网络架构可以从过去的动作和观察结果学习以进行自校准-电子发烧友网

人们非常擅长操作物体，而无需将视角调整到某一固定或特定位置。这种能力（称为视觉动作整合）在孩童时期通过在各种情境中操作物体而习得，并由一种利用丰富的感官信号和视觉作为反馈的自适应纠错机制控制。不过，对于机器人技术中基于视觉的控制器而言，想要具备这种能力却十分困难。

直到现在，这种控制器都基于一种用于从固定安装式摄像头读取视觉输入数据的固定装置，训练和测试过程中不能移动或重新调整摄像头的位置。在视角大幅变化的情况下快速获取视觉运动控制技能的能力将对自主机器人系统产生重大影响。例如，这种能力对于参与紧急情况或灾区救援工作的机器人来说尤其必要。

在本周的 CVPR 2018 大会上，我们提交了名为“Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control”的论文。在这篇论文中，我们研究了一种新型深度网络架构（由两个完全卷积网络和一个长短期记忆单元组成），该架构可以从过去的动作和观察结果学习以进行自校准。我们的视觉适应网络利用由演示轨迹和强化学习目标组成的各种模拟数据，能够从各种视角控制机械臂到达各种视觉指示目标，并且不依赖于摄像头校准。

用物理机械臂到达视觉指示目标的视角不变操作

我们学习了一种策略，可以通过从截然不同的摄像头视角捕获的感官输入到达不同的目标

第一行所示为视觉指示目标

挑战

通过从未知视角捕获的单一图像分析可控自由程度(DoF) 对视觉运动的影响可能不够明确和具体。确定动作对图像-空间运动的影响并成功执行所需的任务需要一个具备对过去动作的记忆能力的强大感知系统。要解决这一具有挑战性的问题，我们必须解决以下基本问题：

• 如何提供适当的经验，让机器人在模拟终身学习范式的纯视觉观察的基础上学习自适应行为？

• 如何设计一个集强大感知和自适应控制于一体并能够快速转移到未知环境的模型？

为此，我们设计了一个新的操作任务，为一个七自由度机械臂提供一种物体的图像，并指示它在一系列干扰物中拿到特定的目标物体，同时每一次试验的视角会发生巨大变化。通过这种方式，我们能够模拟复杂行为的学习以及向未知环境的转移。

用物理机械臂和各种摄像头视角完成到达视觉指示目标的任务

利用模拟学习复杂行为

收集机器人经验数据费时费力。在之前的博文中，我们展示了如何通过将数据收集和试验分配给多个机器人来扩展学习技能。尽管这种方法加快了学习速度，但学习视觉自校准等复杂行为仍然不可行，学习复杂行为时需要我们将机器人置于包含各种视角的大型空间中。

因此，我们选择在模拟中学习此类复杂行为，我们可以收集无限的机器人试验数据，并轻松将摄像头移到各个随机视角。除了在模拟中快速收集数据外，我们还可以摆脱在机器人周围安装多个摄像头的硬件限制。

我们在模拟中使用域随机化技术来学习可泛化的策略。

为了学习要向未知环境转移的强大视觉特征，我们使用了Sadeghi & Levine在 2017 年提出的一项称为“域随机化”（又名“模拟随机化”）的技术，使机器人能够完全在模拟中学习基于视觉的策略，从而可以泛化到现实世界。这项技术已被证明适用于各种机器人任务，例如室内导航、物体定位以及挑选和放置等。此外，为了学习自校准等复杂行为，我们利用模拟功能来生成合成演示并结合强化学习目标来学习强大的机械臂控制器。

用模拟的七自由度机械臂到达视觉指示目标的视角不变操作

我们学习了一种策略，可以通过从截然不同的摄像头视角捕获的感官输入到达不同的目标

将感知与控制分离

为了能够快速转移到未知环境中，我们设计了一个深度神经网络，将感知和控制相结合，并同时进行端到端训练，且在必要情况下允许二者分别进行学习。将感知与控制分离让转移到未知环境变得容易，并且使得模型既灵活又高效，因为它的每个部分（即“感知”或“控制”）可以使用少量数据单独适应新环境。

另外，虽然网络的控制部分完全使用模拟数据训练，但网络的感知部分通过用物体边界框收集少量静态图像来补充，而不需要用物理机器人收集整个动作序列轨迹。在实践中，我们只用了来自 22 个图像的 76 个物体边界框来微调网络的感知部分。

现实世界的机器人和移动摄像头设置第一行所示为场景布置，第二行为机器人的视觉感官输入

早期结果

我们在物理机器人和真实物体上测试了视觉适应版本的网络，这些物体的外观与模拟中使用的完全不同。在实验中，桌子上会出现一个或两个物体 -“见过的物体”（如下图所示）用于视觉适应，实验中使用的是小型静态真实图像集。在视觉适应期间没有看到“未见过的物体”。在测试过程中，指示机械臂从各个视角到达视觉指示物体。对于双物体实验，第二个物体用于“迷惑”机械臂。由于纯模拟网络具有良好的泛化能力（因为它是使用域随机化技术进行训练的），加上我们的网络架构非常灵活，因此，虽然实验中仅收集了非常少量的静态视觉数据用于视觉适应，控制器的表现仍然有了很大提升。

在使用少量真实图像进行视觉特征适应后，性能提高了10% 以上。使用的所有真实物体都与模拟中看到的物体截然不同。

我们认为，学习在线视觉自适应是一个重要而又具有挑战性的课题，其目标是学习可泛化策略，让机器人能够在多样化、非结构型现实世界中运行。我们的方法可以延伸到任何类型的自动自校准。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

控制器

控制器

+关注

关注
112

文章
15214

浏览量
171142
机器人

机器人

+关注

关注
206

文章
27025

浏览量
201377

原文标题：教未校准的机器人实现视觉自适应

文章出处：【微信号：tensorflowers，微信公众号：Tensorflowers】欢迎添加关注！文章转载请注明出处。

FPGA在深度学习应用中或将取代GPU

将 AI 框架模型映射到硬件架构。 Larzul 的公司 Mipsology 希望通过 Zebra 来弥合这一差距。Zebra 是一种软件平台，开发者可以轻松地将

发表于 03-21 15:19

从AlexNet到MobileNet，带你入门深度神经网络

取得了良好的性能。可以说，DNN其实是一种架构，是指深度超过几个相似层的神经网络结构，一般能够达

发表于 05-08 15:57

Nanopi深度学习之路(1)深度学习框架分析

的初学者。日记目标是构建深度学习环境，使用的是TensorFlow后端的Keras，Keras 是一个用 Python 编写的高级神经网络 API，它能够

发表于 06-04 22:32

深度学习与数据挖掘的关系

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。

发表于 07-04 16:07

深度学习中的机器视觉（网络压缩、视觉问答、可视化等）

一些可视化的手段以理解深度卷积神经网络。直接可视化第一层滤波器由于第一层卷积层的滤波器直接在输入

发表于 07-21 13:00

分享一种新型基站架构的设计方案

什么是绿色无线通信的新型基站架构？基于软件无线电技术的新型基站架构是怎样设计的？

发表于 05-27 06:27

一种基于FPGA的图神经网络加速器解决方案

工艺，其架构采用了一种革命性的全新二维片上网络（NoC）、独创的机器学习处理器矩阵（MLP），并采用高带宽GDDR6控制器、400G以太网和PCI Express Gen5接口，在确保

发表于 09-25 17:20

什么是人工智能、机器学习、深度学习和自然语言处理？

了机器学习的概念和工作。具体如下。深度学习是机器学习的一个子领域。假设机器学习是

发表于 03-22 11:19

一种可以防止黑客从智能设备中提取隐藏信息的新芯片

。”随机计算该小组开发的芯片是基于一种特殊类型的计算，称为阈值计算。与其让神经网络对实际数据进行操作，不如首先将数据分解成唯一的、随机的组件。网络

发表于 03-24 10:43

一种基于Deep U-Net的多任务学习框架

U-Net和进行后期处理，得到的Dice分数为0.901。这个多任务U-Net算法比其他两种算法具有更强的鲁棒性，通过与分割和相关的消融前后分类共享特征，网络被迫学习更好的表示，

发表于 11-10 15:35

利用卷积调制构建一种新的ConvNet架构Conv2Former

1、利用卷积探索一种更高效的编码空域特征的方式　　本文旨在通过充分利用卷积探索一种更高效的编码空域特征的方式：通过组合ConvNet与ViT的设计理念，本文利用卷积调制操作对自注意力进行

发表于 12-19 17:37

什么是深度学习？使用FPGA进行深度学习的好处？

什么是深度学习为了解释深度学习，有必要了解神经网络。神经网络是

发表于 02-17 16:56

一种基于多视图架构的深度卷积神经网络模型

由于藏匿物体的大小、形状和位置未知，且样本类别不均衡，常用的深度学习方法存在误报率较高的问题。为此，构建一种基于多视图架构的深度卷积神经

发表于 03-17 10:53 •5次下载

一种新型的多智能体深度强化学习算法

一种新型的多智能体深度强化学习算法

发表于 06-23 10:42 •36次下载

深度学习中动作识别网络学习

动作识别网络深度学习在人体动作识别领域有两类主要的网络，一类是基于姿态评估，基于关键点实现的

发表于 06-25 10:32 •2470次阅读

搜索历史

一种新型深度网络架构可以从过去的动作和观察结果学习以进行自校准

评论

FPGA在深度学习应用中或将取代GPU

从AlexNet到MobileNet，带你入门深度神经网络

Nanopi深度学习之路(1)深度学习框架分析

深度学习与数据挖掘的关系

深度学习中的机器视觉（网络压缩、视觉问答、可视化等）

分享一种新型基站架构的设计方案

一种基于FPGA的图神经网络加速器解决方案

什么是人工智能、机器学习、深度学习和自然语言处理？

一种可以防止黑客从智能设备中提取隐藏信息的新芯片

一种基于Deep U-Net的多任务学习框架

利用卷积调制构建一种新的ConvNet架构Conv2Former

什么是深度学习？使用FPGA进行深度学习的好处？

一种基于多视图架构的深度卷积神经网络模型

一种新型的多智能体深度强化学习算法

深度学习中动作识别网络学习