0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器人如何获得能够有效泛化到各种现实世界物体和环境的技能?

Tensorflowers 来源:未知 作者:胡薇 2018-07-12 17:08 次阅读

尽管设计一套能够在受控环境中有效执行重复任务的机器人系统(例如,在装配线上组装产品)十分平常,但设计一种能够观察周围环境和确定最佳行动方案,同时对意外结果做出反应的机器人却非常困难。

不过,有两种工具可以帮助机器人从经验中获得这些技能:深度学习和强化学习。前者非常适合处理非结构化的现实世界场景,而后者可以实现更长期的推理,同时展现出更复杂、更强大的顺序决策能力。如果将这两种技术结合,将有可能让机器人不断地从经验中学习,使它们能够通过数据而非人为设计来掌握基本的感觉运动技能。

设计用于机器人学习的强化学习算法本身提出了一系列挑战:现实世界的物体具有各种各样的视觉和物理属性,接触力的细微差别都可能会使物体运动难以预测,并且相关物体可能会受到遮挡。此外,机器人传感器本身具有噪声,这也增加了复杂性。所有这些因素综合到一起,使得学习一个通用解异常困难,除非训练数据足够多样化,然而,收集这样的数据又十分耗时。

这就促使人们去探索一种能够有效重用过往经验的学习算法,类似于我们之前一项关于抓取的研究,这项研究就受益于大数据集。不过,这项研究无法推断动作的长期后果,而这一点对学习如何抓取十分重要。例如,如果多个物体聚集在一起,那么将其中一个分开(称为“分割”)将使得抓取更容易,即使这样做与成功抓取并无直接关联。

分割示例

为了提高效率,我们需要采用脱策强化学习,这种算法可以从数小时、数天或数周前收集的数据中学习。为了设计这样一种可以利用从历史互动中获得的大量不同经验的脱策强化学习算法,我们将大规模分布式优化与一个新的拟合深度 Q 学习算法(我们称之为 QT-Opt)相结合。arXiv 上提供了预印本。

QT-Opt 是一种分布式 Q 学习算法,支持连续动作空间,非常适合解决机器人问题。为了使用 QT-Opt,我们首先使用已收集的数据以完全离线的方式训练模型。此过程不需要运行真正的机器人,因而更易于扩展。然后,我们在真正的机器人上部署并微调该模型,使用新收集的数据进一步训练模型。通过运行 QT-Opt,我们得以积累更多的离线数据,这使得我们能够训练出更好的模型,而这反过来又有利于收集更好的数据,从而形成一个良性循环。

为了将这种方法应用于机器人抓取,我们使用了 7 个现实世界的机器人,在 4 个月的时间里,机器人总共运行了 800 个小时。为了引导收集过程,我们首先使用手动设计的策略,成功率为 15-30%。在表现提升后,数据收集转向学到的模型。策略利用相机图像并返回手臂和抓手的移动方式。离线数据包含对 1000 多种不同物体的抓取。

使用的一些训练物体

通过过去的研究,我们已经发现在机器人之间共享经验可以加快学习速度。我们将此训练和数据收集过程扩展到 10 个 GPU、7 个机器人和多个 CPU,因此得以收集和处理包含超过 580,000 次抓取尝试的大型数据集。在这个过程的最后,我们成功训练了一种抓取策略,此策略在现实世界机器人上运行并且可以泛化到训练时未见过的各种具有挑战性的物体。

七个机器人正在收集抓取数据

从量化角度来看,在关于以前未见过物体的 700 次抓取试验中,QT-Opt 方法的抓取成功率达到 96%。先前基于监督式学习的抓取方法的成功率为 78%,相比之下,新方法将错误率降低了五倍以上。

评估时使用的物体

为了使任务具有挑战性,我们增加了物体尺寸、

纹理和形状的多样性

值得注意的是,策略展现出了标准机器人抓取系统中少见的各种闭环、反应性行为:

• 当面对一组无法一起拾起的联锁块时,策略先将一个块与其他块分开,然后再将它拾起。

• 当面对难以抓取的物体时,策略会推算出它应该调整抓手位置并重新抓取,直到抓牢为止。

• 当在一堆物体中抓取时,策略会探测不同的物体,直到抓手紧紧握住一个物体时才会将它拾起。

• 当我们故意将物体从抓手上弄掉以扰乱机器人时(训练期间未经历过这种情况),它会自动重新调整抓手位置,进行另一次尝试。

最重要的是,这些行为都并非人为设计。这些行为基于 QT-Opt 的自监督式训练自动出现,因为它们提高了模型的长期抓取成功率。

学到的行为示例

在左侧的 GIF 中,策略针对移动的球进行更正

在右侧的 GIF 中,策略在多次抓取尝试后

成功拾起难以抓握的物体

此外,我们发现 QT-Opt 使用较少的训练数据达到了较高的成功率,尽管收敛时间较长。这对机器人技术来说尤其令人兴奋,因为,此领域的瓶颈通常是收集现实机器人数据,而不是训练时间。将此策略与其他数据效率技术(例如我们之前关于抓取领域自适应的研究)相结合,可以在机器人技术领域开辟一些有趣

总体而言,QT-Opt 算法是一种通用的强化学习方法,在现实世界机器人上表现非常出色。除奖励定义外,QT-Opt 没有任何特定于机器人抓取的限制。我们认为这是向更通用的机器人学习算法迈出的重要一步,并期待看到其他适用的机器人任务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    27025

    浏览量

    201377
  • 深度学习
    +关注

    关注

    73

    文章

    5236

    浏览量

    119900
收藏 人收藏

    评论

    相关推荐

    高压放大器在介电弹性体折纸术软体机器人中的应用

    方式通过非常狭窄的通道。由于身体的柔软性,软体机器人接触尖锐的物体后还不会受到伤害,这一特性使得它们能够进入人体进行药物运输,或者作为医疗手术中的操作员进行临床手术。实际上,柔性驱动器已经作为操纵器被
    发表于 02-27 17:15

    LabVIEW的六轴工业机器人运动控制系统

    。LabVIEW的可视编程环境和强大的数据处理能力,使得复杂的运动学算法和轨迹规划得以顺利实现,显著提高了工业机器人的控制精度和效率。 ​ 这是LabVIEW的一个功能介绍,更多的使用方法与开发案例,欢迎登录官网,了解更多信息
    发表于 12-21 20:03

    高动态人形机器人“夸父”通过OpenHarmony 3.2 Release版本兼容性测评

    、雷达传感器等设备的数据,夸父人形机器人能够更加灵活和高效地完成各种任务。同时,通过KaihongOS的链接,夸父人形机器人构建全场景生态,实现在科研教育、特种行业、工业应用、家庭场景
    发表于 12-20 09:31

    ROS让机器人开发更便捷,基于RK3568J+Debian系统发布!

    ,以及包管理。它也提供用于获取、编译、编写、和跨计算机运行代码所需的工具和库函数。图1 随着工业智能的快速发展,智能机器人设备已成为工业自动体系的佼佼者,而智能机器人设备核心—RO
    发表于 11-30 16:01

    Arduino教学机器人的使用教程

    本文档的主要内容详细介绍的是Arduino教学机器人的使用教程
    发表于 09-27 06:53

    一种结构道路环境中的视觉导航系统详解

    平台A TRV 22 上的实验结果表明 , 该视觉导航系统能够实时理解结构道路环境 , 并且能够控制机器人沿着合理路径行驶.
    发表于 09-25 07:23

    稳石机器人|日化行业智慧物流:打造高效绿色供应链

    各环节的无缝对接及全厂生产协同。让客户在产线输送、多设备管控等“货”场景中实时掌握产线物流动态,实现物流数字、透明。 在日化行业不断发展壮大的同时,智能
    发表于 09-21 13:45

    ai人工智能机器人

    的进行监控管理。 智能电话机器人的另一个优势是不知疲倦,不需要休息和喝水,不需要休息。人在工作时就会有各种各样的脾气,但智能电话机器人不会,永远都以最严谨、最周到的态度和客户进行沟通。 在科技高速发展
    发表于 09-21 11:09

    基于Matlab和VR技术的移动机器人建模及仿真

    利用 Matlab 建立移动机器人的动力学模型 ,在虚拟现实 (VR )环境下 ,实时仿真移动机器人路径跟踪的运动特性 ,为基于 Internet 的
    发表于 09-20 06:24

    能力(2)#大数据机器人

    机器人
    未来加油dz
    发布于 :2023年07月10日 21:41:16

    能力(1)#大数据机器人

    机器人
    未来加油dz
    发布于 :2023年07月10日 21:40:55

    【科普】干货!带你从0了解移动机器人(四) ——移动机器人导航技术

    ,施工较为方方便,能够适应各种使用环境。 02二维码导航 二维码导航属于视觉识别,实现原理是在地面铺设二维码阵列,通过移动机器人(AGV/AMR)下方的相机扫描二维码实现
    发表于 06-28 09:52

    【科普】干货!带你从0了解移动机器人(三) ——自主导航系统及上位机软件设计与实现

    随着机器人技术的不断发展,我们可以在许多简单重复,危险的岗位上看到机器人的身影,移动机器人凭借其在复杂环境下工作,具有自行感知、自行规划、自我决策功能的能力,它可以在不同的
    发表于 06-28 09:36

    如何快速地让机器人投入生产

    重复使用。按功能以生产线设备,机器人设备如此整理后,可以形成一个函数库。加上c语言的mach函数库,并整理一个三角函数库后。我们的设备就可以通用了。上什么生产线都没问题。不要太依靠示教器,以及各种机器人软件。因为他们会被改进或者
    发表于 06-06 16:18

    浅谈儿童陪护机器人

    、高电流的步进电机驱动芯片,可以提供可靠、高效的控制性能,拥有电流细分、过流保护、过热保护等特点,适用于需要高速、高精度转动的机器人应用。 在实际应用中,儿童陪护机器人的转动控制也需要考虑安全性
    发表于 05-11 15:12