0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

【重磅】DeepMind发布通用强化学习新范式,自主机器人可学会任何任务

DPVg_AI_era 来源:未知 作者:邓佳佳 2018-03-19 14:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群


新智元报道

来源:DeepMind

编译:Marvin

【新智元导读】DeepMind今天发表博客文章,提出一种称为SAC-X(计划辅助控制)的新学习范式,旨在解决让AI以最少的先验知识,从头开始学习复杂控制问题的挑战。这在真实环境中成功让机械臂从头开始学习拾放物体。研究者认为,SAC-X是一种通用的强化学习方法,未来可以应用于机器人以外的更广泛领域。

让孩子(甚至成年人)在使用物品之后自己收拾可能是颇有挑战性的事情,但我们面临一个更大的挑战:试图让我们的AI也这样做。成功与否取决于AI是否掌握几个核心的视觉运动技能:接近一个物体,抓住并举起它,然后打开一个盒子并把物体放进里面。使事情更复杂的是,这些技能还必须用正确的顺序做。

控制任务(control tasks),例如整理桌子或堆放物体,要求agent能够确定如何、何时以及在哪里协调它的模拟手臂和手指的9个关节,以正确地移动物体,实现它的目标。在任何给定一段时间里,可能的运动组合数量会非常庞大,并且需要执行一系列正确的操作,这就构成了一个严峻的探索性问题——使得这成为强化学习研究的一个特别有趣的领域。

奖赏塑形(reward shaping)、学徒学习(apprenticeship learning)以及示范学习等技巧可以帮助解决这个问题。但是,这些方法依赖于大量的关于任务的知识——以最少的先验知识,从头开始学习复杂控制问题,仍然是一个公开的挑战。

DeepMind近日发表的新论文“Learning by Playing - Solving Sparse Reward Tasks from Scratch”提出一种新的学习范式,称为“Scheduled Auxiliary Control (SAC-X)”(计划辅助控制),旨在解决这个问题。SAC-X的想法是要从头开始学习复杂的任务,那么agent必须先学习探索和掌握一套基本的技能。就像婴儿在学会爬行和走路之前必须先发展协调和平衡的能力一样,向agent提供一些与简单的技能相对应的内部(辅助)目标可以增加它理解和成功执行更复杂任务的机会。

我们在几个模拟的和真实的机器人任务中演示了SAC-X的方法,包含各种任务,例如不同类物体的堆叠问题,场地整理问题(需要将物体放入盒子)。 我们定义的辅助任务遵循一个总原则:它们鼓励agent去探索它的感知空间( sensor space)。 例如,激活它的手指上的触摸传感器,感知其手腕受到的力,使其本体感受传感器( proprioceptive sensors)中的关节角度达到最大,或强制物体在其视觉相机传感器中移动。如果达到了目标,每个任务会关联到一个简单的奖励,否则奖励为零。

图2:agent学习的第一件事是激活手指上的触摸传感器,并移动两个物体。

图3:模拟agent最终掌握了“堆叠”物体这个复杂任务。

然后,agent就可以自行决定它当前的“意图”(intention),即接下来的目标。目标可以是辅助任务或外部定义的目标任务。更重要的是,agent可以通过充分利用off-policy learning来检测并从其他任务的奖励信号学习。例如,在拾取或移动一个物体时,agent可能会顺便把它堆叠起来,从而得到“堆叠”的奖励。由于一系列简单的任务可以导致观察到罕见的外部奖励,所以将“意图”进行安排(schedule)的能力是至关重要的。这可以根据所收集到的所有相关知识创建一个个性化的学习课程。

事实证明,这是在如此大的一个领域中充分利用知识的一种有效方法,而且在只有很少的外部奖励信号的情况下尤其有用。我们的agent通过一个 scheduling 模块来决定遵循那个意图。在训练过程中,scheduler通过一个meta-learning算法进行优化,该算法试图使主任务的进度最大化,从而显著提高数据效率。

图4:在探索了许多内部辅助任务之后,agent学习如何堆叠和整理物体。

我们的评估显示,SAC-X能够解决我们从头设置的所有任务——使用相同的底层辅助任务集。更令人兴奋的是,我们在实验室的一个真实的机械臂上直接利用SAC-X,成功地从头开始学会了拾取和放置任务。过去,这一点特别具有挑战性,因为真实世界中机器人的学习需要数据效率,所以主流的方法是在模拟环境中预训练(pre-train)一个agent,然后将agent转移到真实的机械臂。

图5:在真正的机械臂上,SAC-X学习如何从头开始拾取和移动绿色方块。它此前从未见过这一任务。

我们认为SAC-X是从头开始学习控制任务的重要一步,只需指定一个总体目标。SAC-X允许你任意定义辅助任务:可以基于一般性认识(例如在个实验中是故意激活传感器),但最终可以包含研究人员认为重要的任何任务。从这个角度看,SAC-X是一种通用的强化学习方法,不止是控制和机器人领域,可以广泛应用于一般的稀疏强化学习环境。

这一工作由以下研究者共同完成:Martin Riedmiller, Roland Hafner, Thomas Lampe, Michael Neunert, Jonas Degrave, Tom Van de Wiele, Volodymyr Mnih, Nicolas Heess and Tobias Springenberg.


【2018 新智元 AI 技术峰会倒计时28天】大会早鸟票已经售罄,现正式进入全额票阶段。


2017 年,作为人工智能领域最具影响力的产业服务平台——新智元成功举办了「新智元开源 · 生态技术峰会」和「2017AIWORLD 世界人工智能大会」。凭借超高活动人气及行业影响力,获得2017 年度活动行 “年度最具影响力主办方”奖项。

其中「2017AIWORLD 世界人工智能大会」创人工智能领域活动先河,参会人次超 5000;开场视频在腾讯视频点播量超 100 万;新华网图文直播超 1200 万;

2018 年的 3 月 29 日,新智元再汇 AI 之力,共筑产业跃迁之路,将在北京举办 2018 年中国 AI 开年盛典——2018 新智元 AI 技术峰会。本次峰会以 “产业 · 跃迁” 为主题,特邀诺贝尔奖评委 德国人工智能研究中心创始人兼 CEO Wolfgang Wahlster 亲临现场与谷歌、微软、亚马逊、BAT、科大讯飞、京东和华为等企业重量级嘉宾,共同研讨技术变革,助力领域融合发展。

新智元诚挚邀请关心人工智能行业发展的各界人士 3 月 29 日亲临峰会现场,共同参与这一跨领域的思维碰撞。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

原文标题:【重磅】DeepMind发布通用强化学习新范式,自主机器人可学会任何任务

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    北京人形具身天工3.0斩获全球首个全自主机器人勇士挑战赛冠军

      4月18日,首届北京亦庄机器人勇士挑战赛圆满举行,由优必选作为大股东和总经理单位牵头成立的北京人形机器人创新中心(以下简称:北京人形)携具身天工3.0全尺寸通用人形机器人参赛,以全
    的头像 发表于 04-21 17:28 1060次阅读

    NVIDIA如何用AI构建机器人

    下一代机器人将是通用型专家,既能理解指令、学习通用技能,又可针对特定任务进行训练。
    的头像 发表于 03-25 09:55 899次阅读

    全球首个!银河通用自主人形机器人打网球火爆全球

    北京2026年3月23日 /美通社/ -- 近日,银河通用机器人与真人选手的连续自主网球对打视频刷爆全网。 这背后是银河通用机器人发布的最新成果—— 全球首个面向网球对抗的人形
    的头像 发表于 03-23 11:49 197次阅读
    全球首个!银河<b class='flag-5'>通用</b>全<b class='flag-5'>自主</b>人形<b class='flag-5'>机器人</b>打网球火爆全球

    再谈低温烧结银的应用:从春晚四家机器人出镜的幕后推手说起

    ,完成翻跟头、脖子延伸、互动接梗,强调关节灵活+低功率+长期稳定。 银河通用:《我最难忘的今宵》:Galbot G1具身智能,自主决策、精细操作,依赖AI芯片+传感器+高效互连。 2机器人动得稳、准、快
    发表于 02-17 14:07

    强化学习会让自动驾驶模型学习更快吗?

    是一种让机器通过“试错”学会决策的办法。与监督学习不同,监督学习是有人提供示范答案,让模型去模仿;而强化学习不会把每一步的“正确答案”都告诉
    的头像 发表于 01-31 09:34 846次阅读
    <b class='flag-5'>强化学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    商汤科技联合创始王晓刚担任大晓机器人董事长

    大晓机器人将于12月18日正式亮相,重磅发布多项全球领先的技术与产品阵列,并将推出首个国内开源且实现商业应用的“开悟”世界模型3.0,与行业伙伴一同构建自主可控、开放共赢的产业体系。商
    的头像 发表于 12-08 11:31 841次阅读

    探索RISC-V在机器人领域的潜力

    利用Gazebo仿真环境(在x86主机上运行)和MUSE Pi Pro上的ROS 2节点进行了联合仿真。 • 场景: 在PC的Gazebo中运行一个TurtleBot3机器人模型,MUSE Pi
    发表于 12-03 14:40

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机
    发表于 11-05 09:44 1169次阅读

    RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知

    机器人· 应用领域:迎宾机器人、养老机器人、导览机器人· 多摄像头输入:同时实现人脸识别(迎宾)、跌倒检测(养老)、自主导航避障(导览)等多
    发表于 10-29 16:41

    自动驾驶中常提的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。
    的头像 发表于 10-23 09:00 908次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    最新发布!泰科机器人发布首款自研双足人形机器人

    泰科机器人凭借十多年的技术积淀与持续创新,已成功推出多款高性能人形机器人四肢的解决方案。今天,泰科机器人再次迎来重大突破——首款自主研发的双足人形
    的头像 发表于 09-02 14:34 3692次阅读
    最新<b class='flag-5'>发布</b>!泰科<b class='flag-5'>机器人</b><b class='flag-5'>发布</b>首款自研双足人形<b class='flag-5'>机器人</b>

    智能决策、2厘米级控制,星灿机器人发布割草机器人

    电子发烧友网报道(文/莫婷婷)传统机器人泛化性差,智能程度相对较低。具身智能机器人具有高通用性,可在各类场景完成复杂任务,包括快速理解复杂环境、能够处理任意物体、
    的头像 发表于 08-29 11:30 8917次阅读
    智能决策、2厘米级控制,星灿<b class='flag-5'>机器人</b><b class='flag-5'>发布</b>割草<b class='flag-5'>机器人</b>

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有
    的头像 发表于 07-14 15:29 2662次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    盘点#机器人开发平台

    图,电子技术资料网站具身智能机器人****开发平台——Fibot广和通发布机器人开发平台-电子发烧友网NVIDIA Isaac 英伟达综合性机器人开发平台NVIDIA Isaac 是英
    发表于 05-13 15:02

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    阅读心得体会:ROS2机器人视觉与地图构建技术 通过对本书第7章(ROS2视觉应用)和第8章(ROS2地图构建)的学习,我对机器人视觉感知和自主导航的核心技术有了更深入的理解。以下是我
    发表于 05-03 19:41