Facebook关于自主智能体的最新研究成果——目标驱动自主学习-电子发烧友网

本文由来自 Facebook 人工智能研究院的研究员 Dhruv Batra 和 Devi Parikh 共同撰写，文中介绍了 Facebook 关于自主智能体的最新研究成果——目标驱动自主学习，并且还宣布了开源 EmbodiedQA 和 House3D 数据集.

大多数能够与人类进行互动的自主智能体（Autonomous agents）都存在一些共同点：它们并不是那么自给自足（Self-sufficient）。例如，一个智能音箱（Smart speaker）虽然可以通过语音接口与人类进行交流并采取一些动作（比如订购产品），但是它却无法感知周围环境。而另一方面，割草机器人虽然具备动作（割草）和感知（通过传感器）能力，但是它除了不断闪烁灯光或者发送错误信息以外，还无法实现与主人的自由交流。

如果不同时具备三个重要的关键因素——感知、沟通和动作，那么自主智能体就无法成为一个全面的助理，而这其中的空白代沟还需要人类参与进来弥补。然而这个问题对于目前的智能体来说似乎并不是什么大毛病，例如，Roomba 机器人如果忽略了通知你有把椅子阻碍了它的清洁路线，这只是一点小困难而不是什么大灾难。但是为了让下一代智能体能融入并改变我们的生活，那么自主系统还需要变得更加自给自足。

训练人工智能系统时要扔下婴儿车

为了给那些对人类微观管理依赖程度较低且更具通用性的系统铺平道路，Facebook 人工智能研究院（FAIR）开发了一系列用于训练和测试自主智能体的虚拟环境，以及能够学习智能探索那些环境的新型智能体。这些智能体将被用来作为模拟机器人而使用，它们是 Facebook 与佐治亚理工学院的研究员合作创建的。使用虚拟智能体和虚拟环境比起将真实的机器人送到现有的室内场所要来得高效得多，因为这需要花费数千台机器来匹配基于 AI 训练的运行速度。Facebook F8 会议上关于通过 AI 提高内容的可访问性的主题演讲中简单介绍过这项工作。

FAIR 的目标是指导系统根据长期计划采取多种动作，同时还要努力完成所给定的任务。为了取得成功，这些智能体必须在它们的环境中行动，综合使用感知、导航和沟通的能力去寻找出给定问题的答案，然后使用简单自然的语言转达这些答案。对于 AI 来说，这是一个极具挑战性的问题，如果一旦实现就是朝着自治水平迈出了一步，并且该智能体的适应性也将足以在非结构化的人造世界中发挥作用。

为了测试这种目标导向（Goal-driven）的方法，FAIR 和佐治亚理工学院联合提出了一个多步骤 AI 任务，称为「具体化问答（Embodied Question Answering）」或者「EmbodiedQA」。与聊天机器人或者智能音箱相比，此智能体必须在物理环境（尽管是虚拟环境）中去学习和运行，因此称为「具体化的（Embodied）」。当智能体被问及单一问题时，例如「车子是什么颜色的？」或「我的钥匙落在了哪个房间里？」，智能体必须能够理解书面语言，然后用第一人称相机去感知周围环境，探索 3D 的室内环境直到找到答案。并且为了使得智能体的自主性更加完善，它还将通过自然语言的方式回复该答案以完成自己的使命。

FAIR 提出了一项新的 AI 任务——具体化问答（Embodied Question Answering）。上图中在一个 3D 环境中的某个随机位置产生一个智能体，并给出一个问题（车是什么颜色的？）。为了回答这个问题，智能体必须借助智能导航以探索环境，通过第一人称（以自我为中心）的视觉收集信息，然后回答问题（橙色）。

FAIR 相信这些是第一个要求 AI 系统综合展示感知、交流和动作以达成目标的实验。将完全自主（智能体在没有人类引导和干预的情况下实现了自主活动）和不熟悉的环境结合起来增加了整个任务的挑战性。智能体要在随机的、数以百计的不同楼层平面图（每个平面都是仿照现实家庭进行建模）中运行，而且不具有在该环境中实践运行过所带来的增益，也不曾在类似的地图上运行过。更难的是，为了回答提出的问题，智能体必须移动，因为问题中的对象也许无法立即看到。

在工作中学习

为了训练和评估这些智能体，所需的虚拟环境不仅仅要具备交互功能，还要具备多样化和数量充足的特性，以避免智能体在相同环境中反复运行，这对自主智能体的发展而言是一个更加巨大的挑战。FAIR 的解决方案称为 House3D，它是由 45000 个手动创建的模拟室内环境所组成的。House3D 是基于普林斯顿大学的 SUNCG 数据集而创建的，但是 House3D 作为一个完全可导航的位置集合（Fully navigable set of locations），使得智能体能够同时探索数千个房间，这比起在现实生活空间中训练具有复杂机械结构的机器人要来得快得多。它也使得我们可以进行可重复性的科学实验。并且 House3D 还进行了开源，目前可以在 GitHub 上获取。

为了在 House3D 中每次都能进行独特的寻宝活动，智能体必须在完成任务的过程中学习一系列核心能力——从对室内物体的识别（沙发、椅子等）到对问题的语言理解。

第一种习得的能力是主动感知（Active perception），或者是智能控制前面像素的能力，因为一开始目标对象不太可能会刚好位于智能体的视线范围内（图像通过一个 224x224 分辨率的 RGB 模拟摄像头采集）。因此，智能体不是被动地感知问题中提及的对象（固定图像数据集中就是如此），而是通过探索周围环境主动将目标对象寻找出来。

这项研究的一个创新点在于实现了导航的模块化方法，该方法将导航任务划分成了两个部分。规划者（Planner）负责选择移动的方向，例如向左移动，而控制器（Controller）则负责确定在该方向需要移动多远。这种策略避免了智能体在移动前需要去创建长远而又详细的路径规划，因为这么干会导致更多的错误和更弱的适应性。此外规划者-控制器（Planner-Controller）这套设置也更适合于强化学习，在这里智能体将根据积极或者消极的反馈来动态调整其导航。

FAIR 的智能体将导航任务分解为一个规划者（PLNR）模块和一个控制器（CTRL）模块。规划者从卷积神经网络（CNN）获得输入，然后决定所采取的动作。同时控制器将决定继续执行该动作的时间步变量——从而实现方向和速度之间的解耦合。这使得规划者能够在更短的时间内进行更有效的操作，从而减轻了训练难度。

下一步，智能体必须学会常识推理，然后在一个新的但是却并非完全陌生的环境中去发挥作用。尽管人们可能知道车库往往位于房屋的周围，因此可以通过外部门进入，但是 AI 系统却需要自己去学习这些知识。随着在不同的模拟家庭中成功达到目标，智能体必须发展出这种常识，以缩短寻找指定对象然后回答相关问题所花费的时间。

作为常识积累的后续阶段，智能体还要学习语言基础，或者是学习如何把单词（比如针对对象的描述）与特定的动作联系起来。例如，当为了找到可能位于车库中的汽车而搜索车库时，智能体不会被迫查看每个可能的空间，直到它找到与车库对应的一组像素为止。恰恰相反，智能体使用「车库」作为一个行动的指令，然后直接去找到外部门，从而更加高效地定位它的目标。

最后，因为 FAIR 的目标是超越繁琐的、逐步的人为监督，从微弱和远期的目标驱动奖励中学习，所以智能体必须学会的最重要的能力之一是「功劳分配（Credit assignment）」，这意味着智能体能够知道自己一路上所做的行为哪些是正确的而哪些又是错误的。例如，如果询问「多少个房间里有椅子？」，然后智能体并没有被明确告知需要检查每一个房间，甚至没有被告知要从家中含有椅子的区域开始计算。智能体能够凭借自己的力量去探索和回答问题，而不需要借助人类提供的详细的逐步计划。因此，从它是否正确回答的一个微弱信号来看，它必须自行学习其数百项相互依赖的行动中是哪一项导致了成功。为了增强传统的强化学习，FAIR 使用模仿学习（Imitation learning，比较智能体的运动与到达目标的可能最短路径）和奖励塑造（Reward shaping，通过「变得更近」和「变得更远」信号随时间变化而改进智能体的表现）来允许智能体把它真正使命拼凑起来，即便该使命在开始时并不明晰。

让自主系统更加自主

经过训练的 EmbodiedQA 智能体与标准序列模型基准（一个 LSTM 导航器）相比，表现的相当合理。

该视频比较了 FAIR 开发的智能体（名称为 ACT+Q-RL）与基准的性能表现（名称为 LSTM+Q）。视频地址

和 House3D 一样，FAIR 收集的 EmbodiedQA 数据将进行开源，并且旨在启发更广泛的 AI 研究社区内的其它项目。为了给其他研究人员提供完整的背景，FAIR 将人类带入了这个方程式中。FAIR 和佐治亚理工学院将自主智能体导航与问答的能力与远程遥控智能体进行了对比，这些远程遥控智能体由人类（通过亚马逊的 Mechanical Turk 平台）进行操控，从而建立了专家级别的基准导航示例。由此产生的数据集包括，与 750 个独特的、多房间的环境相关的合成产生问题（Synthetically generated questions）。智能体（和人类）准确性的故障以及我们使用的问答生成引擎也将成为 EQA v1 开源版本中的一部分，该版本在不久的将来可以获取到。

虽然 EmbodiedQA 是只涵盖了一种目标驱动的自主任务，但是它却代表了人工智能的高难度（因为它将各种各样的子任务合并成了一个任务），并且有机会探索采取「行动」的新学习范式，这是成功的先决条件。无法做出决策的智能体——在这种情况下，通过在现实家庭中导航，确定它们收集到了相关的数据，然后传达它们发现的内容——这种智能体在我们的实验中是无法完成任务的。

这种挑战是艰巨的，因为它至关重要。在短期内，目标驱动的算法可以使用自动化来改善 AR 和 VR 的体验，为可用的接口选项添加直观的语音交互。但这种基于行为的目标驱动方法的长期影响可能会延伸到自主性上。从数字助理可以根据单一命令（例如，不仅可以预约医生，还可以重新安排冲突的会议）执行一系列家务事，到灾难响应机器人遵循来自第一响应者的简单语音命令，这种适应性的自动化可能会对我们的生活产生重大影响。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
206

文章
27004

浏览量
201353
Facebook

Facebook

+关注

关注
3

文章
1427

浏览量
54024
智能体

智能体

+关注

关注
1

文章
111

浏览量
10421

原文标题：Facebook 最新研究：自主学习一个会和世界互动的智能体

文章出处：【微信号：IndustryIOT，微信公众号：工业互联网前线】欢迎添加关注！文章转载请注明出处。

俄罗斯诺镍在京发布清洁能源创新研究成果

俄罗斯诺镍（以下简称诺镍）日前于在华举办的一重要能源会议上展示了其在利用钯生产清洁能源（包括氢能）方面的尖端研究成果。诺镍于会后被中国氢能联盟吸纳为成员单位。为了实现2050年全球碳中和目标

发表于 04-09 17:27 •148次阅读

【研究动态】万物纵横杨帆博士在Applied Soft Computing发表石化生产异常工况预警的人工智能算法研究成果

近日，计算机科学领域著名期刊《Applied Soft Computing》（SCI一区， Top期刊）刊载了四川万物纵横杨帆博士与四川大学合作的最新工业智能研究成果《基于注意力机制的催化裂化装置异常工况预警》

发表于 01-23 13:32 •139次阅读

【<b class='flag-5'>研究</b>动态】万物纵横杨帆博士在Applied Soft Computing发表石化生产异常工况预警的人工<b class='flag-5'>智能</b>算法<b class='flag-5'>研究成果</b>

英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

市举办。在NeurIPS 2023上，英特尔研究院将展示其最新AI研究成果，并和产业界、学术界分享英特尔“让AI无处不在”的愿景。大会期间，英特尔研究院将发表31篇论文，包括12篇主会场论文和19篇研讨会论文，并在405号展台

发表于 12-08 19:15 •349次阅读

英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

英特尔研究院将重点展示31项研究成果，它们将推进面向未来的AI创新。英特尔研究院将在NeurIPS 2023大会上展示一系列富有价值、业界领先的AI创新成果。面向广大开

发表于 12-08 09:17 •398次阅读

关于锂硫电池最新研究成果分享

锂硫电池优势突出，具有高比能潜力，被认为是极具发展前景的新一代电池，但其放电产物绝缘性、不稳定SEI和安全性等因素仍制约着锂硫电池大规模产业化发展。

发表于 12-01 10:41 •521次阅读

百度蛋白大语言模型研究成果登上Nature子刊封面

百度最新研究成果登上Nature子刊封面，文心生物计算大模型获国际顶刊认可！

发表于 11-25 11:25 •653次阅读

百度蛋白大语言模型<b class='flag-5'>研究成果</b>登上Nature子刊封面

基于ZigBee的井下救灾机器人自主通信研究

电子发烧友网站提供《基于ZigBee的井下救灾机器人自主通信研究.pdf》资料免费下载

发表于 10-31 10:55 •0次下载

基于ZigBee的井下救灾机器人<b class='flag-5'>自主</b>通信<b class='flag-5'>研究</b>

关于太赫兹无线链路解调的研究成果

研究表明，正是在这个间隙，存在着巨大的开发潜力和应用价值。它可以广泛地应用于爆炸物检测、药品检测、成像、雷达和无线宽带通信。

发表于 10-16 10:20 •325次阅读

<b class='flag-5'>关于</b>太赫兹无线链路解调的<b class='flag-5'>研究成果</b>

智能轮椅导航定位的研究现状及趋势

,导航指示信号类型,导航地域等因素的不同,可以分为基于地图导航,基于视觉导航,基于传感器导航、GPS卫星导航等。无论采用哪种导航方法,智能轮椅都应具有路径规划与避障,探测与定位等功能。轮椅自主导航主要由环境感知自定位运动路径规划和目标

发表于 09-25 07:13

解决医疗大模型训练数据难题，商汤最新研究成果登「Nature」子刊

生成式AI正为医疗大模型迭代按下加速键。近日，商汤科技联合行业合作伙伴，结合生成式人工智能和医疗图像数据的多中心联邦学习发表的最新研究成果 《通过分布式合成学习挖掘多中心异构医疗数据

发表于 09-12 18:50 •602次阅读

面向未来战场的可重构机器人

一是智能化。未来战场上的可重构机器人需要具备更高的智能水平。通过借鉴结合人工智能领域的最新研究成果，可重构机器人将能够实现自主感知、

发表于 08-30 15:59 •464次阅读

什么是相机标定？视觉机械臂自主抓取全流程

自主抓取是指，在没有人为干预的情况下，视觉机械臂系统通过摄像头获取到目标物体的位置，并且通过驱动机械臂来完成对于目标物体的抓取任务。

发表于 08-15 11:29 •2764次阅读

捷易科技物联网平台荣获工信部科学技术研究成果登记，技术国内先进

2023年7月5日，捷易科技自研的“基于开放性智能设备识别与配置的物联网终端管理云平台的开发应用”科学技术研究成果经评审、公示获准登记，荣获国家工业和信息化部颁发的科学技术成果登记证书。本次评定

发表于 08-01 08:29 •819次阅读

助力采用MCU的自主系统实现自主安全性

人工智能（AI）和机器学习（ML）技术在自主性日益增强的系统中的应用越来越普遍，这将提高各行各业对更智能的安全系统的要求。

发表于 07-08 11:11 •305次阅读

自主人工智能评估和通信平台

电子发烧友网站提供《自主人工智能评估和通信平台.zip》资料免费下载

发表于 07-06 10:56 •0次下载