0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Facebook关于自主智能体的最新研究成果——目标驱动自主学习

工业互联网前线 来源:未知 作者:李倩 2018-05-11 10:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文由来自 Facebook 人工智能研究院的研究员 Dhruv Batra 和 Devi Parikh 共同撰写,文中介绍了 Facebook 关于自主智能体的最新研究成果——目标驱动自主学习,并且还宣布了开源 EmbodiedQA 和 House3D 数据集.

大多数能够与人类进行互动的自主智能体(Autonomous agents)都存在一些共同点:它们并不是那么自给自足(Self-sufficient)。例如,一个智能音箱(Smart speaker)虽然可以通过语音接口与人类进行交流并采取一些动作(比如订购产品),但是它却无法感知周围环境。而另一方面,割草机器人虽然具备动作(割草)和感知(通过传感器)能力,但是它除了不断闪烁灯光或者发送错误信息以外,还无法实现与主人的自由交流。

如果不同时具备三个重要的关键因素——感知、沟通和动作,那么自主智能体就无法成为一个全面的助理,而这其中的空白代沟还需要人类参与进来弥补。然而这个问题对于目前的智能体来说似乎并不是什么大毛病,例如,Roomba 机器人如果忽略了通知你有把椅子阻碍了它的清洁路线,这只是一点小困难而不是什么大灾难。但是为了让下一代智能体能融入并改变我们的生活,那么自主系统还需要变得更加自给自足。

训练人工智能系统时要扔下婴儿车

为了给那些对人类微观管理依赖程度较低且更具通用性的系统铺平道路,Facebook 人工智能研究院(FAIR)开发了一系列用于训练和测试自主智能体的虚拟环境,以及能够学习智能探索那些环境的新型智能体。这些智能体将被用来作为模拟机器人而使用,它们是 Facebook 与佐治亚理工学院的研究员合作创建的。使用虚拟智能体和虚拟环境比起将真实的机器人送到现有的室内场所要来得高效得多,因为这需要花费数千台机器来匹配基于 AI 训练的运行速度。Facebook F8 会议上关于通过 AI 提高内容的可访问性的主题演讲中简单介绍过这项工作。

FAIR 的目标是指导系统根据长期计划采取多种动作,同时还要努力完成所给定的任务。为了取得成功,这些智能体必须在它们的环境中行动,综合使用感知、导航和沟通的能力去寻找出给定问题的答案,然后使用简单自然的语言转达这些答案。对于 AI 来说,这是一个极具挑战性的问题,如果一旦实现就是朝着自治水平迈出了一步,并且该智能体的适应性也将足以在非结构化的人造世界中发挥作用。

为了测试这种目标导向(Goal-driven)的方法,FAIR 和佐治亚理工学院联合提出了一个多步骤 AI 任务,称为「具体化问答(Embodied Question Answering)」或者「EmbodiedQA」。与聊天机器人或者智能音箱相比,此智能体必须在物理环境(尽管是虚拟环境)中去学习和运行,因此称为「具体化的(Embodied)」。当智能体被问及单一问题时,例如「车子是什么颜色的?」或「我的钥匙落在了哪个房间里?」,智能体必须能够理解书面语言,然后用第一人称相机去感知周围环境,探索 3D 的室内环境直到找到答案。并且为了使得智能体的自主性更加完善,它还将通过自然语言的方式回复该答案以完成自己的使命。

FAIR 提出了一项新的 AI 任务——具体化问答(Embodied Question Answering)。上图中在一个 3D 环境中的某个随机位置产生一个智能体,并给出一个问题(车是什么颜色的?)。为了回答这个问题,智能体必须借助智能导航以探索环境,通过第一人称(以自我为中心)的视觉收集信息,然后回答问题(橙色)。

FAIR 相信这些是第一个要求 AI 系统综合展示感知、交流和动作以达成目标的实验。将完全自主(智能体在没有人类引导和干预的情况下实现了自主活动)和不熟悉的环境结合起来增加了整个任务的挑战性。智能体要在随机的、数以百计的不同楼层平面图(每个平面都是仿照现实家庭进行建模)中运行,而且不具有在该环境中实践运行过所带来的增益,也不曾在类似的地图上运行过。更难的是,为了回答提出的问题,智能体必须移动,因为问题中的对象也许无法立即看到。

在工作中学习

为了训练和评估这些智能体,所需的虚拟环境不仅仅要具备交互功能,还要具备多样化和数量充足的特性,以避免智能体在相同环境中反复运行,这对自主智能体的发展而言是一个更加巨大的挑战。FAIR 的解决方案称为 House3D,它是由 45000 个手动创建的模拟室内环境所组成的。House3D 是基于普林斯顿大学的 SUNCG 数据集而创建的,但是 House3D 作为一个完全可导航的位置集合(Fully navigable set of locations),使得智能体能够同时探索数千个房间,这比起在现实生活空间中训练具有复杂机械结构的机器人要来得快得多。它也使得我们可以进行可重复性的科学实验。并且 House3D 还进行了开源,目前可以在 GitHub 上获取。

为了在 House3D 中每次都能进行独特的寻宝活动,智能体必须在完成任务的过程中学习一系列核心能力——从对室内物体的识别(沙发、椅子等)到对问题的语言理解。

第一种习得的能力是主动感知(Active perception),或者是智能控制前面像素的能力,因为一开始目标对象不太可能会刚好位于智能体的视线范围内(图像通过一个 224x224 分辨率的 RGB 模拟摄像头采集)。因此,智能体不是被动地感知问题中提及的对象(固定图像数据集中就是如此),而是通过探索周围环境主动将目标对象寻找出来。

这项研究的一个创新点在于实现了导航的模块化方法,该方法将导航任务划分成了两个部分。规划者(Planner)负责选择移动的方向,例如向左移动,而控制器(Controller)则负责确定在该方向需要移动多远。这种策略避免了智能体在移动前需要去创建长远而又详细的路径规划,因为这么干会导致更多的错误和更弱的适应性。此外规划者-控制器(Planner-Controller)这套设置也更适合于强化学习,在这里智能体将根据积极或者消极的反馈来动态调整其导航。

FAIR 的智能体将导航任务分解为一个规划者(PLNR)模块和一个控制器(CTRL)模块。规划者从卷积神经网络(CNN)获得输入,然后决定所采取的动作。同时控制器将决定继续执行该动作的时间步变量——从而实现方向和速度之间的解耦合。这使得规划者能够在更短的时间内进行更有效的操作,从而减轻了训练难度。

下一步,智能体必须学会常识推理,然后在一个新的但是却并非完全陌生的环境中去发挥作用。尽管人们可能知道车库往往位于房屋的周围,因此可以通过外部门进入,但是 AI 系统却需要自己去学习这些知识。随着在不同的模拟家庭中成功达到目标,智能体必须发展出这种常识,以缩短寻找指定对象然后回答相关问题所花费的时间。

作为常识积累的后续阶段,智能体还要学习语言基础,或者是学习如何把单词(比如针对对象的描述)与特定的动作联系起来。例如,当为了找到可能位于车库中的汽车而搜索车库时,智能体不会被迫查看每个可能的空间,直到它找到与车库对应的一组像素为止。恰恰相反,智能体使用「车库」作为一个行动的指令,然后直接去找到外部门,从而更加高效地定位它的目标。

最后,因为 FAIR 的目标是超越繁琐的、逐步的人为监督,从微弱和远期的目标驱动奖励中学习,所以智能体必须学会的最重要的能力之一是「功劳分配(Credit assignment)」,这意味着智能体能够知道自己一路上所做的行为哪些是正确的而哪些又是错误的。例如,如果询问「多少个房间里有椅子?」,然后智能体并没有被明确告知需要检查每一个房间,甚至没有被告知要从家中含有椅子的区域开始计算。智能体能够凭借自己的力量去探索和回答问题,而不需要借助人类提供的详细的逐步计划。因此,从它是否正确回答的一个微弱信号来看,它必须自行学习其数百项相互依赖的行动中是哪一项导致了成功。为了增强传统的强化学习,FAIR 使用模仿学习(Imitation learning,比较智能体的运动与到达目标的可能最短路径)和奖励塑造(Reward shaping,通过「变得更近」和「变得更远」信号随时间变化而改进智能体的表现)来允许智能体把它真正使命拼凑起来,即便该使命在开始时并不明晰。

让自主系统更加自主

经过训练的 EmbodiedQA 智能体与标准序列模型基准(一个 LSTM 导航器)相比,表现的相当合理。

该视频比较了 FAIR 开发的智能体(名称为 ACT+Q-RL)与基准的性能表现(名称为 LSTM+Q)。视频地址

和 House3D 一样,FAIR 收集的 EmbodiedQA 数据将进行开源,并且旨在启发更广泛的 AI 研究社区内的其它项目。为了给其他研究人员提供完整的背景,FAIR 将人类带入了这个方程式中。FAIR 和佐治亚理工学院将自主智能体导航与问答的能力与远程遥控智能体进行了对比,这些远程遥控智能体由人类(通过亚马逊的 Mechanical Turk 平台)进行操控,从而建立了专家级别的基准导航示例。由此产生的数据集包括,与 750 个独特的、多房间的环境相关的合成产生问题(Synthetically generated questions)。智能体(和人类)准确性的故障以及我们使用的问答生成引擎也将成为 EQA v1 开源版本中的一部分,该版本在不久的将来可以获取到。

虽然 EmbodiedQA 是只涵盖了一种目标驱动的自主任务,但是它却代表了人工智能的高难度(因为它将各种各样的子任务合并成了一个任务),并且有机会探索采取「行动」的新学习范式,这是成功的先决条件。无法做出决策的智能体——在这种情况下,通过在现实家庭中导航,确定它们收集到了相关的数据,然后传达它们发现的内容——这种智能体在我们的实验中是无法完成任务的。

这种挑战是艰巨的,因为它至关重要。在短期内,目标驱动的算法可以使用自动化来改善 AR 和 VR 的体验,为可用的接口选项添加直观的语音交互。但这种基于行为的目标驱动方法的长期影响可能会延伸到自主性上。从数字助理可以根据单一命令(例如,不仅可以预约医生,还可以重新安排冲突的会议)执行一系列家务事,到灾难响应机器人遵循来自第一响应者的简单语音命令,这种适应性的自动化可能会对我们的生活产生重大影响。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    31440

    浏览量

    223638
  • Facebook
    +关注

    关注

    3

    文章

    1432

    浏览量

    59352
  • 智能体
    +关注

    关注

    1

    文章

    559

    浏览量

    11647

原文标题:Facebook 最新研究:自主学习一个会和世界互动的智能体

文章出处:【微信号:IndustryIOT,微信公众号:工业互联网前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深度解析3D眼镜电子电路设计难点与实践——YANTOK自主设计方案落地

    等问题,本质上都是电路设计不合理导致——要么同步电路抗干扰能力弱,要么驱动电路功耗过高,要么主控芯片选型与场景需求不匹配。 二、YANTOK自主设计产品分类解析:差异化电路适配不同场景 YANTOK
    发表于 04-08 11:21

    自主AI智能如何通过NVIDIA OpenShell实现原生安全

    NVIDIA OpenShell 提供了在可信基础设施策略层中管理自主智能的工具——在环境中添加安全机制,而不是在模型或应用层。
    的头像 发表于 04-03 10:00 1275次阅读

    自主可控和安全可靠于一,龙芯工控机描绘信创事业新蓝图

    数字经济深度发展,信创产业已从“政策驱动”迈向“竞争力驱动”,成为保障国家信息安全、推动科技自主自强的核心支撑。工控机作为工业控制、智能制造的“算力底座”,其
    的头像 发表于 03-23 14:21 206次阅读
    集<b class='flag-5'>自主</b>可控和安全可靠于一<b class='flag-5'>体</b>,龙芯工控机描绘信创事业新蓝图

    NVIDIA DGX Spark为自主智能提供全栈平台

    人工智能正在从基于提示的简单工具,转变为能够推理、规划和执行的智能、长期运行的系统。这些自主智能不仅可以生成文本,还可以编写代码、调用工具
    的头像 发表于 03-19 15:54 381次阅读

    西井科技携手同济大学 三篇AI研究成果入选顶会ICLR 2026

    科技携手同济大学长聘教授、上海创智学院全时导师陈广,共有3篇人工智能研究成果被大会正式录用。作为全球人工智能领域最具影响力的学术会议之一,ICLR 致力于推动深度学习与表征
    的头像 发表于 02-12 17:42 1.1w次阅读
    西井科技携手同济大学 三篇AI<b class='flag-5'>研究成果</b>入选顶会ICLR 2026

    多模态感知大模型驱动的密闭空间自主勘探系统的应用与未来发展

        多模态感知大模型驱动的密闭空间自主勘探系统    北京华盛恒辉多模态感知大模型驱动的密闭空间自主勘探系统,是融合多模态大模型与自主
    的头像 发表于 12-29 11:27 456次阅读

    微软发布多项全新自主式能力企业智能

    微软宣布多项面向未来企业的自主式能力,从销售拓展智能到MCP服务器全面升级,聚焦销售流程自动化、跨系统的统一数据访问、Microsoft Dynamics 365与Microsoft Power
    的头像 发表于 12-19 16:14 756次阅读

    【书籍评测活动NO.68】龙芯之光·自主可控处理器设计解析

    专业主任,深圳市电子学会理事,深圳市人工智能协会理事,深圳市电子协会副理事长单位代表,获得了国家职业教育教师教学创新团队学科带头人、深圳市优秀教师等荣誉。 刘永新,深圳微纳集成电路与系统应用研究
    发表于 12-01 15:32

    自主生产:制造业的未来

    自主生产代表着行业模式的转变:从僵化的生产线转向自我控制的网络系统。在人工智能、Digital Twins 和自适应流程的支持下,人类仍然是主要的决策者,并能提高效率、质量和可持续性。 自主
    发表于 09-15 15:08

    AI智能的技术应用与未来图景

    深度学习与逻辑推理,实现复杂情境的语义解析与因果推断;行动层依托强化学习框架驱动自主决策链,形成感知-决策-执行的闭环能力。这种架构演进使智能
    的头像 发表于 07-24 11:04 1115次阅读

    NVIDIA展示机器人领域的研究成果

    在今年的机器人科学与系统会议 (RSS) 上,NVIDIA 研究中心展示了一系列推动机器人学习研究成果,展示了在仿真、现实世界迁移和决策制定领域的突破。
    的头像 发表于 07-23 10:43 1644次阅读

    从大模型到智能:企业级智能如何搭建

    自主决策能力的数字化代理,其核心特征包括环境感知、自主决策、持续学习和多模态交互。构建智能需要融合认知科学、计算机科学和管理学的跨学科知识
    的头像 发表于 07-21 15:46 1083次阅读
    从大模型到<b class='flag-5'>智能</b><b class='flag-5'>体</b>:企业级<b class='flag-5'>智能</b><b class='flag-5'>体</b>如何搭建

    Nullmax端到端自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队在端到端自动驾驶方向的最新研究成果《HiP-AD: Hierarchical
    的头像 发表于 07-05 15:40 1963次阅读
    Nullmax端到端自动驾驶最新<b class='flag-5'>研究成果</b>入选ICCV 2025

    后摩智能与高校合作研究成果荣获ISCA 2025最佳论文奖

    近日,北京后摩智能科技有限公司与北京大学集成电路学院孙广宇长聘副教授团队、上海交通大学张宸助理教授团队、香港科技大学谢源讲席教授团队、东南大学司鑫副教授团队及阿里巴巴达摩院合作的研究成果
    的头像 发表于 07-05 11:21 2526次阅读

    NVIDIA在ICRA 2025展示多项最新研究成果

    在亚特兰大举行的国际机器人与自动化大会 (ICRA) 上,NVIDIA 展示了其在生成式 AI、仿真和自主操控领域的多项研究成果
    的头像 发表于 06-06 14:56 1584次阅读