0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Facebook训练AI问路 探索自然和人造交流

物联网之声 来源:未知 作者:胡薇 2018-07-24 10:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如果你在初来乍到的城市里迷了路,身边又没有地图或者手机导航,你可能会自然而然地向其他人问路。

这件在你看来顺理成章的事情对于人工智能来说却是一个大难关。

AI不能独立地彻底理解人类的自然语言,自然也听不懂使用自然语言的指路,对于虚拟助手而言,仅仅能够对人类提出的问题做出简单的回应,这远远达不到要求。

Facebook的人工智能研究室(FAIR)正在试图突破这一难关。

要让人工智能系统理解人类语言,方法之一就是把语言和特定环境联系起来,以更加自然的方式来训练这些系统。就像婴儿最先学会说的是他们能看到摸到的东西一样,这种方式也被称为具体的人工智能,更偏向于在真实环境中学习,而不是通过大量的文本数据进行训练。

FAIR的研究人员把这一新的研究课题称为Talk the Walk。在这个研究课题中,一对AI智能体相互交流,共同完成导航到指定位置的任务。

但是他们不是将AI智能体置于一个简单的类似于游戏的环境中,而是设计了一个机器人游客,向它展示纽约街区真实的全景照片,让它模拟一位迷路的游客来问路。另一个只记录下周围街区二维地图的机器人作为指路人,输出自然语言,来帮助“游客”找到它的目的地。

通过一种新型的被称为MASC (Masked Attention for Spatial Convolution) 的注意力机制,让导航机器人专注于地图上正确的地方。这种方式使得在测试集上导航的准确率提高了一倍。

Facebook表示,这项工作的目标是要提高学术界对于交流、感知和行动如何影响基础语言学习问题的理解,同时也为把自然语言作为一种人机交互方式提供了压力测试。

FAIR也将发布Talk the Walk的基线和数据集。他们认为开源这项工作可以为其他研究人员提供一个测试他们自己的具体AI系统的框架,特别是在对话方面。

AI将如何扮演游客和导游?

为了为他们的系统提供学习和演示基础语言的环境,FAIR研究人员使用全景摄像头分别拍摄了纽约市五个街区的部分街道,包括曼哈顿的Hell’s Kitchen、East Village、Financial District、Upper East Side以及布鲁克林的Williamsburg。

选定的这些区域都具有统一的、网格状的布局,同时为实验中的每一对AI智能体双方分别提供了一半的第一人称环境视角。

另一方面,AI“导游”只能获取带有通用地标的2D俯视地图,例如“餐厅”和“酒店”。“导游”和“游客”都不能和对方共享自己的视图,因此,必须要沟通才能导航到指定位置。

当导游预测游客已经到达目标位置时,就意味着本次实验的结束。如果预测正确,则导航过程被标记为成功;失败的预测则被标记为不正确。实验不限制移动或交流的次数。

在真实环境中学习对于这一领域来说是全新的,对环境的完全仿真可能会是未来的方向。

FAIR研究人员还创建了智能体之间的自然语言互动,收集了来自人类玩家的真实互动数据,例如“一直走到下一个街区,然后右转进入餐厅”,而不是专门为机器人生成的、经过仔细措辞的信息。

这些人类参与者也和机器人一起被分配了导游和游客的角色,具有相同的共享导航目标和信息约束(第一人称视角或俯视地图)。

强调使用真实环境和现实生活语言使整体问题更加困难。与实际城市街区的全景图像相比,模拟的环境一般不会那么混乱,而且更具有可预测性。一系列精心编写的回复也不太可能捕捉到在人与人真实对话中那种微妙的、不精确的和混乱的信息传递。

但是提高任务难度可以使其结果更具相关性。为了能够有效地与人类进行交互,未来的AI系统需要理解在复杂环境中的文本和超出有限的预定短语列表的语言。

探索自然和人造交流

尽管自然语言交流是这项研究的主要焦点,但FAIR团队还设计了两种额外的“紧急通信”设定,在其中智能体使用不同的通信协议而不是模仿人类语言。

第一个设定是,智能体通过连续向量进行通信,这意味着它们将原始数据相互传输。例如,这些连续的向量包括游客正在看到的和做的事情的表示,这能够帮助基于地图的导游来定位他们的同伴。

第二个紧急通信设定采用了完全不同的方法,研究人员称之为人造语言。在这种情况下的交流比自然语言简单得多,使用的是一组非常有限的离散符号来传达信息。

通过为机器人提供以最简单的形式进行通信的选项,从而能够实现快速而精确的互动,这也让我们能更好地了解到自然语言的魅力。

当使用这两种紧急协议而不是自然语言时,AI游客和导游都会表现得更好。这对于研究人员来说并不奇怪,因为AI使用的自然语言没有得到明确的信息交换。

紧密联系AI与其应用环境

将这些研究结果以及FAIR的研究放在适当的背景中非常重要:Talk the Walk不是自然语言和合成交互之间的竞争,而是试图为创建能够和人类有效交互的机器这一最终目标,提供一个清晰而可衡量的结果。

为了证明语言基础的价值,研究人员创建了MASC,一种新型的注意力机制,使得导游根据游客提供的俯视地图的信息,可以预测其位置。

注意力机制通常用于深度学习,以允许系统集中处理某些任务,类似于人们将注意力集中的状态。

MASC根据游客的状态转换(例如向左,向右移动,从俯视角度,向上和向下移动)识别地标嵌入(例如,“餐馆”,“酒吧”等),并将其表示为地图嵌入的2D卷积。该空间掩膜基于对游客可能行进的追踪来预测游客当前的位置。

MASC具有广泛的有效性。它提高了所有通信协议、自然语言和紧急通信方法的本地化性能。

通过将旅游系统的话语与导航系统的地图相关联,MASC的准确性有了大幅改进,是基于合成通信的系统准确度的两倍以上。

人工智能代理经过培训可以生成自己的自然语言信息,在使用这些自然语言的任务中也有更好的表现。用自动生成的自然语言,而不是简单地使用从人类玩家的互动中提取的文字例子,可以明确沟通任务内容。

不相关的闲聊通常是自然语言交互的优势,但对于基于通信交流的任务并非有利,因为闲聊会带来性能的不稳定。

例如,一个人类参与者在看到两家咖啡店和一家邻近的Chipotle后,发出了信息:“天呐,如果我来纽约,这就是我要去的地方!”,其他玩家对此发出“这是天堂啊!”的回应。通过微调和AI代理来生成仅与任务相关的自然语言,由此产生的交互就避免了这些闲聊的分歧和干扰。

最后,这项研究表明,使用自然语言的人类比使用合成通信的AI代理人在本地化方面更糟糕。和Talk the Walk得出的其他人机性能间的比较一样,这是一个重要的结果,它有助于为进一步研究与开发依赖自然语言的AI系统相关的挑战建立基线和可能的机会。

未来的系统能否利用自然语言的多功能性,同时避免人们沟通方式固有的模糊性和低效率?或者对话是否施加了无法规避的限制?作为基础研究,这项研究提出了这些问题,而对它们的回答还有待进一步的研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41059

    浏览量

    302563
  • Facebook
    +关注

    关注

    3

    文章

    1432

    浏览量

    59348

原文标题:AI迷路了怎么办?Facebook正在训练AI学会问路

文章出处:【微信号:szwlw26059696,微信公众号:物联网之声】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    探索;人类级别的理解能力;常识推理;现实世界的知识整合。 3、测试时计算 测试时计算(TTC)是指在模型推理阶段利用额外的计算资源来提升泛化性能。 4、具身智能与渗透式AI 1)具身智能对AGI的意义
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    是一种快速反应能力,是直接的感知;灵感是一种通过思考和探索获得的创造性想法,是一种创意。 AI怎么模拟直觉与灵感呢?四、AI代替人类的假说 这可能吗? 用机器来生成假说: 1、直接生成 生成式
    发表于 09-17 11:45

    AI芯片:科技探索与AGI愿景》—— 深入硬件核心的AGI指南

    AI芯片:科技探索与AGI愿景》一书如同一张详尽的“藏宝图”,为读者指明了通往下一代人工智能的硬件之路。作者没有停留在空洞的概念层面,而是直击核心,从冯·诺依曼架构的“内存墙”瓶颈切入,清晰阐述了
    发表于 09-17 09:29

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    持续发展体现在: 1、收益递减 大模型的基础的需要极大的算力,这首先源于昂贵的高性能AI芯片,然后是宝贵的电力、水等与环境相关的资源。 收益递减体现在: ①模型大小 ②训练数据量 ③训练算法的优化 2
    发表于 09-14 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    算法 5.2加速矩阵乘法的芯片架构 ①新的矩阵乘法器架构 ②基于RISC-V的矩阵乘法扩展指令集 ③用信息论的思想来减少AI推理计算量 三、用于边缘侧训练或推理的AI芯片 1、边缘AI
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是一个由无数神经元通过突触连接而成的复杂网络,是极其复杂和精密的。大脑在本质上就是一台湿润的软组织
    发表于 09-06 19:12

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    AI芯片:科技探索与AGI愿景》这本书是张臣雄所著,由人民邮电出版社出版,它与《AI芯片:前沿技术与创新未来》一书是姊妹篇,由此可见作者在AI芯片领域的功力和造诣。 作者毕业于上海交
    发表于 09-05 15:10

    维智科技出席量子城市与时空AI技术应用业务交流

    近日,维智科技参与由上海市规划和自然资源局数字城市处组织的关于《量子城市与时空AI技术应用》的业务交流会。
    的头像 发表于 09-05 10:32 995次阅读

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    的音乐会” 4. 模型训练 在maixHub,将采集的数据直接上传到平台,根据平台介绍进行训练模型 5. 模型测试 真实绘本测试 训练集的画家作品测试 5. 结论 本项目成功地将前沿的
    发表于 08-21 13:59

    金融思维训练营莅临弘信电子考察交流

    近日,中山大学管理学院博士生导师、首席经济学家李孔岳教授带领金融思维训练营120余名学员莅临弘信电子考察交流。学员们先后参观公司展厅、实地探访柔性电子产线、参与座谈交流,全方位了解弘信电子在柔性电子
    的头像 发表于 07-31 11:03 1649次阅读

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    名单公布 @LiuDW、@jinglixixi、@bruceleesohu 请于9月3日前,前往【书籍评测活动NO.64】《AI芯片:科技探索与AGI愿景》完成书籍兑换。 如有疑问请 添加小助手微信
    发表于 07-28 13:54

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    时间减少,数据处理更流畅。这让我联想到工业生产中的流水线,AI 训练在此处借鉴类似思路,通过优化任务分配和流程,突破硬件限制,追求更高效率,体现了技术发展中持续优化、突破瓶颈的智慧。 三、细粒度
    发表于 07-20 15:07

    海思SD3403边缘计算AI数据训练概述

    AI数据训练:基于用户特定应用场景,用户采集照片或视频,通过AI数据训练工程师**(用户公司****员工)** ,进行特征标定后,将标定好的训练
    发表于 04-28 11:11

    Deepseek海思SD3403边缘计算AI产品系统

    海思SD3403边缘计算AI框架,提供了一套开放式AI训练产品工具包,解决客户低成本AI系统,针对差异化AI 应用场景,自己采集样本数据,进
    发表于 04-28 11:05