0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

“导游Bot”在模拟的纽约市中导航定位,使用自然语言跟“游客Bot”交流

DPVg_AI_era 来源:未知 作者:李倩 2018-07-13 09:57 次阅读

在FAIR和蒙特利尔大学合作的最新研究中,研究人员首次将实验中将感知、行动和使用自然语言交互达成目标这三个任务结合在一起:让两个Bot使用自然语言对话,让“导游bot”将“游客bot”带到指定地点,而且导航成功率超越了人类。

Facebook让两个Bot自己游纽约,“导游Bot”在模拟的纽约市中导航定位,使用自然语言跟“游客Bot”交流,成功率超过了88%!

这已经显著超越某些“路痴”人类,而且,两个Bot还是使用自然语言在交流。



两个Bot使用自然语言交流导航定位

在今天最新上传到arxiv的一篇研究论文中,Facebook人工智能实验室(FAIR)与蒙特利尔大学合作,研究人工智能系统如何定位,并比人类更好地传达观测数据。

研究人员把他们的实验成为“Talk the Walk”。在实验中,他们将游客Bot随机放到纽约市的一个街角,再让一个导游Bot将前者引导到2D地图上的某个位置。导游Bot知道地图,也知道目标地点,但是不知道游客Bot在哪里;游客Bot拥有360°视角,但不知道地图,也不清楚目标地点。

游客和导游必须相互沟通,交流彼此所知道的信息,才能实现目标。

想象一下两个Bot的对话:

导游:你好,你在附近吗?

游客:你好,在我面前是“布鲁克斯兄弟”。

导游:这是家商店还是餐馆?

游客:这是一家服装店。

导游:你往地图西北角的十字路口走。

游客:我身后似乎有一家银行。

导游:好的,左转然后沿着那条路直行。

...

研究人员表示,Talk the Walk是首个将所有三个要素结合在一起的任务:感知(游客Bot观察世)、行为(游客Bot在环境中导航),以及语言交互达成目标(导游Bot为游客Bot提供引导帮助其实现目标)。

首次将感知、行动和使用自然语言交流达成目标结合在一起

实验中使用的街景地图数据,是MTurk众包手动收集的几个纽约市街区的360°视图。这些街景环境被整合到ParlAI中,这是Facebook的一个用于训练AI的框架,支持很多任务,包含的数据集包括SQuAD,bAbI tasks,MS MARCO,MCTest,WikiQA,WebQuestions等等。

实验中使用的自然语言数据,也是MTurk的真人对话,用几周时间收集,包含10k成功的导航对话。平均来说,人类需要超过62次行动(对话和走路)才能顺利到达目标地点。大部分行动发生在游客这边,平均每次对话44次行动。人类导游大约说了9次话(稍微比游客的8次话多一点点)。

虽然研究人员的目标是让Bot通过自然语言来处理收集到的信息,但他们发现,当Bot使用“合成语言”时,完成任务的效果更好,因为后者更依赖于使用更简单的符号来传达信息和位置。这种不那么自然的数据通信方式不仅优于人类的聊天,还能让Bot比人在自然语言聊天中更简单快读地找到自己的道路。

机器比人类更擅长导航定位!

Talk The Walk的实验环境设置全部来自现实世界,因此尤其困难。让两个人用文字描述自己周围的不熟悉环境已经不容易,何况两个Bot?

为了解决这个问题,研究人员提出了一个名为MASC(Masked Attention for Spatial Convolution)的机制,让Bot能快速从语言模型中解析对方回应的关键字的内容。Facebook表示,利用该流程可以使正在测试的结果的准确性翻倍。

结果显示,他们最好的沟通模型(emergent communication model)准确率几乎达到了70%,要显著优于从人类话语中得到最好的定位模型(大约20%),这表明人类很不善于定位,因为人类并不总能很好地传达自己的观察和行动。

不仅如此,他们最好的定位模型(continuous communication, with MASC, and T = 3)在整个导航任务测试中达到了88.33%的准确率,超过了人类76.74%的表现。

激动人心的新研究方向:用自然语言对话解决现实世界问题

研究人员表示,这是一项基础性研究,这次实验只是初步结果,还提出了更多的问题等待解决。

“如果你真的想要解决所有人工智能问题,那么你可能要有解决不同子问题的不同模块或组件,”Facebook AI研究科学家Douwe Kiela在接受TechCrunch记者采访时表示:“从这个意义上说,这个问题是一个真正的挑战。”

他希望有更多的人参与进来与他们共同在这个激动人心的新研究方向上与他们合作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Facebook
    +关注

    关注

    3

    文章

    1428

    浏览量

    54029
  • 导航定位
    +关注

    关注

    0

    文章

    33

    浏览量

    10948
  • 自然语言
    +关注

    关注

    1

    文章

    269

    浏览量

    13203

原文标题:两个Bot自创新语言!Facebook机器人纽约自由行导航定位碾压人类

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    意欲挑战硅谷,纽约市***斥巨资打造VR/AR实验室

    。近日,纽约市***宣布,将斥资600万美元兴建全美首间由***投资的“VR/AR实验室”,预期明年初投标,最快明年底落成。这是美国东海岸第一次投资VR/AR,纽约市经济发展局局长Maria
    发表于 12-16 15:48

    python自然语言

    最近,python自然语言是越来越火了,那么什么是自然语言自然语言(Natural Language )广纳了众多技术,对自然或人类语言
    发表于 05-02 13:50

    【推荐体验】腾讯云自然语言处理

    `相信大家对NLP自然语言处理的技术都不陌生,它是计算机科学领域和AI领域中的一个分支,它与计算机和人类之间使用自然语言进行交互密切相关,而NLP的最终目标是使计算机能够像人类一样理解语言。目前
    发表于 10-09 15:28

    可替代人工导游的智能导游讲解器

    GPS+BDS+LBS多重定位,内置高灵敏度陶瓷天线,快速定位,2.8寸TFT高清彩屏240*320分辨率,显示景区导览图游客实时了解景区所处哪里,RFID无线技术自动化
    发表于 11-12 17:24

    智能无线导游讲解器 游客多重安全守护

    `无线导游讲解器特点:GPS+BDS+LBS 多重定位,内置高灵敏度陶瓷天线,快速定位2.8寸TFT高清彩屏240*320分辨率,显示景区导览图游客实时了解
    发表于 11-19 18:20

    智能导游讲解器导游机您的私人导游助理

    TFT高清彩屏240*320分辨率,显示景区导览图游客实时了解景区所处位置,RFID无线技术自动化语言播报和定位,无需人工讲解,双向语音通话,即时沟通。 紧急情况下S0S键直接呼叫
    发表于 11-21 17:51

    智能电子导游机自助讲解 4G全网通导游

    彩屏800*480分辨率,显示景区导览图游客实时了解景区所处位置,RFID无线技术自动化语言播报和定位,无需人工讲解,双向语音通话,即时沟通。 产品特点:北斗
    发表于 12-02 18:03

    景区无线导游讲解设备导游机定制

    `导游机内含GPS+BDS+LBS多重定位,内置高灵敏度陶瓷天线,2.8寸TFT高清彩屏240*320分辨率,显示景区导览图游客实时了解景区所处位置,RFID无线技术自动化
    发表于 12-31 17:54

    自然语言处理的语言模型

    自然语言处理——53 语言模型(数据平滑)
    发表于 04-16 11:11

    自然语言处理的词性标注方法

    自然语言处理——78 词性标注方法
    发表于 04-21 11:38

    自然语言处理笔记

    自然语言处理笔记9-哈工大 关毅
    发表于 06-04 16:34

    自然语言处理——总结、习题

    自然语言处理——79 总结、习题
    发表于 06-19 11:22

    什么是自然语言处理?

    会识别出我们正确说的话。 我们使用免费服务将在线遇到的外语短语翻译成英语, 有时它们可以为我们提供准确的翻译。 尽管自然语言处理取得了长足的进步,但仍有很大的改进空间。[理...
    发表于 07-23 10:22

    什么是自然语言处理

    什么是自然语言处理?自然语言处理任务有哪些?自然语言处理的方法是什么?
    发表于 09-08 06:51

    视觉语言导航领域任务、方法和未来方向的综述

    视觉语言导航(VLN)是一个新兴的研究领域,旨在构建一种可以用自然语言与人类交流并在真实的3D环境中导航的具身代理,与计算机视觉、
    的头像 发表于 09-20 14:30 2789次阅读