0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Facebook训练AI问路 探索自然和人造交流

物联网之声 来源:未知 作者:胡薇 2018-07-24 10:43 次阅读

如果你在初来乍到的城市里迷了路,身边又没有地图或者手机导航,你可能会自然而然地向其他人问路。

这件在你看来顺理成章的事情对于人工智能来说却是一个大难关。

AI不能独立地彻底理解人类的自然语言,自然也听不懂使用自然语言的指路,对于虚拟助手而言,仅仅能够对人类提出的问题做出简单的回应,这远远达不到要求。

Facebook的人工智能研究室(FAIR)正在试图突破这一难关。

要让人工智能系统理解人类语言,方法之一就是把语言和特定环境联系起来,以更加自然的方式来训练这些系统。就像婴儿最先学会说的是他们能看到摸到的东西一样,这种方式也被称为具体的人工智能,更偏向于在真实环境中学习,而不是通过大量的文本数据进行训练。

FAIR的研究人员把这一新的研究课题称为Talk the Walk。在这个研究课题中,一对AI智能体相互交流,共同完成导航到指定位置的任务。

但是他们不是将AI智能体置于一个简单的类似于游戏的环境中,而是设计了一个机器人游客,向它展示纽约街区真实的全景照片,让它模拟一位迷路的游客来问路。另一个只记录下周围街区二维地图的机器人作为指路人,输出自然语言,来帮助“游客”找到它的目的地。

通过一种新型的被称为MASC (Masked Attention for Spatial Convolution) 的注意力机制,让导航机器人专注于地图上正确的地方。这种方式使得在测试集上导航的准确率提高了一倍。

Facebook表示,这项工作的目标是要提高学术界对于交流、感知和行动如何影响基础语言学习问题的理解,同时也为把自然语言作为一种人机交互方式提供了压力测试。

FAIR也将发布Talk the Walk的基线和数据集。他们认为开源这项工作可以为其他研究人员提供一个测试他们自己的具体AI系统的框架,特别是在对话方面。

AI将如何扮演游客和导游?

为了为他们的系统提供学习和演示基础语言的环境,FAIR研究人员使用全景摄像头分别拍摄了纽约市五个街区的部分街道,包括曼哈顿的Hell’s Kitchen、East Village、Financial District、Upper East Side以及布鲁克林的Williamsburg。

选定的这些区域都具有统一的、网格状的布局,同时为实验中的每一对AI智能体双方分别提供了一半的第一人称环境视角。

另一方面,AI“导游”只能获取带有通用地标的2D俯视地图,例如“餐厅”和“酒店”。“导游”和“游客”都不能和对方共享自己的视图,因此,必须要沟通才能导航到指定位置。

当导游预测游客已经到达目标位置时,就意味着本次实验的结束。如果预测正确,则导航过程被标记为成功;失败的预测则被标记为不正确。实验不限制移动或交流的次数。

在真实环境中学习对于这一领域来说是全新的,对环境的完全仿真可能会是未来的方向。

FAIR研究人员还创建了智能体之间的自然语言互动,收集了来自人类玩家的真实互动数据,例如“一直走到下一个街区,然后右转进入餐厅”,而不是专门为机器人生成的、经过仔细措辞的信息

这些人类参与者也和机器人一起被分配了导游和游客的角色,具有相同的共享导航目标和信息约束(第一人称视角或俯视地图)。

强调使用真实环境和现实生活语言使整体问题更加困难。与实际城市街区的全景图像相比,模拟的环境一般不会那么混乱,而且更具有可预测性。一系列精心编写的回复也不太可能捕捉到在人与人真实对话中那种微妙的、不精确的和混乱的信息传递。

但是提高任务难度可以使其结果更具相关性。为了能够有效地与人类进行交互,未来的AI系统需要理解在复杂环境中的文本和超出有限的预定短语列表的语言。

探索自然和人造交流

尽管自然语言交流是这项研究的主要焦点,但FAIR团队还设计了两种额外的“紧急通信”设定,在其中智能体使用不同的通信协议而不是模仿人类语言。

第一个设定是,智能体通过连续向量进行通信,这意味着它们将原始数据相互传输。例如,这些连续的向量包括游客正在看到的和做的事情的表示,这能够帮助基于地图的导游来定位他们的同伴。

第二个紧急通信设定采用了完全不同的方法,研究人员称之为人造语言。在这种情况下的交流比自然语言简单得多,使用的是一组非常有限的离散符号来传达信息。

通过为机器人提供以最简单的形式进行通信的选项,从而能够实现快速而精确的互动,这也让我们能更好地了解到自然语言的魅力。

当使用这两种紧急协议而不是自然语言时,AI游客和导游都会表现得更好。这对于研究人员来说并不奇怪,因为AI使用的自然语言没有得到明确的信息交换。

紧密联系AI与其应用环境

将这些研究结果以及FAIR的研究放在适当的背景中非常重要:Talk the Walk不是自然语言和合成交互之间的竞争,而是试图为创建能够和人类有效交互的机器这一最终目标,提供一个清晰而可衡量的结果。

为了证明语言基础的价值,研究人员创建了MASC,一种新型的注意力机制,使得导游根据游客提供的俯视地图的信息,可以预测其位置。

注意力机制通常用于深度学习,以允许系统集中处理某些任务,类似于人们将注意力集中的状态。

MASC根据游客的状态转换(例如向左,向右移动,从俯视角度,向上和向下移动)识别地标嵌入(例如,“餐馆”,“酒吧”等),并将其表示为地图嵌入的2D卷积。该空间掩膜基于对游客可能行进的追踪来预测游客当前的位置。

MASC具有广泛的有效性。它提高了所有通信协议、自然语言和紧急通信方法的本地化性能。

通过将旅游系统的话语与导航系统的地图相关联,MASC的准确性有了大幅改进,是基于合成通信的系统准确度的两倍以上。

人工智能代理经过培训可以生成自己的自然语言信息,在使用这些自然语言的任务中也有更好的表现。用自动生成的自然语言,而不是简单地使用从人类玩家的互动中提取的文字例子,可以明确沟通任务内容。

不相关的闲聊通常是自然语言交互的优势,但对于基于通信交流的任务并非有利,因为闲聊会带来性能的不稳定。

例如,一个人类参与者在看到两家咖啡店和一家邻近的Chipotle后,发出了信息:“天呐,如果我来纽约,这就是我要去的地方!”,其他玩家对此发出“这是天堂啊!”的回应。通过微调和AI代理来生成仅与任务相关的自然语言,由此产生的交互就避免了这些闲聊的分歧和干扰。

最后,这项研究表明,使用自然语言的人类比使用合成通信的AI代理人在本地化方面更糟糕。和Talk the Walk得出的其他人机性能间的比较一样,这是一个重要的结果,它有助于为进一步研究与开发依赖自然语言的AI系统相关的挑战建立基线和可能的机会。

未来的系统能否利用自然语言的多功能性,同时避免人们沟通方式固有的模糊性和低效率?或者对话是否施加了无法规避的限制?作为基础研究,这项研究提出了这些问题,而对它们的回答还有待进一步的研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26424

    浏览量

    264029
  • Facebook
    +关注

    关注

    3

    文章

    1428

    浏览量

    54028

原文标题:AI迷路了怎么办?Facebook正在训练AI学会问路

文章出处:【微信号:szwlw26059696,微信公众号:物联网之声】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI训练,为什么需要GPU?

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的算力底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人工智能(AI
    的头像 发表于 04-24 08:05 371次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>训练</b>,为什么需要GPU?

    DocuSign拟用用户合同数据训练AI,引争议

    据了解,DocuSign计划借助微软Azure上的OpenAI工具,如GPT技术,以训练其所谓的“撰写协议”模型,并且从用户提供的大量数据中,训练出专属的人工智能(AI)模型,但这部分数据并无公开之意。
    的头像 发表于 03-04 15:45 153次阅读

    基于微流控的人造蜘蛛腺纺出“自然丝”

    近期,日本研究人员研发了一种微流控器件,可纺出与自然产生的蛛丝非常接近的人造蜘蛛丝。
    的头像 发表于 01-25 09:42 242次阅读

    自然语言处理的研究内容

    自然语言处理(NLP)的最新发展改变了我们与AI系统的交互方式: 1. 预训练模型:像 GPT-3 这样的模型已经进步,使人工智能能够在聊天机器人和虚拟助手中生成更连贯的上下文感知响应。 2.
    的头像 发表于 01-18 16:39 200次阅读

    在线研讨会 | 大模型时代语音 AI 模型的训练、优化与应用

    AI 大模型在语音识别、自然语言处理等领域已经取得了令人瞩目的成就。语音 AI(Speech AI)技术已经广泛应用在数字人、实时翻译、语音搜索、客户服务应答等多个业务场景, NVID
    的头像 发表于 12-15 15:50 252次阅读
    在线研讨会 | 大模型时代语音 <b class='flag-5'>AI</b> 模型的<b class='flag-5'>训练</b>、优化与应用

    面向边缘的集成AI训练和推断解决方案

    电子发烧友网站提供《面向边缘的集成AI训练和推断解决方案.pdf》资料免费下载
    发表于 09-13 10:25 0次下载
    面向边缘的集成<b class='flag-5'>AI</b><b class='flag-5'>训练</b>和推断解决方案

    AI新品 | 兆瀚RA5900-B AI训练服务器

    END 原文标题:AI新品 | 兆瀚RA5900-B AI训练服务器 文章出处:【微信公众号:拓维信息】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 08-14 17:25 639次阅读

    训练好的ai模型导入cubemx不成功怎么解决?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 08-04 09:16

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练AI部署需要更多。 预计到2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70
    发表于 08-04 07:25

    NVIDIA Omniverse让AI训练变得更加简单易用

    Rendered.ai 将 NVIDIA Omniverse Replicator 集成到其合成数据生成平台,使 AI 训练变得更加简单易用。
    的头像 发表于 07-24 09:14 829次阅读
    NVIDIA Omniverse让<b class='flag-5'>AI</b><b class='flag-5'>训练</b>变得更加简单易用

    NLP中的迁移学习:利用预训练模型进行文本分类

    迁移学习彻底改变了自然语言处理(NLP)领域,允许从业者利用预先训练的模型来完成自己的任务,从而大大减少了训练时间和计算资源。在本文中,我们将讨论迁移学习的概念,探索一些流行的预
    发表于 06-14 09:30 311次阅读

    NVIDIA AI 技术助力 vivo 文本预训练大模型性能提升

    vivo AI 团队与 NVIDIA 团队合作,通过算子优化,提升 vivo 文本预训练大模型的训练速度。在实际应用中, 训练提速 60% ,满足了下游业务应用对模型
    的头像 发表于 05-26 07:15 444次阅读
    NVIDIA <b class='flag-5'>AI</b> 技术助力 vivo 文本预<b class='flag-5'>训练</b>大模型性能提升

    什么是预训练AI模型?

    训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用,也可以根据不同行业的应用需求进行自定义。
    的头像 发表于 05-25 17:10 633次阅读

    ChatGPT系统开发AI人功智能方案

    随着人工智能技术的不断发展,本文由小编:Congge420整理发布。社交聊天系统在人们生活中扮演着越来越重要的角色。尤其是当人们想要与他人交流时,这个工具可以帮助他们更好地表达自己的想法和感受
    发表于 05-18 10:16

    中国开源未来发展峰会“问道 AI 分论坛”即将开幕!

    纷纷探索集成 AI 技术;在资本市场,AI 技术的投资与投资收益都呈现上升趋势;全球范围内的 AI 交流活动在明显增加…… 聚焦至
    发表于 05-09 09:49