0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能玩家发明自己的“语言”,合作“交流”以赢得纸牌游戏

IEEE电气电子工程师 来源:lp 2019-03-10 11:13 次阅读

机器正变得越来越具有协作性,其中既包括机器与人的协作也包括机器与机器之间的协作。不久之后,我们可能就会有能协商通行权的自动驾驶汽车,以及协助护士进行家庭护理的机器人。但首先,它们需要学会交流,而且不仅仅是通过言语交流。人类用他们的行动说了很多。踩刹车不仅会让你减速,还预示着前方可能有麻烦。双臂交叉在胸前既可以保护你,又传达出沉默的信号

为了教会人工智能AI)进行交流,研究人员转向了纸牌游戏。虽然人工智能很久以前就在国际象棋、围棋、某些形式的扑克和许多电子游戏中击败了人类,但桥牌和花火(Hanabi)等游戏提供了一些特殊的挑战。玩家必须在没有明确的信息共享方式的情况下进行合作(例如打出对方需要你打出的牌)。研究这两款游戏的研究人员最近开发了一些人工智能系统,这些系统发明了自己的隐式代码来协调它们的动作。

在桥牌比赛中,有四名选手,分成两队。在任何人出牌之前,玩家可以轮流叫牌。用选定的作为将牌的花色叫牌来表明你认为你的团队可以赢某个墩数。多年来,桥牌玩家们已经开发出了很多能同时让队友知道自己手里有什么排的叫牌方法。例如,一个人可能叫“两个梅花”(即使他没有梅花)来表示自己手里有很多花牌(J、Q、K)。通过这样编码过的叫牌,团队可以进行基本的对话。

伦敦大学学院(University College London)的研究人员最近在预印本文库arXiv上发表了一篇标题为“Learning to Communicate Implicitly By Actions”的论文。在他们的名为“策略-信念-迭代”(Policy - Belief - Iteration,简称P-BIT)的系统中,每个AI玩家都有两个神经网络。一个网络学习根据叫牌来推断队友手里有什么牌。另一个学习根据对队友手里有的牌的推断和自己手里的牌来做出恰当的叫牌。在训练过程中,AI玩家会因为自己的叫牌提高了队友所做推断(推断自己手里有什么牌)的准确性而得到奖励。

在经过150万手的练习之后,这对AI搭档已经发展出了它们自己的约定,比如用叫一种花色的三张牌的方式来表明这种花色的六张牌可能是一个理想的定约。这对AI玩家击败了没有进行交流或对它们队友的信念进行建模的基线AI玩家。该论文的作者之一、伦敦大学学院的计算机科学家Jun Wang表示,这些AI玩家还无法与人类玩家相比,但他发现初步结果“是非常鼓舞人心的”。

一款名为花火(Hanabi)的新型纸牌游戏也具有类似的交流挑战。在这款需要合作的类单人纸牌游戏中,两到五名玩家每人各持有四到五张牌,每张牌都具有一种颜色并带有一个数字,玩家需要轮流将它们按正确的顺序放到彩色的纸牌堆上。但他们看不到自己的牌,只能看到队友的牌。

在每个回合中,他们可以出一张牌、丢弃一张牌,或者给另一位玩家一个提示。他们不能告诉对方可以出哪张牌,而是只能说对方手中的哪些牌是某种颜色的或是带有某个数字的。在某些情况下,指出队友手中的某张牌的颜色,可能是向队友示意他接下来应该打出这一张牌。信息不仅可以来自显性线索本身(牌的颜色),还可以来自为什么选择该线索而不是其他线索的隐性内容。

最近,DeepMind Technologies和牛津大学的一个团队在arXiv上发表了一篇标题为“Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning”的论文。论文中介绍了一个针对双人版本花火游戏的机器学习系统。他们的“贝叶斯动作解码器”(Bayesian Action Decoder,简称BAD)也使用神经网络,让每个人工智能玩家尝试推断其队友的信念。为了避免无限递归地思考你的队友在思考你在思考什么,这个系统两个玩家外部创建了一套“公共信念”。

这些公共信念代表了有关游戏状态和之前动作的所有公开可用信息,以及在没有实际查看其中任何一手的情况下可能说的关于所有手的话。然后,“公共代理人”使用神经网络将这些信念转换为关于每个玩家应该做什么以及他们的队友手中可能拿着怎样的牌的指示。然后,每个玩家在公共代理的指导下,根据自己的观察,采取行动。

尽管这些人工智能玩家并没有因为交流而获得特别的奖励,但打信号却产生了另外的作用。例如,指出红牌或黄牌意味着AI队友应该打出最近抽到的牌。研究人员计算出,通过暗示分享的信息中有40%是隐性的。这种编码通信帮助他们的系统近乎完美地运行,平均得分为24分(满分25分),比之前最好的机器人高出约1分。(对于人类来说,即使有使用肢体语言的不公平优势,得分超过20分就是不错的。)

这两个系统,即用于桥梁的P-BIT和用于Hanabi的BAD,都依赖于给予人工智能的一些东西,比如人的“心理理论”,或者对他人的信念和意图的认知。这种推理在人际交往中普遍存在。如果你问你的朋友他的婚姻状况,而他把话题转到纽约大都会队,那么他的话就不仅说明了关于大都会队的一些情况,也说明了他的婚姻状况。

为了让AI能够高效、优雅地处理与人之间或彼此之间的互动,它们需要理解隐性信号,而纸牌游戏是实现目标的途径之一。一家名为NukkAI的创业公司专注于为桥牌打造更好的人工智能,并且正筹集了数百万美元,期望最终将其技术应用于现实世界的问题。在最近的一篇标题为“The Hanabi Challenge: A New Frontier for AI Research”论文中,DeepMind称花火为“人工智能研究的一个新前沿”,并提供了一个开源测试平台。

尽管DeepMind的BAD系统通过反复与同一队友玩游戏来制定出约定,但他们在上面那篇论文中指出,更高级的任务将是对不熟悉的玩家的行为进行动态推理。他们在这个场景下测试了一些系统,而没有一个系统的平均得分超过4分。

研究机器人和通信的康奈尔大学计算机科学家Julia Proft也强调了即时推理的重要性。她最近发现,当AI花火玩家使用隐性信号时,它们更有可能被判断为是人类玩家。这一发现发表在标题为“Implicit Communication of Actionable Information in Human-AI teams”的论文中。在谈到关于习得约定的论文时,她说:“他们做的事情真酷。”但她又加上一句说,“有趣的问题”是来自上下文的自发推理。

不过,牛津大学的计算机科学家、DeepMind那两篇论文的合著者Jakob Foerster说:“我并不认为我们有可信的方法来开始考虑自发推理需要什么。说实话,我们离去考虑那个问题还相当远。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4562

    浏览量

    98644
  • AI
    AI
    +关注

    关注

    87

    文章

    26352

    浏览量

    263945
  • 人工智能
    +关注

    关注

    1775

    文章

    43702

    浏览量

    230483
  • 机器
    +关注

    关注

    0

    文章

    756

    浏览量

    40479

原文标题:人工智能玩家发明自己的“语言”,合作“交流”以赢得纸牌游戏

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    5G智能物联网课程之Aidlux下人工智能开发

    课程类别 课程名称 视频课程时长 视频课程链接 课件链接 人工智能 参赛基础知识指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:参赛基础知识指引
    发表于 04-01 10:40

    嵌入式人工智能的就业方向有哪些?

    嵌入式人工智能的就业方向有哪些? 在新一轮科技革命与产业变革的时代背景下,嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下,众多名企也纷纷在嵌入式人工智能领域布局
    发表于 02-26 10:17

    声扬科技荣获深圳人工智能“技术发明奖”

    12月7日,由深圳市人工智能学会主办的第二届“深圳人工智能奖”颁奖典礼在深圳会展中心举办,共颁发六大类奖项,包括优秀博士学位论文奖、自然科学奖、技术发明奖、科技进步奖、行业应用奖、卓越服务奖。声扬
    的头像 发表于 12-13 17:00 508次阅读
    声扬科技荣获深圳<b class='flag-5'>人工智能</b>“技术<b class='flag-5'>发明</b>奖”

    ai人工智能机器人

    随着时间的推移,人工智能的发展越来越成熟,智能时代也离人们越来越近,近几年人工智能越来越火爆,人工智能的应用已经开始渗透到各行各业,与生活交融,成为人们无法拒绝,无法失去的一个重要存在
    发表于 09-21 11:09

    《通用人工智能:初心与未来》-试读报告

    人们的生活变的更加美好。最后强调一点人工智能不会取代人类,反而会更美好的服务人类。 如何学习人工智能 人工智能在多个领域都有应用,每个人的精力都是有限的,因此对自己熟悉的领域或者喜欢的
    发表于 09-18 10:02

    如何将人工智能应用到效能评估系统软件中去解决

      如何将人工智能应用到效能评估系统软件中去解决   华盛恒辉效能评估系统是一种非常实用的管理工具,它可以帮助组织和企业掌握其运营状况,优化业务流程,提高效率和生产力。然而,随着人工智能的迅猛发展
    发表于 08-30 12:58

    人工智能语言有哪几种

    人工智能语言有哪几种 人工智能是一种能够通过模拟人类思维能力的计算机系统。在过去的几十年中,人工智能技术得到了持续的发展,包括语言处理技术。
    的头像 发表于 08-15 16:04 1317次阅读

    人工智能要学什么语言

    Python是人工智能开发中最受欢迎的编程语言之一。它是一种易于学习和使用的编程语言,具有很高的可读性和简洁性。Python的特点是其拥有丰富的类库和工具,这些工具可以帮助开发人员快速构建人工
    的头像 发表于 08-14 15:19 1733次阅读

    人工智能学什么编程语言

    人工智能学什么编程语言 人工智能是科技领域中最具前景的领域之一。自20世纪50年代以来,人工智能已经取得了长足的进步。然而,为了让人工智能
    的头像 发表于 08-12 17:44 474次阅读

    人工智能语言有哪些

    人工智能语言有哪些 人工智能语言是一种编程语言,用于开发和实现人工智能技术。与传统编程
    的头像 发表于 08-12 17:12 2350次阅读

    人工智能用什么语言

    人工智能用什么语言 人工智能(Artificial Intelligence, AI)是指基于计算机的理论和技术,采用模拟智能行为的方法研究与开发
    的头像 发表于 08-12 17:12 2108次阅读

    人工智能学什么语言

    人工智能学什么语言 人工智能(AI)是计算机科学的一个领域,旨在开发机器智能的能力。它是计算机科学中最吸引人的研究领域之一,目前已经引发了广泛的讨论。这也引发了有关
    的头像 发表于 08-12 16:58 430次阅读

    AI 人工智能的未来在哪?

    人工智能、AI智能大模型已经孵化;繁衍过程将突飞猛进,ChatGPT已经上线。 世界首富马斯克认为AI对人类是一种威胁;谷歌前CEO施密特认为AI和机器学习对人类有很大益处。 每个国家对核武器的运用有两面性,可造可控;但AI智能
    发表于 06-27 10:48

    【书籍评测活动NO.16】 通用人工智能:初心与未来

    的新一波人工智能正在兴起。自然语言处理、人脸识别、自动驾驶、无人系统等复杂人工智能任务相继取得大的突破,人工智能在很多特定问题(如围棋、《星际争霸》
    发表于 06-21 14:41

    ChatGPT系统开发AI人功智能方案

    随着人工智能技术的不断发展,本文由小编:Congge420整理发布。社交聊天系统在人们生活中扮演着越来越重要的角色。尤其是当人们想要与他人交流时,这个工具可以帮助他们更好地表达自己的想法和感受
    发表于 05-18 10:16