0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CMU、Facebook联合打造“赌神”AI,六人德扑击败人类

DPVg_AI_era 来源:lq 2019-09-13 16:51 次阅读

CMU 和 Facebook 联合打造的史上最强德州扑克 AI “Pluribus”在六人德州扑克这项复杂游戏中击败了顶级人类玩家。今天,Science杂志以封面重磅的形式发表了该研究论文,详细描述了Pluribus的策略。

前不久,一款名叫 “Pluribus” 的 AI 扑克牌机器人在六人无限注德州扑克这项复杂游戏中,碾压了人类职业选手!

这是 AI 首次在规模超过两人的复杂对局中击败顶级人类玩家。

“Pluribus” 是CMU 和 Facebook 联合打造的史上最强德州扑克 AI,重点解决了多人对局环境下的非零和博弈和隐藏信息推理问题,是该领域的一个重大突破。

今天,“Pluribus”的论文更是以封面的形式登上Science杂志!

来自CMU和Facebook AI的Noam Brown和Tuomas Sandholm教授,在论文中详细解读了“Pluribus”的策略。

作者表示,扑克一直是一个具有挑战性的问题,过去AI在这类基准测试中取得的成功仅限于两人参与的游戏。然而,传统上玩扑克的人不止两个人。多人扑克是一个公认的AI里程碑。

“Pluribus”AI在六人无限制注德扑中展现了比顶级人类专业玩家更强大的技能。

接下来,新智元带来这篇论文的解读,完整论文可点击文末链接查看。

基于MCCFR的“蓝图”策略

三人或三人以上的博弈对博弈论提出了挑战。对于两个玩家的零和博弈,存在这样一种策略,即没有玩家可以通过切换到不同的策略来提高他们的机会。这种所谓的纳什均衡被认为是博弈的一个解。

但对于多人游戏,期望奖励可能因纳什均衡的不同而有所不同。保证收敛到纳什均衡的快速算法,例如虚拟遗憾最小化算法(CFR),在多人游戏中可能失效。尽管如此,CFR在一些多人游戏领域仍显示出良好的经验表现。

Pluribus首先通过自我游戏(self-play)来学习通用技巧,我们称之为“蓝图”(blueprint)策略。

然后,在实际游戏中,它根据游戏的当前状态计算一个实时策略来细化blueprint策略。Pluribus程序通过名为Monte Carlo CFR (MCCFR)的CFR变体学习blueprint策略,并进行一些改进。

Pluribus会反复模拟所有玩家使用相同策略的扑克手牌;在每一手牌之后,它会递归地检查每个决策,并与在相同情况下可能选择的其他操作相比,评估该决策的预期结果。

为了提高Pluribus中MCCFR算法的效率,作者在训练的早期阶段引入了linear weighted discounting,并在训练的后期对negative-regret行为进行策略剪枝。

系统中最复杂的部分是实时策略组件。为了处理不完美信息,Pluribus执行嵌套搜索,维护搜索树的根节点和每个玩家持有的牌的根节点的概率分布,前提是假设所有玩家使用相同的(已知的)策略。

为了有效评估叶节点,Pluribus考虑了blueprint 策略的四种不同变体。

在Abstraction机制中,Pluribus通过将类似的情况打包在一起,减少了关于是否跟注(call)、加注(raise)或弃牌(fold)的决策点的数量。使用蒙特卡罗虚拟遗憾最小化(MCCFR),将扑克游戏中树搜索的复杂性从一个棘手的问题降低到一个可解决的问题。

真实游戏

Pluribus需要为每个场景提供一个动作(跟注、加注或弃牌)。

抽象游戏

类似的方案,比如高牌9和高牌10一起。

抽象策略

Pluribus使用MCCFR通过操作将每个bucket映射到一个分布。

真实策略

每个方案都根据其bucket的抽象策略映射到操作上的分布。

对于大型复杂的游戏,状态和动作的抽象可以用来抑制搜索树的增长。这对于完整的六人无限德州扑克游戏来说是必要的,因为德扑太过复杂而无法直接搜索。

相反,如上面的示意图所示,Pluribus模拟了一个更简单的游戏版本,将类似的决策点组合在一起,并消除了一些操作。

“赌神”AI训练只需144美元

最后,Pluribus的blueprint策略是在64核服务器上在8天内计算出来的,总共使用了12400个CPU核心小时,所需内存小于512 GB。按照当前的云计算费用,这花费了大约144美元。

这与最近其他所有的超级AI里程碑游戏形成了鲜明的对比,那些AI使用了大量的服务器和/或GPU集群。更多的内存和计算可以支持更细粒度的blueprint,这将带来更好的性能,但也会导致Pluribus使用更多内存或在实时搜索变慢。

研究人员将blueprint策略抽象的大小设置为允许Pluribus在一台内存不超过128GB的机器上实时运行,同时在内存中存储blueprint策略的压缩形式。

由于无限德州扑克的规模和复杂性,整个游戏的blueprint 策略必然是粗粒度的。Pluribus只在第一轮投注(四次投注)中根据这个blueprint策略进行操作,其中决策点的数量足够少,以至于blueprint策略可以不使用信息抽象,并且在操作抽象中进行了很多操作。

在第一轮之后(甚至在第一轮中,如果对手选择的赌注大小与blueprint action抽象中的大小完全不同),Pluribus将进行实时搜索,以确定针对当前情况的更好、更细粒度的策略。

结论

self play 的形式与搜索的形式相结合,在完全信息的二人零和博弈中取得了许多引人注目的成功。然而,现实世界中的大多数战略交互都包含隐藏的信息和两个以上的参与者。这使得这个问题在理论和实践上都有很大的不同和困难。

为多人德扑开发一个超级AI是该领域的一个公认的里程碑。在本文中,我们描述了Pluribus,一个AI,能够在六人无限注德州扑克中击败人类专业玩家。

Pluribus的成功表明,尽管对多人博弈的性能缺乏已知的强有力的理论保证,但仍存在大规模、复杂的多人博弈不完全信息设置,在这种情况下,精心构造的self play搜索算法可以生成超越人类的策略。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    27076

    浏览量

    201528
  • 算法
    +关注

    关注

    23

    文章

    4460

    浏览量

    90843
  • Facebook
    +关注

    关注

    3

    文章

    1428

    浏览量

    54056

原文标题:Science封面重磅:CMU、Facebook联合打造“赌神”AI,六人德扑击败人类

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    富士通发布最新的人工智能(AI)战略,聚焦深化人类AI之间的协作

    富士通株式会社(以下简称“富士通”)发布了最新的集团人工智能(AI)战略,聚焦深化人类AI之间的协作,并提出了将AI作为“可信赖的助手”这一愿景,为提升
    的头像 发表于 02-21 17:09 429次阅读
    富士通发布最新的人工智能(<b class='flag-5'>AI</b>)战略,聚焦深化<b class='flag-5'>人类</b>与<b class='flag-5'>AI</b>之间的协作

    奥特曼称相信AI无法替代人类

    奥特曼称相信AI无法替代人类 AI对于人类的威胁一直有很多讨论,各有不同观点,很多人对于科幻电影中的场景AI机器人伤害
    的头像 发表于 01-19 11:43 657次阅读

    与百校打造智能计算联合实验室,中科曙光助中国科研展开AI羽翼

    AI中科曙光
    脑极体
    发布于 :2023年12月22日 21:20:40

    CMU、MIT、清华联合发布全球首个生成式机器人智能体RoboGen

    CMU、MIT、清华联合发布了全球首个生成式机器人智能体RoboGen,可以无限生成数据,让机器人7*24小时永不停歇地训练。为机器人进入通用场景迈出坚实一步。
    的头像 发表于 11-09 10:19 677次阅读

    旋转球都看透了!商汤联合SMT打造2023世界乒乓职业挑战赛「AI解说员」

    细节直观表现出来了! 这就是10月举办的2023世界乒乓球职业大联盟球星挑战赛(WTT)兰州站赛事转播中, 商汤科技与上海东方传媒技术有限公司(SMT)合作的最新成果 。 双方联合打造的 「智慧体育-AI赛事转播升级解决方案」
    的头像 发表于 10-31 15:55 229次阅读
    旋转球都看透了!商汤<b class='flag-5'>联合</b>SMT<b class='flag-5'>打造</b>2023世界乒乓职业挑战赛「<b class='flag-5'>AI</b>解说员」

    智能应答,让机器更接近人类对话水平!

    机器AI
    jf_86111705
    发布于 :2023年09月20日 16:30:28

    ai机器

    人工智能AI机器
    jf_86111705
    发布于 :2023年08月22日 16:06:28

    ai智能机器

    机器AI
    jf_86111705
    发布于 :2023年08月21日 15:59:56

    ai语音机器

    机器AI
    jf_86111705
    发布于 :2023年08月18日 15:05:25

    AI如何对抗Dota人类游戏高手

    AI如何对抗Dota人类游戏高手?OpenAI这样回答
    的头像 发表于 08-01 15:01 384次阅读

    碾压GPT-4!谷歌DeepMind CEO自曝:下一代大模型将与AlphaGo合体

    一个是用强化学习击败人类围棋冠军、创造历史的AI系统,一个是目前霸榜几乎所有大模型榜单、一骑绝尘的最强多模态大模型,两个AI一合体,简直要无敌了!
    的头像 发表于 07-04 16:28 342次阅读
    碾压GPT-4!谷歌DeepMind CEO自曝:下一代大模型将与AlphaGo合体

    AI 人工智能的未来在哪?

    人工智能、AI智能大模型已经孵化;繁衍过程将突飞猛进,ChatGPT已经上线。 世界首富马斯克认为AI人类是一种威胁;谷歌前CEO施密特认为AI和机器学习对
    发表于 06-27 10:48

    商汤联合发布通才AI智能体通关《我的世界》,像人类一样生存、探索和创造

    AI发展进程中有一个非常有趣却有违常识的现象,“一些对人类而言相对困难的任务,例如下棋,对 AI 来说却相对容易实现;而在开放世界中与环境交互、进行规划和决策等对人类来说较简单的事,
    的头像 发表于 05-29 14:25 477次阅读
    商汤<b class='flag-5'>联合</b>发布通才<b class='flag-5'>AI</b>智能体通关《我的世界》,像<b class='flag-5'>人类</b>一样生存、探索和创造

    MPC5777C如果CMU_0_pll损坏,如何使用FCCU中断?

    我正在使用 MPC5777C。 如果 CMU_0_pll 损坏,我想使用 FCCU 中断。有没有关于它的应用说明或示例。那么代码会跳转哪个中断呢?FCCU 还是 CMU
    发表于 05-19 13:06

    聆心智能联合洪恩打造AI问答”| 国内首批儿童启蒙成长领域类ChatGPT式应用

    场景,提高儿童的未来生存力,是当前亟待解决的难题。 近日,「聆心智能」联合「洪恩」共同打造的“AI问答”模块正式上线,作为国内首批儿童启蒙成长领域的类 ChatGPT 式应用,“AI
    的头像 发表于 05-11 15:12 644次阅读