0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CMU、Facebook联合打造“赌神”AI,六人德扑击败人类

DPVg_AI_era 来源:lq 2019-09-13 16:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

CMU 和 Facebook 联合打造的史上最强德州扑克 AI “Pluribus”在六人德州扑克这项复杂游戏中击败了顶级人类玩家。今天,Science杂志以封面重磅的形式发表了该研究论文,详细描述了Pluribus的策略。

前不久,一款名叫 “Pluribus” 的 AI 扑克牌机器人在六人无限注德州扑克这项复杂游戏中,碾压了人类职业选手!

这是 AI 首次在规模超过两人的复杂对局中击败顶级人类玩家。

“Pluribus” 是CMU 和 Facebook 联合打造的史上最强德州扑克 AI,重点解决了多人对局环境下的非零和博弈和隐藏信息推理问题,是该领域的一个重大突破。

今天,“Pluribus”的论文更是以封面的形式登上Science杂志!

来自CMU和Facebook AI的Noam Brown和Tuomas Sandholm教授,在论文中详细解读了“Pluribus”的策略。

作者表示,扑克一直是一个具有挑战性的问题,过去AI在这类基准测试中取得的成功仅限于两人参与的游戏。然而,传统上玩扑克的人不止两个人。多人扑克是一个公认的AI里程碑。

“Pluribus”AI在六人无限制注德扑中展现了比顶级人类专业玩家更强大的技能。

接下来,新智元带来这篇论文的解读,完整论文可点击文末链接查看。

基于MCCFR的“蓝图”策略

三人或三人以上的博弈对博弈论提出了挑战。对于两个玩家的零和博弈,存在这样一种策略,即没有玩家可以通过切换到不同的策略来提高他们的机会。这种所谓的纳什均衡被认为是博弈的一个解。

但对于多人游戏,期望奖励可能因纳什均衡的不同而有所不同。保证收敛到纳什均衡的快速算法,例如虚拟遗憾最小化算法(CFR),在多人游戏中可能失效。尽管如此,CFR在一些多人游戏领域仍显示出良好的经验表现。

Pluribus首先通过自我游戏(self-play)来学习通用技巧,我们称之为“蓝图”(blueprint)策略。

然后,在实际游戏中,它根据游戏的当前状态计算一个实时策略来细化blueprint策略。Pluribus程序通过名为Monte Carlo CFR (MCCFR)的CFR变体学习blueprint策略,并进行一些改进。

Pluribus会反复模拟所有玩家使用相同策略的扑克手牌;在每一手牌之后,它会递归地检查每个决策,并与在相同情况下可能选择的其他操作相比,评估该决策的预期结果。

为了提高Pluribus中MCCFR算法的效率,作者在训练的早期阶段引入了linear weighted discounting,并在训练的后期对negative-regret行为进行策略剪枝。

系统中最复杂的部分是实时策略组件。为了处理不完美信息,Pluribus执行嵌套搜索,维护搜索树的根节点和每个玩家持有的牌的根节点的概率分布,前提是假设所有玩家使用相同的(已知的)策略。

为了有效评估叶节点,Pluribus考虑了blueprint 策略的四种不同变体。

在Abstraction机制中,Pluribus通过将类似的情况打包在一起,减少了关于是否跟注(call)、加注(raise)或弃牌(fold)的决策点的数量。使用蒙特卡罗虚拟遗憾最小化(MCCFR),将扑克游戏中树搜索的复杂性从一个棘手的问题降低到一个可解决的问题。

真实游戏

Pluribus需要为每个场景提供一个动作(跟注、加注或弃牌)。

抽象游戏

类似的方案,比如高牌9和高牌10一起。

抽象策略

Pluribus使用MCCFR通过操作将每个bucket映射到一个分布。

真实策略

每个方案都根据其bucket的抽象策略映射到操作上的分布。

对于大型复杂的游戏,状态和动作的抽象可以用来抑制搜索树的增长。这对于完整的六人无限德州扑克游戏来说是必要的,因为德扑太过复杂而无法直接搜索。

相反,如上面的示意图所示,Pluribus模拟了一个更简单的游戏版本,将类似的决策点组合在一起,并消除了一些操作。

“赌神”AI训练只需144美元

最后,Pluribus的blueprint策略是在64核服务器上在8天内计算出来的,总共使用了12400个CPU核心小时,所需内存小于512 GB。按照当前的云计算费用,这花费了大约144美元。

这与最近其他所有的超级AI里程碑游戏形成了鲜明的对比,那些AI使用了大量的服务器和/或GPU集群。更多的内存和计算可以支持更细粒度的blueprint,这将带来更好的性能,但也会导致Pluribus使用更多内存或在实时搜索变慢。

研究人员将blueprint策略抽象的大小设置为允许Pluribus在一台内存不超过128GB的机器上实时运行,同时在内存中存储blueprint策略的压缩形式。

由于无限德州扑克的规模和复杂性,整个游戏的blueprint 策略必然是粗粒度的。Pluribus只在第一轮投注(四次投注)中根据这个blueprint策略进行操作,其中决策点的数量足够少,以至于blueprint策略可以不使用信息抽象,并且在操作抽象中进行了很多操作。

在第一轮之后(甚至在第一轮中,如果对手选择的赌注大小与blueprint action抽象中的大小完全不同),Pluribus将进行实时搜索,以确定针对当前情况的更好、更细粒度的策略。

结论

self play 的形式与搜索的形式相结合,在完全信息的二人零和博弈中取得了许多引人注目的成功。然而,现实世界中的大多数战略交互都包含隐藏的信息和两个以上的参与者。这使得这个问题在理论和实践上都有很大的不同和困难。

为多人德扑开发一个超级AI是该领域的一个公认的里程碑。在本文中,我们描述了Pluribus,一个AI,能够在六人无限注德州扑克中击败人类专业玩家。

Pluribus的成功表明,尽管对多人博弈的性能缺乏已知的强有力的理论保证,但仍存在大规模、复杂的多人博弈不完全信息设置,在这种情况下,精心构造的self play搜索算法可以生成超越人类的策略。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30581

    浏览量

    219588
  • 算法
    +关注

    关注

    23

    文章

    4760

    浏览量

    97146
  • Facebook
    +关注

    关注

    3

    文章

    1432

    浏览量

    58351

原文标题:Science封面重磅:CMU、Facebook联合打造“赌神”AI,六人德扑击败人类

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    赛西威推出机器智能基座AI Cube

    近日,赛西威正式发布机器智能基座AI Cube,该产品是面向机器领域的AI计算终端,集成了业界领先的高性能计算平台、中间件与算法框架。
    的头像 发表于 11-05 18:05 2124次阅读

    软通智慧与华为打造AI+产业园区联合解决方案

    一站式“行业+AI”解决方案,让服务更精准、决策更高效、治理更智能。本期将重点呈现软通智慧与华为共同打造AI+产业园区联合解决方案,让我们一起见证
    的头像 发表于 10-24 09:25 720次阅读
    软通智慧与华为<b class='flag-5'>打造</b><b class='flag-5'>AI</b>+产业园区<b class='flag-5'>联合</b>解决方案

    南京微雀与华为打造法律AI一体机联合解决方案

    一站式“行业+AI”解决方案,让服务更精准、决策更高效、治理更智能。本期将重点呈现南京微雀与华为共同打造的法律AI一体机联合解决方案,让我们一起见证
    的头像 发表于 10-24 09:23 570次阅读
    南京微雀与华为<b class='flag-5'>打造</b>法律<b class='flag-5'>AI</b>一体机<b class='flag-5'>联合</b>解决方案

    新点软件与华为打造政务智能助手联合解决方案

    一站式“行业+AI”解决方案,让服务更精准、决策更高效、治理更智能。本期将重点呈现新点软件与华为共同打造的政务智能助手联合解决方案,让我们一起见证AI大模型在政务服务场景中的创新实践与
    的头像 发表于 10-24 09:21 614次阅读
    新点软件与华为<b class='flag-5'>打造</b>政务智能助手<b class='flag-5'>联合</b>解决方案

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范
    发表于 09-17 11:45

    地图携手夸克AI眼镜开启出行新方式

    而高地图与夸克AI眼镜的联合创新,不仅为智能眼镜行业注入了新的活力,也为整个出行生态带来了颠覆性变革。
    的头像 发表于 08-06 16:35 1612次阅读

    广汽华为联合AI解决方案入选国际电联全球标杆案例

    。峰会期间,ITU正式发布《人工智能向善:创新扩大影响案例集》(AI for Good - Innovate for Impact Report)2025年中期报告,其中,广汽集团联合华为公司共同打造的“
    的头像 发表于 07-24 14:34 1185次阅读

    北京建工建集团与软通动力达成战略合作

    ,通过资源互补与联合创新,携手推动建筑行业数智化转型升级。仪式上,双方联合打造的“放线智能机器”一代机正式亮相。
    的头像 发表于 06-30 16:26 721次阅读

    NVIDIA携手诺和诺借助AI加速药物研发

    NVIDIA 宣布与诺和诺开展合作,借助创新 AI 应用加速药物研发。此次合作也将支持诺和诺与丹麦 AI 创新中心 (DCAI) 关于使用 Gefion
    的头像 发表于 06-12 15:49 975次阅读

    大象机器携手进迭时空推出 RISC-V 全栈开源轴机械臂产品

    全球80多个国家和地区。 近日,大象机器联合进迭时空推出全球首款RISC-V全栈开源轴机器臂“myCobot 280 RISC-V”,为开发者打造全新的机器
    发表于 04-25 17:59

    图为科技与宝计算达成战略合作 共建AI算力新生态

    ,共同打造“云边端一体”的智能算力底座及行业大模型解决方案,为智能制造、智慧城市、智慧交通等领域提供高效、普惠的AI基础设施支撑。   强强联合:技术互补与生态共建的双向奔赴    在抵达宝
    的头像 发表于 03-26 09:57 1150次阅读
    图为科技与宝<b class='flag-5'>德</b>计算达成战略合作  共建<b class='flag-5'>AI</b>算力新生态

    移远通信联合壹发布全球首款搭载端侧大模型的AI具身理疗机器

    各行业智能化发展版图。 3月11日,在第66届广州美博会上,壹机器人在移远通信助力下,正式推出全能王AI具身机器。作为壹全球首款端侧大模型AI
    发表于 03-13 11:16 885次阅读
    移远通信<b class='flag-5'>联合</b><b class='flag-5'>德</b>壹发布全球首款搭载端侧大模型的<b class='flag-5'>AI</b>具身理疗机器<b class='flag-5'>人</b>

    移远通信联合壹发布全球首款搭载端侧大模型的AI具身理疗机器

    各行业智能化发展版图。3月11日,在第66届广州美博会上,壹机器人在移远通信助力下,正式推出全能王AI具身机器。作为壹全球首款端侧大模型AI
    的头像 发表于 03-12 20:24 541次阅读
    移远通信<b class='flag-5'>联合</b><b class='flag-5'>德</b>壹发布全球首款搭载端侧大模型的<b class='flag-5'>AI</b>具身理疗机器<b class='flag-5'>人</b>

    长城汽车联手高地图打造出行联合创新LAB

    近日,长城汽车与高地图基于长期良好的合作基础,联手打造的“出行联合创新LAB”正式在保定市长城汽车技术中心揭牌。根据共同约定,双方将通过出行联合创新LAB,发挥各自优势,共同研究、探
    的头像 发表于 01-07 09:51 850次阅读

    视美泰联合小冰打造全新“AI数字人工厂”

    AI数字化浪潮席卷全球的今天,人工智能与现实生活的交融已成为时代趋势。近日,视美泰与小冰强强联手,共同推出了一套领先的数字解决方案,旨在通过打造数字产品工厂,为千行百业注入全新的
    的头像 发表于 12-13 16:45 1466次阅读
    视美泰<b class='flag-5'>联合</b>小冰<b class='flag-5'>打造</b>全新“<b class='flag-5'>AI</b>数字人工厂”