0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

“冷扑大师”2.0就要来了?人类牌手们,准备好被碾压了吗?

DPVg_AI_era 来源:未知 作者:李倩 2018-11-24 10:04 次阅读

还记得去年战胜4位专业牌手的德州扑克AI“冷扑大师”吗?最近,它的缔造者、“德州扑克AI之父”Noam Brown和Tuomas Sandholm再发新论文,通过德州扑克基准平台来探讨不完全信息条件下的博弈策略问题,也许“冷扑大师2.0”真的要来了。

最近,Arxiv上的一篇题为《Solving Imperfect-Information Games via Discounted Regret Minimization》引发关注,原因主要在于本文的两位作者的鼎鼎大名,CMU计算机系博士生Noam Brown,以及该校计算机系教授Tuomas Sandholm。这两位就是去年的著名的德州扑克AI程序“冷扑大师”(Libratus)的缔造者,堪称德州扑克AI之父。

“冷扑大师”在去年曾与4位人类专业德州扑克牌手大战20天,最后全面获胜。两位作者还去Reddit论坛机器学习板块上搞了一次“Ask meanything”的网友问答互动,一时名声大噪。阐述“冷扑大师”背景技术的论文也被评为NIPS 2017最佳论文。

“冷扑大师”在2017年的人机德州扑克大赛面对4位专业人类牌手,全部获胜

时隔一年多,二位大师再次发布关于不完全信息博弈策略的论文,仍主要以德州扑克为测试基准平台,难道“冷扑大师”2.0就要来了?人类牌手们,准备好(再次)被碾压了吗?

一起看看这篇文章都讲了些什么。

论文地址:

https://arxiv.org/abs/1809.04040

摘要

Counterfactual regret minimization(CFR)是目前很流行的一系列迭代算法,实际上也是近似解决大型不完美信息游戏的最快的AI算法。本算法系列中提出了一个“后悔值” (regrets)的概念,即在当前状态下,选择行为A,而不是行为B,后悔的值是多少。

在本文中,我们介绍了一些CFR算法的一些新变化,其中包括1)采用多种方法从早期迭代中减低“后悔值”(regret)(在某些情况下对正面和负面后悔值使用不同策略)。(2)以各种方式对迭代进行重新加权,以获得更佳的输出策略。(3)使用非标准化的后悔值最小化策略。(4)利用optimistic regret matching。这些方法可以在诸多环境中显著提高性能。

首先,我们在每个测试的游戏中引入一个优化的CFR +的变体算法,这是之前最先进的算法。CFR+是一个强大的基准,没有其他算法能够超越它。我们表明,与CFR +不同,许多基于CFR的重要的新算法与现代不完全信息游戏修剪技术兼容,而且与游戏树中的样本兼容。

论文内容提要

不完全信息博弈模拟互相拥有隐藏信息的玩家之间的战略互搏,比如谈判、网络安全和拍卖都是属于此类。扑克游戏是这类博弈的常用测试基准。

这种测试的一般目标是找到一种(近似的)均衡,在这种均衡状态下,没有玩家可以通过偏离该均衡状态来提高自己的收益。对于线性程序无法应对的的极大规模的不完全信息博弈,通常使用迭代算法来近似均衡。

CFR方法的主要思想是把游戏中所有状态都考虑到,生成一颗完整的状态树。对树的每一个节点都初始化一个策略,然后根据这个策略来玩游戏。每次都走状态树的一条边,然后根据游戏的结果来更新相关节点的策略。

当CFR进行了许多次迭代之后,这个状态树的每条路径都被遍历了很多次,每个节点的策略都被更新趋于均衡了,从而得到一个可以玩游戏的AI。

实验中使用的游戏——德州扑克和Goofspiel

德州扑克是测试不完全信息博弈算法表现的典型游戏。在本文中使用无限制Heads-up德州扑克规则。两位玩家(P1和P2)起手筹码各为20000美元,大/小盲注为50/100美元。每轮加注不得少于100美元。让对方筹码降至0者获胜。

除了德州扑克外,本文采用了另一种纸牌游戏Goofspiel,两位玩家各拥有5张手牌(A、2、3、4、5),牌桌中间有5张牌的奖励牌堆,牌堆中的牌也是A\2\3\4\5。每轮从牌堆中先翻开最上面的牌作为奖励牌,然后两名牌手同时出一张手牌比大小,胜者赢得奖励牌,用过的手牌被弃掉。最后以奖励牌总分数(A为1分、2为2分,以此类推)多者获胜。

实验:CFR的几种变体和CFR+基准

我们的实验针对德州扑克进行了32768次迭代,对Goofspiel进行了8192次迭代。由于是近似均衡,而不是精确均衡,所以何时终止迭代计算很大程度上取决于实验者,一般取100-1000次迭代的结果就是有意义的。

所有实验都使用CFR的交替更新形式。我们衡量两个玩家的平均可利用性。我们的实验表明,在某些游戏中,线性CFR(LCFR)可以在合理的时间范围内显着提高CFR +的性能。

然而,LCFR在实际实验中的表现似乎比CFR+差。线性CFR在Subgame1和3中的表现特别好,与Subgame2和4相比,相对于每个玩家可以下注的最高金额,底池中筹码价值很小,这时更容易出现严重的错误行为。在Goofspiel中,线性CFR同样表现不佳,这表明线性CFR特别适合可能出现严重错误的游戏。

NormalHedge CFR(NH)是一个在游戏中每个信息集中独立应用regret最小化的框架。通常,我们使用Regret Matching(RM)作为实现后悔最小化的工具,主要是由于无参数的特点和简单的实现形式。但是,我们也可以应用任何其他实现regret最小化的工具。

我们使用Normal Hedge(NH)作为CFR中的regret最小化工具进行研究。

NH与RM都具备两个很理想的特点:都没有任何参数,并且会向后悔值为负的行为分配“零概率”(这意味着它可以很容易地用于CFR +上)。不过,NH操作在计算上比RM成本更高,因为它涉及取幂和线搜索。

我们发现,NH在具有大错误动作的游戏中可能做得更好。在这些实验中,NH的性能是根据可利用性作为迭代次数的函数来测量的。但是,在我们的实现中,由于NH中涉及取幂和行搜索操作,每次迭代所需的时间要比RM方法长五倍。

因此,使用NH实际上减慢了实践中的收敛。然而,在指数和线搜索操作的成本无关紧要的某些情况下,比如算法的瓶颈主要在于内存不足,而不是计算速度时,NH方法可能是更好的选择。

蒙特卡洛CFR(MCCFR)是CFR算法的另一变体,该算法对玩家的某些行为或机会结果进行采样。).

MCCFR与抽象方法相结合,可以产生最先进的面向德州扑克游戏的AI算法。该模型在没有特殊结构的博弈中特别有用,可以利用该算法来达成CFR的快速矢量实现。

MCCFR的种类不少,具有不同的采样方案。最流行的是外部采样MCCFR,其中根据其概率对对手和机会动作进行采样,但是遍历了更新regret值的玩家的所有行动。目前也存在其他性能优异的MCCFR变体,但外部采样式MCCFR简单且广泛使用,可用作我们实验的基准。

尽管CFR+在非抽样的情况下体现出比CFR更大的性能改进,但CFR+中的变化,在应用于MCCFR时并不会带来更优秀的性能。

上图表明,与vanilla MCCFR相比,模型在德州扑克上具有更优越的表现。在子游戏3(图中上半部分)中,这种性能提升尤为明显。

结论

我们在本文中介绍了CFR算法的变体,可以对先前的迭代进行discount,并表现出比之前最先进的CFR +类算法更强大的性能,在涉及重大错误的环境中表现的更加明显。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130563
  • AI算法
    +关注

    关注

    0

    文章

    214

    浏览量

    12098

原文标题:“德州扑克AI之父”再发新论文:“冷扑大师2.0”要来了?

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    疯狂加班月 亲 你准备好了吗

    准备好了吗,反正我准备好了。  爱睡懒觉的猫09:马上要投入紧张而忙碌的工作中了,1月!放假最多的一个月,也是疯狂加班月!  江南秋荷:1月据说是“史上最短工作月”,却成了我的“疯狂加班月”,从12月
    发表于 01-04 14:52

    【我们毕业啦】毕业倒计时,您都准备好了吗

    随着池边小林里喧闹的蝉鸣日渐平息,炎夏扑面的热浪逐渐散去,又一届学生走到了大学的最后一年。即将毕业的你,是否还在为各种就业政策而迷茫?是否还在为各种就业手续而彷徨?是否还在为寻觅就业途径而发愁?是否还在为学习就业技巧而忙碌?即将毕业的你,准备好了吗
    发表于 05-14 16:04

    ICD ERROR:目标设备尚未准备好调试

    您好,我得到这个错误和无法解决这个问题。请支持.ICD3Err0040:目标设备尚未准备好调试。请检查配置位设置并在继续之前对该设备进行编程。
    发表于 09-04 10:01

    代码中设置的配置位没有准备好

    我正试图从MPLAB IDE 8.92移动到MPLAB IDE X 3.26。我的源代码汇编程序(dsPic33FJ128MC204)和配置位是在使用CONFIG宏的代码中指定的。在8.92中没有问题,但当我试图输入调试模式X时,它表示目标设备还没有准备好调试和检查配置位设置。
    发表于 10-14 11:36

    观点:经济萧条再次降临,您准备好了吗

    观点:经济萧条再次降临,您准备好了吗? 就在我写这篇文章的时候,道琼斯工业股票指数自星期一以来已经下降800点,在两天时间内下跌了约6%。
    发表于 09-24 08:21 616次阅读

    USB3.0时代来临,你的保护电路准备好了吗

    USB3.0时代来临,你的保护电路准备好了吗? USB3.0标准一经推出,立刻在业界引起了强烈的反响。其10倍于USB2.0的传输速率,让许多消费者摩拳擦掌、跃跃欲试。虽说该
    发表于 11-25 09:03 1345次阅读

    又一波创客来袭,你准备好了吗

    2014年在深圳举办的Maker Faire为我们带来了来自全球各具特色的创客团队。又一波创客来袭,你准备好接受挑战了吗?如果你也想成为一名创客,你知道哪些基础知识是你需要储备,哪些开源硬件是你需要
    发表于 04-09 19:16 1.5w次阅读

    小米平板3月底发布,你准备好了吗

    说起小米都不陌生了,这才刚发布完小米手机的发布会,紧接着小米平板又要来了,你准备好了吗
    发表于 12-20 11:54 5112次阅读

    5G即将开工 我们真的准备好了吗

    5G即将开工,前方要勇踏前人未至之境,可网络规划、建设、运维、网优战线上同仁们,我们真的准备好了吗
    的头像 发表于 01-11 15:57 3420次阅读

    中国联通董事长王晓初宣布:“网络已经准备好了”!

    网络已经准备好了!
    的头像 发表于 04-25 15:35 3222次阅读

    苹果准备好推出16英寸版的MacBook Pro了!

    从目前的消息看,苹果已经准备好推出16英寸版MacBook Pro了,只是时间上还有含糊,是今年的9月份,还是10月份呢?
    的头像 发表于 08-09 15:54 3251次阅读

    5G商用启动5G芯片准备好了吗 国内5G芯片技术水平怎么样

    5G来了,国产芯片准备好了吗 5G商用正式启动,5G资费已然出炉,而被视为高端领域的5G芯片准备好了吗? 日前,vivo联合三星共同展示了联合研发的5G芯片成果Exynos 980,并宣布12
    发表于 11-13 11:03 1367次阅读

    华为宣布面向开发人员的HarmonyOS 2.0 Beta版本已准备好

    华为宣布面向开发人员的HarmonyOS 2.0 Beta版本已准备好在2020年9月10日(今天)之前面向多种设备推出。华为宣布,智能电视,手表和主机将在本周开始为开发人员提供HarmonyOS 2.0 beta版。
    的头像 发表于 09-11 14:54 2491次阅读

    图腾柱P F C来了,你准备好了吗

    图腾柱P F C来了,你准备好了吗
    发表于 11-03 08:04 2次下载
    图腾柱P F C<b class='flag-5'>来了</b>,你<b class='flag-5'>准备好了吗</b>?

    工业物联网的入场券 新唐帮您准备好

    工业物联网的入场券 新唐帮您准备好
    的头像 发表于 08-11 14:50 343次阅读
    工业物联网的入场券 新唐帮您<b class='flag-5'>准备好</b>了