0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI赌神赢的背后,只是8天的训练

mK5P_AItists 来源:YXQ 2019-08-15 09:06 次阅读

2017年年初,Brain vs AI的德州扑克人机大战在卡耐基梅隆大学(CMU)落幕,由4名人类职业玩家组成的人类大脑不敌人工智能程序Libratus。

获胜后人类还遭到了Libratus的无情嘲讽。

但是那时候Libratus还只是个只能在1V1局里称霸的超级玩家,要说人类最喜欢的6人局这样的“大场面”,当时的Libratus还没有拿到入场券。

而就在昨天,Facebook与CMU学Noam Brown、Tuomas Sandholm的最新研究成果——Pluribus,就在人类最常见的无限制德州扑克6人局里,战胜了人类顶尖选手。

跟还是不跟?高手之间的对决

Darren Elias(1986年11月18日出生)是一名美国职业扑克玩家,曾获得四项世界扑克巡回赛冠军。

在他与Pluribus的对决过程中,Darren Elias从来没有遇到过如此不害怕的对手。

一个有经验的扑克玩家,当有两个J(一个面朝上,另一个藏起来,一手既不好也不坏)时,都会谨慎行事。但是Elias的对手看起来好像不知道该怎么做。即使当Elias决定虚张声势(bluff),下注时看起来很有信心,而他的对手似乎在鼓励他继续!好像一点都没有被吓到。

最后,Elias的虚张声势没有起作用,他输了。

Elias

正如埃利亚斯先生意识到的,Pluribus知道什么时候该虚张声势,也知道别人在虚张声势,还知道什么时候该改变自己的行为,这样其他玩家就无法确定自己的策略。32岁 Elias先生说: 它确实做了一些人类很难做到的事情。

赢的背后,只是8天的训练

之前AI和人玩游戏,要么是双人游戏,如国际象棋、跳棋等,要么就是双方之间的零和博弈(一方赢一方输),AI可以在游戏中找到Nash equilibrium strategy(纳什平衡)来保证自己不会输。

关于Nash equilibrium strategy(纳什平衡)属于博弈论范畴(注:纳什证明了,如果允许混合策略,那么任何一个博弈,只要参与者数量是有限的、参与者可以选择的纯策略也是有限的,那么这个博弈至少有一个纳什均衡)。

以经典的“石头剪刀布”游戏为例,AI可以在游戏中找到对方的弱点和常出的手势进行学习,以达到最终的胜利,而多人扑克意味着玩家数量的增多,在更复杂的游戏中,AI难以确定如何与纳什均衡相抗衡;采用固定策略不能很快观察到的对手的策略倾向,而且需要监控到多个玩家在游戏中策略的转变,这对于AI多人扑克博弈来说,是一项挑战。

鉴于多人游戏,如果学习多个玩家的出牌习惯等特征的训练数据集成本过大,这里Pluribus采用的策略是自己与自己博弈,不使用人类对手的数据作为模型训练的输入。在开始时,随机的选择玩法,通过不断的训练来提升自己的性能,这里采用的博弈策略是改良版本的迭代的蒙特卡洛CFR(MCCFR),通过自我博弈,左右手互博,自己制定了一个blueprint strategy(蓝图策略),最后对每个可能的状况进行概率分布统计,通过搜索决策树来决定下一步的行为,是叫牌还是出牌。

CFR是一种迭代的自我游戏算法,AI从完全随机游戏开始,然后通过学习击败早期版本的自己逐渐改进。

在算法的每次迭代中,MCCFR指定一个玩家作为其当前策略在迭代中更新的标记。在迭代开始时,MCCFR根据当前所有玩家的策略(最初是完全随机的)模拟一手扑克牌。一旦模拟完成,人工智能就会回顾每一个玩家做出的决定,然后通过选择其他可用的行动来预测这个决定的好坏程度。

Pluribus玩家博弈树

在解决不完全信息博弈中搜索的问题,Pluribus跟踪每一手,根据其策略达到目前状况的可能性。不管Pluribus实际上握着的牌,它首先会计算如何使用可能的每一手,谨慎地平衡所有的策略,以保持对于对手的不可预测性。

Pluribus 中的实时搜索

扑克以外的事

之前在1V1局中大胜人类的Libratus后来去五角大楼上班去了,国防部认为这种策略型人工智能或许可以帮助他们进行战略的制定。

负责 Pluribus 项目的 研究员Noam Brown说:“Pluribus的技术可以用于华尔街交易、拍卖、政治谈判和网络安全这些活动中,这些活动就像扑克一样,涉及隐藏信息,因为你并不总是知道真实世界的状态。”

尽管像谷歌这样的公司,有着“Don't be evil”的信条,但是,不可避免的是这样能够理解人类策略的人工智能,还是会引发大众对于人工智能的某种恐惧,或者说,如果这样的人工智能被运用到军事决策中,将会带来多严重的后果?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26395

    浏览量

    264001
  • 机器学习
    +关注

    关注

    66

    文章

    8105

    浏览量

    130540

原文标题:AI赌神升级!无惧bluff,6人局德扑完胜世界冠军,训练只用了8天

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    DocuSign拟用用户合同数据训练AI,引争议

    据了解,DocuSign计划借助微软Azure上的OpenAI工具,如GPT技术,以训练其所谓的“撰写协议”模型,并且从用户提供的大量数据中,训练出专属的人工智能(AI)模型,但这部分数据并无公开之意。
    的头像 发表于 03-04 15:45 150次阅读

    蚂蚁集团AI研发部门开源AI Infra技术,助力大模型训练效率提升

    蚂蚁集团AI创新研发部门NextEvo近日宣布,他们将全面开源AI Infra技术,以推动AI研发效率的提升。该技术框架名为DLRover,目标在于实现大规模分布式训练的智能化。
    的头像 发表于 02-04 10:01 428次阅读

    AI大模型这股东风,RISC-V该如何乘?

    电子发烧友网报道(文/吴子鹏)说起AI大模型的训练和推理,很多人的第一想法肯定是英伟达芯片,那么背后也就是ARM架构。统计数据显示,在AI芯片领域,英伟达一家独占七成市场份额;如果单独
    的头像 发表于 12-04 06:53 1175次阅读

    【KV260视觉入门套件试用体验】Vitis AI 通过迁移学习训练自定义模型

    【Vitis AI】 Vitis AI 通过迁移学习训练自定义模型 测评计划: 一、开箱报告,KV260通过网线共享PC网络 二、Zynq超强辅助-PYNQ配置,并使用XVC(Xilinx
    发表于 10-16 15:03

    面向边缘的集成AI训练和推断解决方案

    电子发烧友网站提供《面向边缘的集成AI训练和推断解决方案.pdf》资料免费下载
    发表于 09-13 10:25 0次下载
    面向边缘的集成<b class='flag-5'>AI</b><b class='flag-5'>训练</b>和推断解决方案

    人工智能训练师是干什么的

    人工智能训练师是干什么的 随着人工智能(AI)技术的发展,训练机器人、算法和系统变得尤为重要。本文将探讨人工智能训练师的角色和职责,并解释他们如何帮助培养和开发
    的头像 发表于 08-15 16:03 1636次阅读

    AI新品 | 兆瀚RA5900-B AI训练服务器

    END 原文标题:AI新品 | 兆瀚RA5900-B AI训练服务器 文章出处:【微信公众号:拓维信息】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 08-14 17:25 624次阅读

    震惊!4K、8K画质背后,竟然少不了AI的助力

    解密超清画质视频背后AI力量
    的头像 发表于 08-08 22:13 314次阅读
    震惊!4K、8K画质<b class='flag-5'>背后</b>,竟然少不了<b class='flag-5'>AI</b>的助力

    训练好的ai模型导入cubemx不成功怎么解决?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 08-04 09:16

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练AI部署需要更多。 预计到2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70
    发表于 08-04 07:25

    NVIDIA Omniverse让AI训练变得更加简单易用

    Rendered.ai 将 NVIDIA Omniverse Replicator 集成到其合成数据生成平台,使 AI 训练变得更加简单易用。
    的头像 发表于 07-24 09:14 829次阅读
    NVIDIA Omniverse让<b class='flag-5'>AI</b><b class='flag-5'>训练</b>变得更加简单易用

    如何跳过SPL中的ddr训练

    我正在优化启动速度,ddr 训练在 SPL 中需要 360ms,所以我想跳过它。 我厌倦了在 ddr 训练后注意 ddrphy_trained_csr[] 和 g_cdd_max[],注释掉 ddr
    发表于 06-01 08:16

    NVIDIA AI 技术助力 vivo 文本预训练大模型性能提升

    vivo AI 团队与 NVIDIA 团队合作,通过算子优化,提升 vivo 文本预训练大模型的训练速度。在实际应用中, 训练提速 60% ,满足了下游业务应用对模型
    的头像 发表于 05-26 07:15 443次阅读
    NVIDIA <b class='flag-5'>AI</b> 技术助力 vivo 文本预<b class='flag-5'>训练</b>大模型性能提升

    什么是预训练AI模型?

    训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用,也可以根据不同行业的应用需求进行自定义。
    的头像 发表于 05-25 17:10 632次阅读

    中国开源未来发展峰会“问道 AI 分论坛”即将开幕!

    过去几个月,AI 几乎已经成为全民热议的话题。各式开源大模型、训练框架层出不穷;AI 技术也加速应用在各个领域和行业,例如服务运营优化、解决供应链问题等等;数据库、云计算、大前端等多类技术领域产品
    发表于 05-09 09:49