0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AlphaZero一举登上《科学》杂志封面

jmiy_worldofai 来源:lq 2018-12-10 14:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

年前,Alphabet 旗下人工智能部门 DeepMind 发布 AlphaZero,称它可以自学国际象棋、日本将棋和中国围棋,并且项项都能击败世界冠军。而今天,经过同行评议,AlphaZero 一举登上《科学》杂志封面。

据此前 DeepMind 在 AlphaZero 的论文中介绍,AlphaZero 使用了完全无需人工特征、无需任何人类棋谱、甚至无需任何特定优化的通用强化学习算法。也就是说,AlphaZero 实质上就是 AlphaGo Zero 的通用化进化版本,它继续保持了 AlphaGo Zero 中不需要人工特征、利用深度神经网络从零开始进行强化学习、结合蒙特卡洛树搜索的特点,并在此基础上,更新网络参数,减小网络估计的比赛结果和实际结果之间的误差,同时最大化策略网络输出动作和蒙特卡洛树搜索可能性之间的相似度。

然而,在 DeepMind 发布 AlphaZero 之际,AlphaZero 也遭到了某种程度的质疑,例如,一位 AI 研究人员就指出,DeepMind 没有公开它的 AI 系统源代码,因此难以检验和重复它公布的结果。而如今这项研究成果经过同行评议登上《科学》杂志的首页,算是得到了证明。有趣的是,AlphaZero 的直接对手——棋手们也纷纷表达了他们的赞许:

例如日本将棋 9 段职业选手、棋史上唯一一位获得「永世七冠」头衔的棋士 Yoshiharu Habu 就评价道:

它的一些移动方法,比如将 King 移到棋盘的中心,就违背了日本将棋棋法。从人类的角度来看,AlphaZero 的这种做法似乎已将其置于危险的境地,但令人难以置信的是,它仍然掌控住了棋局。它独特的下棋风格,让我们看到了棋法新的可能性。

而前国际象棋世界冠军 Garry Kasparov 也止不住地称赞道:

我无法掩饰我的赞许,因为它的下棋风格灵活多变,这跟我自己的风格很像!

一个多世纪以来,象棋一直被用作人类和机器认知的罗塞塔石碑。AlphaZero 以一种独特的方式,对古代棋盘游戏与前沿科学之间的显著联系带来了新的东西。

其影响远远超出了我心爱的棋盘。这些自学成才的专家机器不仅表现得无比出色,而且实际上,我们人类还可以从它们产出的新知识中学习。

正如我们在前面提到的,AlphaZero 是 AlphaGo Zero 的通用化进化版本,而 AlphaGo Zero 又源自于 AlphaGo,接下来我们不妨简单回顾一下这几个版本:

最初的 AlphaGo 的工作原理是:

在蒙特卡罗树搜索(MCTS)的框架下引入两个卷积神经网络策略网络和价值网络以改进纯随机的蒙特卡罗(Monte Carlo)模拟,并借助监督学习和强化学习训练这两个网络,然后主要靠策略网络和价值网络分别预测下一步落子的点以及评估当前的局势。

而从 AlphaGo 到 AlphaGo Zero,系统的思路和模型结构都得到了大幅度简化,带来的是更快的训练和运行速度,以及更高的棋力。

在更早版本的 AlphaGo 中,策略网络和价值网络是两个不同的深度神经网络,Zero 版本中是同一个 ResNet 的两组输出;

AlphaGo Zero 之前几个版本中都需要先把局面转换为高一层的人工特征再作为网络的输入、需要先学习人类棋谱再转变到自我对弈的强化学习、有一个单独的快速走子网络进行随机模拟,而 AlphaGo Zero 则把局面落子情况直接作为网络的输入、由随机的网络权值直接开始强化学习、舍弃快速走子网络直接用主要的神经网络模拟走子。

接着从 AlphaGo Zero 到 AlphaZero,发生的变化主要体现在如下几个方面:

第一,AlphaGo Zero 会预计胜率,然后优化胜率,其中只考虑胜、负两种结果;AlphaZero 则会估计比赛结果,然后优化达到预计的结果的概率,其中包含了平局甚至别的一些可能的结果。

第二,由于围棋规则是具有旋转和镜像不变性的,所以专为围棋设计的 AlphaGo Zero 和通用的 AlphaZero 就有不同的实现方法。AlphaGo Zero 训练中会为每个棋局做 8 个对称的增强数据;并且在蒙特卡洛树搜索中,棋局会先经过随机的旋转或者镜像变换之后再交给神经网络评估,这样蒙特卡洛评估就可以在不同的偏向之间得到平均。国际象棋和日本象棋都是不对称的,以上基于对称性的方法就不能用了。所以 AlphaZero 并不增强训练数据,也不会在蒙特卡洛树搜索中变换棋局。

第三,在 AlphaGo Zero 中,自我对局的棋局是由所有之前的迭代过程中出现的表现最好的一个版本生成的。在每一次训练迭代之后,新版本棋手的表现都要跟原先的表现最好的版本做对比;如果新的版本能以超过 55% 的胜率赢过原先版本,那么这个新的版本就会成为新的「表现最好的版本」,然后用它生成新的棋局供后续的迭代优化使用。相比之下,AlphaZero 始终都只有一个持续优化的神经网络,自我对局的棋局也就是由具有最新参数的网络生成的,不再像原来那样等待出现一个「表现最好的版本」之后再评估和迭代。这实际上增大了训练出一个不好的结果的风险。

第四,AlphaGo Zero 中搜索部分的超参数是通过贝叶斯优化得到的。AlphaZero 中直接对所有的棋类使用了同一套超参数,不再对每种不同的棋做单独的调节。唯一的例外在于训练中加在先前版本策略上的噪声的大小,这是为了保证网络有足够的探索能力;噪声的大小根据每种棋类的典型可行动作数目做了成比例的缩放。

将 AlphaGo 发展到 Alpha Zero,DeepMind 无疑是带给了我们惊喜的。使用人工特征的 AlphaGo Fan 在出山之战中便全胜打败樊麾,还发出第一篇论文;运行在 50 块 TPU 上的 AlphaGo Lee 以 4:1 的战绩击败李世石,还创作了纪录片并上映;接着只用 4 块 TPU 的 AlphaGo Master 又在乌镇围棋峰会上以 3:0 击败柯洁,打碎了人类所有击败 AlphaGo 幻想;再又有抛弃人工特征和所有人类高手棋局的 AlphaGo Zero 靠自学成功超越了「前辈」AlphaGo Master。而现在,DeepMind 带来的这个更通用的、能下各种棋类的、而且在围棋中的表现更上一层楼的通用强化学习模型——「AlphaZero」,则给我们带来了更上一层的惊喜。

正如此前对AlphaZero 的报道中所总结的那样:在 AlphaGo 的一路进化中,我们见证了 DeepMind 的工程师们对深度强化学习本质的思考和尝试,也看到了不断的优化中带来的无需先验知识、降低资源消耗、提高训练速度等等可喜的技术进步。而本次 AlphaZero 登上《科学》杂志封面,也算是对他们所作出的尝试和带来的技术进步的一种回应。接下来DeepMind 还将让Alpha Zero 进化到什么哪个版本呢?让我们期待一下吧~

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106799
  • 人工智能
    +关注

    关注

    1813

    文章

    49740

    浏览量

    261549
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12133

原文标题:AlphaZero 荣登《科学》杂志封面

文章出处:【微信号:worldofai,微信公众号:worldofai】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广汽集团一举斩获2025中国汽车质量奖六项大奖

    11月20日,由中国汽车质量委员会主办的“‘质’敬未来 2025中国汽车质量盛典”在广州举行。广汽集团凭借卓越的质量管理表现,一举斩获2025中国汽车质量奖六项大奖:传祺GS3影速获“小型SUV
    的头像 发表于 11-26 17:28 1033次阅读

    喜报 | 第十四届纳博会创新创业大赛首场路演,云镓半导体一举夺魁,直通决赛!

    云镓半导体喜报|第十四届纳博会创新创业大赛首场路演,云镓半导体一举夺魁,直通决赛!创新引领未来,创业铸就辉煌3月21日下午第十四届中国国际纳米技术产业博览会创新创业大赛启动仪式暨首场行业赛在苏州纳米
    的头像 发表于 11-11 11:47 390次阅读
    喜报 | 第十四届纳博会创新创业大赛首场路演,云镓半导体<b class='flag-5'>一举</b>夺魁,直通决赛!

    隆基BC组件一举包揽多项重磅荣誉

    9月24日,由德国莱茵TÜV集团(以下简称“TÜV莱茵”)主办的2025“质胜中国”光储盛典颁奖典礼在江苏常州落下帷幕。此次盛典上,隆基BC组件一举包揽多项重磅荣誉:面向集中式场景的Hi-MO 9
    的头像 发表于 09-29 14:35 570次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验
    发表于 09-17 11:45

    自动封面机远程监控运维管理系统方案

    行业背景 在包装印刷领域,自动封面机作为实现封面与书芯自动贴合的重要设备,应用极为广泛,涵盖各类书壳、文件夹、台历等生产场景。它能够实现封面材料的裁切、折叠、贴合、压痕等工艺的自动化工作,极大地提升
    的头像 发表于 07-08 10:36 445次阅读
    自动<b class='flag-5'>封面</b>机远程监控运维管理系统方案

    怿星科技斩获2024年度汽车电子科学技术奖两项殊荣

    题的行业盛会,汇聚了顶尖行业精英,共同探讨汽车电子产业的前沿趋势与发展新路径。怿星科技携最新研发工具链产品亮相,并凭借硬核实力脱颖而出,一举斩获“优秀企业奖”与“最具投资价值奖”双项大奖!
    的头像 发表于 07-04 09:56 725次阅读

    华芯星斩获2024年度汽车电子科学技术奖两项殊荣

    行业精英,共同探讨汽车电子产业的前沿趋势与发展新路径。深圳华芯星半导体有限公司凭借硬核实力脱颖而出,一举揽获“新锐企业奖”与“最具投资价值奖”双项大奖!
    的头像 发表于 07-04 09:49 753次阅读

    瀚思通斩获2024年度汽车电子科学技术奖两项殊荣

    近日,由深圳市汽车电子行业协会主办的2024年度汽车电子科学技术奖颁奖典礼在深圳隆重举行。瀚思通凭借自主研发的车规级LCoS PGU核心技术,在众多参评项目中脱颖而出,一举斩获“2024年度汽车电子科学技术奖”「突出创新产品奖」
    的头像 发表于 07-03 18:09 960次阅读

    自动封面机PLC数据采集远程监控系统方案

    自动封面机是种用于实现封面与书芯自动贴合的设备,广泛应用于各类书壳、文件夹、台历等包装印刷领域。它能够高效、精准地完成封面材料的裁切、折叠、贴合、压痕等工艺流程,替代传统的手工操作,
    的头像 发表于 06-10 17:19 501次阅读
    自动<b class='flag-5'>封面</b>机PLC数据采集远程监控系统方案

    天马荣获新财富杂志“2024 ESG最佳实践奖”

    天马可持续发展•ESG表现再获认可,上榜2024年新财富杂志最佳上市公司评选“ESG最佳实践榜单”。
    的头像 发表于 05-21 14:43 725次阅读

    赛思×三峡集团 | 双北斗时钟同步改造方案,筑牢三峡工程北斗授时安全防线

    GPS与北斗混合授时安全隐患重重?赛思双北斗时钟同步改造方案一举搞定!
    的头像 发表于 04-18 10:58 174次阅读
    赛思×三峡集团 | 双北斗时钟同步改造方案,筑牢三峡工程北斗授时安全防线

    曦智科技时隔八年再登《Nature》,光电混合计算架构首次公开

    accelerator with ultralow latency)。这是自八年前曦智科技创始人沈亦晨博士于《自然·光子学》杂志发表封面文章《由纳米光学回路实现的深度学习》(Deep
    发表于 04-10 09:50 1287次阅读
     曦智科技时隔八年再登《Nature》,光电混合计算架构首次公开

    宏景智驾斩获汽车行业两项重磅奖项

    近日,宏景智驾凭借卓越的技术实力和积极的生态合作,一举斩获行业内两项重磅奖项!
    的头像 发表于 02-25 16:54 764次阅读

    Science封面:新型物质,既可是流体又可是固体

    副标题:3D多链结构化材料  不多说,直接上封面图。   看完封面,各位读者应该就会明白这种由美国加州理工学院Chiara Daraio、Wenjie Zhou及劳伦斯·利弗莫尔国家实验室
    的头像 发表于 02-08 09:43 862次阅读
    Science<b class='flag-5'>封面</b>:新型物质,既可是流体又可是固体

    AN84-线性技术杂志电路集,第卷第四集

    电子发烧友网站提供《AN84-线性技术杂志电路集,第卷第四集.pdf》资料免费下载
    发表于 01-09 14:21 0次下载
    AN84-线性技术<b class='flag-5'>杂志</b>电路集,第<b class='flag-5'>一</b>卷第四集