0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

游戏AI的前世今生,完美的目标不完美的世界

zhKF_jqr_AI 来源:未知 作者:李倩 2018-08-28 09:00 次阅读

编者按:如果有一天AI能征服世界,那近日OpenAI Five在Dota2国际邀请赛的表现一定会被钉在耻辱柱上:接连两天,它们先是输给了本届大赛上最先出局的职业队伍之一,之后又输给了技术已不复当年的退役选手。更凄凉的是,这不是势均力敌的对抗,而是人类对机器的单方面调戏和虐杀……

近两年,世界上最前沿的AI系统已经开始抛弃人类经验,依靠自学从零开始逐渐成长,其中最典型的是DeepMind的AlphaZero,它能在短短8小时内就从一无所知的“婴儿”成长为精通围棋、将棋和国际象棋的顶级大师。

但研究人员还在努力,他们希望能把这个成果扩展到游戏以外的领域。

游戏AI的前世今生

在DeepMind的围棋AI出现以前,如果机器想打败人类,它们至少还得尊重人类积累下的经验。

1997年,为了击败当时的国际象棋冠军Garry Kasparov,IBM的工程师们准备了几个世纪的国际象棋资料,这也是超级计算机“深蓝”能获胜的主要原因。

但现在,这种穷举法已经过时了。研究人员正在重新思考用机器整合人类知识的方式,而目前的主流趋势是:不要插手。

是的,人类选择尊重AI的学习自主性。去年10月,DeepMind团队发布了一个新的棋类AI:AlphaGo Zero。它无需任何人类资料数据,只要给出游戏规则,它就能自我博弈,不断进步。AlphaGo Zero的第一次尝试是完全随机的,在每场比赛结束后,它都会对所取得胜利和未取胜的新知识进行总结。经过训练,最后这个AI和曾击败过李世石的AlphaGo直接对决,以100比0拿下了彻底的胜利。

紧接着,在去年12月,精通三种棋类游戏的AlphaZero在比赛中击败AlphaGo Zero,把刚登上最佳围棋AI宝座的后者赶了下去。之后,DeepMind宣布棋类项目正式终止,但这系列AI给社会带来的巨大震动却迟迟无法平息。在AI咄咄逼人、别创一格的棋风中,人类第一次对机械“智慧”感到惊奇。

2016年,李世石与AlphaGo的对决

除了围棋,自学AI在德州扑克、Dota2上也开始崭露头角。以Dota2为例,去年,OpenAI的强化学习bot在中路solo中击败职业选手Dendi,赢得众人瞩目。而今年,他们又推出5人团队OpenAI Five,这些AI已经可以在比赛中击败业余玩家,并且据称天梯分在6000以上。虽然在Ti8上连输两局,提前“淘汰”,它们的进步之大还是有目共睹的。

但游戏并不是这些实验室,以及实验室背后的投资机构的唯一目标,他们有更大的野心。DeepMind希望把类似方法用于构建室温超导体、把蛋白质折叠成药物分子等现实问题。OpenAI也曾直言开发这类技术是出于现实场景需要,至于瓜分奖金池里的2500万美金,这在宏图大志面前只是个微不足道的“小目标”。

当然,他们中也有一帮人只是想单纯实现“人工智能”,让机器人能像人一样思考,并对不同类型的问题作出多种选择——这个定义不明的目标确实令人着迷。

机器学习领域是近年来的吸金热门,尽管无数人在这些AI系统中进行了投资,但我们目前还不清楚这种技术能走多远。按照华盛顿大学计算机科学家佩德罗·多明戈斯的说法:“我不确定这种想法是否能被推广,游戏和现实是两个世界。”

完美的目标,不完美的世界

许多游戏,比如国际象棋和围棋,它们的一个共同特点是玩家随时可以观察棋盘上双方棋子的位置,也就是玩家是站在全知视角的,他们掌握着游戏状态的“完美信息”。在这种情况下,无论棋局多复杂,他们要做的就是结合看到的场景进行思考。

但现实并非如此,大多数现实世界的战略互动都会涉及隐藏信息,比如用机器诊断疾病或进行商务谈判。

Dota2的视野是受限的。在游戏中,地图本身是黑的,只能靠英雄、建筑和侦查守卫提供一定视野,这就意味着AI要根据不完整的数据信息进行推断,同时预测双方英雄的发育进度。在这两场比赛中,可以发现AI的发挥很大程度上需要依赖视野,当敌方走进树林阴影后,它们不会预判对方走位,大多数时候都选择放弃追杀。

而这种不完全信息在星际2里就更突出了。这是一款非常考验操作和战略意识的游戏,玩家需要培养自己的部队进行作战,目标是拆光敌方大本营。但是,整片战场从头到尾会一直笼罩在阴影中,玩家只能依靠己方建筑和部队获得一定视野。加上地图很大,即便只是派小兵去侦查,侦查结果也会充满不确定性。

从DeepMind放出下一个目标是星际2的豪言后,他们就再没有公布任何突破性进展。过大的动作空间、过快的推进节奏,每个玩家——无论是人类还是机器——在点下鼠标的一刹那,都要担忧未来的一系列可能性。

有明确目标的任务:训练小人在陌生环境中前进

尽管面临挑战,星际2还是有一个简单明确的目标:消灭你的敌人。这和围棋、国际象棋、Dota2等游戏都一样。因此从算法角度看,这类游戏就可以设置一个“目标函数”,用它定义自己的目标。

但现实生活中的情况并非如此简单。比如自动驾驶汽车需要更细致的目标,它的目标不仅是到达目的地,也不是规划最佳路线,在行驶过程中,它的任务是多元的:把乘客送至正确地点、遵守交通法规、在意外情况下保障行人安全……

面对复杂问题如何设计目标函数,这是区别普通研究员和机器学习研究员的一个关键。

最大的敌人是自己

虽然世界一直在变,但有些事也一直没有改变,比如现在主导游戏AI的算法,它们其实是几十年前的产物。多伦多大学的计算机科学家大卫杜文德认为:“这基本上就是以往积累的一次大爆炸,让过去的算法更广为人知。”

无论是围棋、国际象棋还是Dota2,AI的策略都依赖强化学习,我们之前说过,这是一种“人类不干预”的方法,研究人员不会对具有详细指令的算法进行微观管理,而是让机器探索环境并通过反复试验来学习如何达到目标。

事实上,在AlphaGo及其后代出现以前,DeepMind团队就已经凭借雅达利游戏上过一次头条。2013年,他们开发除了一个会玩7种雅达利游戏的AI,并证明它能在三个游戏上能击败人类顶级玩家。

这一研究进展现在还在继续。今年2月5日,DeepMind发布了IMPALA,一个可以学习57个雅达利2600游戏的AI系统,其中还包括他们设置的30个等级。在这些游戏中,AI玩家们在不同环境中漫游,完成开门、采蘑菇等目标。这个系统的价值在于让AI学会游戏与游戏之间的共同经验,从而减少学习用时。

然而,这种自我探索、自我博弈的想法可以追溯到几十年前。在20世纪50年代,IBM工程师Arthur Samuel创建了一个跳棋游戏程序Checkers,它具备自学习和自适应能力,能在下棋过程中不断积累所获得的经验。在20世纪90年代,同样是IBM,Gerald Tesauro将算法和其自身对立起来了,发现这样做的效果能让机器在游戏中超出人类水平。

它背后的核心思想就是由策略不同导致结果不同,从而为算法提供即时反馈。“无论什么时候你学到了东西,哪怕只是一小点经验,你的对手就会马上用它来对付你。”这是去年影魔和Dendi中路对线时,OpenAI的研究主管Ilya Sutskever说过一句话。

在自我博弈游戏中,你永远不能休息,你必须一直改善。

但是,自我博弈只是当今主流游戏AI的一个组成部分,它还需要一种方法将游戏体验转化为更深层次的理解。比如在Dota2中,AI需要总结出使自己更易于获胜的战术,它们可以和人类总结的经验一致:每路都有英雄占线、抱团推塔、gank、刷钱,掐点抢神符……也可以是区别于人类的一些东西:前期给辅助更多经验和钱。

要做到这一点,就不得不提这些年来热度持续飙升的深层神经网络。它由一系列层组成,每层包含大量人造神经元。当信号触发某一层中的神经元时,它们会把信号层层传递下去,直到最终生成输出。而为了保证输出的准确性,网络需要大量训练样本。

这就是自我博弈能和它很好地融合在一起的原因。自我博弈可以产生大量的游戏数据,为神经网络提供理论上无限量的自学样本。反过来,深层神经网络提供了一种内化经验和模式的方法。

但这里还是有一个问题,这种由自我博弈生成的数据,它们在模拟环境中可能非常完美,但在现实场景下就不一定了。

比如OpenAI之前推出的五指机器人手Dactyl,这只手能用手指转动手中的方块,最高记录是保持连续转动50次不掉落。它之所以成为一个“重磅新闻”,是因为现在的机器人手往往在模拟时非常灵巧,但在现实中连基本抓握都很难实现,更别提拧瓶盖、使用螺丝刀这样的操作了。

对于难以模拟的问题,自我博弈的用处并不大。按蒙特利尔大学深度学习的先驱Yoshua Bengio的话讲,就是:“真正完美的环境模型与模型学到的东西之间存在巨大差异,尤其是在现实情况十分复杂的情况下。”

洗去“炒作”的铅华

在上文中,我们已经给出了为什么游戏AI在现实中一无所用的两个原因:

游戏环境是完美的,现实环境是复杂多变、信息不完整的,它们非常不同。

自我博弈是一个无休无止的过程,而且它对于难以模拟的现实问题用处不大。

下面我们来谈第三个,也是最后一个。

这么多年来,机器已经在很多领域展现出了可以媲美人类的“智能”,比如国际象棋的“深蓝”,棋类游戏的AlphaZero,或是Dota2的OpenAI Five。但脱去炒作和吹嘘后,它们对现实世界的实质性作用是什么?

我们以在智力问答节目中“智商碾压人类”的IBM Watson为例。这是AI中最贴近人类生活的,多年来它一直在医疗界默默奉献,针对病人研究和设计个性化的癌症治疗方法。但在IBM向世界各地的医院推广这个方案的三年后,全球采用这个系统的医院只有几十家,而且这种方法并没有IBM预期的那么好用。

更有甚者,在上个月,Watson被爆出惊天丑闻,有医疗机构称AI给出的用药建议会导致严重出血的癌症病人出血更加严重。考虑到这个系统已经辅助84000名患者治疗,这样的事件将严重打击人们对AI的信任。

这是因为AI作出判断不需要太多常识性知识,而培养一个医生是建立在阅读大量医学文献和进行大量的基础研究的基础上的。

虽然基于强化学习的AI能搜索巨型空间,也可能在自然语言处理上作出一些突破。但如果我们的最终目标是让机器像人一样“智能”,那么现如今的自我博弈AI还有很大的上升空间。

至少在我看来,目前AI展现出来的东西和真正的思维活动、思想的创造性探索还存在巨大差距。人们期望的“智能”是存在的,但它主要在伟大的AI研究人员的脑海中。——MIT认知科学家Josh Tenenbaum

现在的AI还不足以称之为AI,在现实场景下,一些非常简单、专业的工具可能实用性更强。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1775

    文章

    43723

    浏览量

    230505
  • 机器
    +关注

    关注

    0

    文章

    756

    浏览量

    40481

原文标题:由Dota2 AI引起的思考:为什么自学成才的AI系统在现实世界一无所用

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    二极管的前世今生

    二极管的前世今生
    的头像 发表于 12-14 18:35 566次阅读
    二极管的<b class='flag-5'>前世</b><b class='flag-5'>今生</b>

    带你探索吹风筒的前世今生【其利天下高速风筒方案开发】 

    电吹风作为如今生活中不可或缺的小家电之一,这个看似简单的设备,已经走过了漫长的发展历程,从它的前世今生,经历了许多变革和创新,本文将带您穿越时间,探索其前世
    的头像 发表于 11-02 16:15 884次阅读
    带你探索吹风筒的<b class='flag-5'>前世</b><b class='flag-5'>今生</b>【其利天下高速风筒方案开发】 

    51单片机按键消抖有没有什么简洁又完美的方法?

    51单片机按键消抖有没有什么简洁又完美的方法
    发表于 11-01 07:21

    怎样才算完美的PLC程序?

    一套完整的PLC程序,并不仅仅是使系统能够运行起来这么简单,它也需要完整的注释、精良的架构、良好的可扩展性、完备的报警保护系统、运行前的模拟系统。
    发表于 10-27 17:04 96次阅读

    尊信推荐ZXV01W系列Q值无线充方案完美解决15断充现象

    尊信自我开发的一款Q值无线方案完美的解决了,新IP15的痛点,手机断充问题,温度只在75以内,超低功耗,外围简单,可以搭配移动电源,18W-140W方案
    发表于 10-25 00:06 0次下载

    【微控制器基础】——完美的软硬结合(下)

    【微控制器基础】——完美的软硬结合(下)
    的头像 发表于 10-17 16:36 206次阅读
    【微控制器基础】——<b class='flag-5'>完美的</b>软硬结合(下)

    【微控制器基础】——完美的软硬结合(上)

    【微控制器基础】——完美的软硬结合(上)
    的头像 发表于 10-17 16:23 212次阅读
    【微控制器基础】——<b class='flag-5'>完美的</b>软硬结合(上)

    为什么说没有完美的PLC,只有最合适的PLC?

    说没有完美的PLC,只有最合适的PLC,是因为不同的应用场景和需求对PLC有不同的要求和限制。以下是一些原因: (1)功能需求:不同的应用需要不同的功能和特性。某些PLC可能在某些方面具有出色的性能
    的头像 发表于 10-14 08:15 244次阅读

    完美世界游戏借助 NVIDIA Omniverse 等平台与技术,加速数字人开发并优化游戏画面

    越来越关键的作用。 创立于 2004 年的全球化游戏公司——完美世界游戏,集游戏开发、发行、运营为一体,其正在使用  NVIDIA Omni
    的头像 发表于 09-26 18:35 663次阅读
    <b class='flag-5'>完美</b><b class='flag-5'>世界</b><b class='flag-5'>游戏</b>借助 NVIDIA Omniverse 等平台与技术,加速数字人开发并优化<b class='flag-5'>游戏</b>画面

    如何消除差动保护的不完美因素?

    差动保护看似很完美,可理想很丰满,现实又很骨感,这个差流Id会受到诸多因素的影响,比如,变压器的接线组别、互感器误差或断线、带载调压、冲击合闸、区外故障等,都会造成差流的存在和变化。
    的头像 发表于 09-01 17:36 544次阅读
    如何消除差动保护的<b class='flag-5'>不完美</b>因素?

    Sherlock8 视觉平台对AI检测提供完美的支撑

    随着人工智能(AI)技术的飞速发展,机器视觉行业正在迎来新一轮技术变革。作为人工智能应用的主战场,机器视觉是实现工业自动化和智能化的关键核心技术,是推进工业4.0及智能制造发展的重要技术支撑。
    的头像 发表于 07-12 16:47 687次阅读
    Sherlock8 视觉平台对<b class='flag-5'>AI</b>检测提供<b class='flag-5'>完美的</b>支撑

    用最完美的体积,演绎最大的电流。

    电机与驱动
    YS YYDS
    发布于 :2023年06月08日 22:15:25

    美的柜机双模

    美的
    YS YYDS
    发布于 :2023年05月26日 17:23:43

    【技术分享】蓝牙技术的前世今生

    蓝牙是一种支持设备短距离通信的低功耗、低成本无线电技术。它利用短程无线链路取代专用电缆,便于人们在室内或户外流动操作。那么这种技术为什么叫蓝牙?又历经了怎样的发展?本文将带你了解蓝牙技术的前世今生
    的头像 发表于 05-12 10:20 565次阅读
    【技术分享】蓝牙技术的<b class='flag-5'>前世</b><b class='flag-5'>今生</b>

    蓝牙技术的前世今生

    蓝牙是一种支持设备短距离通信的低功耗、低成本无线电技术。它利用短程无线链路取代专用电缆,便于人们在室内或户外流动操作。那么这种技术为什么叫蓝牙?又历经了怎样的发展?本文将带你了解蓝牙技术的前世今生
    的头像 发表于 05-09 09:46 1678次阅读
    蓝牙技术的<b class='flag-5'>前世</b><b class='flag-5'>今生</b>