0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

游戏AI的前世今生,完美的目标不完美的世界

zhKF_jqr_AI 来源:未知 作者:李倩 2018-08-28 09:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

编者按:如果有一天AI能征服世界,那近日OpenAI Five在Dota2国际邀请赛的表现一定会被钉在耻辱柱上:接连两天,它们先是输给了本届大赛上最先出局的职业队伍之一,之后又输给了技术已不复当年的退役选手。更凄凉的是,这不是势均力敌的对抗,而是人类对机器的单方面调戏和虐杀……

近两年,世界上最前沿的AI系统已经开始抛弃人类经验,依靠自学从零开始逐渐成长,其中最典型的是DeepMind的AlphaZero,它能在短短8小时内就从一无所知的“婴儿”成长为精通围棋、将棋和国际象棋的顶级大师。

但研究人员还在努力,他们希望能把这个成果扩展到游戏以外的领域。

游戏AI的前世今生

在DeepMind的围棋AI出现以前,如果机器想打败人类,它们至少还得尊重人类积累下的经验。

1997年,为了击败当时的国际象棋冠军Garry Kasparov,IBM的工程师们准备了几个世纪的国际象棋资料,这也是超级计算机“深蓝”能获胜的主要原因。

但现在,这种穷举法已经过时了。研究人员正在重新思考用机器整合人类知识的方式,而目前的主流趋势是:不要插手。

是的,人类选择尊重AI的学习自主性。去年10月,DeepMind团队发布了一个新的棋类AI:AlphaGo Zero。它无需任何人类资料数据,只要给出游戏规则,它就能自我博弈,不断进步。AlphaGo Zero的第一次尝试是完全随机的,在每场比赛结束后,它都会对所取得胜利和未取胜的新知识进行总结。经过训练,最后这个AI和曾击败过李世石的AlphaGo直接对决,以100比0拿下了彻底的胜利。

紧接着,在去年12月,精通三种棋类游戏的AlphaZero在比赛中击败AlphaGo Zero,把刚登上最佳围棋AI宝座的后者赶了下去。之后,DeepMind宣布棋类项目正式终止,但这系列AI给社会带来的巨大震动却迟迟无法平息。在AI咄咄逼人、别创一格的棋风中,人类第一次对机械“智慧”感到惊奇。

2016年,李世石与AlphaGo的对决

除了围棋,自学AI在***、Dota2上也开始崭露头角。以Dota2为例,去年,OpenAI的强化学习bot在中路solo中击败职业选手Dendi,赢得众人瞩目。而今年,他们又推出5人团队OpenAI Five,这些AI已经可以在比赛中击败业余玩家,并且据称天梯分在6000以上。虽然在Ti8上连输两局,提前“淘汰”,它们的进步之大还是有目共睹的。

但游戏并不是这些实验室,以及实验室背后的投资机构的唯一目标,他们有更大的野心。DeepMind希望把类似方法用于构建室温超导体、把蛋白质折叠成药物分子等现实问题。OpenAI也曾直言开发这类技术是出于现实场景需要,至于瓜分奖金池里的2500万美金,这在宏图大志面前只是个微不足道的“小目标”。

当然,他们中也有一帮人只是想单纯实现“人工智能”,让机器人能像人一样思考,并对不同类型的问题作出多种选择——这个定义不明的目标确实令人着迷。

机器学习领域是近年来的吸金热门,尽管无数人在这些AI系统中进行了投资,但我们目前还不清楚这种技术能走多远。按照华盛顿大学计算机科学家佩德罗·多明戈斯的说法:“我不确定这种想法是否能被推广,游戏和现实是两个世界。”

完美的目标,不完美的世界

许多游戏,比如国际象棋和围棋,它们的一个共同特点是玩家随时可以观察棋盘上双方棋子的位置,也就是玩家是站在全知视角的,他们掌握着游戏状态的“完美信息”。在这种情况下,无论棋局多复杂,他们要做的就是结合看到的场景进行思考。

但现实并非如此,大多数现实世界的战略互动都会涉及隐藏信息,比如用机器诊断疾病或进行商务谈判。

Dota2的视野是受限的。在游戏中,地图本身是黑的,只能靠英雄、建筑和侦查守卫提供一定视野,这就意味着AI要根据不完整的数据信息进行推断,同时预测双方英雄的发育进度。在这两场比赛中,可以发现AI的发挥很大程度上需要依赖视野,当敌方走进树林阴影后,它们不会预判对方走位,大多数时候都选择放弃追杀。

而这种不完全信息在星际2里就更突出了。这是一款非常考验操作和战略意识的游戏,玩家需要培养自己的部队进行作战,目标是拆光敌方大本营。但是,整片战场从头到尾会一直笼罩在阴影中,玩家只能依靠己方建筑和部队获得一定视野。加上地图很大,即便只是派小兵去侦查,侦查结果也会充满不确定性。

从DeepMind放出下一个目标是星际2的豪言后,他们就再没有公布任何突破性进展。过大的动作空间、过快的推进节奏,每个玩家——无论是人类还是机器——在点下鼠标的一刹那,都要担忧未来的一系列可能性。

有明确目标的任务:训练小人在陌生环境中前进

尽管面临挑战,星际2还是有一个简单明确的目标:消灭你的敌人。这和围棋、国际象棋、Dota2等游戏都一样。因此从算法角度看,这类游戏就可以设置一个“目标函数”,用它定义自己的目标。

但现实生活中的情况并非如此简单。比如自动驾驶汽车需要更细致的目标,它的目标不仅是到达目的地,也不是规划最佳路线,在行驶过程中,它的任务是多元的:把乘客送至正确地点、遵守交通法规、在意外情况下保障行人安全……

面对复杂问题如何设计目标函数,这是区别普通研究员和机器学习研究员的一个关键。

最大的敌人是自己

虽然世界一直在变,但有些事也一直没有改变,比如现在主导游戏AI的算法,它们其实是几十年前的产物。多伦多大学的计算机科学家大卫杜文德认为:“这基本上就是以往积累的一次大爆炸,让过去的算法更广为人知。”

无论是围棋、国际象棋还是Dota2,AI的策略都依赖强化学习,我们之前说过,这是一种“人类不干预”的方法,研究人员不会对具有详细指令的算法进行微观管理,而是让机器探索环境并通过反复试验来学习如何达到目标。

事实上,在AlphaGo及其后代出现以前,DeepMind团队就已经凭借雅达利游戏上过一次头条。2013年,他们开发除了一个会玩7种雅达利游戏的AI,并证明它能在三个游戏上能击败人类顶级玩家。

这一研究进展现在还在继续。今年2月5日,DeepMind发布了IMPALA,一个可以学习57个雅达利2600游戏的AI系统,其中还包括他们设置的30个等级。在这些游戏中,AI玩家们在不同环境中漫游,完成开门、采蘑菇等目标。这个系统的价值在于让AI学会游戏与游戏之间的共同经验,从而减少学习用时。

然而,这种自我探索、自我博弈的想法可以追溯到几十年前。在20世纪50年代,IBM工程师Arthur Samuel创建了一个跳棋游戏程序Checkers,它具备自学习和自适应能力,能在下棋过程中不断积累所获得的经验。在20世纪90年代,同样是IBM,Gerald Tesauro将算法和其自身对立起来了,发现这样做的效果能让机器在游戏中超出人类水平。

它背后的核心思想就是由策略不同导致结果不同,从而为算法提供即时反馈。“无论什么时候你学到了东西,哪怕只是一小点经验,你的对手就会马上用它来对付你。”这是去年影魔和Dendi中路对线时,OpenAI的研究主管Ilya Sutskever说过一句话。

在自我博弈游戏中,你永远不能休息,你必须一直改善。

但是,自我博弈只是当今主流游戏AI的一个组成部分,它还需要一种方法将游戏体验转化为更深层次的理解。比如在Dota2中,AI需要总结出使自己更易于获胜的战术,它们可以和人类总结的经验一致:每路都有英雄占线、抱团推塔、gank、刷钱,掐点抢神符……也可以是区别于人类的一些东西:前期给辅助更多经验和钱。

要做到这一点,就不得不提这些年来热度持续飙升的深层神经网络。它由一系列层组成,每层包含大量人造神经元。当信号触发某一层中的神经元时,它们会把信号层层传递下去,直到最终生成输出。而为了保证输出的准确性,网络需要大量训练样本。

这就是自我博弈能和它很好地融合在一起的原因。自我博弈可以产生大量的游戏数据,为神经网络提供理论上无限量的自学样本。反过来,深层神经网络提供了一种内化经验和模式的方法。

但这里还是有一个问题,这种由自我博弈生成的数据,它们在模拟环境中可能非常完美,但在现实场景下就不一定了。

比如OpenAI之前推出的五指机器人手Dactyl,这只手能用手指转动手中的方块,最高记录是保持连续转动50次不掉落。它之所以成为一个“重磅新闻”,是因为现在的机器人手往往在模拟时非常灵巧,但在现实中连基本抓握都很难实现,更别提拧瓶盖、使用螺丝刀这样的操作了。

对于难以模拟的问题,自我博弈的用处并不大。按蒙特利尔大学深度学习的先驱Yoshua Bengio的话讲,就是:“真正完美的环境模型与模型学到的东西之间存在巨大差异,尤其是在现实情况十分复杂的情况下。”

洗去“炒作”的铅华

在上文中,我们已经给出了为什么游戏AI在现实中一无所用的两个原因:

游戏环境是完美的,现实环境是复杂多变、信息不完整的,它们非常不同。

自我博弈是一个无休无止的过程,而且它对于难以模拟的现实问题用处不大。

下面我们来谈第三个,也是最后一个。

这么多年来,机器已经在很多领域展现出了可以媲美人类的“智能”,比如国际象棋的“深蓝”,棋类游戏的AlphaZero,或是Dota2的OpenAI Five。但脱去炒作和吹嘘后,它们对现实世界的实质性作用是什么?

我们以在智力问答节目中“智商碾压人类”的IBM Watson为例。这是AI中最贴近人类生活的,多年来它一直在医疗界默默奉献,针对病人研究和设计个性化的癌症治疗方法。但在IBM向世界各地的医院推广这个方案的三年后,全球采用这个系统的医院只有几十家,而且这种方法并没有IBM预期的那么好用。

更有甚者,在上个月,Watson被爆出惊天丑闻,有医疗机构称AI给出的用药建议会导致严重出血的癌症病人出血更加严重。考虑到这个系统已经辅助84000名患者治疗,这样的事件将严重打击人们对AI的信任。

这是因为AI作出判断不需要太多常识性知识,而培养一个医生是建立在阅读大量医学文献和进行大量的基础研究的基础上的。

虽然基于强化学习的AI能搜索巨型空间,也可能在自然语言处理上作出一些突破。但如果我们的最终目标是让机器像人一样“智能”,那么现如今的自我博弈AI还有很大的上升空间。

至少在我看来,目前AI展现出来的东西和真正的思维活动、思想的创造性探索还存在巨大差距。人们期望的“智能”是存在的,但它主要在伟大的AI研究人员的脑海中。——MIT认知科学家Josh Tenenbaum

现在的AI还不足以称之为AI,在现实场景下,一些非常简单、专业的工具可能实用性更强。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261496
  • 机器
    +关注

    关注

    0

    文章

    796

    浏览量

    41773

原文标题:由Dota2 AI引起的思考:为什么自学成才的AI系统在现实世界一无所用

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    告别“完美同轴”执念,MT6709离轴角度检测解码芯片:校准补偿、精准检测

    成为难题。而MT6709,则像是一个“理解者”——它接受现实世界不完美,通过对外部模拟信号进行角度解码计算并补偿偏差,实现精准的离轴(Off-Axis)0~36
    的头像 发表于 12-05 11:54 58次阅读
    告别“<b class='flag-5'>完美</b>同轴”执念,MT6709离轴角度检测解码芯片:校准补偿、精准检测

    赛思×美的 | 赛思NTP服务器以“中国精度”夯实AI时代算力底座时序底座

    在“东数西算”战略深化与AI算力需求爆发背景下,美的集团贵安、南海两大云数据中心引入赛思电子高精度NTP服务器,实现从基础设施到业务系统的全链路精准授时,为“数字美的2025”战略筑牢时空基准。01
    的头像 发表于 12-02 14:46 85次阅读
    赛思×<b class='flag-5'>美的</b> | 赛思NTP服务器以“中国精度”夯实<b class='flag-5'>AI</b>时代算力底座时序底座

    库拉岗日雪山:读懂美的AI版图

    “科技月”三十年,美的AI筑起库拉岗日雪山
    的头像 发表于 11-03 19:52 9198次阅读
    库拉岗日雪山:读懂<b class='flag-5'>美的</b><b class='flag-5'>AI</b>版图

    美的tm-s1-09b主板图纸资料

    美的tm-s1-09b主板图纸
    发表于 10-21 16:15 10次下载

    美的超薄电磁炉图纸资料

    美的一款超薄电磁炉图纸
    发表于 10-21 16:07 7次下载

    谷东智能助力美的智能体工厂

    美的洗衣机荆州工厂近日拿下一项重磅认证——WRCA“世界卓越的首个多场景覆盖的智能体工厂”,并获得央媒点赞。这座智能工厂的亮相,不仅展现了领先的智能制造实力,也让人们把目光投向其背后的关键技术“黑科技”。
    的头像 发表于 09-05 15:18 710次阅读

    谷东智能助力美的洗衣机荆州工厂荣获世界纪录认证

    近日,美的洗衣机荆州工厂荣获总部位于伦敦的世界纪录认证机构 WRCA 授予的“世界卓越的首个多场景覆盖的智能体工厂”认证,标志着行业首个智能体工厂正式落地。这一成就的背后,谷东智能作为美的
    的头像 发表于 09-01 15:03 878次阅读

    【产品介绍】差示扫描量热仪DSC 300 Caliris Classic

    。它也可以选配多种扩展模块。为何选择DSC300CalirisClassic?即使在不完美的外部环境下,也能保证完美的测量条件气密性测量单元为精确测量提供最佳的气
    的头像 发表于 06-16 17:13 412次阅读
    【产品介绍】差示扫描量热仪DSC 300 Caliris Classic

    海信集团与美的集团签订战略合作协议

    近日,海信集团与美的集团签订战略合作协议,双方将围绕AI应用、全球先进制造、智慧物流等多领域开展全面战略合作,以资源共享、互惠互利与协同创新为基础,开启合作共赢新篇章,全方位赋能用户和生态合作伙伴。
    的头像 发表于 05-08 15:59 775次阅读

    AI智启建筑新生 美的楼宇科技闪耀2025中国国际制冷展

    楼宇科技绿色低碳与智能建筑领域的最新成果。美的以"产品+方案+服务"三位一体,通过AI全链路赋能产品与高效系统实现基础能效跃升,针对不同领域的绿色转型需求提供定制化的解决方案。 同期举办的"AI智启建筑新生"发布会受到行业的关注
    的头像 发表于 04-28 16:51 390次阅读
    <b class='flag-5'>AI</b>智启建筑新生 <b class='flag-5'>美的</b>楼宇科技闪耀2025中国国际制冷展

    美的集团闪耀AHR Expo 2025,加速全球布局

    近日,美的集团在美国暖通制冷展(AHR Expo 2025)上大放异彩,旗下多个业务部门携手亮相,全方位展示了其在暖通空调、核心部件以及热水器等领域的最新技术成果与全场景解决方案。此次参展不仅是
    的头像 发表于 02-18 14:34 1066次阅读

    商汤科技日日新融合大模型交互版开放商用

    能说会看,还响应快、记性好、算得准——如此完美的AI,ta来了!
    的头像 发表于 01-20 14:10 879次阅读

    天玑游戏生态圈再拓展,头部大作《英雄联盟手游》支持天玑星速引擎

    《英雄联盟手游》一直追求给玩家提供完美的游戏体验,不仅高度还原了核心玩法、英雄技能,同时还将更好的视觉效果在移动端呈现,画面精美、特效炫酷。但玩家在追求高帧带来的竞技体验时,游戏过程中难免会遇到因为突发团战、设备负载的变化,导致
    的头像 发表于 12-29 09:47 743次阅读

    美的电磁炉维修手册大全

    美的电磁炉维修手册大全
    发表于 12-24 14:48 52次下载

    美的携手亚马逊云科技,提升全球客户体验

    字化转型方面的卓越实力,也彰显了亚马逊云科技在全球业务扩展中的强大支持。通过Amazon Connect,美的得以构建一个高效、便捷的客户服务平台,为全球用户提供无缝、一致的服务体验。 此外,美的还充分利用了Amazon Connect新增的生成式
    的头像 发表于 12-24 11:48 888次阅读