0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌DeepMind设置强迫机制使AI实现利益最大化

汽车玩家 来源:大数据文摘微信公众号 作者:赵吉克 2020-03-16 09:24 次阅读

最近谷歌DeepMind提出了一种新的强化学习技术,这种技术以一种全新方式来模拟人类行为。它可能会比之前发布的人工智能决策系统更强大,这对希望通过自动化提高生产率的企业来说可能是个福音。

如何解决多方零和博弈中的合作困境?

DeepMind用强化学习使AI实现利益最大化。这是一种基于对等契约机制的经济竞争模型,该模型允许在多方博弈中结盟。这篇论文其中一位作者表示,这种结盟有单打独斗不具有的特殊优势。

长期以来,零和游戏以其丰富的策略选择空间和清晰的策略评估方式指导着人工智能研究。更重要的是这种竞争广泛存在于生物界、市场经济甚至是AlphaZero中。

DeepMind科学家首先寻求数学定义形成联盟的挑战,关注联盟形成多玩家零和游戏——也就是说,数学表示的情况下,每个参与者的收益或损失的效用是完全平衡的损失或收益的其他参与者的效用。

什么是多方零和博弈?

DeepMind将之定义为每个玩家的收益或损失完全由其余玩家的损失或收益提供。在一个对称多方零和博弈中,每个玩家的行为模式都是一样的,这往往会产生社会困境。(一个极简例子是“囚徒困境”)

零和博弈引入了合作后事情变得很复杂。紧急情况下,团队必须内部协调才能有效地在游戏中竞争。合作形成的过程本身就是一个社会困境——从直觉上看,玩家应该合作来击败其他人,但合作团队内部要求个体为更广泛的利益做出妥协,但这种牺牲未必和他们的自身利益一致。此外,决定加入或离开哪个团队以及团队策略都是重要问题。

DeepMind尝试了一种“礼物游戏”,在游戏中,AI扮演的玩家从一堆标记着自己代表色的数字筹码开始。在每个玩家的回合中,他们必须拿出自己对应颜色的筹码并将其赠送给另一名玩家,或将其弃置。全部玩家都失去自己对应颜色的数字筹码时游戏结束,此时拥有最多颜色筹码的玩家获胜,赢家平分价值为“1”的筹码,其他玩家平分价值为“0”的筹码。

研究发现,玩家往往表现得很自私,他们囤积筹码以至于出现了三方平局。但事实上,如果两名玩家交换筹码,回报会更好。DeepMind将这种过程阐述为:尽管合作能带来更好的结果,但人人都想从欺骗行为中获利,也就是说服对方交换然后食言。

这也就是说,如果有一种机制能维护合作行为存在,那强化学习可以适应这种博弈。这种机制就是合同——在游戏中,每个玩家必须提交一份报价,首先选择合作伙伴,然后为该合作伙伴提出行动建议,最后玩家承诺采取的行动。如果两个玩家提供了相同的契约,那么这些契约就具有了约束力,也就是说环境强制执行了所承诺的操作。

这种强制性机制是合作形成的基础。

这种模型能让我们在更广阔的应用环境中思考契约的作用。一个没有强制实施机制的契约系统如果可以在多方动态博弈中持续运行将最终产生一个有价值的反馈回路,这将使得AI的应用走向社会学和经济学。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5866

    浏览量

    103286
  • AI
    AI
    +关注

    关注

    87

    文章

    26487

    浏览量

    264139
收藏 人收藏

    评论

    相关推荐

    谷歌DeepMind推出SIMI通用AI智能体

    近日,谷歌DeepMind团队发布了其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),这是一个通用人工智能智能体,能够在多种3D虚拟环境
    的头像 发表于 03-18 11:39 377次阅读

    谷歌DeepMind推新AI模型Genie,能生成2D游戏平台

    据报道,谷歌公司的DeepMind团队近期发布了AI模型Genie,此模型拥有多达110亿个参数,能够依据用户提供的图片及提示词创建出相当完整的2D游戏场景。
    的头像 发表于 02-27 14:53 355次阅读

    谷歌宣布Gemma大模型全球开放使用

    谷歌公司近日宣布,其先进的AI大模型Gemma即日起在全球范围内开放使用。这一新模型由谷歌DeepMind和其他团队合作开发,并与其最大
    的头像 发表于 02-23 10:41 356次阅读

    谷歌DeepMind资深AI研究员创办AI Agent创企

    近日,刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦,此前曾
    的头像 发表于 02-04 10:02 375次阅读

    谷歌DeepMind科学家欲建AI初创公司

    据知情人士透露,谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。
    的头像 发表于 01-22 14:41 206次阅读

    用于并行采样的EVADC同步转换,如何在最大化采样率的同时最大限度地减少抖动?

    ; 必须设置相位同步器才能让 EVADC 达到其有记录的性能。" SSE=0、USC=1 设置会降低 ADC 结果精度吗? 请告知最适合我的手机壳的设置是什么? 为了实现
    发表于 01-18 07:59

    使用GaN HEMT设备最大化OBCs的功率密度

    随着电动汽车(EVs)的销售量增长,整车OBC(车载充电器)的性能要求日益提高。原始设备制造商正在寻求最小化这些组件的尺寸和重量以提高车辆续航里程。因此,我们将探讨如何设计、选择拓扑结构,以及如何通过GaN HEMT设备最大化OBCS的功率密度。
    的头像 发表于 12-17 11:30 656次阅读
    使用GaN HEMT设备<b class='flag-5'>最大化</b>OBCs的功率密度

    深开鸿亮相虎嗅2023工业AI大会,以开鸿安全数字底座助力工业场景价值最大化

    趋势、技术前沿和应用案例展开深入探讨。 深开鸿柴莹受邀参与此次大会,发表《融合AI,安全数字底座助力工业场景价值最大化》的主题演讲,分享了开鸿安全数字底座在工业领域融合AI技术的价值和实践经验,并在圆桌论坛环节探讨了工业领域开源
    的头像 发表于 09-09 13:25 437次阅读

    深开鸿亮相虎嗅2023工业AI大会,以开鸿安全数字底座助力工业场景价值最大化

    前沿和应用案例展开深入探讨。深开鸿柴莹受邀参与此次大会,发表《融合AI,安全数字底座助力工业场景价值最大化》的主题演讲,分享了开鸿安全数字底座在工业领域融合AI技术的价
    的头像 发表于 09-09 08:35 845次阅读
    深开鸿亮相虎嗅2023工业<b class='flag-5'>AI</b>大会,以开鸿安全数字底座助力工业场景价值<b class='flag-5'>最大化</b>

    GPT-5正秘密训练!DeepMind联创爆料,这模型比GPT-4大100倍

    另外,采访中,Suleyman还爆出了很多自己在DeepMind和Inflection AI工作时的内部信息,包括了谷歌当时收购DeepMind和之后的抓马,某种程度上解释了为什么
    的头像 发表于 09-04 16:28 472次阅读
    GPT-5正秘密训练!<b class='flag-5'>DeepMind</b>联创爆料,这模型比GPT-4大100倍

    最大化数据库性能在虚拟Red Hat Enterprise Linux环境

    电子发烧友网站提供《最大化数据库性能在虚拟Red Hat Enterprise Linux环境.pdf》资料免费下载
    发表于 08-03 11:06 0次下载
    <b class='flag-5'>最大化</b>数据库性能在虚拟Red Hat Enterprise Linux环境

    谷歌DeepMind发布机器人大模型RT-2,提高泛化与涌现能力

    7月28日,谷歌DeepMind推出了一款新的机器人模型Robotics Transformer 2(RT-2)。
    发表于 08-02 14:22 275次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>DeepMind</b>发布机器人大模型RT-2,提高泛化与涌现能力

    Cortex-M如何最大限度地提高SoC设计的能效端点

    随着现代微控制器和SoC变得越来越复杂,设计者面临着最大化能源效率,同时实现更高水平的集成。最大限度地提高能量在低功耗SoC市场中,多个功率域的使用被广泛采用。在 同时,为了解决更高级别的集成,许多
    发表于 08-02 06:34

    谷歌DeepMind发现更快排序算法,已集成到C++库

    细节因所玩游戏而异,但 DeepMind 软件确实能在重复游玩中不断学习,持续探索能令得分最大化的办法。
    的头像 发表于 06-09 17:11 561次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>DeepMind</b>发现更快排序算法,已集成到C++库

    谷歌DeepMindAI改进数据排序

      人工智能研究所谷歌Google DeepMind推出了三种ai工具AlphaZero、MuZero、AlphaDev,这些工具提高数据中心的资源利用率,提高视频压缩效率,更快的算法发现,整个计算优化生态系统。
    的头像 发表于 06-09 10:30 684次阅读