0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌DeepMind设置强迫机制使AI实现利益最大化

汽车玩家 来源:大数据文摘微信公众号 作者:赵吉克 2020-03-16 09:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

最近谷歌DeepMind提出了一种新的强化学习技术,这种技术以一种全新方式来模拟人类行为。它可能会比之前发布的人工智能决策系统更强大,这对希望通过自动化提高生产率的企业来说可能是个福音。

如何解决多方零和博弈中的合作困境?

DeepMind用强化学习使AI实现利益最大化。这是一种基于对等契约机制的经济竞争模型,该模型允许在多方博弈中结盟。这篇论文其中一位作者表示,这种结盟有单打独斗不具有的特殊优势。

长期以来,零和游戏以其丰富的策略选择空间和清晰的策略评估方式指导着人工智能研究。更重要的是这种竞争广泛存在于生物界、市场经济甚至是AlphaZero中。

DeepMind科学家首先寻求数学定义形成联盟的挑战,关注联盟形成多玩家零和游戏——也就是说,数学表示的情况下,每个参与者的收益或损失的效用是完全平衡的损失或收益的其他参与者的效用。

什么是多方零和博弈?

DeepMind将之定义为每个玩家的收益或损失完全由其余玩家的损失或收益提供。在一个对称多方零和博弈中,每个玩家的行为模式都是一样的,这往往会产生社会困境。(一个极简例子是“囚徒困境”)

零和博弈引入了合作后事情变得很复杂。紧急情况下,团队必须内部协调才能有效地在游戏中竞争。合作形成的过程本身就是一个社会困境——从直觉上看,玩家应该合作来击败其他人,但合作团队内部要求个体为更广泛的利益做出妥协,但这种牺牲未必和他们的自身利益一致。此外,决定加入或离开哪个团队以及团队策略都是重要问题。

DeepMind尝试了一种“礼物游戏”,在游戏中,AI扮演的玩家从一堆标记着自己代表色的数字筹码开始。在每个玩家的回合中,他们必须拿出自己对应颜色的筹码并将其赠送给另一名玩家,或将其弃置。全部玩家都失去自己对应颜色的数字筹码时游戏结束,此时拥有最多颜色筹码的玩家获胜,赢家平分价值为“1”的筹码,其他玩家平分价值为“0”的筹码。

研究发现,玩家往往表现得很自私,他们囤积筹码以至于出现了三方平局。但事实上,如果两名玩家交换筹码,回报会更好。DeepMind将这种过程阐述为:尽管合作能带来更好的结果,但人人都想从欺骗行为中获利,也就是说服对方交换然后食言。

这也就是说,如果有一种机制能维护合作行为存在,那强化学习可以适应这种博弈。这种机制就是合同——在游戏中,每个玩家必须提交一份报价,首先选择合作伙伴,然后为该合作伙伴提出行动建议,最后玩家承诺采取的行动。如果两个玩家提供了相同的契约,那么这些契约就具有了约束力,也就是说环境强制执行了所承诺的操作。

这种强制性机制是合作形成的基础。

这种模型能让我们在更广阔的应用环境中思考契约的作用。一个没有强制实施机制的契约系统如果可以在多方动态博弈中持续运行将最终产生一个有价值的反馈回路,这将使得AI的应用走向社会学和经济学。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6257

    浏览量

    111941
  • AI
    AI
    +关注

    关注

    91

    文章

    40922

    浏览量

    302511
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    哈萨比斯 3:带领DeepMind实现技术反超,重回AI 牌桌

    AI
    江苏易安联
    发布于 :2026年04月14日 11:40:36

    江苏省镇江市分布光伏接入电网容量发布,安科瑞助力投资主体效益最大化

    实现绿电效益最大化。安科瑞产品咨询:15000363176 江苏镇江分布式光伏接入电网开放容量明细: 一、精准监测与实时预警:为并网运行装上“千里眼” 可开放容量公告中高达36.13%的配变倒送电比例,折射出分布式光伏项目普遍面临“自
    的头像 发表于 04-10 14:46 566次阅读
    江苏省镇江市分布光伏接入电网容量发布,安科瑞助力投资主体效益<b class='flag-5'>最大化</b>

    微电网经济调度理论:成本最小化与效益最大化的优化模型

    与效益最大化的具体量化指标;约束条件是模型的运行底线,确保调度方案的可行性与安全性;优化变量是模型的调控对象,决定了调度方案的实施路径。
    的头像 发表于 03-12 11:05 203次阅读
    微电网经济调度理论:成本最小化与效益<b class='flag-5'>最大化</b>的优化模型

    告别逆流罚款!西格电力防逆流方案,让光伏并网零风险、收益最大化

    合规性的管控愈发严格,违规逆流不仅面临经济处罚,还可能影响项目并网资格。西格电力防逆流柔性控制方案,精准对标政策要求,从源头破解痛点,实现光伏并网零合规风险、发电收益最大化的双重目标。
    的头像 发表于 01-27 16:23 1924次阅读
    告别逆流罚款!西格电力防逆流方案,让光伏并网零风险、收益<b class='flag-5'>最大化</b>

    谷歌评论卡,碰一碰即可完成谷歌评论 #谷歌评论卡 #NFC标签 #nfc卡

    谷歌
    深圳市融智兴科技有限公司
    发布于 :2026年01月15日 17:02:00

    FPG推出CheckMax,以AI洞察助力餐饮业利润最大化

    -FPG推出CheckMax,Frontline Performance Group推出CheckMax,以AI洞察助力餐饮业利润最大化 更高利润、更优服务:CheckMax直击餐厅头号经营挑战
    的头像 发表于 12-10 19:02 1136次阅读
    FPG推出CheckMax,以<b class='flag-5'>AI</b>洞察助力餐饮业利润<b class='flag-5'>最大化</b>

    聚飞光电PLM系统升级推动IPD全流程价值最大化落地

    研发全流程的规范化管控与高效协同,为产品创新提速、市场响应提质注入核心动力,推动IPD全流程价值最大化落地。
    的头像 发表于 12-05 09:55 1003次阅读
    聚飞光电PLM系统升级推动IPD全流程价值<b class='flag-5'>最大化</b>落地

    提升PLC数据采集效率:性能瓶颈分析与实践

    面对“越快越好”的PLC数据采集需求,如何准确评估设备能力瓶颈?又该如何突破极限,实现采集速度的最大化?本文将系统探讨如何科学评估PLC的数据采集能力极限,并在此基础上,提供一系列旨在最大化采集速度
    的头像 发表于 11-26 11:33 492次阅读
    提升PLC数据采集效率:性能瓶颈分析与实践

    谷歌AlphaEarth和维智时空AI大模型的核心差异

    谷歌AlphaEarth和维智时空AI大模型在技术理念上存在诸多共性,但两者在目标尺度、数据来源、技术实现和应用模式上存在显著差异。
    的头像 发表于 10-22 14:50 1023次阅读

    谷歌AlphaEarth和维智时空AI大模型的技术路径

    谷歌AlphaEarth和维智时空AI大模型在应用场景和技术实现上各有侧重,但两者在底层技术理念上存在显著共性。
    的头像 发表于 10-22 14:48 1022次阅读

    天合光能解决方案如何助力光伏发电收益最大化

    近日,由天合光能携手全球权威光伏媒体PV Magazine举办的光伏技术研讨会于线上举行。围绕“电力市场化时代光伏资产价值最大化”这一主题,天合光能产品经理李子轩同观众分享了最新的产品技术与市场趋势
    的头像 发表于 10-22 11:36 1407次阅读
    天合光能解决方案如何助力光伏发电收益<b class='flag-5'>最大化</b>

    AI赋能6G与卫星通信:开启智能天网新时代

    个。 AI还能实现自适应调制,根据实时信道条件动态调整信号调制方式。当检测到信号干扰较大时,系统会自动切换到更稳健的调制方式;当信号质量良好时,则使用高效率的调制方式,最大化数据传输速率。 在2025
    发表于 10-11 16:01

    物流仓储系统中自动化设备与软件系统的高效协同策略

    自动化设备与软件系统的高效协同,能最大化释放仓储系统潜力,降低运营成本。随着物流需求升级,持续优化协同机制,将为仓储行业实现更柔性、更智能的发展提供有力支撑。
    的头像 发表于 08-18 11:10 627次阅读
    物流仓储系统中自动化设备与软件系统的高效协同策略

    谷歌DeepMind重磅发布Genie 3,首次实现世界模型实时交互

    电子发烧友网综合报道 当地时间2025年8月5日,谷歌DeepMind正式推出第三代通用世界模型Genie3。这款被英伟达科学家Jim Fan誉为“游戏引擎2.0”的模型,通过单文本提示即可生成实时
    的头像 发表于 08-13 08:27 7154次阅读

    借助DFT技术实现竞争力最大化

    通过改进和优化设计与制造的各个方面,半导体行业已经能够实现 IC 能力的巨大进步。可测试性设计 (DFT)——涵盖从在 RTL 中插入测试逻辑,到对现场退回产品进行失效分析等全流程,是半导体企业获得
    的头像 发表于 05-22 15:16 1098次阅读