谷歌DeepMind设置强迫机制使AI实现利益最大化-电子发烧友网

最近谷歌DeepMind提出了一种新的强化学习技术，这种技术以一种全新方式来模拟人类行为。它可能会比之前发布的人工智能决策系统更强大，这对希望通过自动化提高生产率的企业来说可能是个福音。

如何解决多方零和博弈中的合作困境？

DeepMind用强化学习使AI实现利益最大化。这是一种基于对等契约机制的经济竞争模型，该模型允许在多方博弈中结盟。这篇论文其中一位作者表示，这种结盟有单打独斗不具有的特殊优势。

长期以来，零和游戏以其丰富的策略选择空间和清晰的策略评估方式指导着人工智能研究。更重要的是这种竞争广泛存在于生物界、市场经济甚至是AlphaZero中。

DeepMind科学家首先寻求数学定义形成联盟的挑战，关注联盟形成多玩家零和游戏——也就是说，数学表示的情况下，每个参与者的收益或损失的效用是完全平衡的损失或收益的其他参与者的效用。

什么是多方零和博弈？

DeepMind将之定义为每个玩家的收益或损失完全由其余玩家的损失或收益提供。在一个对称多方零和博弈中，每个玩家的行为模式都是一样的，这往往会产生社会困境。（一个极简例子是“囚徒困境”）

零和博弈引入了合作后事情变得很复杂。紧急情况下，团队必须内部协调才能有效地在游戏中竞争。合作形成的过程本身就是一个社会困境——从直觉上看，玩家应该合作来击败其他人，但合作团队内部要求个体为更广泛的利益做出妥协，但这种牺牲未必和他们的自身利益一致。此外，决定加入或离开哪个团队以及团队策略都是重要问题。

DeepMind尝试了一种“礼物游戏”，在游戏中，AI扮演的玩家从一堆标记着自己代表色的数字筹码开始。在每个玩家的回合中，他们必须拿出自己对应颜色的筹码并将其赠送给另一名玩家，或将其弃置。全部玩家都失去自己对应颜色的数字筹码时游戏结束，此时拥有最多颜色筹码的玩家获胜，赢家平分价值为“1”的筹码，其他玩家平分价值为“0”的筹码。

研究发现，玩家往往表现得很自私，他们囤积筹码以至于出现了三方平局。但事实上，如果两名玩家交换筹码，回报会更好。DeepMind将这种过程阐述为：尽管合作能带来更好的结果，但人人都想从欺骗行为中获利，也就是说服对方交换然后食言。

这也就是说，如果有一种机制能维护合作行为存在，那强化学习可以适应这种博弈。这种机制就是合同——在游戏中，每个玩家必须提交一份报价，首先选择合作伙伴，然后为该合作伙伴提出行动建议，最后玩家承诺采取的行动。如果两个玩家提供了相同的契约，那么这些契约就具有了约束力，也就是说环境强制执行了所承诺的操作。

这种强制性机制是合作形成的基础。

这种模型能让我们在更广阔的应用环境中思考契约的作用。一个没有强制实施机制的契约系统如果可以在多方动态博弈中持续运行将最终产生一个有价值的反馈回路，这将使得AI的应用走向社会学和经济学。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉