OpenAI公布MADDPG代码，让智能体学习合作、竞争和交流-电子发烧友网

智能体（agent）互相争夺资源的多智能体环境是通向强人工智能（AGI）的必经之路。多智能体环境具有两种优越的特质：首先，它具备自然的考验——环境的难易程度取决于竞争对手的技能（如果你正与自己的克隆体对抗，环境则完全符合你的技术水平）。其次，多智能体环境没有稳定的平衡，即无论一个智能体多么聪明，想变得更聪明总是有困难的。这种环境与传统模式有很大的不同，在达到目标之前需要进行更多研究。

OpenAI开发了一种名为MADDPG（Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments）的新算法，用于实现多智能体环境中的集中式学习和分散式执行，让智能体学习互相合作、互相竞争。

用MADDPG算法训练四个红色圆点追逐两个绿色圆点，红色圆点已经学会彼此合作追逐同一个绿色圆点，以获得更高的奖励。与此同时，绿色圆点学会了“分头行动”，其中一个被红点追逐，其他的则试图接近蓝色圆点获得奖励，同时避开红色圆点

MADDPG对强化学习算法DDPG进行扩展，从actor-critic（玩家-评委）强化学习技术中获得灵感；其他团队也正探索这些想法的变体和并行实现。

研究人员将模拟中的每个智能体看作“actor”（玩家），每个玩家从评委那里获得建议，让它们在训练过程中选择应该加强哪些动作的训练。在传统环境中，评委尝试预测在某一特定情况下一种动作的价值（即我们期待未来获得的奖励），从而让玩家更新策略。这种方法比直接使用奖励更稳定，奖励会导致较大的差异。为了能让智能体进行全局合作，研究者改进了评委，使它们能够访问智能体的观察和行动，如下图所示。

测试时，智能体无需具备中间的评委；它们根据观察以及对其他智能体行为的预测，做出动作。由于一个中心化的评委是为每个智能体独立学习的，这种方法也可以用来模拟多智能体之间的任意奖励结构，包括拥有相反奖励的对抗案例。

OpenAI研究者在多个任务上测试了他们的方法，结果均优于DDPG上的表现。在上图的动画中，从上至下可以看到：两个智能体试图前往特定位置，并且学习分散，向对手隐藏真实的目的地；一个智能体将位置信息传递给另一个智能体，其他三个智能体协调前往此处，并且不会碰撞。

使用MADDPG训练的红色圆点比用DDPG训练的智能体行为更复杂。在上面的动画中可以看到，用MADDPG技术训练的智能体和用DDPG训练的智能体都试图穿过绿色的圆圈追逐绿色的小圆点，同时不撞到黑色障碍物。新方法训练出来的智能体抓到的绿色圆点更多，也比用DDPG方法训练出的动作更协调。

传统强化学习的困境

传统的分散式强化学习方法，如DDPG、actor-critic学习、深度Q学习等，都难以在多智能体环境中学习，因为在每个时间段，每个智能体都要尝试学习预测其他智能体的行为，同时还要分析自己的行为。在竞争的情况下尤其如此。MADDPG采用集中的critic为智能体提供有关同类的观察和潜在行为的信息，将不可预测的环境转化为可预测环境。

使用梯度策略的方法会带来更多挑战：因为当奖励不一致时，这种方法所得到的结果差别很大。另外，在提高稳定性的同时，增加critic仍然不能解决一些环境问题，例如合作交流。这样看来在培训期间考虑其他智能体的行为对于学习协作策略是很重要的。

最初的研究

在开发MADDPG之前，当使用分散技术时，研究人员注意到如果speaker所发出的关于去哪里不一致的消息，那么listener常常会忽略speaker，智能体将把有关speaker的所有权中设置为0。一旦发生这种情况，就很难恢复训练，因为没有任何反馈，speaker永远不会知道自己所说是否正确。为了解决这个问题，他们研究了最近一个分层强化学习项目中所提到的技术，该技术可以让强制让listener在决策过程中考虑speaker的消息。这种修复方法并不奏效，因为它虽然强制listener关注speaker，但并不能帮助listener决定说出什么相关的内容。通过帮助speaker学习哪些信息可能与其他智能体的位置信息有关，集中式的critic方法有助于应对这些挑战。想了解更多结果，可点击视频观看：

下一步

智能体建模在人工智能的研究中已经有了丰富的成果，但之前的很多研究都只考虑了短时间内简单的游戏。深度学习能让我们处理复杂的视觉输入，强化学习为我们提供了长时间学习行为的工具。现在我们可以用这些功能一次性训练多个代理，而无需了解环境的变化（即环境在每个时间段发生的变化），我们可以解决更广泛的包括交流和语言的高维度信息，同时从环境的高维信息中学习。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26363

浏览量
263955

原文标题：OpenAI公布MADDPG代码，让智能体学习合作、竞争和交流

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

合作学习在Prtel 99 SE教学中的应用

中职学生由于文化素质不高、基础参差不齐,影响了他们对专业课的学习。笔者从分析合作学习的发展和特点入手,对合作学习在电子专业课《Prtel 99 SE》教学中的作用以及如何实施有效合作学习

发表于 05-13 09:06

云电云安“智能一体”领跑安防行业

　　随着安防逐渐IT化及国内安防厂商精工制造的崛起，产品的互联互通及产品的工业设计逐渐成为市场竞争的重头戏。2015年伊始，云电信息在市场提出“智能一体”的新主张，作为行业的领先者，在“智能

发表于 03-30 11:35

　　华为云深度学习服务，让企业智能从此不求人

　　近日，华为云发布了深度学习服务，要让企业智能从此不求人。那么企业云的深度学习服务有哪些能力，为什么能够做到让企业智能从此不求人呢。　　　

发表于 08-02 20:44

一种基于聚类和竞争克隆机制的多智能体免疫算法

包含分布式电源的配电网无功优化matlab源代码，代码按照高水平文章复现，保证正确，可先发您文章看是否满足您的要求利用分布式电源的无功补偿能力，提出了一种基于聚类和竞争克隆机制的多智能

发表于 12-29 06:50

OpenAI分析机器学习的进化策略

OpenAI总监Ilya Sutskever昨天在EmTech Digital大会上介绍了人工智能领域下一个可能的爆发点。OpenAI是一家独立研究机构，EmTech Digital是MIT

发表于 09-30 13:09 •0次下载

高明！OpenAI提出HER算法，人工智能可像人类一样认识错误汲取教训

OpenAI的研究人员集中精力于构建具有更强的学习能力的人工智能。得益于他们的增强学习系统OpenAI baselines，机器

发表于 05-01 16:35 •3930次阅读

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之间的交互。

发表于 11-02 16:18 •2.1w次阅读

OpenAI推出Spinning Up 旨在强化人工智能

近日，OpenAI宣布推出Spinning Up，一个旨在提供深度强化学习的项目。OpenAI以在虚拟环境中制作外观时髦的代理而闻名，这些代理能够学习如何独自行走，例如与华盛顿大学

发表于 11-13 09:46 •1805次阅读

OpenAI用强化学习训练机械手，新的OpenAI长什么样子？

「OpenAI 有限公司」的实际控制权将属于「OpenAI 非盈利」的董事会。以及，只有一小部分的董事会成员可以持有未来的 OpenAI 的股份，而且，当 OpenAI 有限公司的投资

发表于 03-14 09:59 •4236次阅读

OpenAI推出Jukebox机器学习框架，可自动生成音乐

近日，由诸多硅谷大亨联合建立的人工智能非营利组织OpenAI，推出了一款可自动生成音乐的机器学习框架Jukebox。

发表于 05-07 08:41 •2026次阅读

微软与OpenAI合作建立一个超级计算机

微软已经与OpenAI合作，建立一个超级计算机，用于测试大规模模型。

发表于 12-17 09:25 •2166次阅读

FPGA适合感兴趣的学习者学习可以提高自己的能力大家可以多交流哈人脸识别代码

FPGA适合感兴趣的学习者学习可以提高自己的能力大家可以多交流哈人脸识别代码(开关电源技术实验报告)-FPGA 人脸识别代码，适合感兴趣的

发表于 09-16 15:23 •9次下载

openai创始人是谁？openai是马斯克的吗？

）和埃隆·马斯克（Elon Musk）等人。早在2015年，或者也可能是在2014年，待考证，阿尔特曼联合特斯拉CEO马斯克、领英创始人霍夫曼、YC合伙人利文斯顿等人在加州共同创办了人工智能研究公司OpenAI

发表于 02-08 16:40 •8.2w次阅读

OpenAI CEO：没有兴趣进军智能手机领域，与苹果竞争

各据报道，OpenAI可能正在与其他科技巨头合作开发人工智能设备，包括与前苹果资深设计师Jony Ive和软银孙正义进行深入探讨，目的是打造一款全新的，共消费者使用的“人工智能”iPhone。

发表于 10-20 09:40 •230次阅读

OpenAI与多家媒体商谈内容授权，苹果也加入竞争

OpenAI负责人工智能专利和内容的高管表示，“我们正在与众多出版商进行积极且富有建设性的会谈，取得了良好进展，未来将会公布更多合作协定。”近期他们主要致力于与国际知名新闻机构开展对话

发表于 01-08 11:22 •166次阅读

搜索历史

OpenAI公布MADDPG代码，让智能体学习合作、竞争和交流

评论

合作学习在Prtel 99 SE教学中的应用

云电云安“智能一体”领跑安防行业

华为云深度学习服务，让企业智能从此不求人

一种基于聚类和竞争克隆机制的多智能体免疫算法

OpenAI分析机器学习的进化策略

高明！OpenAI提出HER算法，人工智能可像人类一样认识错误汲取教训

基于强化学习的MADDPG算法原理及实现

OpenAI推出Spinning Up 旨在强化人工智能

OpenAI用强化学习训练机械手，新的OpenAI长什么样子？

OpenAI推出Jukebox机器学习框架，可自动生成音乐

微软与OpenAI合作建立一个超级计算机

FPGA适合感兴趣的学习者学习可以提高自己的能力大家可以多交流哈人脸识别代码

openai创始人是谁？openai是马斯克的吗？

OpenAI CEO：没有兴趣进军智能手机领域，与苹果竞争

OpenAI与多家媒体商谈内容授权，苹果也加入竞争