0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能体如何应对训练中故意碰瓷儿的“弱”对手呢?

倩倩 来源:大数据文摘 2020-01-02 15:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人们通常会派出最强大的选手和场景训练人工智能,但是,智能体如何应对训练中故意碰瓷儿的“弱”对手呢?

来看看下边的两个场景:两个AI智能体正在“训练场“进行一场激烈的足球赛,一个守门、一个射门。当守门员忽然自己摔倒,攻方没有选择乘胜追击,也忽然不知所措了起来。

在相扑的规则下也一样,当其中一个队员开始不按套路出牌时,另一个对手也乱作一团,双方立刻开始毫无规则扭打在一起。

这样“人工智障”的场景可不是随意配置的游戏,而是一项对AI对抗训练的研究。

我们知道,通常情况下,智能体都是通过相互对抗来训练的,无论是下围棋的阿法狗还是玩星际争霸的AlphaStar,都是通过海量的对局来训练自己的模型,从而探索出获胜之道。

但是试想一下,如果给阿法狗的训练数据都是围棋小白乱下的对局,给AlphaStar提供的是小学生局,结果会是如何?

近期,来自伯克利的研究人员就进行了这样的实验。红色机器人与已经是专家级别的蓝色机器人进行对抗训练,红色机器人采取一定的对抗策略攻击蓝色机器人进行的深度学习。这项研究的论文作者也在NIPS大会上对该研究进行了展示。

论文链接:

https://arxiv.org/pdf/1905.10615.pdf

在实验中,红色机器人为了不让蓝色机器人继续从对抗中学习,没有按照应有的方式玩游戏,而是开始“乱舞”起来,结果,蓝色机器人开始玩得很糟糕,像喝醉了的海盗一样来回摇晃,输掉的游戏数量是正常情况下的两倍。

研究发现,在采取对抗性政策的对局中,获胜不是努力成为一般意义上的强者,而是采取迷惑对手的行动。研究人员通过对对手行为的定性观察来验证这一点,并发现当被欺骗的AI在对对手视而不见时,其表现会有所改善。

我们都知道,让人工智能变得更聪明的一个方法是让它从环境中学习,例如,未来的自动驾驶可能比人类更善于识别街道标志和避开行人,因为它们可以通过海量的视频获得更多的经验。

但是如果有人利用这一方式进行研究中所示的“对抗性攻击” ——通过巧妙而精确地修改图像,那么你就可以愚弄人工智能,让它对图像产生错误的理解。例如,在一个停车标志上贴上几个贴纸可能被视为限速标志,同时这项新的研究也表明,人工智能不仅会被愚弄,看到不该看到的东西,还会以不该看到的方式行事。

这给基于深度学习的人工智能应用敲响了一个警钟,这种对抗性的攻击可能会给自动驾驶、金融交易或产品推荐系统带来现实问题。

论文指出,在这些安全关键型的系统中,像这样的攻击最受关注,标准做法是验证模型,然后冻结它,以确保部署的模型不会因再训练而产生任何新问题。

因此,这项研究中的攻击行为也真实地反映了在现实环境中,例如在自动驾驶车辆中看到的深度学习训练策略,此外,即使被攻击目标使用持续学习,也会有针对固定攻击目标进行训练的策略,攻击者可以对目标使用模拟学习来生成攻击模型。

或者,在自动驾驶车辆,攻击者可以通过购买系统的副本并定期在工厂重置它,一旦针对目标训练出了敌对策略,攻击者就可以将此策略传输到目标,并利用它直到攻击成功为止。

研究也对今后的工作提出了一些方向:深度学习策略容易受到攻击,这突出了有效防御的必要性,因此在系统激活时可以使用密度模型检测到可能的对抗性攻击,在这种情况下,还可以及时退回到保守策略。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    214

    文章

    31701

    浏览量

    224694
  • 智能体
    +关注

    关注

    1

    文章

    632

    浏览量

    11667
  • 深度学习
    +关注

    关注

    73

    文章

    5614

    浏览量

    124824
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    宗申命名“”智界和问界!三轮车龙头的电动化转型焦虑

    旗下高端汽车品牌“智界”“问界”高度重合,引发舆论质疑“营销”。尽管宗申迅速发布致歉声明,承诺整改命名并加强审核,但这场风波背后,折射出传统三轮车企业向新能源转型的迫切需求,也暴露出市场竞争白热化的现实。   三轮车龙头
    的头像 发表于 07-12 00:14 1.1w次阅读

    行业洞察__数字孪生IOC的智能体协同:演进路径与工程选型

    周期运营缺乏弹性。很多方案只谈可视化不谈闭环,我觉得这有点自欺欺人。大家心里都清楚,如果IOC不能真正参与到业务的执行与优化,它就只是一个昂贵的“面子工程”。 从静态镜像到动态智能
    发表于 05-22 10:46

    行业洞察篇__智慧城市数字孪生IOC的“智能时刻”:从数据汇聚到自主决策的路径选择

    “认知”能力,而不仅仅是“感知”能力。这种转变的核心,就是把大模型驱动的智能嵌入到IOC的架构,让它能解析自然语言指令、检索知识库、调用仿真模型进行快速推演,最终输出可执行的指挥方案。在我看来,这才
    发表于 05-14 09:58

    AI智能的Skills是什么?

    在AI 智能(AI Agent) 里,Skills(技能) 可以简单理解为:智能可以调用的、完成具体任务的 “能力模块” 或 “工具函数”。
    的头像 发表于 03-18 16:19 8000次阅读
    AI<b class='flag-5'>智能</b><b class='flag-5'>体</b><b class='flag-5'>中</b>的Skills是什么?

    艺开放平台鸿蒙智能版本管理

    智能的版本管理功能,包括查看、回退到历史版本。版本记录包括智能上下架及撤回审核时的版本。 查看历史版本 点击
    发表于 02-27 19:18

    欢迎使用中国香河英茂科工豆包智能

    中国香河英茂科工 - 豆包智能 创建分身,分两种:AI智能分身(替你干活) 和数字人分身(替你出镜),零基础也能快速上手。 ? 一、AI智能分身(替你思考/干活) 适合:一人公司、客
    发表于 02-14 07:22

    鸿蒙智能上/下架、升级流程介绍

    先完成检查清单待完成项后方可发起。 上下架操作&权限管控: 方式1:开发者可通过智能编排页面内右上角【上架】/【升级】按钮发起审核。 方式2:开发者可通过【工作空间】-【智能
    发表于 02-10 10:38

    开发智能调试与预览---真机测试

    重新启动小艺,在对话列表中看到“开发”标签的智能。 4、发布真机测试后,智能的开发态15天内有效(即端侧可见“开发
    发表于 02-09 15:37

    开发智能配置-内容合规

    智能上架前,需完成“人工智能生成合成内容标识”和“大模型备案信息”填写 ,以供平台审核;可在智能【配置】-【内容合规】
    发表于 02-07 11:44

    开发智能配置-隐私协议服务

    1.已有描述隐私政策和用户隐私权利的隐私网址:在智能【配置】-【隐私协议服务】页面,隐私声明处选择“自定义隐私政策”,在隐私政策网址中直接填写隐私网址。 2.没有自定义隐私网址,平台提供了隐私
    发表于 02-03 15:54

    小艺开放平台鸿蒙智能开发智能配置-基础信息

    创建智能后,开发者可以进入智能配置页面对智能基础信息进行编辑。支持编辑
    发表于 02-02 16:47

    小艺智能调试与预览---真机测试

    重新启动小艺,在对话列表中看到“开发”标签的智能。 4、发布真机测试后,智能的开发态15天内有效(即端侧可见“开发
    发表于 01-28 14:16

    智能强化学习(MARL)核心概念与算法概览

    训练单个RL智能的过程非常简单,那么我们现在换一个场景,同时训练五个智能,而且每个都有自己的
    的头像 发表于 01-21 16:21 414次阅读
    多<b class='flag-5'>智能</b><b class='flag-5'>体</b>强化学习(MARL)核心概念与算法概览

    小艺开放平台快速创建鸿蒙智能

    1.登录小艺开放平台,进入小艺智能平台页面,点击立即体验,进入创建页面。 2.点击左上角【+创建智能】按钮,即可进入智能
    发表于 01-19 11:00

    NFC“”,让交互更便捷

    作为新一代智能应用入口,融智兴科技推出的NFC“”产品,以“轻触即连、无感体验”的优势,为企业和用户带来全新的交互方式。
    的头像 发表于 09-26 17:11 3101次阅读
    NFC“<b class='flag-5'>碰</b>一<b class='flag-5'>碰</b>”,让交互更便捷