0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开辟新篇章!谷歌机器学习又有新进展!

DR2b_Aiobservat 来源:YXQ 2019-06-22 11:16 次阅读

在谷歌最新的论文中,研究人员提出了“非政策强化学习”算法OPC,它是强化学习的一种变体,它能够评估哪种机器学习模型将产生最好的结果。数据显示,OPC比基线机器学习算法有着显著的提高,更加稳健可靠。

在谷歌AI研究团队一篇新发表的论文《通过非政策分类进行非政策评估》(Off-PolicyEvaluation via Off-Policy Classification)和博客文章中,他们提出了所称的“非政策分类”,即OPC(off-policy classification)。它能够评估AI的表现,通过将评估视为一个分类问题来驱动代理性能。

研究人员认为他们的方法是强化学习的一种变体,它利用奖励来推动软件政策实现与图像输入协同工作这个目标,并扩展到包括基于视觉的机器人抓取在内的任务。

“完全脱离政策强化学习是一种变体。代理完全从旧数据中学习,对于工程师来说这是很有吸引力的,因为它可以在不需要物理机器人的情况下进行模型迭代。”

Robotics at Google(专注机器学的的谷歌新团队)的软件工程师Alexa Irpan写道,“完全脱离政策的RL,可以在先前代理收集的同一固定数据集上训练多个模型,然后选择出最佳的那个模型。”

但是OPC并不像听起来那么容易,正如Irpan在论文中所描述的,非政策性强化学习可以通过机器人进行人工智能模型培训,但不能进行评估。并且在需要评估大量模型的方法中,地面实况评估通常效率太低。

OPC在假设任务状态变化方面几乎没有随机性,同时假设代理在实验结束时用“成功或失败”来解决这个问题。两个假设中第二个假设的二元性质,允许为每个操作分配两个分类标签(“有效”表示成功或“灾难性”表示失败)。

另外,OPC还依赖Q函数(通过Q学习算法学习)来估计行为的未来总回报。代理商选择具有最大预期回报的行动,其绩效通过所选行动的有效频率来衡量(这取决于Q函数如何正确地将行动分类为有效与灾难性),并以分类准确性作为非政策评估分数。

(左图为基线,右图为建议的方法之一,SoftOpC)

谷歌AI团队使用完全非策略强化学习对机器学习策略进行了模拟培训,然后使用从以前的实际数据中列出的非策略分数对其进行评估。

在机器人抓取任务时,他们报告OPC的一种变体SoftOPC在预测最终成功率方面表现最佳。假设有15种模型(其中7种纯粹在模拟中训练)具有不同的稳健性,SoftOPC产生的分数与与真正的抓取成功密切相关,并且相比于基线方法更加稳定可靠。

在未来的研究中,研究人员打算用“噪声”(noisier)和非二进制动力学来探索机器学习任务。“我们认为这个结果有希望应用于许多现实世界的RL问题,”Irpan在论文结尾写道。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5800

    浏览量

    103141
  • 机器学习
    +关注

    关注

    66

    文章

    8061

    浏览量

    130439
收藏 人收藏

    评论

    相关推荐

    麦当劳中国携手微软,共创智能化新篇章

    麦当劳中国携手微软,共创智能化新篇章。双方宣布,微软将成为麦当劳在中国的首个智能化深度创新伙伴。基于微软全球智能云矩阵中的Azure云基础设施服务、Microsoft 365现代办公服务以及
    的头像 发表于 03-22 09:25 227次阅读

    首个鸿蒙生态创新中心在深揭幕,开启鸿蒙产业新篇章共绘鸿蒙原生应用开发新篇章

    首个鸿蒙生态创新中心在深揭幕 开启鸿蒙产业新篇章 2024年3月19日,鸿蒙生态创新中心揭幕仪式在深圳举行,标志着鸿蒙产业发展迈出新的坚实步伐。深圳市人民政府副秘书长黄强,华为终端BG首席运营官何刚
    发表于 03-20 09:55

    比亚迪匈牙利首批乘用车正式交付 成功开启中东欧市场崭新篇章

    2月23日,在匈牙利外交部部长西雅尔多·彼得与比亚迪集团董事长兼总裁王传福的共同见证下,比亚迪向匈牙利首批车主成功交付了BYD ATTO 3(元PLUS),标志着比亚迪成功开启了中东欧市场的崭新篇章
    的头像 发表于 02-25 09:32 536次阅读

    联想AI PC新品与Agent个人助理“小乐同学”亮相,品牌营销新篇章开启

    2024年是AI PC元年,犹如一幅时代画卷,描绘着生成式AI等尖端人工智能技术与个人电脑的深刻融合,勾勒出一场前所未有的技术革命。联想一直以来不断突破自我,致力于技术创新,推动科技进步,2024年将继续携手人工智能,开启全新篇章
    的头像 发表于 01-20 11:41 844次阅读

    两家企业有关LED项目的最新进展

    近日,乾富半导体与英创力两家企业有关LED项目传来最新进展
    的头像 发表于 01-15 13:37 293次阅读

    优必选开创人形机器人产业的新篇章

    优必选科技,这家在人形机器人研发与制造领域享有盛誉的中国企业,于2023年12月29日正式在香港联合交易所挂牌上市。这一里程碑式的成就,不仅彰显了其卓越的研发实力和市场口碑,而且成功开创了人形机器人产业的新篇章,缔造出人形
    的头像 发表于 01-03 18:17 732次阅读

    国星光电LED器件封装及其应用产品项目最新进展

    近日,国星光电LED器件封装及其应用产品项目传来新进展
    的头像 发表于 11-03 14:19 423次阅读

    续写新篇章!德珑集团总部及高端制造基地开工仪式成功举行

    续写新篇章!德珑集团总部及高端制造基地项目开工仪式典礼在佛山南海区顺利举行,磁性元器件行业高端制造领域再添新军。
    的头像 发表于 10-24 10:53 561次阅读

    VisionFive 2 AOSP最新进展即将发布!

    非常开心地在这里和大家提前预告,我们即将发布VisionFive 2 集成 AOSP的最新进展!请大家多多期待吧~ 此次通过众多社区成员的支持和贡献(https://github.com
    发表于 10-08 09:15

    开启深度视觉新篇章,知芯传感MEMS结构光投射模组助力工业智造!

    今天,好消息传来:MEMS器件国产化替代的践行者知芯传感,推出了最新开发的产品——MEMS结构光投射模组!这一模组的推出,将有助于解决工业自动化和协作机器人需求上升之后,市场对深度成像技术要求,并提升深度相机的普适性。国纳科技酱认为,这必将开启深度视觉新篇章,助力中国工业
    的头像 发表于 09-09 14:38 811次阅读

    三大MLED项目“动起来” Mini LED项目传来最新进展

    日前,博敏电子与穿越光电等企业有关Mini LED的项目传来最新进展
    的头像 发表于 08-14 14:15 1029次阅读

    华为开发者大会2023丨软通动力&鸿湖万联邀您共同见证鸿蒙生态新篇章

    原文标题:华为开发者大会2023丨软通动力&鸿湖万联邀您共同见证鸿蒙生态新篇章 文章出处:【微信公众号:软通动力】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 07-31 17:35 521次阅读

    ASML***的最新进展

    、与 Mike在SEMICON 上的一些讨论以及 ASML 最近的财报电话会议中的一些内容。以分享了ASML光刻机的最新进展
    的头像 发表于 07-30 10:39 1770次阅读
    ASML***的最<b class='flag-5'>新进展</b>

    清华大学在超快激光微纳制造领域获得新进展

    近日,清华大学机械系在超快激光微纳制造领域获得新进展,提出了基于超快激光等离激元分子调节实现自下而上的微纳功能器件加工制造策略,并揭示了激光诱导等离激元与材料的非线性作用机理,利用超快激光激发纳米腔等离激元效应
    的头像 发表于 05-31 14:38 542次阅读
    清华大学在超快激光微纳制造领域获得<b class='flag-5'>新进展</b>

    中国科大在多频率微波传感领域取得新进展

    近日,中国科学技术大学郭光灿院士团队在多频率微波传感领域取得新进展。教授史保森、丁冬生课题组利用人工智能的方法,实现了基于里德堡原子多频率微波的精密探测。相关成果4月14日发表于《自然-通讯》。图为
    的头像 发表于 04-06 14:33 311次阅读
    中国科大在多频率微波传感领域取得<b class='flag-5'>新进展</b>