0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AlphaGo首席研究员谈强化学习十大黄金法则!

DPVg_AI_era 来源:未知 作者:李倩 2018-09-17 08:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出了强化学习中要注意的10大要点。一起来看看,也许能少走点弯路。

近日,在南非斯泰伦博斯举行的Deep Learning Indaba活动上,谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在主题演讲中归纳出强化学习中要注意的10大要点。

活动主办方将Dave Silver演讲的PPT截图和文字要点发在了推特上,引发了广泛讨论。

Silver的演讲中提出的强化学习10大要点涵盖涉及算法评估、状态控制、建模函数等方面的心得和建议,非常值得开发者机器学习爱好者参考学习。一起看看他是怎么说的吧!

1、在评估中产生进步

客观、量化的估计会产生进步,对评估尺度的选择会决定进步的方向。这可能是项目推进过程中做出的最重要的决定。

目标驱动型研究:确认评估标准与最终目标密切相关。避免主观评估

假设驱动型研究:提出假设,在宽泛的条件下验证假设,与相似结果对比,而不是与最先进的结果对比。重要的是对结果的理解,而不是追求排名。

2、算法的可扩展性决定是否成功

算法的可扩展性是指其性能随资源的梯度变化。这里的资源可能是计算、存储和数据。算法的可扩展性决定了能否项目能否成功,它几乎永远比算法的起点重要。最终,好的算法总是无限资源条件下的最优解决方案。

3、稳定算法的通用性

算法通用性是指算法在不同深度学习环境下的表现。应避免对当前任务的过拟合。积极寻求可以适用于未来未知环境下的算法。

结论:要广泛验证,建立现实的机器学习环境。

4、 信任智能体的经验

经验(包括观察、动作、奖励)是指深度学习的数据。信任这些经验,将其作为唯一知识来源。尽管这些经验看上去不可学习,但最终长期来看,经验终将取得成功。

5、状态是主观的

智能体应该基于经验建立自身的状态,智能体的状态是关于其先前状态和新观察数据的函数。任何时候不要定义某一环境下的“真实”状态。

6、控制数据流

智能体处于大量数据流传感器环境中,智能体的行为会对数据流造成影响。

控制特征——控制数据流——控制未来——实现任何回报的最大化。

7、价值函数可以对世界建模

价值函数是对未来的高效归纳和缓存。多关注固定时间段的查找,而非指数级的前瞻。可以独立计算和学习。利用多价值函数可以在不同时间范围内,对世界各个方面进行高效建模。

应避免使用原始的时间步长对世界进行建模。

8、从想象的经验中进行学习

想象接下来会发生什么,从想象的经验中进行学习,同时关注在当前时刻的值函数估计。

9、加强函数逼近器

差异化网络架构是一种有力工具,可以用来:以丰富的方式表示状态,实现差异化存储、差异化规划、层级控制。

将算法的复杂性融入网络架构,可以降低算法的复杂度,增加网络架构的可表达性。

10、要学习“如何学习”

人工智能的发展史呈现出一条清晰的发展脉络。

第一代:“美好的”老式人工智能。手动控制预测,不学习任何内容。

第二代:浅度学习。手动控制特征,学习预测。

第三代:深度学习。手动控制算法(优化器、目标、架构),学习特征和端对端预测。

第四代:Meta学习。无手动环节,学习算法、特征和端对端预测。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6245

    浏览量

    110271
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11905
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12137

原文标题:AlphaGo首席研究员亲授!十张PPT,十大强化学习黄金法则!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中国研究发布新型混合微电网系统

    该系统核心是管理能源的方法。团队采用调度框架,将多目标分布鲁棒优化(DRO)与实时强化学习(RL)辅助机制结合。能源管理系统(EMS)是运行“大脑”,分布式响应系统(DRO)生成基准调度策略,强化学习(RL)模块实时调整控制信号,让系统适应环境。该
    的头像 发表于 11-27 17:05 407次阅读

    MCU主频与低功耗设计黄金法则

    快速完成然后深度睡眠”策略:这是低功耗设计的黄金法则。 1、让MCU在尽可能高的、能效比合理的频率下运行,最快速度完成任务。 2、完成任务后,立即进入尽可能深的低功耗模式 (如 Stop
    发表于 11-18 07:48

    AI资讯:前DeepSeek研究员罗福莉已加入小米 英伟达一夜蒸发超万亿元

    给大家带来一些最新的AI业界新闻: 前DeepSeek研究员罗福莉已加入小米 此前一直传言称雷军以千万年薪招揽DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉,现在
    的头像 发表于 11-12 17:02 931次阅读

    巴西研究团队推进钠离子电池电解质计算研究

    圣卡洛斯化学研究所博士后研究员、论文通讯作者Tuanan da Costa Lourenço表示:“这项工作的主要目的是评估增加基于质子型离子液体的电解质及其含有非质子型离子液体的类似物中钠盐
    的头像 发表于 11-12 16:19 103次阅读
    巴西<b class='flag-5'>研究</b>团队推进钠离子电池电解质计算<b class='flag-5'>研究</b>

    2025百度十大科技前沿发明亮相

    从大模型、深度学习框架到智能体、数字人、无人驾驶等AI技术突破,今年发布的十大科技前沿发明涵盖了人工智能算力、框架、模型、场景应用全栈技术体系。
    的头像 发表于 11-05 15:42 359次阅读

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习
    发表于 11-05 09:44 905次阅读

    自动驾驶中常提的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 333次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    2025人工智能十大趋势

    在2025世界人工智能大会·腾讯论坛上,腾讯研究院联合腾讯优图实验室、腾讯云智能、腾讯科技联合发布了《共生伙伴:2025人工智能十大趋势》报告。基于腾讯研究院多位研究员对全球技术、产业
    的头像 发表于 08-05 11:42 4988次阅读
    2025人工智能<b class='flag-5'>十大</b>趋势

    中国信通院发布“2025云计算十大关键词”

    日前,中国信通院正式发布“2025云计算十大关键词”,中国信通院云计算与大数据研究所所长何宝宏对“2025云计算十大关键词”进行了解读。十大关键词分别是:超大规模智算集群、大模型推理云
    的头像 发表于 07-30 10:53 2859次阅读
    中国信通院发布“2025云计算<b class='flag-5'>十大</b>关键词”

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有机器
    的头像 发表于 07-14 15:29 1840次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    中国科学院西安光机所在计算成像可解释性深度学习重建方法取得进展

    Computational Visual Media(简称CMVJ,IF:17.3),该期刊影响因子位居JCR计算机学科软件工程类期刊首位。西安光机所李宝鹏高级工程师为论文第一作者,西安光机所马彩文研究员和西安交通大学谢琦副教授为共同通信作者。西安光机所樊学武研究员、赵惠
    的头像 发表于 06-09 09:27 515次阅读
    中国科学院西安光机所在计算成像可解释性深度<b class='flag-5'>学习</b>重建方法取得进展

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 1316次阅读
    18个常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的理论技术与代码实现

    详解RAD端到端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 1024次阅读
    详解RAD端到端<b class='flag-5'>强化学习</b>后训练范式

    年度电解槽十大品牌+年度制氢十大供应商,稳石氢能荣获两大奖项!

    此前,2024年10月16日,由国能网与国能能源研究院联合举办的第九届新能源行业品牌盛典(GPBC)圆满召开,稳石氢能荣获2024年度·氢能行业品牌榜“年度电解槽十大品牌”与“年度制氢十大供应商”两大奖项!
    的头像 发表于 01-24 14:53 1504次阅读

    华为发布2025智能光伏十大趋势

    华为数字能源以“融合创新,智构未来,加速光伏成为主力能源”为主题,举办2025智能光伏十大趋势发布会。华为数字能源智能光伏产品线总裁周涛发布了智能光伏十大趋势和重磅白皮书,为光储产业的高质量发展提供前瞻性支持。
    的头像 发表于 01-06 17:12 1303次阅读