0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能的强化学习要点

汽车玩家 来源:今日头条 作者:闻数起舞 2020-05-04 18:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

了解强化学习的要点!

强化学习(RL)是现代人工智能领域中最热门的研究主题之一,其普及度还在不断增长。 让我们看一下开始学习RL需要了解的5件事。

1.什么是强化学习? 与其他机器学习技术相比有何不同?

强化学习(RL)是一种机器学习技术,使代理能够使用自身行为和经验的反馈,通过反复试验,在交互式环境中学习。

人工智能的强化学习要点

尽管监督学习和强化学习都使用输入和输出之间的映射,但不同于监督学习,后者提供给代理的反馈是执行任务的正确动作集,而强化学习则将奖惩作为正面和负面行为的信号

与无监督学习相比,强化学习在目标方面有所不同。 无监督学习的目标是发现数据点之间的相似点和差异,而在强化学习的情况下,目标是找到合适的行为模型,以最大化代理的总累积奖励。 下图说明了通用RL模型的动作奖励反馈回路。

人工智能的强化学习要点

2.如何制定基本的强化学习问题?

描述RL问题基本要素的一些关键术语是:

环境-代理在其中运行的物理世界

状态—代理的现状

奖励-来自环境的反馈

策略-将代理状态映射到操作的方法

价值-代理在特定状态下采取的行动将获得的未来奖励

RL问题可以通过游戏来最好地解释。 让我们以吃豆人的游戏为例,代理人(PacMan)的目标是在网格中吃食物,同时避免途中出现鬼魂。 在这种情况下,网格世界是代理所作用的交互式环境。 如果特工被幽灵杀死(输掉了游戏),代理会得到食物和惩罚的奖励。 状态是代理在网格世界中的位置,总累积奖励是赢得比赛的代理。

人工智能的强化学习要点

为了建立最佳政策,代理面临探索新状态的困境,同时又要最大化其整体回报。 这称为"探索与利用"的权衡。 为了平衡两者,最佳的整体策略可能涉及短期牺牲。 因此,代理应收集足够的信息,以便将来做出最佳的总体决策。

马尔可夫决策过程(MDP)是描述RL环境的数学框架,几乎所有RL问题都可以使用MDP来表述。 一个MDP由一组有限的环境状态S,在每个状态下的一组可能的动作A,一个实值奖励函数R和一个过渡模型P(s',s | a)组成。 但是,现实环境更可能缺少任何有关环境动力学的先验知识。 在这种情况下,无模型RL方法非常方便。

Q学习是一种常用的无模型方法,可用于构建自播放的PacMan代理。 它围绕更新Q值的概念展开,Q值表示在状态s中执行动作a的值。 以下值更新规则是Q学习算法的核心。

人工智能的强化学习要点

3.什么是最常用的强化学习算法?

Q学习和SARSA(状态行动-奖励状态行动)是两种常用的无模型RL算法。 它们的探索策略不同,而利用策略却相似。 Q学习是一种非策略方法,其中代理根据从另一个策略得出的操作a *学习值,而SARSA是一种策略上方法,在其中根据其当前操作a从当前策略得出的值来学习值。 政策。 这两种方法易于实现,但缺乏通用性,因为它们无法估计未见状态的值。

可以通过更高级的算法(例如使用神经网络来估计Q值的深度Q网络(DQN))来克服这一问题。 但是DQN只能处理离散的低维动作空间。

深度确定性策略梯度(DDPG)是一种无模型,脱离策略,对执行者敏感的算法,它通过在高维连续动作空间中学习策略来解决此问题。 下图是评论体系结构的表示。

人工智能的强化学习要点

4.强化学习的实际应用是什么?

由于RL需要大量数据,因此最适用于容易获得模拟数据(例如游戏性,机器人技术)的领域。

RL被广泛用于构建用于玩计算机游戏的AI。 AlphaGo Zero是第一个在古代中国的围棋游戏中击败世界冠军的计算机程序。 其他包括ATARI游戏,西洋双陆棋等

在机器人技术和工业自动化中,RL用于使机器人能够为其自身创建高效的自适应控制系统,该系统可以从自身的经验和行为中学习。 DeepMind的"通过异步策略更新进行机器人操纵的深度强化学习"就是一个很好的例子。 观看这个有趣的演示视频。

RL的其他应用包括抽象文本摘要引擎,对话代理(文本,语音),这些代理可以从用户的交互中学习并随着时间的流逝而改善,学习医疗保健中的最佳治疗策略,以及用于在线股票交易的基于RL的代理。

5.我如何开始进行强化学习?

为了理解RL的基本概念,可以参考以下资源。

《强化学习-入门》,是强化学习之父的一本书-理查德·萨顿(Richard Sutton)和他的博士生导师安德鲁·巴托(Andrew Barto)。 这本书的在线草稿可以在这里找到。

David Silver的教学材料(包括视频讲座)是有关RL的入门课程。

Pieter Abbeel和John Schulman(开放式AI /伯克利AI研究实验室)的另一本有关RL的技术教程。

对于开始构建和测试RL代理,以下资源可能会有所帮助。

博客介绍了如何使用来自原始像素的Policy Gradients训练神经网络ATARI Pong代理,Andrej Karpathy将帮助您在130行Python代码中启动并运行您的第一个Deep Reinforcement Learning代理。

·DeepMind Lab是一个类似于开放源代码的3D游戏平台,用于具有丰富模拟环境的基于代理的AI研究。

马尔默项目是另一个支持AI基础研究的AI实验平台。

OpenAI Gym是用于构建和比较强化学习算法的工具包。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49742

    浏览量

    261575
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11905
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习方案,机器人
    发表于 11-05 09:44 905次阅读

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能体在环境里行动,它能观察到环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,强化学习没有一
    的头像 发表于 10-23 09:00 329次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    沐曦助力上海创智学院siiRL 2.0全面升级

    人工智能加速迈向大模型与智能体时代的今天,强化学习(Reinforcement Learning,RL)已经成为推动智能系统演化的关键技术。
    的头像 发表于 09-29 11:38 566次阅读
    沐曦助力上海创智学院siiRL 2.0全面升级

    人工智能+”行动重磅发布!ElfBoard助力嵌入式教育智能化升级

    、民生福祉、治理能力、全球合作等6大重点行动,强化8项基础支撑能力,推动人工智能与经济社会各行业各领域广泛深度融合。一、“人工智能+”行动的总体蓝图《意见》提出分三
    的头像 发表于 08-30 16:07 6122次阅读
    “<b class='flag-5'>人工智能</b>+”行动重磅发布!ElfBoard助力嵌入式教育<b class='flag-5'>智能</b>化升级

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:23

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍
    发表于 07-31 11:38

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型正在工作生活
    发表于 07-04 11:10

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 1313次阅读
    18个常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的理论技术与代码实现

    详解RAD端到端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 1023次阅读
    详解RAD端到端<b class='flag-5'>强化学习</b>后训练范式

    数学专业转人工智能方向:考研/就业前景分析及大学四年学习路径全揭秘

    随着AI技术的不断进步,专业人才的需求也日益增长。数学作为AI的基石,为机器学习、深度学习、数据分析等提供了理论基础和工具,因此越来越多的数学专业学生开始考虑在人工智能领域发展。本文主要是为数学专业
    的头像 发表于 02-07 11:14 1702次阅读
    数学专业转<b class='flag-5'>人工智能</b>方向:考研/就业前景分析及大学四年<b class='flag-5'>学习</b>路径全揭秘

    人工智能和机器学习以及Edge AI的概念与应用

    人工智能相关各种技术的概念介绍,以及先进的Edge AI(边缘人工智能)的最新发展与相关应用。 人工智能和机器学习是现代科技的核心技术 人工智能
    的头像 发表于 01-25 17:37 1581次阅读
    <b class='flag-5'>人工智能</b>和机器<b class='flag-5'>学习</b>以及Edge AI的概念与应用

    人工智能推理及神经处理的未来

    人工智能行业所围绕的是一个受技术进步、社会需求和监管政策影响的动态环境。机器学习、自然语言处理和计算机视觉方面的技术进步,加速了人工智能的发展和应用。包括医疗保健、金融和制造业在内的各个行业对自动化
    的头像 发表于 12-23 11:18 871次阅读
    <b class='flag-5'>人工智能</b>推理及神经处理的未来

    【「具身智能机器人系统」阅读体验】+初品的体验

    动态互动的。 该理论强调智能行为源于智能体的物理存在和行为能力,智能体必须具备感知环境并在其中执行任务的能力。具身智能的实现涵盖了机器学习
    发表于 12-20 19:17

    什么是嵌入式人工智能

    。嵌入式人工智能的目标是使嵌入式系统具备智能化的感知、分析和响应能力,从而实现自主决策、自适应学习智能交互等功能,以提高系统的性能、效率和用户体验.
    的头像 发表于 12-11 09:23 1520次阅读
    什么是嵌入式<b class='flag-5'>人工智能</b>