0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

适合初学者的神经网络理论到实践(3):打破概念束缚:什么是强化学习?

电子设计 来源:电子设计 作者:电子设计 2020-12-10 19:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

专栏中《零神经网络实战》系列持续更新介绍神经元怎么工作,最后使用python从0到1不调用任何依赖神经网络框架(不使用tensorflow等框架)来实现神经网络,梯度下降、反向传播、卷积神经网络CNN、循环神经网络RNN。从0基础角度进行神经网络实战。本篇为第三篇。
作者:司南牧

Alpha Zero就是利用强化学习打败柯洁。可以说强化学习是我觉得目前最可以叫做智能的算法。因为不需要数据就能自己总结出经验,这符合人的学习方式。

注意:强化学习有很多概念,不要一开始被这些概念束缚了。首先得知道强化学习大致是什么,再看这些概念就会恍然大悟。 本文的思路就是先介绍我对强化学习的理解。然后介绍强化学习中的一些概念。最后是强化学习实践。

打破概念束缚:强化学习是个啥?

答:强化学习就是受到动物从生活中学习技能的思想启发的一种智能算法;那么怎么启发的呢?动物学习技能的过程就是不断尝试各种行为,最后总结经验,然后以后遇到相同情况直接用以往的经验就可以。强化学习就是这么做的。“不断猜测,检验,再猜测,再检验,直到找到达成目标的经验”这个过程就是强化学习。它学习的经验叫做模型。学习到了这些经验后以后就不用猜测了,直接用经验就可以。强化学习“学到”的经验是什么:“在某个状态下,做哪个行为,得到的奖励最大”,经验这是一个列表是一本教科书。

总结:强化学习的输出结果是找到解决某个问题的经验。强化学习的过程是不断乱尝试,并记录所处的状态和行为,找到某个状态下奖励最大的行为。

为何要用强化学习?( 知道为什么才是打破概念束缚的关键)

答:因为智能体不知道哪些行为可以产生奖励,也不知道什么时候会来奖励。这些经验都是要从环境中学习所得到。

似懂非懂?没关系有个模糊的是那么回事的印象就可以。看下面的例子就懂了。

举个例子:在高中生物书上有个“巴甫洛夫的狗”这个实验。 就是巴甫洛夫每次给它狗喂食的时候都会摇铃铛,然后这条狗慢慢学到了“摇铃铛=有东西吃”这个经验。然后学到这个经验后,只要“摇铃铛”它就会流口水。强化学习就是受到这种启发而发明的算法。
从“巴甫洛夫的狗”看强化学习几个概念

强化学习思想很简单,7个词够了:

智能体、目标、环境、观察、状态、行动、奖励

不要慌。接下来用例子来解释着7个东西是什么。 我们用“巴甫洛夫的狗”这个实验解释下这强化学习这个六个要素。

智能体。首先这条狗它是一个智能体(Agent)。

目标。它的目标(Goal)是吃饭。

环境。环境就是字面意思,它在的这个地方发生的一切都属于环境里面的东西。

观察。然后,它各种看和听什么现象和食物相关。这个过程叫做观察。

状态。观察到的内容叫做状态(state)。这里的状态是:有没有饭吃、有没有人说话、有没有脚步声、有没有铃声。

行为。然后它根据这些观察会作出一些动作,如:“摇尾巴,流口水等等”。这个叫做行为(action)。行为是根据观察到内容(状态)而作出的。 这里可能的行为是(前半部分是状态,后半部分是行为):

听到脚步声——摇尾巴

听到铃声——流口水

听到脚步声——流口水

看到天黑了——汪汪汪叫

7.奖励。在这里,奖励是作出的行为有没有饭吃。

听到脚步声——摇尾巴——没饭吃

听到铃声——流口水——有饭吃

听到脚步声——流口水——没饭吃

看到天黑了——汪汪汪叫——没饭吃


从“巴甫洛夫的狗”分析强化学习执行过程

现在,我想你隐隐约约应该看出动物怎么学习的了。就是“不断猜测,检验,再猜测,再检验”,检验唯一标准是有没有达成目标。

但是怎么理性科学的看待这个问题呢?答:“不断猜测,检验,再猜测,再检验,直到找到达成目标的经验”这个过程就是强化学习。它学习的经验叫做模型。学习到了这些经验后以后就不用猜测了,直接用经验就可以。强化学习“学到”的经验是什么:“在某个状态下,做哪个行为,得到的奖励最大”,这是一个列表清单。

为何“狗”要不断尝试呢?

因为它不知道哪些行为可以产生奖励,也不知道什么时候会来奖励。这些都是要从环境中学习所得到。


审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49785

    浏览量

    261932
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11910
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NMSIS神经网络库使用介绍

    (q7_t) 和 16 位整数 (q15_t)。 卷积神经网络示例: 本示例中使用的 CNN 基于来自 Caffe 的 CIFAR-10 示例。神经网络3 个卷积层组成,中间散布着 ReLU
    发表于 10-29 06:08

    学习物联网怎么入门?

    的相关书籍和视频进行学习。也可以通过参加线下班、工作坊和实践活动来学习。不同的学习方式适合不同的人群,
    发表于 10-14 10:34

    【「# ROS 2智能机器人开发实践」阅读体验】机器人入门的引路书

    的非常好的,特别是一些流程图,很清晰的阐释了概念适合作为初学者入门的引路书 还能了解很多技术和框架,破除初学者的自负困境,让初学者知道功
    发表于 04-30 01:05

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理
    的头像 发表于 04-23 13:22 1350次阅读
    18个常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的<b class='flag-5'>理论</b>技术与代码实现

    12V开关电源制作_适合初学者制作的TOP22X系列开关电源

    TOP22X系列虽然出来得比较早,但外围简单、高效,适合初学者制作。图下面的是量产的真实数据。变压器都是PC40材质。同样适合100KHZ的其它芯片驱动的单端反激式开关电源 需要完整版资料可下载附件查看哦!
    发表于 04-02 14:39

    电子设备EMC测试整改:从理论到实践的跨越

    深圳南柯电子|电子设备EMC测试整改:从理论到实践的跨越
    的头像 发表于 02-20 14:46 978次阅读
    电子设备EMC测试整改:从<b class='flag-5'>理论到</b><b class='flag-5'>实践</b>的跨越

    BP神经网络与卷积神经网络的比较

    BP神经网络与卷积神经网络在多个方面存在显著差异,以下是对两者的比较: 一、结构特点 BP神经网络 : BP神经网络是一种多层的前馈神经网络
    的头像 发表于 02-12 15:53 1383次阅读

    如何优化BP神经网络学习

    优化BP神经网络学习率是提高模型训练效率和性能的关键步骤。以下是一些优化BP神经网络学习率的方法: 一、理解学习率的重要性
    的头像 发表于 02-12 15:51 1468次阅读

    BP神经网络的优缺点分析

    BP神经网络(Back Propagation Neural Network)作为一种常用的机器学习模型,具有显著的优点,同时也存在一些不容忽视的缺点。以下是对BP神经网络优缺点的分析: 优点
    的头像 发表于 02-12 15:36 1632次阅读

    什么是BP神经网络的反向传播算法

    神经网络(即反向传播神经网络)的核心,它建立在梯度下降法的基础上,是一种适合于多层神经元网络学习算法。该算法通过计算每层
    的头像 发表于 02-12 15:18 1323次阅读

    BP神经网络与深度学习的关系

    BP神经网络与深度学习之间存在着密切的关系,以下是对它们之间关系的介绍: 一、BP神经网络的基本概念 BP神经网络,即反向传播
    的头像 发表于 02-12 15:15 1385次阅读

    深度学习入门:简单神经网络的构建与实现

    深度学习中,神经网络是核心模型。今天我们用 Python 和 NumPy 构建一个简单的神经网络神经网络由多个神经元组成,
    的头像 发表于 01-23 13:52 861次阅读

    神经网络理论研究的物理学思想介绍

    本文主要介绍神经网络理论研究的物理学思想 神经网络在当今人工智能研究和应用中发挥着不可替代的作用。它是人类在理解自我(大脑)的过程中产生的副产品,以此副产品,人类希望建造一个机器智能来实现机器文明
    的头像 发表于 01-16 11:16 1335次阅读
    <b class='flag-5'>神经网络理论</b>研究的物理学思想介绍

    人工神经网络的原理和多种神经网络架构方法

    在上一篇文章中,我们介绍了传统机器学习的基础知识和多种算法。在本文中,我们会介绍人工神经网络的原理和多种神经网络架构方法,供各位老师选择。 01 人工神经网络   人工
    的头像 发表于 01-09 10:24 2300次阅读
    人工<b class='flag-5'>神经网络</b>的原理和多种<b class='flag-5'>神经网络</b>架构方法

    EE-269:以太网802.3初学者指南

    电子发烧友网站提供《EE-269:以太网802.3初学者指南.pdf》资料免费下载
    发表于 01-05 09:48 1次下载
    EE-269:以太网802.3<b class='flag-5'>初学者</b>指南