基于最近将深度强化学习应用于迷宫导航的研究-电子发烧友网

在每个人的童年时期，我们是如何学会记住自己家附近的路的？我们是怎样学会自己去朋友家、学校或者去小卖部的？在没有地图的情况下，我们可能只是简单地记住了某条路长什么样，凭记忆引导自己。慢慢地，我们逐渐熟悉了自己的日常活动范围，就变得有信心了，能知道自己身在何处，并且学习了新的更复杂的道路。偶尔你可能会迷路，但是凭借某个标志甚至太阳你又能找到正确的路。

在非结构化的环境中导航是智能生物的特有的功能，想要实现远程导航，首先要对空间进行内部探索，然后要识别地标，同时还要有强大的视觉处理能力。基于最近将深度强化学习应用于迷宫导航的研究，DeepMind的研究人员也提出了一种端到端的深度强化学习方法，他们让智能体在真实的城市空间中导航，无需地图，并且这种方法还能迁移到不同城市环境。

导航是一项重要的认知任务，它能让人类和动物在没有地图的情况下，穿越过一片阡陌纵横的区域。这种远距离导航可以同时进行自我定位（我在这里）和目标表示（我要去那里）。

在Learning to Navigate in Cities Without a Map这篇论文里，我们展示了一种交互式导航环境，利用第一人称视角的谷歌街景照片做素材，将其游戏化以训练AI。标准的街景照片，人脸和车牌都被模糊，无法识别。我们建立了一个基于神经网络的智能体，学习使用视觉信息在多个城市中导航。注意，这项研究关注的是一般导航，而非驾驶导航；我们没有使用交通信息，也没有对车辆控制进行建模。

数据来源于真实街景。从左至右分别为纽约时代广场、中央公园和伦敦圣保罗大教堂

当智能体达到目的地时，它就会获得奖励（具体来说是一个经纬度坐标），就像一个没有地图的邮递员，要送无数的快递。随着时间的发展，智能体慢慢学会了用这种方法穿越整个城市。我们同样证明了智能体可以学习多个城市的道路，并且这种学习方法能有效迁移到新的城市中。

在没有地图的情况下学习导航

我们不使用传统的依赖外部映射和探索的传统方法，而是让智能体学习像人类一样导航，不用地图、GPS定位或其他辅助工具，只用视觉观察。我们创建了一个神经网络智能体，向其中输入在环境中观察到的图像，并预测它在该环境中执行的下一项操作。我们使用深度强化学习对其进行端到端训练，类似最近让智能体在复杂的3D迷宫中学习导航的研究，以及用无监督辅助方法玩游戏。与迷宫不同，我们利用真实的城市数据，例如伦敦、巴黎和纽约的复杂交叉路口、人行道、隧道和各种城市道路。此外，我们使用的方法可以迁移到不同城市，并可以优化导航行为。

模块化神经网络

我们智能体的神经网络包括三个部分：

能够处理图像并提取视觉特征的卷积网络；

一个特定场所的循环神经网络，在内部进行对环境的记忆并学习表示“这里”（智能体的当前位置）和“那里”（目标位置）；

一个位置不变的循环网络，能够根据智能体位置的变化进行导航。

特定场所的模块被设计成可互换的，并且正如其名，对于每个城市都是唯一的，而视觉模块和策略模块是不随着场景而变换的。

就像谷歌街景的界面一样，智能体可以在原地打转，也可以向前进入到下一个场景。但与谷歌地图和街景不同的是，智能体看不到小箭头、局部或全景地图以及标志性的街景小人，它还需要学习区分开放道路和人行道。目的地可能是几公里以外的地方，智能体需要搜索几百个全景图才能到达。

我们证明了这种方法能提供一种机制，将导航知识迁移到新城市中。和人类一样，当智能体来到一个新城市，我们会希望它学习一组新的地标，但不必重新学习它的视觉表现或行为（例如，沿着街道向前缩放，或者在交叉路口转向）。因此，使用MultiCity架构，我们在许多城市进行首次训练，然后冻结策略网络和视觉卷积网络，并在一个新城市中建立唯一一个新的特定地区路径。这种方法让智能体在获取新知识的同时不忘之前学到的东西，类似渐进式神经网络架构。

学习导航是人工智能领域的基础，试图在智能体中复制导航功能还可以帮助科学家了解其生物学基础。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4562

浏览量
98645
导航

导航

+关注

关注
7

文章
502

浏览量
41470
人工智能

人工智能

+关注

关注
1775

文章
43715

浏览量
230489

原文标题：无需地图，DeepMind让智能体在城市中自我导航

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

FPGA在深度学习应用中或将取代GPU

对神经网络进行任何更改，也不需要学习任何新工具。不过你可以保留你的 GPU 用于训练。” Zebra 提供了将深度学习代码转换为 FPGA

发表于 03-21 15:19

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《

发表于 10-30 11:36 •1523次阅读

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题

发表于 10-02 10:45 •444次阅读

NeurIPS 2023 | 扩散模型解决多任务<b class='flag-5'>强化学习</b>问题

智能轮椅导航定位的研究现状及趋势

人的正常生活中去,是社会关注的主要问题之一。智能轮椅又称轮椅式移动机器人,具有记忆地图,避障.自动行走、与用户交互及为用户提供特殊服务等功能,可以为行动不便人群提供帮助。智能轮椅将智能机器人技术应用于

发表于 09-25 07:13

模拟矩阵在深度强化学习智能控制系统中的应用

讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵，来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果，从而优化控制策略和提

发表于 09-04 14:26 •324次阅读

模拟矩阵在<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>智能控制系统中的应用

什么是深度强化学习？深度强化学习在自动驾驶领域的应用

最近，人工智能领域最火的莫过于大模型了。

发表于 07-24 10:37 •1156次阅读

什么是<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>？<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>在自动驾驶领域的应用

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与

发表于 07-19 14:35 •0次下载

45. 5 2 强化学习（深度强化学习） #硬声创作季

机器学习

充八万
发布于 :2023年07月07日 01:56:26

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1180次阅读

人工智能强化学习开源分享

电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载

发表于 06-20 09:27 •1次下载

傅里叶变换如何用于深度学习领域

到另一个域的数学方法，它也可以应用于深度学习。本文将讨论傅里叶变换，以及如何将其用于深度学习领

发表于 06-14 10:01 •783次阅读

基于深度强化学习的视觉反馈机械臂抓取系统

机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序，可以有效的提升生产效率，本文针对机械臂的抓取摆放、抓取堆叠等常见任务，结合深度强化学习及视觉反馈，采用AprilTag视觉标签、后视经验回放机制

发表于 06-12 11:25 •1367次阅读

ICLR 2023 Spotlight｜节省95%训练开销，清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

，可以节省至多 95% 的训练开销。深度强化学习模型的训练通常需要很高的计算成本，因此对深度强化学习模型进行稀疏化处理具有加快训练速度和拓展模型部署的巨大潜力。然而现有的生成小型模

发表于 06-11 21:40 •389次阅读

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习。

发表于 06-09 09:23 •366次阅读

基于深度学习的散射成像研究进展

卷积神经网络（CNN）是一种用于对目标进行重建、分类等处理的深度学习方法。自2016年深度学习被首次应用

发表于 05-24 09:51 •190次阅读