0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于最近将深度强化学习应用于迷宫导航的研究

zhKF_jqr_AI 来源:未知 作者:李倩 2018-04-08 09:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在每个人的童年时期,我们是如何学会记住自己家附近的路的?我们是怎样学会自己去朋友家、学校或者去小卖部的?在没有地图的情况下,我们可能只是简单地记住了某条路长什么样,凭记忆引导自己。慢慢地,我们逐渐熟悉了自己的日常活动范围,就变得有信心了,能知道自己身在何处,并且学习了新的更复杂的道路。偶尔你可能会迷路,但是凭借某个标志甚至太阳你又能找到正确的路。

在非结构化的环境中导航是智能生物的特有的功能,想要实现远程导航,首先要对空间进行内部探索,然后要识别地标,同时还要有强大的视觉处理能力。基于最近将深度强化学习应用于迷宫导航的研究,DeepMind的研究人员也提出了一种端到端的深度强化学习方法,他们让智能体在真实的城市空间中导航,无需地图,并且这种方法还能迁移到不同城市环境。

导航是一项重要的认知任务,它能让人类和动物在没有地图的情况下,穿越过一片阡陌纵横的区域。这种远距离导航可以同时进行自我定位(我在这里)和目标表示(我要去那里)。

在Learning to Navigate in Cities Without a Map这篇论文里,我们展示了一种交互式导航环境,利用第一人称视角的谷歌街景照片做素材,将其游戏化以训练AI。标准的街景照片,人脸和车牌都被模糊,无法识别。我们建立了一个基于神经网络的智能体,学习使用视觉信息在多个城市中导航。注意,这项研究关注的是一般导航,而非驾驶导航;我们没有使用交通信息,也没有对车辆控制进行建模。

数据来源于真实街景。从左至右分别为纽约时代广场、中央公园和伦敦圣保罗大教堂

当智能体达到目的地时,它就会获得奖励(具体来说是一个经纬度坐标),就像一个没有地图的邮递员,要送无数的快递。随着时间的发展,智能体慢慢学会了用这种方法穿越整个城市。我们同样证明了智能体可以学习多个城市的道路,并且这种学习方法能有效迁移到新的城市中。

在没有地图的情况下学习导航

我们不使用传统的依赖外部映射和探索的传统方法,而是让智能体学习像人类一样导航,不用地图、GPS定位或其他辅助工具,只用视觉观察。我们创建了一个神经网络智能体,向其中输入在环境中观察到的图像,并预测它在该环境中执行的下一项操作。我们使用深度强化学习对其进行端到端训练,类似最近让智能体在复杂的3D迷宫中学习导航的研究,以及用无监督辅助方法玩游戏。与迷宫不同,我们利用真实的城市数据,例如伦敦、巴黎和纽约的复杂交叉路口、人行道、隧道和各种城市道路。此外,我们使用的方法可以迁移到不同城市,并可以优化导航行为。

模块化神经网络

我们智能体的神经网络包括三个部分:

能够处理图像并提取视觉特征的卷积网络;

一个特定场所的循环神经网络,在内部进行对环境的记忆并学习表示“这里”(智能体的当前位置)和“那里”(目标位置);

一个位置不变的循环网络,能够根据智能体位置的变化进行导航。

特定场所的模块被设计成可互换的,并且正如其名,对于每个城市都是唯一的,而视觉模块和策略模块是不随着场景而变换的。

就像谷歌街景的界面一样,智能体可以在原地打转,也可以向前进入到下一个场景。但与谷歌地图和街景不同的是,智能体看不到小箭头、局部或全景地图以及标志性的街景小人,它还需要学习区分开放道路和人行道。目的地可能是几公里以外的地方,智能体需要搜索几百个全景图才能到达。

我们证明了这种方法能提供一种机制,将导航知识迁移到新城市中。和人类一样,当智能体来到一个新城市,我们会希望它学习一组新的地标,但不必重新学习它的视觉表现或行为(例如,沿着街道向前缩放,或者在交叉路口转向)。因此,使用MultiCity架构,我们在许多城市进行首次训练,然后冻结策略网络和视觉卷积网络,并在一个新城市中建立唯一一个新的特定地区路径。这种方法让智能体在获取新知识的同时不忘之前学到的东西,类似渐进式神经网络架构。

学习导航是人工智能领域的基础,试图在智能体中复制导航功能还可以帮助科学家了解其生物学基础。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106897
  • 导航
    +关注

    关注

    7

    文章

    570

    浏览量

    43737
  • 人工智能
    +关注

    关注

    1813

    文章

    49785

    浏览量

    261932

原文标题:无需地图,DeepMind让智能体在城市中自我导航

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何训练好自动驾驶端到端模型?

    [首发于智驾最前沿微信公众号]最近有位小伙伴在后台留言提问:端到端算法是怎样训练的?是模仿学习强化学习和离线强化学习这三类吗?其实端到端(end-to-end)算法在自动驾驶、智能体
    的头像 发表于 12-08 16:31 1013次阅读
    如何训练好自动驾驶端到端模型?

    中国研究发布新型混合微电网系统

    该系统核心是管理能源的方法。团队采用调度框架,多目标分布鲁棒优化(DRO)与实时强化学习(RL)辅助机制结合。能源管理系统(EMS)是运行“大脑”,分布式响应系统(DRO)生成基准调度策略,强化学习(RL)模块实时调整控制信号
    的头像 发表于 11-27 17:05 442次阅读

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习方案,机器人
    发表于 11-05 09:44 922次阅读

    自动驾驶中常提的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 356次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习
    的头像 发表于 07-14 15:29 1912次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    思岚科技AI工业机器人开放底盘Phoebus P350全新发布:深度学习导航+300KG负载

    工业4.0时代,智能搬运的“底盘力”决定效率天花板。 SLAMTEC全新推出 Phoebus P350工业级机器人底盘 ,以 “开放AI架构+深度学习导航” 为核心,融合300KG超强负载、60cm
    的头像 发表于 05-12 11:33 806次阅读
    思岚科技AI工业机器人开放底盘Phoebus P350全新发布:<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>导航</b>+300KG负载

    上海光机所在基于深度时空先验的动态定量相位成像研究方面取得进展

    和PSNR曲线。 近期,中国科学院上海光学精密机械研究所空天激光技术与系统部研究团队提出了一种引入深度时空先验(STeP)的轻量级神经网络架构,无需训练集即可应用于动态物体的定量相位成
    的头像 发表于 04-27 06:23 507次阅读
    上海光机所在基于<b class='flag-5'>深度</b>时空先验的动态定量相位成像<b class='flag-5'>研究</b>方面取得进展

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 1350次阅读
    18个常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的理论技术与代码实现

    详解RAD端到端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 1047次阅读
    详解RAD端到端<b class='flag-5'>强化学习</b>后训练范式

    SLAMTEC Aurora:把深度学习“卷”进机器人日常

    在人工智能和机器人技术飞速发展的今天,深度学习与SLAM(同步定位与地图构建)技术的结合,正引领着智能机器人行业迈向新的高度。最近科技圈顶流DeepSeek简直杀疯了!靠着逆天的深度
    的头像 发表于 02-19 15:49 738次阅读

    军事应用中深度学习的挑战与机遇

    人工智能尤其是深度学习技术的最新进展,加速了不同应用领域的创新与发展。深度学习技术的发展深刻影响了军事发展趋势,导致战争形式和模式发生重大变化。本文
    的头像 发表于 02-14 11:15 836次阅读

    BP神经网络与深度学习的关系

    BP神经网络与深度学习之间存在着密切的关系,以下是对它们之间关系的介绍: 一、BP神经网络的基本概念 BP神经网络,即反向传播神经网络(Backpropagation Neural Network
    的头像 发表于 02-12 15:15 1385次阅读

    浅谈适用规模充电站的深度学习有序充电策略

    深度强化学习能够有效计及电动汽车出行模式和充电需求的不确定性,实现充电场站充电成本化的目标。通过对电动汽车泊车时间和充电需求特征进行提取,建立适用于大规模电动汽车有序充电的马尔可夫决策过程模型,并
    的头像 发表于 02-08 15:00 832次阅读
    浅谈适用规模充电站的<b class='flag-5'>深度</b><b class='flag-5'>学习</b>有序充电策略

    OpenAI发布深度研究智能体功能

    OpenAI的o3模型提供支持,通过端到端的强化学习训练,实现了高效、准确的研究能力。它能够在5-30分钟内完成一份专业报告,大大缩短了研究时间,提高了研究效率。 该功能由四个模块协同
    的头像 发表于 02-05 15:05 935次阅读

    【「具身智能机器人系统」阅读体验】+初品的体验

    ,逐渐学习并优化自己的行为,以更好地服务家庭成员。 目前,具身智能机器人在解决实际问题中已展现出巨大的潜力,例如它已应用于养老、医疗、灾害救援等领域。 尽管具身智能已取得了显著进展,但未来的研究还需要
    发表于 12-20 19:17