0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种避免碰撞的算法—GA3C-CADRL分析

ml8z_IV_Technol 来源:未知 作者:李倩 2018-05-11 10:38 次阅读

一般来说,在行人间行进的智能体在进行导航时,需要能够对当前的环境做出相应的观察,以避免碰撞,进行下一步动作。在本文中,麻省理工学院航空航天控制实验室的Michael Everett和 Jonathan P. How教授,以及Oculus Research的Yu Fan Chen教授,提出一种新型避免碰撞的算法—GA3C-CADRL,通过深度强化学习进行模拟训练,而不需要智能体对其他智能体的动态行为有所了解,并通过在网络的输入端使用LSTM,使得算法能够依据对相邻智能体的观察结果来做出决策,进而选择下一个动作。

一般来说,在行人之间进行导航的机器人是使用避免碰撞算法(collision avoidance algorithms)来实现安全且高效的操作的。在最近的一些研究中,提出了将深度强化学习算法作为对复杂的交互和协作进行建模的框架。然而,当环境中智能体的数量增加时,该操作的实现是通过对其他智能体偏离现实的行为的关键性假设来实现的。这项研究对我们以往的研究方法进行了扩展,开发出一种算法,该算法可以在各种类型的动态智能体中学习避免碰撞,而不必假设它们遵循任何特定的行为规则。此外,这项研究还引入了一种使用长短期记忆网络(LSTM)的策略,该策略使得算法能够使用任意数量的其他智能体的观测值,而不是像以往那些需要具有固定观测值大小的方法。当智能体的数量增加时,我们所提出的算法在模拟中的性能表现要优于我们以往的方法,并且该算法是在一个没有使用3D激光雷达的、以人类行走速度行驶的全自动机器车辆上运行得以证明的。

可以这样说,在行人之间进行导航的机器人将能够观察到许多人类行为,例如合作或遗忘。行人不仅能够移动障碍物,而且还可以不断地做出机器人只能部分观察的决策。这项研究解决了在存在其他决策智能体的世界中运行的智能体所面对的避免碰撞问题,特别是考虑到机器人—行人领域。分散式避免碰撞算法的一个基本问题是:智能体所知道和假定的其他智能体的信念状态、策略和意图是什么?如果没有智能体之间的沟通,这些属性不是可以直接进行衡量的,但它们可以通过推理得到。

图1:机器人在行人之间进行导航。机器人使用机载传感器来感知环境并运行避免碰撞算法以保持安全和有效的操作。

智能体对其他智能体行为的假设将会影响其决定采取何种行动。在最简单的情况下,智能体假设其他智能体是静态的,并且足够快地进行重新规划以避免碰撞。另一种方法是,假定其他智能体是动态障碍,但速度保持不变。此外,智能体可以假定其智能体是决策制定者,其中,它们的速度可能会随时根据已知或未知的策略(决策规则)进行改变。即使机器人知道行人的决策规则,但因为其他智能体的意图是未知的(例如目标目的地),所以也不可能完全预测其他非沟通的决策智能体(例如行人)将如何响应智能体所作出的决策。因此,与其试图明确预测其他智能体的行为,最近的研究方法已经使用强化学习(RL)来对智能体之间复杂的相互作用和协作进行建模。

图2:LSTM展开以显示每个输入。在每个决策步骤中,智能体将一个可观察的状态向量,即每个附近的智能体,依次送入LSTM单元。LSTM单元将相关信息存储在隐藏状态中,hi。 最终隐藏状态hn,将其他智能体的整个状态编码成固定长度的向量,然后馈送到网络的前馈部分。智能体的顺序是通过减少到自我智能体的距离来进行排序的,以便最近的智能体对hn有近因效应(recent effect)。

虽然基于学习的方法已被证明在这个领域内具有良好的性能表现,但现有方法对其他智能体,如同质性或短时间尺度上的特定运动模型做了细微的假设。在这项研究中,我们对以往的研究方法进行了扩展以学习避免碰撞策略,而不假设其他智能体遵循任何特定的行为模型。

图3:网络架构。附近智能体的的可观察状态被按顺序馈送到LSTM中。

避免碰撞的另一项关键挑战是环境中其他智能体的数量有所不同,而在这一领域中使用的前馈神经网络需要固定维度的输入。现有的策略明确了网络可观察到的智能体的最大数量,或使用原始传感器数据作为输入。本次研究采用自然语言处理的思想,通过在网络输入端使用长短期记忆网路(LSTM)单元,将现实世界中不同的大小状态(例如:其他智能体的位置)编码成固定长度的向量。这使得该算法可以根据机器人周围任意数量的智能体,来做出相应的决策。

本次研究的主要贡献在于:

•我们对避免碰撞的算法做了扩展,使其不必假定其他智能体的行为。

•我们提出了一种策略,使得算法能够利用任意数量智能体的观察结果。

•我们通过模拟结果证明了新框架的优点。

•在不使用3D激光雷达的情况下,通过在行人间运行的机器人进行了算法演示。

目前,该软件已经作为开源ROS软件包cadrl_ros发布。

图4:机器人硬件。这款紧凑、低成本(<1000美元)的感测套件使用单个2D激光雷达和3个Intel RealSense R200摄像头。总传感器和计算组件的高度小于3英寸,为货物留出足够的空间。

本次研究提出了一种避免碰撞的算法—GA3C-CADRL,该算法仅通过深度强化学习进行模拟训练,而不需要对其他智能体的动态有所了解。此外,我们还提出了一种策略,通过在网络的输入端使用LSTM,使得算法能够依据对任意数量的相邻智能体的观察结果来做出决策进而选择下一个动作。随着环境中智能体数量的增加,新方法的性能将优于现有方法。研究结果表明,该算法能够在不被明确执行(explicity enforced)的情况下学习问题结构,并支持使用LSTM将大量智能体在现实世界中的状态编码为固定长度的表征。新算法在一个小型真实机器人上成功运行,该机器人在不使用3D激光雷达的情况下,可以在保持人类行走速度的同时,在行人之间进行导航。今后的研究将利用本文全新的、更为通用的公式,借助智能体的行为选择,更为明确地研究信号意图所带来的影响。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    27012

    浏览量

    201355
  • 算法
    +关注

    关注

    23

    文章

    4451

    浏览量

    90743
  • 导航
    +关注

    关注

    7

    文章

    502

    浏览量

    41479
  • 激光雷达
    +关注

    关注

    961

    文章

    3642

    浏览量

    186619

原文标题:MIT提出使用「深度强化学习」帮助智能体在运动中做出「动作决策」

文章出处:【微信号:IV_Technology,微信公众号:智车科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    请问ST25RU3993-HPEV的自适应防碰撞算法是在板子上面实现的吗?

    请问ST25RU3993-HPEV的自适应防碰撞算法是在板子上面实现的?还是在STSW-ST25RU001上位机上面实现的?这个算法可否提供?STSW-ST25
    发表于 03-19 06:50

    AEB是一种汽车主动安全技术,主要由哪3大模块构成?

    AEB是一种汽车主动安全技术,主要由哪3大模块构成
    发表于 02-20 06:06

    【技术干货】PID算法原理分析及优化

    小编起来学习PID算法的原理分析及优化,快来get! 、PID原理 PID控制方法将偏差的比例(proportional)、积分(integral)、微分(derivative)通
    发表于 12-22 15:38

    RFID高频读写器防碰撞算法研究

    电子发烧友网站提供《RFID高频读写器防碰撞算法研究.pdf》资料免费下载
    发表于 10-26 09:09 1次下载
    RFID高频读写器防<b class='flag-5'>碰撞</b><b class='flag-5'>算法</b>研究

    常见的ARM架构分为两一种是M系列另外一种是A系列,这两有什么区别啊?

    现在市面上常见的ARM架构分为两一种是M系列另外一种是A系列,这两有什么区别啊,用的时候他们般分别用在什么地方啊。
    发表于 10-26 07:00

    C语言经典算法大全

    C语言经典算法,详细解析算法过程及算法思想,给读者具有启发意义,教程包含C语言大部分常用算法,仅
    发表于 10-07 08:16

    一种结构化道路环境中的视觉导航系统详解

    根据结构化道路环境的特点提出了一种将边沿检测和道路环境知识相结合的机器视觉算法 , 并结合基于行为响应的路径规划方法和智能预瞄控制方法 , 实现了套基本的机器人视觉导航系统 . 在自主机器人实验
    发表于 09-25 07:23

    基于STM8S003F3碰撞检测功能

    基于STM8S003F3碰撞检测功能
    发表于 09-25 06:56

    RFID技术和防冲撞算法分析

    论文详细介绍了 RFID 技术, 并针对 RFID 技术中不可避免碰撞问题进行分析。提出一种动态调整二进制搜索树防冲撞算法, 可以有效解决
    发表于 09-22 06:04

    一种脉冲信号载波频率同步环及FPGA实现

    对脉冲信号载波频率的同步问题,提出一种快速高精度的数字锁频环路。该环路采用改进的相位差分频率估计算法进行快速载波频率粗估计,其信噪比阚值低于Kay法,在信噪比偏低时也能达到Cramer-Rao界
    发表于 09-20 08:28

    请问ST25RU3993-HPEV的自适应防碰撞算法是在板子上面实现的吗?

    请问ST25RU3993-HPEV的自适应防碰撞算法是在板子上面实现的?还是在STSW-ST25RU001上位机上面实现的?这个算法可否提供?
    发表于 08-08 08:30

    自动驾驶 RRT算法原理解析

    RRT 算法一种对状态空间随机采样的算法,通过对采样点进行碰撞检测,避免了对空间的精确建模带来的大计算量,能够有效地解决高维空间和复杂约束
    发表于 07-28 15:45 1442次阅读
    自动驾驶 RRT<b class='flag-5'>算法</b>原理解析

    电商数据分析攻略,让你轻松搞定数据分析

    在当今的数字经济时代,运用大数据分析来促进业务增长已然成为一种普遍行为,拥有套系统化的数据分析方案尤为重要。奥威BI电商数据分析方案是
    发表于 06-27 09:22

    一种简单的报错设计,分享

    一种简单的报错设计,可在次基础上增加。 冲突 阻挡 重复 不在工位 不在岗 计时不准 范围外 强停 其它
    发表于 05-20 20:07

    GA-78LMT-S2电路图分析

    GA-78LMT-S2电路图分析
    发表于 05-06 18:06 9次下载