0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个使用传统DAS和深度强化学习融合的自动驾驶框架

ml8z_IV_Technol 来源:未知 作者:李倩 2018-06-14 09:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

增强学习是最近几年中机器学习领域的最新进展。增强学习依靠与环境交互学习,在相应的观测中采取最优行为。行为的好坏可以通过环境给予的奖励来确定。不同的环境有不同的观测和奖励。例如,驾驶中环境观测是摄像头和激光雷达采集到的周围环境的图像和点云,以及其他的传感器的输出,例如行驶速度、GPS定位、行驶方向。驾驶中的环境的奖励根据任务的不同,可以通过到达终点的速度、舒适度和安全性等指标确定。增强学习和传统机器学习的最大区别是增强学习是一个闭环学习的系统,增强学习算法选取的行为会直接影响到环境,进而影响到该算法之后从环境中得到的观测。

增强学习在无人驾驶中的应用

关于安全自主驾驶的研究可以分为两种方法:一是传统的感知,规划和控制框架,另一种是基于学习的方法。基于学习的方法可以成功处理在计算机视觉领域的高维特征(如卷积神经网络(CNN))而广受欢迎[5]-[7],强化学习算法可以最大化预期奖励的总和。有越来越多的研究开始将这两种技术结合,用于自动驾驶。对于车道保持,Rausch等人[8]提出了一种训练网络的方法,该方法直接根据从前置摄像头获得的图像预测转向角。结果表明,该神经网络可以通过从前置摄像头得到的原始图像,自动学习车道等特征,来训练车辆的车道保持的转向角度。 John等人[9]提出了混合框架,通过使用长短期记忆网络(LSTM)为每个场景计算适当的转向角。每个网络都会在特定道路场景的特定分区(如直线驾驶,右转弯和左转弯)中,对驾驶行为进行建模。在考虑多种驾驶场景时,它在多个驾驶序列中运行良好。 Al-Qizwini等人[10]提出了一种回归网络,预测驾驶的可利用状态,如前置摄像机图像中的交叉错误,航向误差和障碍物距离,而不是通过使用GoogLeNet直接从前摄像机图像预测转向角[11 ] 。转向角度,油门和制动都是使用基于if-else规则的算法计算出来的。

Sallab等[12]提出了一种在没有障碍物的情况下,使用DQN(Deep Q Network)和DDAC(Deep Deterministic Actor Critic)学习车道保持驾驶策略的方法。他们直接掌握转向,加速和减速,根据低维特征(如速度,轨道边界位置)最大限度地提高预期的未来回报。因此,使用可应用于连续作用的DDAC而非离散作用空间的DQN可以提高车道保持性能。 Zong等[13]提出了一种应用DDPG [14]来躲避障碍物,学习转向角和加速度值的方法。上述方法可以直接获得控制车辆所需的合适的转向角度、油门和制动量。然而,在这些情况下,每当车辆的参数改变时,最佳策略就会改变。因此存在很大限制,即为了最佳策略要不断进行学习。

本文提出了一个使用传统DAS和深度强化学习融合的自动驾驶框架。该框架在DAS功能(例如车道变换,巡航控制和车道保持等)下,以最大限度地提高平均速度和最少车道变化为规则,来确定超车次数。可行驶空间是根据行为水平定义的,利用驾驶策略可以学习车道保持,车道变更和巡航控制等行为。为了验证所提出的算法,该算法在密集交通状况的模拟中进行了测试,并证明了随着驾驶期间的学习进展,平均速度,超车次数和车道变换次数方面性能得到改善。

Deep Q Learning Based High Level Driving Policy Determination

Kyushik Min,

Hayoung Kim and Kunsoo Huh, Member, IEEE

作者Kyushik Min,韩国汉阳大学机器监测和控制实验室博士生,研究方向为高级驾驶辅助系统(ADAS)和自动驾驶。

项目概述

该项目为Tensorflow Korea 主办的2017济州学习营项目。使用传感器数据和相机图像作为DRL算法的输入。DRL算法根据输入决定行驶动作。如果行动可能导致危险情况,ADAS可以控制车辆以避免碰撞。

高层自动驾驶决策的实现

1.马尔科夫决策过程(MDP)

马尔可夫决策过程(MDP)是决策的数学框架,它由元组组成,其中状态集合S,行为集A,转换模型T,奖励函数R和折扣因子γ[15]。解决MDP问题的关键是找到一个策略,使给定的回报函数R的折扣回报期望总和最大化。然而,在最近的深度学习研究中,可以从大数据集有效地训练深度神经网络,并且可以通过使用从原始输入中获得的一些固定状态φ(St)而不是状态St来解决MDP 。事实上,深度神经网络在计算机视觉研究中,已经训练出比手工标记特征表现更好的算法。驾驶策略学习也是基于MDP进行的,在该MDP中,主车辆与周围的车辆和车道等环境相互作用。使用深度强化学习的优势可以更好的自主学习,从而为驾驶决策学习定义了观察状态S,行动空间A和奖励函数R。

2.感知

使用LIDAR传感器数据和相机图像数据构建感知状态。传感器配置的总覆盖范围可以在上图中看到。

障碍物距离可以从LIDAR传感器获得,也可以从前端摄像头中获得原始图像来辅助感知。由于激光雷达的距离数据和来自相机的图像数据具有完全不同的特点,因此本研究采用多模态输入方案。

3.行动

驾驶决策的行动空间是在离散行动空间中定义的。当我们利用传统DAS的优势时,这个系统的每个动作都可能激活对应的DAS功能。在纵向方向上,有三种动作:1.速度为V + Vcc的巡航控制,其中Vcc为额外目标速度,设定为5km / h,2.当前速度为V的巡航控制,3.速度为巡航控制 V - Vcc。这些纵向行动将触发自主紧急制动(AEB)和自适应巡航控制(ACC)。在横向方向上,还有三种动作:1.保持车道,2.将车道变到左侧,3.将车道变到右侧。由于自动驾驶车辆同时在纵向和横向两个方向上驾驶,我们定义了5个离散行为。(静止,加速,减速,车道改变到左侧,车道改变到右侧)

4.奖励

根据强化学习选择不同的行动,将收到行动结果的奖励。在MDP上解决的问题是找到一个能够最大化未来预期价值奖励的驱动策略。这意味着最佳驾驶策略可以完全不同,具体取决于奖励的设计方式。因此,设计适当的奖励机制对学习正确的驾驶策略非常重要。当车辆在密集的交通情况下行驶时,应该满足以下三个条件:1.找到使车辆高速行驶的策略,2.以无碰撞的轨迹行驶,3.不频繁地改变车道。 基于这三个条件来设计奖励机制。

用于决策学习的DEEP RL算法

DQN在强化学习和神经网络相结合的游戏领域取得巨大成功之后,对深度强化学习进行了各种研究[16]。尤其是,在基于DQN价值的深层强化学习[17] - [22]中进行了大量研究。在此项研究中,深层增强学习算法由DQN [1],Double DQN [17]和Dueling DQN [19]组合得到最近的算法模型,其中的算法参考了Human-level Control Through Deep Reinforcement Learning[1],Deep Reinforcement Learning with Double Q-Learning[17],Prioritized Experience Replay[18],Dueling Network Architecture for Deep Reinforcement Learning[19]四篇论文中的算法。

项目代码可以在Github上查找:

https://github.com/MLJejuCamp2017/DRL_based_SelfDrivingCarControl

下图为最终的DQN模型。

仿真模拟

本文使用的模拟器是由 Unity 和 Unity ML-Agents 构建的。模拟道路环境是由五车道组成的高速公路行车道。其他车辆在距离主车辆一定距离内的随机车道中心产生。另外,假定其他车辆在大多数情况下不会彼此碰撞,并且可以执行五个动作(加速,减速,车道改变到右车道,车道改变到左车道,保持当前状态)。其他车辆的各种行动以多种随机方式出现,改变了模拟环境,因此Agent 可以体验许多不同的情况。模拟器的观测结果有两种类型:一种是图像,另一种是激光雷达范围阵列。由于前面有摄像头,因此每一步都会观察到原始像素图像。 LIDAR传感器检测有一个360度的射线范围,如果光线扫描到物体,它会返回主车辆和物体之间的距离。如果没有障碍物,则返回模拟器每一步的最大感应距离。

结果与结论

本文提出的驾驶策略算法使用Tensorflow 架构[25]实现的,平均速度,车道变化次数和超车次数等数据都可以从中读出。为验证多输入体系结构的优势,该体系结构分别将来自摄像机和LIDAR的数据通过CNN和LSTM相结合,另外还使用了两个仅用摄像机输入和LIDAR输入的策略网络作为对比。

比较三种不同的不同输入的网络架构:摄像头,LIDAR,摄像头和激光雷达。随着训练的进行,自动驾驶车辆会超越更多的车辆并以更快的速度行驶,而不会在每个输入车辆的环境中,出现不必要的车道变化。结果显示,多输入架构在平均速度和平均超车次数方面表现出最佳性能,分别为73.54km / h和42.2。但是,当使用多输入架构时,车道变化的数量最多,其平均值为30.2。尽管所提出的算法的目标是减少不必要的车道变化的数量,但多输入架构的结果在车道变化的数量方面是最高的。对于LIDAR和摄像头架构中,即使前车速度较慢,它们有时也会显示跟随前方车辆而不更改车道。因此,研究车道变化的数量是寻找最优策略的关键。

在本文中,驾驶策略网络充分利用传统的DAS功能,在大多数情况下保证了车辆行驶的安全性。使用深度强化学习算法训练的自主车辆,在模拟高速公路场景中成功驾驶,所提出的策略网络使用多模式输入,不会造成不必要的车道变化,在平均速度,车道变化次数和超车次数方面,车辆比具有单输入的车辆更好地驾驶。这项研究的结果表明,自主车辆可以由受过深度强化学习训练的主管来控制。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • DAS
    DAS
    +关注

    关注

    1

    文章

    118

    浏览量

    32382
  • 自动驾驶
    +关注

    关注

    791

    文章

    14671

    浏览量

    176558
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11903

原文标题:IEEE IV 2018:基于深度增强学习的高层驾驶决策研究

文章出处:【微信号:IV_Technology,微信公众号:智车科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何训练好自动驾驶端到端模型?

    [首发于智驾最前沿微信公众号]最近有位小伙伴在后台留言提问:端到端算法是怎样训练的?是模仿学习强化学习和离线强化学习这三类吗?其实端到端(end-to-end)算法在自动驾驶、智能体
    的头像 发表于 12-08 16:31 426次阅读
    如何训练好<b class='flag-5'>自动驾驶</b>端到端模型?

    VLA能解决自动驾驶中的哪些问题?

    、语言表达和动作控制这三者整合到的模型框架中。 与传统自动驾驶系统将感知、预测、规划、控
    的头像 发表于 11-25 08:53 178次阅读
    VLA能解决<b class='flag-5'>自动驾驶</b>中的哪些问题?

    自动驾驶中常提的“强化学习”是啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习类让机器通过试错来学会做决策的技术。
    的头像 发表于 10-23 09:00 329次阅读
    <b class='flag-5'>自动驾驶</b>中常提的“<b class='flag-5'>强化学习</b>”是<b class='flag-5'>个</b>啥?

    自动驾驶仿真测试有什么具体要求?

    [首发于智驾最前沿微信公众号]在自动驾驶技术快速迭代、功能边界不断扩展的今天,如何系统、严谨且高效地验证自动驾驶系统的性能,成为研发、测试与监管共同面对的核心难题。相较于
    的头像 发表于 10-15 09:14 372次阅读
    <b class='flag-5'>自动驾驶</b>仿真测试有什么具体要求?

    自动驾驶中常提的ODD是啥?

    [首发于智驾最前沿微信公众号]在自动驾驶中,经常会听到概念,那就是ODD。所谓ODD,全称为Operational Design Domain,中文常译为“运行设计域”或者“作业域”。直观
    的头像 发表于 09-22 09:04 546次阅读
    <b class='flag-5'>自动驾驶</b>中常提的ODD是<b class='flag-5'>个</b>啥?

    端到端自动驾驶相较传统自动驾驶到底有何提升?

    [首发于智驾最前沿微信公众号]自动驾驶技术自诞生以来,便承载了人类对安全、高效、智能出行的美好憧憬。传统自动驾驶系统以层次化、模块化的架构为主,将感知、定位、规划与决策、控制四大核心功能分别拆解,由
    的头像 发表于 09-02 09:09 506次阅读
    端到端<b class='flag-5'>自动驾驶</b>相较<b class='flag-5'>传统</b><b class='flag-5'>自动驾驶</b>到底有何提升?

    自动驾驶中Transformer大模型会取代深度学习吗?

    持续讨论。特别是在自动驾驶领域,部分厂商开始尝试将多模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与
    的头像 发表于 08-13 09:15 3919次阅读
    <b class='flag-5'>自动驾驶</b>中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    自动驾驶汽车是如何准确定位的?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的快速发展,车辆的精准定位成为安全驾驶与路径规划的核心基础。相比于传统人类驾驶依赖路标和视觉判断,自动
    的头像 发表于 06-28 11:42 885次阅读
    <b class='flag-5'>自动驾驶</b>汽车是如何准确定位的?

    自动驾驶+大旅游跨界合作 小马智行×岭南控股签署战略合作框架协议

    6月27日,小马智行与广州岭南集团控股股份有限公司(下称“岭南控股”)签署战略合作框架协议,双方将立足于各自优势,共同打造“自动驾驶+大旅游”的多元应用场景,涵盖自动驾驶文旅专线、IP联名产品、科普
    的头像 发表于 06-27 18:52 1174次阅读

    新能源车软件单元测试深度解析:自动驾驶系统视角

    )和AI模块(如激光雷达目标检测)。例如,在测试自动驾驶路径规划模块时,可同步注入CAN总线信号(车速、转向角)和虚拟点云数据(模拟障碍物),实现多维度耦合验证。 ‌ 智能覆盖率引导: ‌ 通过强化学习
    发表于 05-12 15:59

    AI将如何改变自动驾驶

    自动驾驶带来哪些变化?其实AI可以改变自动驾驶技术的各个环节,从感知能力的提升到决策框架的优化,从安全性能的增强到测试验证的加速,AI可以让自动驾驶从实验室走向大规模商业化。 对于感知
    的头像 发表于 05-04 09:58 632次阅读

    自动驾驶大模型中常提的Token是啥?对自动驾驶有何影响?

    近年来,人工智能技术迅速发展,大规模深度学习模型(即大模型)在自然语言处理、计算机视觉、语音识别以及自动驾驶等多个领域取得了突破性进展。自动驾驶作为未来智能交通的重要方向,其核心技术之
    的头像 发表于 03-28 09:16 982次阅读

    动量感知规划的端到端自动驾驶框架MomAD解析

    端到端自动驾驶框架实现了感知与规划的无缝集成,但通常依赖于次性轨迹预测,这可能导致控制不稳定,并且对单顿感知中的遮挡问题较为敏感。为解决这问题,我们提出了动量感知
    的头像 发表于 03-18 09:31 1471次阅读
    动量感知规划的端到端<b class='flag-5'>自动驾驶</b><b class='flag-5'>框架</b>MomAD解析

    BEVFusion —面向自动驾驶的多任务多传感器高效融合框架技术详解

    和高效融合机制,解决了多模态传感器在几何与语义任务中的权衡问题,成为自动驾驶多任务感知的标杆框架其设计范式为后续研究提供了重要启发 ‌**“统表示+轻量优化”是多模态
    的头像 发表于 02-26 20:33 5977次阅读
    BEVFusion —面向<b class='flag-5'>自动驾驶</b>的多任务多传感器高效<b class='flag-5'>融合</b><b class='flag-5'>框架</b>技术详解

    自动驾驶中常提的鲁棒性是啥?

    随着自动驾驶技术的快速发展,鲁棒性(Robustness)成为评价自动驾驶系统的重要指标之。很多小伙伴也会在自动驾驶相关的介绍中,对某些功能用鲁棒性进行描述。
    的头像 发表于 01-02 16:32 8348次阅读
    <b class='flag-5'>自动驾驶</b>中常提的鲁棒性是<b class='flag-5'>个</b>啥?