0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

强化学习与智能驾驶决策规划

jf_C6sANWk1 来源:阿宝1990 2023-02-08 14:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文介绍了强化学习与智能驾驶决策规划。智能驾驶中的决策规划模块负责将感知模块所得到的环境信息转化成具体的驾驶策略,从而指引车辆安全、稳定的行驶。真实的驾驶场景往往具有高度的复杂性及不确定性。如何制定一套泛化能力强的决策规划机制是智能驾驶目前面临的难点之一。强化学习是一种从经验中总结的学习方式,并从长远的角度出发,寻找解决问题的最优方案。近些年来,强化学习在人工智能领域取得了重大突破,因而成为了解决智能驾驶决策规划问题的一种新的思路。

01.强化学习的介绍

b38a4ebc-a220-11ed-bfe3-dac502259ad0.jpg

强化学习(Reinforcement Learning)近些年来是人工智能的一个前言领域,属于机器学习的一个重要分支。从定义上来讲,强化学习可以通过经验探索来学习到解决问题的最优策略,即累计回报值最大的动作选取策略。在没有任何初始经验的情况下,强化学习可以通过平衡探索未知动作的可能性,学习到解决问题的最优方法,从而达到自我学习的目的。因此,强化学习与其他机器学习算法的一个显著区别为不依赖初始人工标注数据集的大小,探索式的自我学习可大幅度的节省人力成本。近些年来,随着深度学习的迅速发展,将深度学习与强化学习相结合的深度强化学习成为人工智能研究的热门领域之一,并在游戏、控制等领域取得了令人瞩目的成就。

02.智能驾驶决策规划的任务

b39a4f2e-a220-11ed-bfe3-dac502259ad0.jpg

智能驾驶的主要目的是为人们提供安全、舒适及高效的出行体验。大多数的交通事故产生的原因来自于驾驶员人为因素,例如疲劳驾驶、情绪驾驶以及路况判断失误等。因此,合理的选择驾驶行为及路线规划是智能驾驶的一个重要环节。其中,行为决策负责在接收到全局路径后,根据从感知模块得到的环境信息(车辆速度、障碍物及道路信息等),做出具体的行为决策(如变道、跟车、减速等)。而规划的任务则是在接收到决策层的宏观动作指令之后,将其转化成一条更加具体的行驶轨迹,从而能够生成一系列控制信号(油门、方向盘转角、刹车等),实现车辆的自动行驶。如何应对不同的路况信息将做出合理的决策与规划是无人驾驶智能化的一个重要指标。

03.决策规划目前的难点

b3aff450-a220-11ed-bfe3-dac502259ad0.jpg

由于实际的交通场景千变万化,道路结构差异大(高速、十字路口、停车场等),如何去设计一套通用性强的决策规划机制是目前困扰着智能驾驶的一个主要难题。同时,其他交通参与者的行为存在不确定性,不仅需要对其行为做预测,还需要考虑本车与其他交通参与者的博弈。因此,需要对时刻变化的外部环境做出快速及准确的响应。如何应对感知模块提供的信息做不到100%的准确和100%的全覆盖也是智能车在决策规划时要考虑的重要因素。

04.强化学习对于智能驾驶决策规划的意义

b3ba2fec-a220-11ed-bfe3-dac502259ad0.jpg

强化学习适用于求解具有时序性的决策问题,这正与智能驾驶的决策过程相契合。结合神经网络的深度强化学习框架可以增加驾驶场景的泛化能力。同时,考虑部分不可观测环境的强化学习流程可以评估交通参与者的不确定性,并通过预测与推演的方式从长远的角度出发来寻求最优的驾驶方案。更重要的是,强化学习由于其自身具有应对外部环境改变而产生进化的能力。当未知的corner case产生时,智能体可以通过改变自身的驾驶策略来适应并探索学习到解决该问题的方法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261401
  • 智能驾驶
    +关注

    关注

    5

    文章

    2947

    浏览量

    50954
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11899

原文标题:强化学习对于智能驾驶决策规划的意义

文章出处:【微信号:阿宝1990,微信公众号:阿宝1990】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习方案,机器人
    发表于 11-05 09:44 888次阅读

    什么是自动驾驶决策系统?发展有何挑战?

    [首发于智驾最前沿微信公众号]把自动驾驶汽车想象成一个不断学习并做决定的人,车上的“眼睛”负责看(感知)、“记忆/推理”负责想(预测与决策)、“手脚”负责做(规划与控制),
    的头像 发表于 10-26 09:55 1320次阅读
    什么是自动<b class='flag-5'>驾驶</b><b class='flag-5'>决策</b>系统?发展有何挑战?

    自动驾驶中常提的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。
    的头像 发表于 10-23 09:00 321次阅读
    自动<b class='flag-5'>驾驶</b>中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    无人驾驶智能决策与精准执行的融合

    无人驾驶核心操控技术:智能决策与精准执行的融合 无人驾驶的核心操控系统是车辆实现自主驾驶的“大脑”与“四肢”,其技术核心在于通过感知、
    的头像 发表于 09-19 14:03 448次阅读

    自主工具链助力端到端组合辅助驾驶算法验证

    算法介绍传统组合辅助驾驶算法一般分为感知定位、决策规划、控制三部分功能,将传感器数据输入后,经算法处理,输出控制指令。传统组合辅助驾驶算法中的决策
    的头像 发表于 08-26 17:41 3349次阅读
    自主工具链助力端到端组合辅助<b class='flag-5'>驾驶</b>算法验证

    自动驾驶中Transformer大模型会取代深度学习吗?

    持续讨论。特别是在自动驾驶领域,部分厂商开始尝试将多模态大模型(MLLM)引入到感知、规划决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与
    的头像 发表于 08-13 09:15 3910次阅读
    自动<b class='flag-5'>驾驶</b>中Transformer大模型会取代深度<b class='flag-5'>学习</b>吗?

    AI智能体的技术应用与未来图景

    深度学习与逻辑推理,实现复杂情境的语义解析与因果推断;行动层依托强化学习框架驱动自主决策链,形成感知-决策-执行的闭环能力。这种架构演进使智能
    的头像 发表于 07-24 11:04 799次阅读

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有机器
    的头像 发表于 07-14 15:29 1821次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 1292次阅读
    18个常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的理论技术与代码实现

    【「零基础开发AI Agent」阅读体验】+初品Agent

    。 Agent在发展过程中,经历了5个阶段,即: 1)符号Agent阶段 2)反应式Agent阶段 3)基于强化学习的Agent阶段 4)带迁移学习和元学习的Agent阶段 5)基于大模型的Agent阶段 关于Agent的
    发表于 04-22 11:51

    详解RAD端到端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 1016次阅读
    详解RAD端到端<b class='flag-5'>强化学习</b>后训练范式

    【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

    方法和增量搜索方法。 另外,还有基于强化学习的自动驾驶规划等等。 个人觉得,这部分内容是整个具身智能的基石,没有具身智能的基础模块就不会有具
    发表于 01-04 19:22

    智能驾驶HIL仿真测试解决方案

    仿真板卡和IO仿真板卡等硬件,可以满足从L1~L5各级别智能驾驶系统的仿真测试需求。用户可以在此平台上搭建丰富的智能驾驶测试场景,对感知、决策
    的头像 发表于 12-23 10:54 1633次阅读
    <b class='flag-5'>智能</b><b class='flag-5'>驾驶</b>HIL仿真测试解决方案

    【「具身智能机器人系统」阅读体验】+初品的体验

    解决许多技术的和非技术的挑战,如提高智能体的自主性、处理复杂环境互动的能力及确保行为的伦理和安全性。 未来的研究需要将视觉、语音和其他传感技术与机器人技术相结合,以探索更加先进的知识表示和记忆模块,利用强化学习进一步优化决策过程
    发表于 12-20 19:17

    《具身智能机器人系统》第1-6章阅读心得之具身智能机器人系统背景知识与基础模块

    搜索策略等规划算法,强调了轨迹规划需要考虑机器人的运动学约束。在轨迹规划中,机器人需要同时考虑最大曲率、加速度限制等物理约束,生成平滑可行的运动轨迹。强化学习
    发表于 12-19 22:26