0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自动驾驶中常提的离线强化学习是什么?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2026-02-07 09:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]在之前谈及自动驾驶模型学习时,详细聊过强化学习的作用,由于强化学习能让大模型通过交互学到策略,不需要固定的规则,从而给自动驾驶的落地创造了更多可能。

wKgZPGmGk5SAahjzAAA4H4eb0K4593.jpg

强化学习示意图,图片源自:网络

但强化学习本身是需要不断试错的,如果采用这种学习方式在真实道路中不断尝试,一定会导致不可控的事故。于是就有人提出一种猜测,能不能利用已经存在的大量行驶日志、仿真记录和人类驾驶数据,在训练过程中完全不与真实环境交互,从而训练出一个靠谱的决策模块?

离线强化学习就是基于此提出的方案。离线强化学习先收集一大堆过去的经验(含状态、动作、后果/奖励等),然后把这些经验当成教材,让模型在离线状态下学习策略,而不是去真实交通场景中试错。这样做的好处是安全、低成本、能重复利用现有数据;但也带来了不少问题,我们后面会详细说。

wKgZO2mGk5SAVX6aAAAQo00DEvw274.jpg

离线强化学习的技术挑战

离线强化学习在训练阶段只能访问一个固定的数据集,这个数据集是由若干次交互生成的记录集合;训练算法不能再向环境发出动作来采集新的样本。这个改变会带来分布覆盖问题、估值偏差问题以及评估难题。

离线强化学习训练大模型时,提供的历史数据来源于某些已有的行为策略或人为驾驶习惯,数据中可能压根没有某些状态-动作对。如果训练出的策略在部署时选择了数据中极少或根本没有覆盖的动作,算法对这些动作的价值估计将会非常不可靠。

在离线数据里,有些动作要么出现得很少,要么干脆没出现过。按理说,模型对这些动作应该非常谨慎才对。但强化学习算法在估计动作价值(Q值)时,会因为缺少真实数据支撑,反而会把这些动作估得特别好。导致的结果就是,模型会觉得这个操作收益很高,然后在学策略时越来越偏向这些现实中并不安全、甚至根本不可行的行为。

除此之外,离线强化学习在训练时无法在真实交通环境中验证策略,只能依赖离线的估计方法或仿真,这使得对学习到的策略的可靠性验证变得更复杂。为了解决分布偏差和估值问题,离线强化学习算法还必须加入保守项、不确定性估计、行为约束等,这些都会增加实现难度与调参成本。

wKgZO2mGk5WAZY72AAAR42n7O-I493.jpg

离线强化学习的主流思路

现阶段,离线强化学习使用较多的实现方式就是行为克隆,即把问题转成监督学习,直接用历史状态去预测历史动作,学会“模仿人类驾驶”。行为克隆实现简单、训练稳定,但它的上限被数据中人类驾驶的质量限制,且无法处理数据中没有覆盖到的新场景。

为了解决行为克隆存在的问题,出现了以价值估计为核心、但带有保守性约束的离线强化学习算法,主要有“行为约束”及“保守估值”两种策略。行为约束也就是在优化策略时,直接限制新策略不能偏离已有数据太远;保守估值策略是在估计行动价值时,对数据中不存在的行动进行刻意惩罚。这些做法都是为了压低不切实际的乐观估计,让学习过程更可靠。

还有一种思路是先学习一个环境动力学模型,然后在模型中进行规划或策略优化,这一思路的关键在于如何让模型在不确定或预测不可靠的区域加入惩罚或不信任度折扣,避免因模型错误导致的危险动作。

此外,还有一些如ensemble(集成)不确定性估计、用置信区间控制决策、或把离线学习作为预训练基座,然后在受控的仿真或沙箱里做有限的在线微调的方法用于实现模型学习。

在实际应用中,这些方法常会被组合使用,行为克隆可作为稳定的初始策略;保守Q学习或批量约束方法能进一步提升策略性能;而基于模型的规划与不确定性估计则充当风险控制的补充。需要强调的是,无论采用何种方法,数据的多样性与质量始终是决定成效的根本,如果缺乏对某些场景的覆盖,任何算法都难以实现安全可靠的泛化。

wKgZO2mGk5aAUxQKAAASG3BOmsQ173.jpg

自动驾驶如何用好离线强化学习?

自动驾驶如何用好离线强化学习?首先要做的是要规划好数据收集体系。除了日常驾驶日志,还要主动合成和收集如夜间、逆光、大雨、大雾、临时施工场景、行人异常行为等边缘情况的样本。仿真在这里的作用非常重要,它可以弥补现实场景中稀缺的数据,但必须和真实数据结合。

接着就是要做好分阶段训练流程,在大模型学习的整个链路中,可以把离线强化学习当作预训练的手段,可以先在大规模历史数据上训练出一个“稳健基线”;然后在高保真仿真里对该策略做更多场景覆盖测试;最后就是进行受控上线(比如先在特定区域、低速、有人监控的条件下运行),在实际运行中以“shadowmode(影子模式)”不断记录策略决策与真实驾驶者行为的差异,收集新数据用于后续离线微调。

在进行大模型部署时,一定要有强制的安全层和退回机制。不管策略多完善,都要有独立的安全监控,当感知或决策模块检测到高不确定性、模型越界或可能造成人员伤害的风险时,系统应降级到更保守的控制逻辑,或者直接交由人为接管。

wKgZPGmGk5eAKP_9AAB4wKdjTwI480.jpg

图片源自:网络

评估和指标体系的设定也要更加严谨。单靠训练时的“平均回报”或离线估计不足以判断部署的安全性,其中需要包括不确定性分布、最差-k%情况、OPE(离线策略评估)方法、以及通过仿真和小规模上线验证得到的指标等多维度指标。

对于自动驾驶来说,监管与责任框架必须要预先设计好。在真实交通环境中,任何决策一旦出问题,就会牵扯到责任认定、修复补救和合规审查,离线强化学习的训练日志与决策解释将是重要证据。因此,要保证数据可追溯、策略版本可回滚、并保留充分的审计记录。

wKgZO2mGk5eAFhTuAAASAJELks8946.jpg

最后的话

虽然离线强化学习面临着“数据决定上限”与“分布外泛化难”的问题,但其给现实世界应用,尤其是自动驾驶这类安全敏感任务,提供了一个非常有价值的实现路径。它缓和了“强化学习的潜力”与“现实世界的安全约束”之间的矛盾,使我们能利用海量历史经验去训练智能策略。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    794

    文章

    14976

    浏览量

    181350
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶中常的占用网络检测存在哪些问题?

    自动驾驶感知技术在过去几年中经历了很大的变化,从最初的二维图像检测到鸟瞰图投影,再到如今备受关注的占用网络,感知技术的提升,让自动驾驶的能力越来越强。
    的头像 发表于 02-24 15:53 1151次阅读

    自动驾驶中常的“深度估计”是个啥?

    [首发于智驾最前沿微信公众号]当我们看一张照片时,可以通过肉眼自然地判断照片中的物体远近,这种对于空间和距离的感知,对于人类来说是本能,是从幼儿时期开始就形成的一种能力。 对于自动驾驶汽车来说
    的头像 发表于 02-16 13:18 1.8w次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“深度估计”是个啥?

    强化学习会让自动驾驶模型学习更快吗?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶大模型训练时,有的技术方案会采用模仿学习,而有些会采用强化学习。同样作为大模型的训练方式,强化学习有何不同?又有什么特点呢? 什么是
    的头像 发表于 01-31 09:34 815次阅读
    <b class='flag-5'>强化学习</b>会让<b class='flag-5'>自动驾驶</b>模型<b class='flag-5'>学习</b>更快吗?

    自动驾驶中常的模仿学习是什么?

    当谈及自动驾驶模型学习时,经常会提到模仿学习的概念。所谓模仿学习,就是模型先看别人怎么做,然后学着去做。自动驾驶中的模仿
    的头像 发表于 01-16 16:41 2123次阅读

    自动驾驶中常的世界模型是什么?

    在很多厂家的技术方案中,会提到世界模型的介绍。世界模型,就是自动驾驶系统内部用来表示外部世界并预测未来演变的一组模型或表征。换句话说,世界模型就是把传感器看到的东西(摄像头画面、激光雷达点云、雷达
    的头像 发表于 01-05 16:23 1076次阅读

    如何训练好自动驾驶端到端模型?

    [首发于智驾最前沿微信公众号]最近有位小伙伴在后台留言提问:端到端算法是怎样训练的?是模仿学习强化学习离线强化学习这三类吗?其实端到端(end-to-end)算法在
    的头像 发表于 12-08 16:31 1587次阅读
    如何训练好<b class='flag-5'>自动驾驶</b>端到端模型?

    大模型中常的快慢思考会对自动驾驶产生什么影响?

    2024年7月,理想汽车发布的基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构标志着其全栈自研的智能驾驶研发进入了新阶段。该架构的算法原型创新性地受到了诺贝尔奖得主丹尼尔·卡尼曼
    的头像 发表于 11-22 10:59 2620次阅读
    大模型<b class='flag-5'>中常</b><b class='flag-5'>提</b>的快慢思考会对<b class='flag-5'>自动驾驶</b>产生什么影响?

    自动驾驶中常的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 868次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“<b class='flag-5'>强化学习</b>”是个啥?

    自动驾驶中常的“专家数据”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,经常会听到一个概念,那便是“专家数据”。专家数据,说白了就是“按理应该这么做”的那类示范数据。它不是随机抓来的日志,也不是随便标注的标签,而是来源可靠
    的头像 发表于 10-09 09:33 872次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“专家数据”是个啥?

    自动驾驶中常的ODD是个啥?

    [首发于智驾最前沿微信公众号]在自动驾驶中,经常会听到一个概念,那就是ODD。所谓ODD,全称为Operational Design Domain,中文常译为“运行设计域”或者“作业域”。直观一点
    的头像 发表于 09-22 09:04 1067次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的ODD是个啥?

    自动驾驶中常的硬件在环是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶技术时,经常会提及一个技术,那就是硬件在环,所谓的硬件在环是个啥?对于自动驾驶来说有啥作用?今天智驾最前沿就带大家来聊聊这一技术。 所谓硬件在环
    的头像 发表于 08-14 08:54 1444次阅读

    自动驾驶中常的RTK是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶关键技术时,经常会听到一个技术,那就是RTK,很多人看到RTK后一定会想,这到底是个啥技术?为啥这个技术很少在发布会上看到,但对于自动驾驶来说却非常关键
    的头像 发表于 08-10 10:35 1451次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的RTK是个啥?

    自动驾驶中常的惯性导航系统是个啥?可以不用吗?

    每次提到自动驾驶硬件时,大家可能第一反应想到的是激光雷达、车载摄像头、毫米波雷达等,但想要让自动驾驶车辆实际落地,有一个硬件也非常重要,那就是惯性导航系统。在很多讨论自动驾驶技术的内容中,惯性导航系统的出场频次远低于激光雷达、车
    的头像 发表于 07-24 18:12 2154次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的惯性导航系统是个啥?可以不用吗?

    自动驾驶中常的世界模型是个啥?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的不断成熟,车辆需要在复杂多变的道路环境中安全地行驶,这就要求系统不仅能“看见”周围的世界,还要能“理解”和“推测”未来的变化。世界模型可以被看作一种
    的头像 发表于 06-24 08:53 1370次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的世界模型是个啥?

    自动驾驶中常的“点云”是个啥?

    [首发于智驾最前沿微信公众号]在自动驾驶系统中,点云技术作为三维空间感知的核心手段,为车辆提供了精确的距离和形状信息,从而实现目标检测、环境建模、定位与地图构建等关键功能。那所谓的“点云”,到底是个
    的头像 发表于 05-21 09:04 1345次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“点云”是个啥?