0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自动驾驶中常提的模仿学习是什么?

智驾最前沿 来源:智驾最前沿 2026-01-16 16:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]当谈及自动驾驶模型学习时,经常会提到模仿学习的概念。所谓模仿学习,就是模型先看别人怎么做,然后学着去做。自动驾驶中的模仿学习,就是把人类司机在各种路况下的行为做成范例,记录下看到了什么和做了什么等信息,然后将这些一一对应起来当作训练数据,并训练出一个模型。

当模型训练好以后,遇到类似场景就可以尝试输出类似的人类动作。这种学习方式不需要工程师把每一种情况的规则一条条写出来,也不需要设计一个复杂的奖励函数让机器在虚拟世界里靠试错学会开车,只要有质量较好的“人类示范”,就能把人的“驾驶风格”灌输到模型里。

模仿学习有不同的实现方式。最直接的叫行为克隆(behavior cloning),就是把专家看见与执行的对应关系作为监督学习任务,其输入是传感器数据、前视图、速度等信息,输出是方向盘角度、油门刹车等控制量。还有一种思路是逆强化学习(inverse reinforcement learning),它不是直接学“做什么”,而是试图从人类的行为里反推出一个“潜在的目标函数”或者偏好,再用这个目标去训练模型。除此之外,还有对抗式模仿、层次化模仿等更复杂的变体,这些方法能够在一定程度上缓解简单模仿学习在泛化能力和鲁棒性上的不足。

模仿学习对自动驾驶有什么用

在自动驾驶这样高风险的领域,让模型在真实世界里靠“试错”学习显然不现实。模仿学习可以利用已有的人类驾驶数据,让模型在安全的条件下学习“合格驾驶员”的行为模式。

对于很多常见场景,尤其是城市道路或高速路上的常规操作,模仿学习能教会车辆如何平顺变道、如何与前车保持距离、如何在拥堵路段保持合理速度,这种“像人开车”的行为将提升乘客的体验,并会让社会有更高的接受度。

此外,模仿学习在工程上好上手、训练效率也相对更高。模仿学习本质上是监督学习,训练目标直接、损失明确,数据处理管道成熟。因此在研发早期,以及做端到端感知-控制的探索时,模仿学习是首选方法。

模仿学习还能把多模态传感器的信息(摄像头、毫米波雷达、LiDAR、里程计等)合并到一个网络中,直接从原始感知到控制量学习一条端到端的映射,这在某些应用场景能显著简化系统架构。

模仿学习还有一个好处,就是能把“人类的驾驶习惯”保留下来。人类驾驶员在很多情形里会做出既安全又舒适的动作,像是平滑的加减速、合理的避让、符合社会驾驶习惯的决策等,都是人类驾驶员可以轻松应对的动作。把这些行为灌输到模型里,有助于自动驾驶车辆在混合交通环境中更自然地与人类驾驶者共存,从而减少被其他车辆或行人误判的风险。

如何用模仿学习训练模型?

想用模仿学习训练模型,要先进行采集示范数据,然后做数据清洗与标注,接着训练模型并在模拟器或封闭道路上测试,最后再做在线改进与验证。

采集阶段不是简单地采集更多场景,也不是无脑地堆砌各种场景,而是要找到场景多样且高质量的数据,像是白天夜晚、雨雪、高架与城市拥堵、复杂交叉口等场景场景必须都覆盖到。训练时可用卷积神经网络处理图像输入,并把时序信息通过递归结构或时间窗口的方式纳入,让模型能记住短时间内的动态变化。

在模型上线之前,需要通过仿真和闭环测试来验证模型的鲁棒性。单纯在静态测试集上做得好并不代表闭环驾驶也能稳健运行,控制策略的每一步动作都会改变后续的状态分布,这种分布偏移会导致误差积累。

为此,要引入在线纠偏机制,如在模型驾驶时让专家在线纠正,将这些新的“偏离状态-专家动作对”加入数据集继续训练,像是DAgger(Dataset Aggregation,数据集聚合)就是采用的这种方法。还有技术方案中会先用模仿学习学一个“基础策略”,再用强化学习或规则化的规划层对其微调与约束,以增强对稀有或危险场景的处理能力。

当然,模仿学习并不等同于完全放手不设规则。为确保自动驾驶系统的安全性,很多技术方案中会采用混合架构,模仿学习负责感知-决策的快速映射,规划层负责长时间尺度的路径规划,规则模块负责硬性安全约束(比如绝对刹停条件、最小车距限制等)。这种分层与混合的策略不仅可以利用模仿学习的高效性,也能通过规则化模块弥补它在极端情况上的不足。

模仿学习的局限与现实挑战

模仿学习虽好,但其存在泛化能力有限与误差积累等问题。模仿模型在训练时学到的是“在那些见过的状态里该做什么”,一旦遇到训练集中没有覆盖到的罕见场景,模型将不知道应该如何处理。尤其是在序列决策问题中,模型自己的每一步决定都会改变未来观测的分布,哪怕开始只是轻微偏差,也可能随着时间放大成严重错误,这就是所谓的分布偏移或误差累积问题。

模仿学习主要学习专家示范的内容,提供给模型的专家示范总希望是高质量的且具代表性的,但人类司机并不完美,总会存在疏忽、习惯性错误或对某些场景不恰当的判断。如果模型只是机械地模仿这些行为,就可能学到不良驾驶习惯。尤其对于人类社会来说,道德和法律层面的约束不是简单靠模仿就能学会的,如何在多方冲突情形下如何取舍、如何展现可辩护的决策过程等,都需要额外的规则与可解释性的支撑。

端到端的模仿学习模型还存在内部决策过程不透明的问题,其安全边界难以被严格界定和验证。对于汽车这种涉及生命财产安全的关键领域,监管与认证体系要求系统具备可解释的逻辑或明确的安全保证。因此,单纯依赖数据驱动的模仿学习,在应对复杂多变的长尾场景时,可能面临可验证性不足的挑战。

要把模仿学习做得足够鲁棒,要覆盖足够广的高质量示范数据,这就带来了采集成本高、标注难、隐私与合规等问题。尤其是极端天气、罕见事故或复杂交互场景,本身就少见,要人工制造这些场景又有风险,仿真虽然能补充一部分,但仿真与现实间的差距也会影响模型迁移效果,因此,对于模仿学习来说,数据方面的挑战不容忽视。

最后的话

模仿学习为自动驾驶系统提供了实现拟人化驾驶行为的重要基础,但其数据驱动的黑箱特性在安全验证和长尾场景泛化方面存在局限。想应用好模仿学习,就要将模仿学习置于一个包含规则约束、规划模块及多重安全冗余的混合系统架构中,从而确保其在发挥其高效学习优势的同时,更能确保系统的整体行为符合可解释、可验证的安全规范。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3874

    浏览量

    52341
  • 自动驾驶
    +关注

    关注

    795

    文章

    15057

    浏览量

    182001
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶中常的占用网络检测存在哪些问题?

    自动驾驶感知技术在过去几年中经历了很大的变化,从最初的二维图像检测到鸟瞰图投影,再到如今备受关注的占用网络,感知技术的提升,让自动驾驶的能力越来越强。
    的头像 发表于 02-24 15:53 1258次阅读

    自动驾驶中常的“深度估计”是个啥?

    [首发于智驾最前沿微信公众号]当我们看一张照片时,可以通过肉眼自然地判断照片中的物体远近,这种对于空间和距离的感知,对于人类来说是本能,是从幼儿时期开始就形成的一种能力。 对于自动驾驶汽车来说
    的头像 发表于 02-16 13:18 1.8w次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“深度估计”是个啥?

    自动驾驶中常的离线强化学习是什么?

    [首发于智驾最前沿微信公众号]在之前谈及自动驾驶模型学习时,详细聊过强化学习的作用,由于强化学习能让大模型通过交互学到策略,不需要固定的规则,从而给
    的头像 发表于 02-07 09:21 438次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的离线强化<b class='flag-5'>学习</b>是什么?

    强化学习会让自动驾驶模型学习更快吗?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶大模型训练时,有的技术方案会采用模仿学习,而有些会采用强化学习。同样作为大模型的训练方式,强化学习
    的头像 发表于 01-31 09:34 940次阅读
    强化<b class='flag-5'>学习</b>会让<b class='flag-5'>自动驾驶</b>模型<b class='flag-5'>学习</b>更快吗?

    自动驾驶中常的世界模型是什么?

    在很多厂家的技术方案中,会提到世界模型的介绍。世界模型,就是自动驾驶系统内部用来表示外部世界并预测未来演变的一组模型或表征。换句话说,世界模型就是把传感器看到的东西(摄像头画面、激光雷达点云、雷达
    的头像 发表于 01-05 16:23 1172次阅读

    大模型中常的快慢思考会对自动驾驶产生什么影响?

    2024年7月,理想汽车发布的基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构标志着其全栈自研的智能驾驶研发进入了新阶段。该架构的算法原型创新性地受到了诺贝尔奖得主丹尼尔·卡尼曼
    的头像 发表于 11-22 10:59 2676次阅读
    大模型<b class='flag-5'>中常</b><b class='flag-5'>提</b>的快慢思考会对<b class='flag-5'>自动驾驶</b>产生什么影响?

    自动驾驶中常的卷积神经网络是个啥?

    自动驾驶领域,经常会听到卷积神经网络技术。卷积神经网络,简称为CNN,是一种专门用来处理网格状数据(比如图像)的深度学习模型。CNN在图像处理中尤其常见,因为图像本身就可以看作是由像素排列成的二维网格。
    的头像 发表于 11-19 18:15 2325次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的卷积神经网络是个啥?

    自动驾驶中常的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 1008次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“强化<b class='flag-5'>学习</b>”是个啥?

    自动驾驶中常的“专家数据”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,经常会听到一个概念,那便是“专家数据”。专家数据,说白了就是“按理应该这么做”的那类示范数据。它不是随机抓来的日志,也不是随便标注的标签,而是来源可靠
    的头像 发表于 10-09 09:33 980次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“专家数据”是个啥?

    自动驾驶中常的ODD是个啥?

    [首发于智驾最前沿微信公众号]在自动驾驶中,经常会听到一个概念,那就是ODD。所谓ODD,全称为Operational Design Domain,中文常译为“运行设计域”或者“作业域”。直观一点
    的头像 发表于 09-22 09:04 1182次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的ODD是个啥?

    自动驾驶中常的硬件在环是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶技术时,经常会提及一个技术,那就是硬件在环,所谓的硬件在环是个啥?对于自动驾驶来说有啥作用?今天智驾最前沿就带大家来聊聊这一技术。 所谓硬件在环
    的头像 发表于 08-14 08:54 1576次阅读

    自动驾驶中常的RTK是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶关键技术时,经常会听到一个技术,那就是RTK,很多人看到RTK后一定会想,这到底是个啥技术?为啥这个技术很少在发布会上看到,但对于自动驾驶来说却非常关键
    的头像 发表于 08-10 10:35 1651次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的RTK是个啥?

    自动驾驶中常的惯性导航系统是个啥?可以不用吗?

    每次提到自动驾驶硬件时,大家可能第一反应想到的是激光雷达、车载摄像头、毫米波雷达等,但想要让自动驾驶车辆实际落地,有一个硬件也非常重要,那就是惯性导航系统。在很多讨论自动驾驶技术的内容中,惯性导航系统的出场频次远低于激光雷达、车
    的头像 发表于 07-24 18:12 2283次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的惯性导航系统是个啥?可以不用吗?

    自动驾驶中常的世界模型是个啥?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的不断成熟,车辆需要在复杂多变的道路环境中安全地行驶,这就要求系统不仅能“看见”周围的世界,还要能“理解”和“推测”未来的变化。世界模型可以被看作一种
    的头像 发表于 06-24 08:53 1489次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的世界模型是个啥?

    自动驾驶中常的HMI是个啥?

    [首发于智驾最前沿微信公众号]在自动驾驶汽车领域,HMI(Human–Machine Interface,人机交互界面)正成为很多车企相互竞争的一大领域。之所以如此,是因为在车辆从“人控”过渡到“机
    的头像 发表于 06-22 13:21 2536次阅读