自动驾驶中常提的模仿学习是什么？-电子发烧友网

[首发于智驾最前沿微信公众号]当谈及自动驾驶模型学习时，经常会提到模仿学习的概念。所谓模仿学习，就是模型先看别人怎么做，然后学着去做。自动驾驶中的模仿学习，就是把人类司机在各种路况下的行为做成范例，记录下看到了什么和做了什么等信息，然后将这些一一对应起来当作训练数据，并训练出一个模型。

当模型训练好以后，遇到类似场景就可以尝试输出类似的人类动作。这种学习方式不需要工程师把每一种情况的规则一条条写出来，也不需要设计一个复杂的奖励函数让机器在虚拟世界里靠试错学会开车，只要有质量较好的“人类示范”，就能把人的“驾驶风格”灌输到模型里。

模仿学习有不同的实现方式。最直接的叫行为克隆（behavior cloning），就是把专家看见与执行的对应关系作为监督学习任务，其输入是传感器数据、前视图、速度等信息，输出是方向盘角度、油门刹车等控制量。还有一种思路是逆强化学习（inverse reinforcement learning），它不是直接学“做什么”，而是试图从人类的行为里反推出一个“潜在的目标函数”或者偏好，再用这个目标去训练模型。除此之外，还有对抗式模仿、层次化模仿等更复杂的变体，这些方法能够在一定程度上缓解简单模仿学习在泛化能力和鲁棒性上的不足。

模仿学习对自动驾驶有什么用

在自动驾驶这样高风险的领域，让模型在真实世界里靠“试错”学习显然不现实。模仿学习可以利用已有的人类驾驶数据，让模型在安全的条件下学习“合格驾驶员”的行为模式。

对于很多常见场景，尤其是城市道路或高速路上的常规操作，模仿学习能教会车辆如何平顺变道、如何与前车保持距离、如何在拥堵路段保持合理速度，这种“像人开车”的行为将提升乘客的体验，并会让社会有更高的接受度。

此外，模仿学习在工程上好上手、训练效率也相对更高。模仿学习本质上是监督学习，训练目标直接、损失明确，数据处理管道成熟。因此在研发早期，以及做端到端感知-控制的探索时，模仿学习是首选方法。

模仿学习还能把多模态传感器的信息（摄像头、毫米波雷达、LiDAR、里程计等）合并到一个网络中，直接从原始感知到控制量学习一条端到端的映射，这在某些应用场景能显著简化系统架构。

模仿学习还有一个好处，就是能把“人类的驾驶习惯”保留下来。人类驾驶员在很多情形里会做出既安全又舒适的动作，像是平滑的加减速、合理的避让、符合社会驾驶习惯的决策等，都是人类驾驶员可以轻松应对的动作。把这些行为灌输到模型里，有助于自动驾驶车辆在混合交通环境中更自然地与人类驾驶者共存，从而减少被其他车辆或行人误判的风险。

如何用模仿学习训练模型？

想用模仿学习训练模型，要先进行采集示范数据，然后做数据清洗与标注，接着训练模型并在模拟器或封闭道路上测试，最后再做在线改进与验证。

采集阶段不是简单地采集更多场景，也不是无脑地堆砌各种场景，而是要找到场景多样且高质量的数据，像是白天夜晚、雨雪、高架与城市拥堵、复杂交叉口等场景场景必须都覆盖到。训练时可用卷积神经网络处理图像输入，并把时序信息通过递归结构或时间窗口的方式纳入，让模型能记住短时间内的动态变化。

在模型上线之前，需要通过仿真和闭环测试来验证模型的鲁棒性。单纯在静态测试集上做得好并不代表闭环驾驶也能稳健运行，控制策略的每一步动作都会改变后续的状态分布，这种分布偏移会导致误差积累。

为此，要引入在线纠偏机制，如在模型驾驶时让专家在线纠正，将这些新的“偏离状态-专家动作对”加入数据集继续训练，像是DAgger（Dataset Aggregation，数据集聚合）就是采用的这种方法。还有技术方案中会先用模仿学习学一个“基础策略”，再用强化学习或规则化的规划层对其微调与约束，以增强对稀有或危险场景的处理能力。

当然，模仿学习并不等同于完全放手不设规则。为确保自动驾驶系统的安全性，很多技术方案中会采用混合架构，模仿学习负责感知-决策的快速映射，规划层负责长时间尺度的路径规划，规则模块负责硬性安全约束（比如绝对刹停条件、最小车距限制等）。这种分层与混合的策略不仅可以利用模仿学习的高效性，也能通过规则化模块弥补它在极端情况上的不足。

模仿学习的局限与现实挑战

模仿学习虽好，但其存在泛化能力有限与误差积累等问题。模仿模型在训练时学到的是“在那些见过的状态里该做什么”，一旦遇到训练集中没有覆盖到的罕见场景，模型将不知道应该如何处理。尤其是在序列决策问题中，模型自己的每一步决定都会改变未来观测的分布，哪怕开始只是轻微偏差，也可能随着时间放大成严重错误，这就是所谓的分布偏移或误差累积问题。

模仿学习主要学习专家示范的内容，提供给模型的专家示范总希望是高质量的且具代表性的，但人类司机并不完美，总会存在疏忽、习惯性错误或对某些场景不恰当的判断。如果模型只是机械地模仿这些行为，就可能学到不良驾驶习惯。尤其对于人类社会来说，道德和法律层面的约束不是简单靠模仿就能学会的，如何在多方冲突情形下如何取舍、如何展现可辩护的决策过程等，都需要额外的规则与可解释性的支撑。

端到端的模仿学习模型还存在内部决策过程不透明的问题，其安全边界难以被严格界定和验证。对于汽车这种涉及生命财产安全的关键领域，监管与认证体系要求系统具备可解释的逻辑或明确的安全保证。因此，单纯依赖数据驱动的模仿学习，在应对复杂多变的长尾场景时，可能面临可验证性不足的挑战。

要把模仿学习做得足够鲁棒，要覆盖足够广的高质量示范数据，这就带来了采集成本高、标注难、隐私与合规等问题。尤其是极端天气、罕见事故或复杂交互场景，本身就少见，要人工制造这些场景又有风险，仿真虽然能补充一部分，但仿真与现实间的差距也会影响模型迁移效果，因此，对于模仿学习来说，数据方面的挑战不容忽视。

最后的话

模仿学习为自动驾驶系统提供了实现拟人化驾驶行为的重要基础，但其数据驱动的黑箱特性在安全验证和长尾场景泛化方面存在局限。想应用好模仿学习，就要将模仿学习置于一个包含规则约束、规划模块及多重安全冗余的混合系统架构中，从而确保其在发挥其高效学习优势的同时，更能确保系统的整体行为符合可解释、可验证的安全规范。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉