0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语言模型是否是自动驾驶的必选项?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2025-11-14 16:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]自动驾驶的发展并非一成不变,在传统自动驾驶系统中,通常采用分层的体系架构。最底层是感知层,负责将摄像头、雷达、激光雷达等传感器数据转化为车辆能够“看到”的环境信息;其上是跟踪与状态估计层,负责在时间维度关联感知结果,推断目标的速度与运动趋势;预测层则基于当前状态,估计其他道路使用者的未来可能轨迹;决策与路径规划层综合所有信息,生成车辆执行的行动策略;最后,控制层将规划结果转化为具体的油门、刹车和转向指令。

这种结构化设计具有显著优势,每一层在延迟、可靠性和验证方式上要求不同,分层使得模块可独立优化、便于问题定位。如传感器异常可回溯至感知层排查,控制环路不稳可对控制器单独压力测试。模块化还允许在关键闭环中使用已严格验证的算法,而将依赖常识推理的任务交给更灵活的模型处理,从而兼顾实时控制的安全性与语义层面的智能判断。

除了结构化的架构外,端到端的概念被越来越多企业多推崇。所谓端到端,就是把感知到控制尽可能用大模型学习出来。端到端理论上可以减少模块之间的误差累积,学出的行为可能更连贯、更“自然”。但这种路径带来的问题也很明显,可解释性差,验证起来很难,而且需要极大量、极多样的数据来覆盖各种罕见场景。因此在实际的技术方案中,会在最需要确定性的地方保留传统可验证方法,而在需要语义理解或大范围推理的地方引入更灵活的模型。

wKgZPGkW5uGAG95PAAAQo00DEvw066.jpg

语言模型放进自动驾驶有何作用?

语言模型擅长处理和生成语言、能做基于大规模语料的推理和常识补全,把它用在自动驾驶里,多数时候是放在语义层和生成/解释层,而不是直接替代感知或控制那类需要精确几何计算的工作。

在一些交通场景中,感知模块会告诉系统“有若干个物体在前方”,但把这些物体上升为可以驱动决策的语义信息,往往需要把感知结果和道路规则、施工通告、临时交通标志等背景信息结合起来。语言模型擅长把结构化的感知结果和文本化的知识联系起来,输出更接近人类理解的描述。换句话说,它能把“看到的点”变成“能读懂的语义”,这对处理临时路况、复杂标识或人类语言说明很有帮助。

语言模型在高层策略描述上也可以发挥巨大作用。遇到交通参与者复杂互动的场景,系统除了需要给出一条可执行轨迹,有时也需要说明为什么选择这条轨迹、有哪些可替代方案以及这些方案的语义判断依据。语言模型可以把这些理由或方案用自然语言或预定义模板罗列出来,便于运维人员审阅或作为人机交互的解释输出。这里的关键是模型输出的是“解释”和“备选方案”,而不是把解释当作直接可执行的指令。

语言模型在自动驾驶的数据与仿真领域也展现出重要价值。为了构建更鲁棒的自动驾驶系统,尤其是在覆盖罕见的长尾场景方面,仿真与合成数据不可或缺。语言模型能够自动生成多样化的场景描述、对话脚本及测试用例,并通过场景生成器将这些语义内容转化为可执行的仿真环境。借助这一能力,系统能够在虚拟环境中高效复现现实中难以采集的极端情况,从而显著提升训练与验证的覆盖范围。

此外,语言模型在将复杂技术内容转化为自然语言方面也具有突出优势。无论是车内语音交互、对外部管理系统的自然语言接口,还是在事后将故障日志整理成易于理解的报告,语言模型都能发挥关键作用。对于普通乘客或维护团队而言,将复杂的传感器数据与决策过程转化为一句清晰易懂的说明,远比直接呈现原始数据更具实用价值。

wKgZPGkW5uKAEpzTAAAR42n7O-I147.jpg

语言模型为什么不能直接替代核心驾驶技术?

把能做的讲清楚之后,有必要把不能做的也讲明白。语言模型的本质决定了它不可能完全替代那些需要精确数值计算、实时闭环控制和可证明性证明的环节。

语言模型输出的概率性本质决定了其生成内容虽然通常连贯合理,却未必完全符合物理事实。尤其在信息不完整或存在冲突的情况下,模型可能生成看似合理但实际错误的结论。由于自动驾驶系统对判断错误的容忍度极低,任何不准确输出都可能引发严重后果,因此将语言模型的自由生成结果直接用于安全关键决策具有较高风险。

实时性与算力限制是另一重要约束。车辆在动态道路环境中通常需要在几十至几百毫秒内完成决策与控制。然而,当前大规模语言模型的推理过程仍对计算资源有较高需求,难以在车端直接实现全尺寸模型的实时响应。尽管可采用模型压缩、知识蒸馏或专用硬件等手段进行优化,但这些方法往往伴随性能损失或带来更复杂的工程部署问题。

模型的“接地”能力同样至关重要,即输出必须严格基于当前传感器数据与物理约束。语言模型的知识主要来源于离线训练语料,而驾驶决策高度依赖如几何关系、速度与动力学状态等实时感知信息。要实现语义推理与感知事实的对齐,必须建立可靠的多模态输入机制,将图像、点云等感知数据以低损失方式传递给模型,并确保其输出不脱离实际观测。这类多模态接地机制的工程实现难度较高,容易产生语义推断与物理现实之间的不一致。

在法规与系统验证层面,自动驾驶也必须满足严格的测试与合规要求,需要证明系统在各种场景下的行为可控、可测。语言模型的黑箱特性使其难以提供形式化、数学化的安全保证。因此,在现有工程实践中,通常将最高风险的闭环控制任务交由可验证的小型模块处理,而语言模型的输出则多作为辅助信息或解释性内容使用,以此在发挥其智能优势的同时确保系统的整体安全性与可认证性。

wKgZPGkW5uOAKZc9AAASG3BOmsQ312.jpg

系统集成时有哪些看起来不起眼但很关键的细节?

在将语言模型实际集成为系统组件时,必须对一系列工程细节加以周密考虑。这些细节虽看似琐碎,却直接关系到系统能否安全、稳定地运行。

接口设计需要明确约束。系统里要事先定义好语言模型输出的格式和语义范围,避免模型随意生成不可解析的文本。常见的做法是把模型的回复限定到一套事先定义好的模板或标签集合里,然后再由验证模块把这些输出转成下层可执行的指令。这样做的目的在于把概率性语言输出变成工程上可控的信号,防止上层的自由发挥直接影响控制层的安全边界。

多模态数据如何供给模型也要慎重考虑。感知模块产出的信息形式很多样,包括稠密图像、稀疏点云和时间序列轨迹等。想把这些异构数据有效地传给以文本为主的模型,有些团队会把结构化信息符号化成短文本描述后再喂给模型,这样虽然简单但会丢失细节。还有一些会采用多模态编码器,把图像或点云映射到与语言兼容的嵌入空间,这样信息保留更好,但实现和部署复杂度更高。

此外,对模型输出进行校验的机制也必不可少。校验可以是规则驱动的,也可以是用小型判别模型来做。无论采用哪种方式,目标都是在把语言模型的建议传给下层执行器之前,先评估其可执行性、安全性和与当前感知事实的一致性。在实际设计时,经常把这个校验器设计成一个独立模块,只有通过校验的输出才能被转化为规划器能够接受的约束或指令。

评测体系要扩展,不能只靠传统指标。在引入语言模型之后,评测不再仅限于感知精度或轨迹偏差,还要关注语义稳定性、输出一致性和与感知事实的一致性。评测用例需要刻意设计能诱发模型“编故事”的情形,看模型在信息不全、信息冲突或极端扰动下会不会产生不合逻辑的结论。此外把模型放进闭环仿真环境里进行压力测试也是非常必要的,只有在大量扰动和边界条件下通过检验,才能说明整体系统在这些维度上的鲁棒性。

部署架构的权衡很多时候决定整体成败。把大模型放在云端能利用强算力,但会引入网络延迟和连通性风险;把模型尽量压到车端能降低延迟但会受限于硬件和能耗;采用边缘与云配合能兼顾两者却增加系统复杂性。因此,需要根据不同功能的实时性和安全等级来决定哪部分逻辑允许云端参与、哪部分必须留在车端,并且为各种网络和硬件故障设计回退策略。

wKgZPGkW5uSAXrF8AAASAJELks8706.jpg

最后的话

语言模型是一个擅长语义理解、生成文本和做常识推理的工具,把它用在自动驾驶里能在很多非实时或者语义密集的环节发挥很大作用。典型的落地场景包括把感知结果转成语义描述、为复杂交互场景提供可读的策略说明、在仿真和数据生成里扩充长尾样本,以及把复杂技术信息以人能读懂的方式输出给乘客或运维人员。

同时也要明白,语言模型不适合替代那些要求严格实时性、精确几何推导或需要数学证明的控制环路。它有生成概率性的本质,可能在信息不足的情况下给出不准确的结论;它对算力和延迟敏感,直接在车端做全尺寸推理现实上不容易;它与实际感知的接地工作工程量大,必须有专门的接口和校验机制。监管和验证的要求更是限制了把语言模型当成黑箱来承担安全关键职责。

对于语言模型是否应成为自动驾驶的必选项,关键在于厘清其适用的具体场景、使用方式及相应的风险管控机制。我们更应将语言模型视为一种工具,在工程实践中明确其边界,将高风险的实时控制闭环留给可验证的传统模块,而把语言模型的输出定位为解释信息、辅助提示或非实时决策支持。这种分工方式既符合系统安全要求,也体现了工程落地的务实逻辑。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11255
  • 自动驾驶
    +关注

    关注

    791

    文章

    14670

    浏览量

    176522
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    VLA能解决自动驾驶中的哪些问题?

    [首发于智驾最前沿微信公众号]很多从事自动驾驶的小伙伴应该对VLA这个概念已经非常熟悉了。VLA即“Visual-Language-Action”(视觉—语言—动作)模型,它的核心是将视觉信息
    的头像 发表于 11-25 08:53 178次阅读
    VLA能解决<b class='flag-5'>自动驾驶</b>中的哪些问题?

    模型中常提的快慢思考会对自动驾驶产生什么影响?

    2024年7月,理想汽车发布的基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构标志着其全栈自研的智能
    的头像 发表于 11-22 10:59 2271次阅读
    大<b class='flag-5'>模型</b>中常提的快慢思考会对<b class='flag-5'>自动驾驶</b>产生什么影响?

    VLA和世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小鹏、小米为代表的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为主导的世界模型
    的头像 发表于 11-05 08:55 480次阅读
    VLA和世界<b class='flag-5'>模型</b>,谁才是<b class='flag-5'>自动驾驶</b>的最优解?

    自动驾驶上常提的VLA与世界模型有什么区别?

    自动驾驶中常提的VLA,全称是Vision-Language-Action,直译就是“视觉-语言-动作”。VLA的目标是把相机或传感器看到的画面、能理解和处理自然语言的大模型能力,和最
    的头像 发表于 10-18 10:15 754次阅读

    西井科技端到端自动驾驶模型获得国际认可

    近日,西井科技AI创研团队在国际权威自动驾驶算法榜单NAVSIM v2中脱颖而出,凭借创新的端到端自动驾驶模型,以综合得分48.759的成绩荣登榜单全球第二位,并在多个关键安全指标上取得第一,充分彰显西井科技在
    的头像 发表于 10-15 17:20 1052次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    持续讨论。特别是在自动驾驶领域,部分厂商开始尝试将多模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与实际落地路径等维度来看,Transforme
    的头像 发表于 08-13 09:15 3917次阅读
    <b class='flag-5'>自动驾驶</b>中Transformer大<b class='flag-5'>模型</b>会取代深度学习吗?

    为什么自动驾驶端到端大模型有黑盒特性?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,端到端(End-to-End)大模型也成为行业研究与应用的热门方向。相较于传统自动驾驶系统中的模块化结构,端到端模型尝试直接从感知输
    的头像 发表于 07-04 16:50 591次阅读
    为什么<b class='flag-5'>自动驾驶</b>端到端大<b class='flag-5'>模型</b>有黑盒特性?

    卡车、矿车的自动驾驶和乘用车的自动驾驶在技术要求上有何不同?

    [首发于智驾最前沿微信公众号]自动驾驶技术的发展,让组合辅助驾驶得到大量应用,但现在对于自动驾驶技术的宣传,普遍是在乘用车领域,而对于卡车、矿车的自动驾驶发展,却鲜有提及。其实在卡车、
    的头像 发表于 06-28 11:38 718次阅读
    卡车、矿车的<b class='flag-5'>自动驾驶</b>和乘用车的<b class='flag-5'>自动驾驶</b>在技术要求上有何不同?

    自动驾驶中常提的世界模型是个啥?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的不断成熟,车辆需要在复杂多变的道路环境中安全地行驶,这就要求系统不仅能“看见”周围的世界,还要能“理解”和“推测”未来的变化。世界模型可以被看作一种
    的头像 发表于 06-24 08:53 739次阅读
    <b class='flag-5'>自动驾驶</b>中常提的世界<b class='flag-5'>模型</b>是个啥?

    新能源车软件单元测试深度解析:自动驾驶系统视角

    焦点是否落在目标物体上。某自动驾驶公司借此发现模型在夜间过度关注路灯而非行人。 ‌ 实时性保障: ‌时间感知测试框架(TAF)注入时间戳探针,监控函数执行耗时。例如,某路径规划算法因内存泄漏导致响应
    发表于 05-12 15:59

    自动驾驶安全程度达到99%是否就足够了?

    [首发于智驾最前沿微信公众号]五一假期,闲来无事,想到一个问题,现在监管部门对于自动驾驶的要求已经非常严苛,那自动驾驶要达到什么程度才算足够安全?如果达到99%,是否就可以商用了?抑或自动驾驶
    的头像 发表于 05-03 08:42 550次阅读

    模型如何推动自动驾驶技术革新?

    [首发于智驾最前沿微信公众号]近年来,人工智能技术正以前所未有的速度在各个领域渗透与应用,而大模型(大语言模型和多模态大模型)的迅猛发展为自动驾驶
    的头像 发表于 04-20 13:16 689次阅读
    大<b class='flag-5'>模型</b>如何推动<b class='flag-5'>自动驾驶</b>技术革新?

    自动驾驶模型中常提的Token是个啥?对自动驾驶有何影响?

    近年来,人工智能技术迅速发展,大规模深度学习模型(即大模型)在自然语言处理、计算机视觉、语音识别以及自动驾驶等多个领域取得了突破性进展。自动驾驶
    的头像 发表于 03-28 09:16 974次阅读

    NVIDIA Halos自动驾驶汽车安全系统发布

    NVIDIA 整合了从云端到车端的安全自动驾驶开发技术套件,涵盖车辆架构到 AI 模型,包括芯片、软件、工具和服务。 物理 AI 正在为自动驾驶和机器人开发技术的交叉领域释放新的可能性,尤其是加速了
    的头像 发表于 03-25 14:51 966次阅读