0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么把VLA直接放上自动驾驶汽车没那么容易?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2025-09-23 09:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]在自动驾驶领域,经常会有技术提出将VLA(视觉—语言—动作模型)应用到自动驾驶上。VLA的作用就是把看、懂、决策三件事交给一个大模型,摄像头看到画面,模型用“视觉+语言”去理解场景和意图,最后直接输出要不要转向、踩刹车这样的动作。这个模型的好处显而易见,模型能用更丰富的语义理解来辅助决策,理论上更灵活、更接近“人怎么想就怎么做”的需求。但从实际落地和安全角度看,直接将自动驾驶汽车的行驶全部交给VLA,又有很多现实的难点和坑。

wKgZO2jR-NqASeV2AABcp8AnFYo712.jpg

wKgZPGjR-NqAIQQ8AAAQo00DEvw689.jpg

边缘场景或将难以理解

大模型是靠大量数据学会“看”和“说”,但自动驾驶强调的是不能能“看”,更要能做对事。交通环境中常见的场景很容易被模型学会,但真正危险的往往是那些如临时摆放的异物、非常规施工标识、突然冲出来的行人、凹陷或湿滑的路面、以及复杂的多车交互等不常见的极端情况。把这些长尾场景都采集齐全几乎不可能,尤其是要配套高质量的动作标签(也就是在那些场景下“应该怎么做”)更是难上加难。

对于边缘场景,有些技术方案提出使用仿真帮忙补样本,但仿真和真实世界总有差距。光照、材质、行人行为建模都很难完全拟合现实。有时在仿真里“得分高”的策略,也可能利用了仿真里的漏洞,如果这些策略到了真车上反而会危险。对于大模型学习还有一点不容忽视,用于训练控制的标签必须是物理可实现的。不是所有人为操作示例都适合直接当作监督信号;一些看起来“聪明”的人为反应其实依赖于人类的直觉和肉体补偿(比如猛打方向时人的身体补偿),模型直接模仿这些反而可能超出车辆动力学极限。

因此单靠堆数据和堆算力,无法把所有可能的危险都消灭掉。更可行的做法是把VLA用来补强语义理解和异常检测,而不是把完全的控制权一次性托付给它。把它当成能给出“高层建议”的大脑,而由经过验证的低级控制器来做最终执行,会安全得多。

wKgZO2jR-NqAUVIhAAAR42n7O-I200.jpg

能想出来不等于能做得到

语言模型擅长推理和生成,但车辆有明确的物理约束。一个优秀的驾驶“想法”可能需要的转向角、加速度或车体倾斜等要求,有些在现实中可能根本实现不了。若不把这些物理约束强行嵌入到输出环节,模型又有可能提出不可行或危险的轨迹。对于这类问题,要么在模型输出端加上物理约束或后验校正,要么把动作空间离散化让模型只选“有限个可行动作”。前者可以保持流畅性但增加工程复杂度,后者虽然简单但牺牲了自然和效率。

还有就是时序问题。自动驾驶的控制回路有严格的频率和延迟要求。若模型在算力受限的车端运行太慢,或者把重要推理放在云端遇到网络波动,决策就会基于旧画面来执行,这反而会带来驾驶风险。那种“决策滞后于现实”的情况,比决策错误还危险。很多常见的解决思路是“快思维+慢思维”架构,小而稳定的模型在车端做基础感知和闭环控制,复杂的语义推理和策略优化放在后台或云端,只在非关键时刻下提供建议。但这要求架构设计非常严谨,必须保证背景推理的结论不会在关键时刻破坏即时控制路径。

训练端到端系统常用的方法之一是强化学习或带有奖励的优化。若奖励函数设计不当,模型可能学到在训练或仿真中高分但现实里危险的策略。比如会利用某些规则漏洞快速完成任务,或者在仿真里靠冒险动作取胜。解决这类问题需要把安全约束显式纳入训练目标,或采用混合监督(让模型既学专家示范也学安全约束),还要在训练里引入更多对抗和扰动场景。但这些措施会显著抬高训练成本和验证复杂度。

其实对于模型来说,算力和成本也是需要直面的问题,更大的模型意味着更贵、更耗电、更热、需要更强的散热设计,这直接影响整车成本和可靠性。这就要求厂商采用“既省钱又靠谱”的折中方案,而不是盲目堆模型参数。

wKgZO2jR-NuAPbafAAASG3BOmsQ017.jpg

黑箱很难过审,责任也难界定

传统自动驾驶系统将感知、预测、规划、控制等各模块分得非常清晰,各模块可以单独验收、打桩测试、形式化验证。端到端的VLA可以把这些环节耦合在一起,提升效率,但出问题时也很难追根溯源。监管机构、保险公司和法律体系更信任可审计、可重放、可证明的决策路径。一个不能解释为何在某一时刻紧急转向或未能刹停的黑箱模型,在面对事故调查和责任认定会极为不利。

这就要求必须设计日志机制、关键中间态保存和可回溯的决策证据。把VLA用于生成解释性文本(例如“由于前方有临时施工牌,我建议减速”)是一条可行路径,但这种解释必须真实可验证,不能只是后置拼凑的“借口”。此外,形式化安全约束和保证性测试在端到端系统里更难做,需要新的验证方法论和更多的试验数据,短期内法规适配也是一道门槛。

wKgZPGjR-NyAA86yAAASAJELks8633.jpg

视觉好用但不会在所有场景都看清

VLA的名字里有个“V”(视觉),这意味着相机会是主传感器。相机能提供丰富的语义信息,但在弱光、逆光、雾霾、雨雪或被遮挡时,它的表现会明显下降。雷达和激光雷达在测距和穿透性上有优势,但它们给出的信息不是“语义友好”的,对于“这是谁/这块牌子意味着什么”的解释不如视觉直观。把视觉的语义理解和雷达/激光雷达的物理量整合起来,是一件技术上复杂但很有必要的事。

此外,同样的视觉目标在不同城市或国家外观可能差别很大,标准交通标识、路面材质、车辆样式都不同。模型的跨域迁移需要大量本地化数据和细致的微调,不然在新环境中容易出问题,就像特斯拉FSD在国内使用初期,其表现也并不是很好。简而言之,要让大模型做到“放车就能跑遍全世界”,现阶段还不现实。

wKgZPGjR-NyAHunUAAARwcz1hbg090.jpg

如何安全地把控制权还给人?

VLA最大的优势之一是能用自然语言和人互动,这对用户体验很重要。但自然语言含糊和歧义性极高。用户可能给出矛盾或不完整的指令,系统必须在理解意图与遵守安全约束之间平衡。还有一个更现实的情况是,系统在遇到边缘场景时,如何安全地把控制权还给人?人被动从乘客身份到主动接管需要时间和注意力切换,如果这个过程设计不当,就会增加风险。因此,需要明确接管触发条件、足够的时间窗和清晰的提示方式,同时在设计上尽量减少对用户即时高复杂度决策的依赖。

对于消费者来说,对自动驾驶汽车的信任也非常关键。一次危险的动作就可能毁掉用户对系统的信心。要建立信任,系统需要持续可靠且能解释自己的行为。VLA在解释性输出方面有天然优势,但前提是解释必须准确、可验证,并且易于理解。

wKgZO2jR-N2Ac3wnAAATCLDSk7w761.jpg

可落地的折中策略

鉴于VLA模型不可不去面对的这些挑战,现阶段最务实的做法是渐进式、混合式落地。把VLA用在语义理解、异常检测、场景注释、人机交互等对实时性不那么敏感但对语义能力要求高的功能上,让它成为“智能的助手”;对于关键的高频控制仍然交给经过验证的低级控制器。还有一种思路就是把VLA当作慢思维:在后台做长时间的策略优化、驾驶风格学习和复杂场景分析,再把受限的结论以可解释且受约束的方式下发给车端控制系统

对于商用化的模型,还必须设计好回退机制、日志与可审计模块,并把它们写进每一次版本的验收标准。数据采集策略要优先覆盖那些影响安全的长尾场景,仿真和现实测试要结合进行,验证体系要能给出可量化的安全证据而不是单纯的性能曲线。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Vla
    Vla
    +关注

    关注

    0

    文章

    14

    浏览量

    5880
  • 自动驾驶
    +关注

    关注

    791

    文章

    14672

    浏览量

    176618
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    VLA能解决自动驾驶中的哪些问题?

    、语言表达和动作控制这三者整合到一个统一的模型框架中。 与传统自动驾驶系统将感知、预测、规划、控制拆解为多个独立模块的做法不同,VLA可以缩短“看见什么”和“如何行动”之间的鸿沟,构建一个能直接将视觉输入和语言描述映射到具体动作
    的头像 发表于 11-25 08:53 184次阅读
    <b class='flag-5'>VLA</b>能解决<b class='flag-5'>自动驾驶</b>中的哪些问题?

    自动驾驶汽车如何确定自己的位置和所在车道?

    [首发于智驾最前沿微信公众号]我们平时开车时,判断自己在哪条路、哪个车道,只需要看一眼导航、扫几眼车道线、再听听提示就够了。但对自动驾驶汽车来说,这件事既简单又复杂。简单在于自动驾驶汽车
    的头像 发表于 11-18 09:03 575次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>汽车</b>如何确定自己的位置和所在车道?

    VLA和世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小鹏、小米为代表的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为主导的世界模型(World
    的头像 发表于 11-05 08:55 483次阅读
    <b class='flag-5'>VLA</b>和世界模型,谁才是<b class='flag-5'>自动驾驶</b>的最优解?

    自动驾驶上常提的VLA与世界模型有什么区别?

    自动驾驶中常提的VLA,全称是Vision-Language-Action,直译就是“视觉-语言-动作”。VLA的目标是相机或传感器看到的画面、能理解和处理自然语言的大模型能力,和最
    的头像 发表于 10-18 10:15 759次阅读

    如何确保自动驾驶汽车感知的准确性?

    [首发于智驾最前沿微信公众号]自动驾驶汽车想要自动驾驶,首先要做的就是能对周边环境实现精准感知,也就是能“看”清道路,那自动驾驶汽车如何在复
    的头像 发表于 08-23 15:06 1378次阅读
    如何确保<b class='flag-5'>自动驾驶</b><b class='flag-5'>汽车</b>感知的准确性?

    塑造自动驾驶汽车格局的核心技术

    自动驾驶汽车长期以来一直是科幻小说中的情节,但在如今的2025年,它似乎已经离我们越来越近,智能辅助驾驶已经出现在越来越多的新能源汽车中。但距离完全的
    的头像 发表于 08-21 16:03 708次阅读

    太阳光模拟器 | 在汽车自动驾驶开发中的应用

    汽车产业向电动化、智能化转型的浪潮中,自动驾驶技术的研发面临着复杂环境感知的挑战。光照条件作为影响传感器性能的关键因素,直接关系到自动驾驶系统的安全性和可靠性。紫创测控Luminbo
    的头像 发表于 07-24 11:26 434次阅读
    太阳光模拟器 | 在<b class='flag-5'>汽车</b><b class='flag-5'>自动驾驶</b>开发中的应用

    自动驾驶汽车是如何准确定位的?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的快速发展,车辆的精准定位成为安全驾驶与路径规划的核心基础。相比于传统人类驾驶依赖路标和视觉判断,自动驾驶
    的头像 发表于 06-28 11:42 886次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>汽车</b>是如何准确定位的?

    VLA,是完全自动驾驶的必经之路?

    芯片,以及英伟达Thor的上车,越来越多的智驾方案选择VLA的路径。   那么本文就梳理一下当前智驾领域集中主流的大模型技术路线,以及各家厂商实现方式的区别和发展。   VLA 和VLM  
    的头像 发表于 06-18 00:06 8710次阅读

    NVIDIA Halos自动驾驶汽车安全系统发布

    自动驾驶汽车的开发。正确的技术与框架对确保自动驾驶汽车驾驶员、乘客和行人的安全至关重要。 因此,NVIDIA 推出了NVIDIA Halos综合安全系统,将 NVIDIA 的
    的头像 发表于 03-25 14:51 969次阅读

    理想汽车推出全新自动驾驶架构

    2025年3月18日,理想汽车自动驾驶技术研发负责人贾鹏在NVIDIA GTC 2025发表主题演讲《VLA:迈向自动驾驶物理智能体的关键一步》,分享了理想
    的头像 发表于 03-19 14:12 906次阅读

    从《自动驾驶地图数据规范》聊高精地图在自动驾驶中的重要性

    自动驾驶地图作为L3级及以上自动驾驶技术的核心基础设施,其重要性随着智能驾驶技术的发展愈发显著。《自动驾驶地图数据规范》(DB11/T 2041-2022)由北京市规划和自然资源委员会
    的头像 发表于 01-05 19:24 2871次阅读
    从《<b class='flag-5'>自动驾驶</b>地图数据规范》聊高精地图在<b class='flag-5'>自动驾驶</b>中的重要性

    线控底盘如何让自动驾驶加速奔跑?

    线控底盘技术是智能驾驶系统的核心技术之一,通过电子信号取代传统的机械传动,实现车辆动力、转向、制动、悬架及换挡等功能的精准控制。它不仅是实现L3及以上自动驾驶的关键,也是推动智能化汽车快速发展的技术
    的头像 发表于 12-13 09:41 1262次阅读
    线控底盘如何让<b class='flag-5'>自动驾驶</b>加速奔跑?

    本田与通用汽车终止自动驾驶合作

    近日,据报道,本田汽车将解除与通用汽车自动驾驶汽车领域的合作关系。这一决定意味着双方此前在自动驾驶技术上的共同探索将告一段落。 通用
    的头像 发表于 12-12 10:45 1172次阅读