0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

VLA,是完全自动驾驶的必经之路?

Hobby观察 来源:电子发烧友 作者:梁浩斌 2025-06-18 00:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道 (文/梁浩斌)最近,智驾领域又出现多个“新名词”,比如蔚来推出的NWM、多家车企和智驾供应商都在宣传的VLA。实际上,从各家的路线来看,随着更大算力的芯片,比如小鹏、蔚来自研的智驾芯片,以及英伟达Thor的上车,越来越多的智驾方案选择VLA的路径。

那么本文就梳理一下当前智驾领域集中主流的大模型技术路线,以及各家厂商实现方式的区别和发展。

VLA和VLM

VLA即Vision-Language-Action,视觉-语言-动作模型。简单来说,VLA是一种结合视觉感知、语言理解和动作决策的多模态AI模型。VLA通过统一空间智能、语言智能和行为智能,使自动驾驶系统能够更全面地理解复杂环境并执行任务。

VLA的核心能力主要是三种,包括BEV、激光雷达等视觉输入;理解自然语言指令或场景描述等语言处理能力;以及对车辆控制动作输出的能力。最终通过这三种能力,实现从感知到决策的端到端闭环。

VLM即Vision-Language Model,视觉-语言模型,从名字上看,VLA就是在VLM的基础上增加了动作的能力,事实也确实如此。

VLA在VLM核心的多模态推理和理解能力上,增加了动作生成的能力,将VLM的输出,比如将“在这个路口要转左”的指令输出直接转化为车辆的控制信号,包括油门、方向盘角度、刹车力度等。

一般来说,VLA通常也是基于预训练的VLM基座模型,利用VLM具备的视觉和语言能力,引入动作预测模块进行扩展,使其适应各种任务,包括机器人,自动驾驶等。

具体到自动驾驶的应用中,VLA可以直接调用VLM生成的语义理解结果,比如识别视频画面中的交通标志、场景描述等,结合实时感知数据来生成车辆的控制指令。同时,VLA的执行结果,也可以反向优化VLM的场景理解能力,优化决策选择。

简单总结下来,VLM是倾向于认知的一个模型,它通过自然语言来描述出当前车辆前方的场景,以及“看到”哪些内容,并能够输出一些车辆控制指令的文本;VLA是侧重于动作控制,在获得场景的自然语言信息后,解决车辆应该如何继续行驶,比如作出避让、变道等动作,并直接输出油门、方向盘角度、刹车力度等具体的控制指令。

小鹏、理想、元戎落注VLA,但实现方式略有不同

目前小鹏、理想、元戎启行等车企和智驾公司,都展示了其VLA的技术布局,并表示即将量产。

元戎启行CEO周光在最近的2025年火山引擎Force原动力大会就宣布,将携手火山引擎,基于豆包大模型,共同研发VLA等前瞻技术,元戎骑行VLA模型将在2025年第三季度推向消费者市场。

理想汽车此前则透露VLA模型将在今年三季度搭载于理想L9/L8改款车型。

小鹏汽车在最近小鹏G7发布会上表示,将行业首发本地端VLA+VLM大模型。小鹏在车端实现VLA的方式大致是,采用超大参数云端大模型,训练出世界模型基座,再通过蒸馏的方式产出适配车端算力的小模型,最大限度地保留云端模型基座的核心能力。

今年4月,小鹏汽车对外宣布正在研发参数规模达到720亿的云端大模型,即“小鹏世界基座模型”。该基座模型是以大语言模型为骨干网络,使用海量优质驾驶数据训练的VLA大模型(视觉-语言-行为大模型),具备视觉理解能力、链式推理能力(CoT)和动作生成能力。目前,小鹏汽车已经在后装算力的车端上用小尺寸的基座模型实现了控车。在没有任何规则代码托底的情况下,新的“AI大脑”展现出令人惊喜的基础驾车技能,能够丝滑地加减速、变道绕行、转弯掉头、等待红绿灯等等。

在上周的计算机视觉顶会CVPR 2025上,小鹏汽车也分享了其基础模型的进展。小鹏世界基座模型负责人刘先明博士表示,小鹏汽车已经在云上训练了10亿、30亿、70亿、720亿等多个参数的模型,并且持续向模型“投喂”更大规模的训练数据。目前,小鹏世界基座模型累计“吃下”2000多万条视频片段(每条时长30秒)。

在这一过程中,研发团队清晰地看到了规模法则(Scaling Law)的显现。也就是说,模型的参数量越大、模型学习的数据越多,模型的性能越强。这是AI大模型浪潮以来,行业内首次明确验证规模法则在自动驾驶VLA模型上持续生效。

理想汽车的VLA路线则略有不同,是先对基座模型进行蒸馏,产出车端的蒸馏模型,然后再进行强化学习,实现“司机Agent”。

蔚来世界模型NWM

蔚来近期推送了其最新的NWM首个版本,据蔚来的介绍,蔚来世界模型NWM是一个多元自回归生成模型,具备空间认知和时间认知能力,能进行长时序决策与推演。蔚来世界模型 NWM同样是多模态输入输出,输入的多模态数据包含图像、语言,输出的多模态数据则包含图像和行动。

所以NWM其实是包含了VLA的所有特征,但不同之处在于,NWM对于空间理解的能力,以及长时序的建模能力会更强。

蔚来用停车场自主寻路的功能来展示NWM的认知、理解与推理能力。例如,当车辆在行驶过程中看到“15-20号楼→”的标牌时,它就能理解18号楼应当向右转;在上一个路口看到“出口直行”字样,当前路口却没有标牌,车辆也能推理出出口应该继续直行。

写在最后

元戎启行认为,VLA是通往完全自动驾驶的必经途径。当前VLA确实已经成为智驾的主流发展方向,而VLA对于车端的算力需求,还将会带动智驾芯片算力的需求爆发。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    791

    文章

    14670

    浏览量

    176522
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2500 TOPS!特斯拉HW5智驾算力怪兽突击,国产VLA火速进化

    电子发烧友网报道(文/莫婷婷)外媒报道称,特斯拉的“AI5 / HW5”下一代 FSD(完全自动驾驶)芯片已进入量产阶段。这款芯片拥有惊人的2000至2500 TOPS运算能力,远超当前市场主流智驾
    的头像 发表于 06-20 09:05 7635次阅读
    2500 TOPS!特斯拉HW5智驾算力怪兽突击,国产<b class='flag-5'>VLA</b>火速进化

    VLA能解决自动驾驶中的哪些问题?

    [首发于智驾最前沿微信公众号]很多从事自动驾驶的小伙伴应该对VLA这个概念已经非常熟悉了。VLA即“Visual-Language-Action”(视觉—语言—动作)模型,它的核心是将视觉信息
    的头像 发表于 11-25 08:53 178次阅读
    <b class='flag-5'>VLA</b>能解决<b class='flag-5'>自动驾驶</b>中的哪些问题?

    VLA和世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小鹏、小米为代表的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为主导的世界模型(World
    的头像 发表于 11-05 08:55 481次阅读
    <b class='flag-5'>VLA</b>和世界模型,谁才是<b class='flag-5'>自动驾驶</b>的最优解?

    自动驾驶上常提的VLA与世界模型有什么区别?

    自动驾驶中常提的VLA,全称是Vision-Language-Action,直译就是“视觉-语言-动作”。VLA的目标是把相机或传感器看到的画面、能理解和处理自然语言的大模型能力,和最终控制车辆
    的头像 发表于 10-18 10:15 754次阅读

    塑造自动驾驶汽车格局的核心技术

    自动驾驶汽车长期以来一直是科幻小说中的情节,但在如今的2025年,它似乎已经离我们越来越近,智能辅助驾驶已经出现在越来越多的新能源汽车中。但距离完全自动驾驶仍有需要克服的工程挑战。
    的头像 发表于 08-21 16:03 705次阅读

    自动驾驶达到什么技术标准才能称为L3级?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶技术时,常会陷入两个极端,一方面是大家对“完全自动驾驶”的美好愿景,另一方面是自动驾驶技术飞速发展过程中对于“安全隐患”的担忧。L3级自动驾驶
    的头像 发表于 08-21 10:37 1409次阅读
    <b class='flag-5'>自动驾驶</b>达到什么技术标准才能称为L3级?

    卡车、矿车的自动驾驶和乘用车的自动驾驶在技术要求上有何不同?

    [首发于智驾最前沿微信公众号]自动驾驶技术的发展,让组合辅助驾驶得到大量应用,但现在对于自动驾驶技术的宣传,普遍是在乘用车领域,而对于卡车、矿车的自动驾驶发展,却鲜有提及。其实在卡车、
    的头像 发表于 06-28 11:38 718次阅读
    卡车、矿车的<b class='flag-5'>自动驾驶</b>和乘用车的<b class='flag-5'>自动驾驶</b>在技术要求上有何不同?

    浅析4D-bev标注技术在自动驾驶领域的重要性

    自动驾驶技术的发展日新月异。从最初简单的辅助驾驶功能,逐步迈向高度自动化甚至完全自动驾驶的阶段。其中,海量且精准的数据是训练高性能自动驾驶
    的头像 发表于 06-12 16:10 1114次阅读

    自动驾驶安全基石:ODD

    电子发烧友网综合报道 自动驾驶ODD(Operational Design Domain)即设计运行域,是指自动驾驶系统被设计为安全、有效运行的具体条件范围。它定义了自动驾驶汽车在哪些环境、场景
    的头像 发表于 05-19 03:52 5799次阅读

    NVIDIA Halos自动驾驶汽车安全系统发布

    NVIDIA 整合了从云端到车端的安全自动驾驶开发技术套件,涵盖车辆架构到 AI 模型,包括芯片、软件、工具和服务。 物理 AI 正在为自动驾驶和机器人开发技术的交叉领域释放新的可能性,尤其是加速了
    的头像 发表于 03-25 14:51 966次阅读

    理想汽车推出全新自动驾驶架构

    2025年3月18日,理想汽车自动驾驶技术研发负责人贾鹏在NVIDIA GTC 2025发表主题演讲《VLA:迈向自动驾驶物理智能体的关键一步》,分享了理想汽车对于下一代自动驾驶技术M
    的头像 发表于 03-19 14:12 903次阅读

    英伟达高管:完全自动驾驶汽车尚需时日

    英伟达汽车业务负责人阿里·卡尼近日表示,完全自动驾驶汽车的实现还遥遥无期,预计至少要到下一个十年才有可能问世。尽管未来的自动驾驶技术将会取得显著进步,但卡尼强调,技术发展必须稳扎稳打,过度冒进可能会
    的头像 发表于 01-23 11:27 690次阅读

    英伟达:全自动驾驶汽车至少需十年

    自动驾驶技术迅猛发展的当下,英伟达作为该领域的重要参与者,却对完全自动驾驶的实现时间表达了审慎态度。 据Carscoops报道,英伟达汽车业务负责人阿里·卡尼直言,完全自动驾驶汽车“至少要到下一个
    的头像 发表于 01-23 11:08 828次阅读

    电动工具EMC测试整改:迈向高质量生产的必经之路

    深圳南柯电子|电动工具EMC测试整改:迈向高质量生产的必经之路
    的头像 发表于 01-14 14:29 790次阅读
    电动工具EMC测试整改:迈向高质量生产的<b class='flag-5'>必经之路</b>