0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

小鹏和理想均押注VLA,两者技术各有啥特色?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2026-03-19 08:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]随着高级辅助驾驶功能越发完善,高速NOA、城市NOA的使用已经较为普遍,这其中离不开VLA(视觉-语言-动作)模型的推动。

VLA大模型的出现,也标志着行业正式从“感知识别”迈向了“理解决策”。以前的智驾系统更像是一个经验丰富的“反射神经”,看到红灯就停,看到障碍物就绕,但它并不理解为什么要这么做。

VLA模型把人类的常识、逻辑推理能力与驾驶行为直接挂钩。通过将海量的图像数据与语言理解能力结合,模型不再只是计算像素点,而是像人类一样去“观察”并“理解”物理世界的因果关系,最后直接输出方向盘转角、刹车力度等控制指令。这种从输入到输出的跨越,让车具备了处理从未见过的新场景的能力。

简单理解下VLA模型,其就是让车辆做到了“看懂世界、理解意图、做出动作”这三件事。

wKgZPGm7ShaAb2Y-AACupHq5c98188.jpg

图片源自:网络

最近理想汽车和小鹏也相继发布了最新的VLA模型,让自动驾驶的技术竞争进入了一个全新的阶段。那这两家发布的VLA模型都有哪些特色?都就解决了自动驾驶的哪些问题?今天智驾最前沿就带大家来聊一聊。

在开始今天的话题前,先申明一下,本次内容的素材均源自于理想与小鹏发布的内容,若内容出现歧义或存在错误,也欢迎大家评论区补充。

wKgZO2m7SheAfOhoAAAQo00DEvw960.jpg

理想MindVLA-o1,在隐空间里推演未来

从理想的MindVLA-o1的介绍中来看,MindVLA-o1偏“体系化设计”。它不只是一个模型,而是一整套从数据、模型到训练和部署的闭环系统。

wKgZPGm7SheAArBmAABTJedny0U536.jpg

图片源自:理想汽车微信公众号

理想明确引入了3D建模能力。通过视觉模型结合激光雷达点云作为几何提示,让模型在内部形成更稳定的空间结构表示。这一点和纯视觉路线相比,更强调“物理一致性”,也更利于处理如遮挡、坡道、非规则障碍物等复杂空间关系。

理想还在MindVLA-o1中引入了预测式隐世界模型,可以在隐空间中高效模拟未来。简单理解,就是让模型不仅可以看当前,还能在内部模拟未来几秒的场景变化。对于自动驾驶来说,很多驾驶动作本质上就是对未来的预测,这种能力如果做得好,可以显著提升决策稳定性。

在行为生成部分,理想还采用了VLA-MoE(混合专家模型)+Action Expert(动作专家)、并行解码(Parallel Decoding)以及Discrete Diffusion(离散扩散)等更结构化的方式。这类设计的目标很明确,就是让输出轨迹在时间上更连续,在物理上更合理。

理想还投入大量精力在仿真和强化学习上,通过可控环境进行大规模训练,再结合真实数据闭环。这种方式的优势是可以覆盖大量长尾场景,而不完全依赖真实道路采集。

同时,理想在模型设计阶段就考虑硬件限制,通过软硬件协同去优化部署效率,这对于大模型落地是非常关键的一步。

整体来看,理想MindVLA-o1是一条更偏长期能力构建的路线,强调模型结构、训练体系和工程闭环的完整性。

wKgZO2m7ShiANe6wAAAR42n7O-I305.jpg

小鹏第二代VLA,更偏产品化和数据闭环

小鹏的第二代VLA更强调尽快在真实用户场景中跑起来。它的核心思路是尽量减少规则依赖,用大模型去直接学习驾驶行为,并通过车端数据不断迭代。

其一个比较关键的特点是对连续视频流的使用。相比传统只用关键帧或抽象特征,小鹏更强调时间连续的信息输入,这让模型在处理前车减速、行人横穿等动态场景时更稳定,决策不会出现明显跳变。

在感知中小鹏并没有强调复杂的显式三维重建,而是更依赖模型自身去学习空间关系。这种做法的好处是结构更简单,端到端程度更高,但代价是对数据规模和模型能力依赖更强。

小鹏第二代VLA另一个明显特征是“分层产品策略”(含三个版本)。高算力平台承载完整能力,再通过蒸馏压缩到中低算力车型。这其实是一个典型的工程折中,其既保证了技术上限,又能快速规模化落地。

从体验指标来看,小鹏更关注接管次数、重刹等用户感知明显的指标。这说明它的优化目标更偏“驾驶是否自然、是否让人放心”,而不是单一的技术指标。

此外,小鹏还强调“软硬结合”,通过自研的图灵AI芯片,他们把硬件的有效算力发挥到了极致。在小鹏的架构中,模型不再是一个孤立的算法,而是与芯片指令集、AI编译器深度绑定的整体。这种设计让模型能以极高的频率去吞吐视频流数据,确保了在复杂路况下的实时响应速度。

整体来看,这是一条以真实数据驱动为核心、强调快速迭代和规模落地的路线。小鹏的技术逻辑其实也非常清晰,既然物理世界的数据量巨大且连续,那就通过最强悍的算力底座和最高效的模型架构,直接去消化这些海量信息。

wKgZO2m7ShmAeBrhAAASG3BOmsQ748.jpg

智驾最前沿观点?

对比这两家的方案,智驾最前沿以为它们在解决自动驾驶上限问题时选择了不同的发力点。理想试图通过构建完美的物理模型和模拟器,让车学会如何像人一样去思考物理定律,从而在未知的环境中找到答案。它的优势在于它对场景的还原度和对未来的预测精度,这让它的车在面对复杂路口和人车交互时,表现得更加冷静且符合逻辑。

而小鹏则更看重系统的爆发力和执行效率。其强调大模型带来的能力提升必须建立在高效的算力流转基础之上,所以他们把大量的精力花在了如何让大模型在有限的端侧设备上跑得更顺畅、吞吐量更大。

如果说理想是在提升车的“智商”,那么小鹏就是在通过重构身体结构(芯片与编译器)来释放大脑的潜力。

wKgZPGm7ShqAHl8qAAadZZ1MXyI307.jpg

图片源自:网络

从这两家发布的技术中,我们也可以看到一个清晰的趋势,自动驾驶正在加速向具身智能演进。无论是理想的“数字大脑”类比,还是小鹏对“物理AI”基座的重构,其实都在表达同一个观点,那就是车只是AI介入物理世界的第一个载体。

未来的核心竞争力,不再是某一个功能可以做到什么程度,而是谁能构建出一套通用性最强、自进化速度最快的底层架构。

在我看来,目前的难点其实在于端侧部署的效率红线。即便模型再聪明,如果在车端运行时的延迟过高,一切都是空谈。因此,小鹏这种从底层芯片开始重构的路径,在长远来看具有极强的技术护城河。而理想通过世界模型实现的闭环强化学习,则在数据获取成本和模型进化效率上找到了平衡。

未来这两条路线可能会殊途同归,即在拥有强大硬件底座的基础上,通过世界模型进行大规模的自我进化。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Vla
    Vla
    +关注

    关注

    0

    文章

    22

    浏览量

    5913
  • 自动驾驶
    +关注

    关注

    794

    文章

    14976

    浏览量

    181361
  • 小鹏
    +关注

    关注

    0

    文章

    68

    浏览量

    1501
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2500 TOPS!特斯拉HW5智驾算力怪兽突击,国产VLA火速进化

    芯片水平。与此同时,国内车企如小理想等也在加速自身技术进化,推出基于VLA的新一代智能驾驶解决方案。   未来,特斯拉能否凭借HW5与FSD技术
    的头像 发表于 06-20 09:05 8748次阅读
    2500 TOPS!特斯拉HW5智驾算力怪兽突击,国产<b class='flag-5'>VLA</b>火速进化

    发布 X-World 世界模型:已全面应用第二代VLA

    电子发烧友网综合报道 近日,小汽车正式发布 X-World 生成式世界模型技术报告,并同步公开 arXiv 技术论文,这是业内面向端到端自动驾驶、可工程化落地的多摄像头可控世界模型,目前已全面用于
    的头像 发表于 04-14 10:11 5794次阅读

    【飞凌嵌入式RV1126B开发板】+款开发板之比较

    由图可以看出看出,两者采用组合式结构设计,所不同是飞凌开发板所使用的核心板是采用齿孔引脚被焊接到功能底板,而灵眸开发板是采用插接式来连接核心板。 在供电方式上,两者均是采用外部的电源适配器来供电,所
    发表于 03-05 23:32

    VLA模型是基于预置规则来指导行动吗?

    [首发于智驾最前沿微信公众号]今天继续来回答小伙伴的提问,最近有一位小伙伴提问,VLA模型中的理解是不是也基于一些预置的规则指导行动的?其实这个问题非常值得讨论,今天智驾最前沿就带大家详细聊一聊
    的头像 发表于 12-25 09:22 1376次阅读
    <b class='flag-5'>VLA</b>模型是基于预置规则来指导行动吗?

    VLA与世界模型有什么不同?

    Language Action,VLA),另一些则致力于构建并应用世界模型(World Model)。这种路径有什么不同? 什么是VLA,什么是世界模型 先说说VLA
    的头像 发表于 12-17 09:13 856次阅读
    <b class='flag-5'>VLA</b>与世界模型有什么不同?

    VLA能解决自动驾驶中的哪些问题?

    、语言表达和动作控制这三整合到一个统一的模型框架中。 与传统自动驾驶系统将感知、预测、规划、控制拆解为多个独立模块的做法不同,VLA可以缩短“看见什么”和“如何行动”之间的鸿沟,构建一个能直接将视觉输入和语言描述映射到具体动作或策略的模型。 这类模型通常
    的头像 发表于 11-25 08:53 616次阅读
    <b class='flag-5'>VLA</b>能解决自动驾驶中的哪些问题?

    VLA和世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出种趋势,一边是以理想、小、小米为代表的VLA(视觉—语言—行动)模
    的头像 发表于 11-05 08:55 919次阅读
    <b class='flag-5'>VLA</b>和世界模型,谁才是自动驾驶的最优解?

    谷歌AlphaEarth和维智时空AI大模型的技术路径

    谷歌AlphaEarth和维智时空AI大模型在应用场景和技术实现上各有侧重,但两者在底层技术理念上存在显著共性。
    的头像 发表于 10-22 14:48 1025次阅读

    种TVS有不同?

    当我们查看TVS二极管的规格书,常会看到有以下种种引脚功能标识图:对于初学者,看到感到疑惑,他们一样吗?他们有区别?为啥有的个尖头往外,阳极连在一起,有的个尖头往里,阴极连在一
    的头像 发表于 09-15 20:27 954次阅读
    这<b class='flag-5'>两</b>种TVS有<b class='flag-5'>啥</b>不同?

    VLA,是完全自动驾驶的必经之路?

    电子发烧友网报道 (文/梁浩斌)最近,智驾领域又出现多个“新名词”,比如蔚来推出的NWM、多家车企和智驾供应商都在宣传的VLA。实际上,从各家的路线来看,随着更大算力的芯片,比如小、蔚来自研的智驾
    的头像 发表于 06-18 00:06 9719次阅读

    元戎启行周光:VLA模型将于2025年第三季度量产

    2025年6月11日,元戎启行CEO周光受邀出席2025年火山引擎Force原动力大会,宣布元戎启行将携手火山引擎,基于豆包大模型,共同研发VLA等前瞻技术,打造物理世界的Agent。同时,周光宣布
    发表于 06-12 09:45 1364次阅读
    元戎启行周光:<b class='flag-5'>VLA</b>模型将于2025年第三季度量产

    CDS与SDS供液系统两者之间的区别

    CDS(中央化学液供应系统)与SDS(自动供液系统)在半导体、医疗等领域均有应用,但两者在功能定位、技术特点及应用场景上存在显著差异。以下是两者的核心区别: 1. 功能定位与系统架构 CDS(中央
    的头像 发表于 05-12 09:10 3176次阅读

    特斯拉FSD、蔚来NAD、小XNGP、华为ADS 2.0、理想AD Max、百度Apollo Lite等系统按技术点进行对比汇总

    主流智能驾驶系统从感知方案到算法架构各有特色,下面对特斯拉FSD、蔚来NAD、小XNGP、华为ADS 2.0、理想AD Max、百度Apollo Lite等系统按技术点进行对比汇总。
    的头像 发表于 05-10 15:15 5501次阅读

    时钟电路与晶振电路两者的区别有哪些

    在数字电子系统设计中,时钟电路与晶振电路是个高频出现的概念。虽然二紧密相关且常被协同讨论,但从功能定位、电路构成到应用场景都存在本质差异。本文将从技术原理出发,系统解析两者的区别。
    的头像 发表于 05-05 15:19 2408次阅读

    嵌入式和单片机的区别?一文简单明了的给你讲透两者技术本质!

    上周有个做智能硬件创业的朋友问我:"我们产品用的是STM32单片机,但方案商总说要做嵌入式系统,这两者到底有区别?"这个问题其实戳中了大多数电子工程师的认知盲区。作为深耕物联网
    的头像 发表于 04-21 16:10 3253次阅读
    嵌入式和单片机的区别?一文简单明了的给你讲透<b class='flag-5'>两者</b>的<b class='flag-5'>技术</b>本质!