0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

理想MindVLA-o1让自动驾驶更像人?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2026-03-23 09:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]最近理想汽车发布的MindVLA-o1引起了不少人的讨论,今天就详细和大家聊聊理想的MindVLA-o1到底实现了什么功能。其实从理想汽车的介绍中,MindVLA-o1的核心逻辑非常明确,即它不再把自动驾驶看作一个由感知、预测、规划组成的拼图游戏,而是试图通过一个统一的视觉-语言-动作模型,直接去模拟人类司机的驾驶逻辑。

wKgZPGnAk_2AAIWbAABTJedny0U592.jpg

图片源自:理想汽车

这种改变意味着车子不再是单纯地执行指令,而是在理解物理世界的基础上进行思考。

传统自动驾驶系统各功能其实是分开的,感知负责看见,规划负责决策,控制负责执行。这样做的好处是结构清楚,坏处也很明显,就是各个模块之间容易割裂,在遇到复杂场景时,信息传递不够顺,系统也很难形成统一理解。

MindVLA-o1做的就是尽量把这些能力放到一个模型里,让它不只是“看见了什么”,还要“明白这意味着什么”,并进一步判断“接下来该怎么做”。

wKgZO2nAk_2AbfdfAAAQo00DEvw941.jpg

从“看见路”到“理解路”

MindVLA-o1在感知层面不是单纯把图像识别做得更细,而是把三维空间理解补起来。理想采用以视觉为核心的3D ViT Encoder,同时把激光雷达点云当作三维几何提示,帮助模型更好地理解真实空间结构。这个做法的价值在于它让模型不只是识别前方有车、有行人、有障碍物,还能更稳定地把这些目标放到具体的三维关系里去理解。

wKgZPGnAk_6AVcGcAABW2MzCcvg568.jpg

图片源自:理想汽车

这一步其实很关键,因为自动驾驶真正难的地方,从来不只是“有没有看到”,而是“有没有看懂”。同一个目标,在不同距离、不同遮挡、不同道路结构下,系统对它的判断会完全不同。把语义信息和三维空间信息合到一起,模型对场景的把握才会更完整。

理想还引入了前馈式3DGS表示,把静态环境和动态物体分开建模,再通过下一帧预测作为自监督信号,让模型同时学到深度、语义和运动变化。这样做的结果,是模型对环境的理解不再停留在单帧图像,而是带上了时间维度。

智驾最前沿以为,这部分其实是让自动驾驶从二维识别往三维场景理解迈了一大步。它解决了自动驾驶一个很现实的问题,即车在路上面对的从来不是静态图片,而是连续变化的空间。

wKgZO2nAk_6AJQQ3AAAR42n7O-I323.jpg

从“判断当下”到“推演下一秒”

如果说空间理解解决的是“眼前看得清”,那多模态思考解决的就是“接下来怎么想”。理想在MindVLA-o1里引入了预测式隐世界模型,让模型能够在隐空间里模拟未来的场景变化。

它不是简单地做一个下一帧预测,而是把世界模型、多模态推理和驾驶行为联合起来训练,让模型在做决策之前,先在内部把未来的可能性推演一遍。

这一点很像人类驾驶员的真实思考方式。人类驾驶员并不会只看当前这一秒的画面,而是会顺着路况、车速、交通参与者的动作,提前判断接下来可能发生什么。

MindVLA-o1想做的,就是把这种能力放进模型里。它通过海量视频预训练隐世界词元,再持续强化世界模型推演能力,最后把这些能力和驾驶动作对齐。这样一来,模型在面对复杂场景时,不只是做当下反应,还能提前形成对未来几秒的判断。

这也是智驾最前沿认为MindVLA-o1最有价值的地方之一。很多大模型讲“会思考”,但在自动驾驶里,真正有用的思考不是抽象推理,而是对未来场景变化的预判。

车速、距离、轨迹、相对位置,这些东西都要求模型对时间有稳定理解。只有把这种能力做进了系统里,才让“想得更深”不只是口号。

wKgZO2nAk_-AA1OSAAASG3BOmsQ814.jpg

从“输出动作”到“稳定开车”

自动驾驶最后要实现的一定要落到动作上,而动作生成往往最容易暴露系统短板。理想在这里做的是统一行为生成。

MindVLA-o1使用VLA-MoE架构,并加入Action Expert,从3D场景特征、导航目标和驾驶指令中提取信息,再结合前面的多模态思考,直接生成高精度驾驶轨迹。

它不是把几个模块拼起来再凑一个结果,而是尽量让“理解”和“动作”之间少一些中间损耗。

wKgZPGnAlACAJ-M4AAadZZ1MXyI757.jpg

图片源自:网络

在这个方面理想还有两个很重要的设计。一个是并行解码,也就是一次性生成所有轨迹点,提升实时性。另一个是离散扩散,用多轮迭代的方式去优化轨迹,让轨迹更连续、更稳定,也更符合车辆动力学约束。

这个部分听起来不像感知和推理那么“高大上”,但它恰恰决定了车开起来稳不稳。模型能不能在复杂场景下给出平顺、可执行、可控的动作,最终还是看这一层。

智驾最前沿觉得,MindVLA-o1在动作生成上的意义不在于“更会开车”,而在于它开始像一个真正的驾驶系统,而不是一个只会给答案的模型。

自动驾驶最怕的其实不是看不见,而是看见了却做出不稳定、不连贯的动作。统一行为生成解决的,正是这个问题。

wKgZO2nAlACAcQ5kAAASAJELks8434.jpg

MindVLA-o1是一套会进化的系统?

MindVLA-o1不只是一个静态模型,它背后还有一整套闭环强化学习和软硬件协同设计。理想把传统逐步优化式重建,升级成前馈式场景重建,让系统能更快生成大规模、高保真的驾驶场景,再结合世界模拟器持续训练和优化。

这个思路的核心,不是靠一次训练定终局,而是让模型在仿真和真实世界之间不断循环,持续修正自己。

与此同时,理想还把模型设计和硬件约束放到一起考虑。通过Roofline模型分析计算能力和内存带宽限制,再评估近2000种架构配置,最终找出精度和推理延迟之间的平衡点。

wKgZPGnAlACALQpUAABQMQtwIVI953.jpg

图片源自:理想汽车

这个动作很重要。因为自动驾驶不是实验室里的模型比赛,模型再强,放不上车、跑不动、调不快,都没有意义。MindVLA-o1能被认真讨论,不只是因为它提出了新结构,更因为它把“怎么上车”这件事摆到了同等重要的位置。

从这个角度看,MindVLA-o1真正实现的,不是单点突破,而是一整套面向物理世界智能的能力拼接起来了。

看得更远,是三维空间理解;想得更深,是多模态思考;行得更稳,是统一行为生成;进化更快,是闭环强化学习;部署更高效,是软硬件协同。这五件事合在一起,才构成了它的完整价值。

wKgZO2nAlAGAD6m-AAARwcz1hbg004.jpg

结语

如果只把MindVLA-o1看成一套自动驾驶新模型,理解会太窄。理想真正想表达的,是自动驾驶正在从“功能系统”走向“物理世界智能系统”。它现在当然还主要服务于车,但它的结构已经不再局限于车。视觉、语言、行动统一之后,模型就有了扩展到机器人等物理系统的可能。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 正激理想
    +关注

    关注

    0

    文章

    2

    浏览量

    6359
  • 自动驾驶
    +关注

    关注

    794

    文章

    14976

    浏览量

    181361
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    理想汽车发布下一代自动驾驶基础模型MindVLA-o1

    2026年3月17日,理想汽车基座模型负责人詹锟出席NVIDIA GTC 2026,发表主题演讲《MindVLA-o1:开启全能范式——下一代统一视觉-语言-动作自动驾驶大模型探索》,发布
    的头像 发表于 03-18 11:51 1467次阅读
    <b class='flag-5'>理想</b>汽车发布下一代<b class='flag-5'>自动驾驶</b>基础模型<b class='flag-5'>MindVLA-o1</b>

    如何构建适合自动驾驶的世界模型?

    提出的。那世界模型是自动驾驶落地的正解吗? 什么是世界模型? 世界模型对于自动驾驶汽车来说,更像是给汽车大脑里绘制一张地图,可以将环境的现状和未来可能的演变都表示出来,
    的头像 发表于 02-18 08:14 1.1w次阅读
    如何构建适合<b class='flag-5'>自动驾驶</b>的世界模型?

    Transformer如何自动驾驶大模型获得思考能力?

    在谈及自动驾驶时,Transformer一直是非常关键的技术,为何Transformer在自动驾驶行业一直被提及?
    的头像 发表于 02-01 09:15 4373次阅读

    如何设计好自动驾驶ODD?

    为确定自动驾驶的可使用范围,会给自动驾驶设置一个运行设计域(Operational Design Domain,ODD)。ODD的作用就是用来明确自动驾驶在什么情况下能工作,在什么情况下不能工作,给车设定“工作范围”。
    的头像 发表于 01-24 09:27 1721次阅读

    端到端是怎么自动驾驶更像老司机的?

    [首发于智驾最前沿微信公众号]如果将自动驾驶的发展史比作人类的学习历程,那么在过去很长一段时间里,这个“学生”其实一直都在背诵极其繁琐的教条。这一阶段的自动驾驶系统使用的是模块化架构,它的运行高度
    的头像 发表于 01-21 09:29 325次阅读
    端到端是怎么<b class='flag-5'>让</b><b class='flag-5'>自动驾驶</b><b class='flag-5'>更像</b>老司机的?

    汽车行业迎来L3级自动驾驶上路潮!华为、小鹏、理想抢跑

    近日,国内自动驾驶领域接连迎来重大进展!小鹏、理想两大车企已分别在广州和北京获得L3级自动驾驶道路测试牌照,并启动常态化道路测试。与此同时,鸿蒙智行也在深圳联合相关部门,开启了L3级有条件自动
    的头像 发表于 12-24 18:08 1318次阅读

    世界模型是自动驾驶汽车理解世界还是预测未来?

      [首发于智驾最前沿微信公众号]世界模型在自动驾驶技术中已有广泛应用。但当谈及它对自动驾驶的作用时,难免会出现分歧。它到底是自动驾驶汽车得以理解世界,还是为其提供了预测未来的视角?
    的头像 发表于 12-16 09:27 1008次阅读
    世界模型是<b class='flag-5'>让</b><b class='flag-5'>自动驾驶</b>汽车理解世界还是预测未来?

    自动驾驶中毫米波雷达到底有何作用?

    毫米波雷达、超声波雷达等感知硬件,更像是一个配角,成为自动驾驶技术实现的辅助硬件。那在自动驾驶中毫米波雷达到底有何作用?
    的头像 发表于 12-10 17:07 2034次阅读
    <b class='flag-5'>自动驾驶</b>中毫米波雷达到底有何作用?

    大模型中常提的快慢思考会对自动驾驶产生什么影响?

    提出的“快慢系统”理论启发,旨在自动驾驶系统模拟人类的思考与决策过程。理想汽车结合端到端与VLM模型,推出了业界首个在车端部署的双系统方案,并成功将VLM视觉语言模型部署于车端芯片上。这套“系统
    的头像 发表于 11-22 10:59 2621次阅读
    大模型中常提的快慢思考会对<b class='flag-5'>自动驾驶</b>产生什么影响?

    不同等级的自动驾驶技术要求上有何不同?

    谈到自动驾驶,不可避免地会涉及到自动驾驶分级,美国汽车工程师学会(SAE)根据自动驾驶系统与人类驾驶员参与驾驶行为程度的不同,将
    的头像 发表于 10-18 10:17 2843次阅读

    卡车、矿车的自动驾驶和乘用车的自动驾驶在技术要求上有何不同?

    [首发于智驾最前沿微信公众号]自动驾驶技术的发展,组合辅助驾驶得到大量应用,但现在对于自动驾驶技术的宣传,普遍是在乘用车领域,而对于卡车、矿车的
    的头像 发表于 06-28 11:38 1733次阅读
    卡车、矿车的<b class='flag-5'>自动驾驶</b>和乘用车的<b class='flag-5'>自动驾驶</b>在技术要求上有何不同?

    自动驾驶安全基石:ODD

    和限制下可以正常工作,是自动驾驶安全的核心概念之一。   对于人类司机来说,在不同的道路上驾驶的能力也有所区别,比如新手司机在一些窄路、山路,或者交通状况复杂的道路上可能会无所适从,也会判断哪些路自己没有
    的头像 发表于 05-19 03:52 6938次阅读

    AI将如何改变自动驾驶

    自动驾驶带来哪些变化?其实AI可以改变自动驾驶技术的各个环节,从感知能力的提升到决策框架的优化,从安全性能的增强到测试验证的加速,AI可以自动驾驶从实验室走向大规模商业化。 对于感知
    的头像 发表于 05-04 09:58 1018次阅读