0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

VLA模型是基于预置规则来指导行动吗?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2025-12-25 09:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]今天继续来回答小伙伴的提问,最近有一位小伙伴提问,VLA模型中的理解是不是也基于一些预置的规则指导行动的?其实这个问题非常值得讨论,今天智驾最前沿就带大家详细聊一聊。

wKgZO2lMkcmAc9r6AAAQo00DEvw195.jpg

视觉-语言-动作(VLA)模型是什么?

在讲今天的内容之前,要先把VLA讲清楚。视觉-语言-动作模型(Vision-Language-Action Model,简称VLA)是近年来机器人人工智能领域兴起的一类模型。它的目标是让一台机器“看懂世界”、“理解任务指令”,然后自己去执行动作。

wKgZPGlMkcqAXl37AACupHq5c98744.jpg

图片源自:网络

举个例子,一台机器人面对一个装满玩具的桌子,你用语言告诉它“把红色球放进盒子里”,它就需要先“看见”桌子上的东西,分辨出哪个是红色球和盒子;然后它要理解你说的这句话的意思;最后它得控制自己的机械臂抓起球并放到指定位置。VLA模型的意义就在于把这三个任务整合起来,而不是像传统机械那样把每个步骤拆开做。

一个典型的VLA模型会包括两个核心部分,一个是视觉-语言编码器(Vision-Language Encoder),负责把图像和语言输入映射成机器内部可以处理的表示;另一个是动作解码器(Action Decoder),负责根据这种内部表示生成具体执行动作的命令。这样的架构可以在一次前向计算中把视觉信息和语言指令结合起来,直接输出机械动作或控制信号

之所以会提出VLA模型,是因为传统机器人系统会将视觉感知、语言理解和动作规划拆成不同模块,这种模块化系统在复杂环境下很难协同,而且对场景变化的适应性较差。VLA模型的端到端方法试图让感知、理解和行动融成一个整体,从而具备更自然、更接近人类操作的能力。

wKgZO2lMkcqAI-TTAAAR42n7O-I863.jpg

VLA模型里所谓的“理解”到底是什么?

很多人听到AI具备“理解能力”,就会自然而然联想到传统程序里如“如果看到红色球,就执行抓取动作”这样的规则判断。这种规则式的思考可以让行为动作有据可循,但VLA模型的理解并不是这种有明确规则的程序逻辑。恰恰相反,它没有预定义的、用编程手写的规则来指导每一次动作如何执行。它的理解来自于大量示例学习出来的关联模式。

换句话说,VLA模型的“理解”不是提前写好的指令集,而是一种端到端学习得到的内部能力。在训练阶段,模型会被喂入大规模的训练数据,这些数据是由很多真实或模拟场景组成的三元组,即视觉输入+自然语言指令+与之对应的动作轨迹。如在数据里可能有这样的记录,“图像是桌面场景,语言是把杯子放进箱子,动作序列是机械手臂移动并完成抓取动作”。模型通过反复“看见+读懂+对比正确动作”这样的样本,逐渐学习出视觉特征、语言表征和动作输出之间的统计关系。

这种学习是统计意义上的,而不是逻辑规则式的。模型并没有一个明确的代码告诉它“红色就是要抓取”,它只是从数据里看到在大量场景中,当出现“红色球”和相关指令时,执行某些动作是合适的。

从这个角度看,“理解”在VLA中更像是一种统计上的推断能力,模型不是在判断一个明确的规则是否满足,而是在根据它已经学到的多模态关联进行预测。理解语言成分时,就类似人类语言模型的方式;理解视觉信息时,责利用视觉编码器提取场景特征;动作的输出则是在学习中形成的概率式策略。这种能力的组成是多种网络层结构和训练方法协同的结果,而不是单个模块的规则引擎决定的。

wKgZO2lMkcuAet_dAAASG3BOmsQ777.jpg

VLA模型内部是怎么做到“理解”的?

为了更清楚地解释VLA模型内部“理解”是怎么发生的,可以把VLA模型拆成几个部分来简单理解。

在视觉模块,计算机视觉网络会把摄像头捕获的画面转换成一组高维特征,这些特征描述了场景里物体的位置、颜色、形状等信息,而且这种转换过程不是通过预定义规则实现的,而是通过视觉编码器(比如Transformer或深度学习某些架构)学习得到的。这些视觉编码器能够把像素转换成更抽象、对任务有意义的表示,这是一种由数据学习出来的视觉理解能力。

语言模块和现在流行的大语言模型类似,它会把自然语言指令转换成机器内部可以处理的语义向量。语言模块并不把指令拆成明确步骤,而是把语言映射成一种语义空间表示,在这个表示里任务目标、动作意图等信息可以被进一步处理。这样的语言编码能力本身也是从大量文本和指令数据中学习出来的。

在视觉和语言的编码结果都转化成内部表示之后,模型内部有一个融合层或者共同的潜在空间表示,它把两种不同模态的表示合并起来,使视觉信息和语言目标能够结合成一个综合的表示。在这一层,模型学习到视觉场景中的哪些对象和语义指令相关联。就拿前文中机器人拿红球的例子来简单理解下,如果语言里提到了“红色球”,视觉编码器的特征里有一种与红色物体相关的高维向量,模型就会将它们关联起来。

融合后的内部表示会传到动作解码器,这一步负责将综合表达转化成具体的动作命令。动作解码器的输出可以是机器人关节的控制信号、路径规划参数等。在训练时模型已经见过大量这样的输入—输出对,所以它能学会在给定视觉和语言条件下如何输出正确动作。这样的输出并不是由预设规则决定的,而是由模型内部网络结构和权重计算得到的最优动作预测。

上面说的整个过程看上去像一个黑箱,输入是一张图像和一句话,输出是一组动作命令,中间有大量的矩阵乘法和非线性变换在发生,而这些都是统计学习得到的映射关系。

wKgZO2lMkcyAOQLxAAASAJELks8850.jpg

最后的话

回到最初的问题,VLA模型里的理解是不是基于一些预置的规则来指导行动?

答案是:不是。VLA模型内部不依赖传统意义上的预先写好的规则。它的理解和动作生成能力来自于对大量视觉—语言—动作示例的学习过程。在学习结束后,模型能在看到新的图像和语言指令时,通过内部的潜在空间表示和映射关系生成合理的动作输出,这种能力更像是一种通过数据训练出来的模式匹配和策略生成能力,而不是靠写好的规则集合。

这样的设计让VLA模型具备了更强的泛化能力和适应性,但同时也意味着它不像规则驱动系统那样容易解释或明确验证。这种“学习出来的理解”是一种统计形式的能力,这类模型有望在更多复杂任务中表现得越来越像我们所理解的“智能体”。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3816

    浏览量

    52265
  • Vla
    Vla
    +关注

    关注

    0

    文章

    22

    浏览量

    5915
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2500 TOPS!特斯拉HW5智驾算力怪兽突击,国产VLA火速进化

    芯片水平。与此同时,国内车企如小鹏、理想等也在加速自身技术进化,推出基于VLA的新一代智能驾驶解决方案。   未来,特斯拉能否凭借HW5与FSD技术“王者归来”,而国内车企又能否以VLA模型落地实现巩固竞争优势?这场围绕算力、算
    的头像 发表于 06-20 09:05 8757次阅读
    2500 TOPS!特斯拉HW5智驾算力怪兽突击,国产<b class='flag-5'>VLA</b>火速进化

    小鹏发布 X-World 世界模型:已全面应用第二代VLA

    第二代 VLA 自动驾驶系统的研发、仿真与验证,标志着自动驾驶从 路测驱动 迈入 世界模型驱动 的新阶段。 何为 X-World? X-World 是基于视频扩散生成技术构建的多视角生成式世界模型,可理解为自动驾驶系统的 大脑预
    的头像 发表于 04-14 10:11 5862次阅读

    变频器主要预置了哪些功能?

    变频器作为现代工业控制的核心设备之一,其功能预置直接决定了设备性能的优化空间和应用场景的适应性。
    的头像 发表于 03-05 17:31 963次阅读

    Nullmax VLA算法深度赋能黑芝麻智能华山A2000芯片

    CES 2026期间,AI科技公司 Nullmax 成功完成端到端 VLA(Vision-Language-Action)算法在黑芝麻华山 A2000上的深度适配与验证。
    的头像 发表于 01-09 15:20 512次阅读

    黑芝麻智能华山A2000芯片与Nullmax VLA算法完成深度适配

    黑芝麻智能正式向全球市场推出的新一代高性能全场景智能驾驶芯片华山A2000,与 Nullmax VLA 算法完成深度适配,共同推动辅助驾驶技术向更高阶演进!
    的头像 发表于 01-07 14:50 571次阅读

    全球首车搭载元戎启行VLA模型,魏牌蓝山智能进阶版重磅上市

    近日,魏牌全新蓝山智能进阶版正式上市,成为全球首款搭载元戎启行VLA(Vision-Language-Action)模型的量产车型。这不仅意味着VLA模型完成从技术研发到量产上车的闭环
    发表于 12-23 16:09 3166次阅读
    全球首车搭载元戎启行<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>,魏牌蓝山智能进阶版重磅上市

    VLA与世界模型有什么不同?

    Language Action,VLA),另一些则致力于构建并应用世界模型(World Model)。这两种路径有什么不同? 什么是VLA,什么是世界模型 先说说
    的头像 发表于 12-17 09:13 864次阅读
    <b class='flag-5'>VLA</b>与世界<b class='flag-5'>模型</b>有什么不同?

    NVIDIA推动面向数字与物理AI的开源模型发展

    NVIDIA 发布一系列涵盖语音、安全与辅助驾驶领域的全新 AI 工具,其中包括面向移动出行领域的行业级开源视觉-语言-动作推理模型(Reasoning VLA) NVIDIA DRIVE Alpamayo-R1。此外,一项新的独立基准测试认可了 NVIDIA Nemot
    的头像 发表于 12-13 09:50 1528次阅读

    VLA能解决自动驾驶中的哪些问题?

    、语言表达和动作控制这三者整合到一个统一的模型框架中。 与传统自动驾驶系统将感知、预测、规划、控制拆解为多个独立模块的做法不同,VLA可以缩短“看见什么”和“如何行动”之间的鸿沟,构建一个能直接将视觉输入和语言描述映射到具体动作
    的头像 发表于 11-25 08:53 619次阅读
    <b class='flag-5'>VLA</b>能解决自动驾驶中的哪些问题?

    VLA和世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小鹏、小米为代表的VLA(视觉—语言—行动模型路线;另一边则是以华为、蔚为主导的世界
    的头像 发表于 11-05 08:55 931次阅读
    <b class='flag-5'>VLA</b>和世界<b class='flag-5'>模型</b>,谁才是自动驾驶的最优解?

    自动驾驶上常提的VLA与世界模型有什么区别?

    自动驾驶中常提的VLA,全称是Vision-Language-Action,直译就是“视觉-语言-动作”。VLA的目标是把相机或传感器看到的画面、能理解和处理自然语言的大模型能力,和最终控制车辆
    的头像 发表于 10-18 10:15 1395次阅读

    量产交付超10万辆!元戎启行携DeepRoute IO 2.0平台及VLA模型亮相德国IAA

    IO 2.0及其自研的VLA(Vision-Language-Action)模型,并以“安全第一、量产先行”为战略核心,持续推动海外市场拓展。   德国IAA元戎启行现场展位   截至目前,元戎启行
    发表于 09-09 10:09 4798次阅读
    量产交付超10万辆!元戎启行携DeepRoute IO 2.0平台及<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>亮相德国IAA

    基于大规模人类操作数据预训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集预训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得益于近年来VR
    的头像 发表于 08-21 09:56 1220次阅读
    基于大规模人类操作数据预训练的<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>H-RDT

    VLA,是完全自动驾驶的必经之路?

    电子发烧友网报道 (文/梁浩斌)最近,智驾领域又出现多个“新名词”,比如蔚推出的NWM、多家车企和智驾供应商都在宣传的VLA。实际上,从各家的路线来看,随着更大算力的芯片,比如小鹏、蔚来自研的智驾
    的头像 发表于 06-18 00:06 9735次阅读

    元戎启行周光:VLA模型将于2025年第三季度量产

    2025年6月11日,元戎启行CEO周光受邀出席2025年火山引擎Force原动力大会,宣布元戎启行将携手火山引擎,基于豆包大模型,共同研发VLA等前瞻技术,打造物理世界的Agent。同时,周光宣布
    发表于 06-12 09:45 1373次阅读
    元戎启行周光:<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>将于2025年第三季度量产