0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无万卡,不VLA:元戎启行与阿里云的“想法”和“解法”

科技见闻网 来源:科技见闻网 作者:科技见闻网 2025-11-12 09:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1980年代,卡内基梅隆大学的机器人专家汉斯·莫拉维克(Hans Moravec)提出人工智能领域的一个悖论:让计算机在逻辑推理、下棋等高级智力活动中达到甚至超越人类水平,相对容易;但要让它具备孩童那样的感知、运动和常识认知能力,却难于登天。

这个悖论的核心在于:对机器而言,真正的困难在于“理解”物理世界并与物理世界进行直觉式的交互。四十余年后,莫拉维克的观点,也投射在了智能驾驶的漫长征途上。

如果现在你跟智驾从业者深聊,会发现一个微妙的变化:几年前,从业者们还在为传感器的配置、特定场景的覆盖率等讨论不停;而今天,话题焦点又多了一个更具体的模型结构——VLA(视觉-语言-行动模型)。为什么?

一、智驾的终极体验,是“像人一样决策”

我们知道,要实现高阶智能驾驶,最大的挑战之一就在于:真实物理世界的复杂性和不确定性。比如,如何理解一个交警招手动作的复杂意图?如何判断一个滚向路边的足球背后是否会冲出一个孩子?它要求AI不仅要识别物体,更要理解场景、预测意图并进行复杂的因果推理。为何如此困难?

元戎启行创始人兼CEO周光,这位拥有物理学背景的AI博士,在前阵子和我们交流时一语道破其中的关键。他将驾驶行为划分为两个层次:一个是“Move like human”(像人一样行动),另一个是“Decision like human”(像人一样决策)。

周光认为,早期的AI决策模型,更擅长处理“条件反射式”的驾驶行为,比如跟车、车道保持、简单避障等,这些可以被归纳为“Move like human”(像人一样行动),但这只能解决95%常见的驾驶问题。

但决定智能驾驶安全性和体验感上限的,恰恰是那些需要推理和预判的长尾场景,也就是圈内常说的Corner Case。他举了一个直观例子:“前方两三百米外有施工,人类老司机会立刻观察后视镜,提前变道。但(早期的)智驾系统,可能是开到近处,识别出锥筒、水马这些障碍物时才做出反应,往往带来突兀和不舒适的驾乘体验。”

要解决这个长尾问题,系统必须具备周光所强调的“推理驾驶”(Inferential Driving)能力,这要求系统能够基于对物理世界规律的“理解”,进行复杂的因果推理和未来预测。

如果无法实现“Decision like human”,系统就可能停留在“高级的辅助驾驶”阶段,难以迈向L4乃至更高级别,无法让人类驾驶员真正放手。智能驾驶的本质,是一个需要理解并作用于真实物理世界的“物理AI”(Physical AI)命题。

要跨越这“最后一公里”,行业亟需一种能够赋予机器“认知”和“推理”能力的全新范式。这正是VLA这一模型结构,迅速成为当下行业新共识的根本原因。

二、VLA迈向推理驾驶

VLA将视觉(Vision)、语言(Language,代表认知和推理)和动作(Action)融合在一个统一框架内。这种融合带来了能力层级的质变,超越了简单的功能叠加。

“从旧架构变成GPT架构,这是一个根本性的变化。”周光反复强调。在他看来,过去的技术迭代(包括BEV等),都只是CNN框架下的“小版本更新”,而VLA才真正开启了智能驾驶的“大版本升级”,因为它让系统开始逼近“物理AI”的理想形态。

wKgZO2kT4rSAWFmhAAU9c8kWuOU858.png

这种对技术本质的洞察,让元戎启行在技术路线上做到知行合一,坚信VLA是实现高阶智能驾驶的最优解。“要是不上VLA,我觉得是不可能到L5的。”周光判断,“VLA让业界真正看到了实现L5级完全自动驾驶的希望,未来的发展路径将紧跟大模型技术的演进。”

这家公司早在2019年刚创立不久,就完成了名为“全融合”的技术架构(即早期的BEV鸟瞰图技术)。到了2020年,便全力投入“无图”研发,让系统直接从摄像头等传感器获取的“原始数据”中学习,实时感知和理解物理世界。

到了2022年,周光和团队的预判得到了初步验证。他告诉我们,当时团队已经能通过算法,实时生成道路的拓扑结构图,虽然还不完美,但已经能清晰识别出路口和转向关系。这表示“无图”技术路线被成功跑通,为后续研发奠定了基础。

VLA带来的,是用户体验上可感知的“老司机感”,这种实实在在的体验变革,远胜于冰冷的参数:比如在复杂的城市路口,系统能预判可能出现的“鬼探头”,提前做出柔和的决策,而非急刹车;在人车混流的狭窄街道,系统能理解交通参与者的“意图”,进行更灵活的博弈,而不是死板地等待;面对临时施工或异形障碍物,系统能基于对物理世界的基本理解进行推理,做出合理应对。

这种从“辅助人”向“理解人”乃至“超越人”的进化,也有业界的权威观点支撑。阿里巴巴集团首席执行官吴泳铭此前在公开演讲中指出,通往超级人工智能(ASI)的关键瓶颈在于“真实世界的数据”和“自主学习”。他强调:“只有让AI与真实世界持续互动,获取更全面、更真实、更实时的数据,才能更好的理解和模拟世界,发现超越人类认知的深层规律。”

一句题外话,我们在写作之余回溯了周光早年的学术研究,发现他早在德州大学达拉斯分校攻读博士期间,就提出“去中心化自稳定算法”和“群体协作智能体”模型,探讨如何通过局部通信与自组织机制,让分布式系统在无中心控制下实现稳定协同。这种“由局部交互涌现全局智能”的逻辑,与VLA的视觉、语言、行动三模态的协同推理架构,在思想上已高度契合。

三、VLA 为何需要一座“算力电站”?

然而,为汽车装上VLA这个强大的“物理AI大脑”,难度巨大。它颠覆了传统的研发模式,带来三个“指数级”增长的挑战,让智驾公司必须重塑自己。

挑战一:数据处理的“量级之变”。VLA模型吃的不是“二手”的高精地图数据,而是物理世界最原始、最鲜活的多模态数据——海量的图像、视频、传感器信号。处理这些数据,对数据处理的吞吐量和效率提出了前所未有的要求。

挑战二:模型训练的“范式之变”。训练VLA模型,就像培养一个天才。不能从零教起,而是采用“知识蒸馏”技术:先用一个拥有千亿参数的云端“教师模型”(基座大模型)进行预训练,再将它的智慧“蒸馏”到车端仅有几十亿参数的“学生模型”上。这个过程,对算力集群的规模、稳定性和调度能力要求极高。

挑战三:研发效率的“成本之变”。“早些年几百张卡就能开个小作坊。”周光感慨,“但在VLA时代,几千张卡是起步,万卡是入场券。”研发成本结构也从过去“人力占97%,算力占3%”的劳动密集型,转向“人力与算力一半一半”的资本密集型。

阿里云智能AI汽车行业线销售总监黄晨,向我们揭示了一个残酷的现实:“一台GPU智算服务器,它每一分钟的成本都可以核算出来。你如果只用了70%,那么30%空跑的时间就是损失掉的真金白银。”

面对这些挑战,自建算力中心已非最优解。建设和运维一个“超万卡集群”,其工程复杂度、能耗和成本都是天文数字。智驾公司最明智的选择,是接入一个稳定、高效、且懂AI的“算力电网”。

这正是元戎启行与阿里云的合作进入深水区的原因。他们需要的不是简单的算力租赁,而是一个能解决VLA时代全链路挑战的合作伙伴。

wKgZPGkT4rSAMM5WAAk2vAN8-1Y958.png

四、超级AI云的全栈解法

具体而言,阿里云提供的“超级AI云”,是一套从IaaS(基础设施)、PaaS(平台工具)到MaaS(模型服务)的全栈式解决方案,精准解决其在VLA路上可能遇到的痛点,从而带来极致的效率优化。

第一重:以极致的工程能力,构筑稳定高效的算力基石(IaaS层)。

要解决“万卡集群甚至超万卡集群”的稳定性问题和通信效率瓶颈,无疑需要久经考验的系统工程能力。元戎启行的算力需求,主要由阿里云PAI-灵骏智算服务承载,PAI-灵骏的核心价值在于,通过自研的高性能网络及智能调度算法,能将大规模集群的AI算力利用率提升超过95%。对于“每一分钟都是钱”的智驾研发而言,这意味着巨大的成本节约和时间缩短。

VLA训练中,海量小文件的并发访问,对存储系统是极大考验。对此,阿里云的分布式文件系统CPFS就派上用场,它提供超高并发的多机读取能力,为万卡集群提供了数据的“饱和投喂”,确保元戎VLA模型训练极致高效。

此外,VLA大模型的训练也是一场围绕数据的精密接力赛:对元戎启行而言,百PB级的原始感知数据在深圳汇集、清洗和标注,最终在阿里云乌兰察布智算集群完成模型迭代。面对该问题,阿里云的云企业网CEN构建了一张覆盖全国的“算力一张网”,可实现数据和算力的灵活调度。同时,阿里云的全栈安全防护体系,可确保元戎启行在云端训练过程中的数据安全。

这些坚实的基础设施,共同构成了元戎启行在VLA时代加速奔跑的底气。

第二重:以独有的工具链,加速数据处理与模型迭代(PaaS层)。

说完了数据训练,那么说到数据处理,其效率也直接决定了模型训练的速度,如何高效完成海量多模态数据的清洗、标注和预处理,是模型训练的重要一步。

在数据处理方面,阿里云自研的分布式计算框架MaxFrame,日均可完成数十万级数据包处理,生成数百万Clips和数亿训练样本,相比开源框架性能提升40%以上。同时,结合智能数据开发治理平台DataWorks,可实现百万级任务统一开发调度与元数据追溯,高效支撑VLA模型海量多模态数据训练。这些工具链的高效协同,为VLA模型训练提供了充足且高质量的“燃料”。

接下来在模型训练阶段,迭代速度决定了竞争优势。阿里云专为智驾领域定制“加速包”PAI-TurboX,在数据层、计算层、系统层深度优化。阿里云计算平台事业部负责人汪军华介绍,TurboX能在多个主流模型上将训练时间缩短50%以上——这意味着元戎的模型迭代周期直接减半,能够更快将新技术能力应用到产品中。

第三重:以开源开放的生态,提供创新的战略纵深(MaaS层)。

如上文所提,VLA模型的构建并非从零开始,它需要强大的基座模型进行知识蒸馏和调优。在这一点上,阿里云的开源开放战略,为元戎启行提供了助力。

通义千问(Qwen)系列模型,作为全球第一的开源模型矩阵(根据Huggingface开源大模型榜单Open LLM Leaderboard),它目前全球下载量超6亿次,衍生模型超17万个,为行业提供了坚实基座。周光对此高度认可:“元戎启行经常用通义大模型去做一些蒸馏,通义开源挺好的。”这种开放性,让元戎启行得以站在基座模型的肩膀上,更高效优化自己的车端模型。

同时,它支持厂商基于开源能力做深度自研,这一点至关重要。这使得元戎启行能够将宝贵的研发资源,投入到智驾垂类知识的积累和创新上,而不是重复造轮子。

从IaaS的工程能力,到PaaS的工具链,再到MaaS的开源开放生态,阿里云提供的“超级AI云”全栈能力,构筑了其在智驾训练领域的重要地位。正如阿里云智能集团公共云事业部AI汽车行业总经理李强在一次公开演讲中提到,超过60%中国智能辅助驾驶的AI算力来自阿里云。这足以证明,阿里云已成为智驾训练中那朵好用的云。

五、选择对的伙伴,驶向更远的路

诚然,强大的技术基建,最终要转化为商业成果和产业引领。

在商业策略上,许多智驾公司广撒网、服务多个品牌车型(多SKU),而作为全栈智能驾驶解决方案提供商元戎启行,再次展现了与其技术路线一致的“专注”。

周光进一步指出,有的智驾公司SKU特别多,但月销可能只有几百台;元戎启行专注于“大单品”策略——集中资源与车企深度合作,打造爆款车型。在他看来,只有深度合作,才能打磨出极致的产品体验。“你越是做的散,做的杂,你这个产品越难。”

这种“少而精”的策略背后,是对自身技术研发效率的绝对自信。而这份自信,很大程度上来源于其选择了一个能提供长期价值、深刻理解AI、并具备开放生态的云合作伙伴。

当然,智驾的商业化过程中,成本控制也至关重要。如今智驾已成标配,而非溢价项。黄晨告诉我们:“车上有智驾,不一定让你多卖1万块,但如果没有,一定不被接受。”

换句话说,当智驾成为“标配”而非“溢价项”,Tier 1供应商的利润空间被持续挤压。这样一来,选择云服务商,早已超越了单纯的资源采购,更上升为一项关乎核心竞争力的战略决策。因为云端基础设施的技术深度与工程效率,直接决定了算法迭代的速度和质量,进而影响最终产品的市场竞争力。

对元戎启行而言,与阿里云合作的核心价值,在于通过阿里云全栈式的技术能力(包括高效的基础设施、长期积累的技术价值、以及开源开放的生态),将每一分算力的技术价值发挥到极致。这正是其构筑自身技术壁垒、实现商业正循环的底气所在。

对于所有致力于在物理AI时代取得突破的智能驾驶参与者而言,元戎启行的实践极具参考价值:要跨越智能驾驶的“最后一公里”,需要拥抱VLA;而要高效地训练VLA,需要选择一朵像阿里云这样具备全栈能力、能够提供长期价值陪伴、且开源开放的“超级AI云”。

因为在新世界里,走得快需要好的技术。而走得远,则需要好的伙伴。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Vla
    Vla
    +关注

    关注

    0

    文章

    14

    浏览量

    5880
  • 阿里云
    +关注

    关注

    3

    文章

    1028

    浏览量

    45496
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    VLA能解决自动驾驶中的哪些问题?

    [首发于智驾最前沿微信公众号]很多从事自动驾驶的小伙伴应该对VLA这个概念已经非常熟悉了。VLA即“Visual-Language-Action”(视觉—语言—动作)模型,它的核心是将视觉信息
    的头像 发表于 11-25 08:53 177次阅读
    <b class='flag-5'>VLA</b>能解决自动驾驶中的哪些问题?

    元戎启行公布商业化“成绩单”:量产一年交付20辆,10月单月市占率近40%

    。       截至目前,元戎启行已交付20辆搭载城市NOA(领航辅助驾驶)的量产车型。根据权威机构数据显示,2025年10月,元戎启行在辅助驾驶城市 NOA 第三方供应商市场的单月市占率接近 40%。  
    发表于 11-20 16:08 1323次阅读
    <b class='flag-5'>元戎启行</b>公布商业化“成绩单”:量产一年交付20<b class='flag-5'>万</b>辆,10月单月市占率近40%

    全国首家!元戎启行年底将以消费级量产车落地Robotaxi

    10月31日,元戎启行宣布与无锡市政府签约建设测试研发基地,进一步提速自动驾驶出租车(Robotaxi)业务落地。元戎启行CEO周光表示,“公司计划于今年年底以消费级量产车型落地Robotaxi业务
    发表于 11-01 19:27 1744次阅读
    全国首家!<b class='flag-5'>元戎启行</b>年底将以消费级量产车落地Robotaxi

    30公里全程零接管!元戎启行携手smart联合路测精灵5号EHD超级电混

    从纯电到插混,元戎启行与smart的合作故事进入下一个篇章。   10月28日,smart品牌首款插混车型——精灵5号EHD超级电混亮相发布。发布会上,smart宣布新车的辅助驾驶系统由元戎启行提供
    发表于 10-28 21:50 1713次阅读
    30公里全程零接管!<b class='flag-5'>元戎启行</b>携手smart联合路测精灵5号EHD超级电混

    单月交付超3台!元戎启行9月合作车型量产交付量再创新高

    实现超10台具备城市领航辅助系统的量产车型交付,涵盖SUV、MPV、越野车、轿车等多个车型,预计到2025年底,将有近20台搭载元戎启行组合辅助驾驶方案的车辆进入消费者市场。这些量产成果验证了公司平台方案的市场适配能力,也为
    发表于 09-29 18:03 2602次阅读
    单月交付超3<b class='flag-5'>万</b>台!<b class='flag-5'>元戎启行</b>9月合作车型量产交付量再创新高

    量产交付超10辆!元戎启行携DeepRoute IO 2.0平台及VLA模型亮相德国IAA

    IO 2.0及其自研的VLA(Vision-Language-Action)模型,并以“安全第一、量产先行”为战略核心,持续推动海外市场拓展。   德国IAA元戎启行现场展位   截至目前,元戎启行
    发表于 09-09 10:09 2468次阅读
    量产交付超10<b class='flag-5'>万</b>辆!<b class='flag-5'>元戎启行</b>携DeepRoute IO 2.0平台及<b class='flag-5'>VLA</b>模型亮相德国IAA

    阿里设备的物模型数据里面始终没有值是哪里的问题?

    如上图,不知道讲清楚没有。 IG502自定义TOPIC 上发到阿里没问题。采用阿里物模型的格式来上发就不行。请大佬指教!
    发表于 08-05 06:43

    VLA,是完全自动驾驶的必经之路?

    电子发烧友网报道 (文/梁浩斌)最近,智驾领域又出现多个“新名词”,比如蔚来推出的NWM、多家车企和智驾供应商都在宣传的VLA。实际上,从各家的路线来看,随着更大算力的芯片,比如小鹏、蔚来自研的智驾
    的头像 发表于 06-18 00:06 8686次阅读

    元戎启行周光:VLA模型将于2025年第三季度量产

    2025年6月11日,元戎启行CEO周光受邀出席2025年火山引擎Force原动力大会,宣布元戎启行将携手火山引擎,基于豆包大模型,共同研发VLA等前瞻技术,打造物理世界的Agent。同时,周光宣布
    发表于 06-12 09:45 1258次阅读
    <b class='flag-5'>元戎启行</b>周光:<b class='flag-5'>VLA</b>模型将于2025年第三季度量产

    元戎启行最新战略RoadAGI:所有移动智能体都将被AI驱动

    2025年3月18日(北京时间),元戎启行作为国内人工智能企业代表,出席由NVIDIA主办的GTC大会。会上,公司CEO周光发表了技术主题演讲,展示了公司的最新战略布局RoadAGI,并发布道路通用
    发表于 03-18 15:14 374次阅读
    <b class='flag-5'>元戎启行</b>最新战略RoadAGI:所有移动智能体都将被AI驱动

    阿里是什么?企业不可不知的云端架构服务!

    稳定性上皆有完善的解决方案,同时也提供加速器产品 CDN、DCDN。 内容分发网络 CDN 阿里内容分发网络(Content Delivery Network,CDN)的加速服务操作易上手,用户可以轻松通过“智能调度系统”就近获取资源,可提升使用者的存取效率,解决网络
    的头像 发表于 03-16 09:43 1290次阅读

    阿里官网电脑版,阿里电脑版的下载使用教程

        在计算蓬勃发展的时代,阿里作为行业的领军者,旗下的阿里官网电脑版为用户带来了功能强大且便捷的云端服务。它整合了
    的头像 发表于 01-23 14:49 1865次阅读
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>官网电脑版,<b class='flag-5'>阿里</b><b class='flag-5'>云</b>电脑版的下载使用教程

    smart与元戎启行携手,共研智能驾驶AI大模型

    近日,智能汽车品牌smart与领先的人工智能企业元戎启行正式宣布达成战略合作。此次合作旨在共同研发智能驾驶AI大模型技术,为新一代智能驾驶系统注入强大动力。 双方将携手打造基于AI大模型的智能驾驶
    的头像 发表于 01-18 11:25 1714次阅读

    smart与元戎启行达成战略合作 布局智能驾驶AI大模型

    “含AI量”够不够?已经成为2025年消费者衡量汽车是否值得购买的重要标准。   近日,smart与人工智能企业元戎启行宣布达成战略合作,率先抢跑AI赛道,为汽车行业的“含AI量”竞争拉开序幕
    发表于 01-17 09:26 969次阅读
    smart与<b class='flag-5'>元戎启行</b>达成战略合作 布局智能驾驶AI大模型

    阿里通义相2.1视频生成模型震撼发布

    近日,阿里旗下的通义相迎来了重要升级,正式推出了全新的相2.1视频生成模型。这一创新成果标志着阿里
    的头像 发表于 01-13 10:00 1123次阅读