[首发于智驾最前沿微信公众号]2025年以来,智能驾驶行业在技术路线上逐渐收敛,端到端大模型取代了沿用多年的模块化架构,成为几乎所有主流玩家的共同选择。但共识形成的同时,新的分歧也在浮出水面,端到端之后,下一步往哪走?是用更大的模型、更多的传感器持续堆高天花板,还是想办法在有限的硬件资源里,把体验做到足够好用?卓驭科技的技术发展路线,似乎可以回答这个问题。
之前也有小伙伴让我聊聊卓驭科技,其实这家公司前身是大疆的车载事业部,2016年启动车载业务研发,2023年从大疆分拆,2024年正式以卓驭品牌独立运营。公司定位为智能驾驶系统供应商,主导产品为成行平台。

自动驾驶的开城难题,到底卡在哪?
其实自动驾驶的技术发展一直面临一个问题,那就是为什么智能驾驶系统换个城市、换个国家就不好用了?
在2023年之前,行业主流方案是模块化架构,这套架构把驾驶任务拆成感知、预测、决策、规划几个独立模块,每个模块各自用模型和规则来处理。感知模块负责识别周围有什么,预测模块推断这些目标接下来会怎么动,决策和规划模块再根据规则库生成行驶路线。
这套方案的优点是每个环节可解释、可调试,但问题也很明显,系统能力的上限被规则库的完备程度锁死了。工程师能写进规则里的场景是有限的,遇到没见过的情况,系统的表现就会不稳定。此外,早期方案还高度依赖高精地图,每进入一个新城市,都需要采集地图、标注信息、针对性调参,整个流程耗时耗力。这就是行业内常说的开城成本,每多一个城市,就意味着一次新的适配工程。

图片源自:网络
卓驭在早期也走过这条路线,它的技术基础来自大疆在无人机和机器人领域的视觉感知积累,公司早期坚持规则驱动研发,这套小模型方案也让它迅速拿出了可用的产品,帮助公司完成了从0到1的商业化起步,但模块化方案的上限很快就触碰到了。
变化发生在2024年,随着Transformer架构和BEV感知技术趋于成熟,行业开始整体向端到端方案迁移。所谓端到端,就是把感知到规划的过程交给一个统一的大模型来完成,不再人为拆分成多个独立模块。模型的输入是摄像头和其他传感器的原始数据,输出直接是车辆的行驶轨迹或控制指令。
特斯拉是这条路线最早的推动者。FSD V12版本删除了数十万行人工规则代码,用数据驱动的方式训练出一个端到端网络,复杂场景下的应对能力出现了明显跃升。这条路线很快被国内厂商跟进,但在实践中,不同公司的实现方式和侧重点差别很大。2024年10月,卓驭团队做出关键决策,决定全面转向端到端技术路线。

不堆传感器不堆算力,这条路怎么走?
卓驭在端到端方向上的选择,从一开始就和其他玩家不太一样,它没有追求极致的算力平台,也没有堆砌传感器,而是瞄准了一个看似逆向的目标,即用最低的硬件成本,把端到端模型跑起来。
这套方案的核心是成行平台,而支撑这个平台的关键技术之一,是卓驭自研的惯导立体视觉系统。这套系统用两个摄像头模仿人眼的双目视觉原理,通过计算两个摄像头之间的视差,直接生成带有深度信息的三维点云。和单目摄像头方案相比,它能直接测量距离,不需要依赖模型从大量数据中学出深度,和激光雷达方案相比,它的成本又低很多。

图片源自:网络
在双目基础上,卓驭还发展出了三目方案,也就是在双目之外增加一颗长焦摄像头,用来提升对远处目标(尤其是红绿灯)的识别能力。这套惯导三目方案后来被搭载在一汽红旗多款车型上,成为卓驭进入主流主机厂供应链的关键技术。
卓驭在端到端模型本身的设计上也有自己的思路,和业界常见的黑盒式端到端不同,它选择了可解释端到端的路线,其在模型内部保留了感知、预测等模块的中间输出。这么做的好处是,当系统出现问题的时候,工程师可以定位到具体是哪个环节出了偏差,而不是面对一个完全不可解释的神经网络束手无策。
2025年9月,卓驭通过OTA推送了高悟性端到端2.0版本。这套系统以交互式预测规划+强化学习为双核驱动,在云端构建百亿公里级的虚拟训练环境,让模型完成数百亿次碰撞惩罚与安全奖励训练。它在行业中被认为是率先实现了环境、车辆、行人三方意图的深度耦合,使系统从被动模仿走向了主动决策。
2026年4月,卓驭进一步升级到端到端4.0,实现了100%数据驱动,像是领航、掉头这类此前很难完全端到端化的场景,也全部清除了残留的规则代码。这意味着车辆不再被动执行如果A、那么B的指令,而是通过学习海量优秀驾驶行为数据,自主理解通行逻辑与驾驶礼仪。端到端4.0还具备了防御性驾驶的本能防御能力和缝隙穿行能力,在狭窄路况下的表现更加拟人。

图片源自:网络
最能体现卓驭工程能力的,是它在德州仪器TDA4芯片上部署端到端网络的案例。这颗芯片的算力只有32TOPS,在行业内属于中低端水平。在行业普遍认为端到端需要高算力的背景下,卓驭通过模型压缩、算子优化和系统协同,成功在这颗芯片上跑通了端到端城市领航功能。
这一思路也延伸到了芯片平台的选择上,卓驭没有绑定单一芯片厂商,而是同时适配德州仪器TDA4、高通SA8650P/SA8775P、英伟达Thor等多个平台,算力跨度从32TOPS到1000TOPS。其中基于高通8775的单芯片舱驾一体方案,用一颗芯片同时处理智能驾驶和智能座舱任务,相比两套分离系统显著降低了硬件成本和通信延迟。这种多平台兼容的策略,让卓驭的方案能够灵活适配不同价位车型的需求。

端到端之后,下一步是什么?
虽然端到端4.0看似完美,但它仍然有一个难以绕开的局限,那就是跨地域、跨垂类场景下的适配成本依然很高。
由于这类模型高度依赖专家驾驶数据来做训练,这意味着换一个国家、换一种车型,就需要重新采集数据、重新训练泛化。卓驭CEO沈劭劼在2026年百人会论坛上直接点出了这个问题,在路权规则与中国差异显著的海外市场,模型泛化近乎推倒重来;在面向重卡、客车等不同平台延伸时,人力投入同样难以线性收窄。
这也是为什么卓驭选择在2026年迈出下一步,2026年4月北京车展上,卓驭以智能一切移动为主题举办发布会,正式推出首个原生多模态基础模型,将公司的核心技术方向明确为移动物理AI。这套模型将泛化的重心从后训练阶段提前到了预训练阶段。

图片源自:网络
模型在底层可以完成对物理世界通用规律的预训练,支持视频、文本、动作、语音、地图等多模态信息的统一表征输入。预训练阶段的数据来源不仅包括智能驾驶专属数据,还覆盖互联网数据以及各类移动机器人的第一视角数据,形成以移动传感器为中心的海量训练体系。
这套设计背后的逻辑非常清晰,如果模型在预训练阶段就已经接触过足够多样的物理世界场景和移动任务数据,那么它在面对一个全新场景时就不再需要重新学习,只需要少量的后训练数据来激活即可。卓驭CEO沈劭劼在发布会上明确表示,原生多模态大模型凭借足够大的参数规模,可摄入互联网、机器人等多元模态数据进行预训练,具备涌现能力,到新场景只需少量后训练数据即可激活。
从公司内部对技术发展阶段的划分来看,这一演进的脉络很清楚,规则驱动的小模型时代通用基础能力弱,高度依赖开城泛化;数据驱动的端到端中模型时代基础能力升至70分,少量泛化适配即可达90分以上,但出海和跨垂类仍需高额工程投入;而原生多模态基础模型则追求跨场景、跨地域的零样本迁移能力。

模型换思路,硬件和场景怎么跟?
和新的模型路线相配套,卓驭在硬件层面也拿出了新一代方案。
在感知系统上,卓驭在2026北京车展首次展示了自研的激目2.0系统。这是一套舱内激光视觉前融合方案,最大的设计亮点是变焦感知能力,低速城区场景下以广角视野覆盖更大范围的交通参与者和突发状况;高速场景则自动收窄视场角,同时提升探测距离与点云密度,确保高速行车的安全冗余。系统安装在舱内,也避免了重卡等商用车型日常清洁不便的问题。
在计算平台上,卓驭推出了面向L3/L4级的双英伟达Thor芯片方案。Robotaxi车型将搭载基于双Thor芯片的三冗余L4级控制器,在架构层面预留了足够的安全备份。

图片源自:网络
这套新的技术底座,让卓驭的多场景布局在2026年明显提速,在商用车领域,卓驭已覆盖中国商用重卡前六大品牌,多款合作车型计划在2026年6月起陆续量产重卡高速NOA。重卡版控制器与算力配置与乘用车版本保持一致,同样引入激目2.0系统。此外,其与宇通客车联合开发的商用客车NOA方案或将于2026年9月量产交付,覆盖高速NOA、城区NOA及自主停泊功能。无人场景方面,城配无人物流车计划2026年7月启动试运营,Robotaxi预计下半年开启试运行。
据公开信息,从乘用车模型适配到重卡,卓驭仅需六周左右,同一套底层模型同时服务乘用车、商用车、无人物流车和Robotaxi,只是根据不同场景的需求在控制器、传感器配置和安全冗余层面做差异化适配。这种做法如果持续跑通,将显著降低跨场景部署的边际成本,对于一家以性价比为核心竞争逻辑的公司来说,这个方向的意义不言而喻。

行业里的不同选择,谁更有道理?
把卓驭放在更大的行业背景下看,可以发现,不同厂商在技术路线上正在形成不同的侧重点。
特斯拉是端到端路线的标杆,它的FSD系统采用纯视觉方案,8个摄像头加上自研芯片,不依赖激光雷达和高精地图。V12版本删除了数十万行规则代码,用生成式AI实现从传感器输入到控制输出的直接映射,模型的拟人化程度在全球范围内领先。但特斯拉入华之后也暴露了一些问题,由于对中国特有的交通场景反应不够灵敏,初期百公里接管次数显著高于本土方案。这也说明端到端模型虽然上限高,但对数据质量和本地化训练的依赖同样很大。
华为走的是另一条路,它一直坚持多传感器融合路线,配备高线数激光雷达、4D毫米波雷达等硬件。这套方案的性能上限很高,但传感器和算力的成本也相应较高。
如果做一个粗略的对比,特斯拉走的是数据+算法驱动的路线,靠全球车队积累的海量数据和生成式AI能力来提升系统上限;华为走的是算力+传感器路线,用硬件冗余来确保安全下限和性能表现。卓驭则走出了第三条路,在硬件上做减法,在算法和工程优化上做加法,用更低的成本门槛把智能驾驶能力铺到更大众的车型上。而2026年发布的原生多模态基础模型,则进一步把这条路线延伸到了跨场景、跨地域的维度,即用一个统一的模型底座,去支撑从乘用车到重卡、从中国到海外的多种应用场景。

图片源自:网络
这个选择背后,对应着对不同企业对行业趋势的不同判断。特斯拉相信极致的算法能力最终能替代所有硬件冗余;华为认为在通往更高等级自动驾驶的路上,传感器冗余和安全底座不可省略;卓驭则押注在两条线上,短期内,在当前的工程和成本约束下,把L2+级别的体验做好,让它覆盖尽可能多的车型和场景;长期看,通过构建通用的物理世界理解能力,为更高级别的自动驾驶储备技术底座。这三种判断没有绝对的对错,最终要看行业在不同阶段的实际需求。
其实从技术演进的脉络来看,卓驭近几年的选择始终围绕同一个逻辑展开,那就是在每一个技术阶段,找到当前约束条件下性价比最高的解决方案,同时为下一阶段的技术升级预留接口。从模块化到端到端,从端到端到原生多模态基础模型,每一步的节奏都踩得相当紧凑。
审核编辑 黄宇
-
自动驾驶
+关注
关注
795文章
15065浏览量
182042
发布评论请先 登录
卡车和乘用车自动驾驶技术上有何不同?
为什么自动驾驶方案不再强调地图了?
2026年自动驾驶汽车发展趋势前瞻
如何设计好自动驾驶ODD?
北汽集团自动驾驶产品安全开发保障体系建设与实践
不同等级的自动驾驶技术要求上有何不同?
卓驭的技术美学:从“为学日益”到“为道日损”的智驾之道
低速自动驾驶与乘用车自动驾驶在技术要求上有何不同?
小马智行助力公路干线物流自动驾驶发展
自动驾驶技术测试有哪些?
卓驭的自动驾驶技术发展如何了?
评论