0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

都是纯视觉智驾,小鹏和特斯拉技术上有何区别?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2026-05-25 09:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]在自动驾驶的技术路径中,纯视觉一直是非常重要的方向,在之前的内容中,我们探讨过小鹏汽车转向纯视觉的技术底气,还聊过特斯拉FSD V14.3的升级。同样作为纯视觉智驾,小鹏和特斯拉在技术上有区别吗?

wKgZO2oTquiAck2XAAAQo00DEvw415.jpg

端到端是唯一解吗?

纯视觉方案需要解决的,是如何从二维图像中还原三维世界的信息,再据此做出驾驶决策。传统做法是把任务拆成感知、预测、规划、控制等多个独立模块,各模块之间会传递处理好的数据。这种方式结构清晰、便于调试,但每个环节都不可避免地会丢失一些原始信息,而且需要工程师为各种场景逐一编写规则,面对数不清的异常路况,规则是永远写不完的。随着技术提升,端到端方案得到了应用,在特斯拉和小鹏的纯视觉方案中,都不约而同地使用了端到端。

wKgZPGoTquiAE4SeAAB1w6K0N9k618.jpg

图片源自:网络

特斯拉在FSD V12上就率先做了减法,它把感知到控制的整个流程整合进一个统一的神经网络,从摄像头画面输入到方向盘、刹车指令输出,全部由一个模型完成。这相当于跳过了所有中间环节,让模型直接从海量驾驶视频中学习看到什么该怎么开。V13之后,特斯拉又在模型中引入了时序处理能力,让车辆能记住过去十几秒内周围物体的运动轨迹,即便行人暂时被遮挡,系统也能根据消失前的速度和方向推断其当前位置和意图。

小鹏则走了一条不同的路,它的端到端方案由三个独立训练的神经网络协同工作,即XNet负责视觉感知,XPlanner负责轨迹规划,大语言模型XBrain负责场景理解与决策,三者各有分工,通过内部接口串联在一起。这种设计的优势在于每个模块可以独立优化,排错更简单,而且XBrain能利用语言模型的泛化能力来处理潮汐车道、ETC车道、路牌文字等不常见的场景。

到了2025年底,小鹏又向前迈了一步,它发布的第二代VLA(视觉-语言-动作)大模型放弃了此前多模块串联的中间环节,直接让视觉信号生成驾驶动作指令,从架构形式上向特斯拉的一段式端到端靠拢。不过,两者在世界模型这个核心概念上的理解仍然不同,这是下一个要讨论的问题。

wKgZO2oTqumADf0wAABde3r5MoY692.jpg

图片源自:网络

wKgZPGoTqumAQWBcAAAR42n7O-I279.jpg

同一个词,两种理解

世界模型是当前自动驾驶领域的重要技术方向,所谓世界模型,指的是系统在做出驾驶决策前,先在内部构建一个对道路环境的理解。特斯拉和小鹏都在做这件事,但实现方式有明显区别。

特斯拉的方式更隐式,在FSD的内部,占用网络(Occupancy Network)将车身周围的三维空间切成无数细小的立方体,神经网络逐一判断每个立方体是否被物体占据、是否在移动、属于哪一类物体。这套方法最核心的优势是不依赖物体识别,无论前方是标准车辆还是侧翻的货车、散落的货物,只要是空间中的实体,都会被标记出来。

wKgZO2oTqumAJ_oMAACz3BFhSGA694.jpg

图片源自:网络

2025年特斯拉又申请了更高精度的占用网络专利,把空间划分从约30厘米一格细化到约10厘米一格,在停车场等低速场景能对地面标记、车位线等细节做更精确的重建。这些空间信息直接参与端到端模型的决策过程,对驾驶员来说是不可见的中间状态。

小鹏则提出了物理世界大模型的概念,它的第二代VLA不仅能输出驾驶动作,还能对环境进行显式建模,生成世界模型表征。小鹏强调这是一套原生多模态的大模型,能同时处理视觉、听觉和文字信息,跨域应用于汽车、机器人和飞行汽车。在性能指标上,该模型参数达720亿,训练数据接近1亿个视频片段,每5天完成一次全链路迭代。配合自研的图灵AI芯片和定制化编译器,模型在车端的推理效率提升了12倍。

简单理解,特斯拉的世界模型更像神经网络的内部状态,是决策的中间产物;而小鹏则试图把世界模型变成一个可以跨任务复用的通用底层能力。

wKgZPGoTquqAdf1nAAASG3BOmsQ496.jpg

看得更远,还是看得更细

感知是纯视觉方案的基础,小鹏和特斯拉在技术架构上都采用了BEV(鸟瞰视角)+Transformer的方案,即先把多路摄像头的画面融合成一个从俯视角度理解的三维空间,再在此基础上做决策,不过两者在细节实现上存在差异。

特斯拉长期使用8颗摄像头实现车身360度覆盖,输入分辨率在AI4硬件上达36Hz全分辨率。占用网络的体素判断让系统不依赖事先定义的白名单来辨认障碍物,通用性很强。

小鹏在感知精度上则做了有针对性的强化,其AI鹰眼视觉方案采用Lofic技术摄像头,能在暗光、逆光等场景获得更清晰的成像。它量产的2K纯视觉占用网络用超过200万个网格重构三维空间,建模精度达5立方厘米/体素。相比特斯拉当前约30厘米的体素分辨率,小鹏在感知细节上更加精细,可以区分道路上的裂缝和坑洼。

wKgZO2oTquqAQZllAAJJPXGu27Q936.jpg

图片源自:网络

此外,小鹏的XNet架构整合了动态BEV、静态BEV和占用网络三套体系,在统一的框架下同时处理运动物体的预测、静态环境的结构理解和空间的占位判断。相比之下,特斯拉的动态物体预测和静态占用判断分别由占用网络内部的不同输出维度承担,并非三套独立网络,但在功能覆盖面上大致对应。

wKgZPGoTquuAYbHhAAASAJELks8727.jpg

数据驱动的两种策略

数据和算力是纯视觉方案的生命线,所有技术架构的差异最终都要靠数据来体现效果。

特斯拉的优势在于数据规模,截至2024年底,FSD累计行驶里程已超过20亿公里,远高于同类系统。它的车队在全球多个地区行驶,能接触到差异化的交通环境和边缘场景。

在训练策略上,特斯拉近年做了重要调整,它构建了一个云端世界模型来批量生成合成驾驶数据,再将合成数据与一定比例的真实道路数据混合,用于训练新的FSD模型。这种做法能快速覆盖现实中难以遇到的极端天气、罕见事故形态等长尾场景,也为后续AI5/AI6芯片实现训练与推理一体化的分布式计算平台提供了支撑。

wKgZO2oTquuANZsYAAadZZ1MXyI173.jpg

图片源自:网络

小鹏的累积里程则相对较少,但迭代速度很快,依赖折算超过10亿公里的视频训练数据,它的端到端模型能做到约2天迭代一次。第二代VLA的视觉数据总量约50PB,每秒处理约53亿字节的信息。

有一点需要提一下的是,小鹏的模型专注于中国道路场景,对人车混行、非机动车穿行、狭窄街道等复杂路况有更深度的训练覆盖。实际路测显示,第二代VLA在窄路、复杂博弈等中国特有场景下的稳定性和处理能力已展现出局部优势。

相比之下,特斯拉尽管在上海建有数据中心,但核心算法仍由北美团队主导,在中国开放的实际迭代速度落后于北美版本,在面对外卖骑手穿行、复杂混合车道等场景时还存在适应性不足的问题。

wKgZPGoTquyAE2plAAARwcz1hbg301.jpg

最后的话

概括下这两家纯视觉方案的区别,特斯拉是一个高度一体化的神经网络,用海量的全球化数据和极简的架构来让模型自己学会驾驶,世界模型内嵌于神经网络的权重之中;小鹏则是从模块化出发逐步收敛到更统一的架构,在感知精度上做得更精细,并以中国道路的复杂场景为核心进行深度优化,同时试图把世界模型打造成一个可复用的通用能力层。两条路线在技术底层上正在趋近,但架构上仍然各具特色。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 特斯拉
    +关注

    关注

    66

    文章

    6429

    浏览量

    131571
  • 自动驾驶
    +关注

    关注

    795

    文章

    15057

    浏览量

    181995
  • 小鹏
    +关注

    关注

    0

    文章

    71

    浏览量

    1520
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    卡车和乘用车自动驾驶技术上有何不同?

    卡车和乘用车自动驾驶虽然在技术路径上共享了一部分底层逻辑,但由于应用环境及使用场景的巨大差异,两者在技术实现上其实走的是两条完全不同的路线。那卡车和乘用车自动驾驶技术上有何不同?
    的头像 发表于 05-16 11:22 1494次阅读

    自动驾驶传感器前融合与后融合技术上有区别

    [首发于智最前沿微信公众号]在自动驾驶技术飞速发展的今天,如何让车辆像人类一样感知周围环境,一直是非常重要的话题。无论是摄像头、激光雷达还是毫米波雷达,都存在各自的物理局限性,因此多传感器融合技术
    的头像 发表于 05-10 09:09 200次阅读
    自动驾驶传感器前融合与后融合<b class='flag-5'>技术上有</b><b class='flag-5'>何</b><b class='flag-5'>区别</b>?

    视觉自动驾驶如何在夜晚感知场景?

    [首发于智最前沿微信公众号]在聊今天的话题前,先申明下,对于视觉自动驾驶来说,夜晚确实是一个极具挑战的场景,今天仅从技术实现上来讨论
    的头像 发表于 04-22 09:00 289次阅读
    <b class='flag-5'>纯</b><b class='flag-5'>视觉</b>自动驾驶如何在夜晚感知场景?

    为啥有人认为自动驾驶视觉方案比激光雷达方案好?

    激光雷达曾被视为自动驾驶不可或缺的“安全拐杖”,但以特斯拉为代表的自动驾驶方案让大家看到了视觉的潜力。视觉方案不仅在成本上有优势,更在模拟
    的头像 发表于 03-30 17:18 1173次阅读

    视觉自动驾驶能识别出高透明玻璃墙吗?

    [首发于智最前沿微信公众号]最近在和大家聊视觉自动驾驶能否识别3D图像时,有小伙伴提问,视觉自动驾驶能否识别出高透明玻璃墙,今天智
    的头像 发表于 02-18 08:49 1.1w次阅读
    <b class='flag-5'>纯</b><b class='flag-5'>视觉</b>自动驾驶能识别出高透明玻璃墙吗?

    视觉自动驾驶的优势和劣势有哪些?

    [首发于智最前沿微信公众号]最近有很多小伙伴在后台询问视觉自动驾驶的优劣,视觉自动驾驶以其低成本、高冗余的
    的头像 发表于 01-18 09:50 2437次阅读
    <b class='flag-5'>纯</b><b class='flag-5'>视觉</b>自动驾驶的优势和劣势有哪些?

    请问各型号的CW32微控制器在核心架构上有区别

    各型号的CW32微控制器在核心架构上有区别
    发表于 12-16 07:52

    长安汽车姜海:2028年智迈入“拐点时刻”,自动驾驶商业化落地提速

    12月8日,在2025年地平线技术生态大会上,来自长安汽车技术中心副总经理姜海分享了智技术对社会的意义,智
    的头像 发表于 12-12 10:39 1.5w次阅读
    长安汽车姜海<b class='flag-5'>鹏</b>:2028年智<b class='flag-5'>驾</b>迈入“拐点时刻”,自动驾驶商业化落地提速

    没有地图,视觉自动驾驶就只能摸瞎吗?

    [首发于智最前沿微信公众号]最近在一篇讨论高精度地图的文章中,有位小伙伴提到一个非常有趣的观点“如果人在陌生的目的地,只依托视觉(眼睛)去辨别道路,若没有导航,就只能摸瞎”。对于
    的头像 发表于 11-27 17:22 1660次阅读
    没有地图,<b class='flag-5'>纯</b><b class='flag-5'>视觉</b>自动驾驶就只能摸瞎吗?

    TC377配置SMU FSP时,如何配置频率参数;三种模式有区别,配置上有区别

    TC377配置SMU FSP时,如何配置频率参数;三种模式有区别,配置上有区别
    发表于 08-08 07:48

    机器人也能视觉控制?MIT华人博士团队登上Nature主刊

    电子发烧友网报道(文/梁浩斌)“视觉”的概念在近几年的智能驾驶领域被提到的次数不少,特斯拉、小、以及传闻准备重组的极越,都早已全面押注到“
    的头像 发表于 07-16 00:48 7119次阅读
    机器人也能<b class='flag-5'>纯</b><b class='flag-5'>视觉</b>控制?MIT华人博士团队登上Nature主刊

    特斯拉 Robotaxi 开始载客,技术漏洞引关注

    特斯拉自动驾驶技术商业化进程中的里程碑,标志着视觉方案从技术验证阶段向规模化应用迈出关键一步。  
    的头像 发表于 06-25 00:11 8919次阅读

    自动驾驶视觉方案到底有哪些弊端?

    [首发于智最前沿微信公众号]随着人工智能与传感器技术的快速发展,自动驾驶汽车逐步走入公众视野。其中,关于感知系统的技术路线选择,始终是大家争论的焦点。尤其是“
    的头像 发表于 06-23 09:27 1406次阅读
    自动驾驶<b class='flag-5'>纯</b><b class='flag-5'>视觉</b>方案到底有哪些弊端?

    视觉的自动驾驶会有哪些安全问题?

    [首发于智最前沿微信公众号]特斯拉CEO埃隆·马斯克认为,在复杂的道路驾驶环境中,模拟生物神经网络和眼睛的视觉系统才是最为有效的方式。他也曾在在多个场合批评激光雷达技术为“错误的解决
    的头像 发表于 06-16 09:56 1276次阅读
    <b class='flag-5'>纯</b><b class='flag-5'>视觉</b>的自动驾驶会有哪些安全问题?

    自动驾驶中视觉替代不了激光雷达?

    [首发于智最前沿微信公众号]随着自动驾驶技术的不断发展,视觉和激光雷达(LiDAR)两种主流环境感知成为了大家的热议话题。基于摄像头的“
    的头像 发表于 06-11 09:06 1282次阅读