0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

怎么将自动驾驶场景理解能力从二维提升到三维?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2026-04-25 09:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]自动驾驶的核心任务就是赋予机器像人类一样观察、思考并操作车辆的能力。在整个技术架构中,感知与场景理解处于最前端,是后续所有决策与执行逻辑的根基。

如果将自动驾驶车辆比作一个生物体,传感器就像是分布在全身的神经末梢,而场景理解能力则是大脑对这些神经冲动进行的深度加工。这种加工不仅要求车辆能够看清周围有什么,更要求其理解这些物体之间的空间关系、语义属性以及未来可能发生的行为趋势。

随着技术的不断更迭,自动驾驶的场景理解已经从单纯的二维图像识别,演进到了三维空间重构,乃至具备常识推理能力的认知阶段。

wKgZO2nsE3KANvfnAAAQo00DEvw718.jpg

从多维度感知到时空对齐

在探讨算法模型之前,必须理解自动驾驶获取信息的硬件基础。单一传感器由于物理特性的限制,无法应对所有的天气和光照条件。

摄像头能够提供丰富的颜色和纹理信息,但在强光直射、黑夜或大雾天气的表现会大打折扣;激光雷达能够输出高精度的三维点云数据,清晰地勾勒出障碍物的轮廓,却难以识别交通灯的颜色或路牌上的文字;毫米波雷达在恶劣天气下极具穿透力,且对动态物体的速度感知敏锐,但其空间分辨率较低,难以分辨静止物体的细节。

因此,多传感器融合技术成为了场景理解的第一道技术关卡。

多传感器融合不是简单的信息相加,其核心在于如何解决不同传感器在时间和空间上的不一致性。

在空间层面,每个传感器都有自己的坐标系,摄像头看到的是像素坐标,激光雷达看到的是极坐标或笛卡尔坐标,系统必须通过极其精准的外参标定,将所有数据统一到一个固定的车辆世界坐标系中。

在时间层面,不同传感器的采样频率各异,且由于车辆在高速运动,即便只差了几十毫秒,物体在现实空间中的位置也会发生显著变化。

wKgZO2nsE3OAI183AABgb7DNiCk923.jpg

图片源自:网络

为了解决这一问题,系统会采用运动补偿技术,根据车辆的运动状态对不同时刻的数据进行对齐,确保所有信息反映的是同一个物理时刻的环境状态。

根据数据融合发生的阶段不同,行业内会将其划分为前融合、深度融合与后融合。

前融合是在原始数据层面上进行整合,尽可能保留最底层的信息,但其对算力和带宽的要求极高。

深度融合则是在神经网络的特征提取阶段进行,将不同模态的特征向量在特征空间中进行连接或加权,这种方式能够实现信息的互补,提高系统的鲁棒性。

后融合则是各个传感器独立得出检测结果后再进行逻辑汇总,虽然架构简单、灵活性高,但往往会因为单个传感器的局限性而丢失关键的细节信息。

在城市道路环境中,实时精准地感知动态环境是车辆做出安全决策的前提。

感知系统的实现依赖于多个技术模块的协同运作,其中包括传感器数据采集、特征提取、数据融合以及语义分析等。

数据采集是起点,通过多种传感器的协作,感知系统能够覆盖从远距离到近距离的全方位感知需求。

随后的特征提取则通过复杂的算法从原始数据中提取如检测车辆边界、分割行人轮廓以及识别道路标志等有价值的信息。

wKgZPGnsE3OAUdYGAAAR42n7O-I633.jpg

鸟瞰图与占用网络的架构革新

在解决了传感器数据的统一问题后,下一步就是要解决如何从这些海量数据中提取有意义的地理结构。

传统的感知方式主要是基于图像层面的目标检测,即在照片里画框。然而,画框的方式很难准确描述物体在三维空间中的真实姿态,尤其是在多相机视野重叠的区域,如何确保不同视角的图像被拼接到正确的位置是一个巨大的挑战。

鸟瞰图(BEV)技术的出现,彻底改变了这一现状。BEV感知方案通过融合多个摄像头的视觉数据,将原本支离破碎的2D图像直接投影到一个统一的3D鸟瞰视角下,从而生成全局的环境信息。

BEV技术的核心在于空间转换。

系统首先利用深度学习网络从每个摄像头的原始图像中提取特征。这些网络会包含主干网络用于提取特征,颈部网络进行特征融合,以及头部网络生成检测结果。

提取出的特征随后通过一种类似于投影的数学机制,在三维空间中进行位置查询。这个过程可以理解为,系统在车辆上方的天花板上安装了一个虚拟摄像头,通过算法计算出地面上每一个点在不同原始图像中对应的像素,从而完成从二维平面到三维地理坐标的转换。

wKgZPGnsE3eAfP9dANjglQ9o894709.jpg

图片源自:网络

这种技术能够有效解决遮挡问题,因为即使某个物体在侧边摄像头的画面中被挡住了一半,只要其他摄像头的视野能覆盖该区域,系统就能在视图中完整地还原其位置和轨迹。

但即便是BEV技术,在处理那些形状不规则的物体时也会感到吃力。像是路边斜出的树枝、施工区域的围挡或者是洒落在地面的货物,这些物体很难用标准的立方体盒子来准确描述。

为了解决这类挑战,占用网络(Occupancy Network)应运而生。占用网络不再试图识别物体具体是什么,而是将车辆周围的空间划分成无数个极小的立方体网格,并预测每一个网格是否被占用,以及其运动状态。

占用网络将场景理解从分类任务提升到了空间几何重构的层面。

它通过预测空间中每个点的占用概率,能够识别出任何异形障碍物,哪怕系统从来没有见过这种物体。这种不依赖预定义类别的特性,极大地增强了自动驾驶在复杂城市环境中的泛化能力。

为了提升计算效率,现阶段的占用网络结合了语义分割技术,在判断空间是否被占用的同时,还能顺便给出该区域的语义标签,比如识别出这一片被占用的网格属于植被,而那一片属于路沿。

此外,这种三维空间的理解能力也为下游的路径规划提供了更可靠的依据。

传统的感知结果如果只是二维的,规划系统很难判断车辆是否能从狭窄的缝隙中穿过。而有了体素化的空间表示,系统可以精确计算车辆轮廓与障碍物之间的物理距离,从而做出更细腻的驾驶动作。

为了应对各种极端天气和光照条件的挑战,感知系统在硬件设计和算法鲁棒性方面也进行了多层优化,确保在复杂的驾驶场景中,系统能在极短的时间内处理大量数据,并给出准确的识别结果。

wKgZO2nsE3qAdnjCAAASG3BOmsQ762.jpg

大模型如何赋予机器驾驶常识

尽管BEV和占用网络已经让自动驾驶车辆看清了物理世界,但在面对复杂的交通规则和充满变数的社会互动时,车辆依然显得非常机械

举个例子,当前方有一辆闪着红灯的救护车时,人类驾驶员知道即便前方是红灯也需要观察路况并尽可能让行;当看到路边有蹒跚学步的小孩时,人类会预判小孩可能会突然跑上公路。

这些基于常识的逻辑推理,是传统基于规则的算法难以完全覆盖的。近年来,以大语言模型和视觉语言模型为核心的基础模型开始被引入自动驾驶领域,旨在解决这种深层次的语义理解和推理问题。

基础模型在自动驾驶中的核心在于其拥有的世界知识。

wKgZPGnsE3uABiv4AABxx8efK2U867.jpg

图片源自:网络

这些模型在海量文本和图像数据中学习到了人类社会的运行规律,能够理解复杂的因果关系。例如,在面对一个施工区域时,大模型不仅能识别出锥桶和围挡,还能结合当前的交通流和路标文字,推理出最佳的绕行方案。

相比于传统的基于逻辑树的决策方式,这种基于模型的方法在处理未曾见过的特殊场景时表现出极强的泛化能力。它将感知的范畴从识别几何形体扩展到了理解场景意图。

在具体的实现逻辑上,这些模型采用多模态架构,将视觉传感器的特征信息转化为文本描述或高维向量,与预训练的知识库进行交互。通过这种方式,自动驾驶系统能够实现一种类似于人类思维的逻辑链条。

若车辆感知到前方车辆尾灯闪烁,然后结合当前路口特征和车道拓扑关系,就可以推理出该车可能由于故障停靠或准备紧急并线,最后做出减速并保持距离的决策。

这种推理过程不再是单纯的概率计算,而是具备了一定程度的可解释性,让人们可以理解车辆为什么在特定时刻做出了特定的选择。

基础模型还在场景生成和系统评测中发挥着重要作用。

通过大规模生成如夜间逆行的非机动车、雨天反光的积水坑等稀有的极端场景,这些模型能够为自动驾驶系统的训练提供高质量、多维度的模拟数据,从而加速感知的迭代优化。

这种从真实数据中提炼知识,再通过模拟数据反哺系统的闭环,正成为提升自动驾驶场景理解能力的重要路径。

为了在真实城市交通中实现安全行驶,系统还会采用多准则决策方法来平衡安全性、舒适性和效率等多个目标,确保车辆能够自然地融入交通生态。

wKgZO2nsE3uAIJi9AAASAJELks8816.jpg

最后的话

自动驾驶场景理解是一场从物理探测到数学重构,再到思维推理的演进过程。从多传感器融合奠定的数据基石,到鸟瞰图与占用网络构建的立体视野,再到基础模型赋予的智慧大脑,每一项技术的突破都在填补机器与人类驾驶员之间的能力鸿沟。

在这个过程中,场景理解已经不再仅仅是看见,而是演变成了对物理世界规律的洞察。随着算力的持续提升和算法模型的不断迭代,全场景、高可靠的语义理解终将实现,并为自动驾驶的安全落地提供最坚实的保障。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    794

    文章

    14988

    浏览量

    181504
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深度相机:技术突破到全场景落地,解锁三维感知新可能

    推动各行业智能化转型的关键设备。不同于传统2D相机只能捕捉平面图像,深度相机能够精确获取场景或物体的三维空间信息,输出深度图与点云数据,让设备拥有“立体视觉”,实现
    的头像 发表于 04-15 15:04 291次阅读
    深度相机:<b class='flag-5'>从</b>技术突破到全<b class='flag-5'>场景</b>落地,解锁<b class='flag-5'>三维</b>感知新可能

    深度图像信息直出,分辨率达120万像素,安森美iTOF让机器快速理解三维空间

    电子发烧友网报道(文 / 吴子鹏)二维识别到三维理解,感知技术的每一次跃迁,都在不断重塑机器人、工业自动化与智能检测的应用边界。随着具身智
    的头像 发表于 04-03 09:43 2868次阅读
    深度图像信息直出,分辨率达120万像素,安森美iTOF让机器快速<b class='flag-5'>理解</b><b class='flag-5'>三维</b>空间

    [VirtualLab] 二维叉形光栅产生涡旋光阵列

    纳加工技术的飞速发展,二维叉形光栅的制备精度与性能不断提升,不仅能实现单一拓扑荷的涡旋光束输出,还可通过级联或复用设计生成多通道、多模式的 OAM 光束阵列。这一技术突破,极大地推动了涡旋光束在光通信
    发表于 04-01 09:15

    大模型时代自动驾驶标注有什么特殊要求?

    的端到端架构和占用网络,标注工作已经平面的像素点位,跨越到了四时空的深度重建。 空间的立体化与时间的连贯性挑战 自动驾驶标注的难点在于二维
    的头像 发表于 03-01 09:09 3110次阅读
    大模型时代<b class='flag-5'>自动驾驶</b>标注有什么特殊要求?

    自动驾驶中常提的占用网络检测存在哪些问题?

    自动驾驶感知技术在过去几年中经历了很大的变化,最初的二维图像检测到鸟瞰图投影,再到如今备受关注的占用网络,感知技术的提升,让自动驾驶
    的头像 发表于 02-24 15:53 1175次阅读

    【OFDR】实时感知、动态重构与历史状态回溯!昊衡科技-三维场重构软件

    三维场重构软件三维场重构软件通过TCP协议获取传感数据,并实时重构三维温度/应变场。软件支持导入三维模型(.wrl格式)与二维图片(.jpe
    的头像 发表于 01-29 17:40 1479次阅读
    【OFDR】实时感知、动态重构与历史状态回溯!昊衡科技-<b class='flag-5'>三维</b>场重构软件

    有哪些常见的二维码模组类型?

    、应用等级四大核心维度划分,不同类型适配不同场景需求:一、按安装方式划分1.嵌入式二维码模组核心特点是体积小、集成度高,可直接嵌入设备内部,适配空间受限的场景,支
    的头像 发表于 01-24 00:00 943次阅读
    有哪些常见的<b class='flag-5'>二维</b>码模组类型?

    二维影像扫描引擎在门禁二维码刷卡梯控行业中的应用

    在当今科技日新月异的时代,二维影像扫描引擎以其卓越的识别性能和广泛的应用领域,成为了门禁系统中不可或缺的重要组成部分,尤其在二维码刷卡梯控行业中展现出了非凡的价值。本文将深入探讨二维影像扫描引擎在
    的头像 发表于 12-17 15:42 496次阅读
    <b class='flag-5'>二维</b>影像扫描引擎在门禁<b class='flag-5'>二维</b>码刷卡梯控行业中的应用

    二维数组介绍

    大家不要认为二维数组在内存中就是按行、列这样二维存储的,实际上,不管二维三维数组… 都是编译器的语法糖。 存储上和一数组没有本质区别,
    发表于 11-25 07:42

    AI 驱动三维逆向:点云降噪算法工具与机器学习建模能力的前沿应用

    三维逆向工程领域,传统方法在处理复杂数据和构建高精度模型时面临诸多挑战。随着人工智能(AI)技术的发展,点云降噪算法工具与机器学习建模能力的应用,为三维逆向工程带来了创新性解决方案,显著提升
    的头像 发表于 08-20 10:00 860次阅读
    AI 驱动<b class='flag-5'>三维</b>逆向:点云降噪算法工具与机器学习建模<b class='flag-5'>能力</b>的前沿应用

    二维码条码识读器的主要功能有哪些

    在信息化快速发展的当下,一二维码条码识读器已成为各行各业高效处理信息的重要工具。超市收银到物流追踪,它凭借快速准确的信息识别能力,大幅提升
    的头像 发表于 08-01 15:59 1209次阅读
    一<b class='flag-5'>维</b><b class='flag-5'>二维</b>码条码识读器的主要功能有哪些

    基于TSV的三维集成电路制造技术

    三维集成电路工艺技术因特征尺寸缩小与系统复杂度提升而发展,其核心目标在于通过垂直堆叠芯片突破二维物理极限,同时满足高密度、高性能、高可靠性及低成本的综合需求。
    的头像 发表于 07-08 09:53 2316次阅读
    基于TSV的<b class='flag-5'>三维</b>集成电路制造技术

    基于STM32的二维码识别源码+二维码解码库lib

    基于STM32的二维码识别源码+二维码解码库lib,推荐下载!
    发表于 05-28 22:04

    基于STM32的二维码识别源码+二维码解码库lib

    基于STM32的二维码识别源码+二维码解码库lib项目实例下载! 纯分享帖,需要者可点击附件免费获取完整资料~~~【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 05-23 20:45

    JCMsuite中对二维光栅的定义和仿真

    光栅是光衍射的周期性结构。它能把入射的光束衍射成几束向不同方向发散的光束。 二维光栅 二维光栅在两个水平方向上都具有周期性。存在两个晶格矢量因此当几何结构移位一个晶格矢量时, 下图显示了一个正方形
    发表于 05-19 08:53