0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自动驾驶如何做好数据闭环?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2026-02-23 14:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]自动驾驶系统能否稳定、安全地工作,关键在于它能不能持续学习、持续改进。自动驾驶系统并不是靠一个写好的程序就能一直用下去的,它在运行过程中会经常遇到“看不懂”或“判断错”的情况。如果无法将这些在实际驾驶中出现的问题和新场景反馈给研发团队,团队就难以修复缺陷、提升系统能力。

数据闭环,正是为了解决这个问题而建立的完整循环。它指的是把车辆在真实道路或测试中收集到的数据,持续传回给开发团队,经过处理、学习、验证和再次部署,可以更新到车辆上。只要这个循环运转得好,自动驾驶系统就能不断进步。

wKgZPGmb7OKAVCryAABUEOWOyaw136.jpg

图片源自:网络

数据闭环的核心目标,是让真实交通场景中遇到的新问题能够被快速发现、标注、分析,并用于更新模型,从而避免同样的问题反复出现。这很像软件开发中的版本迭代流程,即发现问题、收集反馈、后台修复、推送新版本,然后循环进行。只不过在自动驾驶中,由于涉及大量传感器数据、机器学习仿真测试,它所依赖的数据闭环体系要更加复杂。

wKgZO2mb7OKAUiKwAAAQo00DEvw108.jpg

数据闭环先要做的是数据采集

想要做好数据闭环,首先要做的就是数据采集。自动驾驶车辆上装有各种如摄像头、毫米波雷达、激光雷达等传感器,它们可以捕捉车辆周围环境的实时信息。这些传感器的数据是最原始、最全面的,能反映路况、障碍物、交通信号以及其他道路使用者的行为。实时捕获的这些数据是整个闭环系统的基础。

wKgZPGmb7OOAJnVoABd5sSpdRGk651.jpg

图片源自:网络

这些原始数据的来源可分为两类,一种是测试车辆在封闭试验场或开放道路上跑测试时采集的数据,另一种是量产车在实际道路上运营时采集的数据。前者可以主动控制测试场景,覆盖各种设定的测试条件;后者则能够捕获真是交通环境中的真实问题和大量边缘情况。收集到的数据会被传输到云端或数据中心,为后续处理做好准备。

这里需要注意的是,这些数据不像普通的系统日志那样容易整理。其中会包含图像、激光雷达点云、雷达信号等多类信息,形态多样且十分复杂,大部分内容并不能直接用来训练模型。因此,采集回来的数据要先经过一轮筛选,提取最具价值的路况片段、特定的错误场景等。这样做是为了确保后续的处理环节不会被海量无效数据拖慢效率,从而更聚焦于关键问题的优化与学习。

wKgZO2mb7OOAWddvAAAR42n7O-I579.jpg

数据预处理和清洗是关键

刚采集到的原始数据,不能直接拿来训练模型,必须经过预处理和清洗。这一步的目的是剔除数据中的干扰信息,并把真正有用的部分提取出来。

预处理包括数据格式转换、时间对齐和坐标统一等操作。因为自动驾驶车辆上的不同传感器有自己的时钟和坐标参考系。如果不把它们的数据在时间和空间上对齐,后续分析就会混乱。举个例子,激光雷达探测到的障碍物位置,如果没和摄像头拍摄的画面在时间上同步,就很难判断这个障碍物是否真实存在。

清洗则是把有明显错误、数据缺失或不完整的部分筛选掉。如在高速行驶时,传感器可能被遮挡或受到干扰,产生不可靠的数据。如果这类数据被用于训练,很可能让模型学到错误规律。因此,数据清洗是保证模型训练效果的重要步骤。

在这个阶段,还会配合自动标注技术。通过自动标注工具,可以初步识别并标出图像中的行人、车辆、交通标志等对象的位置和类型。之后,再由经验丰富的工程师对自动标注结果进行复核和修正,确保标注准确。采用“自动标注+人工校对”的方式,能够显著提升标注流程的效率。

wKgZPGmb7OSAR5jgAMnLSwAbicY543.jpg

图片源自:网络

wKgZO2mb7OeAL43TAAASG3BOmsQ967.jpg

用数据训练和优化模型

经过清洗和标注的数据,会被用于模型训练。在自动驾驶系统中,大多数感知、预测和规划功能都依赖于机器学习模型,而这些模型需要大量标注准确的数据来“学习”如何识别场景并做出正确判断。

训练工作一般在云端的高性能计算集群上进行。在此之前,要将准备好的数据按用途分为用于感知模型训练的、用于预测模型训练的、用于仿真测试的等类别,继而组合成训练集和验证集。机器学习算法通过反复调整模型内部的参数,使模型在遇到新数据时可以做出正确判断。

wKgZPGmb7OeAA8KIAABRluuQW8w958.jpg

图片源自:网络

这种训练不是一次性的,而是会持续迭代。每当有新的数据被标注完毕,就可以加入到训练集中,让模型接受更多样的训练。这样模型可以不断学习新的情况,不断提升准确率。

有些技术方案还引入大模型技术加快这个过程。大模型借助更强的理解能力,能自动识别复杂场景、自动提取特征,从而把人工参与程度降低、训练效率提升。

wKgZO2mb7OiALjO1AAASAJELks8222.jpg

仿真测试:在虚拟世界里验证更新

训练好模型后,并不能直接推送到车辆上运行,还需要经过严格的测试。真实路测虽然有必要,但成本高、风险大,因此仿真测试是数据闭环中不可或缺的一环。

仿真环境可以模拟各种道路场景、交通情况和天气条件。可以把新训练的模型在仿真环境中反复测试,验证它能否在各种情况下保持安全与稳定。像是高峰拥堵、突然横穿的行人、复杂交叉路口等场景,都可以在仿真中反复测试。

wKgZPGmb7OiAEa9fAAtiDP7viZI742.jpg

图片源自:网络

仿真测试的一个重要作用是发现模型在真实道路上可能遇到但尚未遇到的边缘场景。这些场景由于出现的概率极低,难以通过实际道路测试捕获,但如果遇到就可能导致系统失效,因此通过仿真测试,可以弥补这一场景无法覆盖的问题。

仿真系统还可以根据已有数据生成新的测试场景,补充现实数据的不足,这也是提高训练覆盖面和模型鲁棒性的重要方式。

wKgZO2mb7OmAWcTWAAARwcz1hbg782.jpg

车端验证和部署

经过训练和仿真测试都合格的模型,就可以部署到车端进行验证了。在这个阶段,车辆会在更大范围的真实道路条件下运行,观察自动驾驶系统的表现是否与仿真测试一致。

车端验证仍然会产生大量数据,这些数据可以再次反馈回云端,进入下一个循环的采集和分析环节。通过这种环节,新模型展开的运行验证将成为下一次闭环迭代的输入。

在这个阶段,最关键的工作是做好监控与异常捕捉。系统需要实时记录每次决策、每次预测与实际情况的差异,一旦发现它在特定场景下出现判断偏差的趋势,就要及时将相关数据提取出来,作为下一轮训练的重要素材。

wKgZPGmb7OmAbOorAABnot-B_9E645.jpg

图片源自:网络

通过这样持续不断的验证与反馈,整个自动驾驶系统就可以逐步完善,实现从一开始只能在简单路况下运行,渐渐成长为能够应对复杂交通环境、恶劣天气等真实挑战的成熟系统。

wKgZO2mb7OmAGQFEAAATCLDSk7w749.jpg

部署闭环体系的挑战

要构建一个高效的数据闭环,并不是简单地把数据从车辆传回后台这么简单。它更像搭建一条自动化的“学习流水线”,需要多个环节紧密配合,并配以相应的工具与平台。

由于数据闭环中产生的数据量是非常庞大且类型多样的,因此,必须依赖高性能的存储与大规模数据处理能力,才能高效地存取和整理海量信息。

自动标注与数据处理工具也很重要,它们决定了原始数据能否被快速、准确地转化为可供模型学习的训练样本,这将直接影响后续环节的进度与质量。

wKgZPGmb7OmATyh_AAEUyzCl3CM307.jpg

图片源自:网络

同时,强大的训练与仿真计算平台也不可或缺。模型的迭代学习依赖充足的算力支持,而仿真环境则能安全、高效地验证算法在众多场景下的表现。

此外,还需要建立模型部署与实时监控系统。这可以确保更新后的模型顺利应用到车辆中,并在实际运行中持续监测其表现,及时发现问题并触发新一轮的优化。

需要注意的是,在整个闭环过程中,数据采集与处理还必须遵循合规与隐私保护原则。自动驾驶车辆采集的数据有时涉及个人图像信息或其他敏感内容,这些数据在传输和存储时必须进行脱敏处理,确保不泄露个人隐私。此外,各个国家和地区对自动驾驶数据的使用和跨境传输都有严格规定,开发团队需要符合这些法律法规要求。

总之,数据闭环需要从采集、存储、处理、训练、测试到部署与验证的全链条进行系统化建设,形成一套自动化程度高、反馈迅速的运行机制。只有这样,闭环才能真正运转起来,从而推动自动驾驶系统持续进化。

wKgZO2mb7OqAHAS4AAARYKtLz1c919.jpg

最后的话

自动驾驶技术的发展离不开数据闭环。一个完善的数据闭环体系能让车辆在真实交通场景中遇到的各种新情况被及时捕获、整理、学习并用于系统更新。这不仅会提升系统的安全和稳定性,还能加快整体研发进度。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    795

    文章

    15056

    浏览量

    181991
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    3DGS+合成数据,真能让自动驾驶告别“长尾场景焦虑”吗?

    一、引言在自动驾驶与具身智能的发展历程中,数据一直是制约模型能力的重要因素。目前,Waymo的自动驾驶数据累计达3200万公里,特斯拉车队的回传数据
    的头像 发表于 05-15 17:33 308次阅读
    3DGS+合成<b class='flag-5'>数据</b>,真能让<b class='flag-5'>自动驾驶</b>告别“长尾场景焦虑”吗?

    如何构建适合自动驾驶的世界模型?

    [首发于智驾最前沿微信公众号]世界模型经历了系统动力学阶段(1960年~2000年)、认知科学阶段(2001年~2017年)、深度学习阶段(2018年至今),但将其应用到自动驾驶汽车上,还是近几年才
    的头像 发表于 02-18 08:14 1.1w次阅读
    如何构建适合<b class='flag-5'>自动驾驶</b>的世界模型?

    自动驾驶汽车如何实现自动驾驶

    人类驾驶员而言是非常直观且有效的指令,但对于自动驾驶汽车来说,则意味着需要一套极其复杂的感知、理解与决策链路。 自动驾驶如何看清文字? 自动驾驶汽车感知汉字的第一步是场景文本识别技术,
    的头像 发表于 02-10 08:50 901次阅读
    <b class='flag-5'>自动驾驶</b>汽车如何实现<b class='flag-5'>自动驾驶</b>

    如何设计好自动驾驶ODD?

    为确定自动驾驶的可使用范围,会给自动驾驶设置一个运行设计域(Operational Design Domain,ODD)。ODD的作用就是用来明确自动驾驶在什么情况下能工作,在什么情况下不能工作,给车设定“工作范围”。
    的头像 发表于 01-24 09:27 1913次阅读

    自动驾驶摄像头要如何做标定?

    问题在拍照时影响并不大,但是对于自动驾驶摄像头来说,如果出现这些问题,就会让自动驾驶汽车无法看懂世界,无法判断距离,使得小偏差变成大问题。
    的头像 发表于 12-28 14:22 1532次阅读

    自动驾驶BEV Camera数据采集系统:高精度时间同步解决方案

    1 自动驾驶数据采集的时间同步挑战与重要性 随着自动驾驶技术的快速发展,车辆准确感知周围环境的能力变得至关重要。在分布式多传感器系统中,信号从创建到存储会历经多个软件模块和系统,产生传播延迟和时钟
    的头像 发表于 12-11 17:11 1534次阅读
    <b class='flag-5'>自动驾驶</b>BEV Camera<b class='flag-5'>数据</b>采集系统:高精度时间同步解决方案

    高程数据自动驾驶中有什么作用?

    最近有小伙伴让智驾最前沿聊聊自动驾驶高精度地图对高程数据的使用依赖,其实在聊这个话题之前,还是需要先知道高程数据是什么,在自动驾驶中到底有什么作用。
    的头像 发表于 11-02 13:44 2094次阅读

    不同等级的自动驾驶技术要求上有何不同?

    谈到自动驾驶,不可避免地会涉及到自动驾驶分级,美国汽车工程师学会(SAE)根据自动驾驶系统与人类驾驶员参与驾驶行为程度的不同,将
    的头像 发表于 10-18 10:17 2947次阅读

    自动驾驶数据标注主要是标注什么?

    [首发于智驾最前沿微信公众号]在自动驾驶系统的研发过程中,数据标注是实现高性能感知模型的基础环节,其核心目标是将车辆从环境中采集到的原始感知数据(主要包括图像、点云、视频序列等)转化为具有语义信息
    的头像 发表于 07-30 11:54 1823次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>数据</b>标注主要是标注什么?

    什么是自动驾驶数据标注?如何好做数据标注?

    、精准且高效的数据标注流程显得尤为关键。那什么是数据标注?如何做数据标注? 自动驾驶数据标注是指
    的头像 发表于 07-09 09:19 1829次阅读
    什么是<b class='flag-5'>自动驾驶</b><b class='flag-5'>数据</b>标注?如何好做<b class='flag-5'>数据</b>标注?

    自动驾驶汽车是如何准确定位的?

    厘米级的定位精度,并能够实时响应环境变化。为此,自动驾驶系统通常采用多传感器融合的方式,将全球导航卫星系统(GNSS)、惯性测量单元(IMU)、激光雷达(LiDAR)、摄像头、超宽带(UWB)等多种传感器数据进行综合处理,通过算
    的头像 发表于 06-28 11:42 1587次阅读
    <b class='flag-5'>自动驾驶</b>汽车是如何准确定位的?

    卡车、矿车的自动驾驶和乘用车的自动驾驶在技术要求上有何不同?

    [首发于智驾最前沿微信公众号]自动驾驶技术的发展,让组合辅助驾驶得到大量应用,但现在对于自动驾驶技术的宣传,普遍是在乘用车领域,而对于卡车、矿车的自动驾驶发展,却鲜有提及。其实在卡车、
    的头像 发表于 06-28 11:38 1931次阅读
    卡车、矿车的<b class='flag-5'>自动驾驶</b>和乘用车的<b class='flag-5'>自动驾驶</b>在技术要求上有何不同?

    自动驾驶汽车接管逻辑如何设置更为合理?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的发展,组合辅助驾驶功能已经逐步走向实用化,但由于技术并未成熟,L5级别的自动驾驶尚未实现,组合辅助驾驶功能在使用过程中,依然需要人类
    的头像 发表于 06-26 08:56 1037次阅读

    端到端数据标注方案在自动驾驶领域的应用优势

    10-20TB,其中需要标注的数据占比超过60%。在这样的背景下,端到端数据标注方案应运而生,正在重塑自动驾驶数据生产范式。 端到端数据
    的头像 发表于 06-23 17:27 1266次阅读