0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从数据闭环到混合数据增强,关于自动驾驶数据的那些事

Nullmax纽劢 来源:Nullmax纽劢 作者:Nullmax纽劢 2022-11-29 15:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天,小编将继续为大家带来Nullmax感知部总监兼计算机视觉首席科学家成二康博士做客汽车之心·行家说栏目的内容整理下篇,关于自动驾驶的数据闭环及混合数据增强的简要介绍。Nullmax正通过将这些技术应用到不同的量产项目中,推进自动驾驶系统的迭代升级。

对于自动驾驶而言,数据具有至关重要的技术驱动作用,通过数据闭环高效收集、利用海量的真实数据,是自动驾驶研发和落地的一项核心能力。与此同时,在无法充分获得所需真实数据的情况下,大规模地生成虚拟样本也是一种可行的方式。

对于自动驾驶来说,真实世界的驾驶环境变幻莫测,驾驶场景层出不穷,训练有素的软件算法也会面临长尾效应带来的一系列问题,遇到一些很少遇到但是很难应对的极端场景。

因此,针对自动驾驶的长尾问题,Nullmax打造了高效的数据闭环,支持行泊一体方案的大规模应用,并且探索了大规模地生成虚拟样本数据,运用混合数据增强方法解决少见目标检测方面的相关难题。

这样的话,可以最大程度、最高效率地在真实场景中收集和利用困难样本数据,同时在真实场景数据难以满足需求的情况,通过合成虚拟样本来解决数据难题。

数据闭环

Nullmax的数据闭环,名为MaxFlow自主成长系统。它包含了车端、云端两大部分,车端源源不断地获取数据,云端对数据进行分析,完成获取、清洗、标注、训练以及模型验证的整个闭环。

4183e9ae-6f99-11ed-8abf-dac502259ad0.png

它可以为感知、融合、决策、定位、测试等环节提供全方位的帮助,实现持续不断的迭代升级,驱动自动驾驶的整个系统自主成长。特别是在感知层面,尤其是视觉感知当中,自主成长系统发挥了巨大作用。

数据闭环的数据,主要源自两个方面。一是以offline的方式,在收集全量数据后,通过data filter机制筛选出感兴趣的数据,然后送到云端参与训练等任务。二是以online的方式,在车端运用trigger机制,通过影子模式等方法,自主地收集一些感兴趣的数据,包括困难样本。(点击查看详情)

影子模式,简单来说就是通过对比人类司机和自动驾驶系统的驾驶差异,获得一些数据,提升自动驾驶系统的驾驶能力,从而逼近甚至是超越人类驾驶水平。对于感知层面来说,也是如此,比如AEB误触发,那么就可以在误触发的时候,将视觉传感器的数据进行回收,送到云端分析处理。这是一种相对被动的学习方式,此外系统也包含一些相对主动的学习方式,比如通过不确定性等进行样本的筛选。

41b20456-6f99-11ed-8abf-dac502259ad0.png

在线的trigger方面,包括有人机一致性、时序一致性、多传感器一致性、多算法一致性、指定特殊场景等不同类型的设置。如果遇到变道失败、传感器之间结果不一致、算法结果不一致等等情况,那么就会触发相应数据的收集。

举个例子,一个障碍物在时间维度而言,既不可能凭空消失,也不可能凭空出现,这就是时序的一致性。如果一个行人在连续轨迹上消失了,那么就是典型的漏检。

另外一个例子,就是同样的一张图片,用不同的算法进行一致性的校验。比如freespace和障碍物相互校验,可行驶区域当中不应存在障碍物,不然的话就是漏检。

此外,运用多种算法校验来筛选难样本,也是非常重要的手段。比如行驶在路面的车辆,如果只检测出车轮,但没有检测出车辆,那么极有可能这是一个比较难的样本,比如涂装车、挖掘机、平板车等等罕见的车辆。这种方法也可以用来筛选一些极近距离的大车,比如油罐车、拖车、挂车等等少见场景的数据。

41dce89c-6f99-11ed-8abf-dac502259ad0.png

4222a6ac-6f99-11ed-8abf-dac502259ad0.png

同样的,对于行人也可以通过头部的检测和身体的检测,来校验检测结果,筛选困难案例。

混合数据增强

对于自动驾驶而言,除了通过数据闭环在真实场景中收集困难样本之外,另外一种获取数据样本的方式,就是大规模的自动化生成虚拟样本。

比如,在CVPR 2022上提出的合成数据集SHIFT,就是通过CARLA仿真几乎零成本地生成真值数据。再比如Block-NeRF,利用3个月收集的数据重建旧金山市的场景,这是另外一种生成数据的方式,通过一些样本的视角来生成其他视角的虚拟图像。

此外,通过计算机图形学和生成式模型相结合,也能够以Neural Rendering的方式生成大量的虚拟数据。

在ICRA 2022上,Nullmax同样也提出了一种生成虚拟样本的方式,通过混合数据增强的方法,解决罕见目标检测的难题。(点击查看详情)

因为对自动驾驶而言,即使专门去筛一些数据,获得的数据量仍可能还是很小。收集一些少见的样本,比如锥形筒相关的场景,其实依然很难。

所以我们当初的想法是,既然拥有大量没有锥形筒的真实场景,那么能不能将锥形筒的mask(掩膜)贴到这些真实场景图片上面,几乎零成本地自动生成大量少见样本呢?这就是我们想要通过混合数据增强来实现的目标。

426ce8e8-6f99-11ed-8abf-dac502259ad0.png

这当中有两个非常关键的问题,一个是锥形筒mask贴到什么位置,一个是怎么贴mask。因此,我们提出了一个多任务的深度学习网络,为交通场景提供相应的约束,确保mask沿着车道线贴到freespace上,而不是车上。同时,还提出了一个局部自适应的颜色变换,让mask能够自动适应每张图片本身的颜色分布。

实验结果显示,对锥形筒这类少见样本来说,如果只有少量数据,检测效果其实比较一般。但是在结合我们的混合数据增强方法后,检测效果可以大幅提升。

Nullmax已经开源相应的ROD(Rare Object Dataset)数据集,当中包含1万多张的数据,分布在不同的道路、天气和光照条件。如果大家感兴趣,欢迎登陆网站下载 https://nullmax-vision.github.io/。

篇后语

为了更好地实现行泊一体,Nullmax开发了能够自动化支持行车和泊车两类任务的感知基础架构,从而最大程度地复用软件算法。这其中,就包括了数据、训练和部署。

基于这套架构,Nullmax能够通过数据闭环收集的海量真实数据,以及大规模生成的虚拟样本,以非常高效、经济的方式提供提供丰富、充足的训练样本,对算法进行真实和混合数据的混合训练,打造出一个满足全场景自动驾驶需求的「超级大脑」。

后续,我们将介绍这套强大的感知基础架构,敬请关注!

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95012
  • 自动驾驶
    +关注

    关注

    794

    文章

    14985

    浏览量

    181449
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1394

原文标题:Nullmax研习社 | 从数据闭环到混合数据增强,关于自动驾驶数据的那些事

文章出处:【微信号:Nullmax,微信公众号:Nullmax纽劢】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶占用网络还需要数据标注吗?

    [首发于智驾最前沿微信公众号]在自动驾驶领域,占据网络(Occupancy Network,简称OCC)一直是近年来的热点技术。不知道大家在了解占用网络时,是否会有这么一个想法,那就是既然占据网络
    的头像 发表于 04-17 08:53 378次阅读
    <b class='flag-5'>自动驾驶</b>占用网络还需要<b class='flag-5'>数据</b>标注吗?

    自动驾驶如何做好数据闭环

    ”的情况。如果无法将这些在实际驾驶中出现的问题和新场景反馈给研发团队,团队就难以修复缺陷、提升系统能力。 数据闭环,正是为了解决这个问题而建立的完整循环。它指的是把车辆在真实道路或测试中收集
    的头像 发表于 02-23 14:00 1712次阅读
    <b class='flag-5'>自动驾驶</b>如何做好<b class='flag-5'>数据</b><b class='flag-5'>闭环</b>?

    自动驾驶端为什么会出现黑盒现象?

    自动驾驶领域,端端(End-to-End)是指感知环境的原始数据车辆实际控制指令,全部交给一个统一的深度学习模型来完成。这和传统的模
    的头像 发表于 02-20 09:25 9534次阅读
    <b class='flag-5'>自动驾驶</b>端<b class='flag-5'>到</b>端为什么会出现黑盒现象?

    端与模块化自动驾驶数据标注要求有何不同?

    [首发于智驾最前沿微信公众号]自动驾驶技术路径的每一次技术转向,都伴随着底层数据处理逻辑的彻底重构。过去,智驾系统普遍依赖模块化设计,将驾驶任务拆解为感知、预测、规控等独立环节;而今,以端
    的头像 发表于 01-27 09:48 1109次阅读
    端<b class='flag-5'>到</b>端与模块化<b class='flag-5'>自动驾驶</b>的<b class='flag-5'>数据</b>标注要求有何不同?

    自动驾驶BEV Camera数据采集系统:高精度时间同步解决方案

    1 自动驾驶数据采集的时间同步挑战与重要性 随着自动驾驶技术的快速发展,车辆准确感知周围环境的能力变得至关重要。在分布式多传感器系统中,信号创建
    的头像 发表于 12-11 17:11 1454次阅读
    <b class='flag-5'>自动驾驶</b>BEV Camera<b class='flag-5'>数据</b>采集系统:高精度时间同步解决方案

    L4级自动驾驶数据采集系统首选

    数据记录设备 ,为自动驾驶研发提供端端的解决方案,助力企业突破数据采集瓶颈。 一、自动驾驶数据
    的头像 发表于 11-26 09:31 529次阅读

    高程数据自动驾驶中有什么作用?

    最近有小伙伴让智驾最前沿聊聊自动驾驶高精度地图对高程数据的使用依赖,其实在聊这个话题之前,还是需要先知道高程数据是什么,在自动驾驶中到底有什么作用。
    的头像 发表于 11-02 13:44 1962次阅读

    一文读懂特斯拉自动驾驶FSD辅助端的演进

    [首发于智驾最前沿微信公众号]自动驾驶行业发展至今,特斯拉一直被很多企业对标,其FSD系统的每一次更新,都会获得非常多人的关注。早期自动驾驶是一个分层的、由多模块组成的系统,感知、定位、预测、规划
    的头像 发表于 10-11 09:13 1126次阅读
    一文读懂特斯拉<b class='flag-5'>自动驾驶</b>FSD<b class='flag-5'>从</b>辅助<b class='flag-5'>到</b>端<b class='flag-5'>到</b>端的演进

    自动驾驶中常提的“专家数据”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,经常会听到一个概念,那便是“专家数据”。专家数据,说白了就是“按理应该这么做”的那类示范数据。它不是随机抓来的日志,也不是随便标注的标签
    的头像 发表于 10-09 09:33 887次阅读
    <b class='flag-5'>自动驾驶</b>中常提的“专家<b class='flag-5'>数据</b>”是个啥?

    自动驾驶数据标注主要是标注什么?

    [首发于智驾最前沿微信公众号]在自动驾驶系统的研发过程中,数据标注是实现高性能感知模型的基础环节,其核心目标是将车辆环境中采集的原始感知数据
    的头像 发表于 07-30 11:54 1606次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>数据</b>标注主要是标注什么?

    数据驱动自动驾驶:核心要素与发展全景解析

    在汽车工业向智能化、网联化转型的浪潮中,自动驾驶技术作为人工智能与交通领域深度融合的标志性成果,正重塑全球交通运输格局。数据作为数字经济时代的核心生产要素,已成为自动驾驶系统理论研发
    的头像 发表于 07-17 11:04 2050次阅读
    <b class='flag-5'>数据</b>驱动<b class='flag-5'>自动驾驶</b>:核心要素与发展全景解析

    什么是自动驾驶数据标注?如何好做数据标注?

    [首发于智驾最前沿微信公众号]在自动驾驶系统的开发过程中,数据标注是一项至关重要的工作。它不仅决定了模型训练的质量,也直接影响了车辆感知、决策与控制的性能表现。随着传感器种类和数据量的剧增,有效
    的头像 发表于 07-09 09:19 1628次阅读
    什么是<b class='flag-5'>自动驾驶</b><b class='flag-5'>数据</b>标注?如何好做<b class='flag-5'>数据</b>标注?

    为什么自动驾驶端大模型有黑盒特性?

    、激光雷达数据)映射到控制输出(如方向盘转角、加速度、制动等),以深度神经网络为核心,打通了视觉驾驶行为的完整链条。它也代表了自动驾驶
    的头像 发表于 07-04 16:50 1025次阅读
    为什么<b class='flag-5'>自动驾驶</b>端<b class='flag-5'>到</b>端大模型有黑盒特性?

    数据标注方案在自动驾驶领域的应用优势

    10-20TB,其中需要标注的数据占比超过60%。在这样的背景下,端数据标注方案应运而生,正在重塑自动驾驶数据生产范式。 端
    的头像 发表于 06-23 17:27 1187次阅读

    新能源车软件单元测试深度解析:自动驾驶系统视角

    。 ‌自动驾驶软件的特殊性‌ ‌ 感知层: ‌激光雷达、摄像头等传感器数据处理算法的单元测试需覆盖极端场景。例如,激光雷达点云滤波算法在雨雪天气下的噪声抑制能力需通过边界测试验证。某厂商曾在测试中遗漏
    发表于 05-12 15:59