0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自动驾驶公开数据集的现状与挑战

智能汽车电子与软件 来源:集微网 2023-11-09 16:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着数据采集设备的优化升级,自动驾驶数据集也在不断升级迭代。国内外各大自动驾驶公司、研究所都先后推出自动驾驶数据集,为未来自动驾驶领域的技术发展提供重要研究材料。 《自动驾驶开源数据体系:现状与未来》一文系统性地梳理自动驾驶开源数据集,对于助推产业生态良性循环有着重要意义。该文章是由上海人工智能实验室联合上海交大、复旦大学、百度、比亚迪、蔚来等多个单位,发布的自动驾驶开源数据集综述。该综述首次系统性梳理了国内外七十余种开源自动驾驶数据集,对如何构建高质量数据集、数据在算法闭环体系中发挥的核心作用、如何利用生成式大模型规模化生产数据等进行了总结。在此基础上,对未来第三代自动驾驶数据集所应具有的特征、数据规模、需要解决的关键科学和技术问题展开深入分析与讨论。

概述

自动驾驶作为人工智能重要应用领域之一,有望重塑现有的交通和运输模式,极大提升交通效率和安全性,对未来城市和社会发展产生深远影响。目前,国内的智能网联汽车产业已经迈入商业化的试水和起步阶段。道路测试和示范应用场景趋于成熟,自动驾驶功能技术加速迭代,车联网应用场景日益丰富,各层面相关法规政策加速出台,共同推动市场进入高速发展期。 一方面,自动驾驶技术需要大量数据来训练算法模型,以识别和理解道路环境,从而做出正确的决策和行动,实现准确、稳定和安全的驾驶体验,数据的建设对于自动驾驶技术的发展至关重要。另一方面,自然语言处理和通用视觉领域大模型的出现,更加印证了海量高质量数据的重要性,给予自动驾驶的数据集建设以启发!

2d619398-7edb-11ee-939d-92fbcf53809c.png

综述文章架构

自动驾驶数据集

该综述把目前开源的近百种数据集分为两代:第一代数据集以 KITTI为标志,该数据集于2012年提出,输入传感模态由单目摄像头与激光雷达构成,并提出了一系列综合感知任务。第二代数据集以 nuScenes 及 Waymo 数据集为代表,传感模态复杂度变高,环视相机、激光雷达、定位信息以及高精地图成为常见组成部分,下游任务面向感知、建图、预测与路径规划综合任务。

传感器模态复杂度逐渐提高:环视相机,激光雷达,高精地图,超声波雷达传感器,GPS、IMU、HD Map等。

数据集规模与多样性日益增长:在数据丰富度方面,主流自动驾驶数据集的采集时长由最初的10小时左右逐渐提升至100小时,随着自动标注技术及标注工具的演进,近些年也出现了超过 1000 小时的数据集。驾驶场景的多样性也是自动驾驶系统表现的另一关键因素。为了提高算法在特定场景下的表现能力,部分数据集分别在多个大洲多个城市进行采集。

数据集任务从感知延伸至预测与规划:2016 年推出的 Cityscapes 与 Mapillary 等数据集下游任务聚焦于动态物体检测。2019 年推出的 SemanticKITTI 、DrivingStereo等数据集引入语义分割、深度估计、光流估计等任务。在传统预测与规划模块一般应用数值计算、优化、搜索等方法求解。2019 年前后提出的 nuScenes、Waymo 、Argoverse V2 等数据集,不仅包括感知任务还涵盖预测与规划任务,实现了在同一数据集上进行多种任务研究,同时引领社区在传统多个模块范式下端到端自动驾驶研究的潮流。

2d7eb220-7edb-11ee-939d-92fbcf53809c.png

自动驾驶开源数据集影响力估计

数据算法闭环体系

模块化自动驾驶系统包括感知、决策、规划、控制等组件,其中大部分功能是通过数据驱动的神经网络模型实现的。对于这些模块来说,海量和高质量的数据是确保模块性能的必要条件。 首先,海量数据的引入对于解决现存自动驾驶系统中的各种问题都很有必要。自动驾驶工程中一直存在的问题是长尾问题。其产生原因在于训练模型的数据量不足而导致存在少量情况未被模型学习,而在模型推理阶段,模型并不能对这些边缘场景给出正确的结果。另外,对于基于规则的模块,现有的方式是通过人工设计各种规则来使模块输出符合人为设计逻辑的结果。这个方法耗时耗力,并且难以覆盖所有情况,有可能导致自动驾驶系统在某些未见场景下失效。而使用数据驱动的神经网络代替这些模块是一个可能的解决方案。 同时,在神经网络学习过程中,数据噪声的引入会不可避免地对优化过程产生负面影响,并降低模型性能。数据质量不仅包括传感器数据的分辨率和同步性等,还包括标签的准确性。在这两个方面中,任意一个方面存在质量问题都直接影响着自动驾驶系统的性能和安全性。 综上,海量和高质量的数据成为构建自动驾驶系统必不可少的一个环节。

大模型时代下的新一代自动驾驶数据集

当前基础大模型在自然语言处理、计算机视觉等领域取得了举世瞩目的成果,但目前市面上还没有面向自动驾驶垂直领域的大模型。以其他领域的大模型作为参照,新一代数据集至少应将数据量提升至与其他领域相近才能够赋能自动驾驶大模型。 在保证数据数量的前提下,场景丰富度对算法性能更为重要。自动驾驶车辆在真实世界中会不可避免地遇到训练数据之外的场景大规模地应用自动驾驶技术必然要求模型能够在罕见场景中做出正确行为,避免发生危险或功能失效的情况。对于绝大多数交通场景来说,并不需要十分大量的数据就能够覆盖,而更需要关注的是长尾场景,由于某些交通场景十分罕见,如撞车等,数据的缺失会对自动驾驶系统的性能影响巨大。

第一、二代自动驾驶数据集已经不能够继续满足自动驾驶系统的发展需求,新一代数据集的建设亟待提上日程。在大模型时代,大数据成为新一代数据集不可缺少的一个特点。同时,模块化设计的自动驾驶系统在落地过程遇到迭代成本高、性能上界受限等问题,端到端自动驾驶架构逐步受到业界的青睐。除此之外,多模态传感器、高质量标注、模型逻辑推理能力等方面也需要得到重视。基于此,该综述总结归纳了新一代数据集的发展目标:面向多模态、保质保量;面向端到端、决策导向;面向智能化、逻辑推理。

2da7249e-7edb-11ee-939d-92fbcf53809c.png

大模型时代下的自动驾驶数据集展望

结论

该综述全面回顾了自动驾驶公开数据集的现状与挑战。针对数据算法闭环体系,结合当前大模型发展趋势,提出了下一代自动驾驶数据集的愿景与规划。该综述系统性地总结了自动驾驶发展历程中所使用的数据集,并展示了通过挑战赛与榜单促进社区发展的重要性;概括性地分析了自动驾驶数据算法闭环体系,并总结其中各个重要环节的作用,最后通过应用案例展现对数据算法闭环体系的使用方法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4761

    浏览量

    97164
  • 数据集
    +关注

    关注

    4

    文章

    1231

    浏览量

    26050
  • 自动驾驶
    +关注

    关注

    791

    文章

    14675

    浏览量

    176668

原文标题:自动驾驶公开数据集的现状与挑战

文章出处:【微信号:智能汽车电子与软件,微信公众号:智能汽车电子与软件】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    汽车自动驾驶的太阳光模拟应用研究

    自动驾驶系统的安全性与可靠性,高度依赖于其在复杂多变光照环境中的稳定表现。其中,高动态范围的自然光照是挑战车载感知系统的关键因素。紫创测控luminbox太阳光模拟器作为能够精确复现光照辐射的室内
    的头像 发表于 12-10 18:04 7次阅读
    汽车<b class='flag-5'>自动驾驶</b>的太阳光模拟应用研究

    L4级自动驾驶数据采集系统首选

    引言:自动驾驶数据采集的核心挑战 随着L4级自动驾驶技术进入商业化落地阶段,如何高效采集并处理海量多源传感器数据成为行业痛点。康谋科技推出的
    的头像 发表于 11-26 09:31 241次阅读

    自动驾驶数据采集时间同步指南:方法、挑战、场景与康谋解决方案

    自动驾驶数据采集面临多传感器协同与多总线协议割裂的挑战,时间同步精度直接影响系统安全与研发效率。康谋科技推出"全以太网+gPTP"方案,通过硬件级时间戳、多协议转以太网聚合等技术
    的头像 发表于 11-21 16:48 1793次阅读

    高程数据自动驾驶中有什么作用?

    最近有小伙伴让智驾最前沿聊聊自动驾驶高精度地图对高程数据的使用依赖,其实在聊这个话题之前,还是需要先知道高程数据是什么,在自动驾驶中到底有什么作用。
    的头像 发表于 11-02 13:44 1513次阅读

    不同等级的自动驾驶技术要求上有何不同?

    谈到自动驾驶,不可避免地会涉及到自动驾驶分级,美国汽车工程师学会(SAE)根据自动驾驶系统与人类驾驶员参与驾驶行为程度的不同,将
    的头像 发表于 10-18 10:17 2418次阅读

    塑造自动驾驶汽车格局的核心技术

    自动驾驶汽车长期以来一直是科幻小说中的情节,但在如今的2025年,它似乎已经离我们越来越近,智能辅助驾驶已经出现在越来越多的新能源汽车中。但距离完全的自动驾驶仍有需要克服的工程挑战
    的头像 发表于 08-21 16:03 710次阅读

    什么是自动驾驶数据标注?如何好做数据标注?

    [首发于智驾最前沿微信公众号]在自动驾驶系统的开发过程中,数据标注是一项至关重要的工作。它不仅决定了模型训练的质量,也直接影响了车辆感知、决策与控制的性能表现。随着传感器种类和数据量的剧增,有效
    的头像 发表于 07-09 09:19 947次阅读
    什么是<b class='flag-5'>自动驾驶</b><b class='flag-5'>数据</b>标注?如何好做<b class='flag-5'>数据</b>标注?

    卡车、矿车的自动驾驶和乘用车的自动驾驶在技术要求上有何不同?

    [首发于智驾最前沿微信公众号]自动驾驶技术的发展,让组合辅助驾驶得到大量应用,但现在对于自动驾驶技术的宣传,普遍是在乘用车领域,而对于卡车、矿车的自动驾驶发展,却鲜有提及。其实在卡车、
    的头像 发表于 06-28 11:38 729次阅读
    卡车、矿车的<b class='flag-5'>自动驾驶</b>和乘用车的<b class='flag-5'>自动驾驶</b>在技术要求上有何不同?

    小马智行助力公路干线物流自动驾驶发展

    近日,世界交通运输大会-大通道货车自动驾驶创新探索论坛于苏州举行。在论坛上,由中交投资发起,小马智行和青骓物流参编的《公路干线物流自动驾驶发展报告》正式发布,报告展示了当前干线物流自动驾驶发展
    的头像 发表于 06-19 13:59 920次阅读

    自动驾驶安全基石:ODD

    电子发烧友网综合报道 自动驾驶ODD(Operational Design Domain)即设计运行域,是指自动驾驶系统被设计为安全、有效运行的具体条件范围。它定义了自动驾驶汽车在哪些环境、场景
    的头像 发表于 05-19 03:52 5815次阅读

    新能源车软件单元测试深度解析:自动驾驶系统视角

    。 ‌自动驾驶软件的特殊性‌ ‌ 感知层: ‌激光雷达、摄像头等传感器数据处理算法的单元测试需覆盖极端场景。例如,激光雷达点云滤波算法在雨雪天气下的噪声抑制能力需通过边界测试验证。某厂商曾在测试中遗漏
    发表于 05-12 15:59

    东风汽车推出端到端自动驾驶开源数据

    近日,智能网联汽车智驾数据空间构建研讨会暨中汽协会智能网联汽车分会、数据分会2024年度会议在上海举办。会上,东风汽车发布行业规模最大、涵盖125万组高质量数据的端到端自动驾驶开源
    的头像 发表于 04-01 14:54 1028次阅读

    从《自动驾驶地图数据规范》聊高精地图在自动驾驶中的重要性

    自动驾驶地图作为L3级及以上自动驾驶技术的核心基础设施,其重要性随着智能驾驶技术的发展愈发显著。《自动驾驶地图数据规范》(DB11/T 20
    的头像 发表于 01-05 19:24 2874次阅读
    从《<b class='flag-5'>自动驾驶</b>地图<b class='flag-5'>数据</b>规范》聊高精地图在<b class='flag-5'>自动驾驶</b>中的重要性