0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

nuTonomy发布自动驾驶数据集nuScenes

ml8z_IV_Technol 2018-09-19 09:15 次阅读

数据集是机器学习算法的命脉——从某种意义上讲,数据集对于自动驾驶人工智能应用领域,最重要的是它们的质量最高。同时,数据集也衍生出自动驾驶行业新的商业模式。

nuTonomy今天发布了一个名为nuScenes的自动驾驶数据集,它声称其规模和精确度超过了KITTI、百度的ApolloScape和Udacity自动驾驶汽车数据集等公共数据集。

数据集下载链接:

https://d3u7q4379vrm7e.cloudfront.net/download

Scale为nuScenes提供了数据注释,公司首席执行官表示,这是有史以来发布的最健壮的开放源码,基于多传感器自动驾驶数据集。

NuTonomy编辑了1000多个场景,其中包含140万幅图像、40万次激光雷达扫描(判断物体之间距离)和110万个三维边界框(用RGB相机、雷达和激光雷达组合检测的物体)。

它们已经通过Scale的传感器融合注释API进行了细致的标签,该API利用人工智能和人类团队进行数据注释,并且从本周开始面向行业开源。

近年来,越来越多的公司在加入这个行列。比如,早些时候全球红外系统供应商Flir发布了基于热成像仪拍摄的1万多张带标注图片。Mapillary公司发布了25000张街道级别的图像,以及加州大学伯克利分校上传了10万张基于RGB相机拍摄的视频序列。

之所以被称之为比之前其他公司和机构发布的数据集更为全面,是因为此次数据搜集使用了6个摄像头、1个激光雷达、 5个毫米波雷达、GPS及惯导系统,包括对于自动驾驶系统有挑战性的复杂道路、天气条件等。

车辆传感器设置

使用两辆具有相同传感器布局的雷诺Zoe汽车在波士顿和新加坡开车,收集数据。有关传感器的位置,请参阅上图。传感器发布数据如下:

1x旋转激光雷达:

5倍长距离雷达传感器:

相机方向和重叠请参阅下图:

20Hz捕获频率

32个频道

360°水平视场,+ 10°至-30°垂直视场

80m-100m范围,可用返回70米,精度±2厘米

每秒高达~139百万点

用于77GHz

13Hz捕获频率

使用调频连续波在一个周期内独立测量距离和速度

距离最远250米

速度精度为±0.1 km / h

sa'n6x相机:

12Hz捕获频率

1 / 1.8英寸CMOS传感器,1600x1200分辨率

Bayer8格式,每像素1字节编码

1600x900 ROI从原始分辨率中裁剪,以减少处理和传输带宽

曝光时间限制为最大20 ms的自动曝光

图像被解压缩为BGR格式并压缩为JPEG

传感器校准

要获得高质量的多传感器数据集,必须校准每个传感器的外在和内在因素。根据表示相对于自我框架的外部坐标,即后车轴的中点。最相关的步骤如下所述:

LIDAR外在因素:

使用激光衬垫来精确测量激光雷达与自我框架的相对位置。

相机外在因素:

在相机和LIDAR传感器前面放置一个立方体形状的校准目标。校准目标由具有已知图案的三个正交平面组成。在检测到图案后,我们通过对齐校准目标的平面来计算从相机到LIDAR的变换矩阵。给定上面计算的LIDAR到自我帧变换,然后可以计算相机到自我帧变换和所得到的外部参数

雷达外在因素:

将雷达安装在水平位置。然后通过在城市环境中驾驶来收集雷达测量值。在过滤移动物体的雷达返回后,校准偏航角,以最小化静态物体的补偿范围速率。

相机内在校准:

使用具有一组已知模式的校准目标板来推断相机的固有和失真参数。

传感器同步

为了在激光雷达和摄像机之间实现良好的交叉模态数据对准,当顶部激光雷达扫过摄像机FOV的中心时,会触发摄像机的曝光。图像的时间戳是曝光触发时间;并且LIDAR扫描的时间戳是实现当前LIDAR帧的完全旋转的时间。鉴于相机的曝光时间几乎是瞬时的,这种方法通常可以产生良好的数据对齐。请注意,摄像机以12Hz运行,而激光雷达以20Hz运行。12个相机曝光在20个LIDAR扫描中尽可能均匀地展开,因此并非所有LIDAR扫描都具有相应的相机帧。将摄像机的帧速率降低到12Hz有助于降低感知系统的计算,带宽和存储要求。

参与此次数据标注的Scale公司,自2016年成立以来,已经为包括Lyft、Voyage、通用汽车、Zoox和Embark在内的客户标出了超过20亿英里的行驶里程。

今年8月,Scale宣布了一轮1800万美元融资,迄今该公司已筹集到2270万美元,报告称去年公司收入增长了15倍。

数据标注的对象通常有图像、语音、文本、视频、雷达等。图像类主要针对视觉识别类公司,所要标注的图像内容包括人像、建筑物、植物、道路、交通标志、车辆等,每项内容下面,又会根据不同的特征进行不同标签的标注。

业内人士表示,一般而言,客户会有自己的需求,公司依规而行。目前在国内,阿里巴巴、腾讯、百度等大型互联网公司,拥有海量的数据标注需求,单个订单量都是以亿元为单位。如此大的订单,基本都是分包给不同的数据标注公司进行处理,国内外还没有一家公司能够处理这样大的订单。

另外还有自动驾驶公司,以及视觉图像处理的公司,也有着数据标注的强烈的需求,他们需要用标注后的数据来训练人工智能,而人工智能的日趋成熟,是永无止境的。

业内人士透露,数据标注是一个简单又困难的事情。简单之处在于,确定了筛选规则以后,操作人员只需依规操作即可,没有执行上的难度,而困难之处在于,数据标注本质上是要获得更准确,更精细化的数据结果,高质量的数据是业内急需的。

“在数据采集上,由原来的普通行车记录仪的数据采集,到现在已有诸多公司开始使用特殊采集设备采集行车数据。在数据标注上,原来的2D标注到3D标注,再到语义分割,3D点云的标注需求,对数据的要求越来越专业”,龙猫数据CEO昝智表示,“我们也正不断开发新的标注工具,适配自动驾驶行业的发展。”

昝智表示,未来至少10年内,各领域对AI数据的获取需求只增不减。在发展的不同阶段,龙猫数据也将不断关注技术更新,适配新的需求。

而在在行业内特斯拉是第一家规模化采集数据的汽车制造商,他们很早就用自己的车辆来收集数据,为无人驾驶技术研发提供基础数据。

由于没有获取车辆数据源的通道,目前有很多汽车厂商都在模仿特斯拉的做法,通过在自己公司生产的车辆上安装采集设备,获取车辆数据并回传到平台,这是一种最直接的方式,也是相对比较明智的做法。

目前,全球主流的自动驾驶测试数据集包括Cityscapes、Imagenet(ILSVRC)、COCO、PASCAL VOC、CIFAR、MNIST、KITTI、LFW等。

Cityscapes

Cityscapes是由奔驰与2015年推出的,提供无人驾驶环境下的图像分割数据集。用于评估视觉算法在城区场景语义理解方面的性能。

Cityscapes包含50个城市不同场景、不同背景、不同季节的街景,提供5000张精细标注的图像、20000张粗略标注的图像、30类标注物体。用PASCAL VOC标准的 intersection-over-union(IoU)得分来对算法性能进行评价。

Cityscapes是目前公认的自动驾驶领域内最具权威性和专业性的图像语义分割评测集之一,其关注真实场景下的城区道路环境理解,任务难度更高且更贴近于自动驾驶等热门需求。

KITTI

KITTI是由德国卡尔斯鲁厄理工学院和丰田芝加哥技术研究院于2012年联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。

KITTI用于评测3D目标(机动车、非机动车、行人等)检测、3D 目标跟踪、道路分割等计算机视觉技术在车载环境下的性能。

KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中多达15辆车和30个行人,还有各种程度的遮挡。

ILSVRC

ILSVRC也就是通常所说的Imagenet数据集,是美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。

它是目前深度学习图像领域应用较多的一个数据集,关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。

COCO

COCO(common objects Dataset)数据集,它由微软赞助,除了基本的图像的标注信息外,还有对图像的语义文本描述,COCO数据集的特点是开源,这使得它在近三来在图像分割语义理解领域取得了巨大的进展,Google的开源show and tell生成模型就是在此数据集上测试的。

PASCAL VOC

PASCAL VOC是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。

虽然它在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。

CIFAR

CIFAR(Canada Institude For Advanced Research)包括CIFAR 10和CIFAR 100两个数据集,它们被标记为8000万个微型图像数据集的子集。

这些数据集是由Vinod Nair、Alex Krizhevsky和Geoffrey Hinton收集的。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。

MNIST

MNIST(THE MNIST DATABASE of handwritten digits)号称深度学习领域的“Hello World!”,是一个手写的 数字数据集。当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24352
  • 自动驾驶
    +关注

    关注

    773

    文章

    13032

    浏览量

    163223

原文标题:又多了一种数据集!nuTonomy发布自动驾驶数据集nuScenes

文章出处:【微信号:IV_Technology,微信公众号:智车科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【话题】特斯拉首起自动驾驶致命车祸,自动驾驶的冬天来了?

    `特斯拉首起自动驾驶致命车祸,自动驾驶的冬天来了?“一个致命的事故一定是由多个小的错误组成的。”  7月初,特斯拉发表博客叙述了NHTSA(美国国家公路交通安全管理局)正在着手调查第一起Tesla
    发表于 07-05 11:14

    自动驾驶真的会来吗?

    ,包括进行3D雷达开发,进行360度探测,获得更完整、全面的数据。但大家也知道新型硬件方面成本居高不下,需要时间等到硬件成本不断降低,才能广泛应用。”张璐介绍说:  她称在特斯拉事故之后,围绕自动驾驶
    发表于 07-21 09:00

    自动驾驶的到来

      传统汽车厂商更趋向于通过技术的不断积累,场景的不断丰富,逐步从辅助驾驶过渡到半自动驾驶,进而在将来最终实现无人驾驶;某些高科技公司则希望通过各种外部传感器实时采集海量数据,处理器经
    发表于 06-08 15:25

    留给特斯拉的时间不多了 通用自动驾驶版Bolt实现量产技术生产

    得益于密歇根州对自动驾驶法案的放开,通用汽车得以从去年开始在密歇根州启动自动驾驶汽车道路测试。一年过去,通用实现了当初执行董事Michael Simcoe立下的在2017年实现自动驾驶汽车量产的承诺
    发表于 06-14 18:34

    AI/自动驾驶领域的巅峰会议—国际AI自动驾驶高峰论坛

    已经渗透到了社会生活的方方面面。人工智能在自动驾驶领域将对整个汽车出行领域产生颠覆性变革。汽车的人工智能技术和数据后端的最新突破使自动驾驶成为可能。深度学习、高级数字助理和动态电子视野方面的新科技
    发表于 09-13 13:59

    硅谷组建团队、L3产品落地,想法多多的腾讯自动驾驶

    。值得一提的是,在自动驾驶领域腾讯已经实现了L3产品落地。在此前11月1日腾讯全球合作伙伴大会上,自动驾驶作为其独立产品首次出现在公众视野中,当天,腾讯方面还发布了模拟仿真平台、高精度地图和
    发表于 11-13 11:33

    车联网对自动驾驶的影响

    通常无法做出及时有效的处理,单纯依靠传感器感知路面环境的自动驾驶也很难避免车祸的发生,但是车联网通过基于两辆车的数据分析,提前预知到“车祸”的可能性,对两辆车完成协调,避免潜在事故发生。车辆网在近年来
    发表于 03-19 06:20

    如何让自动驾驶更加安全?

    上学……在欧洲,一些志愿者家庭参加了自动驾驶汽车在公共道路上的测试。对行驶状况的监测,将给汽车工程师提供高价值的真实道路测试数据,帮助完善自动驾驶技术。在国内,上海、北京近期开始发放国内首批智能网联汽车
    发表于 05-13 00:26

    自动驾驶汽车的处理能力怎么样?

    作在未来20 - 30年中,自动驾驶汽车(AV)将改变我们的驾驶习惯、运输行业并更广泛地影响社会。 我们不仅能够将汽车召唤到我们的家门口并在使用后将其送走,自动驾驶汽车还将挑战个人拥有汽车的想法,并
    发表于 08-07 07:13

    为何自动驾驶需要5G?

    的基本原理,需了解三大关键词:传感器、数据融合(Data Fusion)、100%安全性决策。传感器自动驾驶需要的传感器系统主要有三种类型:摄像头、雷达和激光雷达。•摄像头摄像头是自动驾驶必备的传感器
    发表于 06-08 07:00

    自动驾驶系统要完成哪些计算机视觉任务?

    Geiger 的研究主要集中在用于自动驾驶系统的三维视觉理解、分割、重建、材质与动作估计等方面。他主导了自动驾驶领域著名数据 KITTI 及多项
    发表于 07-30 06:49

    网联化自动驾驶的含义及发展方向

    数据为基础的自动驾驶业务产生不可估量的影响,是成功实现自动驾驶的基础 [4] 。自动驾驶车辆通过C-V2X通信技术带来的高速通信链路,突破车辆自身感知能力、信息交互以及计算能力等方面的
    发表于 01-12 15:42

    自动驾驶系统设计及应用的相关资料分享

    作者:余贵珍、周彬、王阳、周亦威、白宇目录第一章 自动驾驶系统概述1.1 自动驾驶系统架构1.1.1 自动驾驶系统的三个层级1.1.2 自动驾驶系统的基本技术架构1.2
    发表于 08-30 08:36

    自动驾驶技术的实现

    k随着汽车电子的日益复杂化以及汽车电子电气架构(EEA)的升级,人们对于联网智能汽车的需求也在逐步上升,大量先进技术往汽车上应用,如高级驾驶辅助系统(ADAS)、自动驾驶等,这些新技术也对车载网络
    发表于 09-03 08:31

    Motional发布了扩展版本的NuScenes自动驾驶数据

    一年前,Scale和NuTonomy发布自动驾驶数据NuScenes,并声称,该数据集在规模
    发表于 09-05 10:25 1612次阅读