数据集衍生出自动驾驶行业新的商业模式-电子发烧友网

数据集是机器学习算法的命脉——从某种意义上讲，数据集对于自动驾驶等人工智能应用领域，最重要的是它们的质量最高。同时，数据集也衍生出自动驾驶行业新的商业模式。

这就是为什么nuTonomy今天发布了一个名为nuScenes的自动驾驶数据集，它声称其规模和精确度超过了KITTI、百度的ApolloScape和Udacity自动驾驶汽车数据集等公共数据集。

Scale为nuScenes提供了数据注释，公司首席执行官表示，这是有史以来发布的最健壮的开放源码，基于多传感器自动驾驶数据集。

NuTonomy编辑了1000多个场景，其中包含140万幅图像、40万次激光雷达扫描（判断物体之间距离）和110万个三维边界框（用RGB相机、雷达和激光雷达组合检测的物体）。

它们已经通过Scale的传感器融合注释API进行了细致的标签，该API利用人工智能和人类团队进行数据注释，并且从本周开始面向行业开源。

近年来，越来越多的公司在加入这个行列。比如，早些时候全球红外系统供应商Flir发布了基于热成像仪拍摄的1万多张带标注图片。Mapillary公司发布了25000张街道级别的图像，以及加州大学伯克利分校上传了10万张基于RGB相机拍摄的视频序列。

之所以被称之为比之前其他公司和机构发布的数据集更为全面，是因为此次数据搜集使用了6个摄像头、1个激光雷达、 5个毫米波雷达、GPS及惯导系统，包括对于自动驾驶系统有挑战性的复杂道路、天气条件等。

参与此次数据标注的Scale公司，自2016年成立以来，已经为包括Lyft、Voyage、通用汽车、Zoox和Embark在内的客户标出了超过20亿英里的行驶里程。

今年8月，Scale宣布了一轮1800万美元融资，迄今该公司已筹集到2270万美元，报告称去年公司收入增长了15倍。

数据标注的对象通常有图像、语音、文本、视频、雷达等。图像类主要针对视觉识别类公司，所要标注的图像内容包括人像、建筑物、植物、道路、交通标志、车辆等，每项内容下面，又会根据不同的特征进行不同标签的标注。

业内人士表示，一般而言，客户会有自己的需求，公司依规而行。目前在国内，阿里巴巴、腾讯、百度等大型互联网公司，拥有海量的数据标注需求，单个订单量都是以亿元为单位。如此大的订单，基本都是分包给不同的数据标注公司进行处理，国内外还没有一家公司能够处理这样大的订单。

另外还有自动驾驶公司，以及视觉图像处理的公司，也有着数据标注的强烈的需求，他们需要用标注后的数据来训练人工智能，而人工智能的日趋成熟，是永无止境的。

业内人士透露，数据标注是一个简单又困难的事情。简单之处在于，确定了筛选规则以后，操作人员只需依规操作即可，没有执行上的难度，而困难之处在于，数据标注本质上是要获得更准确，更精细化的数据结果，高质量的数据是业内急需的。

“在数据采集上，由原来的普通行车记录仪的数据采集，到现在已有诸多公司开始使用特殊采集设备采集行车数据。在数据标注上，原来的2D标注到3D标注，再到语义分割，3D点云的标注需求，对数据的要求越来越专业”，龙猫数据CEO昝智表示，“我们也正不断开发新的标注工具，适配自动驾驶行业的发展。”

昝智表示，未来至少10年内，各领域对AI数据的获取需求只增不减。在发展的不同阶段，龙猫数据也将不断关注技术更新，适配新的需求。

而在在行业内特斯拉是第一家规模化采集数据的汽车制造商，他们很早就用自己的车辆来收集数据，为无人驾驶技术研发提供基础数据。

由于没有获取车辆数据源的通道，目前有很多汽车厂商都在模仿特斯拉的做法，通过在自己公司生产的车辆上安装采集设备，获取车辆数据并回传到平台，这是一种最直接的方式，也是相对比较明智的做法。

目前，全球主流的自动驾驶测试数据集包括Cityscapes、Imagenet（ILSVRC）、COCO、PASCAL VOC、CIFAR、MNIST、KITTI、LFW等。

Cityscapes

Cityscapes是由奔驰与2015年推出的，提供无人驾驶环境下的图像分割数据集。用于评估视觉算法在城区场景语义理解方面的性能。

Cityscapes包含50个城市不同场景、不同背景、不同季节的街景，提供5000张精细标注的图像、20000张粗略标注的图像、30类标注物体。用PASCAL VOC标准的 intersection-over-union（IoU）得分来对算法性能进行评价。

Cityscapes是目前公认的自动驾驶领域内最具权威性和专业性的图像语义分割评测集之一，其关注真实场景下的城区道路环境理解，任务难度更高且更贴近于自动驾驶等热门需求。

KITTI

KITTI是由德国卡尔斯鲁厄理工学院和丰田芝加哥技术研究院于2012年联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。

KITTI用于评测3D目标（机动车、非机动车、行人等）检测、3D 目标跟踪、道路分割等计算机视觉技术在车载环境下的性能。

KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中多达15辆车和30个行人，还有各种程度的遮挡。

ILSVRC

ILSVRC也就是通常所说的Imagenet数据集，是美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。

它是目前深度学习图像领域应用较多的一个数据集，关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集有1400多万幅图片，涵盖2万多个类别；其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。

COCO

COCO（common objects Dataset）数据集，它由微软赞助，除了基本的图像的标注信息外，还有对图像的语义文本描述，COCO数据集的特点是开源，这使得它在近三来在图像分割语义理解领域取得了巨大的进展，Google的开源show and tell生成模型就是在此数据集上测试的。

PASCAL VOC

PASCAL VOC是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。

虽然它在2012年后便不再举办，但其数据集图像质量好，标注完备，非常适合用来测试算法性能。

CIFAR

CIFAR（Can ada Institude For Advanced Research）包括CIFAR 10和CIFAR 100两个数据集，它们被标记为8000万个微型图像数据集的子集。

这些数据集是由Vinod Nair、Alex Krizhevsky和Geoffrey Hinton收集的。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。

MNIST

MNIST（THE MNIST DATABASE of handwritten digits）号称深度学习领域的“Hello World!”，是一个手写的数字数据集。当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8126

浏览量
130571
数据集

数据集

+关注

关注
4

文章
1179

浏览量
24356
自动驾驶

自动驾驶

+关注

关注
773

文章
13049

浏览量
163231

原文标题：自动驾驶数据集也是一门好生意 | GGAI产品

文章出处：【微信号：ilove-ev，微信公众号：高工智能汽车】欢迎添加关注！文章转载请注明出处。

未来已来，多传感器融合感知是自动驾驶破局的关键

的Robotaxi运营。这标志着L4级自动驾驶迎来了新的里程碑，朝着商业化落地迈进了一大步。中国的车企也不甘落后：4月7日，广汽埃安与滴滴自动驾驶宣布合资公司——广州安滴科技有限公司获批工商执照。广汽埃安

发表于 04-11 10:26

文远知行与联想车计算战略合作，推进自动驾驶商业化落地

文远知行与联想车计算达成战略合作，共同推进L4级别自动驾驶解决方案的商业化落地，这一举措无疑为自动驾驶领域注入了新的活力。这次合作不仅彰显了双方在自动驾驶技术方面的深厚积累，也预示着

发表于 03-20 10:19 •155次阅读

语音数据集在自动驾驶中的应用与挑战

随着人工智能技术的快速发展，自动驾驶汽车已经成为交通领域的研究热点。语音数据集在自动驾驶中发挥着重要的作用，为驾驶员和乘客提供了更加便捷和安全的交互方式。本文将详细介绍语音

发表于 12-25 09:48 •233次阅读

LabVIEW开发自动驾驶的双目测距系统

LabVIEW开发自动驾驶的双目测距系统随着车辆驾驶技术的不断发展，自动驾驶技术正日益成为现实。从L2级别的辅助驾驶技术到L3级别的受条件约束的自

发表于 12-19 18:02

年度聚焦｜路凯智行：矿山自动驾驶投资价值标杆企业

三个角度进行了客观的分析、解读和预测，直观展示了智慧矿山自动驾驶发展至今的概况和行业投资价值。路凯智行围绕矿山无人驾驶商业化落地打造的商业模式

发表于 12-05 13:10 •190次阅读

自动驾驶公开数据集的现状与挑战

一方面，自动驾驶技术需要大量数据来训练算法模型，以识别和理解道路环境，从而做出正确的决策和行动，实现准确、稳定和安全的驾驶体验，数据的建设对于自动驾

发表于 11-08 11:23 •271次阅读

国内首份！百度与同济大学联合发布自动驾驶法律责任白皮书

7月7日，在2023世界人工智能大会智能社会论坛上，百度与同济大学共同发布了国内首份《面向新商业模式的高级别自动驾驶法律责任白皮书》。白皮书就“法律如何回应高级别自动驾驶责任制度”问题进行了

发表于 07-07 21:15 •300次阅读

新能源汽车自动驾驶的六个级别

新能源汽车自动驾驶是指搭载自动驾驶技术的电动汽车。随着人工智能和传感器技术的进步，越来越多的新能源汽车制造商积极开发和推出自动驾驶功能。　　自动驾驶技术可以分为多个级别，其中最

发表于 06-28 17:04 •1561次阅读

工信部支持！L3级自动驾驶功能商业化应用落地加速

L3级，及更高级别的自动驾驶功能商业化应用。 L3 级自动驾驶发展进程 自动驾驶，它是指不需要驾驶员执行物理

发表于 06-28 01:28 •1080次阅读

初识自动驾驶系统

近几年自动驾驶技术越来越火，前沿的人工智能、机器学习、大数据等技术也被应用到自动驾驶领域中，各大主机厂、自动驾驶解决方案提供商在不断加入和努力，行业

发表于 06-06 11:21 •0次下载

车路协同式的自动驾驶（VICAD）

自动驾驶技术是影响未来汽车产业发展的重要因素。随着自动驾驶技术的成熟和商业化的加速，汽车将不再是从属于人的驾驶工具，车的核心价值部件由体现动力和操作系统的传动系统转向体现

发表于 06-06 10:56 •0次下载

零基础如何入门自动驾驶

随着自动驾驶行业的不断发展，越来越多的朋想进入这个行业，甚至有一些其他行业工作多年的朋友都想转入自动驾驶，那么新人应该怎样学习

发表于 06-06 10:51 •0次下载

自动驾驶如何落地 自动驾驶的商业模式与挑战

依据于自动驾驶系统对汽车的控制程度，SAE将自动驾驶划分成6个等级： L0：无自动驾驶（非自动化），汽车的控制权完全由驾驶员决定 L1：

发表于 06-02 15:23 •0次下载

自动驾驶基础架构

基础架构在互联网行业中，是一个相对比较成熟的领域。然而在自动驾驶领域，却是一个新鲜的话题。基础架构的工作包括硬件、onboard（车载系统）、云端三大板块。在我们认为，自动驾驶领域中 “基础架构

发表于 06-01 14:46 •0次下载

车路协同自动驾驶数据集DAIR-V2X

是车路协同自动驾驶的关键，为促进学术界和产业界共同打造数据驱动的车路协同自动驾驶，清华大学智能产业研究院（AIR）依托北京市高级别自动驾驶示范区，推出全球首个车路协同

发表于 06-01 14:20 •0次下载

搜索历史

数据集衍生出自动驾驶行业新的商业模式

评论

未来已来，多传感器融合感知是自动驾驶破局的关键

文远知行与联想车计算战略合作，推进自动驾驶商业化落地

语音数据集在自动驾驶中的应用与挑战

LabVIEW开发自动驾驶的双目测距系统

年度聚焦｜路凯智行：矿山自动驾驶投资价值标杆企业

自动驾驶公开数据集的现状与挑战

国内首份！百度与同济大学联合发布自动驾驶法律责任白皮书

新能源汽车自动驾驶的六个级别

工信部支持！L3级自动驾驶功能商业化应用落地加速

初识自动驾驶系统

车路协同式的自动驾驶（VICAD）

零基础如何入门自动驾驶

自动驾驶如何落地自动驾驶的商业模式与挑战

自动驾驶基础架构

车路协同自动驾驶数据集DAIR-V2X