自动驾驶的新技术：根据视频生成深度图-电子发烧友网

目前自动驾驶的核心技术是LiDAR（激光雷达），一种运用雷达原理，采用光和激光作为主要传感器的汽车视觉系统。LiDAR传感器赋予了自动驾驶汽车能够看到周边环境的“双眼”，激光雷达技术越先进，视觉感知的精准程度越高，这是自动驾驶得以实现的底层技术基础。但是最近几年，放在摄像头上的深度学习研究，发展很蓬勃。相比之下，虽然激光雷达 (LiDAR)的数据有诸多优点，但相关学术进展并不太多。相机+数据+神经网络的组合，正在迅速缩小与LiDAR的能力差距。

本文来源图灵TOPIA 作者：Ariel Gordon等编译：刘静

无需相机参数、单目、以无监督学习的方式从未标记场景视频中搞定深度图！

这是谷歌AI与机器人实验室联合发布的最新研究结果，效果可媲美LiDAR。

什么是深度图？

深度图像（depth image)也被称为距离影像（range image），由相机拍摄，是指将从图像采集器到场景中各点的距离（深度）作为像素值的图像，它直接反映了景物可见表面的几何形状。单位为mm，效果参考下图：

在场景视频景深学习领域，谷歌AI和机器人实验室联合公布了三项最新研究突破：

第一，证明了可以以一种无监督的方式训练深度网络，这个深度网络可以从视频本身预测相机的内在参数，包括镜头失真（见图1）。

第二，在这种情况下，他们是第一个以几何方式从预测深度直接解决遮挡的问题。

第三，大大减少了处理场景中移动元素所需的语义理解量：只需要一个覆盖可能属于移动对象的像素的单个掩码，而不是分割移动对象的每个实例并跨帧跟踪它。

图1：从未知来源的视频中学习深度的方法的定性结果，通过同时学习相机的外在和内在参数来实现。由于该方法不需要知道相机参数，因此它可以应用于任何视频集。所有深度图（在右侧可视化，作为差异）都是从原始视频中学习而不使用任何相机内在函数。从上到下：来自YouTube8M的帧，来自EuRoC MAV数据集，来自Cityscapes和来自KITTI的帧。

推特网友对此不吝赞美：“这是我见过的最令人印象深刻的无监督结果之一。来自未标记视频的深度图对于自动驾驶非常有用:)“

以下是论文具体内容：

从视频中估计3D结构和相机运动是计算机视觉中的一个关键问题，这个技术在自动驾驶领域有着广阔的工业应用前景。

解决该问题的传统方法依赖于在多个连续帧中识别场景中的相同点，并求解在这些帧上最大程度一致的3D结构和相机运动。

但是，帧之间的这种对应关系只能针对所有像素的子集建立，这导致了深度估计不确定的问题。与通常处理逆问题一样，这些缺口是由连续性和平面性等假设填充的。

深度学习能够从数据中获得这些假设，而不是手工指定这些假设。在信息不足以解决模糊性的地方，深度网络可以通过对先前示例进行归纳，以生成深度图和流场。

无监督方法允许单独从原始视频中学习，使用与传统方法类似的一致性损失，但在训练期间对其进行优化。在推论中，经过训练的网络能够预测来自单个图像的深度以及来自成对或更长图像序列的运动。

随着对这个方向的研究越来越有吸引力，很明显，物体运动是一个主要障碍，因为它违反了场景是静态的假设。已经提出了几个方向来解决该问题，包括通过实例分割利用对场景的语义理解。

遮挡是另一个限制因素，最后，在此方向的所有先前工作中，必须给出相机的内在参数。这项工作解决了这些问题，因此减少了监督，提高了未标记视频的深度和运动预测质量。

首先，我们证明了可以以一种无监督的方式训练深度网络，这个深度网络从视频本身预测相机的内在参数，包括镜头失真（见图1）。

其次，在这种情况下，我们是第一个以几何方式从预测深度直接解决遮挡的问题。

最后，我们大大减少了处理场景中移动元素所需的语义理解量：我们需要一个覆盖可能属于移动对象的像素的单个掩码，而不是分割移动对象的每个实例并跨帧跟踪它。

这个掩模可能非常粗糙，实际上可以是矩形边界框的组合。获得这样的粗糙掩模是一个简单得多的问题，而且与实例分割相比，使用现有的模型可以更可靠地解决这个问题。

除了这些定性进展之外，我们还对我们的方法进行了广泛的定量评估，并发现它在多个广泛使用的基准数据集上建立了新的技术水平。将数据集汇集在一起，这种能力通过我们的方法得到了极大的提升，证明可以提高质量。

自动驾驶的新技术：根据视频生成深度图

表1：总结了在KITTI上训练的模型和评估结果，使用给定相机内建和学习相机内建两种方式来评估我们方法的深度估计，结果显而易见，我们获得了当前最佳SOTA。

自动驾驶的新技术：根据视频生成深度图

表2：总结了在Cityscapes上训练和测试的模型的评估结果，我们的方法优于以前的方法，并从学习的内建中获益。

自动驾驶的新技术：根据视频生成深度图

表3：深度估计的消融实验。在所有实验中，训练集是Cityscapes（CS）和KITTI组合，我们分别在Cityscapes（CS）和KITTI（Eigen partition）上测试模型。每行代表一个实验，其中与主方法相比进行了一次更改，如“实验”行中所述。数字越小越好。

除了这些定性的进步，我们对我们的方法进行了广泛的定量评估，发现它在多个广泛使用的基准数据集上建立了一个新的技术状态。将数据集集中在一起，这种方法大大提高了数据集的质量。

最后，我们首次演示了可以在YouTube视频上学习深度和相机内在预测，这些视频是使用多个不同的相机拍摄的，每个相机的内建都是未知的，而且通常是不同的。

来自YouTube8M收集的图像和学习的视差图。

论文摘要

《场景视频景深学习——非特定相机单眼图片景深无监督学习》

我们提出了一种新颖的方法，仅使用相邻视频帧的一致性作为监督信号，用于同时学习单眼视频的深度，运动，物体运动和相机内建。与先前的工作类似，我们的方法通过将可微变形应用于帧，并将结果与相邻结果进行比较来学习，但它提供了若干改进：我们直接使用在训练期间预测的深度图，以几何和可微的方式处理遮挡。我们介绍了随机层标准化，一种新颖的强大正则化器，并考虑了目标相对于场景的运动。据我们所知，我们的工作是第一个以无监督的方式从视频中学习相机固有参数（包括镜头失真）的工作，从而使我们能够从规模未知原点的任意视频中提取准确的深度图和运动信息。

我们在Cityscapes，KITTI和EuRoC数据集上评估我们的结果，建立深度预测和测距的新技术水平，并定性地证明，深度预测可以从YouTube上的一系列视频中学到。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

自动驾驶

自动驾驶

+关注

关注
773

文章
13014

浏览量
163180

未来已来，多传感器融合感知是自动驾驶破局的关键

/L4级自动驾驶赛跑的元年。马斯克评论FSD 12.3版本的左转弯操作就像人类司机一样。如果FSD 12.3版本成功，将基本颠覆目前市场上的智能驾驶技术路线。基于“数据/算法/算力”的无人驾

发表于 04-11 10:26

上海人工智能实验室发布自动驾驶视频生成模型GenAD

上海人工智能实验室近日取得重大技术突破，联合香港科技大学、德国图宾根大学及香港大学共同研发并发布了大规模自动驾驶视频生成模型——GenAD。这一创新模型通过精准预测和模拟真实世界场景，为自动驾

发表于 03-26 10:40 •171次阅读

新火种AI|围攻光明顶：Sora效应下的AI视频生成竞赛

Sora的出现，让AI视频生成领域真正“活”了起来

发表于 03-16 11:12 •224次阅读

openai发布首个视频生成模型sora

美国当地时间2024年2月15日，OpenAI正式发布文生视频模型Sora ，并发布了48个文生视频案例和技术报告，正式入局视频生成领域。Sora能够

发表于 02-21 16:45 •676次阅读

马斯克称特斯拉视频生成技术超过Sora

特斯拉CEO埃隆·马斯克在社交媒体平台上发表言论，声称特斯拉所掌握的视频生成技术超越了OpenAI最新发布的Sora模型。马斯克自信地表示，特斯拉在这一领域的技术实力堪称全球顶尖，甚至超越了OpenAI这一人工智能领域的佼佼者。

发表于 02-20 14:16 •240次阅读

OpenAI新年开出王炸，视频生成模型Sora问世

近日，OpenAI在AI生成视频领域取得重大突破，发布了全新的生成式人工智能模型“Sora”。该模型在视频生成方面展现出了惊人的能力，通过文本指令，能够直接输出长达60秒的

发表于 02-20 11:46 •366次阅读

AI视频年大爆发！2023年AI视频生成领域的现状全盘点

2023年，也是AI视频元年。过去一年究竟有哪些爆款应用诞生，未来视频生成领域面临的难题还有哪些？

发表于 02-20 10:40 •545次阅读

OpenAI发布文生视频模型Sora，引领AI视频生成新纪元

在人工智能(AI)领域掀起新一轮革命浪潮的，正是OpenAI最新推出的文生视频大模型——Sora。这款被业界广泛赞誉的模型，以其“逼真”和“富有想象力”的视频生成能力，彻底颠覆了传统视频生成领域的局限，将平均

发表于 02-19 11:03 •434次阅读

OpenAI发布首个视频生成模型Sora

OpenAI近日宣布推出其全新的文本到视频生成模型——Sora。这一突破性的技术将视频创作带入了一个全新的纪元，为用户提供了前所未有的创作可能性。

发表于 02-18 10:07 •590次阅读

自动驾驶数据集的生成模型之WoVoGen框架原理

生成多摄像头的街景视频对于增加自动驾驶数据集至关重要，解决了对广泛而多样的数据的迫切需求。由于多样性的限制和处理光照条件的挑战，传统的基于渲染的方法越来越多的被基于扩散的方法所取代。

发表于 01-25 15:26 •191次阅读

LabVIEW开发自动驾驶的双目测距系统

LabVIEW开发自动驾驶的双目测距系统随着车辆驾驶技术的不断发展，自动驾驶技术正日益成为现实。从L2级别的辅助

发表于 12-19 18:02

【KV260视觉入门套件试用体验】八、VITis AI自动驾驶多任务执行MultiTask V3

是一种模型，旨在同时执行自动驾驶场景中的不同任务，同时实现优异的性能和效率。这些任务包括对象检测、分割、车道检测、可行驶区域分割和深度估算，这些都是自动驾驶感知模块的重要组成部分。三、代码实现

发表于 09-26 16:43

自动驾驶的必要技术和等级

伴随着科学技术的发展，自动驾驶汽车逐渐走入大家的视线，成为近年来的热议话题，最近大家都在说自动驾驶，可是怎么才能实现自动驾驶呢？ 自动驾驶其

发表于 06-21 17:50 •262次阅读

NVIDIA 自动驾驶实验室：如何通过 AI 分割模型增强自动驾驶安全性

编辑注：NVIDIA 自动驾驶实验室系列视频，将以工程技术为重点的视角关注实现自动驾驶汽车的各个挑战以及 NVIDIA DRIVE AV 软件团队如何应对这些问题。对于

发表于 06-16 11:45 •455次阅读

自动驾驶技术概述

自动驾驶汽车，通过技术实现车辆自动驾驶，目的是减少驾驶疲劳、增强驾驶安全。 自动驾驶汽车按

发表于 06-01 14:50 •1次下载