深度预测模型推断移动中的人的场景深度-电子发烧友网

谷歌近日推出了在计算机视觉领域模拟重建人类视觉的新模型，与以往方法不同的是，新模型利用AI，通过普通Youtube视频预测深度图，可以在场景内的摄像头和人同时运动的复杂情况下生成自然视频。

人类的视觉系统具有非凡的能力，可以从2D投影中理解3D世界。即使在包含多个移动物体的复杂环境中，人也能够对物体的几何形状和深度的排序进行可行的解释。长期以来，计算机视觉领域都在研究如何通过2D图像数据计算重建场景的几何特征，来实现和人类类似的能力，但在许多情况下，仍然难以实现具备充分鲁棒性的重建。

当摄像头和场景中的物体都在自由移动时，是实现重建的最困难的情况。这种情况混淆了基于三角测量的传统3D重建算法，该算法假设可以同时从至少两个不同的观察点观察到相同的对象。满足这个假设需要一个多摄像头阵列，或者单摄像头移动，但场景目标本身是静止状态。因此，现有的大多数方法要么需要过滤掉移动的目标（将移动目标的深度固定为“零”），要么直接忽略移动目标（会导致深度值发生错误）。

左图：传统的立体设置假设至少有两个观察点在同时捕捉场景。右图：我们考虑摄像头和拍摄对象都在移动的情况。

我们通过基于深度学习的方法来解决这个基本问题，该方法可以从普通视频中生成深度图，场景中的摄像头和主体目标都可以自由移动。模型从数据中学习人体姿势和形状的先验知识，无需直接3D三角测量。尽管最近使用机器学习进行深度预测逐渐兴起，但这项工作是第一个针对同时在摄像头和目标都在运动的状态下的基于学习的方法。

本研究中的观察目标是人类，人类是增强现实和3D视频效果的有趣目标。

我们的模型可以预测深度图（右图，离摄像头越近，图中越亮），场景中的人和摄像头都在自由移动。

训练数据

我们以监督学习的方式训练深度预测模型，该模型需要通过移动的摄像头捕获的自然场景视频以及精确的深度图。关键问题是从何处获取此类数据。综合生成数据需要对各种场景和自然人类行为进行逼真的建模和渲染，这是很困难的任务。

此外，针对这样的数据训练的模型可能难以推广到真实场景中。另一种方法可能是用RGBD传感器（如微软的Kinect）记录真实场景，但深度传感器通常仅限于室内环境，而且要面临3D重建上的一系列问题。

我们利用现有的数据来进行监督学习：即YouTube视频，视频中的人们通过自己定格在各种自然姿势，模仿人体模特效果，而手持摄像机则在现场记录。

因为整个场景是静止的（只有摄像机在移动），所以基于三角测量的方法是行得通的，可以获得包括其中人物在内的整个场景的精确深度图。我们收集了大约2000个这样的视频，涵盖了各种逼真的场景，场景中的人按照不同的分组配置自然分布。

人们在摄像头在场景中移动时模仿人体模特，我们将其作为训练数据。我们使用传统的MVS算法来估计深度，并在深度预测模型的训练中将其用于监督。

推断移动中的人的场景深度

Mannequin挑战视频对移动中的摄像机和“定格”的人进行深度监控，但我们的目标是利用移动的摄像头和移动的人来处理视频。我们需要构建网络输入来弥补这一差距。

一种可能的方法是为视频的每一帧都进行深度图推断（也就是对模型的输入相当于单帧图像）。虽然这种模型改进了用于深度预测的最先进的单帧方法，但是我们可以通过来自多帧的信息组合来进一步改善结果。比如运动视差，即两个不同视点之间的静态物体的明显的相对运动，就对深度推断提供了有力线索。为了充分利用这些信息，我们计算了视频中每个输入帧和另一帧之间的2D光流，用它表示两帧之间的像素位移。

这些光流场取决于场景的深度和摄像头的相对位置。但是，由于摄像头位置是已知的，可以从流场中去除二者之间的依赖关系，由此生成初始深度图。此初始深度仅对静态场景区域有效。为了在测试时处理运动中的人，可以利用人工分割网络来盖住初始深度图中的人类区域。这样，我们网络的完整输入包括：RGB图像、盖住人类的区域，以及基于视差的遮盖后的深度图。

深度预测网络：模型的输入包括RGB图像（第t帧），人类区域的遮盖和非人类区域的初始深度，根据输入帧与另一个之间的运动视差（光流）计算视频中的帧。模型输出第t帧的完整深度图。由MVS算法计算出的深度图负责对训练过程的监督。

该网络的作用是“修复”人与场景的深度值，并在其他地方细化深度值。因为人类的外形和大小特征几乎一致，网络可以通过观察多个训练样例，在模型内部学习这些先验知识。经过训练后，模型就可以处理任意摄像头和人体同时运动的视频。

来看一段介绍视频：

以下是基于视频的深度预测模型结果的一些示例，并与最近基于最新学习的方法做了比较。

上图：基于学习的单眼深度预测方法。下图：基于学习的立体方法（DeMoN）和我们的估计深度图的结果。

使用深度图处理3D视频效果

我们预测的深度图可用于产生一系列3D感知视频效

使用估计深度图产生的散景效果

我们的深度图也可用于其他方面的应用，包括利用单眼视频生成立体视频，将合成CG对象插入场景，还可以在视频的其他帧中显示内容的情况下进行场景区域的填充。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5852

浏览量
103248
深度学习

深度学习

+关注

关注
73

文章
5236

浏览量
119900

原文标题：Google AI：机器学习预测场景深度图，模拟人眼更进一步

文章出处：【微信号：smartman163，微信公众号：网易智能】欢迎添加关注！文章转载请注明出处。

FPGA在深度学习应用中或将取代GPU

、笔记本电脑或机架式服务器上训练神经网络时，这不是什么大问题。但是，许多部署深度学习模型的环境对 GPU 并不友好，比如自动驾驶汽车、工厂、机器人和许多智慧城市环境，在这些环境中硬件必须忍受热、灰尘、湿度

发表于 03-21 15:19

如何基于深度学习模型训练实现工件切割点位置预测

Hello大家好，今天给大家分享一下如何基于深度学习模型训练实现工件切割点位置预测，主要是通过对YOLOv8姿态评估模型在自定义的数据集上训练，生成一个工件切割分离点

发表于 12-22 11:07 •340次阅读

如何基于<b class='flag-5'>深度</b>学习<b class='flag-5'>模型</b>训练实现工件切割点位置<b class='flag-5'>预测</b>

如何基于深度学习模型训练实现圆检测与圆心位置预测

Hello大家好，今天给大家分享一下如何基于深度学习模型训练实现圆检测与圆心位置预测，主要是通过对YOLOv8姿态评估模型在自定义的数据集上训练，生成一个自定义的圆检测与圆心定位

发表于 12-21 10:50 •680次阅读

如何基于<b class='flag-5'>深度</b>学习<b class='flag-5'>模型</b>训练实现圆检测与圆心位置<b class='flag-5'>预测</b>

贝叶斯深度学习介绍

1 Introduction 基于深度学习的人工智能模型往往精于 “感知” 的任务，然而光有感知是不够的， “推理” 是更高阶人工智能的重要组成部分。比方说医生诊断，除了需要通过图像和音频等感知病人

发表于 11-03 10:51 •305次阅读

深度学习在医学图像分割与病变识别中的应用实战

等方面具有重要意义。本文将介绍这一领域的背景、挑战，以及通过一个代码实例展示如何利用深度学习方法进行医学图像分割与病变识别。背景与挑战医学图像分割是将医学影像中的结构区域分离出来，以便医生能够更清晰

发表于 09-04 11:11

机器学习和深度学习的区别

　　机器学习和深度学习是当今最流行的人工智能(AI)技术之一。这两种技术都有助于在不需要人类干预的情况下让计算机自主学习和改进预测模型。本文将探讨机器学习和

发表于 08-28 17:31 •1044次阅读

软件漏洞检测场景中的深度学习模型实证研究

近年来，深度学习模型（DLM）在软件漏洞检测领域的应用探索引起了行业广泛关注，在某些情况下，利用DLM模型能够获得超越传统静态分析工具的检测效果。然而，虽然研究人员对DLM模型的价值

发表于 08-24 10:25 •385次阅读

软件漏洞检测<b class='flag-5'>场景</b>中的<b class='flag-5'>深度</b>学习<b class='flag-5'>模型</b>实证研究

深度学习的定义和特点深度学习典型模型介绍

深度学习（Deep Learning）是一种基于人工神经网络的机器学习算法，其主要特点是模型由多个隐层组成，可以自动地学习特征，并进行预测或分类。该算法在计算机视觉、语音识别、自然语言处理、推荐系统和数据挖掘等领域被广泛应用，成

发表于 08-21 18:22 •1279次阅读

深度学习框架和深度学习算法教程

了基于神经网络的机器学习方法。深度学习算法可以分为两大类：监督学习和无监督学习。监督学习的基本任务是训练模型去学习输入数据的特征和其对应的标签，然后用于新数据的预测。而无监督学习通常用于聚类、降维和生成

发表于 08-17 16:11 •714次阅读

深度学习框架连接技术

深度学习框架连接技术深度学习框架是一个能够帮助机器学习和人工智能开发人员轻松进行模型训练、优化及评估的软件库。深度学习框架连接技术则是需要使用深度

发表于 08-17 16:11 •476次阅读

深度学习框架是什么？深度学习框架有哪些？

深度学习框架是什么？深度学习框架有哪些？深度学习框架是一种软件工具，它可以帮助开发者轻松快速地构建和训练深度神经网络模型。与手动编写代码

发表于 08-17 16:03 •1753次阅读

深度学习是什么领域

深度学习是什么领域深度学习是机器学习的一种子集，由多层神经网络组成。它是一种自动学习技术，可以从数据中学习高层次的抽象模型，以进行推断和预测

发表于 08-17 16:02 •1205次阅读

推断FP32模型格式的速度比CPU上的FP16模型格式快是为什么？

在 CPU 上推断出 FP32 模型格式和 FP16 模型格式。 FP32 模型格式的推断速度比 FP16

发表于 08-15 08:03

最强科普！深度解析华为云盘古大模型

搭档完成复杂任务预测台风路径降低灾害损失帮助缩短药物研发周期 …… 此次发布有诸多新升级更为客户提供了“开箱即用”的模型服务简直就是一个AI大礼包！一支视频为你深度解析盘古大模型

发表于 07-14 15:20 •1388次阅读

深度学习中的图像分割

深度学习可以学习视觉输入的模式，以预测组成图像的对象类。用于图像处理的主要深度学习架构是卷积神经网络(CNN)，或者是特定的CNN框架，如AlexNet、VGG、Inception和ResNet。计算机视觉的

发表于 05-05 11:35 •834次阅读

搜索历史

深度预测模型推断移动中的人的场景深度

评论

FPGA在深度学习应用中或将取代GPU

如何基于深度学习模型训练实现工件切割点位置预测

如何基于深度学习模型训练实现圆检测与圆心位置预测

贝叶斯深度学习介绍

深度学习在医学图像分割与病变识别中的应用实战

机器学习和深度学习的区别

软件漏洞检测场景中的深度学习模型实证研究

深度学习的定义和特点深度学习典型模型介绍

深度学习框架和深度学习算法教程

深度学习框架连接技术

深度学习框架是什么？深度学习框架有哪些？

深度学习是什么领域

推断FP32模型格式的速度比CPU上的FP16模型格式快是为什么？

最强科普！深度解析华为云盘古大模型

深度学习中的图像分割