谷歌推出了在计算机视觉领域模拟重建人类视觉的新模型-电子发烧友网

谷歌近日推出了在计算机视觉领域模拟重建人类视觉的新模型，与以往方法不同的是，新模型利用AI，通过普通Youtube视频预测深度图，可以在场景内的摄像头和人同时运动的复杂情况下生成自然视频。

人类的视觉系统具有非凡的能力，可以从2D投影中理解3D世界。即使在包含多个移动物体的复杂环境中，人也能够对物体的几何形状和深度的排序进行可行的解释。长期以来，计算机视觉领域都在研究如何通过2D图像数据计算重建场景的几何特征，来实现和人类类似的能力，但在许多情况下，仍然难以实现具备充分鲁棒性的重建。

当摄像头和场景中的物体都在自由移动时，是实现重建的最困难的情况。这种情况混淆了基于三角测量的传统3D重建算法，该算法假设可以同时从至少两个不同的观察点观察到相同的对象。满足这个假设需要一个多摄像头阵列，或者单摄像头移动，但场景目标本身是静止状态。因此，现有的大多数方法要么需要过滤掉移动的目标（将移动目标的深度固定为“零”），要么直接忽略移动目标（会导致深度值发生错误）。

左图：传统的立体设置假设至少有两个观察点在同时捕捉场景。右图：我们考虑摄像头和拍摄对象都在移动的情况。

我们通过基于深度学习的方法来解决这个基本问题，该方法可以从普通视频中生成深度图，场景中的摄像头和主体目标都可以自由移动。模型从数据中学习人体姿势和形状的先验知识，无需直接3D三角测量。尽管最近使用机器学习进行深度预测逐渐兴起，但这项工作是第一个针对同时在摄像头和目标都在运动的状态下的基于学习的方法。

本研究中的观察目标是人类，人类是增强现实和3D视频效果的有趣目标。

我们的模型可以预测深度图（右图，离摄像头越近，图中越亮），场景中的人和摄像头都在自由移动。

训练数据

我们以监督学习的方式训练深度预测模型，该模型需要通过移动的摄像头捕获的自然场景视频以及精确的深度图。关键问题是从何处获取此类数据。综合生成数据需要对各种场景和自然人类行为进行逼真的建模和渲染，这是很困难的任务。

此外，针对这样的数据训练的模型可能难以推广到真实场景中。另一种方法可能是用RGBD传感器（如微软的Kinect）记录真实场景，但深度传感器通常仅限于室内环境，而且要面临3D重建上的一系列问题。

我们利用现有的数据来进行监督学习：即YouTube视频，视频中的人们通过自己定格在各种自然姿势，模仿人体模特效果，而手持摄像机则在现场记录。

因为整个场景是静止的（只有摄像机在移动），所以基于三角测量的方法是行得通的，可以获得包括其中人物在内的整个场景的精确深度图。我们收集了大约2000个这样的视频，涵盖了各种逼真的场景，场景中的人按照不同的分组配置自然分布。

人们在摄像头在场景中移动时模仿人体模特，我们将其作为训练数据。我们使用传统的MVS算法来估计深度，并在深度预测模型的训练中将其用于监督。

推断移动中的人的场景深度

Mannequin挑战视频对移动中的摄像机和“定格”的人进行深度监控，但我们的目标是利用移动的摄像头和移动的人来处理视频。我们需要构建网络输入来弥补这一差距。

一种可能的方法是为视频的每一帧都进行深度图推断（也就是对模型的输入相当于单帧图像）。虽然这种模型改进了用于深度预测的最先进的单帧方法，但是我们可以通过来自多帧的信息组合来进一步改善结果。比如运动视差，即两个不同视点之间的静态物体的明显的相对运动，就对深度推断提供了有力线索。为了充分利用这些信息，我们计算了视频中每个输入帧和另一帧之间的2D光流，用它表示两帧之间的像素位移。

这些光流场取决于场景的深度和摄像头的相对位置。但是，由于摄像头位置是已知的，可以从流场中去除二者之间的依赖关系，由此生成初始深度图。此初始深度仅对静态场景区域有效。为了在测试时处理运动中的人，可以利用人工分割网络来盖住初始深度图中的人类区域。这样，我们网络的完整输入包括：RGB图像、盖住人类的区域，以及基于视差的遮盖后的深度图。

深度预测网络：模型的输入包括RGB图像（第t帧），人类区域的遮盖和非人类区域的初始深度，根据输入帧与另一个之间的运动视差（光流）计算视频中的帧。模型输出第t帧的完整深度图。由MVS算法计算出的深度图负责对训练过程的监督。

该网络的作用是“修复”人与场景的深度值，并在其他地方细化深度值。因为人类的外形和大小特征几乎一致，网络可以通过观察多个训练样例，在模型内部学习这些先验知识。经过训练后，模型就可以处理任意摄像头和人体同时运动的视频。

以下是基于视频的深度预测模型结果的一些示例，并与最近基于最新学习的方法做了比较。

上图：基于学习的单眼深度预测方法。下图：基于学习的立体方法（DeMoN）和我们的估计深度图的结果。

使用深度图处理3D视频效果

我们预测的深度图可用于产生一系列3D感知视频效

使用估计深度图产生的散景效果

我们的深度图也可用于其他方面的应用，包括利用单眼视频生成立体视频，将合成CG对象插入场景，还可以在视频的其他帧中显示内容的情况下进行场景区域的填充。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5858

浏览量
103250
计算机视觉

计算机视觉

+关注

关注
8

文章
1600

浏览量
45615
深度学习

深度学习

+关注

关注
73

文章
5237

浏览量
119906

原文标题：Google AI：机器学习预测场景深度图，模拟人眼更进一步

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

机器视觉、工业视觉和计算机视觉这三者的关系

机器视觉、工业视觉和计算机视觉这三者的关系

发表于 01-24 10:51 •568次阅读

机器<b class='flag-5'>视觉</b>、工业<b class='flag-5'>视觉</b>和<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>这三者的关系

工业视觉与计算机视觉的区别

工业视觉主要解决以往需要人眼进行的工件的定位、测量、检测等重复性劳动；计算机视觉的主要任务是赋予智能机器人视觉，利用测距、物体标定与识别等功能实现对于外界位置信息、图像信息等的识别与判

发表于 01-16 10:06 •111次阅读

工业<b class='flag-5'>视觉</b>与<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的区别

最适合 AI 应用的计算机视觉类型是什么？

计算机视觉是指为计算机赋予人类视觉这一技术目标，从而赋能装配线检查到驾驶辅助和机器人等应用。计算机

发表于 12-18 13:09 •6853次阅读

什么是计算机视觉？计算机视觉的三种方法

计算机视觉是指通过为计算机赋予人类视觉这一技术目标，从而赋能装配线检查到驾驶辅助和机器人等应用。计算机

发表于 11-16 16:38 •3123次阅读

最适合AI应用的计算机视觉类型是什么？

计算机视觉是指为计算机赋予人类视觉这一技术目标，从而赋能装配线检查到驾驶辅助和机器人等应用。计算机

发表于 11-15 16:38 •235次阅读

STM32低功耗计算机视觉应用：后装智能无线抄表模型

STM32低功耗计算机视觉应用：后装智能无线抄表模型

发表于 09-21 17:55 •522次阅读

计算机视觉前景光明

电子发烧友网站提供《计算机视觉前景光明.pdf》资料免费下载

发表于 09-18 10:16 •0次下载

计算机视觉中的九种深度学习技术

计算机视觉中仍有许多具有挑战性的问题需要解决。然而，深度学习方法正在针对某些特定问题取得最新成果。在最基本的问题上，最有趣的不仅仅是深度学习模型的表现;事实上，单个模型可以从图像中

发表于 08-21 09:56 •359次阅读

人工智能计算机视觉方向是什么

“看”并作出决策。 计算机视觉是人工智能领域的一大分支，是以计算机和数字图像处理技术为手段，通过对视觉信息的处理和分析来实现人工智能的各类应

发表于 08-15 16:06 •1191次阅读

机器视觉和计算机视觉的区别

机器视觉和计算机视觉的区别机器视觉和计算机视觉是两个相关但不同的概念。虽然许多人使用这两个术语

发表于 08-09 16:51 •1129次阅读

什么叫机器视觉？机器视觉和嵌入式有什么关系？

什么叫机器视觉机器视觉（MachineVision），也被称为计算机视觉（ComputerVision），是一种利用计算机技术和算法来

发表于 08-07 08:09 •665次阅读

计算机视觉是什么 计算机视觉历史及发展趋势

正像其它学科一样，一个大量人员研究了多年的学科，却很难给出一个严格的定义，模式识别如此，目前火热的人工智能如此，计算机视觉亦如此。与计算机视觉密切相关的概念有

发表于 07-20 15:41 •0次下载

计算机视觉的概念和主要任务

作为人工智能的关键领域之一的计算机视觉近期再次成为了热点，那么你真的了解什么是计算机视觉吗？

发表于 07-17 11:20 •886次阅读

什么是机器视觉？机器视觉与计算机有什么关系？

机器视觉与计算机视觉有什么区别

发表于 06-05 09:28 •861次阅读

计算机视觉相关概念总结

为了帮助同事和客户了解更多有关计算机视觉和AI的更多信息，我们言简意赅介绍一些计算机视觉和AI术语，希望能帮助到大家。

发表于 05-31 10:11 •516次阅读