0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度预测模型推断移动中的人的场景深度

电子工程师 来源:YXQ 2019-05-27 11:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

谷歌近日推出了在计算机视觉领域模拟重建人类视觉的新模型,与以往方法不同的是,新模型利用AI,通过普通Youtube视频预测深度图,可以在场景内的摄像头和人同时运动的复杂情况下生成自然视频。

人类的视觉系统具有非凡的能力,可以从2D投影中理解3D世界。即使在包含多个移动物体的复杂环境中,人也能够对物体的几何形状和深度的排序进行可行的解释。长期以来,计算机视觉领域都在研究如何通过2D图像数据计算重建场景的几何特征,来实现和人类类似的能力,但在许多情况下,仍然难以实现具备充分鲁棒性的重建。

当摄像头和场景中的物体都在自由移动时,是实现重建的最困难的情况。这种情况混淆了基于三角测量的传统3D重建算法,该算法假设可以同时从至少两个不同的观察点观察到相同的对象。满足这个假设需要一个多摄像头阵列,或者单摄像头移动,但场景目标本身是静止状态。因此,现有的大多数方法要么需要过滤掉移动的目标(将移动目标的深度固定为“零”),要么直接忽略移动目标(会导致深度值发生错误)。

左图:传统的立体设置假设至少有两个观察点在同时捕捉场景。右图:我们考虑摄像头和拍摄对象都在移动的情况。

我们通过基于深度学习的方法来解决这个基本问题,该方法可以从普通视频中生成深度图,场景中的摄像头和主体目标都可以自由移动。模型从数据中学习人体姿势和形状的先验知识,无需直接3D三角测量。尽管最近使用机器学习进行深度预测逐渐兴起,但这项工作是第一个针对同时在摄像头和目标都在运动的状态下的基于学习的方法。

本研究中的观察目标是人类,人类是增强现实和3D视频效果的有趣目标。

我们的模型可以预测深度图(右图,离摄像头越近,图中越亮),场景中的人和摄像头都在自由移动。

训练数据

我们以监督学习的方式训练深度预测模型,该模型需要通过移动的摄像头捕获的自然场景视频以及精确的深度图。关键问题是从何处获取此类数据。综合生成数据需要对各种场景和自然人类行为进行逼真的建模和渲染,这是很困难的任务。

此外,针对这样的数据训练的模型可能难以推广到真实场景中。另一种方法可能是用RGBD传感器(如微软的Kinect)记录真实场景,但深度传感器通常仅限于室内环境,而且要面临3D重建上的一系列问题。

我们利用现有的数据来进行监督学习:即YouTube视频,视频中的人们通过自己定格在各种自然姿势,模仿人体模特效果,而手持摄像机则在现场记录。

因为整个场景是静止的(只有摄像机在移动),所以基于三角测量的方法是行得通的,可以获得包括其中人物在内的整个场景的精确深度图。我们收集了大约2000个这样的视频,涵盖了各种逼真的场景,场景中的人按照不同的分组配置自然分布。

人们在摄像头在场景中移动时模仿人体模特,我们将其作为训练数据。我们使用传统的MVS算法来估计深度,并在深度预测模型的训练中将其用于监督。

推断移动中的人的场景深度

Mannequin挑战视频对移动中的摄像机和“定格”的人进行深度监控,但我们的目标是利用移动的摄像头和移动的人来处理视频。我们需要构建网络输入来弥补这一差距。

一种可能的方法是为视频的每一帧都进行深度图推断(也就是对模型的输入相当于单帧图像)。虽然这种模型改进了用于深度预测的最先进的单帧方法,但是我们可以通过来自多帧的信息组合来进一步改善结果。比如运动视差,即两个不同视点之间的静态物体的明显的相对运动,就对深度推断提供了有力线索。为了充分利用这些信息,我们计算了视频中每个输入帧和另一帧之间的2D光流,用它表示两帧之间的像素位移。

这些光流场取决于场景的深度和摄像头的相对位置。但是,由于摄像头位置是已知的,可以从流场中去除二者之间的依赖关系,由此生成初始深度图。此初始深度仅对静态场景区域有效。为了在测试时处理运动中的人,可以利用人工分割网络来盖住初始深度图中的人类区域。这样,我们网络的完整输入包括:RGB图像、盖住人类的区域,以及基于视差的遮盖后的深度图。

深度预测网络:模型的输入包括RGB图像(第t帧),人类区域的遮盖和非人类区域的初始深度,根据输入帧与另一个之间的运动视差(光流)计算视频中的帧。模型输出第t帧的完整深度图。由MVS算法计算出的深度图负责对训练过程的监督。

该网络的作用是“修复”人与场景的深度值,并在其他地方细化深度值。因为人类的外形和大小特征几乎一致,网络可以通过观察多个训练样例,在模型内部学习这些先验知识。经过训练后,模型就可以处理任意摄像头和人体同时运动的视频。

来看一段介绍视频:

以下是基于视频的深度预测模型结果的一些示例,并与最近基于最新学习的方法做了比较。

上图:基于学习的单眼深度预测方法。 下图:基于学习的立体方法(DeMoN)和我们的估计深度图的结果。

使用深度图处理3D视频效果

我们预测的深度图可用于产生一系列3D感知视频效

使用估计深度图产生的散景效果

我们的深度图也可用于其他方面的应用,包括利用单眼视频生成立体视频,将合成CG对象插入场景,还可以在视频的其他帧中显示内容的情况下进行场景区域的填充。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6258

    浏览量

    111959
  • 深度学习
    +关注

    关注

    73

    文章

    5604

    浏览量

    124615

原文标题:Google AI:机器学习预测场景深度图,模拟人眼更进一步

文章出处:【微信号:smartman163,微信公众号:网易智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【智能检测】基于AI深度学习与飞拍技术的影像测量系统:实现高效精准的全自动光学检测与智能制造数据闭环

    ; ②实现高节拍、大批量工件的全自动无人化测量; ③推动企业从人工复检向智能工厂数据闭环转型;④提升检测重复性、稳定性与整体OEE。; 阅读建议:本资料强调AI算法、硬件控制与软件逻辑的深度融合,建议结合实际应用场景理解技术优势,并关注其在工业4.0生态
    发表于 03-31 17:11

    2026年低代码平台市场综合评测:国内10大低代码平台深度解析

    平台采用“可视化配置+代码拓展”混合架构,实现“80%标准化场景快速落地+20%复杂场景深度定制”。 企业级能力升级:平台从单一应用搭建转向支撑核心业务系统(ERP、MES、WMS等),信创适配、安全合
    发表于 03-30 16:02

    银河通用机器人拿下1000 台机器人订单,推进具身智能工业场景深度应用

    模型技术+场景深耕的双轮驱动,银河通用机器人成中国具身第一 北京2025年12月23日 /美通社/ -- 12月22日,银河通用机器人(以下简称"银河通用")与精密制造的领先工业企业百达精工
    的头像 发表于 12-23 18:24 1864次阅读
    银河通用机器人拿下1000 台机器人订单,推进具身智能工业<b class='flag-5'>场景深度</b>应用

    模型赋能物资需求精准预测与采购系统软件平台

    、功能模块、应用场景、优势与挑战、未来方向五维度精简解析:    应用案例    目前,已有多个大模型赋能物资需求精准预测与采购平台系统在实际应用取得了显著成效。例如,北京华盛恒辉和
    的头像 发表于 12-17 16:37 378次阅读

    模型赋能物资需求精准预测与采购系统:功能特点与平台架构解析

        大模型赋能物资需求预测与采购智能化:核心功能与价值解析    大模型赋能物资需求精准预测与采购系统通过深度整合多源数据、构建动态
    的头像 发表于 12-16 11:54 453次阅读

    芯源MCU进入休眠模式或深度休眠模式

    )的SLEEPONEXIT 和SLEEPDEEP 位域,可实现立即进入或退出(中断服务程序)时进 入休眠模式或深度休眠模式。 ●● 立即进入 执行WFI 指令,MCU 将立即进入休眠模式(SLEEPDEEP 为0
    发表于 11-26 07:41

    景深显微镜在材料学的应用

    算法融合与三维重建,合成全深度清晰的图像,彻底解决“局部清晰、整体模糊”的痛点。下文,光子湾科技将详细介绍超景深显微镜在材料科学的应用。#Photonixbay.
    的头像 发表于 11-11 18:03 1513次阅读
    超<b class='flag-5'>景深</b>显微镜在材料学<b class='flag-5'>中</b>的应用

    FOSAN富捷科技:多元场景深度赋能,释放半导体器件核心价值

    作为 FOSAN 富捷科技集团旗下专注半导体领域的核心企业,安徽富信半导体科技有限公司凭借丰富的半导体分立器件产品线与场景化解决方案能力,深度渗透 BMS 电池管理、储能电源、智能装备、消费
    的头像 发表于 09-08 14:45 1147次阅读
    FOSAN富捷科技:多元<b class='flag-5'>场景深度</b>赋能,释放半导体器件核心价值

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3610次阅读
    3万字长文!<b class='flag-5'>深度</b>解析大语言<b class='flag-5'>模型</b>LLM原理

    自动驾驶Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 4363次阅读
    自动驾驶<b class='flag-5'>中</b>Transformer大<b class='flag-5'>模型</b>会取代<b class='flag-5'>深度</b>学习吗?

    毫米之间定成败:PCB背钻深度设计与生产如何精准把控

    。 PCB 背钻(Back Drilling)的核心目的是去除多层板中导通孔(Via)在深层多余的 “stub”(未连接的孔壁镀层残留),以减少高频信号传输的反射、损耗和串扰。背钻深度的精准控制直接影响其
    发表于 07-28 14:20

    晶圆切割深度动态补偿的智能决策模型与 TTV 预测控制

    摘要:本文针对超薄晶圆切割过程 TTV 均匀性控制难题,研究晶圆切割深度动态补偿的智能决策模型与 TTV 预测控制方法。分析影响切割深度
    的头像 发表于 07-23 09:54 688次阅读
    晶圆切割<b class='flag-5'>深度</b>动态补偿的智能决策<b class='flag-5'>模型</b>与 TTV <b class='flag-5'>预测</b>控制

    宁畅与与百度文心大模型展开深度技术合作

    与部署。 凭借覆盖训练、推理、微调全流程的AI 服务器产品矩阵,宁畅帮助企业在大模型时代一键打通算力与应用“任督二脉”,显著缩短模型落地周期。 在已启动的深度技术合作,双方将基于文心
    的头像 发表于 07-07 16:26 1006次阅读

    模型推理显存和计算量估计方法研究

    方法。 一、引言 大模型推理是指在已知输入数据的情况下,通过深度学习模型进行预测或分类的过程。然而,大模型的推理过程对显存和计算资源的需求较
    发表于 07-03 19:43

    存储示波器的存储深度对信号分析有什么影响?

    存储深度(Memory Depth)是数字示波器的核心参数之一,它直接决定了示波器在单次采集过程能够记录的采样点数量。存储深度对信号分析的影响贯穿时域细节捕捉、频域分析精度、触发稳定性等多个维度
    发表于 05-27 14:39