0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新型计算机视觉框架:GQN可以脑补出环境的另外部分

0wvm_ARchan_TT 来源:未知 作者:胡薇 2018-06-21 14:29 次阅读

现在的计算机视觉系统大多基于深度神经网络,它们可以通过学习大量数据集从而得到将图像投影到普通的场景描述的功能,简单说就是见得多了习惯了。

然而和这种神经网络相比,我们的大脑显然更加智能,可以利用先前的知识来推理,并做出远远超出看到的物品的推论。例如,如果看到桌子的三条腿,那么可以推断出第四条腿的存在和其位置,基本与实际情况相同;即使看不到房间里的所有东西,你也可以画出它的布局、想象它的外观。婴儿在八九个月时就可以理解“形状恒常性”的存在,即使用布盖住他面前的玩具,他也可以脑补出布下面玩具的样子,而这,恰是深度神经网络不能识别的。

最近,通过模仿人大脑对环境的处理方法,DeepMind提出了一种新型计算机视觉框架:GQN (the Generative Query Network),这个框架实现了前面提到的功能,可以脑补出环境的另外部分,还可以将2D图片渲染至3D。

GQN模型由两部分组成:表示网络和世代网络。表示网络将察结果输入并对基础场景产生描述性质的的矢量表示,然后世代网络从以前未观察过的角度预测场景的表现。

表示网络通过以分布式表示捕获对象位置,颜色和房间布局等元素来实现准确描述场景的真实布局。该网络能够以高度压缩和抽象的方式描述场景,并将其留给世代网络,从而可以在必要时加入详细信息

世代网络就像是一个近似的3D渲染器,它可以以非常精确的方式从新视角预测以前未观测到的场景。当给出场景和新的摄像机视点时,无需事先规定透视法,遮挡法或照明法,它就可以生成清晰的图像。

那么,GQN的可行性如何?

为了评估该框架的可行性,研究人员在模拟的3D环境中进行了一系列尝试。在第一组实验中,研究人员采用了包含各种对象的方形房间中的场景,墙面纹理、物体和灯的形状、位置和颜色都是随机的,以此有效地实现无限数量的总场景配置;随后,研究人员使用有限数据集来训练和测试模型。训练结束后,GQN通过观察一个先前未学习的测试场景的图像来计算其场景表示,随后的结果显示,发生器在视点处的预测是高度准确的,大部分与地面事实并没有区别。

在这个实验中,GQN不可能通过随机的方式准确预测结果,它只能通过在场景感知和编码物体的数量、位置、颜色,还有墙壁的颜色以及光源的间接观察位置的方式来学习。与传统的神经网络学习不同,GQN学习如何从图像中进行推理,而不需要对场景内容进行任何明确的人为标注。实验过程中,当场景的内容重度遮挡的情况时,预测模型就会出现不确定的情况,这种情况反映在最终结果的的变化性上。

随后研究人员还采用了更复杂,程序化的迷宫环境来测试GQN的缩放属性。迷宫由通过走廊连接的多个房间组成,不同场景中迷宫的布局和墙壁的颜色都是随机的。在这个实验中,任何一次观察都会提供有关当前迷宫的少量信息。在进行多次识别观测后, GQN已经可以在新的摄像机视点做出对迷宫环境正确的预测;在进一步的训练中,模型甚至还可以高度准确地预测迷宫自上而下的视图。

在这个实验中,预测模型的不确定性随着观测数量的增大而降低,经过大约五次观察后,GQN的不确定性几乎完全消失。

现在的GQN还只能在实验室实现,主要是因为需要受控分析、真实数据集的可用性有限、不足以生成复杂的模型等原因,但它的确可以处理视觉的遮挡、场景的组合等问题。随着新的数据集可用化和建模能力的增强,GQN也会逐渐实现应用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4538

    浏览量

    98424
  • 计算机视觉
    +关注

    关注

    8

    文章

    1575

    浏览量

    45555

原文标题:计算机视觉也可以脑补了?

文章出处:【微信号:ARchan_TT,微信公众号:AR酱】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【量子计算机重构未来 | 阅读体验】+量子计算机的原理究竟是什么以及有哪些应用

    本书内容从目录可以看出本书主要是两部分内容,一部分介绍量子计算机原理,一部分介绍其应用。 其实个人也是抱着对这两个问题的兴趣来看的
    发表于 03-11 12:50

    【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

    感觉量子技术神奇神秘,希望通过阅读此书来认识量子计算机。 先浏览一下目录: 通过目录,基本可以确定这是一本关于量子计算机的科普书籍,主要包括什么是量子计算机、量子
    发表于 03-05 17:37

    计算机系统由什么两部分组成 计算机系统的层次结构

    的各项工作。内存是计算机的主存储器,用于暂时存放数据和指令。存储设备包括硬盘、固态硬盘、光盘等,用于长期存储大量的数据和程序。输入输出设备用于与外部环境交互,如键盘、鼠标、打印机等。显示器用于展示计算机处理的结果。 软
    的头像 发表于 02-01 14:13 495次阅读

    机器视觉、工业视觉计算机视觉这三者的关系

    机器视觉、工业视觉计算机视觉这三者的关系
    的头像 发表于 01-24 10:51 487次阅读
    机器<b class='flag-5'>视觉</b>、工业<b class='flag-5'>视觉</b>和<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>这三者的关系

    什么是计算机视觉计算机视觉的三种方法

    计算机视觉是指通过为计算机赋予人类视觉这一技术目标,从而赋能装配线检查到驾驶辅助和机器人等应用。计算机缺乏像人类一样凭直觉产生
    的头像 发表于 11-16 16:38 1943次阅读
    什么是<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>?<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的三种方法

    最适合AI应用的计算机视觉类型是什么?

    计算机视觉是指为计算机赋予人类视觉这一技术目标,从而赋能装配线检查到驾驶辅助和机器人等应用。计算机缺乏像人类一样凭直觉产生
    的头像 发表于 11-15 16:38 212次阅读
    最适合AI应用的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>类型是什么?

    计算机视觉前景光明

    电子发烧友网站提供《计算机视觉前景光明.pdf》资料免费下载
    发表于 09-18 10:16 0次下载
    <b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>前景光明

    【RISC-V + OpenCV 计算机视觉】用 VisionFive 2 昉·星光 2 进行物体识别

    RVSpace:【RISC-V + OpenCV 计算机视觉】用 VisionFive 2 昉·星光 2 进行物体识别 bilibili:【【RISC-V + OpenCV 计算机视觉
    发表于 09-08 11:42

    人工智能计算机视觉方向是什么

    人工智能计算机视觉方向是什么 人工智能计算机视觉方向是指利用人工智能技术对图像和视频进行各种分析、解释和操作的过程。计算机
    的头像 发表于 08-15 16:06 1077次阅读

    机器视觉计算机视觉的区别

    机器视觉计算机视觉的区别 机器视觉计算机视觉是两个相关但不同的概念。虽然许多人使用这两个术语
    的头像 发表于 08-09 16:51 1008次阅读

    计算机视觉是什么 计算机视觉历史及发展趋势

    正像其它学科一样,一个大量人员研究了多年的学科,却很难给出一个严格的定义,模式识别如此,目前火热的人工智能如此,计算机视觉亦如此。与计算机视觉密切相关的概念有
    发表于 07-20 15:41 0次下载

    计算机视觉的概念和主要任务

    作为人工智能的关键领域之一的计算机视觉近期再次成为了热点,那么你真的了解什么是计算机视觉吗?
    的头像 发表于 07-17 11:20 807次阅读

    什么是机器视觉?机器视觉计算机有什么关系?

    机器视觉计算机视觉有什么区别
    的头像 发表于 06-05 09:28 803次阅读
    什么是机器<b class='flag-5'>视觉</b>?机器<b class='flag-5'>视觉</b>与<b class='flag-5'>计算机</b>有什么关系?

    计算机视觉相关概念总结

    为了帮助同事和客户了解更多有关计算机视觉和AI的更多信息,我们言简意赅介绍一些计算机视觉和AI术语,希望能帮助到大家。
    的头像 发表于 05-31 10:11 489次阅读

    opencv计算机视觉库介绍

    OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows、Android和Mac OS操作系统上。
    的头像 发表于 04-13 18:23 2446次阅读