0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌发明的由2D图像生成3D图像技术解析

我快闭嘴 来源:爱集微 作者:嘉德IPR 2020-12-24 12:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

谷歌发明的由2D图像生成3D图像的技术,利用3D估计神经网络图像信息的补全以及预测,融合了拍摄角度、光照等信息,让生成的3D图像看起来更加逼真,这种技术对于三维建模以及工业应用都具有极大的指导意义。

谷歌研究人员制作的一个AI工具,可以把涂鸦变成奇怪的怪物。这款工具名为Chimera Painter,使用机器学习来根据用户的粗略草图生成图像。

Chimera Painter背后的团队在一篇博客文章中解释了他们的方法和动机,称他们的想法是创造一种 “画笔,它的行为不像工具,而更像助手”。Chimera Painter只是一个原型,但如果这样的软件变得普遍,它可以减少创造高质量艺术所需的时间。

这种图像生成技术,其实在三维渲染方面有着非常广泛的应用,其中最具有代表性的工作之一,就是由2D图像生成3D图像。我们知道,3D图像相比于2D图像多了深度信息这一个维度,但也就是这一个差别,导致了3D图像相比于2D图像所多出的信息不是一星半点。因此,倘若想要从2D图像生成3D图像,其难度之大可想而知。

为此,谷歌在18年10月18日申请了一项名为“通过渲染许多3D视图来学习重构3D形状”的发明专利(申请号:201880030823.5),申请人为谷歌有限责任公司。

根据该专利目前公开的资料,让我们一起来看看这项从2D图像到3D图像的生成方法吧。

谷歌发明的由2D图像生成3D图像技术解析

该技术中,主要使用了3D估计器神经网络,如上图,为使用3D估计器神经网络来估计图像中描绘的面部的3D形状和纹理,并基于估计的3D形状和纹理生成替身的系统示意图。用户通过上传面部图像105,系统100可以对照片进行处理后生成替身115,这里所说的替身也就是用户的3D画像。

在具体的过程中,照片首先由面部识别引擎110进行处理,从而生成用户的面部图像特征112,该特征在3D估计神经网络中被处理,基于图像特征估计照片中描绘的用户面部的3D形状和纹理,从而生成形状纹理数据122。

最后,数据122被发送到3D渲染引擎130中,基于用户独特的面部形状、纹理特征来生成用户的3D画像,并且为了做到更加真实,渲染引擎可以给出特定的视图,视图中融合了相机角度、光照以及视场的估计信息,可以让生成的图像质量更加逼真。

谷歌发明的由2D图像生成3D图像技术解析

如上图,为用于用户3D渲染图像生成的3D估计器神经网络220的系统框图,整个系统的结构还是相当复杂的,从图中我们可以看到这种神经网络是如何工作的。根据目前的技术来看,训练3D估计器神经网络通常有两个困难:第一,由3D对象的图像和那些3D对象的3D形状和纹理组成的训练对通常是有限的并且难以获得;第二,训练3D估计器神经网络可能经常导致3D估计器神经网络的网络欺骗。

因此,该专利发明的整个网络分为了监督训练回路以及无监督训练回路,通过二者相结合的方式,在完全训练阶段期间,仅利用无监督训练回路,从而允许估计神经网络输出更快地收敛。

因为无监督训练回路可以在预训练阶段和完全训练阶段两者期间使用,所以从无监督训练回路开始,在预训练之后,完全训练可以对大量迭代和大量样本单独利用无监督训练回路,来改进3D估计神经网络估计图像中的对象的3D形状和纹理的能力。

谷歌发明的由2D图像生成3D图像技术解析

最后,是这种无监督训练回路训练的流程图,系统首先需要获取对象图像的第一图像特征,该特征就是上述所说用户面部信息的原始数据,其次,将这种第一图像特征提供给3D估计器神经网络并获取3D形状和纹理。

根据这些形状和纹理进行3D渲染,并从多个3D视图中导出第二图像特征,基于图像特征的损失函数计算损失,以知道神经网络进行反向传播以得到更加良好的效果以及减少图像生成的损失。

以上就是谷歌发明的利用2D图像生成3D图像的专利技术,从2D到3D图像的转换过程中,由于2D图像缺少了很多信息,因此该技术利用3D估计神经网络进行信息的补全以及预测,并融合了拍摄角度、光照等信息,让生成的3D图像看起来更加逼真,这种技术对于三维建模以及工业应用都具有极大的指导意义。

关于嘉德

深圳市嘉德知识产权服务有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成,熟悉中欧美知识产权法律理论和实务,在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    3034

    浏览量

    115864
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112221
  • 神经网络
    +关注

    关注

    42

    文章

    4847

    浏览量

    108433
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深度解析:被动式偏光3D转换器的核心技术架构与工程应用逻辑

    被动式偏光眼镜实现立体视觉本文将深入解析这类设备的核心设计原理、关键技术指标及工程应用逻辑。 一、偏光3D转换的光学机理:从线偏光到圆偏光的转换 1.1 偏光3D的基本原理 偏光
    发表于 05-25 10:54

    季丰电子新增3D X-Ray nanoVoxel5200

    2D X-Ray利用X射线在不同材质不同密度物品中衰减程度不同得到不同衬度的图像。但平面这种二维图像难以表征三维结构信息。 3D X-Ray通过旋转样品得到样品各个方向上的二维投影,
    的头像 发表于 05-14 11:33 409次阅读
    季丰电子新增<b class='flag-5'>3D</b> X-Ray nanoVoxel5200

    TOFcam-635:小型化3D相机的技术解析

    TOFcam-635:小型化3D相机的技术解析 在当今科技飞速发展的时代,3D相机技术在众多领域展现出巨大的应用潜力。今天要为大家介绍一款名
    的头像 发表于 05-10 13:50 303次阅读

    英伦科技2D/3D可切换显示技术未来应用场景深度解析

    科技推出的2D/3D可切换显示技术,打破了传统显示“非此即彼”的局限——用户无需额外设备,即可在高清2D画质与沉浸式3D体验间一键切换。这不
    的头像 发表于 05-08 16:08 178次阅读
    英伦科技<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>可切换显示<b class='flag-5'>技术</b>未来应用场景深度<b class='flag-5'>解析</b>

    英伦科技:2D/3D可切换显示技术未来应用场景有哪些?

    首先,第一性原理要求我们回归技术的本质特性:2D/3D可切换显示技术的核心价值在于视觉体验的灵活性与场景适配性,既保留了传统2D显示的清晰、
    的头像 发表于 05-08 15:44 223次阅读
    英伦科技:<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>可切换显示<b class='flag-5'>技术</b>未来应用场景有哪些?

    倍加福基于双目视觉技术的SmartRunner 3D传感器介绍

    当我们迈入自动化的“三维时代”,SmartRunner Explorer 3D不仅能生成清晰的2D图像,还可输出高精度的3D点云数据。
    的头像 发表于 04-08 10:39 453次阅读
    倍加福基于双目视觉<b class='flag-5'>技术</b>的SmartRunner <b class='flag-5'>3D</b>传感器介绍

    XS5018C:高性能2D/3D降噪ISP-TX 2K芯片电路图资料

    HDcctv/CVBS, 支持多种制式 960H/720P/960P/1080P, ISP 最高支持 1080P@30FPS, 高性能 2D 降噪、 3D 降噪, 支持无极降帧。
    发表于 01-28 16:50 1次下载

    2D、2.5D3D封装技术的区别与应用解析

    半导体封装技术的发展始终遵循着摩尔定律的延伸与超越。当制程工艺逼近物理极限,先进封装技术成为延续芯片性能提升的关键路径。本文将从技术原理、典型结构和应用场景三个维度,系统剖析2D、2.
    的头像 发表于 01-15 07:40 1519次阅读
    <b class='flag-5'>2D</b>、2.5<b class='flag-5'>D</b>与<b class='flag-5'>3D</b>封装<b class='flag-5'>技术</b>的区别与应用<b class='flag-5'>解析</b>

    Vitrox的v510i系列的3D AOI光学检测设备

    V510i部署在SMT生产线的 贴片机之后、回流焊炉之前或之后 ,主要用于检测贴装好的电子元件是否存在缺陷。其核心任务是: 3D2D复合检测 :同时利用3D轮廓信息和2D彩色
    的头像 发表于 12-04 09:27 1096次阅读

    浅谈2D封装,2.5D封装,3D封装各有什么区别?

    集成电路封装技术2D3D的演进,是一场从平面铺开到垂直堆叠、从延迟到高效、从低密度到超高集成的革命。以下是这三者的详细分析:
    的头像 发表于 12-03 09:13 1695次阅读

    玩转 KiCad 3D模型的使用

    时间都在与 2D 的焊盘、走线和丝印打交道。但一个完整的产品,终究是要走向物理世界的。元器件的高度、接插件的朝向、与外壳的配合,这些都是 2D 视图难以表达的。 幸运的是,KiCad 提供了强大的 3D 可视化功能。它不仅能让你
    的头像 发表于 09-16 19:21 1.2w次阅读
    玩转 KiCad <b class='flag-5'>3D</b>模型的使用

    iTOF技术,多样化的3D视觉应用

    视觉传感器对于机器信息获取至关重要,正在从二维(2D)发展到三维(3D),在某些方面模仿并超越人类的视觉能力,从而推动创新应用。3D 视觉解决方案大致分为立体视觉、结构光和飞行时间 (TOF)
    发表于 09-05 07:24

    TechWiz LCD 3D应用:FFS仿真

    建模任务 堆栈结构 建模过程 2.1使用TechWiz Layout绘制各层掩模版平面图 2.2创建堆栈结构,并生成3D结构 2.3 使用TechWiz LCD 3D进行各项参数计算 3
    的头像 发表于 07-14 14:08 1019次阅读
    TechWiz LCD <b class='flag-5'>3D</b>应用:FFS仿真

    TechWiz LCD 3D应用:局部液晶配向

    我们所说的局部摩擦是指给液晶盒中不同区域(可自定义区域)进行不同的液晶配向,所以也可以称之为局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以对液晶盒设置局部摩擦
    发表于 06-16 08:46

    利用NVIDIA 3D引导生成式AI Blueprint控制图像生成

    AI 赋能的图像生成技术突飞猛进,从早期模型会生成手指过多的人类图像,到现在能创造出令人惊叹的逼真视觉效果。即使取得了如此飞跃,仍然存在一个
    的头像 发表于 06-05 09:24 1079次阅读