0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌发明的由2D图像生成3D图像技术解析

我快闭嘴 来源:爱集微 作者:嘉德IPR 2020-12-24 12:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

谷歌发明的由2D图像生成3D图像的技术,利用3D估计神经网络图像信息的补全以及预测,融合了拍摄角度、光照等信息,让生成的3D图像看起来更加逼真,这种技术对于三维建模以及工业应用都具有极大的指导意义。

谷歌研究人员制作的一个AI工具,可以把涂鸦变成奇怪的怪物。这款工具名为Chimera Painter,使用机器学习来根据用户的粗略草图生成图像。

Chimera Painter背后的团队在一篇博客文章中解释了他们的方法和动机,称他们的想法是创造一种 “画笔,它的行为不像工具,而更像助手”。Chimera Painter只是一个原型,但如果这样的软件变得普遍,它可以减少创造高质量艺术所需的时间。

这种图像生成技术,其实在三维渲染方面有着非常广泛的应用,其中最具有代表性的工作之一,就是由2D图像生成3D图像。我们知道,3D图像相比于2D图像多了深度信息这一个维度,但也就是这一个差别,导致了3D图像相比于2D图像所多出的信息不是一星半点。因此,倘若想要从2D图像生成3D图像,其难度之大可想而知。

为此,谷歌在18年10月18日申请了一项名为“通过渲染许多3D视图来学习重构3D形状”的发明专利(申请号:201880030823.5),申请人为谷歌有限责任公司。

根据该专利目前公开的资料,让我们一起来看看这项从2D图像到3D图像的生成方法吧。

谷歌发明的由2D图像生成3D图像技术解析

该技术中,主要使用了3D估计器神经网络,如上图,为使用3D估计器神经网络来估计图像中描绘的面部的3D形状和纹理,并基于估计的3D形状和纹理生成替身的系统示意图。用户通过上传面部图像105,系统100可以对照片进行处理后生成替身115,这里所说的替身也就是用户的3D画像。

在具体的过程中,照片首先由面部识别引擎110进行处理,从而生成用户的面部图像特征112,该特征在3D估计神经网络中被处理,基于图像特征估计照片中描绘的用户面部的3D形状和纹理,从而生成形状纹理数据122。

最后,数据122被发送到3D渲染引擎130中,基于用户独特的面部形状、纹理特征来生成用户的3D画像,并且为了做到更加真实,渲染引擎可以给出特定的视图,视图中融合了相机角度、光照以及视场的估计信息,可以让生成的图像质量更加逼真。

谷歌发明的由2D图像生成3D图像技术解析

如上图,为用于用户3D渲染图像生成的3D估计器神经网络220的系统框图,整个系统的结构还是相当复杂的,从图中我们可以看到这种神经网络是如何工作的。根据目前的技术来看,训练3D估计器神经网络通常有两个困难:第一,由3D对象的图像和那些3D对象的3D形状和纹理组成的训练对通常是有限的并且难以获得;第二,训练3D估计器神经网络可能经常导致3D估计器神经网络的网络欺骗。

因此,该专利发明的整个网络分为了监督训练回路以及无监督训练回路,通过二者相结合的方式,在完全训练阶段期间,仅利用无监督训练回路,从而允许估计神经网络输出更快地收敛。

因为无监督训练回路可以在预训练阶段和完全训练阶段两者期间使用,所以从无监督训练回路开始,在预训练之后,完全训练可以对大量迭代和大量样本单独利用无监督训练回路,来改进3D估计神经网络估计图像中的对象的3D形状和纹理的能力。

谷歌发明的由2D图像生成3D图像技术解析

最后,是这种无监督训练回路训练的流程图,系统首先需要获取对象图像的第一图像特征,该特征就是上述所说用户面部信息的原始数据,其次,将这种第一图像特征提供给3D估计器神经网络并获取3D形状和纹理。

根据这些形状和纹理进行3D渲染,并从多个3D视图中导出第二图像特征,基于图像特征的损失函数计算损失,以知道神经网络进行反向传播以得到更加良好的效果以及减少图像生成的损失。

以上就是谷歌发明的利用2D图像生成3D图像的专利技术,从2D到3D图像的转换过程中,由于2D图像缺少了很多信息,因此该技术利用3D估计神经网络进行信息的补全以及预测,并融合了拍摄角度、光照等信息,让生成的3D图像看起来更加逼真,这种技术对于三维建模以及工业应用都具有极大的指导意义。

关于嘉德

深圳市嘉德知识产权服务有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成,熟悉中欧美知识产权法律理论和实务,在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2990

    浏览量

    113826
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110257
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106796
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Vitrox的v510i系列的3D AOI光学检测设备

    V510i部署在SMT生产线的 贴片机之后、回流焊炉之前或之后 ,主要用于检测贴装好的电子元件是否存在缺陷。其核心任务是: 3D2D复合检测 :同时利用3D轮廓信息和2D彩色
    的头像 发表于 12-04 09:27 111次阅读

    浅谈2D封装,2.5D封装,3D封装各有什么区别?

    集成电路封装技术2D3D的演进,是一场从平面铺开到垂直堆叠、从延迟到高效、从低密度到超高集成的革命。以下是这三者的详细分析:
    的头像 发表于 12-03 09:13 129次阅读

    玩转 KiCad 3D模型的使用

    时间都在与 2D 的焊盘、走线和丝印打交道。但一个完整的产品,终究是要走向物理世界的。元器件的高度、接插件的朝向、与外壳的配合,这些都是 2D 视图难以表达的。 幸运的是,KiCad 提供了强大的 3D 可视化功能。它不仅能让你
    的头像 发表于 09-16 19:21 1w次阅读
    玩转 KiCad <b class='flag-5'>3D</b>模型的使用

    iTOF技术,多样化的3D视觉应用

    视觉传感器对于机器信息获取至关重要,正在从二维(2D)发展到三维(3D),在某些方面模仿并超越人类的视觉能力,从而推动创新应用。3D 视觉解决方案大致分为立体视觉、结构光和飞行时间 (TOF)
    发表于 09-05 07:24

    TechWiz LCD 3D应用:FFS仿真

    建模任务 堆栈结构 建模过程 2.1使用TechWiz Layout绘制各层掩模版平面图 2.2创建堆栈结构,并生成3D结构 2.3 使用TechWiz LCD 3D进行各项参数计算 3
    的头像 发表于 07-14 14:08 447次阅读
    TechWiz LCD <b class='flag-5'>3D</b>应用:FFS仿真

    TechWiz LCD 3D应用:局部液晶配向

    我们所说的局部摩擦是指给液晶盒中不同区域(可自定义区域)进行不同的液晶配向,所以也可以称之为局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以对液晶盒设置局部摩擦
    发表于 06-16 08:46

    利用NVIDIA 3D引导生成式AI Blueprint控制图像生成

    AI 赋能的图像生成技术突飞猛进,从早期模型会生成手指过多的人类图像,到现在能创造出令人惊叹的逼真视觉效果。即使取得了如此飞跃,仍然存在一个
    的头像 发表于 06-05 09:24 737次阅读

    HT 可视化监控页面的 2D3D 连线效果

    的连线效果是如何实现的。我们将从 基本概念、实现步骤、关键代码 多个维度,逐步剖析这个效果的具体实现过程,为你提供全面的知识和实践指导。 尽管 2D3D 连线效果看起来复杂,其本质仍然是二维节点之间的连接。只需要通过一些巧妙的
    的头像 发表于 04-09 11:28 1106次阅读
    HT 可视化监控页面的 <b class='flag-5'>2D</b> 与 <b class='flag-5'>3D</b> 连线效果

    安森美这款iToF传感器让3D深度测量技术轻松落地

    现代工业自动化的成功离不开3D视觉技术的强大功能。传统的2D传感器只能提供平面图像,这使其在设备检测等应用中的效能大打折扣。2D传感器可以读
    的头像 发表于 03-28 14:31 861次阅读
    安森美这款iToF传感器让<b class='flag-5'>3D</b>深度测量<b class='flag-5'>技术</b>轻松落地

    一种以图像为中心的3D感知模型BIP3D

    在具身智能系统中,3D感知算法是一个关键组件,它在端侧帮助可以帮助智能体理解环境信息,在云端可以用来辅助生成3D场景和3D标签,具备重要的研究价值。现有主流算法主要依赖于点云作为输入
    的头像 发表于 03-17 13:44 958次阅读
    一种以<b class='flag-5'>图像</b>为中心的<b class='flag-5'>3D</b>感知模型BIP<b class='flag-5'>3D</b>

    超景深3D检测显微镜技术解析

    技术的核心在于其能够实现比传统显微镜更广阔的景深范围,同时保持高分辨率的成像能力,从而为用户提供更为清晰和立体的微观世界视图。 超景深3D检测显微镜的实现依赖于先进的光学设计和复杂的图像处理算法。传统
    发表于 02-25 10:51

    TechWiz LCD 3D应用:局部液晶配向

    我们所说的局部摩擦是指给液晶盒中不同区域(可自定义区域)进行不同的液晶配向,所以也可以称之为局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以对液晶盒设置局部摩擦
    发表于 02-08 08:52

    AN-1249:使用ADV8003评估板将3D图像转换成2D图像

    电子发烧友网站提供《AN-1249:使用ADV8003评估板将3D图像转换成2D图像.pdf》资料免费下载
    发表于 01-08 14:28 0次下载
    AN-1249:使用ADV8003评估板将<b class='flag-5'>3D</b><b class='flag-5'>图像</b>转换成<b class='flag-5'>2D</b><b class='flag-5'>图像</b>

    技术前沿:半导体先进封装从2D3D的关键

    技术前沿:半导体先进封装从2D3D的关键 半导体分类 集成电路封测技术水平及特点     1. 发展概述 ·自20世纪90年代以来,集成电路封装
    的头像 发表于 01-07 09:08 3118次阅读
    <b class='flag-5'>技术</b>前沿:半导体先进封装从<b class='flag-5'>2D</b>到<b class='flag-5'>3D</b>的关键

    借助谷歌Gemini和Imagen模型生成高质量图像

    在快速发展的生成式 AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3 模型根据这些提示生成高质
    的头像 发表于 01-03 10:38 1335次阅读
    借助<b class='flag-5'>谷歌</b>Gemini和Imagen模型<b class='flag-5'>生成</b>高质量<b class='flag-5'>图像</b>