0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

上线一周就2.1k star!单张图像直接转为3D模型!

3D视觉工坊 来源:3D视觉工坊 2023-11-06 16:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

0. 笔者个人体会

提问:给你一张2D图像,要求获得完整的三维模型,你会怎么做?

我第一反应是拿SolidWorks自己画一个~

最近就看到了这样的一项开源工作Wonder3D,可以直接从2D图像生成3D模型,感觉很神奇。读了读文章,发现这项工作是基于扩散模型实现的,这里也不得不感叹扩散模型确实在AI绘画和图像生成领域有无限前景。今天笔者也将带领读者阅读一下这项工作,当然笔者水平有限,如果有理解不当的地方欢迎大家一起探讨,共同学习。

1. 效果展示

Wonder3D仅需2~3分钟即可从单视图图像重建高细节纹理网格。Wonder3D首先通过跨域扩散模型生成一致的多视法线图与相应的彩色图像,然后利用一种法线融合方法来实现快速和高质量的重建。这里也推荐「3D视觉工坊」新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。

9a83467a-7c55-11ee-939d-92fbcf53809c.png

对不同风格的图像也都适用。

9ab04418-7c55-11ee-939d-92fbcf53809c.png

甚至对各种小动物也适用:

9ad1c6c4-7c55-11ee-939d-92fbcf53809c.png

代码已经开源了,而且他们的官方主页还放上了Live Demo的链接,感兴趣的读者可以上传自己的图像来尝试,下面展示一下笔者自己的测试结果。

原始图像:

9aff0fda-7c55-11ee-939d-92fbcf53809c.png

生成的多视角图像:

9b1ee09e-7c55-11ee-939d-92fbcf53809c.png

2. 摘要

在这篇文章中,我们介绍了Wonder3D,一种从单视图图像中高效生成高保真纹理网格的新方法。基于分数蒸馏采样(SDS)的最近方法已经显示出从2D扩散先验恢复3D几何形状的潜力,但是它们通常遭受每个形状优化的耗时和不一致的几何形状。相比之下,某些作品通过快速网络推理直接产生3D信息,但其结果通常质量较低且缺乏几何细节。为了从整体上提高图像到3D任务的质量、一致性和效率,我们提出了一种跨域扩散模型来生成多视图法线贴图和相应的彩色图像。为了确保一致性,我们采用了一种多视图跨域关注机制,该机制有助于跨视图和模态的信息交换。最后,我们介绍了一种几何感知法向融合算法,从多视图2D表示中提取高质量的表面。我们的大量评估表明,与先前的工作相比,我们的方法实现了高质量的重建结果、鲁棒的泛化以及相当好的效率。

3. 算法解析

先让我们重新审视一下这个问题:

给定单张图像,绘制其三维模型。

传统方法会怎么做呢?

使用SLAM或SfM?单张图像做初始化都不够。

使用MVS方法?没有多视角图像就没有视差图。

用NeRF?最吃数据了,视角大一点都不行。

直接训模型学习?思路上可以,实操起来效果非常差。

这个任务本身就非常反人类,因为只有一个视角,没有先验信息谁也不知道完整的三维模型长什么样。

那怎么做呢?

这篇文章的思路很巧妙,没有像NeRF那样直接从2D图像生成3D模型,而是先用扩散模型生成多个视角的2D图像和法线图,再融合生成3D模型。

这么做有啥好处呢?

最大的好处就是可以直接利用Stable Diffusion这种经过数十亿张图像训练过的2D扩散模型,实际上相当于引入了非常强的先验信息。而且法线图可以表征物体的起伏和表面几何信息,进而计算3D模型的高保真几何元素。

这样,整个任务就变为了建立一个马尔科夫链,然后从中采样颜色和法线信息的过程。

9b3eb0ea-7c55-11ee-939d-92fbcf53809c.png

其中p代表高斯噪声,n代表法线图,x代表RGB图,K代表图像数量。

不太对,扩散模型只能处理一个域,怎么出来RGB和法线两个域了?

的确是这样,最直观的改动思路就是给扩散模型添加一个头,重新训练模型,直接输出RGB和法线信息,这也是前两年多任务网络的常用做法。但是实际操作过程中会发现收敛很慢,而且泛化性差。

另一个思路是直接训练两个扩散模型,但这样不光增加了计算量,还会导致性能下降。

Wonder3D的做法是设计了一个域转换器(Domain Switcher),实际上是一个标注域信息的一维向量。域转换器先做位置编码,聚合时间embedding信息,再把它也输送给扩散模型,就可以让扩散模型同时处理两个域的信息。

这一点可以先放一个定性对比图来观察:

9b6268be-7c55-11ee-939d-92fbcf53809c.png

还有问题,RGB和法线是独立生成的,多视角的RGB图也未必就几何一致。

在这里,Wonder3D引入了一个注意力机制,分别处理多个时间RGB几何不一致的问题,以及RGB和法线图的关联问题。

9b89c260-7c55-11ee-939d-92fbcf53809c.png

到这里,Wonder3D具体的Pipeline就出来了:

输入一幅图像,Wonder3D取原始图像、CLIP产生的文本embedding、多视角相机参数,以及一个域转换器作为条件,生成一致的多视点法线图和彩色图。随后,Wonder3D借助法线融合算法,将2D表征重建为高质量的3D几何图形,产生高保真的纹理网格。

9bacc684-7c55-11ee-939d-92fbcf53809c.png

最后再看看这个几何融合是怎么做的:

Wonder3D是优化神经隐式SDF场,来从匹配的RGB和法线图中提取完整的三维信息。

刚才不是说NeRF需要稠密的图像序列吗?

如果直接做NeRF-SDF重建的话,误差非常大,并且会一直累计下去。Wonder3D的做法是引入了一系列损失函数来约束优化:

9bd8ef98-7c55-11ee-939d-92fbcf53809c.png

4. 实验

训练数据集是LVIS子集,batch size是512,在8块A800上训练了3天(果然普通人还是玩不起)。从2D图像生成3D模型的方法还是用的Instant NGP(论NeRF在各个领域的入侵haaaaa)。评估使用Google Scanned Object数据集。评估指标方面,3D重建用Chamfer Distances (CD)和Volume IoU,生成图像质量用PSNR、SSIM、LPIPS这几个常见指标。对比的方案也都是目前的SOTA,包括Zero123、RealFusion、Magic123、One-2-3-45、Point-E、Shap-E、SyncDreamer这些。

新视点合成对比,Zero 123缺乏多视图一致性,SyncDreamer对输入图像的仰角比较敏感,但是Wonder3D生成具有语义一致性和几何一致性的图像。这里也推荐「3D视觉工坊」新课程《彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进》。

9bef031e-7c55-11ee-939d-92fbcf53809c.png

新视点合成的定量对比。

9c122376-7c55-11ee-939d-92fbcf53809c.png

3D重建质量的对比,Shape-E的重建结果不完整且扭曲。SyncDreamer的重建结生成图像大致对齐,但纹理质量不好。相比之下Wonder3D实现几何和纹理上最高的重建质量。

9c29a032-7c55-11ee-939d-92fbcf53809c.png

3D重建的定量对比。

9c650bf4-7c55-11ee-939d-92fbcf53809c.png

最后3D生成模型中各项损失函数的消融实验,验证损失函数的必要性:

9c88a91a-7c55-11ee-939d-92fbcf53809c.png

还是一个消融实验,验证多视图几何一致性和RGB-法线对其的注意力机制的作用:

9caa1fbe-7c55-11ee-939d-92fbcf53809c.png

5. 总结

本文为各位读者介绍了Wonder3D,可以从单张图像直接生成完整的三维模型,整个模型的设计思路很巧妙,而且也开源。渲染速度也达到了2~3分钟,这项工作的应用也很广泛,建图、VR、AR、动画、影视等等都可以用。感觉Wonder3D还是很神奇的,有点长见识了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2993

    浏览量

    113878
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42168
  • 模型
    +关注

    关注

    1

    文章

    3650

    浏览量

    51721

原文标题:上线一周就2.1k star!单张图像直接转为3D模型!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    技术资讯 I 图文详解 Allegro X PCB Designer 中的 3D 模型映射

    本文要点面对市面上的切要将PCB板放进个盒子里的产品的设计都离不开3D模型映射这个功能,3D协同设计保证了产品的超薄化、高集成度的生命线
    的头像 发表于 10-17 16:16 670次阅读
    技术资讯 I 图文详解 Allegro X PCB Designer 中的 <b class='flag-5'>3D</b> <b class='flag-5'>模型</b>映射

    玩转 KiCad 3D模型的使用

    “  本文将带您学习如何将 3D 模型与封装关联、文件嵌入,讲解 3D 查看器中的光线追踪,以及如何使用 CLI 生成 PCBA 的 3D 模型
    的头像 发表于 09-16 19:21 1.1w次阅读
    玩转 KiCad <b class='flag-5'>3D</b><b class='flag-5'>模型</b>的使用

    3Dfindit上发布世嘉智尼的上万个3D CAD模型,优化用户设计流程

    :“上线初期,我们期待通过下载量和优质销售线索获得直接反馈。与此同时,我们的营销团队正着手借助 CADENAS 的网页组件,将这些 3D 模型嵌入到公司官网中。” 借助CADENAS和
    发表于 08-27 15:44

    TechWiz LCD 3D应用:FFS仿真

    建模任务 堆栈结构 建模过程 2.1使用TechWiz Layout绘制各层掩模版平面图 2.2创建堆栈结构,并生成3D结构 2.3 使用TechWiz LCD 3D进行各项参数计算 3
    的头像 发表于 07-14 14:08 452次阅读
    TechWiz LCD <b class='flag-5'>3D</b>应用:FFS仿真

    文件嵌入详解():在PCB封装库中嵌入3D模型

    “  从 KiCad 9 开始,就可以在封装中嵌入 STEP 3D 模型,而不只是简单的关联。这样在复制封装、3D库或路径发生变化时就不用再次重新关联了。  ”   文件嵌入 从 KiCad 9
    的头像 发表于 07-08 11:16 2362次阅读
    文件嵌入详解(<b class='flag-5'>一</b>):在PCB封装库中嵌入<b class='flag-5'>3D</b><b class='flag-5'>模型</b>

    种以图像为中心的3D感知模型BIP3D

    在具身智能系统中,3D感知算法是个关键组件,它在端侧帮助可以帮助智能体理解环境信息,在云端可以用来辅助生成3D场景和3D标签,具备重要的研究价值。现有主流算法主要依赖于点云作为输入
    的头像 发表于 03-17 13:44 964次阅读
    <b class='flag-5'>一</b>种以<b class='flag-5'>图像</b>为中心的<b class='flag-5'>3D</b>感知<b class='flag-5'>模型</b>BIP<b class='flag-5'>3D</b>

    使用海尔曼太通/HellermannTyton 3D CAD 模型进行快速高效的设计

    网站源链接和每个产品的相应目录页面起出现在搜索结果列表中。用户可以在线浏览查看相应的 3D CAD 模型及其数据信息。双方通过合作,CADENAS能将3dfindit的三维
    发表于 03-14 16:55

    3D打印可以打印那种柔韧性好,能随意变形的模型吗?

    当然可以! 般来讲,市面上常见的树脂材料是比较脆的,旦受力过大就很容易断裂,因此不能随意掰折或扭曲,这就导致很多人对3D打印的认知还停留在它只能制造硬性模型。 但
    发表于 03-13 11:41

    TechWiz LCD 3D应用:局部液晶配向

    ,本案例使用TechWiz LCD 3D进行局部摩擦的设置。 1. 建模任务 1.1进行局部摩擦配置 2. 建模过程 以下是建模过程中部分重要步骤的说明 2.1在TechWiz Layout中创建结构
    发表于 02-08 08:52

    腾讯混元3D AI创作引擎正式发布

    的AI技术,能够根据用户提供的提示词或图片,直接生成高质量的3D模型。这功能极大地降低了3D内容创作的门槛,使得即使是缺乏专业
    的头像 发表于 01-23 10:33 990次阅读

    腾讯混元3D AI创作引擎正式上线

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这创新性的创作工具,标志着腾讯在3D内容生成领域迈出了重要步。 混元
    的头像 发表于 01-22 10:26 980次阅读

    Techwiz LCD 3D案例:LCOS模拟

    LCOS像素尺寸直接减小到理论要求的尺寸会明显导致像素尺寸和LC层厚度的比例过小,使得LCOS中相邻像素之间电场相互干扰产生边缘场效应。 任务描述 使用Techwiz LCD 3D模拟的LCOS结构
    发表于 01-11 13:26

    AN-1249:使用ADV8003评估板将3D图像转换成2D图像

    电子发烧友网站提供《AN-1249:使用ADV8003评估板将3D图像转换成2D图像.pdf》资料免费下载
    发表于 01-08 14:28 0次下载
    AN-1249:使用ADV8003评估板将<b class='flag-5'>3D</b><b class='flag-5'>图像</b>转换成2<b class='flag-5'>D</b><b class='flag-5'>图像</b>

    TechWiz LCD 3D应用:局部液晶配向

    ,本案例使用TechWiz LCD 3D进行局部摩擦的设置。 1. 建模任务 1.1进行局部摩擦配置 2. 建模过程 以下是建模过程中部分重要步骤的说明 2.1在TechWiz Layout中创建结构
    发表于 01-03 08:58

    uvled光固化3d打印技术

    说到UVLED光固化3D打印技术,那可是当下3D打印领域的股清流啊!这项技术利用紫外线和光固化树脂来制造3D打印模型,原理简单又高效。UV
    的头像 发表于 12-24 13:13 1165次阅读
    uvled光固化<b class='flag-5'>3d</b>打印技术