0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一张照片定制自己的3D数字化身?

微软科技 来源:未知 2023-03-22 00:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,由微软亚洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型,首次实现了利用生成扩散模型在 3D 训练数据上自动生成 3D 数字化身(Avatar)的功能。仅需一张图片甚至一句文字描述,RODIN 扩散模型就能秒级生成 3D 化身,让低成本定制 3D 头像成为可能,为 3D 内容创作领域打开了更多想象空间。相关论文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

创建个性化的用户形象在如今的数字世界中非常普遍,很多 3D 游戏都设有这一功能。然而在创建个人形象的过程中,繁琐的细节调整常常让人又爱又恨,有时候大费周章地选了与自己相似的眼睛、鼻子、发型、眼镜等细节之后,却发现拼接起来与自己仍大相径庭。既然现在的 AI 技术已经可以生成惟妙惟肖的 2D 图像,那么在 3D 世界中,我们是否可以拥有一个“AI 雕塑家”,仅通过一张照片就可以帮我们量身定制自己的 3D 数字化身呢?

微软亚洲研究院新提出的 3D 生成扩散模型 Roll-out Diffusion Network (RODIN)可以轻松做到。让我们先来看看 RODIN 的实力吧!

46e5c67a-c803-11ed-bfe3-dac502259ad0.png46ff09f0-c803-11ed-bfe3-dac502259ad0.jpg

(a) 给定的照片

47172904-c803-11ed-bfe3-dac502259ad0.gif

(b)生成的虚拟形象

图1:给定一张照片,RODIN 模型即可生成虚拟形象

46e5c67a-c803-11ed-bfe3-dac502259ad0.png4768dab0-c803-11ed-bfe3-dac502259ad0.gif

(a)输入文字“留卷发和大胡子穿着黑色皮夹克的男性”

48ebff20-c803-11ed-bfe3-dac502259ad0.gif

(b) 输入文字“红色衣着非洲发型的女性”

图2:给定文本描述,RODIN 模型可直接生成虚拟形象

与传统 3D 建模需要投入大量人力成本、制作过程繁琐不同的是,RODIN 以底层思路的创新突破与精巧的模型设计,突破了二次元到三次元的结界,实现了只输入一张图片或一句文字就能在几秒之内生成定制的 3D 数字化身的能力。在此之前,AI 生成技术还仅仅围绕 2D 图像进行创作,RODIN 模型的出现也将极大地推动 AI 在 3D 生成领域的进步。相关论文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

论文链接:

RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

https://arxiv.org/abs/2212.06135

项目页面:

https://3d-avatar-diffusion.microsoft.com

49452a8c-c803-11ed-bfe3-dac502259ad0.png

RODIN模型首次将

扩散模型应用于3D训练数据

在 3D 生成领域,尽管此前有不少研究利用 GAN(生成对抗网络)或 VAE(变分自动编码器)技术,从大量 2D 图像训练数据中生成 3D 图像,但结果却不尽如人意,“两面派”、“三头哪吒”等抽象派 3D 图像时有出现。科研人员们认为,造成这种现象的原因在于这些方法存在一个基础的欠定(ill posed)问题,也就是说由于单视角图片存在几何二义性,从仅仅通过大量的 2D 数据很难学到高质量 3D 化身的合理分布,所以才造成了各种不完美的生成结果。

对此,微软亚洲研究院的研究员们转变思路,首次提出 3D Diffusion Model,利用扩散模型的表达能力来建模 3D 内容。这种方法通过多张视角图来训练 3D 模型,消除了歧义性、二义性所带来的“四不象”结果,从而得到一个正确解,创建出更逼真的 3D 形象。

然而,要实现这种方法,还需要克服三个难题:

  • 首先,尽管扩散模型此前在 2D 内容生成上取得巨大成功,将其应用在 3D 数据上并没有可参考的实践方法和可遵循的前例。如何将扩散模型用于生成 3D 模型的多视角图,是研究员们找到的关键切入点;

  • 其次,机器学习模型的训练需要海量的数据,但一个多视图、一致且多样、高质量和大规模的 3D 图像数据很难获取,还存在隐私和版权等方面的风险。网络公开的 3D 图像又无法保证多视图的一致性,且数据量也不足以支撑 3D 模型的训练;

  • 第三,在机器上直接拓展 2D 扩散模型至 3D 生成,所需的内存存储与计算开销几乎无法承受。

49452a8c-c803-11ed-bfe3-dac502259ad0.png

多项技术创新让RODIN模型

以低成本生成高质量的3D图像

为了解决上述难题,微软亚洲研究院的研究员们创新地提出了 RODIN 扩散模型,并在实验中取得了优异的效果,超越了现有模型的 SOTA 水平。

RODIN 模型采用神经辐射场(NeRF)方法,并借鉴英伟达的 EG3D 工作,将 3D 空间紧凑地表达为空间三个互相垂直的特征平面(Triplane),并将这些图展开至单个 2D 特征平面中,再执行 3D 感知扩散。具体而言,就是将 3D 空间在横、纵、垂三个正交平面视图上以二维特征展开,这样不仅可以让 RODIN 模型使用高效的 2D 架构进行 3D 感知扩散,将三维图像降维成二维图像也大幅降低了计算复杂度和计算成本。

46e5c67a-c803-11ed-bfe3-dac502259ad0.png4980cb00-c803-11ed-bfe3-dac502259ad0.png

图3:3D 感知卷积高效处理 3D 特征。(左图) 用三平面(triplane)表达 3D 空间,此时底部特征平面的特征点对应于另外两个特征平面的两条线。(右图)引入 3D 感知卷积处理展开的 2D 特征平面,同时考虑到三个平面的三维固有对应关系。

要实现 3D 图像的生成需要三个关键要素:

  • 3D 感知卷积,确保降维后的三个平面的内在关联。传统 2D 扩散中使用的 2D 卷积神经网络(CNN)并不能很好地处理 Triplane 特征图。而 3D 感知卷积并不是简单生成三个 2D 特征平面,而是在处理这样的 3D 表达时,考虑了其固有的三维特性,即三个视图平面中其中一个视图的 2D 特征本质上是 3D 空间中一条直线的投影,因此与其他两个平面中对应的直线投影特征存在关联性。为了实现跨平面通信,研究员们在卷积中考虑了这样的 3D 相关性,因此高效地用 2D 的方式合成 3D 细节。

  • 隐空间协奏三平面 3D 表达生成。研究员们通过隐向量来协调特征生成,使其在整个三维空间中具有全局一致性,从而获得更高质量的化身并实现语义编辑,同时,还通过使用训练数据集中的图像训练额外的图像编码器,该编码器可提取语义隐向量作为扩散模型的条件输入。这样,整体的生成网络可视为自动编码器,用扩散模型作为解码隐空间向量。对于语义可编辑性,研究员们采用了一个冻结的 CLIP 图像编码器,与文本提示共享隐空间。

  • 层级式合成,生成高保真立体细节。研究员们利用扩散模型先生成了一个低分辨率的三视图平面(64×64),然后再通过扩散上采样生成高分辨率的三平面(256×256)。这样,基础扩散模型集中于整体 3D 结构生成,而后续上采样模型专注于细节生成。

46e5c67a-c803-11ed-bfe3-dac502259ad0.png49a95782-c803-11ed-bfe3-dac502259ad0.png

图4:RODIN 模型概述

此外,在训练数据集方面,研究员们借助开源的三维渲染软件 Blender,通过随机组合画师手动创建的虚拟 3D 人物图像,再加上从大量头发、衣服、表情和配饰中随机采样,进而创建了10万个合成个体,同时为每个个体渲染出了300个分辨率为256*256的多视图图像。在文本到 3D 头像的生成上,研究员们采用了 LAION-400M数据集的人像子集训练从输入模态到 3D 扩散模型隐空间的映射,最终让 RODIN 模型可以只使用一张 2D 图像或一句文字描述就能创建出逼真的 3D 头像。

46e5c67a-c803-11ed-bfe3-dac502259ad0.png49e4d758-c803-11ed-bfe3-dac502259ad0.gif

图5:利用文字做 3D 肖像编辑

46e5c67a-c803-11ed-bfe3-dac502259ad0.png4b117a1e-c803-11ed-bfe3-dac502259ad0.gif

图6:更多随机生成的虚拟形象 (更多结果请点击阅读原文,移步项目网页)

微软亚洲研究院主管研究员张博表示,“此前,3D 领域的研究受限于技术或高成本,生成的 3D 结果主要是点云、体素、网格等形式的粗糙几何体,而 RODIN 模型可创建出前所未有的 3D 细节,为 3D 内容生成研究打开了新的思路。我们希望 RODIN 模型在未来可以成为 3D 内容生成领域的基础模型,为后续的学术研究和产业应用创造更多可能。”

49452a8c-c803-11ed-bfe3-dac502259ad0.png

让3D内容生成

更个性、更普适

现如今,虚拟人、数字化身在电影、游戏、元宇宙、线上会议、电商等行业和场景中的需求日益增多,但其制作流程却相当复杂专业,每个高质量的化身都必须由专业的 3D 画师精心创作,尤其是在建模头发和面部毛发时,甚至需要逐根绘制,其中的艰辛历程外人难以想象。微软亚洲研究院 RODIN 模型的快速生成能力,可以协助 3D 画师减轻数字化身创作的工作量,提升效率,促进 3D 内容产业的发展。

目前,3D 真人化身的创建耗时耗力,很多项目背后可能都有一个上百人的团队在做支持,实现方法更多的是借助虚幻引擎、游戏引擎,再加上画师的专业绘画能力,才能设计出高度逼真的真人定制 3D 化身,普通大众很难使用这些服务,通常只能得到一些现成的、与本人毫无关连的化身。而 RODIN 模型低成本和可定制化的 3D 建模技术,兼具普适性和个性化,让 3D 内容生成走向大众成为可能。

刘潏

微软亚洲研究院资深产品经理


尽管当前 RODIN 模型生成结果主要为半身的 3D 头像,但是其技术能力并不仅限于 3D 头像的生成。随着包括花草树木、建筑、汽车家居等更多类别和更大规模训练数据的学习,RODIN 模型将能生成更多样的 3D 图像。下一步,微软亚洲研究院的研究员们将用 RODIN 模型探索更多 3D 场景创建的可能,向一个模型生成 3D 万物的终极目标不断努力。

关注微软科技视频号

了解更多科技前沿资讯

523f6710-c803-11ed-bfe3-dac502259ad0.png    

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107320

原文标题:一张照片定制自己的3D数字化身?

文章出处:【微信号:mstech2014,微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一张照片实现唱跳+对口型?千问App新玩法!

    行业资讯
    脑极体
    发布于 :2025年12月02日 22:06:44

    城市一张网,以数据之桥擎托未来

    以“城市一张网”为基石,打造可信数据空间,赋能全域数字化转型
    的头像 发表于 10-14 09:29 1762次阅读
    城市<b class='flag-5'>一张</b>网,以数据之桥擎托未来

    数字孪生可视化系统构建行业数字化智能管理生态!

    数字孪生可视化系统具备丰富的模型组件,包括二维平面组件及3D模型组件,可根据用户需求进行定制数字孪生可视化系统在行业数字化升级、
    的头像 发表于 09-19 11:45 517次阅读
    <b class='flag-5'>数字</b>孪生可视化系统构建行业<b class='flag-5'>数字化</b>智能管理生态!

    可存储1000人脸特征的3D人脸识别模块 支持小程序管理

    ,专为用于智能智能门锁,智能门禁,金融支付等场景研发,支持3D活体检测,3D人脸识别,红外活体检测,可见光活体检测等,可以抵御照片、视频等二维攻击,面具等三维攻击
    的头像 发表于 08-25 12:02 440次阅读
    可存储1000<b class='flag-5'>张</b>人脸特征的<b class='flag-5'>3D</b>人脸识别模块 支持小程序管理

    3D打印能用哪些材质?

    3D打印的材质有哪些?不同材料决定了打印效果、强度、用途乃至安全性,本文将介绍目前主流的3D打印材质,帮助你找到最适合自己需求的材料。
    的头像 发表于 07-28 10:58 2453次阅读
    <b class='flag-5'>3D</b>打印能用哪些材质?

    【Milk-V Duo S 开发板免费体验】3- 尝试免费3D打印了开发板外壳

    下载免费的模型文件(.stl),然后找3D打印网站进行打印。 嘉立创免费3D打印 网上有很多可以进行3D打印的网站,目前嘉立创3D打印有个免费打印的优惠活动,可以每月领
    发表于 07-08 20:54

    3D AD库文件

    3D库文件
    发表于 05-28 13:57 6次下载

    开源项目!如何制作个手机用的电动3D扫描转盘

    这个项目里,作者会教你怎么做个简单的电动3D扫描转盘,主要是给手机用的。整个装置分为三个部分:顶板、齿轮板和底座。顶板是个固定的平台,用来放置你要扫描的物体。 中间的齿轮板是整个装置的核心,它有
    发表于 03-25 13:45

    3D打印技术:如何让古老文物重获新生?

    科技发展进步,3D打印技术为古老文物的保护和传承提供了全新的解决方案。我们来探讨3D打印技术如何通过数字化复制、修复和展示,让古老文物重获新生,推动文化遗产的保护和传承。
    的头像 发表于 02-27 11:39 824次阅读

    用DLP4500烧录98bit位深度的相移图,3合成了一张24bit,结果每一张24bit都重复投射三次,这是为什么?

    你好,吴工,用DLP4500烧录98bit位深度的相移图,3合成了一张24bit,结果每一张24bit都重复投射三次,想问下这是为什么
    发表于 02-24 08:00

    索尼裸眼3D和投影技术助力提升博物馆数字化体验

    3LCD商用激光投影机亮相并发表议题为“如何利用裸眼3D和投影技术提升博物馆数字化体验”的主题演讲,引起现场博物馆用户的高度关注。
    的头像 发表于 02-21 10:08 989次阅读

    SciChart 3D for WPF图表库

    SciChart 3D for WPF 是个实时、高性能的 WPF 3D 图表库,专为金融、医疗和科学应用程序而设计。非常适合需要极致性能和丰富的交互式 3D 图表的项目。 使用我们
    的头像 发表于 01-23 13:49 1245次阅读
    SciChart <b class='flag-5'>3D</b> for WPF图表库

    腾讯混元3D AI创作引擎正式上线

    或上传一张图片,该引擎便能迅速生成与之对应的3D模型。这功能极大地降低了3D内容创作的门槛,使得更多用户能够轻松涉足这领域。 除了基础的
    的头像 发表于 01-22 10:26 946次阅读

    3D打印技术,推动手板打样从概念到成品的高效转化

    相关数据,有效规避传统大规模生产中容易造成的材料浪费和库存积压问题,做到“能省则省”。尤其是在小批量生产或定制产品的过程中,3D打印技术可以通过数字文件直接进行生产,节省模具的制造成
    发表于 12-26 14:43

    USB3.0 工业相机的传输速率是否受到电脑主板某些硬件的限制?

    设置为500FPS,对应2ms采集一张照片。 ② 电脑为具有4个USB3.0接口的电脑(台式机或者笔记本),目前的测试机为联想拯救者(Ryzen5800H,16GB内存,512GB PCI-E 3.0
    发表于 12-08 21:20