0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于扩散模型的图像生成过程

OpenCV学堂 来源:OpenCV学堂 作者:OpenCV学堂 2023-07-17 11:00 次阅读

近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。

不过仅凭文本来控制图像的生成往往得不到想要的结果,比如具体的人物姿势、面部表情等很难用文本指定。

最近,谷歌发布了MediaPipe Diffusion插件,可以在移动设备上运行「可控文本到图像生成」的低成本解决方案,支持现有的预训练扩散模型及其低秩自适应(LoRA)变体

背景知识

基于扩散模型的图像生成过程可以认为是一个迭代去噪过程。

从噪声图像开始,在每个步骤中,扩散模型会逐渐对图像进行降噪以生成符合目标概念的图像,将文本提示作为条件可以大大提升图像生成的效果。

对于文本到图像生成,文本嵌入通过交叉注意层连接到图像生成模型上,不过仍然有部分信息难以通过文本提示来描述,比如物体的位置和姿态等。

为了解决这个问题,研究人员提出引入额外的模型添加到扩散模型中,在条件图像中注入控制信息。

常用的控制文生图方法包括:

1. 即插即用(Plug-and-Play)用到去噪扩散隐式模型(DDIM)inversion方法,从输入图像开始反转生成过程来导出初始噪声输入,然后采用扩散模型(Stable Diffusion1.5的情况下需要8.6亿参数)对来自输入图像的条件进行编码。

即插即用从复制的扩散中提取具有自注意力的空间特征,并将其注入到文本转图像的扩散过程中。

2. ControlNet会创建扩散模型编码器的一个可训练副本,通过零初始化参数后的卷积层连接,将传递到解码器层的条件信息进行编码。

3. T2I Adapter是一个较小的网络(7700万参数),在可控生成中可以实现类似的效果,只需要将条件图像作为输入,其输出在所有扩散迭代中共享。

不过T2I适配器模型并不是为便携式移动设备设计的。

MediaPipe Diffusion插件

为了使条件生成更高效、可定制且可扩展,研究人员将MediaPipe扩散插件设计为一个单独的网络:

1. 可插入(Plugable):可以很容易地与预训练基础模型进行连接;

2. 从零开始训练(Trained from scratch):不使用来自基础模型的预训练权重;

3. 可移植性(Portable):可以在移动设备上运行基础模型,并且推理成本相比原模型来说可以忽略不计。

1bb527f0-23a9-11ee-962d-dac502259ad0.png

即插即用、ControlNet、T2I适配器和MediaPipe扩散插件的对比,*具体数字会根据选用模型不同而发生变化

简单来说,MediaPipe扩散插件就是一个用于文本到图像生成的,可在便携式设备上运行的模型,从条件图像中提取多尺度特征,并添加到相应层次扩散模型的编码器中;当连接到文生图扩散模型时,插件模型可以向图像生成提供额外的条件信号

插件网络是一个轻量级的模型,只有600万参数,使用MobileNetv2中的深度卷积和反向瓶颈(inverted bottleneck)在移动设备上实现快速推理。


MediaPipe扩散模型插件是一个单独的网络,输出可以插入到预训练的文本到图像生成模型中,提取的特征应用于扩散模型的相关下采样层(蓝色)。

与ControlNet不同,研究人员在所有扩散迭代中注入相同的控制功能,所以对于图像生成过程只需要运行一次插件,节省了计算量。

下面的例子中可以看到,控制效果在每个扩散步骤都是有效的,即使在前期迭代步中也能够控制生成过程;更多的迭代次数可以改善图像与文本提示的对齐,并生成更多的细节。


使用MediaPipe扩散插件进行生成过程的演示

示例

在这项工作中,研究人员开发了基于扩散的文本到图像生成模型与MediaPipe face landmark,MediaPipe holistic landmark,深度图和Canny边缘的插件。

对于每个任务,从超大规模的图像-文本数据集中选择约10万张图像,并使用相应的MediaPipe解决方案计算控制信号,使用PaLI优化后的描述来对插件进行训练。

Face Landmark

MediaPipe Face Landmarker任务计算人脸的478个landmark(具有注意力)。

研究人员使用MediaPipe中的drawing utils来渲染人脸,包括脸部轮廓、嘴巴、眼睛、眉毛和虹膜,并使用不同的颜色进行表示。

下面这个例子展现了通过调节面网格和提示随机生成的样本;作为对比,ControlNet和Plugin都可以在给定条件下控制文本到图像的生成。

用于文本到图像生成的Face-landmark插件,与ControlNet进行比较。

Holistic Landmark

MediaPipe Holistic Landmark任务包括身体姿势、手和面部网格的landmark,可以通过调节整体特征来生成各种风格化的图像。



用于文本到图像生成的Holistic landmark插件。

深度

深度插件的文本到图像生成。

Canny Edge

用于生成文本到图像的Canny-edge插件。

评估

研究人员对face landmark插件进行定量评估以证明该模型的性能,评估数据集包含5000张人类图像,使用的评估指标包括Fréchet起始距离(FID)和CLIP分数。

基础模型使用预训练的文本到图像扩散模型Stable Diffusion v1.5

1f42b270-23a9-11ee-962d-dac502259ad0.png

FID、CLIP和推理时间的定量比较

从实验结果中的FID和CLIP分数来看,ControlNet和MediaPipe扩散插件生成的样本质量比基础模型好得多。

与ControlNet不同,插件模型只需要为每个生成的图像运行一次,不需要在每个去噪步中都运行,所以推理时间只增加了2.6%

研究人员在服务器机器(使用Nvidia V100 GPU)和移动端设备(Galaxy S23)上测量了三种模型的性能:在服务器上,使用50个扩散步骤运行所有三个模型;在移动端上,使用MediaPipe图像生成应用程序运行20个扩散步骤。

与ControlNet相比,MediaPipe插件在保持样本质量的同时,在推理效率方面表现出明显的优势。

1f64944e-23a9-11ee-962d-dac502259ad0.png

插件在不同移动的设备上的推理时间(ms)

总结

在这项工作中,研究人员提出了MediaPipe,一个可在移动端使用的、有条件的文本到图像生成插件,将从条件图像中提取的特征注入扩散模型,从而控制图像的生成过程。

便携式插件可以连接到在服务器或设备上运行的预训练的扩散模型,通过在设备上完全运行文本到图像生成和插件,可以更灵活地应用生成式AI

责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1073

    浏览量

    40159
  • 编码器
    +关注

    关注

    41

    文章

    3362

    浏览量

    131560
  • 服务器
    +关注

    关注

    12

    文章

    8123

    浏览量

    82534
  • AI
    AI
    +关注

    关注

    87

    文章

    26464

    浏览量

    264090
  • 模型
    +关注

    关注

    1

    文章

    2706

    浏览量

    47697

原文标题:推理效率比ControlNet高20+倍!谷歌发布MediaPipe Diffusion插件,「移动端」可用的图像生成控制模型

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何在PyTorch中使用扩散模型生成图像

    除了顶尖的图像质量,扩散模型还带来了许多其他好处,包括不需要对抗性训练。对抗训练的困难是有据可查的。在训练效率的话题上,扩散模型还具有可伸缩
    发表于 11-22 15:51 336次阅读
    如何在PyTorch中使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b><b class='flag-5'>生成</b><b class='flag-5'>图像</b>

    为什么生成模型值得研究

    1.Why study generative modeling? 人们可能很自然地想知道为什么生成模型值得研究,尤其是那些只能够生成数据而不能提供密度函数估计的生成
    发表于 09-15 06:03

    图像插值的一个变指数变分模型

    为了消除插值图像在边缘的锯齿现象、在平坦区域的分块现象,提出了一种变指数变分模型图像插值方法。通过对变指数变分模型扩散特性的研究,引入了一
    发表于 11-30 15:35 0次下载

    融合施工场景及空间关系的图像描述生成模型

    为解决施工场景中缺少空间关系图像描述的问题,提出一种融合施工场景及空间关系的图像描述生成模型。采用YoLoⅴ3网络进行目标检测,以 Transe算法为基础在传统对象检测
    发表于 04-02 14:15 0次下载
    融合施工场景及空间关系的<b class='flag-5'>图像</b>描述<b class='flag-5'>生成</b><b class='flag-5'>模型</b>

    基于生成器的图像分类对抗样本生成模型

    ,并保证攻击成功率。模型将对抗样本生成过程视为对原图进行图像増强的操作引入生成对抗网络,并改进感知损失函数以增加对抗样本与原图在内容与特征
    发表于 04-07 14:56 2次下载
    基于<b class='flag-5'>生成</b>器的<b class='flag-5'>图像</b>分类对抗样本<b class='flag-5'>生成</b><b class='flag-5'>模型</b>

    基于生成式对抗网络的端到端图像去雾模型

    针对现有图像去雾算法严重依赖中间量准确估计的问题,提出了一种基于 Wasserstein生成对抗网络(wGAN)的端到端图像去雾模型。首先,使用全卷积密集块网络(FC- Dense N
    发表于 04-12 15:03 20次下载
    基于<b class='flag-5'>生成</b>式对抗网络的端到端<b class='flag-5'>图像</b>去雾<b class='flag-5'>模型</b>

    基于波域调和滤波扩散模型图像去噪算法

    针对当前图像去噪算法缺乏对整体结构的分析以及运算量过大的不足,提岀了一种利用波域调和滤波扩散模型改进BM3D去噪技术的新算法。首先,利用传统的欧氏距离法将相似二维图像块合并,得到三维数
    发表于 05-18 15:39 4次下载

    扩散模型在视频领域表现如何?

    在视频生成领域,研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑,显示出非常有希
    的头像 发表于 04-13 10:04 1319次阅读

    如何改进和加速扩散模型采样的方法2

      事实上,扩散模型已经在深层生成性学习方面取得了重大进展。我们预计,它们可能会在图像和视频处理、 3D 内容生成和数字艺术以及语音和语言建
    的头像 发表于 05-07 14:38 2693次阅读
    如何改进和加速<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>采样的方法2

    新晋图像生成王者扩散模型

    他们确定了最佳的时间离散化(time discretization),对采样过程应用了更高阶的Runge–Kutta方法,并在三个预训练模型上评估不同的方法,分析了随机性在采样过程中的有用性。
    的头像 发表于 06-06 10:54 1017次阅读

    扩散模型和其在文本生成图像任务上的应用

    扩散过程有一个显着特性,我们可以对任意 进行采样。为了证明该性质需要使用参数重整化技巧:假设要从高斯分布 中采样 时,可以先从 采样出 ,然后计算 ,这样可以解决梯度无法回传问题。
    的头像 发表于 08-03 15:34 2411次阅读

    蒸馏无分类器指导扩散模型的方法

    去噪扩散概率模型(DDPM)在图像生成、音频合成、分子生成和似然估计领域都已经实现了 SOTA 性能。同时无分类器(classifier-f
    的头像 发表于 10-13 10:35 864次阅读

    如何加速生成2 PyTorch扩散模型

    加速生成2 PyTorch扩散模型
    的头像 发表于 09-04 16:09 821次阅读
    如何加速<b class='flag-5'>生成</b>2 PyTorch<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>

    DDFM:首个使用扩散模型进行多模态图像融合的方法

    近来去噪扩散概率模型 Denoising diffusion probabilistic model (DDPM)在图像生成中获得很多进步,通过对一张noise-corrupted
    的头像 发表于 09-19 16:02 1579次阅读
    DDFM:首个使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>进行多模态<b class='flag-5'>图像</b>融合的方法

    基于DiAD扩散模型的多类异常检测工作

    现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近,扩散模型因其强大的生成能力而闻名,因此本文作者希望通过扩散
    的头像 发表于 01-08 14:55 423次阅读
    基于DiAD<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的多类异常检测工作