0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习中如何使用扩散模型产生高保真度图像

硬件三人行 来源:TensorFlow 作者:Chitwan Saharia、Jon 2021-08-24 09:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

发布人:Google Research Brain 团队研究员 Jonathan Ho 和软件工程师 Chitwan Saharia

自然图像合成是范围很广的一类机器学习 (ML) 任务,会面临各种类型的应用所带来的许多设计挑战。其中之一就是图像超分辨率,即训练一个模型来将低分辨率的图像,转换为细节丰富的高分辨率图像(例如 RAISR)。超分辨率的应用有很多,从恢复古旧的家族画像,到改善医疗成像系统 (Super-resolution imaging),均有涉猎。另一个类似的图像合成任务是类条件下的图像生成,即训练一个模型,并根据输入的类别标签生成样本图像。最终生成的样本图像可用于提高图像分类、分割等下游模型的性能。例如,GAN 经常受到不稳定的训练和模式崩溃的影响,而自回归模型通常受到合成速度慢的影响。

RAISR

https://ai.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html

一般来说,这些图像合成任务由深度生成模型完成,如 GAN、VAE,以及自回归模型。然而,通过训练让这些模型在困难的高分辨率数据集上,合成高质量的样本时,它们的表现均有不足。例如,GAN 经常受到不稳定的训练和模式崩溃的影响,而自回归模型通常受到合成速度慢的影响。

GAN

https://arxiv.org/abs/1406.2661

VAE

https://arxiv.org/abs/1312.6114

自回归模型

https://arxiv.org/abs/1601.06759

但是,2015 年首次提出的扩散模型 (Diffusion Model) 由于其训练的稳定性及在图像和音频生成方面的样本质量结果很有潜力,最近又重新引起了关注。因此,与其他类型的深度生成模型相比,此模型在得失方面有了不错的权衡。扩散模型的工作原理是通过逐步添加高斯噪声来破坏训练数据,慢慢抹去数据中的细节,直到变成纯噪声。然后再训练一个神经网络来逆转这个破坏过程。运行这个反向破坏过程,可以通过逐渐去噪,来从纯噪声中合成数据,直到产生一个干净的样本。这个合成过程可以被解释为一种优化算法,会按照数据密度的梯度来产生可能的样本。

扩散模型

https://arxiv.org/abs/1503.03585

可以被解释为

https://arxiv.org/abs/2006.11239

按照数据密度的梯度

https://arxiv.org/abs/1907.05600

今天,我们会介绍两种相互联系的方法。它们将推动扩散模型的图像合成质量界限,即通过重复优化获得的超级分辨率 (SR3) 和用于类条件合成的模型,此模型又名为级联扩散模型 (CDM)。经证明,通过扩大扩散模型的规模以及精心选择的数据增强技术,我们可以取得比现有方法更出色的结果。具体来说,SR3 可以实现强大的图像超分辨率结果,在人工评估方面的表现优于 GAN。CDM 生成的高保真 ImageNet 样本在 FID 得分 (Fréchet inception distance) 和分类准确率得分上都大大超过了 BigGAN-deep 和 VQ-VAE2。

分类准确率得分

https://arxiv.org/abs/1905.10887

BigGAN-deep

https://arxiv.org/abs/1809.11096

VQ-VAE2

https://arxiv.org/abs/1906.00446

SR3:图像超分辨率

SR3 是一个超分辨率扩散模型,它通过输入低分辨率图像,从纯噪声中构建相应的高分辨率图像。该模型利用图像破坏过程为训练对象,在这个过程中,噪声被逐步添加到高分辨率图像中,直到只剩下纯噪声为止。然后,它将逆转这一过程,从纯噪声开始,逐步去除噪声,再通过指导输入的低分辨率图像,达到目标分布。

SR3

http://iterative-refinement.github.io

通过大规模的训练,在扩缩到所输入低分辨率图像的 4-8 倍时,SR3 在人脸和自然图像的超分辨率任务中取得了强大的基准结果。这些超分辨率模型可以进一步级联起来,增加有效的超分辨率缩放系数,例如,通过将 64x64→256x256 和 256x256→1024x1024 的人脸超分辨率模型堆叠在一起,来执行 64x64→1024x1024 的超分辨率任务。

以人工评估研究为例,我们比较了 SR3 与现有方法。通过开展双选项必选实验 (Two-alternative forced choice),我们要求受访者在引用的高分辨率图像和模型输出之间做出选择,并回答问题(猜一猜哪张图像是摄像机拍摄的?)。我们通过混淆率(评分者选择模型输出而不是参考图像的次数百分比,一个完美的算法能够达到 50% 的混淆率)来衡量模型的性能。这项研究的结果如下图所示。

上:我们在 16x16→128x128 的人脸任务中实现了接近 50% 的混淆率,优于一流的人脸超分辨率方法 PULSE 和 FSRGAN。下:在 64x64 → 256x256 的自然图像这个更困难的任务中,我们也达到了 40% 的混淆率,表现水准远超回归基线

PULSE

https://arxiv.org/abs/2003.03808

FSRGAN

https://arxiv.org/abs/1711.10703

CDM:类条件 ImageNet 生成

在展示了 SR3 处理自然图像超分辨率方面的有效性之后,我们便更进一步——将这些 SR3 模型用于类条件图像生成。CDM 是利用 ImageNet 数据训练的类条件扩散模型,可以生成高分辨率的自然图像。由于 ImageNet 是一个困难的高熵数据集,我们将 CDM 构建为多个扩散模型的级联。这种级联方法会将多个空间分辨率的生成模型串联起来:一个扩散模型以低分辨率生成数据,搭配一连串的 SR3 超分辨率扩散模型,生成图像的分辨率逐渐提高到最高。众所周知,级联可以改善高分辨率数据的质量和训练速度,这一点在以前的研究(例如自回归模型和 VQ-VAE-2)以及同时进行的扩散模型研究中都有所体现。正如以下定量结果所证明的那样,CDM 进一步突出了级联在扩散模型中对样本质量的有效性和对下游任务(如图像分类)的有用性。

级联流水线的示例,其中包括一系列扩散模型:第一个模型用于生成低分辨率的图像,然后其余的模型负责执行上采样,以最终生成高分辨率的图像。此为用于生成类条件 ImageNet 的流水线,以 32x32 分辨率的类条件扩散模型开始,然后是使用 SR3 的 2 倍和 4 倍的类条件超分辨率

从我们的 256x256 级联类条件 ImageNet 模型中选择的生成图像

同时进行

https://arxiv.org/abs/2102.09672

研究

https://arxiv.org/abs/2105.05233

将 SR3 模型纳入级联流水线的同时,我们还引入了一种新的数据增强技术,称之为 “条件增强”,它可以进一步优化 CDM 的样本质量结果。虽然 CDM 中的超分辨率模型利用数据集中的原始图像训练而成,但在生成过程中,它们需要以超分辨率对低分辨率基础模型生成的图像进行处理,而这些图像与原始图像相比,质量可能不够高。这就导致了超分辨率模型的训练和测试水平不对等。条件增强是指对级联流水线中每个超分辨率模型的低分辨率输入图像进行数据增强。在我们的研究中,这些增强包括高斯噪声和高斯模糊,防止各个超分辨率模型对其低分辨率的条件输入过度拟合,最终让 CDM 得到更好的高分辨率样本质量。

总的来说,CDM 生成的高保真样本在类条件 ImageNet 生成的 FID 得分和分类准确率得分方面都优于 BigGAN-deep 和 VQ-VAE-2。不同于 ADM 和 VQ-VAE-2 等其他模型,CDM 是一个纯粹的生成模型,不会使用分类器来提高样本质量。有关样本质量的定量结果如下所示。

就不使用额外分类器来提高样本质量的方法而言,类条件 ImageNet FID 在 256x256 分辨率下的得分。BigGAN-deep 的分数记录自其在最佳截断值时的表现(数值越低越好)

ImageNet 分类准确率在 256x256 分辨率下的得分,用以衡量利用生成数据训练的分类器的验证集准确率。与现有的方法相比,使用 CDM 生成的数据取得了明显的进步,缩小了真实数据和生成数据之间的分类准确率的差距(数值越高越好)

结论

在 SR3 和 CDM 的助力下,我们已经将扩散模型的性能提升到了超分辨率和类条件 ImageNet 生成基准的一流水平。我们很高兴能进一步探索扩散模型在各种生成性建模问题上的极限。有关我们研究的更多信息,请参阅通过迭代优化实现图像超分辨和用于生成高保真图像的级联扩散模型。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42163
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236

原文标题:用扩散模型生成高保真度图像

文章出处:【微信号:yingjiansanrenxing,微信公众号:硬件三人行】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    免费获取 | SimData高保真虚拟数据集开源发布,兼容nuScenes,开箱即用!

    的关键瓶颈。在此背景下,基于高保真仿真技术构建的SimData自动驾驶虚拟数据集,以“低成本、高保真、场景全”的核心优势,为行业提供了高效的解决方案。为此,康谋依托自
    的头像 发表于 12-09 17:32 20次阅读
    免费获取 | SimData<b class='flag-5'>高保真</b>虚拟数据集开源发布,兼容nuScenes,开箱即用!

    功放IC搭配的升压芯片选型指南:为何H6801更适合高保真功放系统?

    不同功放IC的信号电平与通信协议,显著简化外围电路设计。 通过优化驱动时序与抗干扰设计,H6801在车载音频系统、专业音响设备及高保真家庭影院等场景,能够稳定适配各类功放方案,降低系统调试复杂,确保信号
    发表于 09-04 16:39

    功放IC搭配的升压芯片选型指南:为何H6922更适合高保真功放系统?

    匹配不同功放IC的信号电平与通信协议,显著简化外围电路设计。 通过优化驱动时序与抗干扰设计,H6922在车载音频系统、专业音响设备及高保真家庭影院等场景,能够稳定适配各类功放方案,降低系统调试复杂
    发表于 09-04 09:59

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文
    发表于 07-31 11:38

    FPGA在机器学习的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 2640次阅读

    LME49600 单通道、110MHz、高保真、高电流耳机缓冲器技术手册

    LME49600是一款高性能、低失真、高保真度的250mA音频缓冲器。LME49600专为广泛的应用而设计。它可以在运算放大器的反馈回路中使用。
    的头像 发表于 05-20 09:45 1312次阅读
    LME49600 单通道、110MHz、<b class='flag-5'>高保真</b>、高电流耳机缓冲器技术手册

    DiffusionDrive首次在端到端自动驾驶引入扩散模型

    多样性是提升自动驾驶鲁棒性和安全性的关键,但现有方法往往受限于单一轨迹回归或固定锚点采样,难以全面建模驾驶决策空间。 扩散模型 (Diffusion Model) 凭借强大的多模态建模能力,已在机器人决策
    的头像 发表于 03-08 13:59 1475次阅读
    DiffusionDrive首次在端到端自动驾驶<b class='flag-5'>中</b>引入<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习
    的头像 发表于 02-13 09:39 627次阅读

    xgboost在图像分类的应用

    和易用性,在各种机器学习任务得到了广泛应用,包括分类、回归和排序问题。在图像分类领域,尽管深度学习模型
    的头像 发表于 01-19 11:16 1574次阅读

    基于移动自回归的时序扩散预测模型

    在人工智能领域,目前有很多工作采用自回归方法来模拟或是替代扩散模型,其中视觉自回归建模(Visual AutoRegressive modeling,简称 VAR)就是其中的典型代表,该工作利用自
    的头像 发表于 01-03 14:05 1650次阅读
    基于移动自回归的时序<b class='flag-5'>扩散</b>预测<b class='flag-5'>模型</b>

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    的设计不仅提高了机器人对环境的理解能力,还使其能够更精准地执行复杂任务。 扩散模型的新思路 除了大模型扩散
    发表于 12-29 23:04

    韩国NF功放:高性能、高保真,提供不同音频解决方案

    在音频领域中一款好的功放IC能为音响系统带来出色音质,韩国NF功放系列产品凭借其先进的数字信号处理技术和高保真音频放大能力,在业界享有盛誉;内置DSP功能精确处理和调整音频信号,为用户带来真实、震撼的音乐体验。
    的头像 发表于 12-29 10:06 1095次阅读

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    医疗领域,手术辅助机器人需要毫米级的精确控制,书中有介绍基于视觉伺服的实时控制算法,以及如何利用大模型优化手术路径规划。工业场景,协作机器人面临的主要挑战是快速适应新工艺流程。具身智
    发表于 12-24 15:03

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    1、简介 人工智能图像识别是人工智能领域的一个重要分支,它涉及计算机视觉、深度学习机器学习等多个领域的知识和技术。图像识别主要是处理具有一
    发表于 12-19 14:33

    cmp在机器学习的作用 如何使用cmp进行数据对比

    机器学习领域,"cmp"这个术语可能并不是一个常见的术语,它可能是指"比较"(comparison)的缩写。 比较在机器学习的作用
    的头像 发表于 12-17 09:35 1328次阅读