0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何改进和加速扩散模型采样的方法1

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-05-07 14:25 次阅读

这是一系列关于 NVIDIA 研究人员如何改进和加速扩散模型采样的方法的一部分,扩散模型是一种新颖而强大的生成模型。 Part 2 介绍了克服扩散模型中缓慢采样挑战的三种新技术。

生成模型是一类机器学习方法,它可以学习所训练数据的表示形式,并对数据本身进行建模。它们通常基于深层神经网络。相比之下,判别模型通常预测给定数据的单独数量。

生成模型允许您合成与真实数据不同但看起来同样真实的新数据。设计师可以在汽车图像上训练生成性模型,然后让生成性人工智能计算出具有不同外观的新颖汽车,从而加速艺术原型制作过程。

深度生成学习已成为机器学习领域的一个重要研究领域,并有许多相关应用。生成模型广泛用于图像合成和各种图像处理任务,如编辑、修复、着色、去模糊和超分辨率。

生成性模型有可能简化摄影师和数字艺术家的工作流程,并实现新水平的创造力。类似地,它们可能允许内容创建者高效地为游戏、动画电影或 metaverse 生成虚拟 3D 内容。

基于深度学习的语音和语言合成已经进入消费品领域。医学和医疗保健等领域也可能受益于生成性模型,例如生成对抗疾病的分子候选药物的方法。

当神经网络被用于不同的生成性学习任务时,尤其是对于不同的生成性学习任务,神经网络和神经网络也可以被用于合成。

生成性学习三位一体

为了在实际应用中得到广泛采用,生成模型在理想情况下应满足以下关键要求:

High-quality sampling :许多应用程序,尤其是那些直接与用户交互的应用程序,需要高生成质量。例如,在语音生成中,语音质量差是很难理解的。类似地,在图像建模中,期望的输出在视觉上与自然图像无法区分。

模式覆盖和样本多样性 :如果训练数据包含复杂或大量的多样性,一个好的生成模型应该在不牺牲生成质量的情况下成功捕获这种多样性。

快速且计算成本低廉的采样 :许多交互式应用程序需要快速生成,例如实时图像编辑。

虽然目前大多数深层生成性学习方法都注重高质量的生成,但第二和第三个要求也非常重要。

忠实地表示数据的多样性对于避免数据分布中遗漏少数模式至关重要。这有助于减少学习模型中不希望出现的偏差。

另一方面,在许多应用程序中,数据分布的长尾巴特别有趣。例如,在交通建模中,人们感兴趣的正是罕见的场景,即与危险驾驶或事故相对应的场景。

降低计算复杂度和采样时间不仅可以实现交互式实时应用。它还通过降低发电所需的总功率使用量,减少了运行昂贵的深层神经网络(发电模型的基础)所造成的环境足迹。

在本文中,我们将这三个需求带来的挑战定义为 生成性学习三位一体 ,因为现有方法通常会做出权衡,无法同时满足所有需求。

pYYBAGJ2ENyAeWg5AAEcsXtThOM930.png

图 1 生成性学习三位一体

基于扩散模型的生成性学习

最近,扩散模型已经成为一种强大的生成性学习方法。这些模型,也被称为去噪扩散模型或基于分数的生成模型,表现出惊人的高样本质量,通常优于生成性对抗网络。它们还具有强大的模式覆盖和样本多样性。

扩散模型已经应用于各种生成任务,如图像、语音、三维形状和图形合成。

扩散模型包括两个过程:正向扩散和参数化反向扩散。

前向扩散过程通过逐渐扰动输入数据将数据映射为噪声。这是通过一个简单的随机过程正式实现的,该过程从数据样本开始,使用简单的高斯扩散核迭代生成噪声较大的样本。也就是说,在这个过程的每一步,高斯噪声都会逐渐添加到数据中。

第二个过程是一个参数化的反向过程,取消正向扩散并执行迭代去噪。这个过程代表数据合成,并经过训练,通过将随机噪声转换为真实数据来生成数据。它也被正式定义为一个随机过程,使用可训练的深度神经网络对输入图像进行迭代去噪。

正向和反向过程通常使用数千个步骤来逐步注入噪声,并在生成过程中进行去噪。

poYBAGJ2EN2AMQOEAAEBEFupDWg453.png

图 2 扩散模型处理数据和噪声之间的移动

图 2 显示,在扩散模型中,固定前向过程以逐步方式逐渐扰动数据,使其接近完全随机噪声。学习一个参数化的反向过程来执行迭代去噪,并从噪声中生成数据,如图像。

在形式上,通过x0表示一个数据点,例如图像,通过xt表示时间步长t的扩散版本,正向过程由以下公式定义:

虽然离散时间扩散模型和连续时间扩散模型看起来可能不同,但它们有一个几乎相同的生成过程。事实上,很容易证明离散时间扩散模型是连续时间模型的特殊离散化。

在实践中使用连续时间扩散模型基本上要容易得多:

它们更通用,可以通过简单的时间离散化转换为离散时间模型。

它们是用 SDE 描述的, SDE 在各个科学领域都得到了很好的研究。

生成性 SDE 可以使用现成的数值 SDE 解算器进行求解。

它们可以转换为相关的常微分方程( ODE ),这些方程也得到了很好的研究,并且易于使用。

如前所述,扩散模型通过遵循反向扩散过程生成样本,该过程将简单的基本分布(通常为高斯分布)映射到复杂的数据分布。在生成 SDE 表示的连续时间扩散模型中,由于神经网络逼近分数函数

latex.php?latex=%5Cnabla_%7Bx_%7Bt%7D%7D%5Clog+p_%7Bt%7D%28x_%7Bt%7D%29&bg=ffffff&fg=000&s=0&c=20201002

,这种映射通常很复杂。

用数值积分技术解决这个问题需要调用 1000 次深层神经网络来生成样本。正因为如此,扩散模型在生成样本时通常很慢,需要几分钟甚至几小时的计算时间。这与生成性对抗网络( GANs )等竞争性技术形成了鲜明对比,后者只需对神经网络进行一次调用即可生成样本。

总结

尽管扩散模型实现了较高的样本质量和多样性,但不幸的是,它们在采样速度方面存在不足。这限制了扩散模型在实际应用中的广泛采用,并导致了从这些模型加速采样的研究领域的活跃。在 Part 2 中,我们回顾了 NVIDIA 为克服扩散模型的主要局限性而开发的三种技术。

关于作者

Arash Vahdat 是 NVIDIA research 的首席研究科学家,专攻计算机视觉和机器学习。在加入 NVIDIA 之前,他是 D-Wave 系统公司的研究科学家,从事深度生成学习和弱监督学习。在 D-Wave 之前,阿拉什是西蒙·弗雷泽大学( Simon Fraser University , SFU )的一名研究人员,他领导了深度视频分析的研究,并教授大数据机器学习的研究生课程。阿拉什在格雷格·莫里( Greg Mori )的指导下获得了 SFU 的博士和理学硕士学位,致力于视觉分析的潜变量框架。他目前的研究领域包括深层生成学习、表征学习、高效神经网络和概率深层学习。

Karsten Kreis 是 NVIDIA 多伦多人工智能实验室的高级研究科学家。在加入 NVIDIA 之前,他在 D-Wave Systems 从事深度生成建模工作,并与他人共同创立了变分人工智能,这是一家利用生成模型进行药物发现的初创公司。卡斯滕在马克斯·普朗克光科学研究所获得量子信息理论理学硕士学位,并在马克斯·普朗克聚合物研究所获得计算和统计物理博士学位。目前,卡斯滕的研究重点是开发新的生成性学习方法,以及将深层生成模型应用于计算机视觉、图形和数字艺术等领域的问题。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4597

    浏览量

    101750
  • 人工智能
    +关注

    关注

    1776

    文章

    43888

    浏览量

    230633
收藏 人收藏

    评论

    相关推荐

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构,旨在实现视频生成的一次性完成,同时保证视频的真实性和动作连贯性。
    的头像 发表于 02-04 13:49 594次阅读

    加速度传感器的基本力学模型是什么

    和加速度之间的关系。假设加速度传感器的初始位置为xo,速度为vo,加速度为ao。运动学模型可以根据传感器所处的不同运动状态而分为直线运动和曲线运动两种情况。 直线运动 设时间t时刻传感
    的头像 发表于 01-17 11:08 365次阅读

    基于DiAD扩散模型的多类异常检测工作

    现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近,扩散模型因其强大的生成能力而闻名,因此本文作者希望通过扩散模型将异常区域重构成正常。
    的头像 发表于 01-08 14:55 423次阅读
    基于DiAD<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的多类异常检测工作

    ADXL357测量温度和加速度,需要配置哪些寄存器,配置寄存器的值为多少?

    ADXL357测量温度和加速度,需要配置哪些寄存器,配置寄存器的值为多少
    发表于 12-29 06:23

    stm32ADXL357能读取传感器的ID号,但是读温度和加速度寄存器值一直为0如何解决?

    stm32f407用SPI读取ADXL357传感器的加速度值,能读到设备ID号,但是读温度和加速度的寄存器一直为0,有没有遇到这种情况的,如何解决呢?
    发表于 12-29 06:21

    如何在PyTorch中使用扩散模型生成图像

    除了顶尖的图像质量,扩散模型还带来了许多其他好处,包括不需要对抗性训练。对抗训练的困难是有据可查的。在训练效率的话题上,扩散模型还具有可伸缩性和并行性的额外好处。
    发表于 11-22 15:51 336次阅读
    如何在PyTorch中使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>生成图像

    位移、速度和加速度与阻抗参数之间的关系

    在运动中,位移、速度和加速度与阻抗(惯性、阻尼、刚度)之间存在一定的关系。阻抗控制是一种控制方法,旨在通过调节阻抗参数来实现所需的运动特性。下面是位移、速度和加速度与阻抗参数之间的关系: 1. 位移
    的头像 发表于 11-09 16:36 820次阅读
    位移、速度<b class='flag-5'>和加速</b>度与阻抗参数之间的关系

    简化和加速部署承运人聚合

    简化和加速部署承运人聚合
    的头像 发表于 09-27 14:49 182次阅读
    简化<b class='flag-5'>和加速</b>部署承运人聚合

    DDFM:首个使用扩散模型进行多模态图像融合的方法

    近来去噪扩散概率模型 Denoising diffusion probabilistic model (DDPM)在图像生成中获得很多进步,通过对一张noise-corrupted图像恢复为干净图像的扩散过程进行建模, 可以生成
    的头像 发表于 09-19 16:02 1578次阅读
    DDFM:首个使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>进行多模态图像融合的<b class='flag-5'>方法</b>

    基于角度域任意功率谱PDF的基函数采样近似拟合算法

    下具有很好的拟合度,详细讨论了大角度扩展模型中的基函数采样数目和加权系数的选取依据及其拟合精度。结果表明,文中所提计算方法可准确地拟合对MIMO多天线系统分析时的适用性和计算效率,能降
    发表于 09-19 07:53

    CLE Diffusion:可控光照增强扩散模型

    本文提出了新型的可控光照增强框架,主要采用了条件扩散模型来控制任意区域的任意亮度增强。通过亮度控制模块(Brightness Control Module)将亮度信息信息融入Diffusion网络中,并且设计了和任务适配的条件控制信息和损失函数来增强
    的头像 发表于 09-11 17:20 474次阅读
    CLE Diffusion:可控光照增强<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>

    如何加速生成2 PyTorch扩散模型

    加速生成2 PyTorch扩散模型
    的头像 发表于 09-04 16:09 821次阅读
    如何<b class='flag-5'>加速</b>生成2 PyTorch<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>

    异步电机的改进型电压模型磁链观测器介绍

    导读:本期文章主要介绍异步电机的改进型电压模型磁链观测器。传统纯积分形式的积分器在低速区域存在初始值问题和直流偏置问题,所以在实际应用中必须对电压模型进行改进。本期文章中的对电压
    的头像 发表于 08-19 16:00 708次阅读
    异步电机的<b class='flag-5'>改进</b>型电压<b class='flag-5'>模型</b>磁链观测器介绍

    Intel媒体加速器参考软件用户指南

    英特尔媒体加速器参考软件是用于数字标志、交互式白板(IWBs)和亭位使用模型的参考媒体播放器应用软件,它利用固定功能硬件加速来提高媒体流速、改进工作量平衡和资源利用,以及定制的图形处理
    发表于 08-04 07:07

    基于扩散模型的图像生成过程

    近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。 不过仅凭文本来控制图像的生成往往得不到想要的结果,比如具体的人物姿势、面部表情
    的头像 发表于 07-17 11:00 2110次阅读
    基于<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的图像生成过程