0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Imagen的工作原理解读

OpenCV学堂 来源:机器之心 作者:机器之心 2022-07-12 14:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文详细解读了 Imagen 的工作原理,分析并理解其高级组件以及它们之间的关联。

近年来,多模态学习受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些 AI 模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 先后推出的文本图像模型 DALL・E 和 DALL-E 2,以及英伟达的 GauGAN 和 GauGAN2。 谷歌也不甘落后,在 5 月底发布了自己的文本到图像模型 Imagen,看起来进一步拓展了字幕条件(caption-conditional)图像生成的边界。

b32d0fee-01a9-11ed-ba43-dac502259ad0.jpg

仅仅给出一个场景的描述,Imagen 就能生成高质量、高分辨率的图像,无论这种场景在现实世界中是否合乎逻辑。下图为 Imagen 文本生成图像的几个示例,在图像下方显示出了相应的字幕。

b3464a5e-01a9-11ed-ba43-dac502259ad0.png

这些令人印象深刻的生成图像不禁让人想了解:Imagen 到底是如何工作的呢? 近期,开发者讲师 Ryan O'Connor 在 AssemblyAI 博客撰写了一篇长文《How Imagen Actually Works》,详细解读了 Imagen 的工作原理,对 Imagen 进行了概览介绍,分析并理解其高级组件以及它们之间的关联。 Imagen 工作原理概览 在这部分,作者展示了 Imagen 的整体架构,并对其它的工作原理做了高级解读;然后依次更透彻地剖析了 Imagen 的每个组件。如下动图为 Imagen 的工作流程。

b39185c8-01a9-11ed-ba43-dac502259ad0.gif

首先,将字幕输入到文本编码器。该编码器将文本字幕转换成数值表示,后者将语义信息封装在文本中。Imagen 中的文本编码器是一个 Transformer 编码器,其确保文本编码能够理解字幕中的单词如何彼此关联,这里使用自注意力方法。 如果 Imagen 只关注单个单词而不是它们之间的关联,虽然可以获得能够捕获字幕各个元素的高质量图像,但描述这些图像时无法以恰当的方式反映字幕语义。如下图示例所示,如果不考虑单词之间的关联,就会产生截然不同的生成效果。

b4331db6-01a9-11ed-ba43-dac502259ad0.png

虽然文本编码器为 Imagen 的字幕输入生成了有用的表示,但仍需要设计一种方法生成使用这一表示的图像,也即图像生成器。为此,Imagen 使用了扩散模型,它是一种生成模型,近年来得益于其在多项任务上的 SOTA 性能而广受欢迎。 扩散模型通过添加噪声来破坏训练数据以实现训练,然后通过反转这个噪声过程来学习恢复数据。给定输入图像,扩散模型将在一系列时间步中迭代地利用高斯噪声破坏图像,最终留下高斯噪声或电视噪音静态(TV static)。下图为扩散模型的迭代噪声过程:

b4574542-01a9-11ed-ba43-dac502259ad0.png

然后,扩散模型将向后 work,学习如何在每个时间步上隔离和消除噪声,抵消刚刚发生的破坏过程。训练完成后,模型可以一分为二。这样可以从随机采样高斯噪声开始,使用扩散模型逐渐去噪以生成图像,具体如下图所示:

b475e02e-01a9-11ed-ba43-dac502259ad0.png

总之,经过训练的扩散模型从高斯噪声开始,然后迭代地生成与训练图像类似的图像。很明显的是,无法控制图像的实际输出,仅仅是将高斯噪声输入到模型中,并且它会输出一张看起来属于训练数据集的随机图像。 但是,目标是创建能够将输入到 Imagen 的字幕的语义信息封装起来的图像,因此需要一种将字幕合并到扩散过程中的方法。如何做到这一点呢? 上文提到文本编码器产生了有代表性的字幕编码,这种编码实际上是向量序列。为了将这一编码信息注入到扩散模型中,这些向量被聚合在一起,并在它们的基础上调整扩散模型。通过调整这一向量,扩散模型学习如何调整其去噪过程以生成与字幕匹配良好的图像。过程可视化图如下所示:

b4941b7a-01a9-11ed-ba43-dac502259ad0.gif

由于图像生成器或基础模型输出一个小的 64x64 图像,为了将这一模型上采样到最终的 1024x1024 版本,使用超分辨率模型智能地对图像进行上采样。 对于超分辨率模型,Imagen 再次使用了扩散模型。整体流程与基础模型基本相同,除了仅仅基于字幕编码调整外,还以正在上采样的更小图像来调整。整个过程的可视化图如下所示:

b4e6ab6a-01a9-11ed-ba43-dac502259ad0.gif

这个超分辨率模型的输出实际上并不是最终输出,而是一个中等大小的图像。为了将该图像放大到最终的 1024x1024 分辨率,又使用了另一个超分辨率模型。两个超分辨率架构大致相同,因此不再赘述。而第二个超分辨率模型的输出才是 Imagen 的最终输出。 为什么 Imagen 比 DALL-E 2 更好? 确切地回答为什么 Imagen 比 DALL-E 2 更好是困难的。然而,性能差距中不可忽视的一部分源于字幕以及提示差异。DALL-E 2 使用对比目标来确定文本编码与图像(本质上是 CLIP)的相关程度。文本和图像编码器调整它们的参数,使得相似的字幕 - 图像对的余弦相似度最大化,而不同的字幕 - 图像对的余弦相似度最小化。 性能差距的一个显著部分源于 Imagen 的文本编码器比 DALL-E 2 的文本编码器大得多,并且接受了更多数据的训练。作为这一假设的证据,我们可以在文本编码器扩展时检查 Imagen 的性能。下面为 Imagen 性能的帕累托曲线:

b5257a98-01a9-11ed-ba43-dac502259ad0.png

放大文本编码器的效果高得惊人,而放大 U-Net 的效果却低得惊人。这一结果表明,相对简单的扩散模型只要以强大的编码为条件,就可以产生高质量的结果。 鉴于 T5 文本编码器比 CLIP 文本编码器大得多,再加上自然语言训练数据必然比图像 - 字幕对更丰富这一事实,大部分性能差距可能归因于这种差异。 除此以外,作者还列出了 Imagen 的几个关键要点,包括以下内容:

扩展文本编码器是非常有效的;

扩展文本编码器比扩展 U-Net 大小更重要;

动态阈值至关重要;

噪声条件增强在超分辨率模型中至关重要;

将交叉注意用于文本条件反射至关重要;

高效的 U-Net 至关重要。

这些见解为正在研究扩散模型的研究人员提供了有价值的方向,而不是只在文本到图像的子领域有用。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    4008

    浏览量

    143305
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42435
  • 生成器
    +关注

    关注

    7

    文章

    322

    浏览量

    22791

原文标题:扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ADF4108 PLL频率合成器:特性、应用与工作原理解

    ADF4108 PLL频率合成器:特性、应用与工作原理解析 在电子工程领域,频率合成器是许多无线通信和仪器系统中不可或缺的关键组件。ADF4108作为一款高性能的PLL(锁相环)频率合成器,以其出色
    的头像 发表于 04-20 11:20 112次阅读

    位移计工作原理解析:如何测量结构物位移?

    肉眼难以察觉的结构变化的呢?其工作原理的核心在于“振弦”技术。仪器内部设有一根高强度钢弦,它被预先张紧,如同琴弦一般,以一个稳定的基准频率振动。当被测结构物发生位移
    的头像 发表于 12-18 14:52 991次阅读
    位移计<b class='flag-5'>工作原理解</b>析:如何测量结构物位移?

    液体高低频介电常数测试仪的工作原理与信号解析

    液体高低频介电常数测试仪的核心功能,是通过精准捕捉信号与样品的相互作用,解读液体的介电特性,其工作逻辑围绕“信号发射 - 相互作用 - 信号解析” 的完整链条展开,无需复杂参数即可理解其核心运作机制
    的头像 发表于 12-15 09:09 597次阅读
    液体高低频介电常数测试仪的<b class='flag-5'>工作原理</b>与信号解析

    无线充电器的工作原理核心

    无线充电器的工作原理核心
    的头像 发表于 12-06 10:19 1837次阅读
    无线充电器的<b class='flag-5'>工作原理</b>核心

    信号发生器的构成和工作原理

    信号发生器作为现代电子测试与测量领域中的关键设备,其精密的构造和巧妙的工作原理使之能够产生各种所需的电信号。本文将深入探讨信号发生器的构成及其工作原理,以帮助读者更好地理解这一重要电子设备
    的头像 发表于 11-13 11:45 539次阅读
    信号发生器的构成和<b class='flag-5'>工作原理</b>

    超景深显微镜的工作原理与测试影响因素

    在微观检测领域,传统显微镜常受限于景深较短的问题,难以同时清晰呈现样品不同深度的结构细节,而超景深显微镜凭借独特的技术优势,有效突破这一局限,广泛应用于材料科学、电子制造等领域。深入理解工作原理
    的头像 发表于 10-09 18:02 839次阅读
    超景深显微镜的<b class='flag-5'>工作原理</b>与测试影响因素

    从底层解读labview的TDMS高级异步写入的工作原理

    所有数据已写入磁盘时,记得调用 TDMS Close File 或 TDMS Flush 函数,因为缓冲区中的数据可能尚未完全写入磁盘。 异步写入会增加内存开销(用于缓冲区)。 希望这个解释能帮你清晰理解 LabVIEW TDMS 高级异步写入的含义和工作原理
    发表于 08-14 17:05

    高压清洗机的工作原理是什么?

    欢迎。那么,您是否了解高压清洗机的工作原理是什么呢?科伟达作为高压清洗机的领先品牌,本文将带您深度解析其工作原理,帮助您更好地理解和使用这种设备。高压清洗机的技术原
    的头像 发表于 07-18 16:39 1963次阅读
    高压清洗机的<b class='flag-5'>工作原理</b>是什么?

    解密SMA接头:工作原理与技术特性深度解读

    正是凭借这些卓越的工作原理和技术特性,德索精密工业的SMA接头在通信基站的天线连接、雷达系统的信号传输,以及实验室的测试测量设备等场景中,都能稳定可靠地完成信号传输任务。随着科技的不断进步,德索精密工业也在持续对SMA接头进行优化和创新,未来将推出更多高性能产品,在更多领域发挥更大的作用。
    的头像 发表于 06-27 11:06 1427次阅读
    解密SMA接头:<b class='flag-5'>工作原理</b>与技术特性深度<b class='flag-5'>解读</b>

    管道浮力平衡压袋(配重压袋)工作原理

    管道浮力平衡压袋(配重压袋)工作原理
    发表于 06-12 15:09 0次下载

    FLASH的工作原理与应用

    14FLASHFLASH的工作原理与应用OWEIS1什么是FLASH?Flash闪存是一种非易失性半导体存储器,它结合了ROM(只读存储器)和RAM(随机访问存储器)的优点,具有电子可擦除和可编程
    的头像 发表于 05-27 13:10 2360次阅读
    FLASH的<b class='flag-5'>工作原理</b>与应用

    GPIO配置的工作原理是什么?

    我使用 EZ-USB 配置实用程序,我想知道是否有人知道 GPIO 配置的工作原理。 例如,GPIO0 可以用作传感器复位,我知道这个 GPIO0 用于重置传感器,但我不明白的是选项用户 GPIO 例如GPIO 1可以是User GPIO0,这是什么意思呢?
    发表于 05-19 06:56

    Gemini API集成Google图像生成模型Imagen 3

    开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放,不久后也将面向免费用户推出。
    的头像 发表于 05-14 16:53 1434次阅读

    电动调压器的工作原理

    电压调压器是一种用于控制电路中电压的装置,其工作原理因类型而异,以下是几种常见电压调压器的工作原理
    的头像 发表于 05-12 13:46 1600次阅读
    电动调压器的<b class='flag-5'>工作原理</b>

    解读手机后壳气密性检测仪的工作原理与应用

    解读。手机后壳气密性检测仪主要基于压力衰减原理进行工作。具体来说,就是通过向被测手机后壳内部充入一定压力的气体(通常是空气或惰性气体),然后关闭充气通道,使被测腔体
    的头像 发表于 04-30 17:14 1324次阅读
    <b class='flag-5'>解读</b>手机后壳气密性检测仪的<b class='flag-5'>工作原理</b>与应用