0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Imagen的工作原理解读

OpenCV学堂 来源:机器之心 作者:机器之心 2022-07-12 14:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文详细解读了 Imagen 的工作原理,分析并理解其高级组件以及它们之间的关联。

近年来,多模态学习受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些 AI 模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 先后推出的文本图像模型 DALL・E 和 DALL-E 2,以及英伟达的 GauGAN 和 GauGAN2。 谷歌也不甘落后,在 5 月底发布了自己的文本到图像模型 Imagen,看起来进一步拓展了字幕条件(caption-conditional)图像生成的边界。

b32d0fee-01a9-11ed-ba43-dac502259ad0.jpg

仅仅给出一个场景的描述,Imagen 就能生成高质量、高分辨率的图像,无论这种场景在现实世界中是否合乎逻辑。下图为 Imagen 文本生成图像的几个示例,在图像下方显示出了相应的字幕。

b3464a5e-01a9-11ed-ba43-dac502259ad0.png

这些令人印象深刻的生成图像不禁让人想了解:Imagen 到底是如何工作的呢? 近期,开发者讲师 Ryan O'Connor 在 AssemblyAI 博客撰写了一篇长文《How Imagen Actually Works》,详细解读了 Imagen 的工作原理,对 Imagen 进行了概览介绍,分析并理解其高级组件以及它们之间的关联。 Imagen 工作原理概览 在这部分,作者展示了 Imagen 的整体架构,并对其它的工作原理做了高级解读;然后依次更透彻地剖析了 Imagen 的每个组件。如下动图为 Imagen 的工作流程。

b39185c8-01a9-11ed-ba43-dac502259ad0.gif

首先,将字幕输入到文本编码器。该编码器将文本字幕转换成数值表示,后者将语义信息封装在文本中。Imagen 中的文本编码器是一个 Transformer 编码器,其确保文本编码能够理解字幕中的单词如何彼此关联,这里使用自注意力方法。 如果 Imagen 只关注单个单词而不是它们之间的关联,虽然可以获得能够捕获字幕各个元素的高质量图像,但描述这些图像时无法以恰当的方式反映字幕语义。如下图示例所示,如果不考虑单词之间的关联,就会产生截然不同的生成效果。

b4331db6-01a9-11ed-ba43-dac502259ad0.png

虽然文本编码器为 Imagen 的字幕输入生成了有用的表示,但仍需要设计一种方法生成使用这一表示的图像,也即图像生成器。为此,Imagen 使用了扩散模型,它是一种生成模型,近年来得益于其在多项任务上的 SOTA 性能而广受欢迎。 扩散模型通过添加噪声来破坏训练数据以实现训练,然后通过反转这个噪声过程来学习恢复数据。给定输入图像,扩散模型将在一系列时间步中迭代地利用高斯噪声破坏图像,最终留下高斯噪声或电视噪音静态(TV static)。下图为扩散模型的迭代噪声过程:

b4574542-01a9-11ed-ba43-dac502259ad0.png

然后,扩散模型将向后 work,学习如何在每个时间步上隔离和消除噪声,抵消刚刚发生的破坏过程。训练完成后,模型可以一分为二。这样可以从随机采样高斯噪声开始,使用扩散模型逐渐去噪以生成图像,具体如下图所示:

b475e02e-01a9-11ed-ba43-dac502259ad0.png

总之,经过训练的扩散模型从高斯噪声开始,然后迭代地生成与训练图像类似的图像。很明显的是,无法控制图像的实际输出,仅仅是将高斯噪声输入到模型中,并且它会输出一张看起来属于训练数据集的随机图像。 但是,目标是创建能够将输入到 Imagen 的字幕的语义信息封装起来的图像,因此需要一种将字幕合并到扩散过程中的方法。如何做到这一点呢? 上文提到文本编码器产生了有代表性的字幕编码,这种编码实际上是向量序列。为了将这一编码信息注入到扩散模型中,这些向量被聚合在一起,并在它们的基础上调整扩散模型。通过调整这一向量,扩散模型学习如何调整其去噪过程以生成与字幕匹配良好的图像。过程可视化图如下所示:

b4941b7a-01a9-11ed-ba43-dac502259ad0.gif

由于图像生成器或基础模型输出一个小的 64x64 图像,为了将这一模型上采样到最终的 1024x1024 版本,使用超分辨率模型智能地对图像进行上采样。 对于超分辨率模型,Imagen 再次使用了扩散模型。整体流程与基础模型基本相同,除了仅仅基于字幕编码调整外,还以正在上采样的更小图像来调整。整个过程的可视化图如下所示:

b4e6ab6a-01a9-11ed-ba43-dac502259ad0.gif

这个超分辨率模型的输出实际上并不是最终输出,而是一个中等大小的图像。为了将该图像放大到最终的 1024x1024 分辨率,又使用了另一个超分辨率模型。两个超分辨率架构大致相同,因此不再赘述。而第二个超分辨率模型的输出才是 Imagen 的最终输出。 为什么 Imagen 比 DALL-E 2 更好? 确切地回答为什么 Imagen 比 DALL-E 2 更好是困难的。然而,性能差距中不可忽视的一部分源于字幕以及提示差异。DALL-E 2 使用对比目标来确定文本编码与图像(本质上是 CLIP)的相关程度。文本和图像编码器调整它们的参数,使得相似的字幕 - 图像对的余弦相似度最大化,而不同的字幕 - 图像对的余弦相似度最小化。 性能差距的一个显著部分源于 Imagen 的文本编码器比 DALL-E 2 的文本编码器大得多,并且接受了更多数据的训练。作为这一假设的证据,我们可以在文本编码器扩展时检查 Imagen 的性能。下面为 Imagen 性能的帕累托曲线:

b5257a98-01a9-11ed-ba43-dac502259ad0.png

放大文本编码器的效果高得惊人,而放大 U-Net 的效果却低得惊人。这一结果表明,相对简单的扩散模型只要以强大的编码为条件,就可以产生高质量的结果。 鉴于 T5 文本编码器比 CLIP 文本编码器大得多,再加上自然语言训练数据必然比图像 - 字幕对更丰富这一事实,大部分性能差距可能归因于这种差异。 除此以外,作者还列出了 Imagen 的几个关键要点,包括以下内容:

扩展文本编码器是非常有效的;

扩展文本编码器比扩展 U-Net 大小更重要;

动态阈值至关重要;

噪声条件增强在超分辨率模型中至关重要;

将交叉注意用于文本条件反射至关重要;

高效的 U-Net 至关重要。

这些见解为正在研究扩散模型的研究人员提供了有价值的方向,而不是只在文本到图像的子领域有用。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3905

    浏览量

    141462
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42163
  • 生成器
    +关注

    关注

    7

    文章

    322

    浏览量

    22509

原文标题:扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    无线充电器的工作原理核心

    无线充电器的工作原理核心
    的头像 发表于 12-06 10:19 64次阅读
    无线充电器的<b class='flag-5'>工作原理</b>核心

    从底层解读labview的TDMS高级异步写入的工作原理

    所有数据已写入磁盘时,记得调用 TDMS Close File 或 TDMS Flush 函数,因为缓冲区中的数据可能尚未完全写入磁盘。 异步写入会增加内存开销(用于缓冲区)。 希望这个解释能帮你清晰理解 LabVIEW TDMS 高级异步写入的含义和工作原理
    发表于 08-14 17:05

    高压清洗机的工作原理是什么?

    欢迎。那么,您是否了解高压清洗机的工作原理是什么呢?科伟达作为高压清洗机的领先品牌,本文将带您深度解析其工作原理,帮助您更好地理解和使用这种设备。高压清洗机的技术原
    的头像 发表于 07-18 16:39 1256次阅读
    高压清洗机的<b class='flag-5'>工作原理</b>是什么?

    解密SMA接头:工作原理与技术特性深度解读

    正是凭借这些卓越的工作原理和技术特性,德索精密工业的SMA接头在通信基站的天线连接、雷达系统的信号传输,以及实验室的测试测量设备等场景中,都能稳定可靠地完成信号传输任务。随着科技的不断进步,德索精密工业也在持续对SMA接头进行优化和创新,未来将推出更多高性能产品,在更多领域发挥更大的作用。
    的头像 发表于 06-27 11:06 1030次阅读
    解密SMA接头:<b class='flag-5'>工作原理</b>与技术特性深度<b class='flag-5'>解读</b>

    GPIO配置的工作原理是什么?

    我使用 EZ-USB 配置实用程序,我想知道是否有人知道 GPIO 配置的工作原理。 例如,GPIO0 可以用作传感器复位,我知道这个 GPIO0 用于重置传感器,但我不明白的是选项用户 GPIO 例如GPIO 1可以是User GPIO0,这是什么意思呢?
    发表于 05-19 06:56

    Gemini API集成Google图像生成模型Imagen 3

    开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放,不久后也将面向免费用户推出。
    的头像 发表于 05-14 16:53 961次阅读

    微动开关的工作原理

    微动开关的工作原理
    的头像 发表于 04-17 09:00 2738次阅读

    光学传感器的工作原理与应用

    的疾病诊断,光学传感器的应用遍布生活的每一个角落。本文将带你深入了解光学传感器的工作原理、分类、应用及其未来的发展趋势。 光学传感器的工作原理 光学传感器的工作原理基于光学效应,即当光线与物质相互作用时,会产生一
    的头像 发表于 04-15 18:24 1331次阅读

    ADC技术的工作原理解

    ADC(Analog-to-Digital Converter,模拟-数字转换器)技术的工作原理主要包括采样、保持、量化和编码四个步骤,以下是对这四个步骤的解析: 采样 :采样是将连续的模拟信号转换
    的头像 发表于 02-18 18:14 1911次阅读

    真空发生器工作原理解

    真空技术是现代工业和科学研究中不可或缺的一部分,它在许多领域都有广泛的应用,如半导体制造、医疗设备、食品包装、实验室分析等。真空发生器作为实现和维持真空状态的关键设备,其工作原理和性能直接影响到真空
    的头像 发表于 02-07 09:52 2455次阅读

    UPS电源的工作原理解析 UPS电源使用注意事项

    一、UPS电源的工作原理解析 UPS(Uninterruptible Power Supply)即不间断电源,是一种含有储能装置,以逆变器为主要组成部分的恒压恒频的不间断电源。它主要用于给部分对电源
    的头像 发表于 01-31 15:02 3387次阅读

    超级电容电池的工作原理

    超级电容电池是一种介于传统电容器与电池之间的新型储能装置。其工作原理主要基于电荷分离和电场存储,以下是关于超级电容电池工作原理的详细解释:
    的头像 发表于 01-27 11:17 2014次阅读

    液位变送器工作原理解

    液位变送器的类型 液位变送器有多种类型,包括浮球式、电容式、超声波式、雷达式等。每种类型的工作原理和应用场景有所不同,但它们的基本功能都是将液位变化转换为电信号。 1. 浮球式液位变送器 浮球式液位
    的头像 发表于 01-06 15:24 2285次阅读

    借助谷歌Gemini和Imagen模型生成高质量图像

    以获得卓越的视觉效果。这个过程并不止于此;一旦图像生成,Imagen 2 可以进一步优化以满足特定需求,从而创建一个强大的工作流程,用于制作顶级视觉内容。
    的头像 发表于 01-03 10:38 1351次阅读
    借助谷歌Gemini和<b class='flag-5'>Imagen</b>模型生成高质量图像

    断路器的工作原理解

    接触点。 灭弧室 :用于熄灭断开电路时产生的电弧。 脱扣机构 :当检测到过载或短路时,触发断路器动作的机械装置。 保护装置 :如过载保护、短路保护和漏电保护等,用于检测电路中的异常情况。 工作原理 过载保护 过载保护是断路器的
    的头像 发表于 01-03 09:25 3178次阅读