谷歌新作Muse：通过掩码生成Transformer进行文本到图像生成-电子发烧友网

图像生成领域越来越卷了！

文本到图像生成是 2022 年最火的 AIGC 方向之一，被《science》评选为 2022 年度十大科学突破。最近，谷歌的一篇文本到图像生成新论文《Muse: Text-To-Image Generation via Masked Generative Transformers》又引起高度关注。

Muse: Text-To-Image Generation via Masked Generative Transformers

论文地址：https://arxiv.org/abs/2301.00704

项目地址：https://muse-model.github.io/

该研究提出了一种使用掩码图像建模方法进行文本到图像合成的新模型，其中的图像解码器架构以来自预训练和 frozen T5-XXL 大型语言模型 (LLM) 编码器的嵌入为条件。

与谷歌先前的 Imagen 模型类似，该研究发现基于预训练 LLM 进行调整对于逼真、高质量的图像生成至关重要。Muse 模型是建立在 Transformer (Vaswani et al., 2017) 架构之上。

与建立在级联像素空间（pixel-space）扩散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比，Muse 由于使用了离散 token，效率显著提升。与 SOTA 自回归模型 Parti (Yu et al., 2022) 相比，Muse 因使用并行解码而效率更高。

基于在 TPU-v4 上的实验结果，研究者估计 Muse 在推理速度上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上，比 Stable Diffusion v1.4 (Rombach et al., 2022) 快 2 倍。研究者认为：Muse 比 Stable Diffusion 推理速度更快是因为 Stable Diffusion v1.4 中使用了扩散模型，在推理时明显需要更多次迭代。

另一方面，Muse 效率的提升没有造成生成图像质量下降、模型对输入文本 prompt 的语义理解能力降低的问题。该研究根据多个标准评估了 Muse 的生成结果，包括 CLIP 评分 (Radford et al., 2021) 和 FID (Heusel et al., 2017)。Muse-3B 模型在 COCO (Lin et al., 2014) 零样本验证基准上取得了 0.32 的 CLIP 分数和 7.88 的 FID 分数。

下面我们看看 Muse 生成效果：

文本 - 图像生成：Muse 模型从文本提示快速生成高质量的图像（在 TPUv4 上，对于 512x512 分辨率的图像需要时间为 1.3 秒，生成 256x256 分辨率的图像需要时间为 0.5 秒）。例如生成「一只熊骑着自行车，一只鸟栖息在车把上」：

Muse 模型通过对文本提示条件下的图像 token 进行迭代重新采样，为用户提供了零样本、无掩码编辑（mask-free editing）。

Muse 还提供了基于掩码的编辑，例如「在美丽的秋叶映照下，有一座凉亭在湖上」。

模型简介

Muse 建立在许多组件之上，图 3 提供了模型体系架构概述。

具体而言所包含的组件有：

预训练文本编码器：该研究发现利用预训练大型语言模型（LLM）可以提高图像生成质量。他们假设，Muse 模型学会了将 LLM 嵌入中的丰富视觉和语义概念映射到生成的图像。给定一个输入文本字幕，该研究将其通过冻结的 T5-XXL 编码器，得到一个 4096 维语言嵌入向量序列。这些嵌入向量线性投影到 Transformer 模型。

使用 VQGAN 进行语义 Tokenization：该模型的核心组件是使用从 VQGAN 模型获得的语义 token。其中，VQGAN 由一个编码器和一个解码器组成，一个量化层将输入图像映射到一个学习码本中的 token 序列。该研究全部使用卷积层构建编码器和解码器，以支持对不同分辨率图像进行编码。

基础模型：基础模型是一个掩码 transformer，其中输入是投影到 T5 的嵌入和图像 token。该研究保留所有的文本嵌入（unmasked），随机掩码不同比例的图像 token，并用一个特殊的 [mask] token 替换它们。

超分辨率模型：该研究发现使用级联模型是有益的：首先是生成 16 × 16 潜在映射（对应于 256 × 256 图像）的基础模型，然后是将基础的潜在映射上采样到的超分辨率模型，也就是 64 × 64 的潜在映射（对应于一个 512 × 512 的图像）。

解码器微调：为了进一步提高模型生成精细细节的能力，该研究通过添加更多的残差层和通道来增加 VQGAN 解码器的容量，同时保持编码器容量不变。然后微调新的解码器层，同时冻结 VQGAN 编码器权重、码本和 transformer（即基础模型和超分辨率模型）。

除了以上组件外，Muse 还包含可变掩码比率组件、在推理时迭代并行解码组件等。

实验及结果

如下表所示，与其他模型相比，Muse 缩短了推理时间。

下表为不同模型在 zero-shot COCO 上测量的 FID 和 CLIP 得分：

如下表所示，Muse（632M (base)+268M (super-res) 参数模型）在 CC3M 数据集上训练和评估时得到了 6.06 的 SOTA FID 分数。

下图是 Muse 与 Imagen、DALL-E 2 在相同 prompt 下生成结果的例子。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
2704

浏览量
47696
图像生成

图像生成

+关注

关注
0

文章
21

浏览量
6865
Transformer

Transformer

+关注

关注
0

文章
130

浏览量
5898

原文标题：比Imagen更高效！谷歌新作Muse：通过掩码生成Transformer进行文本到图像生成

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大，而Stable Diffusion是许多其他文本到图像

发表于 02-19 16:03 •432次阅读

谷歌推出图像生成新工具ImageFX，提升图像质量

作为实验室的新兴工具，ImageFX 允许用户借助简洁的文字指令来创作图像。经过前期试验，该团队认为对生成型人工智能工具来说最关键的是如何启发并鼓励用户挖掘和实践创意想法。

发表于 02-02 14:18 •263次阅读

谷歌发布Lumiere人工智能文本视频生成器

随着近年来AI应用的不断普及和改进，自动文本创作系统如ChatGPT已经被广泛接受，成为聊天窗口中的常客。类似地，文本到图画生成工具让人们得以绘制出超现实的视觉效果。然而，谷歌此次推出

发表于 01-31 16:45 •478次阅读

高级检索增强生成技术(RAG)全面指南

ChatGPT、Midjourney等生成式人工智能（GenAI）在文本生成、文本到图像生成等任务中表现出令人印象深刻的性能。

发表于 12-25 15:16 •2139次阅读

何恺明新作RCG：无自条件图像生成新SOTA！与MIT首次合作！

它有望超越条件图像生成，并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展（这也是为什么条件生成图像发展得这么好，我们还要重视无条件生成

发表于 12-10 10:24 •531次阅读

通过循环训练实现忠实的低资源数据文本生成

从结构化数据中自然语言生成（NLG）往往会产生多种错误，从而限制了这些模型在面向客户的应用中的实用性。当NLG 模型在生成的输出文本时注入与输入结构化数据无关的无意义词语或信息就会产生幻觉。

发表于 08-24 14:53 •269次阅读

低质量图像的生成与增强的区别图像生成领域中存在的难点

1. 论文信息 2. 引言这篇论文的研究背景是图像生成领域中存在的一个难点 - 如何从低质量的图像中恢复高质量的细节信息。这对很多下游应用如监控视频分析等都是非常重要的。现有的图像

发表于 08-03 15:36 •1069次阅读

生成式 AI 研究通过引导式图像结构控制为创作者赋能

新的研究正在通过一个文本引导的图像编辑工具来提升生成式 AI 的创造性潜能。这项创新性的研究提出了一个使用即插即用扩散特征（PnP DFs）的框架，可引导实现逼真而精确的

发表于 07-24 19:30 •366次阅读

基于扩散模型的图像生成过程

等很难用文本指定。最近，谷歌发布了MediaPipe Diffusion插件，可以在移动设备上运行「可控文本到图像生成」的低成本解决方

发表于 07-17 11:00 •2110次阅读

面向结构化数据的文本生成技术研究

今天我们要讲的文本生成是现在最流行的研究领域之一。文本生成的目标是让计算机像人类一样学会表达，目前看基本上接近实现。这些突然的技术涌现，使得计算机能够撰写出高质量的自然文本，满足特定的需求。

发表于 06-26 14:39 •354次阅读

虹软图像深度恢复技术与生成式AI的创新生成式AI助力

当前，生成式人工智能（AI）技术的快速发展令人瞩目。它能够理解人类的描述，并在短时间内生成逼真的图像和视频。在生成式AI的应用中，图像深度信

发表于 06-21 09:06 •309次阅读

基于文本到图像模型的可控文本到视频生成

的文本到视频模型需要大量高质量的视频和计算资源，这限制了相关社区进一步的研究和应用。为了减少过度的训练要求，我们研究了一种新的高效形式：基于文本到图像模型的可控文本到视频

发表于 06-14 10:39 •587次阅读

Meta开源文本如何生成音乐大模型

年初，谷歌推出了音乐生成大模型 MusicLM，效果非常不错。有人称这比大火的 ChatGPT 还重要，几乎解决了音乐生成问题。近日，Meta 也推出了自己的文本音乐

发表于 06-12 15:11 •549次阅读

微软提出Control-GPT：用GPT-4实现可控文本到图像生成！

该研究提出了一个简单而有效的框架 Control-GPT，它利用 LLM 的强大功能根据文本 prompt 生成草图。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代码形式的草图。如下图 1 (c)

发表于 06-05 15:31 •490次阅读

什么是生成式AI？生成式AI的四大优势

生成式AI是一种特定类型的AI，专注于生成新内容，如文本、图像和音乐。这些系统在大型数据集上进行训练，并使用机器学习算法

发表于 05-29 14:12 •2752次阅读