0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌新作Muse:通过掩码生成Transformer进行文本到图像生成

CVer 来源:机器之心 2023-01-09 10:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

图像生成领域越来越卷了!

文本到图像生成是 2022 年最火的 AIGC 方向之一,被《science》评选为 2022 年度十大科学突破。最近,谷歌的一篇文本到图像生成新论文《Muse: Text-To-Image Generation via Masked Generative Transformers》又引起高度关注。

e250c8d6-8f6d-11ed-bfe3-dac502259ad0.png

Muse: Text-To-Image Generation via Masked Generative Transformers

论文地址:https://arxiv.org/abs/2301.00704

项目地址:https://muse-model.github.io/

该研究提出了一种使用掩码图像建模方法进行文本到图像合成的新模型,其中的图像解码器架构以来自预训练和 frozen T5-XXL 大型语言模型 (LLM) 编码器的嵌入为条件。

与谷歌先前的 Imagen 模型类似,该研究发现基于预训练 LLM 进行调整对于逼真、高质量的图像生成至关重要。Muse 模型是建立在 Transformer (Vaswani et al., 2017) 架构之上。

与建立在级联像素空间(pixel-space)扩散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse 由于使用了离散 token,效率显著提升。与 SOTA 自回归模型 Parti (Yu et al., 2022) 相比,Muse 因使用并行解码而效率更高。

基于在 TPU-v4 上的实验结果,研究者估计 Muse 在推理速度上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,比 Stable Diffusion v1.4 (Rombach et al., 2022) 快 2 倍。研究者认为:Muse 比 Stable Diffusion 推理速度更快是因为 Stable Diffusion v1.4 中使用了扩散模型,在推理时明显需要更多次迭代。

另一方面,Muse 效率的提升没有造成生成图像质量下降、模型对输入文本 prompt 的语义理解能力降低的问题。该研究根据多个标准评估了 Muse 的生成结果,包括 CLIP 评分 (Radford et al., 2021) 和 FID (Heusel et al., 2017)。Muse-3B 模型在 COCO (Lin et al., 2014) 零样本验证基准上取得了 0.32 的 CLIP 分数和 7.88 的 FID 分数。

下面我们看看 Muse 生成效果:

文本 - 图像生成:Muse 模型从文本提示快速生成高质量的图像(在 TPUv4 上,对于 512x512 分辨率的图像需要时间为 1.3 秒,生成 256x256 分辨率的图像需要时间为 0.5 秒)。例如生成「一只熊骑着自行车,一只鸟栖息在车把上」:

Muse 模型通过对文本提示条件下的图像 token 进行迭代重新采样,为用户提供了零样本、无掩码编辑(mask-free editing)。

e26c3f76-8f6d-11ed-bfe3-dac502259ad0.gif

Muse 还提供了基于掩码的编辑,例如「在美丽的秋叶映照下,有一座凉亭在湖上」。

e27be764-8f6d-11ed-bfe3-dac502259ad0.png

模型简介

Muse 建立在许多组件之上,图 3 提供了模型体系架构概述。

e28c6774-8f6d-11ed-bfe3-dac502259ad0.png

具体而言所包含的组件有:

预训练文本编码器:该研究发现利用预训练大型语言模型(LLM)可以提高图像生成质量。他们假设,Muse 模型学会了将 LLM 嵌入中的丰富视觉和语义概念映射到生成的图像。给定一个输入文本字幕,该研究将其通过冻结的 T5-XXL 编码器,得到一个 4096 维语言嵌入向量序列。这些嵌入向量线性投影到 Transformer 模型。

使用 VQGAN 进行语义 Tokenization:该模型的核心组件是使用从 VQGAN 模型获得的语义 token。其中,VQGAN 由一个编码器和一个解码器组成,一个量化层将输入图像映射到一个学习码本中的 token 序列。该研究全部使用卷积层构建编码器和解码器,以支持对不同分辨率图像进行编码。

基础模型:基础模型是一个掩码 transformer,其中输入是投影到 T5 的嵌入和图像 token。该研究保留所有的文本嵌入(unmasked),随机掩码不同比例的图像 token,并用一个特殊的 [mask] token 替换它们。

超分辨率模型:该研究发现使用级联模型是有益的:首先是生成 16 × 16 潜在映射(对应于 256 × 256 图像)的基础模型,然后是将基础的潜在映射上采样到的超分辨率模型,也就是 64 × 64 的潜在映射(对应于一个 512 × 512 的图像)。

e2d550ce-8f6d-11ed-bfe3-dac502259ad0.png

解码器微调:为了进一步提高模型生成精细细节的能力,该研究通过添加更多的残差层和通道来增加 VQGAN 解码器的容量,同时保持编码器容量不变。然后微调新的解码器层,同时冻结 VQGAN 编码器权重、码本和 transformer(即基础模型和超分辨率模型)。

除了以上组件外,Muse 还包含可变掩码比率组件、在推理时迭代并行解码组件等。

实验及结果

如下表所示,与其他模型相比,Muse 缩短了推理时间。

e410e53e-8f6d-11ed-bfe3-dac502259ad0.png

下表为不同模型在 zero-shot COCO 上测量的 FID 和 CLIP 得分:

e41c1ff8-8f6d-11ed-bfe3-dac502259ad0.png

如下表所示,Muse(632M (base)+268M (super-res) 参数模型)在 CC3M 数据集上训练和评估时得到了 6.06 的 SOTA FID 分数。

e4245308-8f6d-11ed-bfe3-dac502259ad0.png

下图是 Muse 与 Imagen、DALL-E 2 在相同 prompt 下生成结果的例子。

e4339d7c-8f6d-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3650

    浏览量

    51721
  • 图像生成
    +关注

    关注

    0

    文章

    25

    浏览量

    7133
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6819

原文标题:比Imagen更高效!谷歌新作Muse:通过掩码生成Transformer进行文本到图像生成

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用Firebase AI Logic生成图像模型的两种新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两种新功能: 其一是 Imagen 专属编辑功能预览版;其二
    的头像 发表于 11-30 09:28 223次阅读

    万里红文本生成算法通过国家网信办备案

    近日,国家互联网信息办公室发布了第十四批深度合成服务算法备案信息,北京万里红科技有限公司(以下简称:万里红)自主研发的“万里红文本生成算法”正式通过备案。该算法致力于通过自动化的方式,提升知识问答、RAG分类、预测、文档
    的头像 发表于 11-14 09:06 433次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3934次阅读
    自动驾驶中<b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    生成式 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成式AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理AI驱动的4D场景生成
    的头像 发表于 08-06 11:20 4828次阅读
    <b class='flag-5'>生成</b>式 AI 重塑自动驾驶仿真:4D 场景<b class='flag-5'>生成</b>技术的突破与实践

    关于鸿蒙App上架中“AI文本生成模块的资质证明文件”的情况说明

    检查结果为“通过”或审核状态为“审核通过”。 那么对于这个问题,我也是尝试去解决……这里分享一下我了解的情况和方法 首先,这个政策虽然说是针对AI文本生成模块,但实际上,针对的是所有
    发表于 06-30 18:37

    边缘生成式AI面临哪些工程挑战?

    本文由TechSugar编译自electronicdesign当大多数人想到人工智能(AI)时,他们通常能想到的是能够生成文本图像或语音内容的应用。像ChatGPT这样流行的文本
    的头像 发表于 06-25 10:44 921次阅读
    边缘<b class='flag-5'>生成</b>式AI面临哪些工程挑战?

    利用NVIDIA 3D引导生成式AI Blueprint控制图像生成

    AI 赋能的图像生成技术突飞猛进,从早期模型会生成手指过多的人类图像,到现在能创造出令人惊叹的逼真视觉效果。即使取得了如此飞跃,仍然存在一个挑战:实现创意掌控。
    的头像 发表于 06-05 09:24 759次阅读

    生成式人工智能认证:重构AI时代的人才培养与职业跃迁路径

    ,恰似一座连接技术前沿与个体成长的桥梁,既承载着时代对人才的迫切需求,也指向着未来职场的核心竞争力。 一、技术革命的双重性:赋能与失衡并存 生成式人工智能的突破性,在于其首次让机器具备了“无中生有”的创造力。从文本生成
    的头像 发表于 05-23 09:29 630次阅读

    Gemini API集成Google图像生成模型Imagen 3

    开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放,不久后也将面向免费用户推出。
    的头像 发表于 05-14 16:53 972次阅读

    如何使用离线工具od SPSDK生成完整图像

    对我来说,完整图像是指包含 keyblob、FCB 等的图像。换句话说,图像包含 0x30000000 0x30000FFF 之间的大约 4KB。 如果我理解正确,使用 SPT(以
    发表于 03-28 06:51

    声智APP通过北京市生成式人工智能服务登记

    近日,声智APP已正式通过北京市第二批生成式人工智能服务登记,成为《生成式人工智能服务管理暂行办法》(以下简称《办法》)实施以来,北京市累计已完成46款生成式人工智能服务登记中的重要一
    的头像 发表于 03-19 16:33 823次阅读

    ​VLM(视觉语言模型)​详细解析

    支持生成式任务。 多模态融合 :通过跨模态注意力机制、投影层(如CLIP将图像文本映射到同一空间)或适配器
    的头像 发表于 03-17 15:32 7672次阅读
    ​VLM(视觉语言模型)​详细解析

    使用OpenVINO GenAI和LoRA适配器进行图像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用户可以将平平无奇的文本提示词转换为令人惊艳的视觉效果。
    的头像 发表于 03-12 13:49 1563次阅读
    使用OpenVINO GenAI和LoRA适配器<b class='flag-5'>进行</b><b class='flag-5'>图像</b><b class='flag-5'>生成</b>

    借助谷歌Gemini和Imagen模型生成高质量图像

    在快速发展的生成式 AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3 模型根据这些提示生成高质
    的头像 发表于 01-03 10:38 1360次阅读
    借助<b class='flag-5'>谷歌</b>Gemini和Imagen模型<b class='flag-5'>生成</b>高质量<b class='flag-5'>图像</b>

    检索增强型生成(RAG)系统详解

      近年来,人工智能取得了巨大的飞跃,这主要归功于大型语言模型(LLMs)。LLMs非常擅长理解和生成类似人类的文本,它们促成了多种新工具的创建,比如先进的聊天机器人和AI作家。 尽管LLMs在生成
    的头像 发表于 12-24 10:44 1649次阅读
    检索增强型<b class='flag-5'>生成</b>(RAG)系统详解