0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT-3、Stable Diffusion一起助攻,让模型听懂甲方修图需求

智能感知与物联网技术研究所 来源:智能感知与物联网技术研 作者:智能感知与物联网 2022-11-21 11:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI 可以完全按照甲方意愿修图?GPT-3、Stable Diffusion 一起助攻,让模型秒变 PS 高手,改图随心所欲。

扩散模型大火之后,很多人将注意力放到了如何利用更有效的 prompt 生成自己想要的图像。在对于一些 AI 作画模型的不断尝试中,人们甚至总结出了让 AI 好好出图的关键词经验:

9b0c2b0e-68e0-11ed-8abf-dac502259ad0.jpg

也就是说,如果掌握了正确的 AI 话术,作图质量提升效果将非常明显(参见:《「羊驼打篮球」怎么画?有人花了 13 美元逼 DALL·E 2 亮出真本事 》)。

此外,还有一部分研究者在往另一个方向努力:如何动动嘴皮子就把一幅画改成我们想要的样子。

前段时间,我们报道了一项来自谷歌研究院等机构的研究。只要说出你想让一幅图变成什么样子,它就能基本满足你的要求,生成照片级的图像,例如让一只小狗坐下:

9b1bd0f4-68e0-11ed-8abf-dac502259ad0.png

这里给模型的输入描述是「一只坐下的狗」,但是按照人们的日常交流习惯,最自然的描述应该是「让这只狗坐下」。有研究者认为这是一个应该优化的问题,模型应该更符合人类的语言习惯。

最近,来自 UC 伯克利的研究团队提出了一种根据人类指令编辑图像的新方法 InstructPix2Pix:给定输入图像和告诉模型要做什么的文本描述,模型就能遵循描述指令来编辑图像。

9b87dce0-68e0-11ed-8abf-dac502259ad0.png

论文地址:https://arxiv.org/pdf/2211.09800.pdf

例如,要把画中的向日葵换成玫瑰,你只需要直接对模型说「把向日葵换成玫瑰」:

9b992ebe-68e0-11ed-8abf-dac502259ad0.png

为了获得训练数据,该研究将两个大型预训练模型——语言模型 (GPT-3) 和文本到图像生成模型 (Stable Diffusion) 结合起来,生成图像编辑示例的大型成对训练数据集。研究者在这个大型数据集上训练了新模型 InstructPix2Pix,并在推理时泛化到真实图像和用户编写的指令上。

InstructPix2Pix 是一个条件扩散模型,给定一个输入图像和一个编辑图像的文本指令,它就能生成编辑后的图像。该模型直接在前向传播(forward pass)中执行图像编辑,不需要任何额外的示例图像、输入 / 输出图像的完整描述或每个示例的微调,因此该模型仅需几秒就能快速编辑图像。

尽管 InstructPix2Pix 完全是在合成示例(即 GPT-3 生成的文本描述和 Stable Diffusion 生成的图像)上进行训练的,但该模型实现了对任意真实图像和人类编写文本的零样本泛化。该模型支持直观的图像编辑,包括替换对象、更改图像风格等等。

9bb17bea-68e0-11ed-8abf-dac502259ad0.png

方法概览

研究者将基于指令的图像编辑视为一个监督学习问题:首先,他们生成了一个包含文本编辑指令和编辑前后图像的成对训练数据集(图 2a-c),然后在这个生成的数据集上训练了一个图像编辑扩散模型(图 2d)。尽管训练时使用的是生成的图像和编辑指令,但模型仍然能够使用人工编写的任意指令来编辑真实的图像。下图 2 是方法概述。

9bf20a52-68e0-11ed-8abf-dac502259ad0.png

生成一个多模态训练数据集

在数据集生成阶段,研究者结合了一个大型语言模型(GPT-3)和一个文本转图像模型(Stable Diffusion)的能力,生成了一个包含文本编辑指令和编辑前后对应图像的多模态训练数据集。这一过程包含以下步骤:

微调 GPT-3 以生成文本编辑内容集合:给定一个描述图像的 prompt,生成一个描述要进行的更改的文本指令和一个描述更改后图像的 prompt(图 2a);

使用文本转图像模型将两个文本 prompt(即编辑之前和编辑之后)转换为一对对应的图像(图 2b)。

InstructPix2Pix

研究者使用生成的训练数据来训练一个条件扩散模型,该模型基于 Stable Diffusion 模型,可以根据书面指令编辑图像。

扩散模型学习通过一系列估计数据分布分数(指向高密度数据的方向)的去噪自编码器来生成数据样本。Latent diffusion 通过在预训练的具有编码器9c0d0816-68e0-11ed-8abf-dac502259ad0.jpg和解码器9c212774-68e0-11ed-8abf-dac502259ad0.png的变分自编码器的潜空间中操作来提高扩散模型的效率和质量。

对于一个图像 x,扩散过程向编码的 latent9c30754e-68e0-11ed-8abf-dac502259ad0.png 中添加噪声,它产生一个有噪声的 latent z_t,其中噪声水平随时间步 t∈T 而增加。研究者学习一个网络9c47b45c-68e0-11ed-8abf-dac502259ad0.png,它在给定图像调节 C_I 和文本指令调节 C_T 的情况下,预测添加到带噪 latent z_t 中的噪声。研究者将以下 latent 扩散目标最小化:

9c56efc6-68e0-11ed-8abf-dac502259ad0.png

此前,曾有研究(Wang et al.)表明,对于图像翻译(image translation)任务,尤其是在成对训练数据有限的情况下,微调大型图像扩散模型优于从头训练。因此在新研究中,作者使用预训练的 Stable Diffusion checkpoint 初始化模型的权重,利用其强大的文本到图像生成能力。

为了支持图像调节,研究人员向第一个卷积层添加额外的输入通道,连接 z_t 和9c6c4e84-68e0-11ed-8abf-dac502259ad0.png。扩散模型的所有可用权重都从预训练的 checkpoint 初始化,同时在新添加的输入通道上运行的权重被初始化为零。作者在这里重用最初用于 caption 的相同的文本调节机制,而没有将文本编辑指令 c_T 作为输入。

实验结果

在下面这些图中,作者展示了他们新模型的图像编辑结果。这些结果针对一组不同的真实照片和艺术品。新模型成功地执行了许多具有挑战性的编辑,包括替换对象、改变季节和天气、替换背景、修改材料属性、转换艺术媒介等等。

9c7d6070-68e0-11ed-8abf-dac502259ad0.png

9c9c2c30-68e0-11ed-8abf-dac502259ad0.png

9cbfe2ec-68e0-11ed-8abf-dac502259ad0.png

9d0131f2-68e0-11ed-8abf-dac502259ad0.png

研究人员将新方法与最近的一些技术,如 SDEdit、Text2Live 等进行了比较。新模型遵循编辑图像的说明,而其他方法(包括基准方法)需要对图像或编辑层进行描述。因此在比较时,作者对后者提供「编辑后」的文本标注代替编辑说明。作者还把新方法和 SDEdit 进行定量比较,使用两个衡量图像一致性和编辑质量的指标。最后,作者展示了生成训练数据的大小和质量如何影响模型性能的消融结果。

9d37cba4-68e0-11ed-8abf-dac502259ad0.png

9d656320-68e0-11ed-8abf-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42438
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302617
  • 模型
    +关注

    关注

    1

    文章

    3819

    浏览量

    52270

原文标题:GPT-3、Stable Diffusion一起助攻,让模型听懂甲方修图需求

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    315曝光GEO黑产:3000元“投毒” AI大模型周见效

    异化为 “数据投毒” 工具,通过系统性投放虚假信息,操控 AI 大模型的推荐结果,虚构产品成为 AI 口中的 “标准答案”。   并且,这样的行为被明码标价:“3000 元周见
    的头像 发表于 03-17 13:38 7592次阅读

    PyTorch 中RuntimeError分析

    原生实现。这是个已知的 PyTorch 限制,常见于 Stable Diffusion、ComfyUI 等使用 interpolate(..., mode=\'nearest\') 的模型
    发表于 03-06 06:02

    为什么不能将 USB 磁盘与 exFat 一起使用?

    不能将 USB 磁盘与 exFat 一起使用
    发表于 03-04 06:27

    回望2025:与162万开发者一起AI硬件触手可及

    设备中。今天,我们想和大家一起回顾这年的成长,也分享我们对未来的期待。2025,我们跟开发者一起完成了1、开发者生态持续壮大截至四季度末,涂鸦平台累计注册开发者超
    的头像 发表于 02-12 18:59 391次阅读
    回望2025:与162万开发者<b class='flag-5'>一起</b>,<b class='flag-5'>让</b>AI硬件触手可及

    从炫技到量产,具身智能要突破哪些瓶颈?

    LingBot-VLA 开源,具身智能的 Stable Diffusion 来了?
    的头像 发表于 01-28 17:12 9160次阅读
    从炫技到量产,具身智能要突破哪些瓶颈?

    上海交大发布国产光学大模型Optics GPT

    电子发烧友网综合报道 1月25日,上海交通大学正式推出光学领域垂直大语言模型——Optics GPT(光学大模型),这是款完全自主研发的国产模型
    的头像 发表于 01-26 09:59 2220次阅读
    上海交大发布国产光学大<b class='flag-5'>模型</b>Optics <b class='flag-5'>GPT</b>

    本地部署Stable Diffusion实现AI文字生成高质量矢量图片应用于电子商务

    本地部署Stable Diffusion
    的头像 发表于 11-28 07:19 899次阅读

    GPT-5.1发布 OpenAI开始拼情商

    问题。 Sam Altman 发文称GPT-5.1是次不错的模型升级。 GPT-5.1 Instant:ChatGPT 最常用的模型,更温
    的头像 发表于 11-13 15:49 821次阅读

    亚马逊云科技宣布推出Qwen3与DeepSeek-V3.1模型的完全托管服务

    的多种模型选项。DeepSeek-V3.1在数学、编程和Agentic任务方面展现出卓越性能。 · 与专有模型不同,开放权重模型让开发者能够深入了解模型权重,从而可以根据用户
    的头像 发表于 09-19 10:11 1028次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    AI的应用多种多样。比如:DALL-E2、Midjourney、Stable Diffusion等,不仅包括对话功能,还包括生成图像、视频、语音和程序代码等功能。 竟然连代码都可以生成,会取代程序员
    发表于 09-12 16:07

    【RA4M2-SENSOR】3、使用GPT定时器-PWM输出

    项目01_I2C_OLED复制份,重命名为02_PWM 查看原理得知,P102引脚可用GPT功能。 点击configuration.xml文件,按下面几张所示内容配置。 打开引脚
    发表于 09-01 15:20

    光纤能与电线一起走吗

    光纤与电线在特定条件下可以一起布线,但需严格遵守安全规范和物理隔离要求,以下是详细分析: 、光纤与电线的物理特性差异 光纤 传输介质:以光信号传输数据,不导电,因此不受电磁干扰(EMI
    的头像 发表于 07-14 10:40 9803次阅读

    拥抱开源!一起来做FPGA开发板啦!

    一起来做FPGA开发板啦! 2、第二步:点击前往报名>报名入口 3、第三步:加小助手微信进群,备注 开源FPGA 注:完成上面三个步骤才算报名成功~ 开源规划: 1、活动报名时间
    发表于 06-06 14:05

    CyU3PDeviceGpioOverride是否仅与LPP引脚一起使用?

    CyU3PDeviceGpioOverride 是否仅与 LPP 引脚一起使用? 如果使用 CyU3PDeviceGpioOverride,则 io_cfg.gpioSimpleEn 跳过还是反之亦然?
    发表于 05-15 07:33

    如何将FX3与WSL(Linux 的 Windows 子系统)一起使用?

    如何将 FX3 与 WSL(Linux 的 Windows 子系统)一起使用? 我在 /dev/ 中找不到任何设备 我有许多项目在 Windows 上使用VISUAL STUDIO项目进行操作,因此请验证该设备是否在 Windows 上运行。
    发表于 05-06 07:11