微软提出Control-GPT：用GPT-4实现可控文本到图像生成！-电子发烧友网

扩散模型虽好，但如何保证生成的图像准确高质量？GPT-4或许能帮上忙。

文本到图像生成领域近两年取得了很大的突破，从 GAN 到 Stable Diffusion，图像生成的速度越来越快，生成效果越来越好。然而，AI 模型生成的图像在细节上还有很多瑕疵，并且使用自然语言指定对象的确切位置、大小或形状存在一定的困难。为了生成精准、高质量的图像，现有方法通常依赖于广泛的提 prompt 工程或手动创建图像草图。这些方法需要大量的人工工作，因此非常低效。

最近，来自加州大学伯克利分校（UC 伯克利）和微软研究院的研究者从编程的角度思考了这个问题。当前，用户能够使用大型语言模型较好地控制代码生成，这让该研究看到了编写程序来控制生成图像细节的可能，包括物体的形状、大小、位置等等。基于此，该研究提出利用大型语言模型（LLM）生成代码的功能实现可控型文本到图像生成。

Controllable Text-to-Image Generation with GPT-4

论文地址：https://arxiv.org/abs/2305.18583

该研究提出了一个简单而有效的框架 Control-GPT，它利用 LLM 的强大功能根据文本 prompt 生成草图。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代码形式的草图。如下图 1 (c) 所示，程序草图（programmatic sketch）是按照准确的文本说明绘制的，随后这些草图被输入 Control-GPT。Control-GPT 是 Stable Diffusion 的一种变体，它能接受额外的输入，例如参考图像、分割图等等。这些草图会充当扩散模型的参考点，使扩散模型能够更好地理解空间关系和特殊概念，而不是仅仅依赖于文本 prompt。这种方法使得 prompt 工程和草图创建过程不再需要人为干预，并提高了扩散模型的可控性。

我们来看一下 Control-GPT 方法的具体细节。

方法

对图像生成来说，训练过程的一个较大挑战是缺乏包含对齐文本和图像的数据集。为了解决这个难题，该研究将现有实例分割数据集（例如 COCO 和 LVIS）中的实例掩码转换为多边形的表示形式，这与 GPT-4 生成的草图类似。

然后，该研究构建了一个包含图像、文本描述和多边形草图的三元数据集，并微调了 ControlNet。该研究发现这种方法有助于更好地理解 GPT 生成的草图，并且可以帮助模型更好地遵循文本 prompt 指令。

ControlNet 是扩散模型的一种变体，它需要额外的输入条件。该研究使用 ControlNet 作为基础图像生成模型，并通过编程草图和 grounding token 的路径对其进行扩展。

框架

如下图 2 所示，在 Control-GPT 中，首先 GPT-4 会根据文本描述生成 TikZ 代码形式的草图，并输出图像中物体的位置。然后该研究用 LATEX 编译 TikZ 代码，将草图转换为图像格式，再将编程草图、文本描述和物体位置的 grounding token 提供给经过调优的 ControlNet 模型，最终生成符合条件的图像。

使用 GPT-4 生成的草图训练 ControlNet 是必要的，因为预训练的 ControlNet 不理解生成的草图，不能将其转换为现实图像。为了 prompt GPT-4，该研究要求用户遵循如下的 prompt 样本，以让 GPT-4 请求 TikZ 代码片段的结构化输出，以及相关物体的名称和位置。然后，该研究使用 GPT-4 的输出来编译草图图像并获得 grounding token。

LLM 绘制草图的准确性如何

Control-GPT 的精度取决于 LLM 生成草图时的准确性和可控性。因此，该研究对 LLM 在草图生成方面的性能进行了基准测试。实验结果表明 GPT 系列模型在草图生成方面明显优于 LLaMa 等开源模型，并且 GPT-4 在遵循文本指令方面表现出惊人的高准确性（约 97%）。

该研究对 Control-GPT 和一些经典模型的生成结果进行了人工评估，结果表明当图像中包含两个不相关的罕见物体组合时，一些模型的生成效果比较差，而 Control-GPT 的生成结果相对较好，如下表 2 所示：

查询 LLMs，生成一个 TikZ 代码片段来描述给定的文本，进而检查 LLMs 的性能。如下表 1 所示，GPT-series 模型的大多数代码片段都可以编译为有效的草图，而 LLaMA 和 Alpaca 的输出要么是空的，要么不可运行。在 GPT-series 模型中，最新的 GPT-4 在 95 个查询中只有 3 次失败，这些查询成功地生成了有效草图，在遵循文本指令方面的成功率大约有 97%。ChatGPT 是 GPT-3.5 的 RLHF 微调版本，其性能明显低于原始 GPT-3.5。在调优过程中，聊天能力和代码生成之间可能存在着权衡。

在下图 4 中，研究者提供了一个来自 GPT 系列模型的可视化草图例子。虽然生成的草图不如照片那样逼真，但它们往往能捕捉到语义，并正确推理出物体的空间关系。生成的草图经常出人意料地通过简单的代码片断来正确处理物体形状。

下图最后一行展示了 GPT-4 的一个失败案例，即模型无法生成物体形状，而 GPT-3.5 却能给出一个正确的草图。GPT-4 在草图生成方面的高精度带来的启发是：可以使用它来提高图像生成模型的可控性。

实验

基于 Visor 数据集，研究者对 Control-GPT 进行了一系列实验设置的评估，测试其在空间关系、物体位置和大小方面的可控性。他们还将评估扩展到多个物体和分布外的 prompt。广泛的实验表明，Control-GPT 可以大大提升扩散模型的可控性。

下表 3 中列出了定量评估结果。可以看到，Control-GPT 模型可以在给定的一些规格下更好地控制物体的大小和位置。与几乎无法控制物体位置和尺寸的 Stable Diffusion 模型（SD-v1.5）相比，Control-GPT 将总体精度从 0% 提高到 14.18%。与现成的 ControlNet 相比，Control-GPT 在所有指标上也取得了更好的表现，获得了从 8.46% 到 4.18% 的整体改善。这些结果展示了本文的 LLM 集成框架在更细化和精确控制图像生成过程方面的潜力。

视觉化。下图 6 展示了定性评估结果，可以看到，ControlGPT 可以按照物体位置和尺寸的规范绘制物体。相比之下，ControlNet 也能遵循，但却很难生成正确的物体，而 Stable Diffusion 则无法遵循规范。

对空间关系的消融实验。研究者还探讨了模型是否对不同类型的空间关系（如左 / 右 / 上 / 下）有偏好，作为空间关系基准分析的一部分。从下表 4 中可以看出，Control-GPT 在 Visor Score 和物体准确性方面一直比所有的基线模型工作得更好。

多个物体之间的关系。研究者对 Control-GPT 生成多个物体的能力进行了进一步的评估，这些物体的空间关系由 prompt 指定。下图 7 展示了一些例子，Control-GPT 能理解不同物体之间的空间关系，并在 GPT-4 的帮助下将它们放入布局中，表现出了更好的性能。

可控性与图像逼真度。通常，在生成逼真图像与遵循精确布局之间往往存在着妥协，特别是对于分布外的文字 prompt。如下图 8 所示，（a）是一个例子，生成的图像完全遵循布局，但这导致了图像中的一些伪影；而在（b）中，照片往往看起来很逼真，但没有很好地遵循草图。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1063

浏览量
40041
数据集

数据集

+关注

关注
4

文章
1179

浏览量
24356
GPT

GPT

+关注

关注
0

文章
302

浏览量
14869

原文标题：微软提出Control-GPT：用GPT-4实现可控文本到图像生成！

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

ChatGPT升级　OpenAI史上最强大模型GPT-4发布

是 Generative Pre-trained Transformer 4 的缩写，即生成型预训练变换模型 4，是一个多模态大型语言模型。根据OpenAI的描述，GPT-4 支持接受图像并理解

发表于 03-15 18:15 •2421次阅读

OpenAI正式发布GPT-4：支持图像和文本的输入、处理中文的准确度大幅提升

ChatGPT 的经验教训迭代调整 GPT-4，从而在真实性和可控性等方面取得了有史以来最好的结果（尽管远非完美）。

发表于 03-16 09:46 •1561次阅读

GPT-4多模态模型发布，对ChatGPT的升级和断崖式领先

而且 GPT-4 是多模态的，同时支持文本和图像输入功能。此外，GPT-4 比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这也使得它的运行

发表于 03-17 10:31 •3012次阅读

关于GPT-4的产品化狂想

GPT-4是条件，而不是结果

发表于 03-26 10:48 •2596次阅读

GPT-4是这样搞电机的

GPT-4写电机基础程序没问题

发表于 04-17 09:41 •674次阅读

微软GPT-4搜索引擎重大升级新Bing开放AI能力

GPT-4，GPT-4有更强悍的能力可以提供创意性文章创作和图像识别功能。微软马上跟进，宣布旗下的Bing Chat已经升级使用了OpenAI提供的

发表于 05-05 17:15 •2240次阅读

GPT-4处于一个什么样的编码地位

Greg Brockman 演示了 GPT-4 将一张手绘草稿架构图变成一个现实可滑动的网站；同时，它也能帮助我们直接生成代码，甚至当我们把代码运行报错的界面截一个图发给 GPT-4 时，它就能给出相应的解决

发表于 06-16 10:42 •437次阅读

GPT-4 Copilot X震撼来袭！AI写代码效率10倍提升，码农遭降维打击

来源：新智元【导读】GPT-4加强版Copilot来了！刚刚，GitHub发布了新一代代码生成工具GitHubCopilotX，动嘴写代码不再是梦。微软真的杀疯了！上周，微软刚用

发表于 04-04 16:35 •591次阅读

GPT-4已经会自己设计芯片了吗？

对话，纽约大学Tandon工程学院的研究人员就通过GPT-4造出了一个芯片。具体来说，GPT-4通过来回对话，就生成了可行的Verilog。随后将基准测试和处理器发送到Skywater 130 nm

发表于 06-20 11:51 •609次阅读

OpenAI宣布GPT-4 API全面开放使用！

OpenAI 在博客文章中写道：“自 3 月份以来，数百万开发者请求访问 GPT-4 API，并且利用 GPT-4 的创新产品范围每天都在增长。” “我们设想基于对话的模型未来可以支持任何用例。”

发表于 07-12 14:55 •881次阅读

GPT-3.5 vs GPT-4：ChatGPT Plus 值得订阅费吗国内怎么付费？

GPT-3.5 vs GPT-4：ChatGPT Plus值得订阅费吗？ChatGPT Plus国内如何付费？ ChatGPT-3.5一切都很好，但ChatGPT-4（通过ChatGPT Plus

发表于 08-02 12:09 •3023次阅读

GPT-4没有推理能力吗？

今年三月，OpenAI 重磅发布了 GPT-4 大模型，带来了比 ChatGPT 背后 GPT-3.5 更强的推理、计算、逻辑能力，也引发了全民使用的热潮。在各行各领域研究人员、开发者、设计师的使用过程中，「GPT-4 是最为领

发表于 08-11 14:20 •671次阅读

微软Copilot（Bing Chat）将升级至GPT-4 Turbo

微软Copilot（Bing Chat）将升级至GPT-4 Turbo 微软广告和网络服务负责人Mikhail Parakhin在X平台透露，Copilot（Bing Chat）目前还在解决一些问题

发表于 11-28 18:37 •841次阅读

OpenAI发布的GPT-4 Turbo版本ChatGPT plus有什么功能？

GPT-4的最新版本。OpenAI凭借承诺增强功能和成本效率的模型实现了巨大飞跃，为人工智能行业树立了新标准。我们来看看OpenAI带来了什么：文本和图像理解

发表于 12-05 17:57 •1463次阅读

微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

起初，Copilot作为Bing Chat AI助手推出，初期采用GPT-3.5模型，随后升级至GPT-4取得显著进步，如今再次更新至性能卓越的GPT-4 Turbo模型，这无疑将使得Copilot功能再上新台阶。

发表于 03-13 13:42 •252次阅读