0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于new concepts的text-to-image生成模型的fine-tuning方法

jf_pmFSk4VX 来源:GiantPandaCV 2023-01-03 17:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2. 引言

最近通过文本生成图像的深度学习相关技术取得了非常大的进展,2021已经成为了图像生成的一个新的milestone,诸如DALL-E和Stable diffusion这种模型都取得了长足的进步,甚至达到了“出圈”的效果。通过简单文本prompts,用户能够生成前所未有的质量的图像。这样的模型可以生成各种各样的对象、风格和场景,并把它们进行组合排序,这让现有的图像生成模型看上去是无所不能的。

b809bb20-88d1-11ed-bfe3-dac502259ad0.png

但是,尽管这些模型具有多样性和一些泛化能力,用户经常希望从他们自己的生活中合成特定的概念。例如,亲人、朋友、宠物或个人物品和地点,这些都是非常有意义的concept,也和个人对于生成图像的信息有对齐。由于这些概念天生就是个人的,因此在大规模的模型训练过程中很难出现。

事后通过详细的文字,来描述这种概念是非常不方便的,也无法保留足够多的视觉细节来生成新的personal的concepts。这就需要模型具有一定的“定制”能力。也就是说如果给定少量用户提供的图像,我们能否用新概念(例如宠物狗或者“月亮门”,如图所示)增强现有的文本到图像扩散模型?经过微调的模型应该能够将它们与现有概念进行概括并生成新的变化。这带来了几个比较严峻的挑战:

首先,模型倾向于遗忘现有概念的含义:例如,在添加“moon gate”这一concept的时候,“moon”的含义就会丢失。

其次,由于stable diffusion这样的网络往往参数会超级多,所以在小数据上训练模型,容易造成对训练样本进行过拟合,而且采样中变化也有限。

此外,论文还关注了一个更具挑战性的问题,即组group fine-tuning,即能够超越单个个体concept的微调,并将多个概念组合在一起。学习多个新的concepts同时也是存在一定的挑战的,比如 concept mixing以及concept omission。

在这项工作中,论文提出了一种fine-tuning技术,即文本到图像扩散模型的“定制扩散”。我们的方法在计算和内存方面都很有效。为了克服上述挑战,新方法固定一小部分模型权重,即文本到潜在特征的key值映射在cross-attention layer中。fine-tuning这些足以更新模型的新concepts。

为了防止模型丧失原来强大的表征能力,新方法仅仅使用一小组的图像与目标图像类似的真实图像进行训练。我们还在微调期间引入data的augamation,这可以让模型更快的收敛,并获得更好的结果。论文提出的方法实验是构建在Stable Diffusion之上,并对各种数据集进行了实验,其中最少有四幅训练图像。

对于添加单个concept,新提出的方法显示出比相似任务的作品和基线更好的文本对齐和视觉相似性。更重要的是,我们的方法可以有效地组成多个新concepts,而直接对不同的concepts进行组合的方法则遇到困难,经常会省略一个。最后,我们的方法只需要存储一小部分参数(模型权重的3%),消耗的GPU memory非常有限,同时也减少了fine-tuning的时间。

3. 方法

总结来讲,论文提出的方法,就是仅更新权重的一小部分,即模型的交叉注意力层。此外,由于目标概念的训练样本很少,所以使用一个真实图像的正则化集,以防止过拟合。

b818b53a-88d1-11ed-bfe3-dac502259ad0.png

对于Single-Concept Fine-tuning,给定一个预训练的text-to-image diffusion model,我们的目标是在模型中加入一个新的concept,只要给定四张图像和相应的文本描述进行训练。fine-tuning后的模型应保留其先验知识,允许根据文本提示使用新概念生成新的图像类型。

这可能具有挑战性,因为更新的文本到图像的映射可能很容易过拟合少数可用图像。所以保证泛化性就非常有必要,也比较有挑战。所以就仅仅fine-tuning新的K和V,而对于query,则保持不变,这样就可以增加新概念的同时,保证模型的表征能力不受到太多的影响。优化目标还是diffusion的形式:

b822694a-88d1-11ed-bfe3-dac502259ad0.png

概括起来实际上非常简单,就是训练一个k和v的矩阵,来扩充维度,增加模型的表征能力,使其能生成更为丰富的图像内容。

b82ab6d6-88d1-11ed-bfe3-dac502259ad0.png

而对于Multiple-Concept Compositional Fine-tuning,为了对多个概念进行微调,我们将每个概念的训练数据集合并,并使用我们的方法将它们联合训练。为了表示目标概念,我们使用不同的修饰符的,并将它们与每个层的交叉注意关键和值矩阵一起初始化,并优化它们。通过将权重更新限制为交叉注意key和value参数,与DreamBooth等方法相比,可以显着更好地将两个概念合并在一起。

poYBAGOz8RaAaMMYAAFDj5Ag_TQ303.jpg

b8327024-88d1-11ed-bfe3-dac502259ad0.png

可以发现,增加约束还是让模型具有更强的表征能力的。最下面一行才和真正的门比较相似,同时生成的月亮也非常合理。

4. 实验

b844a622-88d1-11ed-bfe3-dac502259ad0.png

给定一个新concepts的图像如左侧显示的目标图像,提出的方法可以在看不见的上下文和艺术风格中生成带有该概念的图像。

第一行:代表水彩画艺术风格中的概念。方法还可以在背景中生成山脉,而 DreamBooth 和 Textual Inversion 忽略了这一点。

第二行:改变背景场景。我们的方法和 DreamBooth 的表现与 Textual Inversion 相似且更好。

第三行:添加另一个对象,例如带有目标桌子的橙色沙发。新的方法成功地添加了另一个对象。第四行:改变对象属性,如花瓣的颜色。第五行:用太阳镜装饰私人宠物猫。我们的方法比基线更好地保留了视觉相似性,同时仅更改花瓣颜色或为猫添加太阳镜。

b86279e0-88d1-11ed-bfe3-dac502259ad0.png

可以发现Multiple-Concept Compositional Fine-tuning的效果也非常惊艳。

b87509c0-88d1-11ed-bfe3-dac502259ad0.png

风格迁移的效果也不错。

定量指标也有比较有竞争力的表现:

b8809b96-88d1-11ed-bfe3-dac502259ad0.png

5. 结论

论文提出了一种基于new concepts的text-to-image生成模型的fine-tuning方法。只需使用一些有限的图像示例, 新方法就能一高效的方法生成微调概念的新样本同时保留原有的生成能力。而且,我们只需要保存一小部分模型权重。此外,方法可以连贯地在同一场景中组合多个新概念,这是之前的方法所缺少的能力。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5324

    浏览量

    136213

原文标题:如何简单高效地定制自己的文本作画模型?

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Text2SQL智能体基础到实战

    越迁奇点:Text2SQL 智能体重塑未来数据交互的底层法则 当大模型的狂潮以摧枯拉朽之势席卷全球,数字世界的天际线正被无限拉高。所有人都在惊叹于生成式 AI 涌现出的自然语言处理能力,仿佛只要与之
    的头像 发表于 05-19 10:11 219次阅读

    将 MCUX SDK LIN 堆栈集成到 Zephyr OS 中,是否有一种方法可以自动生成它们从 .ldf 文件?

    我将 MCUX SDK LIN 堆栈集成到 Zephyr OS 中,现在正在 S32K344-wb 板上对其进行测试,但我想更改 cfg 文件,我想知道是否有一种方法可以自动生成它们从 .ldf 文件。
    发表于 04-24 06:33

    沐曦股份曦云C系列GPU产品Day 0适配百度文心ERNIE-Image文生图模型

    4月15日,百度文心大模型团队重磅推出ERNIE‑Image文生图模型,沐曦股份曦云 C 系列 GPU 已完成对 ERNIE‑Image 的Day 0 深度适配,同步支持 ERNIE‑
    的头像 发表于 04-15 17:39 600次阅读

    昆仑万维天工AI大模型SkyReels V4登上Artificial Analysis榜单全球第

    3月19日,天工AI大模型SkyReels V4登上Artificial Analysis榜单Text to Video (With Audio) 赛道全球第,显著超越Kling 3.0
    的头像 发表于 03-26 10:10 1179次阅读

    一种可跨不同领域的异常检测通用模型UniOD介绍

    本研究提出了一种可跨不同领域、适用于特征维度各异且特征空间异构的数据集的异常检测通用模型
    的头像 发表于 03-18 09:09 643次阅读
    <b class='flag-5'>一种</b>可跨不同领域的异常检测通用<b class='flag-5'>模型</b>UniOD介绍

    使用Firebase AI Logic生成图像模型的两新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两新功能: 其是 Imagen 专属编辑功能预览版;其二
    的头像 发表于 11-30 09:28 619次阅读

    【CIE全国RISC-V创新应用大赛】+ 一种基于LLM的可通过图像语音控制的元件库管理工具

    一种基于LLM的可通过图像语音控制的元件库管理工具 项目概述 ​ 库存管理在我们的生活中几乎无处不在,在许多小型的库存当中,比如实验室中的库存管理,往往没有人去专职维护,这就会导致在日积月累中逐渐
    发表于 11-12 19:32

    拼多多商品推广链接生成API:社交裂变的转化追踪利器

    功能解析 专属链接生成 通过API接口,开发者可动态生成携带 唯追踪参数 的推广链接 支持自定义参数:活动ID、推广渠道、用户身份标识 多级传播追踪 采用树形追踪模型: $$ beg
    的头像 发表于 09-08 16:22 1090次阅读
    拼多多商品推广链接<b class='flag-5'>生成</b>API:社交裂变的转化追踪利器

    上海控安:基于模型的测试用例生成

    的测试用例生成(Model-Based Test Case Generation)作为一种新兴且高效的测试方法,正逐渐成为解决这问题的重要手段。 01 引 言 在传统的软件测试过程中
    的头像 发表于 08-28 14:30 1165次阅读
    上海控安:基于<b class='flag-5'>模型</b>的测试用例<b class='flag-5'>生成</b>

    Text2SQL准确率暴涨22.6%!3大维度全拆

    基于 BIRD 数据集展开。 方法:提出 J-Schema 呈现数据库结构并合理提供示例值,结合思维链引导模型推理。采用 Iterative DPO 迭代训练,多轮迭代提升性能。用自洽性方法,通过硬 / 软投票从多个候选答案中选
    的头像 发表于 08-14 11:17 882次阅读
    <b class='flag-5'>Text</b>2SQL准确率暴涨22.6%!3大维度全拆

    一种新的无刷直流电机反电动势检测方法

    无位置传感器无刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用无刷直流电机的数学模型,根据反电动势检测原理,提出了一种新的线反电动势检测
    发表于 08-07 14:29

    一种新的无刷直流电机反电动势检测方法

    无位置传感器无刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用无刷直流电机的数学模型,根据反电动势检测原理,提出了一种新的线反电动势检测
    发表于 08-04 14:59

    Hyperabrupt Junction Tuning 变容二极管 skyworksinc

    电子发烧友网为你提供()Hyperabrupt Junction Tuning 变容二极管相关产品参数、数据手册,更有Hyperabrupt Junction Tuning 变容二极管的引脚图
    发表于 07-10 18:32
    Hyperabrupt Junction <b class='flag-5'>Tuning</b> 变容二极管 skyworksinc

    Hyperabrupt Junction Tuning Varactor skyworksinc

    电子发烧友网为你提供()Hyperabrupt Junction Tuning Varactor相关产品参数、数据手册,更有Hyperabrupt Junction Tuning Varactor
    发表于 07-09 18:34
    Hyperabrupt Junction <b class='flag-5'>Tuning</b> Varactor skyworksinc

    一种基于扩散模型的视频生成框架RoboTransfer

    在机器人操作领域,模仿学习是推动具身智能发展的关键路径,但高度依赖大规模、高质量的真实演示数据,面临高昂采集成本与效率瓶颈。仿真器虽提供了低成本数据生成方案,但显著的“模拟到现实”(Sim2Real)鸿沟,制约了仿真数据训练策略的泛化能力与落地应用。
    的头像 发表于 07-09 14:02 998次阅读
    <b class='flag-5'>一种</b>基于扩散<b class='flag-5'>模型</b>的视频<b class='flag-5'>生成</b>框架RoboTransfer