0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种「个性化」的文本到图像扩散模型 DreamBooth

CVer 来源:机器之心 作者:机器之心 2022-11-14 15:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。

近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。

其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定主题(物体、动物等)的实例,以便它们自然无缝地融入场景。

一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。

虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。

dc9e274e-636c-11ed-8abf-dac502259ad0.png

为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。

dcf735a0-636c-11ed-8abf-dac502259ad0.png

论文地址:https://arxiv.org/abs/2208.12242

项目地址:https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。

dd172b76-636c-11ed-8abf-dac502259ad0.png

具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。

首先该研究使用包含唯一标识符(带有主题类名,例如「A [V] dog」)的输入图像和文本提示微调低分辨率文本到图像模型。为了防止模型将类名与特定实例过拟合和语义漂移,该研究提出了一种自生的、特定于类的先验保存(preservation)损失,它利用嵌入模型中类的先验语义,鼓励模型生成给定主题下同一类中的不同实例。

第二步,该研究使用输入图像的低分辨率和高分辨率版本对超分辨率组件进行微调。这允许模型对场景主题中小而重要细节保持高保真度。

我们来看一下该研究提出的具体方法。

方法介绍

给定 3-5 张捕获的图像,这些图像没有文字描述,本文旨在生成具有高细节保真度和由文本提示引导变化的新图像。该研究不对输入图像施加任何限制,并且主题图像可以具有不同的上下文。方法如图 3 所示。输出图像可对原始图像进行修改,如主题的位置,更改主题的属性如颜色、形状,并可以修改主体的姿势、表情、材质以及其他语义修改。

更具体的说,本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。

dd7a6d9e-636c-11ed-8abf-dac502259ad0.png

该研究的第一个任务是将主题实例植入到模型的输出域,并将主题与唯一标识符绑定。该研究提出了设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。

为了解决图像过拟合以及语言漂移问题,该研究还提出了一种损失( Prior-Preservation Loss ),通过鼓励扩散模型不断生成与主题相同的类的不同实例,从而减轻模型过拟合、语言漂移等问题。

为了保留图像细节,该研究发现应该对模型的超分辨率(SR)组件进行微调,本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示,给定同一主题的 3-5 张图像,之后通过两个步骤微调文本到图像的扩散模型:

ddc37d68-636c-11ed-8abf-dac502259ad0.png

稀有 token 标识符表示主题

该研究将主题的所有输入图像标记为「a [identifier] [class noun]」,其中 [identifier] 是链接到主题的唯一标识符,而 [class noun] 是主题的粗略类别描述符 (例如猫、狗、手表等)。该研究在句子中特别使用了类描述符,以便将类的先验与主题联系起来。

效果展示

下面是 Dreambooth 一个稳定扩散的实现(参考项目链接)。定性结果:训练图像来自「Textual Inversion」库:

de33066a-636c-11ed-8abf-dac502259ad0.jpg

训练完成后,在「photo of a sks container」提示下,模型生成的集装箱照片如下:

de5d67fc-636c-11ed-8abf-dac502259ad0.png

在提示中加个位置「photo of a sks container on the beach」,集装箱出现在沙滩上;

de843bd4-636c-11ed-8abf-dac502259ad0.png

绿色的集装箱颜色太单一了,想加点红色,输入提示「photo of a red sks container」就能搞定:

df404126-636c-11ed-8abf-dac502259ad0.png

输入提示「a dog on top of sks container」就能让小狗坐在箱子里:

df684b8a-636c-11ed-8abf-dac502259ad0.png

下面是论文中展示的一些结果。生成不同画家风格的关于狗狗的艺术图:

df943bdc-636c-11ed-8abf-dac502259ad0.png

该研究还可以合成输入图像中没有出现的各种表情,展示了模型的外推能力:

dfcd19a2-636c-11ed-8abf-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1095

    浏览量

    42157
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51710

原文标题:谷歌提出DreamBooth:新扩散模型!只需3张图一句话,AI就能定制照片级图像!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用Firebase AI Logic生成图像模型的两新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两新功能: 其
    的头像 发表于 11-30 09:28 207次阅读

    【内测活动同步开启】这么小?这么强?新代大模型MCP开发板来啦!

    噪,无惧嘈杂环境 云端接入小聆AI,轻松实现个性化定制 搭载领先大模型全链路技术:小聆AI 智能语音交互方案 集成情绪感知与表达 :支持情感发音人;支持声音复刻,实现个性化定制 独家人声滤噪:基于声纹
    发表于 09-25 11:47

    利用小红书电商 API 接口,实现小红书店铺商品推荐个性化

    据、商品信息和交互行为。通过合理利用这些接口,店铺可以实现高度个性化的商品推荐系统,从而精准匹配用户需求。本文将逐步介绍如何基于小红书电商 API 实现这目标,涵盖技术原理、实现步骤和实际应用,确保内容真实可靠。 1. 理解小红书电商 API 接口
    的头像 发表于 08-27 15:31 678次阅读
    利用小红书电商 API 接口,实现小红书店铺商品推荐<b class='flag-5'>个性化</b>

    复杂装备研发设计中利用数据实现大规模个性化定制

    用户需求下的高效率生产制造。以下从技术实现、应用案例及未来趋势三个维度展开分析: 、技术实现:数据驱动的个性化定制框架 需求识别与数据采集 多源数据整合 :通过物联网传感器、用户反馈、市场调研等渠道,采集用户
    的头像 发表于 08-06 17:17 552次阅读

    利用API提升电商用户体验:个性化推荐系统

      在当今竞争激烈的电商环境中,个性化推荐系统已成为提升用户粘性和转化率的核心工具。通过API(Application Programming Interface)集成,电商平台能够高效接入先进
    的头像 发表于 07-14 14:45 379次阅读
    利用API提升电商用户体验:<b class='flag-5'>个性化</b>推荐系统

    2025年电商API发展趋势:智能个性化

    体验与商业生态。 、智能趋势:从自动自主决策 AI驱动的实时决策 API将深度集成机器学习模型,实现动态定价、库存预测与风险管控。例
    的头像 发表于 07-11 14:26 442次阅读
    2025年电商API发展趋势:智能<b class='flag-5'>化</b>与<b class='flag-5'>个性化</b>

    无法使用OpenVINO™在 GPU 设备上运行稳定扩散文本图像的原因?

    在OpenVINO™ GPU 设备上使用图像大小 (1024X576) 运行稳定扩散文本图像,并收到错误消息: RuntimeError: Exception from
    发表于 06-25 06:36

    EM储能网关 ZWS智慧储能云应用(13) — 企业个性化配置

    储能公有云平台,企业用户如何自主个性化配置?ZWS智慧储能云通过灵活的多级配置功能,实现个性化系统配置,帮助强化储能企业独特性。简介储能企业在使用智慧储能云平台时,常面临企业个性化和品牌展示
    的头像 发表于 05-23 11:39 473次阅读
    EM储能网关 ZWS智慧储能云应用(13) — 企业<b class='flag-5'>个性化</b>配置

    个性化医疗的挑战,微流液体监测

    现代医学已能够极大改善全球人口的生活质量。脊髓灰质炎、梅毒、肺结核或鼠疫等疾病几乎已经根除,并且可以成功治疗或治愈。下个里程碑则是个性化医疗。这门新颖的学科针对的并非广泛人群,而是专注于个体患者
    的头像 发表于 05-19 13:25 394次阅读
    <b class='flag-5'>个性化</b>医疗的挑战,微流液体监测

    Melexis LED驱动方案助力汽车制造商打造个性化车内空间

    汽车内饰氛围灯,早已不再是简单的照明工具,更是提升驾乘体验、展现个性化风格的重要元素。从静态的色彩点缀动态的灯光秀,车内灯光正变得越来越智能、复杂。面对这趋势,Melexis提供
    的头像 发表于 02-21 17:04 2020次阅读

    电梯按需维保:个性化定制的电梯维护方案

    需求。电梯按需维保作为一种新兴的维保模式,正逐渐受到关注和青睐。 电梯按需维保的概念 电梯按需维保是指根据电梯的实际使用情况和运行状态,制定个性化的维保计划。这种模式摒弃了传统的固定周期维保方式,而是通过实
    的头像 发表于 02-19 17:37 735次阅读

    文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像文本
    的头像 发表于 02-12 11:13 3240次阅读
    <b class='flag-5'>一</b>文详解视觉语言<b class='flag-5'>模型</b>

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    今天学习大模型RAG 检索增强生成技术Embedding,即嵌入,是一种将离散数据(如文字、图像、音频等)转换为连续的密集向量表示的技术。这些向量能够反映原始数据之间的关系,使得计算机能够更好地处
    发表于 01-17 19:53

    ComplexHeatmap包:个性化热图绘制利器

    雕琢。 官方介绍网站: https://jokergoo.github.io/ComplexHeatmap-reference/book/ 下面来介绍几个简单又实用的个性化调整: 可指定分群数,对热图
    的头像 发表于 12-31 11:17 1349次阅读
    ComplexHeatmap包:<b class='flag-5'>个性化</b>热图绘制利器

    语音芯片赋能可穿戴设备:开启个性化音频新体验

    语音芯片与可穿戴设备合作,带来定制音效、智能降噪、个性化推荐、语音交互及跨设备共享等,引领个性化音频时代,提升用户听觉体验。
    的头像 发表于 12-14 15:44 1283次阅读