0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

伯克利AI实验室开源图像编辑模型InstructPix2Pix,简化生成图像编辑并提供一致结果

jf_WZTOguxH 来源:AI前线 2023-08-28 15:45 次阅读

来自伯克利人工智能研究(BAIR)实验室的研究人员开源深度学习模型 InstructPix2Pix,它可以遵循人类指令来编辑图像。InstructPix2Pix 在合成数据上进行训练,表现优于基线 AI 图像编辑模型。

BAIR 团队在最近举行的 2023 年 IEEE/CVF 计算机视觉和模式识别(CVPR)大会上展示了他们的工作成果。他们先是生成了一个合成训练数据集,其中的训练样本是成对的图像以及用于将第一幅图像转换为第二幅图像的编辑指令。该数据集用于训练图像生成扩散模型,该模型可以接受基于文本的指令来编辑图像。例如,给定一张骑马的人的图片和提示词“让她变成骑龙”,它会输出原始图片,但原来的马被替换了龙。BAIR 的研究人员的表示:

尽管模型完全是在合成样本上进行训练的,但它实现了对任意真实图像和人类自然语言指令的零样本泛化。我们的模型能够进行直观的图像编辑,可以遵循人类指令执行多种编辑:替换对象、改变图像风格、修改设置、艺术媒介等。

之前的 AI 图像编辑能力通常是进行风格转换,流行的文本到图像生成模型(如 DALL-E 和 Stable Diffusion)也支持图像到图像风格转换操作。然而,使用这些模型进行有针对性的编辑仍然具有挑战性。最近,InfoQ 报道了微软的 Visual ChatGPT,它可以调用外部工具来编辑图像,前提是提供编辑操作的文本描述。

为了训练 InstructPix2Pix,BAIR 首先创建了一个合成数据集。为此,团队在一个由输入文字说明、编辑指令和期望输出文字说明组成的人类文本样本的小数据集上对 GPT-3 进行了微调。然后,这个微调模型被给予一个大型的输入图像文字说明数据集,从中生成了超过 450k 次编辑和输出文字说明。然后,团队将输入和输出文字说明馈送到预训练的 Prompt-to-Prompt 模型中,该模型根据文字说明生成成对的相似图像。

d051acec-4564-11ee-a2ef-92fbcf53809c.jpg

InstructPix2Pix 的架构,图片来源:https://arxiv.org/abs/2211.09800

研究人员鉴于这个数据集训练了基于 Stable Diffusion 的 InstructPix2Pix。为了评估其性能,团队将其输出与基线模型 SDEdit 进行了比较。他们使用两个指标之间的权衡:一致性(即输入图像和编辑后图像的 CLIP 嵌入之间的余弦相似度)和方向相似性(即编辑后文字说明中的变化与编辑后图像的变化在多大程度上保持一致)。在实验中,对于给定的方向相似性值,InstructPix2Pix 产生的图像比 SDEdit 具有更高的一致性。

人工智能研究员吴恩达在他的深度学习新闻邮件组“The Batch”中评价了 InstructPix2Pix:

这项工作简化了生成和人造图像的编辑操作,并提供了更一致的结果。巧妙地利用现有模型,模型作者能够使用相对较少的人类标记样本在新任务上训练他们的模型。

InstructPix2Pix 的代码可在 GitHub 上获取,模型和基于 Web 的演示可在 Huggingface 上访问。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Web
    Web
    +关注

    关注

    2

    文章

    1238

    浏览量

    68458
  • 人工智能
    +关注

    关注

    1776

    文章

    43845

    浏览量

    230600
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47685
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24351

原文标题:伯克利 AI 实验室开源图像编辑模型 InstructPix2Pix,简化生成图像编辑并提供一致结果

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌模型怎么用PS打开文件和图片

    等)或ONNX模型(.onnx)等。这些模型文件是二进制的,并且是为特定的机器学习框架设计的,而不是为图像编辑软件如PS设计的。
    的头像 发表于 02-29 18:25 877次阅读

    Stability AI试图通过新的图像生成人工智能模型保持领先地位

    Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大,而Stable Diffusion是许多其他文
    的头像 发表于 02-19 16:03 431次阅读
    Stability <b class='flag-5'>AI</b>试图通过新的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>人工智能<b class='flag-5'>模型</b>保持领先地位

    科学家如何加速下一代微电子技术的发展

    来源:《半导体芯科技》杂志 作者:特蕾莎·杜克(Theresa Duque),伯克利实验室科学作家 由伯克利实验室领导的多机构团队致力于帮助芯片制造商领先于摩尔定律 微芯片是用于从智能
    的头像 发表于 01-23 13:42 146次阅读

    三星AI手机有多神?引入智能显示,自动调节亮度、颜色…

    Galaxy S24系列配备了Galaxy AI(设备端人工智能)以及三星Gauss(高斯)等生成式人工智能。换句话说,关键功能可以通过设备上的人工智能来解决,而无需联系外部服务器。生成式人工智能支持需要更多计算的任务,例如高级
    的头像 发表于 01-19 15:49 681次阅读

    放下你的PhotoShop!无限图像编辑开源

    我们知道扩散模型生成图像是通过反转采样来进行的,重点是识别噪声。LEDITS++从DDPM反演中提取特征,并提出一种有效的反演方法,大大减少所需的步骤,同时降低重建误差。当将反向扩散过
    的头像 发表于 12-10 10:09 449次阅读
    放下你的PhotoShop!无限<b class='flag-5'>图像编辑</b>已<b class='flag-5'>开源</b>!

    jpg如何转psd格式?

    jpg如何转psd格式? 将JPG格式转换为PSD格式是一个比较简单的过程,只需使用合适的图像编辑软件即可完成。在本文中,我将提供详尽、详实、细致的步骤,帮助你完成这个转换过程。 首先,我们需要
    的头像 发表于 12-09 16:09 1280次阅读

    文生图大型实践:揭秘百度搜索AIGC绘画工具的背后故事!

    AIGC 从去年 9 月到现在,我们能看到各种各样的模型和公司不断涌现。从最初大家使用 Stable Diffusion 来生成简单的图像,到后来用一些其它方法进行生成
    的头像 发表于 11-21 16:04 407次阅读
    文生图大型实践:揭秘百度搜索AIGC绘画工具的背后故事!

    探究编辑多模态大语言模型的可行性

    不同于单模态模型编辑,多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态模型编辑入手,
    发表于 11-09 14:53 255次阅读
    探究<b class='flag-5'>编辑</b>多模态大语言<b class='flag-5'>模型</b>的可行性

    Direct Inversion:三行代码提升基于扩散的图像编辑效果

    为了完成这两个任务,最为直觉,也是使用最多的方式就是:使用两个分支来完成这两件事,一个用来保留信息,一个用来添加信息。之前的编辑算法大多可以划分出这两个分支,但可能隐含在模型中或者没有显式割离,也正是在这篇文章中,作者将两个概念划分清楚并给出了过往方法的分类。
    的头像 发表于 10-10 17:18 572次阅读
    Direct Inversion:三行代码提升基于扩散的<b class='flag-5'>图像编辑</b>效果

    生成AI 研究通过引导式图像结构控制为创作者赋能

    新的研究正在通过一个文本引导的图像编辑工具来提升生成AI 的创造性潜能。这项创新性的研究提出了一个使用即插即用扩散特征(PnP DFs)的框架,可引导实现逼真而精确的图像
    的头像 发表于 07-24 19:30 364次阅读

    基于扩散模型图像生成过程

    近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。 不过仅凭文本来控制
    的头像 发表于 07-17 11:00 2108次阅读
    基于扩散<b class='flag-5'>模型</b>的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

    AI图像放大技术的演变

    AI图像放大技术是将低分辨率图像转换为高分辨率图像的过程,其通过将低分辨率图像输入深度学习模型
    的头像 发表于 07-04 15:20 631次阅读

    FastSAM模型可实现25FPS的实时推理

    比Meta的「分割一切模型」(SAM)更快的图像分割工具,来了! 最近中科院团队开源了FastSAM模型,能以 50倍的速度 达到与原始SAM相近的效果,并实现25FPS的实时推理。
    的头像 发表于 07-03 17:06 698次阅读
    FastSAM<b class='flag-5'>模型</b>可实现25FPS的实时推理

    AI图像编辑技术DragGAN开源,拖动鼠标即可改变人物笑容

    DragGAN是一个直观的图像编辑工具PM系统(www.multiable.com.cn),用户只需要控制图像中的像素点和方向,就可以快速调整照片主体的位置、姿态、表情、大小和角度等。
    的头像 发表于 06-29 10:34 620次阅读

    虹软图像深度恢复技术与生成AI的创新 生成AI助力

    更加逼真,增加层次感。在这方面,虹软的图像深度恢复技术一直保持着领先,在整个行业被广泛认可。虹软技术出色的性能赋予了生成AI更高质量、更具深度感的图像
    发表于 06-21 09:06 309次阅读