0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

伯克利AI实验室开源图像编辑模型InstructPix2Pix,简化生成图像编辑并提供一致结果

jf_WZTOguxH 来源:AI前线 2023-08-28 15:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自伯克利人工智能研究(BAIR)实验室的研究人员开源深度学习模型 InstructPix2Pix,它可以遵循人类指令来编辑图像。InstructPix2Pix 在合成数据上进行训练,表现优于基线 AI 图像编辑模型。

BAIR 团队在最近举行的 2023 年 IEEE/CVF 计算机视觉和模式识别(CVPR)大会上展示了他们的工作成果。他们先是生成了一个合成训练数据集,其中的训练样本是成对的图像以及用于将第一幅图像转换为第二幅图像的编辑指令。该数据集用于训练图像生成扩散模型,该模型可以接受基于文本的指令来编辑图像。例如,给定一张骑马的人的图片和提示词“让她变成骑龙”,它会输出原始图片,但原来的马被替换了龙。BAIR 的研究人员的表示:

尽管模型完全是在合成样本上进行训练的,但它实现了对任意真实图像和人类自然语言指令的零样本泛化。我们的模型能够进行直观的图像编辑,可以遵循人类指令执行多种编辑:替换对象、改变图像风格、修改设置、艺术媒介等。

之前的 AI 图像编辑能力通常是进行风格转换,流行的文本到图像生成模型(如 DALL-E 和 Stable Diffusion)也支持图像到图像风格转换操作。然而,使用这些模型进行有针对性的编辑仍然具有挑战性。最近,InfoQ 报道了微软的 Visual ChatGPT,它可以调用外部工具来编辑图像,前提是提供编辑操作的文本描述。

为了训练 InstructPix2Pix,BAIR 首先创建了一个合成数据集。为此,团队在一个由输入文字说明、编辑指令和期望输出文字说明组成的人类文本样本的小数据集上对 GPT-3 进行了微调。然后,这个微调模型被给予一个大型的输入图像文字说明数据集,从中生成了超过 450k 次编辑和输出文字说明。然后,团队将输入和输出文字说明馈送到预训练的 Prompt-to-Prompt 模型中,该模型根据文字说明生成成对的相似图像。

d051acec-4564-11ee-a2ef-92fbcf53809c.jpg

InstructPix2Pix 的架构,图片来源:https://arxiv.org/abs/2211.09800

研究人员鉴于这个数据集训练了基于 Stable Diffusion 的 InstructPix2Pix。为了评估其性能,团队将其输出与基线模型 SDEdit 进行了比较。他们使用两个指标之间的权衡:一致性(即输入图像和编辑后图像的 CLIP 嵌入之间的余弦相似度)和方向相似性(即编辑后文字说明中的变化与编辑后图像的变化在多大程度上保持一致)。在实验中,对于给定的方向相似性值,InstructPix2Pix 产生的图像比 SDEdit 具有更高的一致性。

人工智能研究员吴恩达在他的深度学习新闻邮件组“The Batch”中评价了 InstructPix2Pix:

这项工作简化了生成和人造图像的编辑操作,并提供了更一致的结果。巧妙地利用现有模型,模型作者能够使用相对较少的人类标记样本在新任务上训练他们的模型。

InstructPix2Pix 的代码可在 GitHub 上获取,模型和基于 Web 的演示可在 Huggingface 上访问。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Web
    Web
    +关注

    关注

    2

    文章

    1302

    浏览量

    73634
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261452
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51703
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26041

原文标题:伯克利 AI 实验室开源图像编辑模型 InstructPix2Pix,简化生成图像编辑并提供一致结果

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    江波龙与华曦达联合创新实验室揭牌,共建AI存储创新生态

    切入点,旨在构建覆盖端侧AI设备与智能家庭场景的技术验证体系。实验室秉承开源协作理念,致力于解决存储与AI终端适配中的关键痛点,形成从联合调试、场景验证到可靠性评估的全流程
    的头像 发表于 12-05 13:36 31次阅读
    江波龙与华曦达联合创新<b class='flag-5'>实验室</b>揭牌,共建<b class='flag-5'>AI</b>存储创新生态

    使用Firebase AI Logic生成图像模型的两种新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两种新功能: 其
    的头像 发表于 11-30 09:28 203次阅读

    Solidigm 成立AI中央实验室,配备高性能、大密度存储测试集群

    实验室汇聚AI与存储专业技术,为Solidigm合作者提供研究和优化存储对AI工作负载影响的平台。 2025年10月9日,北京 ——企业数据存储领域领导者 Solidigm正式揭幕其
    的头像 发表于 10-10 17:03 558次阅读

    代超大模型训练引擎XTuner V1开源

    9月8日,上海人工智能实验室(上海AI实验室)开源书生大模型代训练引擎XTuner V1。
    的头像 发表于 09-10 10:55 867次阅读

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    能够有效捕捉AI生成图像与真实手绘扫描图像在纹理、笔触、光影、全局一致性等方面的细微差异。 边缘端部署:将
    发表于 08-21 13:59

    NVIDIA RTX AI加速FLUX.1 Kontext系列图像模型

    Black Forest Labs,作为全球顶尖 AI 研究实验室,为图像生成领域带来颠覆性变革。
    的头像 发表于 08-05 16:27 1001次阅读
    NVIDIA RTX <b class='flag-5'>AI</b>加速FLUX.1 Kontext系列<b class='flag-5'>图像</b><b class='flag-5'>模型</b>

    利用NVIDIA 3D引导生成AI Blueprint控制图像生成

    AI 赋能的图像生成技术突飞猛进,从早期模型生成手指过多的人类图像,到现在能创造出令人惊叹的逼
    的头像 发表于 06-05 09:24 730次阅读

    Gemini API集成Google图像生成模型Imagen 3

    开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放,不久后也将面向免费用户推出。
    的头像 发表于 05-14 16:53 941次阅读

    实验室安全管理成焦点,汉威科技赋能实验室安全升级

    实验室是国家科技创新体系的重要组成部分,是国家组织高水平基础研究和应用基础研究、聚集和培养优秀科学家、开展学术交流的重要基地。近年来,各高校、研究院所、科创园区、高新产业园区相关企业的实验室呈现爆发
    的头像 发表于 04-10 10:41 699次阅读
    <b class='flag-5'>实验室</b>安全管理成焦点,汉威科技赋能<b class='flag-5'>实验室</b>安全升级

    简化树莓派文件操作:Picockpit 编辑器应用上手体验

    我们激动地宣布推出全新的文件编辑器应用,让您能够在RaspberryPi上远程创建和编辑文件和目录!不仅如此,通过我们的文件编辑器应用,您还能获得我们的AI系统——RaspiGPT的协
    的头像 发表于 03-25 09:26 501次阅读
    <b class='flag-5'>简化</b>树莓派文件操作:Picockpit <b class='flag-5'>编辑</b>器应用上手体验

    华为智算实验室解决方案助力科研创新高质量发展

    AI浪潮席卷科研领域,以DeepSeek为代表的生成AI技术正掀起新轮科研革命。华为基于其在AI和高性能计算等领域的优势,推出智算
    的头像 发表于 02-25 16:22 1272次阅读

    阿里巴巴Qwen大模型助力开发低成本DeepSeek替代方案

    近日,阿里巴巴的开源Qwen2.5模型AI领域再次展现其强大实力,为斯坦福大学与伯克利大学的研究人员提供了低成本的
    的头像 发表于 02-12 13:42 1257次阅读

    Qwen大模型助力开发低成本AI推理方案

    阿里巴巴的开源Qwen2.5模型近期在AI领域引发了广泛关注。这模型的推出,为斯坦福大学与伯克利
    的头像 发表于 02-12 09:19 979次阅读

    SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

      背景简介 随着图像编辑工具和图像生成技术的快速发展,图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影(操作痕迹),这些伪影
    的头像 发表于 01-15 09:30 809次阅读
    SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

    借助谷歌Gemini和Imagen模型生成高质量图像

    在快速发展的生成AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3
    的头像 发表于 01-03 10:38 1333次阅读
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高质量<b class='flag-5'>图像</b>