0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

伯克利AI实验室开源图像编辑模型InstructPix2Pix,简化生成图像编辑并提供一致结果

jf_WZTOguxH 来源:AI前线 2023-08-28 15:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自伯克利人工智能研究(BAIR)实验室的研究人员开源深度学习模型 InstructPix2Pix,它可以遵循人类指令来编辑图像。InstructPix2Pix 在合成数据上进行训练,表现优于基线 AI 图像编辑模型。

BAIR 团队在最近举行的 2023 年 IEEE/CVF 计算机视觉和模式识别(CVPR)大会上展示了他们的工作成果。他们先是生成了一个合成训练数据集,其中的训练样本是成对的图像以及用于将第一幅图像转换为第二幅图像的编辑指令。该数据集用于训练图像生成扩散模型,该模型可以接受基于文本的指令来编辑图像。例如,给定一张骑马的人的图片和提示词“让她变成骑龙”,它会输出原始图片,但原来的马被替换了龙。BAIR 的研究人员的表示:

尽管模型完全是在合成样本上进行训练的,但它实现了对任意真实图像和人类自然语言指令的零样本泛化。我们的模型能够进行直观的图像编辑,可以遵循人类指令执行多种编辑:替换对象、改变图像风格、修改设置、艺术媒介等。

之前的 AI 图像编辑能力通常是进行风格转换,流行的文本到图像生成模型(如 DALL-E 和 Stable Diffusion)也支持图像到图像风格转换操作。然而,使用这些模型进行有针对性的编辑仍然具有挑战性。最近,InfoQ 报道了微软的 Visual ChatGPT,它可以调用外部工具来编辑图像,前提是提供编辑操作的文本描述。

为了训练 InstructPix2Pix,BAIR 首先创建了一个合成数据集。为此,团队在一个由输入文字说明、编辑指令和期望输出文字说明组成的人类文本样本的小数据集上对 GPT-3 进行了微调。然后,这个微调模型被给予一个大型的输入图像文字说明数据集,从中生成了超过 450k 次编辑和输出文字说明。然后,团队将输入和输出文字说明馈送到预训练的 Prompt-to-Prompt 模型中,该模型根据文字说明生成成对的相似图像。

d051acec-4564-11ee-a2ef-92fbcf53809c.jpg

InstructPix2Pix 的架构,图片来源:https://arxiv.org/abs/2211.09800

研究人员鉴于这个数据集训练了基于 Stable Diffusion 的 InstructPix2Pix。为了评估其性能,团队将其输出与基线模型 SDEdit 进行了比较。他们使用两个指标之间的权衡:一致性(即输入图像和编辑后图像的 CLIP 嵌入之间的余弦相似度)和方向相似性(即编辑后文字说明中的变化与编辑后图像的变化在多大程度上保持一致)。在实验中,对于给定的方向相似性值,InstructPix2Pix 产生的图像比 SDEdit 具有更高的一致性。

人工智能研究员吴恩达在他的深度学习新闻邮件组“The Batch”中评价了 InstructPix2Pix:

这项工作简化了生成和人造图像的编辑操作,并提供了更一致的结果。巧妙地利用现有模型,模型作者能够使用相对较少的人类标记样本在新任务上训练他们的模型。

InstructPix2Pix 的代码可在 GitHub 上获取,模型和基于 Web 的演示可在 Huggingface 上访问。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Web
    Web
    +关注

    关注

    2

    文章

    1309

    浏览量

    75010
  • 人工智能
    +关注

    关注

    1821

    文章

    50366

    浏览量

    267025
  • 模型
    +关注

    关注

    1

    文章

    3831

    浏览量

    52281
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26262

原文标题:伯克利 AI 实验室开源图像编辑模型 InstructPix2Pix,简化生成图像编辑并提供一致结果

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    真精密仪器助力AI+仪器领域北京市重点实验室揭牌

    4月18日,由北京航空航天大学牵头,真精密仪器与松延动力共同参与建设的“人工智能全自动化实验室关键共性技术”北京市重点实验室启动会在北京航空航天大学隆重举行。
    的头像 发表于 04-23 09:43 414次阅读

    真精密仪器获批建设智能仪器方向北京市重点实验室

    近期,由北京航空航天大学牵头,真精密仪器与松延动力共同参与建设的“人工智能全自动化实验室关键共性技术北京市重点实验室”正式获批。这是真精密仪器面向人工智能赋能科学仪器和科学研究领域
    的头像 发表于 03-30 14:04 521次阅读

    NVIDIA 成立由全球领先 AI 实验室组成的 Nemotron Coalition,推动开放前沿模型发展

    新闻摘要: ● NVIDIA Nemotron Coalition 是模型构建者和 AI 实验室的首个此类全球合作项目,致力于通过共享专业知识、数据和计算来推进开放前沿基础模型的发展。
    的头像 发表于 03-17 11:14 320次阅读
    NVIDIA 成立由全球领先 <b class='flag-5'>AI</b> <b class='flag-5'>实验室</b>组成的 Nemotron Coalition,推动开放前沿<b class='flag-5'>模型</b>发展

    大晓机器人开源实时生成世界模型Kairos 3.0-4B

    因果一致、跨本体泛化、超长时交互、云侧实时生成、轻量化高效能、端侧本体控制” 为核心优势,性能全面领跑国内外主流具身世界模型
    的头像 发表于 03-14 16:54 2022次阅读
    大晓机器人<b class='flag-5'>开源</b>实时<b class='flag-5'>生成</b>世界<b class='flag-5'>模型</b>Kairos 3.0-4B

    NVIDIA 推出 Alpamayo 系列开源 AI 模型与工具,加速安全可靠的推理型辅助驾驶汽车开发

    的仿真工具和数据集。 l Alpamayo 1、AlpaSim 和物理 AI 开放数据集可为开发具备感知、推理与类人决策能力的车辆提供支持,使开发者能够进行模型调优、蒸馏和测试,从而提升安全性、鲁棒性
    的头像 发表于 01-06 09:40 522次阅读
    NVIDIA 推出 Alpamayo 系列<b class='flag-5'>开源</b> <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>与工具,加速安全可靠的推理型辅助驾驶汽车开发

    钉钉正式开源HarmonyOS图片编辑组件

    近日,由钉钉团队自主研发的“HarmonyOS图片编辑组件”正式上线OpenHarmony三方库中心仓并开源。作为款填补鸿蒙社区图像处理领域空白的重量级组件,该方案基于Harmony
    的头像 发表于 01-05 09:58 688次阅读

    江波龙与华曦达联合创新实验室揭牌,共建AI存储创新生态

    切入点,旨在构建覆盖端侧AI设备与智能家庭场景的技术验证体系。实验室秉承开源协作理念,致力于解决存储与AI终端适配中的关键痛点,形成从联合调试、场景验证到可靠性评估的全流程
    的头像 发表于 12-05 13:36 1602次阅读
    江波龙与华曦达联合创新<b class='flag-5'>实验室</b>揭牌,共建<b class='flag-5'>AI</b>存储创新生态

    使用Firebase AI Logic生成图像模型的两种新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两种新功能: 其
    的头像 发表于 11-30 09:28 567次阅读

    Solidigm 成立AI中央实验室,配备高性能、大密度存储测试集群

    实验室汇聚AI与存储专业技术,为Solidigm合作者提供研究和优化存储对AI工作负载影响的平台。 2025年10月9日,北京 ——企业数据存储领域领导者 Solidigm正式揭幕其
    的头像 发表于 10-10 17:03 974次阅读

    代超大模型训练引擎XTuner V1开源

    9月8日,上海人工智能实验室(上海AI实验室)开源书生大模型代训练引擎XTuner V1。
    的头像 发表于 09-10 10:55 1362次阅读

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    能够有效捕捉AI生成图像与真实手绘扫描图像在纹理、笔触、光影、全局一致性等方面的细微差异。 边缘端部署:将
    发表于 08-21 13:59

    NVIDIA RTX AI加速FLUX.1 Kontext系列图像模型

    Black Forest Labs,作为全球顶尖 AI 研究实验室,为图像生成领域带来颠覆性变革。
    的头像 发表于 08-05 16:27 1347次阅读
    NVIDIA RTX <b class='flag-5'>AI</b>加速FLUX.1 Kontext系列<b class='flag-5'>图像</b><b class='flag-5'>模型</b>

    利用NVIDIA 3D引导生成AI Blueprint控制图像生成

    AI 赋能的图像生成技术突飞猛进,从早期模型生成手指过多的人类图像,到现在能创造出令人惊叹的逼
    的头像 发表于 06-05 09:24 1025次阅读

    中软国际中标启元实验室生成平台功能模块建设开发项目

    近日,中软国际成功中标“启元实验室生成平台功能模块建设开发项目”。该项目作为启元实验室智能化平台体系的重要组成部分,主要实现生成平台内外部子系统数据对接、模拟数据注入,并实现统
    的头像 发表于 05-26 16:43 1197次阅读

    Gemini API集成Google图像生成模型Imagen 3

    开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放,不久后也将面向免费用户推出。
    的头像 发表于 05-14 16:53 1465次阅读