0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

放下你的PhotoShop!无限图像编辑已开源!

3D视觉工坊 来源:3D视觉工坊 2023-12-10 10:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

0. 笔者个人体会

最近文本到图像的工作很火,生成的图像也非常真实。但还有个问题,现有工作效率比较低,往往只能接受一次text指令,再修改就要重新输入text重新生成,可能会影响原本的语义信息,这样导出的图像和最初图像可能差距甚远。

今天笔者将为大家分享一项最新开源的工作LEDITS++,可以一次输入无限多的编辑指令,一次性生成真实图像!而且LEDITS++是无参数方案,不需要微调和优化。不得不感慨AI发展之迅速,距离人们真实生活也越来越近了。

下面一起来阅读一下这项工作,文末附论文和代码链接~

1. 效果展示

先看一下具体效果,输入具体指令就可以直接产生对应效果。PS要想在几十秒内达到同等效果应该是有点困难。

27892dc0-96ad-11ee-8b88-92fbcf53809c.png

LEDITS++很强调编辑前后的图像一致性,也就是仅修改图像的相关区域,保持原始图像的语义信息。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

27a9e4fc-96ad-11ee-8b88-92fbcf53809c.png

代码已经开源了,官方主页也开放了交互式demo,感兴趣的读者可以上传自己的图像和文本指令尝鲜一下效果。

2. 具体原理是什么?

LEDITS++可以分为三个部分:(1)有效的图像反转;(3)多功能文本编辑;(3)图像变化的语义基础。

我们知道扩散模型生成图像是通过反转采样来进行的,重点是识别噪声。LEDITS++从DDPM反演中提取特征,并提出一种有效的反演方法,大大减少所需的步骤,同时降低重建误差。当将反向扩散过程公式化为SDE时,DDPM可以被视为一阶SDE解算器。使用高阶微分方程解算器可以更有效地解算,因此作者推导出一种新的更快技术------DPM-solver++反演。

27cde406-96ad-11ee-8b88-92fbcf53809c.png

在创建重建序列之后,可以通过一组编辑指令操纵噪声来编辑图像。根据有条件和无条件估计,作者分别设计了一个专门的引导项,既反映了编辑的方向,又最大化了对所需编辑效果的细粒度控制。

27ef003c-96ad-11ee-8b88-92fbcf53809c.png

最后,LEDITS++还包括一个Mask项,由交叉注意层生成的Mask和噪声估计导出的Mask取交集计算得到。Mask可以捕捉与编辑概念相关的图像区域,对于多次编辑特别有效。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

2815c21c-96ad-11ee-8b88-92fbcf53809c.png

3. 和其他SOTA方法对比如何?

不同编辑方法的指令对齐和图像相似度权衡的比较,侧重CLIP得分(越高越好)与LPIPS相似度(越低越好),也就是图中越靠近左上角效果越好。

282ecd02-96ad-11ee-8b88-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1095

    浏览量

    42157
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296542
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45566

原文标题:放下你的PhotoShop!无限图像编辑已开源!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于开源鸿蒙的图片编辑开发样例(2)

    本期内容介绍基于开源鸿蒙在RK3568上开发图片编辑样例的全流程,分为上篇和下篇,本篇为下篇,主要介绍标记、保存图片功能。
    的头像 发表于 10-31 09:19 2779次阅读
    基于<b class='flag-5'>开源</b>鸿蒙的图片<b class='flag-5'>编辑</b>开发样例(2)

    基于开源鸿蒙的图片编辑开发样例(1)

    本期内容介绍基于开源鸿蒙在RK3568上开发图片编辑样例的全流程,分为上篇和下篇,本篇为上篇,主要介绍添加相册图片、编译图片功能。
    的头像 发表于 10-31 09:16 2761次阅读
    基于<b class='flag-5'>开源</b>鸿蒙的图片<b class='flag-5'>编辑</b>开发样例(1)

    迅龙软件亮相2025开放原子开源生态大会,共绘AI+开源智能图景

    7月23日,2025开放原子开源生态大会在北京举行。大会由开放原子开源基金会主办,以“开源赋能产业,生态共筑未来”为主题,旨在展示中国开源生态“创新发展+开放协作”的成果,汇聚全球
    的头像 发表于 07-25 18:15 1026次阅读
    迅龙软件亮相2025开放原子<b class='flag-5'>开源</b>生态大会,共绘AI+<b class='flag-5'>开源</b>智能图景

    开源交通行业应用实践分论坛即将召开

    当前,全球开源生态蓬勃发展,赋予产业升级创新之力,开拓数字经济时代的无限机遇。开源鸿蒙作为万物智联时代的全场景智能终端操作系统,在交通领域落地生根,正在打造更具影响力的“中国方案”与“中国标准”,为全球智慧交通发展注入创新动能。
    的头像 发表于 07-23 09:53 659次阅读

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和 NVIDIA Jetson 加速运行。
    的头像 发表于 07-16 09:16 1862次阅读

    拥抱开源!一起来做FPGA开发板啦!

    ,发起“拥抱开源——一起来做FPGA开发板” 项目!无论是FPGA领域的资深开发者,渴望探索国产芯片的无限可能;还是初入茅庐的技术小白,想要在实践中学习成长;亦或是对硬件开发充满热情的爱好者,希望亲手
    发表于 06-06 14:05

    开源鸿蒙开发者大会2025·AI分论坛圆满闭幕,探索开源鸿蒙AI无限可能

    5月24日,开源鸿蒙开发者大会2025·AI分论坛在深圳蛇口希尔顿南海酒店成功举办。活动特邀学术领袖、开源专家、行业先锋和社区开发者,从终端操作系统、国产大模型、智能体、算力芯片、应用场景、机器人等
    的头像 发表于 05-26 18:06 1362次阅读
    <b class='flag-5'>开源</b>鸿蒙开发者大会2025·AI分论坛圆满闭幕,探索<b class='flag-5'>开源</b>鸿蒙AI<b class='flag-5'>无限</b>可能

    从初学到进阶:树莓派上最适合的代码编辑器推荐!

    之前,需要安装一些必备工具,代码编辑器便是其中之一。树莓派系统自带了一些代码编辑器,它们功能良好,足以满足基本需求。不过,如果需要更高级的功能,就必须探索其他
    的头像 发表于 05-15 16:20 786次阅读
    从初学到进阶:树莓派上最适合<b class='flag-5'>你</b>的代码<b class='flag-5'>编辑</b>器推荐!

    Vim编辑器的基本操作

    26个字母键为核心,用极简的操作重构了代码编辑的宇宙。今天,就让我们一同走进Vim的世界,探索它如何以独特的方式提升的编程效率。
    的头像 发表于 05-06 13:41 969次阅读
    Vim<b class='flag-5'>编辑</b>器的基本操作

    TIDA-00570板子的FPGA程序能开放下载吗?

    TIDA-00570 板子的FPGA程序能开放下载吗?
    发表于 02-20 07:07

    SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

      背景简介 随着图像编辑工具和图像生成技术的快速发展,图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影(操作痕迹),这些伪影可分为语义和非语义特征。因此目前几乎所有的
    的头像 发表于 01-15 09:30 809次阅读
    SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

    开源鸿蒙技术分论坛在武汉成功举办

    举行。本次论坛通过南北向开发赋能,融合前沿的行业案例经验,生动展现了开源鸿蒙在驱动技术创新与产业升级中的优势与无限潜能。 开源技术引领变革,构建枝繁叶茂生态体系 在万物智联的时代浪潮中,开源
    的头像 发表于 12-24 13:38 1122次阅读

    与鸿同行,探索无限开源鸿蒙技术分论坛在武汉成功举办

    。本次论坛通过南北向开发赋能,融合前沿的行业案例经验,生动展现了开源鸿蒙在驱动技术创新与产业升级中的优势与无限潜能。开源技术引领变革,构建枝繁叶茂生态体系在万物智联的
    的头像 发表于 12-23 21:29 1476次阅读
    与鸿同行,探索<b class='flag-5'>无限</b>!<b class='flag-5'>开源</b>鸿蒙技术分论坛在武汉成功举办

    高倍金相自动测量显微镜无限远光学系统

    高倍金相自动测量显微镜无限远光学系统在无限远处形成图像,是通过在物镜与目镜之间的主镜筒中设置镜筒透镜,构建了一个能够形成中间图像的光学系统。并可以灵活添加各种辅助组件,丰富了显微镜的功
    的头像 发表于 12-14 20:31 1321次阅读
    高倍金相自动测量显微镜<b class='flag-5'>无限</b>远光学系统