0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DragGAN开源效果如何

CVer 来源:CVer 2023-06-30 10:57 次阅读

动动鼠标,让图片变「活」,成为你想要的模样。

AIGC 的神奇世界里,我们可以在图像上通过「拖曳」的方式,改变并合成自己想要的图像。比如让一头狮子转头并张嘴:

bbf71f9a-1696-11ee-962d-dac502259ad0.gif

实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文,于上个月放出并已被 SIGGRAPH 2023 会议接收。 一个多月过去了,该研究团队于近日放出了官方代码。短短三天时间,Star 量便已突破了 23k,足可见其火爆程度。 bc050452-1696-11ee-962d-dac502259ad0.png GitHub 地址:https://github.com/XingangPan/DragGAN 无独有偶,今日又一项类似的研究 —— DragDiffusion 进入了人们的视线。此前的 DragGAN 实现了基于点的交互式图像编辑,并取得像素级精度的编辑效果。但是也有不足,DragGAN 是基于生成对抗网络(GAN),通用性会受到预训练 GAN 模型容量的限制。 在新研究中,新加坡国立大学和字节跳动的几位研究者将这类编辑框架扩展到了扩散模型,提出了 DragDiffusion。他们利用大规模预训练扩散模型,极大提升了基于点的交互式编辑在现实世界场景中的适用性。 虽然现在大多数基于扩散的图像编辑方法都适用于文本嵌入,但 DragDiffusion 优化了扩散潜在表示,实现了精确的空间控制。 bc712b5a-1696-11ee-962d-dac502259ad0.png

论文地址:https://arxiv.org/abs/2306.14435

项目地址:https://yujun-shi.github.io/projects/dragdiffusion.html

研究者表示,扩散模型以迭代方式生成图像,而「一步」优化扩散潜在表示足以生成连贯结果,使 DragDiffusion 高效完成了高质量编辑。 他们在各种具有挑战性的场景(如多对象、不同对象类别)下进行了广泛实验,验证了 DragDiffusion 的可塑性和通用性。相关代码也将很快放出、 下面我们看看 DragDiffusion 效果如何。 首先,我们想让下图中的小猫咪的头再抬高一点,用户只需将红色的点拖拽至蓝色的点就可以了:

接下来,我们想让山峰变得再高一点,也没有问题,拖拽红色关键点就可以了:

bca03da0-1696-11ee-962d-dac502259ad0.gif

还想让雕塑的头像转个头,拖拽一下就能办到:

bccdd8b4-1696-11ee-962d-dac502259ad0.gif

让岸边的花,开的范围更广一点:

方法介绍 本文提出的 DRAGDIFFUSION 旨在优化特定的扩散潜变量,以实现可交互的、基于点的图像编辑。 为了实现这一目标,该研究首先在扩散模型的基础上微调 LoRA,以重建用户输入图像。这样做可以保证输入、输出图像的风格保持一致。 接下来,研究者对输入图像采用 DDIM inversion(这是一种探索扩散模型的逆变换和潜在空间操作的方法),以获得特定步骤的扩散潜变量。 在编辑过程中,研究者反复运用动作监督和点跟踪,以优化先前获得的第 t 步扩散潜变量,从而将处理点的内容「拖拽(drag)」到目标位置。编辑过程还应用了正则化项,以确保图像的未掩码区域保持不变。 最后,通过 DDIM 对优化后的第 t 步潜变量进行去噪,得到编辑后的结果。总体概览图如下所示: bd0420f4-1696-11ee-962d-dac502259ad0.png实验结果 给定一张输入图像,DRAGDIFFUSION 将关键点(红色)的内容「拖拽」到相应的目标点(蓝色)。例如在图(1)中,将小狗的头转过来,图(7)将老虎的嘴巴合上等等。 ‍ 下面是更多示例演示。如图(4)将山峰变高,图(7)将笔头变大等等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    2986

    浏览量

    41720
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47689

原文标题:DragGAN重磅开源!扩散模型版的DragDiffusion也来了!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    adxl加速度mems测量低频振动的效果如何?

    之前选用了adxl372 和adxl345,我想请问一下,这些mems对低频振动的检测效果如何 目前项目需求测量0.5Hz-1000kHz频率的振动,量程大概在±20g 以上两种mems是否满足。
    发表于 12-28 07:09

    如何实现在图标图像中实现一个点,效果如下图

    如何实现在图标图像中实现一个点,效果如下图,红色的点可以动。坐标为(x°,Y°)
    发表于 07-13 08:39

    LabVIEW中图像滤波Vi以及实现效果如何实现

    新手求助!!!LabVIEW中图像滤波Vi以及实现效果如何实现,能提供子Vi最好先谢谢大神
    发表于 01-11 22:58

    VL53L1水下使用效果如何?

    我知道旧的vl6180x在水下工作,但我找不到任何有关VL53L1的信息。有人试过吗?如果是这样,它的效果如何?我主要关注接近检测/距离测量,但有限的手势/运动检测将是一个很好的奖励
    发表于 04-15 09:23

    请问AT24C64和MX25L6406E效果如何?

    想试试AT24C64,MX25L6406E看看效果如何,不知道是否有人试过
    发表于 08-06 02:39

    ESP-NOW作为STA连接到WiFi时,在不同信道上的传输效果如何?

    ESP-NOW 作为 STA 连接到 WiFi 时,在不同信道上的传输效果如何?如果试图查找/发现可能在不同频道上的设备,它是否必须从 AP 断开连接()然后 de-init()/重新初始化()或者
    发表于 02-21 07:26

    CJMCU-115或者GY-33传感器的效果如何,是否没有色差?

    CJMCU-115或者GY-33传感器的效果如何,是否没有色差?
    发表于 10-17 06:01

    空调制热效果如何?空调制热多少度最合适?

    空调制热效果如何? 首先,空调不制热并不能说明是空调本身的质量出了问题,因为空调制热也受到外界低温条件的影响。陈先
    发表于 11-22 16:52 6528次阅读

    电销机器人的使用效果如何?

    电销机器人投入到电销行业的使用已经有一段时间了,有些企业定制的机器人服务也已经开始进入工作流程,使用效果如何也开始得到反馈。那么这些使用了电销机器人的企业的业绩怎么样了呢?某房地产公司使用了我们
    发表于 07-06 14:01 680次阅读

    i9-9900K开盖 使用了钎焊散热后实际效果如

    2010年的第二代酷睿(Sandy Bridge)之后,高级钎焊散热终于在九代酷睿(Coffee Lake-S Refresh)上回归,首批三款K系列型号都抛弃了一直备受诟病的普通硅脂散热,那么实际效果如何呢?
    发表于 10-22 11:16 3w次阅读

    EE-26:AD184x Sigma Delta转换器:它们使用直流输入的效果如何?

    EE-26:AD184x Sigma Delta转换器:它们使用直流输入的效果如何?
    发表于 04-17 17:21 7次下载
    EE-26:AD184x Sigma Delta转换器:它们使用直流输入的<b class='flag-5'>效果如</b>何?

    Catalinbread Formula No 5效果开源

    电子发烧友网站提供《Catalinbread Formula No 5效果开源.zip》资料免费下载
    发表于 07-26 11:16 0次下载
    Catalinbread Formula No 5<b class='flag-5'>效果</b>器<b class='flag-5'>开源</b>

    AI图像编辑技术DragGAN开源,拖动鼠标即可改变人物笑容

    DragGAN是一个直观的图像编辑工具PM系统(www.multiable.com.cn),用户只需要控制图像中的像素点和方向,就可以快速调整照片主体的位置、姿态、表情、大小和角度等。
    的头像 发表于 06-29 10:34 620次阅读

    你的DragGAN并不需要点跟踪!中科大和上海AI Lab提出FreeDrag:无需点跟踪即可稳定拖动语义内容

    这一惊人效果来自于发表在SIGGRAPH 2023会议上的 [Drag Your GAN] 论文(简称为DragGAN)。并且DragGAN的代码一经发出就在短短几周内狂揽30K star,引发广大
    的头像 发表于 07-13 14:36 334次阅读

    大象转身,TPU-MLIR适配DragGAN模型前向操作

    DragGANDragGAN是由谷歌、麻省理工学院和马克斯普朗克研究所创建的一种新的人工智能模型。通过点击、拖动等简单的交互操作就能改变拍摄对象的姿势、形状和表情等。DragGAN改变了传统的PS
    的头像 发表于 10-10 10:17 423次阅读
    大象转身,TPU-MLIR适配<b class='flag-5'>DragGAN</b>模型前向操作