0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多模态图像合成与编辑方法

OpenCV学堂 来源:机器之心 作者:机器之心 2022-08-23 09:12 次阅读

本篇综述通过对现有的多模态图像合成与编辑方法的归纳总结,对该领域目前的挑战和未来方向进行了探讨和分析。

近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等实现了令人惊叹的文字到图像的生成效果,引发了广泛关注并且衍生出了很多有趣的应用。而文字到图像的生成属于多模态图像合成与编辑领域的一个典型任务。 近日,来自马普所和南洋理工等机构的研究人员对多模态图像合成与编辑这一大领域的研究现状和未来发展做了详细的调查和分析。

d78635d0-2230-11ed-ba43-dac502259ad0.png

论文地址:https://arxiv.org/pdf/2112.13592.pdf

项目地址:https://github.com/fnzhan/MISE

d79dbe8a-2230-11ed-ba43-dac502259ad0.png

在第一章节,该综述描述了多模态图像合成与编辑任务的意义和整体发展,以及本论文的贡献与总体结构。 在第二章节,根据引导图片合成与编辑的数据模态,该综述论文介绍了比较常用的视觉引导(比如 语义图,关键点图,边缘图),文字引导,语音引导,场景图(scene graph)引导和相应模态数据的处理方法以及统一的表示框架。 在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于 GAN 的方法,自回归方法,扩散模型方法,和神经辐射场(NeRF)方法。

d7c3cb8e-2230-11ed-ba43-dac502259ad0.png

d7d3ffe0-2230-11ed-ba43-dac502259ad0.png

由于基于 GAN 的方法一般使用条件 GAN 和 无条件 GAN 反演,因此该论文将这一类别进一步分为模态内条件(例如语义图,边缘图),跨模态条件(例如文字和语音),和 GAN 反演(统一模态)并进行了详细描述。

d7e7efe6-2230-11ed-ba43-dac502259ad0.png

相比于基于 GAN 的方法,自回归模型方法能够更加自然的处理多模态数据,以及利用目前流行的 Transformer 模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为 token 序列,然后自回归式地建模 token 的分布。由于文本和语音等数据都能表示为 token 并作为自回归建模的条件,因此各种多模态图片合成与编辑任务都能统一到一个框架当中。

d7f91f32-2230-11ed-ba43-dac502259ad0.png

d80fe2f8-2230-11ed-ba43-dac502259ad0.png

近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的 DALLE-2 和 Imagen 都是基于扩散模型实现的。相比于 GAN,扩散式生成模型拥有一些良好的性质,比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。

d8239028-2230-11ed-ba43-dac502259ad0.png

d83650f0-2230-11ed-ba43-dac502259ad0.png

以上方法主要聚焦于 2D 图像的多模态合成与编辑。近期随着神经辐射场(NeRF)的迅速发展,3D 感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性,3D 感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化 NeRF,生成式 NeRF 和 NeRF 反演的三种方法对现有工作进行了分类与总结。 随后,该综述对以上四种模型方法的进行了比较和讨论。总体而言,相比于 GAN,目前最先进的模型更加偏爱自回归模型和扩散模型。而 NeRF 在多模态合成与编辑任务的应用为这个领域的研究打开了一扇新的窗户。

d84df174-2230-11ed-ba43-dac502259ad0.png

在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。 在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及 3D 感知的发展方向。 在第六和第七章节,该综述分别阐述了此领域潜在的社会影响和总结了文章的内容与贡献。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5862

    浏览量

    103269
  • 数据
    +关注

    关注

    8

    文章

    6513

    浏览量

    87609
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40042

原文标题:多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于通道分类合成的SAR图像分类研究

    利用SVM对不同通道的数据分别进行分类,然后利用粒度合成理论对不同的分类结果进行合并,最后实现通道SAR数据图像分类。本文重点论述了利用该方法进行SAR
    发表于 04-23 11:52

    高分辨率合成孔径雷达图像的直线特征尺度提取方法

    针对传统的合成孔径雷达(SAR)尺度边缘提取方法中直线提取连续性和完整性不好的特点,提出了一个由粗到精的多分辨率SAR图像直线特征多级提取框架,利用
    发表于 05-06 09:04

    基于应变模态和贝叶斯方法的杆件损伤识别

    基于应变模态和贝叶斯方法的杆件损伤识别 提出了一种基于空间杆系结构应变模态和贝叶斯统计方法的损伤识别方法。对于空间杆系结构,认为其杆件只承受
    发表于 10-24 15:02 15次下载

    基于双残差超密集网络的多模态医学图像融合方法

    Networks, DRHDNS)的多模态医学图像融合方法。 DRHDNS分为特征提取和特征融合两部分。特征提取部分通过将超密集连接与残差学习相结合,构造出双残差超密集块,用于提取特征,其中超密集连接不仅发生在同一路径的层之间
    发表于 04-14 11:18 19次下载
    基于双残差超密集网络的多<b class='flag-5'>模态</b>医学<b class='flag-5'>图像</b>融合<b class='flag-5'>方法</b>

    基于联合压缩感知的多模态目标统一跟踪方法

    针对多模态目标跟踪中大多仅考虑单个图像的异种特征融合或不同模态图像的同种特征融合,为了使得这两者间能自然集成,提出基于联合压缩感知的多模态
    发表于 04-27 15:59 0次下载
    基于联合压缩感知的多<b class='flag-5'>模态</b>目标统一跟踪<b class='flag-5'>方法</b>

    光场图像基线编辑方法综述

    图像重定向是图像编辑中的一个基本问题,主要硏究根据具体应用要求对图像内容进行重构。当前针对光场图像角度和空间超分辨率以外的重定向的硏究尚属空白。提岀了一种光场
    发表于 06-03 15:42 0次下载

    基于耦合字典学习与图像正则化的跨模态检索

    基于耦合字典学习与图像正则化的跨模态检索
    发表于 06-27 11:23 39次下载

    简述文本与图像领域的多模态学习有关问题

    来自:哈工大SCIR 本期导读:近年来研究人员在计算机视觉和自然语言处理方向均取得了很大进展,因此融合了二者的多模态深度学习也越来越受到关注。本期主要讨论结合文本和图像的多模态任务,将从多模态
    的头像 发表于 08-26 16:29 6413次阅读

    ImageBind:跨模态之王,将6种模态全部绑定!

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的
    的头像 发表于 05-11 09:30 679次阅读
    ImageBind:跨<b class='flag-5'>模态</b>之王,将6种<b class='flag-5'>模态</b>全部绑定!

    图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的
    的头像 发表于 05-26 15:45 572次阅读
    用<b class='flag-5'>图像</b>对齐所有<b class='flag-5'>模态</b>,Meta开源多感官AI基础模型,实现大一统

    以四点法为例讲解模态识别方法

    导读:模态分析是研究结构动力特性一种近代方法,是系统辨别方法在工程振动领域中的应用。模态是机械结构的固有振动特性,每一个模态具有特定的固有频
    的头像 发表于 08-24 11:42 2188次阅读
    以四点法为例讲解<b class='flag-5'>模态</b>识别<b class='flag-5'>方法</b>

    顶刊TPAMI 2023!生成式AI与图像合成综述发布!

    近期,火热的扩散模型也被广泛应用于多模态合成编辑任务。例如效果惊人的DALLE-2和Imagen都是基于扩散模型实现的。相比于GAN,扩散式生成模型拥有一些良好的性质,比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训
    的头像 发表于 09-05 16:06 448次阅读
    顶刊TPAMI 2023!生成式AI与<b class='flag-5'>图像</b><b class='flag-5'>合成</b>综述发布!

    探究编辑模态大语言模型的可行性

    不同于单模态模型编辑,多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态模型
    发表于 11-09 14:53 256次阅读
    探究<b class='flag-5'>编辑</b>多<b class='flag-5'>模态</b>大语言模型的可行性

    基于几何分析的神经辐射场编辑方法

    神经辐射场作为近期一个广受关注的隐式表征方法,能合成照片级真实的多视角图像。但因为其隐式建模的性质,用户难以直观编辑神经辐射场建模对象的几何。面对这一问题,最新被IEEE TPAMI接
    的头像 发表于 11-20 16:56 262次阅读
    基于几何分析的神经辐射场<b class='flag-5'>编辑</b><b class='flag-5'>方法</b>

    大模型+多模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强
    的头像 发表于 12-13 13:55 731次阅读
    大模型+多<b class='flag-5'>模态</b>的3种实现<b class='flag-5'>方法</b>