0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

顶刊TPAMI 2023!生成式AI与图像合成综述发布!

CVer 来源:CVer 2023-09-05 16:06 次阅读

生成式AI作为当前人工智能领域的前沿技术,已被广泛的应用于各类视觉合成任务。

随着DALL-E2,Stable Diffusion和DreamFusion的发布,AI作画和3D合成实现了令人惊叹的视觉效果并且在全球范围内的爆炸式增长。这些生成式AI技术深刻地拓展了人们对于AI图像生成能力的认识,那么这些生成式AI方法是如何生成以假乱真的视觉效果?又是如何利用深度学习神经网络技术来实现画作、3D生成以及其他创造性任务的呢?我们的综述论文将会给您提供这些问题的答案。

在第一章节,该综述描述了多模态图像合成与编辑任务的意义和整体发展,以及本论文的贡献与总体结构。

在第二章节,根据引导图片合成与编辑的数据模态,该综述论文介绍了比较常用的视觉引导,文字引导,语音引导,还有近期DragGAN提出的控制点引导等,并且介绍了相应模态数据的处理方法。

0f2b7d1c-4baa-11ee-a25d-92fbcf53809c.png

在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于GAN的方法,扩散模型方法,自回归方法,和神经辐射场(NeRF)方法。

0f740ab4-4baa-11ee-a25d-92fbcf53809c.png

由于基于GAN的方法一般使用条件GAN和 GAN 反演,因此该论文进一步根据 控制条件的融合方式,模型的结构,损失函数设计,多模态对齐,和跨模态监督进行了详细描述。

0f9677de-4baa-11ee-a25d-92fbcf53809c.png

近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的DALLE-2和Imagen都是基于扩散模型实现的。相比于GAN,扩散式生成模型拥有一些良好的性质,比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。

0fc94f24-4baa-11ee-a25d-92fbcf53809c.png

0fe73688-4baa-11ee-a25d-92fbcf53809c.png

相比于基于GAN和扩散模型的方法,自回归模型方法能够更加自然的处理多模态数据,以及利用目前流行的Transformer模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为token序列,然后自回归式地建模token的分布。由于文本和语音等数据都能表示为token并作为自回归建模的条件,因此各种多模态图片合成与编辑任务都能统一到一个框架当中。

1022b80c-4baa-11ee-a25d-92fbcf53809c.png

以上方法主要聚焦于2D图像的多模态合成与编辑。近期随着神经辐射场(NeRF)的迅速发展,3D感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性,3D感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化NeRF,生成式NeRF两种方法对现有工作进行了分类与总结。

104b6d92-4baa-11ee-a25d-92fbcf53809c.png

随后,该综述对以上四种模型方法的进行了比较和讨论。总体而言,相比于GAN,目前最先进的模型更加偏爱自回归模型和扩散模型。而NeRF在多模态合成与编辑任务的应用为这个领域的研究打开了一扇新的窗户。

10867eb4-4baa-11ee-a25d-92fbcf53809c.png

在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。同时也对多种模态同时控制生成的结果进行了可视化。

10a7b61a-4baa-11ee-a25d-92fbcf53809c.png

在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及3D感知的发展方向。

在第六和第七章节,该综述分别阐述了此领域潜在的社会影响和总结了文章的内容与贡献。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1064

    浏览量

    40042
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24360
  • 生成式AI
    +关注

    关注

    0

    文章

    355

    浏览量

    224

原文标题:顶刊TPAMI 2023!生成式AI与图像合成综述发布!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    生成AI 制作动画:周期短、成本低!

    工作室和特效公司正广泛采用生成AI技术进行背景生成、角色创作和动作合成。这种技术的应用不仅提高了动画制作的效率,还使得动画作品在视觉效果和创意上有了更大的突破。
    的头像 发表于 03-18 08:19 2555次阅读
    <b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 制作动画:周期短、成本低!

    全球首个AI合成主播上岗新华社,可24小时不间断工作

    互联网大会上发布全球首个合成新闻主播——“AI合成主播”,运用最新人工智能技术,“克隆”出与真人主播拥有同样播报能力的“分身”。这不仅在全球AI
    发表于 11-17 09:25

    搜狗与新华社联合发布全球首个站立式AI合成主播

    ,新版的AI合成主播采用了“搜狗分身”领先的wavernn波形建模技术,可以实现逼真的语音合成效果,让AI的声音更具有真实情感和表现力。  而在图像
    发表于 02-25 09:28

    29页PPT,详细介绍Ouroboros的语音AI芯片

    阿里达摩院发布一款名为Ouroboros的语音AI芯片。据官方表示,这款芯片是业界首款专门用于语音合成算法的AI芯片,它基于FPGA芯片结构设计,能进一步提高语音
    发表于 10-16 16:32

    【HarmonyOS HiSpark AI Camera】AI图像开发

    项目名称:AI图像开发试用计划:申请理由本人在AI图像识别中已有一年的开发经验,目前正采用瑞芯微的rk1808芯片进行模型的落地部署,但是该芯片没有任何的摄像头方案,需要自己选取。目前
    发表于 09-25 10:11

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    转自https://m.ithome.com/html/714391.htm 2023 RISC-V 中国峰会8月23日在北京召开,平头哥在会上发布了首个自研 RISC-V AI 平台。 据介绍,该
    发表于 08-26 14:14

    基于LABVIEW编程的图像处理综述

    基于LABVIEW编程的图像处理综述
    发表于 09-09 10:11 37次下载

    多模态图像合成与编辑方法

    本篇综述通过对现有的多模态图像合成与编辑方法的归纳总结,对该领域目前的挑战和未来方向进行了探讨和分析。
    的头像 发表于 08-23 09:12 1024次阅读

    Stability AI开源图像生成模型Stable Diffusion

    Stable Diffusion 的很多用户已经公开发布生成图像的样例,Stability AI 的首席开发者 Katherine Crowson 在推特上分享了许多
    的头像 发表于 09-21 15:37 2606次阅读

    英伟达 GTC 2023上黄仁勋谈生成AI

    英伟达 GTC 2023上黄仁勋谈生成AI 黄教主在GTC 2023上大谈特谈生成AI,同时
    的头像 发表于 03-22 17:14 1659次阅读
    英伟达 GTC <b class='flag-5'>2023</b>上黄仁勋谈<b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>

    什么是生成AI生成AI的四大优势

    生成AI是一种特定类型的AI,专注于生成新内容,如文本、图像和音乐。这些系统在大型数据集上进行训练,并使用机器学习算法
    发表于 05-29 14:12 2766次阅读

    虹软图像深度恢复技术与生成AI的创新 生成AI助力

    当前,生成式人工智能(AI)技术的快速发展令人瞩目。它能够理解人类的描述,并在短时间内生成逼真的图像和视频。在生成
    发表于 06-21 09:06 309次阅读

    《开放加速规范AI服务器设计指南》发布,应对生成AI算力挑战

    北京2023年8月11日 /美通社/ -- 8月10日,在2023年开放计算社区中国峰会(OCP China Day 2023)上,《开放加速规范AI服务器设计指南》(以下简称《指南》
    的头像 发表于 08-14 09:49 516次阅读

    Stability AI试图通过新的图像生成人工智能模型保持领先地位

    Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大,而Stable Diffusion是许多其他文本到图像
    的头像 发表于 02-19 16:03 433次阅读
    Stability <b class='flag-5'>AI</b>试图通过新的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>人工智能模型保持领先地位

    UL Procyon AI 发布图像生成基准测试,基于Stable Diffusion

    UL去年发布的首个Windows版Procyon AI推理基准测试,以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精
    的头像 发表于 03-25 16:16 374次阅读