0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何去解决文本到图像生成的跨模态对比损失问题?

LiveVideoStack 来源:LiveVideoStack 作者:Google AI Blog 2021-06-15 10:07 次阅读

Google提出了一个跨模态对比学习框架来训练用于文本到图像合成的 GAN 模型,用于研究解决生成的跨模态对比损失问题。

从文本到图像的自动生成,如何训练模型仅通过一段文本描述输入就能生成具体的图像,是一项非常具有挑战性的任务。

与其它指导图像创建的输入类型相比,描述性句子是一种更直观、更灵活的视觉概念表达方式。强大的自动文本到图像的生成系统可以成为快速、有效的内容生产、制作工具,用于更多具有创造性的应用当中。

在CVPR 2021中,Google提出了一个跨模态对比生成对抗网络(XMC-GAN),训练用于文本到图像合成的 GAN 模型,通过模态间与模态内的对比学习使图像和文本之间的互信息最大化,解决文本到图像生成的跨模态对比损失问题。

poYBAGDIDJ-AfrniAADMgxcEq1k626.jpg

XMC-GAN 文本到图像合成模型中的模态间和模态内对比学习

XMC-GAN 被成功应用于三个具有挑战性的数据集:一个是MS-COCO 图像描述集合,另外两个是用Localized Narratives注释的数据集,一个是包括MS-COCO 图像(称为LN-COCO) ,另一个描述开放图像数据 (LN-OpenImages)。结果显示 XMC-GAN生成图像所描绘的场景相比于使用其它技术生成的图像质量更高,在每个方面都达到了最先进的水平。

pYYBAGDIDI-AdQkNAAB3Ifj0XNA593.jpg

MS-COCO对图像质量和文本对齐的人工评估

此外,XMC-GAN还在 LN-OpenImages 上进行了一系列训练和评估,这相比于 MS-COCO 更具有挑战性,由于数据集更大,图像涵盖主题范围更加广泛且复杂。

对于人类评估和定量指标,XMC-GAN 在多个数据集模型中相较之前有显著的改进。可以生成与输入描述非常匹配的高质量图像,包括更长,更详细的叙述,同时端到端模型的复杂度也相对较为简单,这代表了从自然语言描述生成图像的创造性应用的重大进步。

责任编辑:lq6

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40042
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1766

    浏览量

    67998

原文标题:XMC-GAN:从文本到图像的跨模态对比学习

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    李未可科技正式推出WAKE-AI多模态AI大模型

    文本生成、语言理解、图像识别及视频生成等多模态交互能力。   该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互,同时多
    发表于 04-18 17:01 280次阅读
    李未可科技正式推出WAKE-AI多<b class='flag-5'>模态</b>AI大模型

    NVIDIA Edify多模态架构升级,引领视觉生成式AI新纪元

    NVIDIA近日宣布,其用于视觉生成式AI的多模态架构Edify迎来重大更新,为开发者和视觉内容提供商带来前所未有的新功能。其中,3D资产生成功能的引入,极大地提升了AI图像
    的头像 发表于 03-27 10:22 133次阅读

    Stability AI试图通过新的图像生成人工智能模型保持领先地位

    Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大,而Stable Diffusion是许多其他文本图像
    的头像 发表于 02-19 16:03 432次阅读
    Stability AI试图通过新的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>人工智能模型保持领先地位

    自动驾驶和多模态大语言模型的发展历程

    模态大语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括图像分类、将
    发表于 12-28 11:45 212次阅读
    自动驾驶和多<b class='flag-5'>模态</b>大语言模型的发展历程

    高级检索增强生成技术(RAG)全面指南

    ChatGPT、Midjourney等生成式人工智能(GenAI)在文本生成文本图像生成等任务中表现出令人印象深刻的性能。
    的头像 发表于 12-25 15:16 2139次阅读
    高级检索增强<b class='flag-5'>生成</b>技术(RAG)全面指南

    任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2

    CoDi )模型,让一种模型统一多种模态成为可能。CoDi 不仅支持从单模态到单模态生成,还能接收多个条件输入以及多模态联合
    的头像 发表于 12-03 20:20 448次阅读
    任意<b class='flag-5'>文本</b>、视觉、音频混合<b class='flag-5'>生成</b>,多<b class='flag-5'>模态</b>有了强大的基础引擎CoDi-2

    模态大模型最全综述来了!

    其中最后一个表示监督信号是从图像本身中挖掘出来的,流行的方法包括对比学习、非对比学习和masked image建模。在这些方法之外,文章也进一步讨论了多模态融合、区域级和像素级
    的头像 发表于 09-26 16:42 1439次阅读
    多<b class='flag-5'>模态</b>大模型最全综述来了!

    基于扩散模型的图像生成过程

    近年来,扩散模型在文本图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。 不过仅凭
    的头像 发表于 07-17 11:00 2110次阅读
    基于扩散模型的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

    VisCPM:迈向多语言多模态大模型时代

    随着 GPT-4 和 Stable Diffusion 等模型多模态能力的突飞猛进,多模态大模型已经成为大模型迈向通用人工智能(AGI)目标的下一个前沿焦点。总体而言,面向图像文本
    的头像 发表于 07-10 10:05 462次阅读
    VisCPM:迈向多语言多<b class='flag-5'>模态</b>大模型时代

    基于文本图像模型的可控文本到视频生成

    文本到视频模型需要大量高质量的视频和计算资源,这限制了相关社区进一步的研究和应用。为了减少过度的训练要求,我们研究了一种新的高效形式:基于文本图像模型的可控文本到视频
    的头像 发表于 06-14 10:39 587次阅读
    基于<b class='flag-5'>文本</b>到<b class='flag-5'>图像</b>模型的可控<b class='flag-5'>文本</b>到视频<b class='flag-5'>生成</b>

    Meta开源文本如何生成音乐大模型

    年初,谷歌推出了音乐生成大模型 MusicLM,效果非常不错。有人称这比大火的 ChatGPT 还重要,几乎解决了音乐生成问题。近日,Meta 也推出了自己的文本音乐生成模型 Musi
    的头像 发表于 06-12 15:11 548次阅读
    Meta开源<b class='flag-5'>文本</b>如何<b class='flag-5'>生成</b>音乐大模型

    什么是生成式AI?生成式AI的四大优势

    生成式AI是一种特定类型的AI,专注于生成新内容,如文本图像和音乐。这些系统在大型数据集上进行训练,并使用机器学习算法生成与训练数据相似的
    发表于 05-29 14:12 2752次阅读

    图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音
    的头像 发表于 05-26 15:45 571次阅读
    用<b class='flag-5'>图像</b>对齐所有<b class='flag-5'>模态</b>,Meta开源多感官AI基础模型,实现大一统

    邱锡鹏团队提出SpeechGPT:具有内生跨模态能力的大语言模型

    虽然现有的级联方法或口语语言模型能够感知和生成语音,但仍存在一些限制。首先,在级联模型中,LLM 仅充当内容生成器。由于语音和文本的表示没有对齐,LLM 的知识无法迁移到语音模态中。
    的头像 发表于 05-22 10:19 423次阅读
    邱锡鹏团队提出SpeechGPT:具有内生跨<b class='flag-5'>模态</b>能力的大语言模型

    ImageBind:跨模态之王,将6种模态全部绑定!

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音
    的头像 发表于 05-11 09:30 679次阅读
    ImageBind:跨<b class='flag-5'>模态</b>之王,将6种<b class='flag-5'>模态</b>全部绑定!