0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何去解决文本到图像生成的跨模态对比损失问题?

LiveVideoStack 来源:LiveVideoStack 作者:Google AI Blog 2021-06-15 10:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Google提出了一个跨模态对比学习框架来训练用于文本到图像合成的 GAN 模型,用于研究解决生成的跨模态对比损失问题。

从文本到图像的自动生成,如何训练模型仅通过一段文本描述输入就能生成具体的图像,是一项非常具有挑战性的任务。

与其它指导图像创建的输入类型相比,描述性句子是一种更直观、更灵活的视觉概念表达方式。强大的自动文本到图像的生成系统可以成为快速、有效的内容生产、制作工具,用于更多具有创造性的应用当中。

在CVPR 2021中,Google提出了一个跨模态对比生成对抗网络(XMC-GAN),训练用于文本到图像合成的 GAN 模型,通过模态间与模态内的对比学习使图像和文本之间的互信息最大化,解决文本到图像生成的跨模态对比损失问题。

poYBAGDIDJ-AfrniAADMgxcEq1k626.jpg

XMC-GAN 文本到图像合成模型中的模态间和模态内对比学习

XMC-GAN 被成功应用于三个具有挑战性的数据集:一个是MS-COCO 图像描述集合,另外两个是用Localized Narratives注释的数据集,一个是包括MS-COCO 图像(称为LN-COCO) ,另一个描述开放图像数据 (LN-OpenImages)。结果显示 XMC-GAN生成图像所描绘的场景相比于使用其它技术生成的图像质量更高,在每个方面都达到了最先进的水平。

pYYBAGDIDI-AdQkNAAB3Ifj0XNA593.jpg

MS-COCO对图像质量和文本对齐的人工评估

此外,XMC-GAN还在 LN-OpenImages 上进行了一系列训练和评估,这相比于 MS-COCO 更具有挑战性,由于数据集更大,图像涵盖主题范围更加广泛且复杂。

对于人类评估和定量指标,XMC-GAN 在多个数据集模型中相较之前有显著的改进。可以生成与输入描述非常匹配的高质量图像,包括更长,更详细的叙述,同时端到端模型的复杂度也相对较为简单,这代表了从自然语言描述生成图像的创造性应用的重大进步。

责任编辑:lq6

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1095

    浏览量

    42149
  • GaN
    GaN
    +关注

    关注

    21

    文章

    2326

    浏览量

    79197

原文标题:XMC-GAN:从文本到图像的跨模态对比学习

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    格灵深瞳多模态大模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的多模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本图像、音频乃至视频,实现
    的头像 发表于 11-02 15:56 1226次阅读
    格灵深瞳多<b class='flag-5'>模态</b>大模型Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova多模态嵌入模型

    的统一嵌入模型,能以行业顶尖的准确率实现模态检索。 当今,企业正不断寻求解决方案,以期从文本图像、文档、视频、音频等海
    的头像 发表于 10-29 17:15 107次阅读
    亚马逊云科技上线Amazon Nova多<b class='flag-5'>模态</b>嵌入模型

    米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

    细化需求,系统需实时调整响应策略 1.2 多轮对话系统鸟瞰:三颗“核心”协同驱动RK3576 多模态交互对话方案基于 RKLLM 的核心运作,依赖于图像视觉编码器、大语言模型与对话管家这三大模块的协同
    发表于 09-05 17:25

    浅析多模态标注对大模型应用落地的重要性与标注实例

    ”的关键工序——多模态标注重要性日益凸显。 一、什么是多模态标注? 多模态标注是指对文本图像、语音、视频、点云等异构数据进行
    的头像 发表于 09-05 13:49 734次阅读

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU多模态部署评测

    案例:支持图像文本交互 步骤 1:环境准备 步骤 2:模型的获取、验证与格式转换 步骤 3:修改代码并交叉编译可执行文件并上传到板子上 步骤 4:上传文件开发板 性能测试 Tips 多
    发表于 08-29 18:08

    中国科学院自动化研究所携手中科曙光打造高性能工具链解决方案

    2019年起,中国科学院自动化研究所以语音、文本图像等单模态大模型的研究与应用为基石,全力攻关全球首个千亿参数多模态大模型。如今,相关产品已突破
    的头像 发表于 08-11 11:08 865次阅读

    无法使用OpenVINO™在 GPU 设备上运行稳定扩散文本图像的原因?

    在OpenVINO™ GPU 设备上使用图像大小 (1024X576) 运行稳定扩散文本图像,并收到错误消息: RuntimeError: Exception from
    发表于 06-25 06:36

    如何使用离线工具od SPSDK生成完整图像

    对我来说,完整图像是指包含 keyblob、FCB 等的图像。换句话说,图像包含 0x30000000 0x30000FFF 之间的大约 4KB。 如果我理解正确,使用 SPT(以
    发表于 03-28 06:51

    一种多模态驾驶场景生成框架UMGen介绍

    端自动驾驶技术的快速发展对闭环仿真器提出了迫切需求,而生成式模型为其提供了一种有效的技术架构。然而,现有的驾驶场景生成方法大多侧重于图像模态
    的头像 发表于 03-24 15:57 1506次阅读
    一种多<b class='flag-5'>模态</b>驾驶场景<b class='flag-5'>生成</b>框架UMGen介绍

    ​VLM(视觉语言模型)​详细解析

    支持生成式任务。 多模态融合 :通过模态注意力机制、投影层(如CLIP将图像文本映射到同一空间
    的头像 发表于 03-17 15:32 7541次阅读
    ​VLM(视觉语言模型)​详细解析

    使用OpenVINO GenAI和LoRA适配器进行图像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用户可以将平平无奇的文本提示词转换为令人惊艳的视觉效果。
    的头像 发表于 03-12 13:49 1512次阅读
    使用OpenVINO GenAI和LoRA适配器进行<b class='flag-5'>图像</b><b class='flag-5'>生成</b>

    海康威视文搜存储系列:模态检索,安防新境界

    海康威视推出的文搜存储系列产品,引领了安防领域的信息检索新革命。该产品凭借多模态大模型技术,实现了自然语言与视频图像模态信息检索,将安防录像回溯带入了全新的智能时代。 用户只需输入
    的头像 发表于 02-18 14:08 1061次阅读

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态生成式 AI 模型,能够理解和处理视频、图像文本
    的头像 发表于 02-12 11:13 3229次阅读
    一文详解视觉语言模型

    #新年新气象,大家新年快乐!#AIGC入门及鸿蒙入门

    ,基于扩散模型,能够生成与给定文本描述相符的图像。 鸿蒙系统入门 1.基础知识:鸿蒙系统(HarmonyOS)是华为推出的一款分布式操作系统,旨在实现设备、
    发表于 01-13 10:46

    AIGC入门及鸿蒙入门

    模型,能够生成与给定文本描述相符的图像。 鸿蒙系统入门 1. 基础知识: 鸿蒙系统(HarmonyOS)是华为推出的一款分布式操作系统,旨在实现设备、
    发表于 01-13 10:32