0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DALL-E和Flamingo能相互理解吗?

CVer 来源:机器之心 2023-01-09 15:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文提出了一个统一的框架,其中包括文本到图像生成模型和图像到文本生成模型,该研究不仅为改进图像和文本理解提供了见解,而且为多模态模型的融合提供了一个有前途的方向。

多模态研究的一个重要目标就是提高机器对于图像和文本的理解能力。特别是针对如何在两种模型之间实现有意义的交流,研究者们付出了巨大努力。举例来说,图像描述(image captioning)生成应当能将图像的语义内容转换输出为可被人们理解的连贯文本。相反,文本 - 图像生成模型也可利用文本描述的语义来创建逼真的图像。

这就会带来一些同语义相关的有趣问题:对于给定的图像,哪种文本描述最准确地描述了图像?同样地,对于给定的文本,最有意义的图像实现方式又是哪种?针对第一个问题,一些研究宣称最佳的图像描述应该是既自然且还能还原视觉内容的信息。而对于第二个问题,有意义的图像应该是高质量的、多样性的且忠于文本内容的。

不论怎样,在人类交流的推动下,包含文本 - 图像生成模型及图像 - 文本生成模型的交互任务可以帮助我们选择最准确的图像文本对。

如图 1 所示,在第一个任务中,图像 - 文本模型是信息发送者,文本 - 图像模型是信息接收者。发送者的目标是使用自然语言将图像的内容传达给接收者,以便其理解该语言并重建真实的视觉表征。一旦接收者可以高保真地重建原始图像信息,则表明信息已传递成功。研究者认为这样生成的文本描述即为最优的,通过其产生的图像也最近似于原始图像。

54695ade-8fdf-11ed-bfe3-dac502259ad0.png

这一规律受到人们使用语言进行交流的启发。试想如下情形:在一个紧急呼救的场景中,警察通过电话获知车祸的情况和受伤人员的状况。这本质上涉及现场目击者的图像描述过程。警方需要根据语言描述在脑海中重建环境场景,以组织恰当的救援行动。显然,最好的文本描述应该是该场景重建的最佳指南。

第二个任务涉及文本重建:文本 - 图像模型成为信息发送者,图像 - 文本模型则成为信息接收者。一旦两个模型就文本层面上信息内容达成一致,那么用于传达信息的图像媒介即为重现源文本的最优图像。

本文中,来自慕尼黑大学、西门子公司等机构的研究者提出的方法,同智能体间通信紧密相关。语言是智能体之间交换信息的主要方法。可我们如何确定第一个智能体与第二个智能体对什么是猫或什么是狗这样的问题有相同的理解呢?

549ea716-8fdf-11ed-bfe3-dac502259ad0.png

论文地址:https://arxiv.org/abs/2212.12249

本文所想要探求的想法是让第一个智能体分析图像并生成描述该图像的文本,而后第二个智能体获取该文本并据此来模拟图像。其中,后一个过程可以被认为是一个具象化体现的过程。该研究认为,如果第二个智能体模拟的图像与第一个智能体接收到的输入图像相似(见图 1),则通信成功。

在实验中,该研究使用现成的模型,特别是近期开发的大规模预训练模型。例如,Flamingo 和 BLIP 是图像描述模型,可以基于图像自动生成文本描述。同样地,基于图像 - 文本对所训练的图像生成模型可以理解文本的深层语义并合成高质量的图像,例如 DALL-E 模型和潜在扩散模型 (SD) 即为这种模型。

此外,该研究还利用 CLIP 模型来比较图像或文本。CLIP 是一种视觉语言模型,可将图像和文本对应起来表现在共享的嵌入空间(embedding space)中。该研究使用手动创建的图像文本数据集,例如 COCO 和 NoCaps 来评估生成的文本的质量。图像和文本生成模型具有允许从分布中采样的随机分量,因而可以从一系列候选的文本和图像中选择最佳的。不同的采样方法,包括核采样,均可以被用于图像描述模型,而本文采用核采样作为基础模型,以此来显示本文所使用方法的优越性。

方法概览

本文框架由三个预训练的 SOTA 神经网络组成。第一,图像 - 文本生成模型;第二,文本 - 图像生成模型;第三,由图像编码器和文本编码器组成的多模态表示模型,它可以将图像或文本分别映射到其语义嵌入中。

54aabfce-8fdf-11ed-bfe3-dac502259ad0.png

通过文本描述的图像重建

如图 2 左半部分所示,图像重建任务是使用语言作为指令重建源图像,此过程的效果实现将促使描述源场景的最佳文本生成。首先,源图像 x 被输送到 BLIP 模型以生成多个候选文本 y_k。例如,一只小熊猫在树林中吃树叶。生成的文本候选集合用 C 表示,然后文本 y_k 被发送到 SD 模型以生成图像 x’_k。这里 x’_k 是指基于小熊猫生成的图像。随后,使用 CLIP 图像编码器从源图像和生成的图像中提取语义特征:54eae806-8fdf-11ed-bfe3-dac502259ad0.png550395a4-8fdf-11ed-bfe3-dac502259ad0.png

然后计算这两个嵌入向量之间的余弦相似度,目的是找到候选的文本描述 y_s, 即

5514f268-8fdf-11ed-bfe3-dac502259ad0.png

其中 s 为最接近源图像的图像索引

该研究使用 CIDEr(图像描述度量指标)并参照人类注解来评估最佳文本。由于对生成的文本质量感兴趣,该研究将 BLIP 模型设定为输出长度大致相同的文本。这样就能保证进行相对公平的比较,因为文字的长度与可传递图像中信息量的多少呈正相关。在这项工作中,所有模型都会被冻结,不会进行任何微调。

通过图像实现文本重建

图 2 中右侧部分显示了与上一节描述过程的相反过程。BLIP 模型需要在 SD 的引导下猜测源文本,SD 可以访问文本但只能以图像的格式呈现其内容。该过程始于使用 SD 为文本 y 生成候选图像 x_k ,生成的候选图像集用 K 来表示。使用 SD 生成图像会涉及随机采样过程,其中每一次生成过程都可能会以在巨大的像素空间中得到不同的有效图像样本为终点。这种采样多样性会提供一个候选池来为筛选出最佳图像。随后,BLIP 模型为每个采样图像 x_k 生成一个文本描述 y’_k。这里 y’_k 指的是初始文本一只小熊猫在森林里爬行。然后该研究使用 CLIP 文本编码器提取源文本和生成文本的特征,分别用552ad77c-8fdf-11ed-bfe3-dac502259ad0.png553954a0-8fdf-11ed-bfe3-dac502259ad0.png表示。此任务的目的是寻找匹配文本 y 语义的最佳候选图像 x_s。为此,该研究需要比较生成文本和输入文本之间的距离,然后选择出配对文本距离最小的图像,即

555003bc-8fdf-11ed-bfe3-dac502259ad0.png 该研究认为图像 x_s 可以最好地描绘出文本描述 y,因为它可以以最小的信息损失将内容传递给接收者。此外,该研究将与文本 y 相对应的图像55665e32-8fdf-11ed-bfe3-dac502259ad0.png视为 y 的参考表示(reference presentation),并将最佳图像量化为它与参考图像的接近程度。实验结果图 3 中的左侧图表显示了两个数据集上图像重建质量和描述文本质量之间的相关性。对于每个给定图像,重建图像质量(在 x 轴中显示)越好,文本描述质量(在 y 轴中显示的)也越好。 图 3 的右侧图表揭示了恢复的文本质量和生成的图像质量之间的关系:对于每个给定的文本,重建的文本描述(显示在 x 轴上)越好,图像质量(显示在 y 轴上)就越好。

5575dda8-8fdf-11ed-bfe3-dac502259ad0.png

图 4(a)和(b)显示了图像重建质量和基于源图像的平均文本质量之间的关系。图 4(c)和(d)显示了文本距离(text distance)与重建图像质量之间的相关性。

5593723c-8fdf-11ed-bfe3-dac502259ad0.png

表 1 显示出该研究的采样方法在每个度量标准下都优于核采样,模型的相对增益可以高达 7.7%。

5662a50c-8fdf-11ed-bfe3-dac502259ad0.png

图 5 显示了两个重建任务的定性示例。

56b81780-8fdf-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108178
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42438
  • 模型
    +关注

    关注

    1

    文章

    3818

    浏览量

    52269

原文标题:DALL-E和Flamingo能相互理解吗?三个预训练SOTA神经网络统一图像和文本

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阻抗分析仪E4990A在太阳电池研究中的应用

    随着清洁能源技术的快速发展,太阳电池作为核心的光电转换器件,其性能优化与可靠性评估成为科研与产业界关注的重点。在众多测试手段中,是德科技(Keysight)E4990A阻抗分析仪凭借其高精度、宽频带和多功能特性,正逐渐成为太阳
    的头像 发表于 04-20 16:41 98次阅读
    阻抗分析仪<b class='flag-5'>E</b>4990A在太阳<b class='flag-5'>能</b>电池研究中的应用

    Z86E33/733/E34/E43/743/E44 CMOS Z8® OTP微控制器:特性、参数与应用解析

    Z86E33/733/E34/E43/743/E44 CMOS Z8® OTP微控制器:特性、参数与应用解析 在电子设计领域,微控制器是众多项目的核心部件。今天我们要深入探讨的是Zil
    的头像 发表于 04-04 12:45 662次阅读

    Z86E33/733/E34/E43/743/E44 CMOS Z8 OTP微控制器:特性与应用解析

    : Z86E3312PEC.pdf 一、基本特性 1. 存储与性能 这些微控制器的ROM容量有4KB、8KB和16KB三种可选,满足不同复杂程度的程序存
    的头像 发表于 04-04 12:40 701次阅读

    深入解析TLE8261 - 2E通用系统基础芯片:特性、应用与设计要点

    CAN - LIN汽车应用(如车身控制器、网关应用)提供了全面的解决方案。本文将深入剖析TLE8261 - 2E的各项特性、工作模式以及应用要点,帮助电子工程师更好地理解和应用这款芯片。 文件下载: TLE8261-2E.pdf
    的头像 发表于 03-29 10:45 231次阅读

    探索MAX20004E/MAX20006E/MAX20008E:汽车级降压转换器的卓越之选

    探索MAX20004E/MAX20006E/MAX20008E:汽车级降压转换器的卓越之选 在汽车电子系统中,对高效、可靠的电源管理解决方案需求十分迫切。Maxim Integrate
    的头像 发表于 03-05 11:10 230次阅读

    Renesas E1/E20 仿真器使用指南:从基础到实战

    Renesas E1/E20 仿真器使用指南:从基础到实战 在嵌入式开发领域,一款高效可靠的仿真器对于调试程序、优化性能至关重要。Renesas 的 E1/E20 仿真器就是这样一款
    的头像 发表于 03-02 15:10 367次阅读

    SPI 为什么比 I2C 更快?

    当你将微控制器连接到传感器、显示器或其他模块时,你有没有想过这两个设备是如何相互通信的?它们到底在说什么?它们是如何相互理解的?电子设备之间的通信就像人与人之间的通信。双方需要使用相同的语言。在电子
    的头像 发表于 01-04 09:14 882次阅读
    SPI 为什么比 I2C 更快?

    自动驾驶汽车是如何进行“场景理解”的?

    [首发于智驾最前沿微信公众号]场景理解这个词听起来可能有点深奥,但在自动驾驶里,它其实就是指车辆“看到周围环境之后,能不能真正搞明白正在发生什么”。要把这个概念讲清楚,不能只停留在感知系统识别
    的头像 发表于 12-11 09:16 645次阅读
    自动驾驶汽车是如何进行“场景<b class='flag-5'>理解</b>”的?

    能源物联网加持!安科瑞能源管理解决方案让园区用监测 “实时可见”

    老化,数据时常丢失;地下水管网老旧,泄漏难以及时发现。这些问题不仅推高运营成本、影响效,也埋下安全隐患。安科瑞园区能源管理解决方案,旨在重塑园区能源与收费管理模式,提升运营效益与安全水平。 二、安科瑞园区能源管理解决方案
    的头像 发表于 12-05 16:25 825次阅读
    能源物联网加持!安科瑞能源管<b class='flag-5'>理解</b>决方案让园区用<b class='flag-5'>能</b>监测 “实时可见”

    双碳目标下中央空调系统效管理解决方案研究与应用

    摘要 随着中国“2030年碳达峰、2060年碳中和”战略目标的提出,建筑能源系统尤其是中央空调系统的节能降耗成为实现双碳目标的关键环节。本文基于某高科技企业的中央空调效管理解决方案,结合多项国家
    的头像 发表于 11-20 16:55 701次阅读
    双碳目标下中央空调系统<b class='flag-5'>能</b>效管<b class='flag-5'>理解</b>决方案研究与应用

    jf_58112309
    发布于 :2025年10月15日 10:36:52

    半导体亮相SEMI-e 2025深圳国际半导体展

    SEMI-e 2025深圳国际半导体展,旨在为行业带来突破性的技术革新。 展会上,瑞半导体重点推介的最新一代车规级SiC MOSFET及二极管产品,在转换效率、高温稳定性及长期可靠性方面实现了行业突破,并已具备规模化量产能力。 这意味着瑞
    的头像 发表于 09-12 15:10 1108次阅读

    别再搜了!国内用户搞定OpenAI API Key的两种最佳实践(保姆级教程)

    想玩转GPT-5、DALL-E 3,在自己的项目里集成酷炫的AI能力,却被一张小小的API Key拦在门外? 你是不是也遇到了这些问题: 官网注册流程繁琐,网络时好时坏? 好不容易注册完,发现支付
    的头像 发表于 08-24 19:02 1.4w次阅读

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    1. 项目概述 本项目旨在开发并部署一个高精度的深度学习模型,用于自动鉴别一张图片是由AI生成(如Stable Diffusion, DALL-E, Midjourney等工具生成)还是真实的画家
    发表于 08-21 13:59

    如何获取 OpenAI API Key?API 获取与代码调用示例 (详解教程)

    OpenAI API Key 获取与使用详解:从入门到精通 OpenAI 正以其 GPT 和 DALL-E 等先进模型引领全球人工智能创新。其 API 为开发者和企业提供了强大的 AI 能力集成途径
    的头像 发表于 05-04 11:42 1.9w次阅读
    如何获取 OpenAI API Key?API 获取与代码调用示例 (详解教程)