0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ACL2021的跨视觉语言模态论文之跨视觉语言模态任务与方法

深度学习自然语言处理 来源:复旦DISC 作者:王雨晴 2021-10-13 10:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自:复旦DISC

引言

本次分享我们将介绍三篇来自ACL2021的跨视觉语言模态的论文。这三篇文章分别介绍了如何在图像描述任务中生成契合用户意图的图像描述、端对端的视觉语言预训练模型和如何生成包含更多细节的图像描述。

文章概览

Control Image Captioning Spatially and Temporally

论文地址:https://aclanthology.org/2021.acl-long.157.pdf

该篇文章基于对比学习和注意力机制引导提出了LoopCAG模型。LoopCAG可以根据输入的鼠标轨迹,生成与鼠标轨迹相匹配的图像描述,从而增强了图片描述生成的可控性和可解释性。

E2E-VLP: End-to-End Vision-Language Pretraining Enhanced by Visual Learning

论文地址:https://arxiv.org/pdf/2106.01804.pdf

这篇文章提出了一个端到端的视觉语言预训练模型。模型不需要利用预训练的目标检测器抽取基于区域的视觉特征,直接以图片作为输入。并且设计了两个额外的视觉预训练任务帮助模型学习细粒度的信息,达到了和两阶段模型相似的效果,并且提高了运算效率。

Enhancing Descriptive Image Captioning with Natural Language Inference

论文地址:https://aclanthology.org/2021.acl-short.36.pdf

这篇文章通过推理图和PageRank对图像描述进行描述性打分。再通过参考抽样和加权指定奖励来生成具有更多细节的图像描述。模型生成了比一般方法具有更多细节的图像描述,这些图像描述可以包含基线方法生成的图像描述。

论文细节

1

动机

图像描述任务主要针对图片上比较突出的物体和物体关系展开描述,这样的图片描述没有考虑到用户意图。为了生成具备可控性和可解释性的图像描述,最近的工作提出了生成可控性的图像描述任务。为了生成符合用户意图的图像描述,通常会对描述加以情感、边界框和鼠标轨迹限制。与此同时,近期提出的 Localized-Narratives 数据集将鼠标轨迹作为图像描述任务的另一个输入,为图像描述生成任务中所涉及的语义概念进行空间和时序关系上的控制提供了可能。

模型

LoopCAG 可以总结为三部分:用于生成图片描述且以 Transformer 为主干网络的编码器-解码器;用于视觉对象空间定位的注意力引导(Attention Guidance)组件;用于句子级时序对齐的对比性约束(Contrastive Constraints)组件。

a20e2908-15e3-11ec-8fb8-12bb97331649.png

(1)Caption Generation

作者将视觉特征V和轨迹特征T分别编码,并叠加位置信息后得 和 ,然后串联在一起作为一个统一的序列输入编码器。解码器通过交叉注意力模块与编码器最后一层的隐藏状态相连,将视觉和轨迹信息结合起来作为生成的前置条件。解码器的优化目标是将以下目标函数最小化:

a22c1850-15e3-11ec-8fb8-12bb97331649.png

(2)Attention Guidance

为了定位物体,作者用轨迹作为中间桥梁联系物体和语义token。作者构建了一个监督矩阵来引导词语和视觉对象之间的注意力,即需要物体轨迹点尽可能多的落入对象边界框中。当注意力监督矩阵和模型的交叉注意力矩阵尽可能接近时,词语则可以准确的对应到图片的空间视觉物体上。

(3)Contrastive Constraints

作者使用对比损失函数来约束生成过程的时间顺序,对比损失的形式是 NCE 函数,用来学习区分轨迹-描述对之中的正例和负例。正例是指在顺序上自然对应的描述句和轨迹段,而其余的轨迹-描述对组合均为负例。

最后作者通过将所有损失的总和最小化来联合优化模型。

实验

作者在Localized-Narratives COCO 这个数据集上进行了训练和测试。在测试集上的结果如图所示,LoopCAG 方法在所有的自动评测指标上都达到了先进水平。从表中可以看出,ROUGE-L 的得分提升了2.0。由于 ROUGE-L 主要采用了对顺序敏感的最长共同子序列计分方式,这表明对比约束可以促进生成句子的顺序和用户意图的对应。

2

动机

基于海量图文对的多模态预训练在下游的跨模态任务中已经取得巨大的成功。现有的多模态预训练的方法主要基于两阶段训练,首先利用预训练的目标检测器抽取基于区域的视觉特征,然后拼接视觉表示和文本向量作为Transformer的输入进行训练。这样的模型存在两点问题,一个是第一阶段通常在特定数据集进行训练模型泛化能力不好,此外提取区域的视觉特征比较耗费时间。基于此作者提出了端到端的像素级别的视觉语言预训练模型。模型通过一个统一的Transformer框架同时学习图像特征和多模态表示

模型

本文的模型如图所示。E2E-VLP用一个CNN 模型提取图片视觉特征的同时用一个Transformer进行多模态特征学习。

a270188e-15e3-11ec-8fb8-12bb97331649.png

(1) Input Representations

模型首先用WordPiece tokenizer 分词进行序列化。图片则直接以三通道的像素矩阵输入。

(2) Cross-modal Encoder Pre-training:Transformer

模型用Resnet提取图片的特征向量。用Transformer模块接受图像-句子的序列输入,进行跨模态语义学习。

为了提取跨模态语义信息,模型设计了两个预训练任务。一个是与Bert类似的Masked Language Modeling,只是在该任务中除去上下文信息还可以利用图片信息避免语义混淆,第二个任务是进行图片文本匹配。

(3) Visual-enhanced Decoder

为了提取更细粒度的视觉特征,接入了物体检测和描述生成两个任务。在物体检测中,为了增强视觉语义特征的学习,除去常规的位置和物体种类预测,我们引入了属性预测这一任务。描述生成图片对应的描述。

实验

根据实验结果,E2E-VLP 和两阶段模型相比,也取得了比较好效果,可以理解和完成两种任务。同时在参数量上,E2E-VLP 则具有更加轻量的优势。

3

动机

现阶段的图像描述模型通常倾向于生成比较安全的较为笼统的描述,而忽略图像细节。为了生成包含更多细节的图像描述,作者基于更具有细节的图像描述通常包含笼统描述的全部信息这一观点提出了基于自然语言推断的描述关系模型。

方法

这篇文章的具体方法如下:

(1)Constructing Inference Graphs

首先用基于Bert的自然语言推断模型判断图像描述之间的关系,由于图像描述之间不存在冲突因此挪去了冲突关系。并对一张图的描述构建如图所示的推断关系图,并利用Pagerank的方法对推断图计算描述性评分。

(2)Descriptiveness Regularized Learning

由于传统图像描述的第一阶段生成描述和图像描述最小化交叉熵损失函数等同于生成描述和均匀分布的图像描述之间的KL Divergence,为了生成更具有描述性的图像描述。则采用归一化的描述性评分分布取代均匀分布,认为更具有描述性的图像描述具有更高的生成概率。

a2d4abbe-15e3-11ec-8fb8-12bb97331649.png

在第二阶段,最大化生成图像描述的期望收益时,也同时用描述性评分取代均匀分布来计算期望收益。

a2e2129a-15e3-11ec-8fb8-12bb97331649.png

实验

根据实验结果,模型在多数指标特别是CIDER评分上超过了Baseline,这是因为CIDER倾向于具有更加特殊的细节描述。

此外根据自然语言推断模型判断文章模型生成的图像描述对baseline的图像描述形成更多的包含关系。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1226

    浏览量

    43856
  • 编码器
    +关注

    关注

    45

    文章

    4028

    浏览量

    143791
  • 图像
    +关注

    关注

    2

    文章

    1097

    浏览量

    42512
  • 函数
    +关注

    关注

    3

    文章

    4423

    浏览量

    68104
  • cnn
    cnn
    +关注

    关注

    3

    文章

    356

    浏览量

    23603

原文标题:ACL2021 | 跨视觉语言模态任务与方法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    《多模态大模型 前沿算法与实战应用 第一季》精品课程简介

    全栈掌握多模态:从算法原理到项目落地的技术实践 在人工智能从单模态向多模态跨越的进程中,全栈开发者需要同时理解视觉语言、音频等不同
    发表于 05-01 17:46

    人工智能多模态视觉大模型开发实战 - 2026必会

    和训练,模型可以逐渐提升对图像的理解能力,实现对各种视觉任务的精准处理。 此外,视觉大模型的发展还得益于大规模数据集和强大计算资源的支持。海量标注数据为模型提供了丰富的学习样本,使其能够学习到更广泛、更
    发表于 04-15 16:06

    使用PYTHON进行的平台仿真

    内部的解决方案,而且还允许平台模拟,以从其他程序或编程语言获益,并结合熟悉物理光学特性的VirtualLab Fusion,从而扩展模拟、优化、设计和后处理的选项。 因此,我们正在深入研究
    发表于 04-02 08:21

    商汤科技NEO-unify如何打造原生视觉语言理解与生成

    当前,多模态模型普遍采用“视觉编码器(VE)用于理解,变分自编码器(VAE)用于生成”的组合式设计。这套范式虽行之有效,却也内在割裂了感知与创造,常面临模块协同与效率权衡的挑战。
    的头像 发表于 03-10 14:37 500次阅读
    商汤科技NEO-unify如何打造原生<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>理解与生成

    众智FlagOS适配面壁智能开源全模态大模型MiniCPM-o 4.5

    2月3日,面壁智能正式发布并开源了集语言视觉、语音于一体的全模态大模型 MiniCPM-o 4.5。作为首个全双工全模态大模型,MiniCPM-o 4.5 首次实现“类人”感知交互,
    的头像 发表于 02-09 14:45 1113次阅读
    众智FlagOS适配面壁智能开源全<b class='flag-5'>模态</b>大模型MiniCPM-o 4.5

    全球首个最大规模本体视触觉多模态数据集白虎-VTouch发布

    全球首个最大规模本体视触觉多模态数据集——白虎-VTouch(Vision-Based Tactile Sensor),总规模超过60,000分钟。
    的头像 发表于 01-29 14:41 1029次阅读

    商汤科技日日新V6.5荣获2025年多模态大模型全国第一

    近日,权威大模型评测基准 SuperCLUE 发布《中文多模态视觉语言模型测评基准12月报告》,商汤日日新V6.5(SenseNova V6.5 Pro)以75.35的总分位列国内第一,斩获金牌,并在
    的头像 发表于 01-06 14:44 1073次阅读
    商汤科技日日新V6.5荣获2025年多<b class='flag-5'>模态</b>大模型全国第一

    视美泰发布AI即时翻译机解决方案,硬核配置+多语种覆盖破解语言沟通难题

    在全球化深入推进与AI技术规模化商用的双重驱动下,语言沟通需求正迎来爆发式增长。近日,视美泰正式发布AI即时翻译机解决方案,以“核心硬件+智能算法+多模态交互”的完整技术矩阵,依托在线语音转写
    的头像 发表于 12-03 10:50 1387次阅读
    视美泰发布AI即时翻译机解决方案,硬核配置+多语种覆盖破解<b class='flag-5'>跨</b><b class='flag-5'>语言</b>沟通难题

    格灵深瞳多模态大模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的多模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本、图像、音频乃至视频,实现
    的头像 发表于 11-02 15:56 1951次阅读
    格灵深瞳多<b class='flag-5'>模态</b>大模型Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova多模态嵌入模型

    专为Agentic RAG与语义搜索量身打造,以行业顶尖的准确率实现模态检索 北京2025年10月29日 /美通社/ -- 亚马逊云科技宣布,Amazon Nova Multimodal
    的头像 发表于 10-29 17:15 446次阅读
    亚马逊云科技上线Amazon Nova多<b class='flag-5'>模态</b>嵌入模型

    语言交流的全场景解决方案,时空壶X1的进化之路

    在全球化浪潮汹涌的时代,语言沟通宛如连接世界的桥梁,其重要性不言而喻。时空壶自2016年成立以来,始终秉持创新精神,深耕语言沟通领域,凭借一系列卓越产品,不仅在全球范围内树立起强大
    的头像 发表于 09-08 16:55 1977次阅读
    <b class='flag-5'>跨</b><b class='flag-5'>语言</b>交流的全场景解决方案,时空壶X1的进化之路

    时空壶W4Pro:商务语言场景的高效沟通解决方案

    在全球化商务交流日益频繁的当下,语言沟通的效率与准确性直接影响合作推进节奏。时空壶W4ProAI同传耳机凭借针对性的技术优化与功能设计,在面对面商务洽谈、跨国行业展会等核心商务场景中,为用户提供
    的头像 发表于 09-08 16:53 1548次阅读
    时空壶W4Pro:商务<b class='flag-5'>跨</b><b class='flag-5'>语言</b>场景的高效沟通解决方案

    米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

    细化需求,系统需实时调整响应策略 1.2 多轮对话系统鸟瞰:三颗“核心”协同驱动RK3576 多模态交互对话方案基于 RKLLM 的核心运作,依赖于图像视觉编码器、大语言模型与对话管家这三大模块的协同
    发表于 09-05 17:25

    浅析多模态标注对大模型应用落地的重要性与标注实例

    ”的关键工序——多模态标注重要性日益凸显。 一、什么是多模态标注? 多模态标注是指对文本、图像、语音、视频、点云等异构数据进行模态语义关联
    的头像 发表于 09-05 13:49 3018次阅读

    飞凌嵌入式RK3576多模态大模型图像理解助手,让嵌入式设备“看懂”世界

    (LLM)+视觉语言模型(VLM)多模态架构,推出多模态大模型图像理解助手,为嵌入式设备打造 “智能视觉中枢”,让终端设备能够真正 “看懂”
    的头像 发表于 07-25 11:09 1911次阅读
    飞凌嵌入式RK3576多<b class='flag-5'>模态</b>大模型图像理解助手,让嵌入式设备“看懂”世界