0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于多模态命名实体识别的通用匹配对齐框架

深度学习自然语言处理 来源:知识工场 作者:知识工场 2022-09-06 16:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

命名实体识别是NLP领域中的一项基础任务,在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用,一直是热点研究方向之一。多模态命名实体识别在传统的命名实体识别基础上额外引入了图像,可以为文本补充语义信息来进行消岐,近些年来受到人们广泛的关注。

尽管当前的多模态命名实体识别方法取得了成功,但仍然存在着两个问题:(1)当前大部分方法基于注意力机制来进行文本和图像间的交互,但由于不同模态的表示来自于不同的编码器,想要捕捉文本中token和图像中区域之间的关系是困难的。如下图所示,句子中的‘Rob’应该和图像中存在猫的区域(V5,V6,V9等)有着较高的相似度,但由于文本和图像的表示并不一致,在通过点积等形式计算相似度时,‘Rob’可能会和其它区域有着较高的相似度得分。因此,表示的不一致会导致模态之间难以建立起较好的关系。

7c7b002e-2d86-11ed-ba43-dac502259ad0.png

(2)当前的方法认为文本与其随附的图像是匹配的,并且可以帮助识别文本中的命名实体。然而,并不是所有的文本和图像都是匹配的,模型考虑这种不匹配的图像将会做出错误的预测。如下图所示,图片中没有任何与命名实体“Siri”相关的信息,如果模型考虑这张不匹配的图像,便会受图中“人物”的影响将“Siri”预测为PER(人)。而在只有文本的情况下,预训练模型(BERT等)通过预训练任务中学到的知识可以将“Siri”的类型预测为MISC(杂项)。

Text: Ask [Siri MISC] what 0 divided by 0 is and watch her put you in your place.

为了解决上述存在的问题,本文提出了MAF,一种通用匹配对齐框架(General Matching and Alignment Framework),将文本和图像的表示进行对齐并通过图文匹配的概率过滤图像信息 。由于该框架中的模块是插件式的,其可以很容易地被拓展到其它多模态任务上。

本文研究成果已被WSDM2022接收,文章和代码链接如下:

论文链接:https://dl.acm.org/doi/pdf/10.1145/3488560.3498475

代码:https://github.com/xubodhu/MAF

7cc4ec16-2d86-11ed-ba43-dac502259ad0.png

整体框架

本文框架如下图所示,由5个主要部分组成:

Input Representations

将原始的文本输入转为token序列的表示以及文本整体的表示,将原始的图像输入转为图像区域的表示以及图像整体的表示。

Cross-Modal Alignment Module

接收文本整体的表示和图像整体的表示作为输入,通过对比学习将文本和图像的表示变得更为一致。

Cross-Modal Interaction Module

接收token序列的表示以及图像区域的表示作为输入,使用注意力机制建立起文本token和图像区域之间的联系得到文本增强后的图像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增强后的图像的表示作为输入,用于判断文本和图像匹配的概率,并用输出的概率对图像信息进行过滤。

Cross-Modal Fusion Module

将文本token序列的表示和最终图像的表示结合在一起输入到CRF层进行预测。

7cf10116-2d86-11ed-ba43-dac502259ad0.png

主要部分

Input Representations

本文使用BERT作为文本编码器,当文本输入到BERT后,便可以得到token序列的表示,其中n为token的数量,为[CLS],为[SEP],,本文使用[CLS]的表示作为整个文本的表示。

本文使用ResNet作为图像编码器,当图像输入到ResNet后,其最后一层卷积层的输出被作为图像区域的表示,其中为图像区域的数量,即将整张图像均分为49个区域。接着,使用大小为的平均池化层对进行平均池化得到整个图像的表示。由于后续和需要进行交互,所以将通过一个全连接层将其投影到与相同的维度,其中。

Cross-Modal Alignment Module (CA)

该模块遵循SimCLR[1]进行对比学习的训练过程使得文本的表示和图像的表示更趋于一致,接收以及作为输入,通过对比学习来调整编码器的参数。本文在构造正负样例阶段中认为原始的文本-图像对为正样例,除此之外的文本-图像对均为负样例,因此在大小为N的batch中,只有N个原始的文本-图像对为正样例,对于batch中的每个文本来说,除了其原始的image外,其余任意image与其都构成负样例,对于batch中的每个图像来说也是如此。如下图所示,当N为3时,可以得到3个正样例以及个负样例。

7d0aae22-2d86-11ed-ba43-dac502259ad0.png

接着,本文使用两个不同的MLP作为投影层分别对和进行投影得到以及。然后,通过最小化对比学习损失来最大化正样例之间的相似度并且最小化负样例之间的相似度来使得文本的表示和图像的表示更加一致,image-to-text对比学习损失如下所示:

其中为余弦相似度,为温度参数。text-to-image对比学习损失如下所示:

我们将上述两个对比学习损失函数合并,得到最终的对比学习损失函数:

其中为超参数。

补充:

Q:在“背景”部分提到的第(2)个问题是图文可能是不匹配的,为什么在CA中还是认为来自同一文本-图像对的数据为正样例?

A:在EBR[2]中,作者通过类似于对比学习的方式来训练一个向量召回模型(通过搜索文本来召回淘宝商品),并且认为点击和购买的商品为正样例,但这种点击和购买的信号除了和搜索内容有关之外还受到商品价格、销量、是否包邮等因素影响,类似于本文中将原始的文本-图像对看作正例,都是存在噪声的。由于本身可以调节分布的特性,EBR作者通过增加的大小来减少数据噪声的影响,并且通过实验证明将增大到一定数值(设置为3时达到最好)可以提高模型的表现。本文最终的也是一个相对较大的数字为0.1。而在其它数据噪声相对较少的对比学习的工作中,如SimCSE[3],被设置为0.05,MoCo[4]中的被设置为0.07。

总的来说,CA中会存在一定数量的噪声数据,但可以通过提高的方式来显著地降低其带来的影响。

Cross-Modal Interaction Module (CI)

该模块通过注意力机制建立起文本和图像之间的关系,使用文本token序列表示作为Query,使用图像的区域表示作为Key和Value,最终得到文本增强后的图像表示。

Cross-Modal Matching Module (CM)

该模块用于判断图文匹配的概率,并用概率调整图像应保留的信息。该模块接受和作为输入,输出为和匹配的概率。由于缺少用于标记图文是否匹配的监督数据,本文使用一种自监督的学习方式来训练该模块。

首先,本文在大小为N的batch中构造正负样例,其中原始的文本-图像对为正样例,其余的为负样例。本文通过随机交换batch中前2k个样例的来构造负样例,如下图所示,在大小为3的batch中,交换前2*1个样例的得到2个负样例,而剩余的3-2=1个没有被交换的样例则为正样例。

7d2afa56-2d86-11ed-ba43-dac502259ad0.png

接着,将构造好的每个样例中的和拼接起来作为输入到一个激活函数为sigmoid的全连接层中用于预测图文匹配的概率。

判断图文是否匹配可以被看做是一个二分类任务,因此在获取的正负样例后,可以自然地获得每个样例的真实标签(正样例为1,负样例为0),再通过上述公式得到预测概率后,便可以使用二元交叉熵来训练该模块。

最后,使用该模块输出的概率与进行逐元素相乘来获得图像应保留的信息(该模块输出的概率越大说明图文匹配的概率越高,则逐元素相乘图像保留的信息越多)。

Cross-Modal Fusion Module (CF)

该模块用于将文本token序列以及最终图像的表示融合在一起。首先,本文使用门机制动态地调整应与文本结合的图像表示:

最后将和拼接在一起得到,其中。将输入到CRF层中,便可以得到每个token对应的类别。

训练时,CA和CM中的损失会和命名实体识别的损失同步训练。

实验

主要结果

本文的方法在Twitter-2015和Twitter-2017数据集上效果均优于之前的方法。

7d4b855a-2d86-11ed-ba43-dac502259ad0.png

运行时间

本文的方法相比于之前的方法除了有着模态之间交互的模块(本文中为CI),还添加了对齐模态表示的CA以及判断图文是否匹配的CM,这可能会导致训练成本以及预测成本增加。但本文简化了模态之间交互的过程,因此整体训练和预测时间以及模型大小均由于之前的SOTA方法。

7d71210c-2d86-11ed-ba43-dac502259ad0.png

消融实验

本文进行了消融实验,验证了CA和CM的有效性。

7d8a1194-2d86-11ed-ba43-dac502259ad0.png

样例分析

本文还进行了样例分析来更加直观地展示CA和CM的有效性。

7da422a0-2d86-11ed-ba43-dac502259ad0.png

参考资料

[1] A Simple Framework for Contrastive Learning of Visual Representations:http://proceedings.mlr.press/v119/chen20j/chen20j.pdf

[2] Embedding-based Product Retrieval in Taobao Search:https://arxiv.org/pdf/2106.09297.pdf?ref=https://githubhelp.com

[3] SimCSE: Simple Contrastive Learning of Sentence Embeddings:https://arxiv.org/pdf/2104.08821.pdf?ref=https://githubhelp.com

[4] Momentum Contrast for Unsupervised Visual Representation Learning:https://openaccess.thecvf.com/content_CVPR_2020/papers/He_Momentum_Contrast_for_Unsupervised_Visual_Representation_Learning_CVPR_2020_paper.pdf

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1095

    浏览量

    42154
  • 框架
    +关注

    关注

    0

    文章

    404

    浏览量

    18315
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23188
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态嵌入模型。该模型是首个通过单一模型支持文本、
    的头像 发表于 10-29 17:15 112次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入模型

    1688 模态搜索从 0 到 1:逆向接口解析与 CLIP 特征匹配实践

    本文分享基于CLIP模型与逆向工程实现1688图片搜同款的实战方案。通过抓包分析破解接口签名,结合CLIP模态特征提取与Faiss向量检索,提升搜索准确率至91%,单次响应低于80ms,日均选品效率提升4倍,全程合规可复现。
    的头像 发表于 10-17 10:00 196次阅读

    用于物联网的 LTE 通用频段前端模块 skyworksinc

    电子发烧友网为你提供()用于物联网的 LTE 通用频段前端模块相关产品参数、数据手册,更有用于物联网的 LTE 通用
    发表于 10-16 18:31
    <b class='flag-5'>用于</b>物联网的 LTE <b class='flag-5'>通用</b><b class='flag-5'>多</b>频段前端模块 skyworksinc

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    首轮推理延迟,适配对响应速度敏感的车载、医疗等场景; 其二,模态融合再升级—— 在图文基础上集成语音、传感器数据,实现 “看 + 听 + 感知” 的跨模态对话; 其三,生态适配再拓展
    发表于 09-05 17:25

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单一的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这一进化的核心燃料,正是高质量的模态数据,而将原始数据转化为“机器可读教材
    的头像 发表于 09-05 13:49 752次阅读

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU模态部署评测

    SDK 是瑞芯微推出的通用神经网络推理框架,支持将 TensorFlow、PyTorch 等主流框架的模型转换为 RKNN 格式,并在瑞芯微 NPU 上高效运行,适用于图像
    发表于 08-29 18:08

    商汤科技模态通用智能战略思考

    时间是最好的试金石,AI领域尤其如此。当行业热议大模型走向时,商汤早已锚定“模态通用智能”——这是我们以深厚研究积累和实践反复验证的可行路径。
    的头像 发表于 08-14 09:33 1011次阅读

    基于LockAI视觉识别模块:C++模板匹配

    景:广泛应用于物体识别、工业自动化、机器人导航等领域。 优势:支持多个模板的同时匹配,能够灵活处理多种目标。 局限性:对旋转、缩放和光照变化较为敏感,因此通常需要结合其他技术来提高鲁棒性。 1.2
    发表于 05-14 15:00

    基于LockAI视觉识别模块:C++模板匹配

    模板匹配是一种在图像中同时寻找多个模板的技术。通过对每个模板逐一进行匹配,找到与输入图像最相似的区域,并标记出匹配度最高的结果。本实验提供了一个简单的
    的头像 发表于 05-14 14:37 1335次阅读
    基于LockAI视觉<b class='flag-5'>识别</b>模块:C++<b class='flag-5'>多</b>模板<b class='flag-5'>匹配</b>

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态大模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在端侧模态大模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源的模态大模MiniCPM V 2.0,上海人工智能实验室的书生
    的头像 发表于 04-21 10:56 2590次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型

    模态交互技术解析

    模态交互 模态交互( Multimodal Interaction )是指通过多种感官通道(如视觉、听觉、触觉等)或多种交互方式(如语音、手势、触控、眼动等)与计算机系统进行自然、
    的头像 发表于 03-17 15:12 3501次阅读

    海康威视发布模态大模型文搜存储系列产品

    模态大模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文模态大模型与嵌入式智能硬件深度融合,发布
    的头像 发表于 02-18 10:33 1017次阅读

    字节跳动发布OmniHuman 模态框架

    2 月 6 日消息,字节跳动近日发布了一项重大成果 ——OmniHuman 模态框架,其优势在于其强大的视频生成能力。用户只需提供一张任意尺寸和人物占比的单张图片,再结合一段输入音频,就能生成
    的头像 发表于 02-07 17:50 1184次阅读

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    商汤日日新模态大模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态大模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 1496次阅读