0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于多模态命名实体识别的通用匹配对齐框架

深度学习自然语言处理 来源:知识工场 作者:知识工场 2022-09-06 16:17 次阅读

命名实体识别是NLP领域中的一项基础任务,在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用,一直是热点研究方向之一。多模态命名实体识别在传统的命名实体识别基础上额外引入了图像,可以为文本补充语义信息来进行消岐,近些年来受到人们广泛的关注。

尽管当前的多模态命名实体识别方法取得了成功,但仍然存在着两个问题:(1)当前大部分方法基于注意力机制来进行文本和图像间的交互,但由于不同模态的表示来自于不同的编码器,想要捕捉文本中token和图像中区域之间的关系是困难的。如下图所示,句子中的‘Rob’应该和图像中存在猫的区域(V5,V6,V9等)有着较高的相似度,但由于文本和图像的表示并不一致,在通过点积等形式计算相似度时,‘Rob’可能会和其它区域有着较高的相似度得分。因此,表示的不一致会导致模态之间难以建立起较好的关系。

7c7b002e-2d86-11ed-ba43-dac502259ad0.png

(2)当前的方法认为文本与其随附的图像是匹配的,并且可以帮助识别文本中的命名实体。然而,并不是所有的文本和图像都是匹配的,模型考虑这种不匹配的图像将会做出错误的预测。如下图所示,图片中没有任何与命名实体“Siri”相关的信息,如果模型考虑这张不匹配的图像,便会受图中“人物”的影响将“Siri”预测为PER(人)。而在只有文本的情况下,预训练模型(BERT等)通过预训练任务中学到的知识可以将“Siri”的类型预测为MISC(杂项)。

Text: Ask [Siri MISC] what 0 divided by 0 is and watch her put you in your place.

为了解决上述存在的问题,本文提出了MAF,一种通用匹配对齐框架(General Matching and Alignment Framework),将文本和图像的表示进行对齐并通过图文匹配的概率过滤图像信息 。由于该框架中的模块是插件式的,其可以很容易地被拓展到其它多模态任务上。

本文研究成果已被WSDM2022接收,文章和代码链接如下:

论文链接:https://dl.acm.org/doi/pdf/10.1145/3488560.3498475

代码:https://github.com/xubodhu/MAF

7cc4ec16-2d86-11ed-ba43-dac502259ad0.png

整体框架

本文框架如下图所示,由5个主要部分组成:

Input Representations

将原始的文本输入转为token序列的表示以及文本整体的表示,将原始的图像输入转为图像区域的表示以及图像整体的表示。

Cross-Modal Alignment Module

接收文本整体的表示和图像整体的表示作为输入,通过对比学习将文本和图像的表示变得更为一致。

Cross-Modal Interaction Module

接收token序列的表示以及图像区域的表示作为输入,使用注意力机制建立起文本token和图像区域之间的联系得到文本增强后的图像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增强后的图像的表示作为输入,用于判断文本和图像匹配的概率,并用输出的概率对图像信息进行过滤。

Cross-Modal Fusion Module

将文本token序列的表示和最终图像的表示结合在一起输入到CRF层进行预测。

7cf10116-2d86-11ed-ba43-dac502259ad0.png

主要部分

Input Representations

本文使用BERT作为文本编码器,当文本输入到BERT后,便可以得到token序列的表示,其中n为token的数量,为[CLS],为[SEP],,本文使用[CLS]的表示作为整个文本的表示。

本文使用ResNet作为图像编码器,当图像输入到ResNet后,其最后一层卷积层的输出被作为图像区域的表示,其中为图像区域的数量,即将整张图像均分为49个区域。接着,使用大小为的平均池化层对进行平均池化得到整个图像的表示。由于后续和需要进行交互,所以将通过一个全连接层将其投影到与相同的维度,其中。

Cross-Modal Alignment Module (CA)

该模块遵循SimCLR[1]进行对比学习的训练过程使得文本的表示和图像的表示更趋于一致,接收以及作为输入,通过对比学习来调整编码器的参数。本文在构造正负样例阶段中认为原始的文本-图像对为正样例,除此之外的文本-图像对均为负样例,因此在大小为N的batch中,只有N个原始的文本-图像对为正样例,对于batch中的每个文本来说,除了其原始的image外,其余任意image与其都构成负样例,对于batch中的每个图像来说也是如此。如下图所示,当N为3时,可以得到3个正样例以及个负样例。

7d0aae22-2d86-11ed-ba43-dac502259ad0.png

接着,本文使用两个不同的MLP作为投影层分别对和进行投影得到以及。然后,通过最小化对比学习损失来最大化正样例之间的相似度并且最小化负样例之间的相似度来使得文本的表示和图像的表示更加一致,image-to-text对比学习损失如下所示:

其中为余弦相似度,为温度参数。text-to-image对比学习损失如下所示:

我们将上述两个对比学习损失函数合并,得到最终的对比学习损失函数:

其中为超参数。

补充:

Q:在“背景”部分提到的第(2)个问题是图文可能是不匹配的,为什么在CA中还是认为来自同一文本-图像对的数据为正样例?

A:在EBR[2]中,作者通过类似于对比学习的方式来训练一个向量召回模型(通过搜索文本来召回淘宝商品),并且认为点击和购买的商品为正样例,但这种点击和购买的信号除了和搜索内容有关之外还受到商品价格、销量、是否包邮等因素影响,类似于本文中将原始的文本-图像对看作正例,都是存在噪声的。由于本身可以调节分布的特性,EBR作者通过增加的大小来减少数据噪声的影响,并且通过实验证明将增大到一定数值(设置为3时达到最好)可以提高模型的表现。本文最终的也是一个相对较大的数字为0.1。而在其它数据噪声相对较少的对比学习的工作中,如SimCSE[3],被设置为0.05,MoCo[4]中的被设置为0.07。

总的来说,CA中会存在一定数量的噪声数据,但可以通过提高的方式来显著地降低其带来的影响。

Cross-Modal Interaction Module (CI)

该模块通过注意力机制建立起文本和图像之间的关系,使用文本token序列表示作为Query,使用图像的区域表示作为Key和Value,最终得到文本增强后的图像表示。

Cross-Modal Matching Module (CM)

该模块用于判断图文匹配的概率,并用概率调整图像应保留的信息。该模块接受和作为输入,输出为和匹配的概率。由于缺少用于标记图文是否匹配的监督数据,本文使用一种自监督的学习方式来训练该模块。

首先,本文在大小为N的batch中构造正负样例,其中原始的文本-图像对为正样例,其余的为负样例。本文通过随机交换batch中前2k个样例的来构造负样例,如下图所示,在大小为3的batch中,交换前2*1个样例的得到2个负样例,而剩余的3-2=1个没有被交换的样例则为正样例。

7d2afa56-2d86-11ed-ba43-dac502259ad0.png

接着,将构造好的每个样例中的和拼接起来作为输入到一个激活函数为sigmoid的全连接层中用于预测图文匹配的概率。

判断图文是否匹配可以被看做是一个二分类任务,因此在获取的正负样例后,可以自然地获得每个样例的真实标签(正样例为1,负样例为0),再通过上述公式得到预测概率后,便可以使用二元交叉熵来训练该模块。

最后,使用该模块输出的概率与进行逐元素相乘来获得图像应保留的信息(该模块输出的概率越大说明图文匹配的概率越高,则逐元素相乘图像保留的信息越多)。

Cross-Modal Fusion Module (CF)

该模块用于将文本token序列以及最终图像的表示融合在一起。首先,本文使用门机制动态地调整应与文本结合的图像表示:

最后将和拼接在一起得到,其中。将输入到CRF层中,便可以得到每个token对应的类别。

训练时,CA和CM中的损失会和命名实体识别的损失同步训练。

实验

主要结果

本文的方法在Twitter-2015和Twitter-2017数据集上效果均优于之前的方法。

7d4b855a-2d86-11ed-ba43-dac502259ad0.png

运行时间

本文的方法相比于之前的方法除了有着模态之间交互的模块(本文中为CI),还添加了对齐模态表示的CA以及判断图文是否匹配的CM,这可能会导致训练成本以及预测成本增加。但本文简化了模态之间交互的过程,因此整体训练和预测时间以及模型大小均由于之前的SOTA方法。

7d71210c-2d86-11ed-ba43-dac502259ad0.png

消融实验

本文进行了消融实验,验证了CA和CM的有效性。

7d8a1194-2d86-11ed-ba43-dac502259ad0.png

样例分析

本文还进行了样例分析来更加直观地展示CA和CM的有效性。

7da422a0-2d86-11ed-ba43-dac502259ad0.png

参考资料

[1] A Simple Framework for Contrastive Learning of Visual Representations:http://proceedings.mlr.press/v119/chen20j/chen20j.pdf

[2] Embedding-based Product Retrieval in Taobao Search:https://arxiv.org/pdf/2106.09297.pdf?ref=https://githubhelp.com

[3] SimCSE: Simple Contrastive Learning of Sentence Embeddings:https://arxiv.org/pdf/2104.08821.pdf?ref=https://githubhelp.com

[4] Momentum Contrast for Unsupervised Visual Representation Learning:https://openaccess.thecvf.com/content_CVPR_2020/papers/He_Momentum_Contrast_for_Unsupervised_Visual_Representation_Learning_CVPR_2020_paper.pdf

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40028
  • 框架
    +关注

    关注

    0

    文章

    297

    浏览量

    17038
  • nlp
    nlp
    +关注

    关注

    1

    文章

    463

    浏览量

    21812
收藏 人收藏

    评论

    相关推荐

    语音识别的技术历程及工作原理

    语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。
    的头像 发表于 03-22 16:58 679次阅读
    语音<b class='flag-5'>识别的</b>技术历程及工作原理

    OneLLM:对齐所有模态框架

    OneLLM 是第一个在单个模型中集成八种不同模态的MLLM。通过统一的框架和渐进式多模态对齐pipelines,可以很容易地扩展OneLLM以包含更多数据模式。
    的头像 发表于 01-04 11:27 329次阅读
    OneLLM:<b class='flag-5'>对齐</b>所有<b class='flag-5'>模态</b>的<b class='flag-5'>框架</b>!

    自动驾驶和多模态大语言模型的发展历程

    模态大语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括图像分类、将文本与相应的视频对齐
    发表于 12-28 11:45 203次阅读
    自动驾驶和多<b class='flag-5'>模态</b>大语言模型的发展历程

    情感语音识别的应用与挑战

    一、引言 情感语音识别是一种通过分析人类语音中的情感信息实现智能化和个性化人机交互的技术。本文将探讨情感语音识别的应用领域、优势以及所面临的挑战。 二、情感语音识别的应用领域 娱乐产业:在娱乐产业
    的头像 发表于 11-30 10:40 260次阅读

    用语言对齐模态信息,北大腾讯等提出LanguageBind,刷新多个榜单

    目前的 VL 预训练方法通常仅适用于视觉和语言模态,而现实世界中的应用场景往往包含更多的模态信息,如深度图、热图像等。如何整合和分析不同模态的信息,并且能够在多个
    的头像 发表于 11-23 15:46 270次阅读
    用语言<b class='flag-5'>对齐</b>多<b class='flag-5'>模态</b>信息,北大腾讯等提出LanguageBind,刷新多个榜单

    OpenHarmony AI框架开发指导

    信息,可在关键词与“sdk”之间依次添加,信息之间以下划线连接;SDK命名,必须以“_sdk”结尾。 例如:唤醒词识别插件对应的SDK,只支持麒麟9000芯片,适用于中国国内地区适用,则对应的SDK
    发表于 09-19 18:54

    用于任意数据模态的自监督学习数据增强技术

    本文提出了一种适用于任意数据模态的自监督学习数据增强技术。   自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的,但是在具体操作上是基于特定的数据
    的头像 发表于 09-04 10:07 776次阅读
    适<b class='flag-5'>用于</b>任意数据<b class='flag-5'>模态</b>的自监督学习数据增强技术

    生物识别和人脸识别的区别

      生物识别和人脸识别都是当今广泛应用于安全领域的技术。生物识别是一种基于个体生理和行为特征的识别技术,包括指纹
    发表于 08-28 17:29 843次阅读

    labview通用视觉框架参考

    labview通用视觉软件框架,机器视觉通用框架 通用视觉框架源代码。可以参考
    发表于 08-04 15:58 34次下载

    labview视觉通用平台框架源代码

    labview通用视觉软件框架,机器视觉通用框架 通用视觉框架源代码。可以参考
    发表于 08-03 16:57

    命名实体识别技术(2)#计算思维与人工智能

    人工智能
    未来加油dz
    发布于 :2023年07月31日 20:35:43

    命名实体识别技术(1)#计算思维与人工智能

    人工智能
    未来加油dz
    发布于 :2023年07月31日 20:35:05

    Labview通用框架介绍

    Labview通用框架(基于面向对象编程)
    的头像 发表于 07-11 10:08 2002次阅读
    Labview<b class='flag-5'>通用</b><b class='flag-5'>框架</b>介绍

    用图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音
    的头像 发表于 05-26 15:45 559次阅读
    用图像<b class='flag-5'>对齐</b>所有<b class='flag-5'>模态</b>,Meta开源多感官AI基础模型,实现大一统

    ImageBind:跨模态之王,将6种模态全部绑定!

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音
    的头像 发表于 05-11 09:30 665次阅读
    ImageBind:跨<b class='flag-5'>模态</b>之王,将6种<b class='flag-5'>模态</b>全部绑定!