0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

介绍一种通用匹配对齐框架MAF

深度学习自然语言处理 来源:知识工场 作者:黄世洲 2022-09-06 16:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

命名实体识别是NLP领域中的一项基础任务,在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用,一直是热点研究方向之一。多模态命名实体识别在传统的命名实体识别基础上额外引入了图像,可以为文本补充语义信息来进行消岐,近些年来受到人们广泛的关注。

尽管当前的多模态命名实体识别方法取得了成功,但仍然存在着两个问题:(1)当前大部分方法基于注意力机制来进行文本和图像间的交互,但由于不同模态的表示来自于不同的编码器,想要捕捉文本中token和图像中区域之间的关系是困难的。如下图所示,句子中的‘Rob’应该和图像中存在猫的区域(V5,V6,V9等)有着较高的相似度,但由于文本和图像的表示并不一致,在通过点积等形式计算相似度时,‘Rob’可能会和其它区域有着较高的相似度得分。因此,表示的不一致会导致模态之间难以建立起较好的关系。

7c7b002e-2d86-11ed-ba43-dac502259ad0.png

(2)当前的方法认为文本与其随附的图像是匹配的,并且可以帮助识别文本中的命名实体。然而,并不是所有的文本和图像都是匹配的,模型考虑这种不匹配的图像将会做出错误的预测。如下图所示,图片中没有任何与命名实体“Siri”相关的信息,如果模型考虑这张不匹配的图像,便会受图中“人物”的影响将“Siri”预测为PER(人)。而在只有文本的情况下,预训练模型(BERT等)通过预训练任务中学到的知识可以将“Siri”的类型预测为MISC(杂项)。

为了解决上述存在的问题,本文提出了MAF,一种通用匹配对齐框架(General Matching and Alignment Framework),将文本和图像的表示进行对齐并通过图文匹配的概率过滤图像信息 。由于该框架中的模块是插件式的,其可以很容易地被拓展到其它多模态任务上。

本文研究成果已被WSDM2022接收,

7cc4ec16-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

整体框架

本文框架如下图所示,由5个主要部分组成:

Input Representations

将原始的文本输入转为token序列的表示以及文本整体的表示,将原始的图像输入转为图像区域的表示以及图像整体的表示。

Cross-Modal Alignment Module

接收文本整体的表示和图像整体的表示作为输入,通过对比学习将文本和图像的表示变得更为一致。

Cross-Modal Interaction Module

接收token序列的表示以及图像区域的表示作为输入,使用注意力机制建立起文本token和图像区域之间的联系得到文本增强后的图像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增强后的图像的表示作为输入,用于判断文本和图像匹配的概率,并用输出的概率对图像信息进行过滤。

Cross-Modal Fusion Module

将文本token序列的表示和最终图像的表示结合在一起输入到CRF层进行预测。

7cf10116-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

主要部分

Input Representations

pYYBAGMXAjyAfd_9AAIrPNeQE1s850.jpg

7d0aae22-2d86-11ed-ba43-dac502259ad0.png

pYYBAGMXAmiAViCiAAF8GHZxccw723.jpg
poYBAGMXAm-AZaj2AALcEY_MaGs226.jpg

7d2afa56-2d86-11ed-ba43-dac502259ad0.png

poYBAGMXAoyAAY87AAGwW_qDavA106.jpg

实验

主要结果

本文的方法在Twitter-2015和Twitter-2017数据集上效果均优于之前的方法。

7d4b855a-2d86-11ed-ba43-dac502259ad0.png

运行时间

本文的方法相比于之前的方法除了有着模态之间交互的模块(本文中为CI),还添加了对齐模态表示的CA以及判断图文是否匹配的CM,这可能会导致训练成本以及预测成本增加。但本文简化了模态之间交互的过程,因此整体训练和预测时间以及模型大小均由于之前的SOTA方法。

7d71210c-2d86-11ed-ba43-dac502259ad0.png

消融实验

本文进行了消融实验,验证了CA和CM的有效性。

7d8a1194-2d86-11ed-ba43-dac502259ad0.png

样例分析

本文还进行了样例分析来更加直观地展示CA和CM的有效性。

7da422a0-2d86-11ed-ba43-dac502259ad0.png



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3903

    浏览量

    141443
  • MLP
    MLP
    +关注

    关注

    0

    文章

    57

    浏览量

    4929

原文标题:用于多模态命名实体识别的通用匹配对齐框架

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程新代大语言模型对齐框架URPO入选AAAI 2026

    近日,摩尔线程在人工智能前沿领域取得重要突破,其提出的新代大语言模型对齐框架——URPO统奖励与策略优化,相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这
    的头像 发表于 11-17 16:03 229次阅读
    摩尔线程新<b class='flag-5'>一</b>代大语言模型<b class='flag-5'>对齐</b><b class='flag-5'>框架</b>URPO入选AAAI 2026

    一种适用于动态环境的自适应先验场景-对象SLAM框架

    由于传统视觉SLAM在动态场景中容易会出现严重的定位漂移,本文提出了一种新颖的基于场景-对象的可靠性评估框架,该框架通过当前帧质量指标以及相对于可靠参考帧的场景变化,全面评估SLAM的稳定性。
    的头像 发表于 08-19 14:17 641次阅读
    <b class='flag-5'>一种</b>适用于动态环境的自适应先验场景-对象SLAM<b class='flag-5'>框架</b>

    介绍一种直流过压保护电路

    本篇博文将详细分析一种典型的过压保护电路,探讨其工作原理、元件选择及实际应用,帮助大家深入理解如何保护电子设备。
    的头像 发表于 07-05 11:06 933次阅读
    <b class='flag-5'>介绍</b><b class='flag-5'>一种</b>直流过压保护电路

    dhkey chcks不匹配怎么解决?

    \" 。 这是个随机问题,在配对和解除配对时观察到。 在执行此操作时,我们观察到在迭代 10 次配对和解除配对后,出现了密钥不
    发表于 07-01 06:36

    基于LockAI视觉识别模块:C++多模板匹配

    多模板匹配一种在图像中同时寻找多个模板的技术。通过对每个模板逐进行匹配,找到与输入图像最相似的区域,并标记出匹配度最高的结果。本实验提供
    的头像 发表于 05-14 14:37 1336次阅读
    基于LockAI视觉识别模块:C++多模板<b class='flag-5'>匹配</b>

    Allegro Skill布局功能--器件丝印过孔对齐介绍与演示

    Allegro系统虽然提供了基本的元件对齐功能,但其适用范围较为有限。相比之下,Fanyskill 的“对齐”命令在操作体验和功能性上更具优势:其界面设计更加直观易用,并支持多种元素的对齐操作,包括
    发表于 05-14 08:59 2418次阅读
    Allegro Skill布局功能--器件丝印过孔<b class='flag-5'>对齐</b><b class='flag-5'>介绍</b>与演示

    一种新型激光雷达惯性视觉里程计系统介绍

    针对具有挑战性的光照条件和恶劣环境,本文提出了LIR-LIVO,这是一种轻量级且稳健的激光雷达-惯性-视觉里程计系统。通过采用诸如利用深度与激光雷达点云关联实现特征的均匀深度分布等先进技术,以及利用
    的头像 发表于 04-28 11:18 800次阅读
    <b class='flag-5'>一种</b>新型激光雷达惯性视觉里程计系统<b class='flag-5'>介绍</b>

    一种实时多线程VSLAM框架vS-Graphs介绍

    针对现有VSLAM系统语义表达不足、地图可解释性差的问题,本文提出vS-Graphs,一种实时多线程VSLAM框架。该方案显著提升了重建地图的语义丰富度、可解释性及定位精度。实验表明
    的头像 发表于 04-19 14:07 728次阅读
    <b class='flag-5'>一种</b>实时多线程VSLAM<b class='flag-5'>框架</b>vS-Graphs<b class='flag-5'>介绍</b>

    PCB布局太乱? Altium Designer这个快捷键帮你对齐全场

    在做PCB设计的时候,你是否也遇到过这种情况: 器件摆好但总感觉歪歪扭扭? 有些元件间距不致,看着难受? 想对齐个个拖动,累得不行? 别急!今天教你招  Altium Desi
    的头像 发表于 04-14 09:09 4265次阅读
    PCB布局太乱? Altium Designer这个快捷键帮你<b class='flag-5'>一</b>秒<b class='flag-5'>对齐</b>全场

    图解边沿对齐,中心对齐PWM(可下载)

    在说边沿对齐,中心对齐前,我们先来段铺垫,PWM 又称脉冲宽度调制,我们通过调 节脉冲的占空比,我们可以控制电压的大小(比如我们满占空比时电压为 12V,我们可以通 过调节占空比让电压变为 7V
    发表于 03-31 15:15 1次下载

    一种多模态驾驶场景生成框架UMGen介绍

    端到端自动驾驶技术的快速发展对闭环仿真器提出了迫切需求,而生成式模型为其提供了一种有效的技术架构。然而,现有的驾驶场景生成方法大多侧重于图像模态,忽略了其他关键模态的建模,如地图信息、智能交通参与者等,从而限制了其在真实驾驶场景中的适用性。
    的头像 发表于 03-24 15:57 1511次阅读
    <b class='flag-5'>一种</b>多模态驾驶场景生成<b class='flag-5'>框架</b>UMGen<b class='flag-5'>介绍</b>

    Orcad绘制原理图的元器件对齐方法

    在使用Orcad软件绘制原理图的时候,为了使原理图绘制的美观些,有时候也希望像PCB设计样,将所有的器件都进行对齐,这里我们给大家介绍下,原理图器件
    的头像 发表于 02-07 10:33 2553次阅读
    Orcad绘制原理图的元器件<b class='flag-5'>对齐</b>方法

    AI开发框架集成介绍

    随着AI应用的广泛深入,单框架往往难以满足多样化的需求,因此,AI开发框架的集成成为了提升开发效率、促进技术创新的关键路径。以下,是对AI开发框架集成的
    的头像 发表于 01-07 15:58 929次阅读

    一种离子注入技术:晕环技术介绍

    本文介绍一种在MOSFET(金属-氧化物-半导体场效应晶体管)特征尺寸缩小至深亚微米级别、短沟道效应显著时采用的一种离子注入技术:晕环技术。   离子注入 在半导体制造工艺中指的是离子注入(Ion
    的头像 发表于 12-31 11:49 3318次阅读
    <b class='flag-5'>一种</b>离子注入技术:晕环技术<b class='flag-5'>介绍</b>

    一种降低VIO/VSLAM系统漂移的新方法

    本文提出了一种新方法,通过使用点到平面匹配将VIO/VSLAM系统生成的稀疏3D点云与数字孪生体进行对齐,从而实现精确且全球致的定位,无需视觉数据关联。所提方法为VIO/VSLAM系
    的头像 发表于 12-13 11:18 1183次阅读
    <b class='flag-5'>一种</b>降低VIO/VSLAM系统漂移的新方法