0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

介绍一种通用匹配对齐框架MAF

深度学习自然语言处理 来源:知识工场 作者:黄世洲 2022-09-06 16:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

命名实体识别是NLP领域中的一项基础任务,在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用,一直是热点研究方向之一。多模态命名实体识别在传统的命名实体识别基础上额外引入了图像,可以为文本补充语义信息来进行消岐,近些年来受到人们广泛的关注。

尽管当前的多模态命名实体识别方法取得了成功,但仍然存在着两个问题:(1)当前大部分方法基于注意力机制来进行文本和图像间的交互,但由于不同模态的表示来自于不同的编码器,想要捕捉文本中token和图像中区域之间的关系是困难的。如下图所示,句子中的‘Rob’应该和图像中存在猫的区域(V5,V6,V9等)有着较高的相似度,但由于文本和图像的表示并不一致,在通过点积等形式计算相似度时,‘Rob’可能会和其它区域有着较高的相似度得分。因此,表示的不一致会导致模态之间难以建立起较好的关系。

7c7b002e-2d86-11ed-ba43-dac502259ad0.png

(2)当前的方法认为文本与其随附的图像是匹配的,并且可以帮助识别文本中的命名实体。然而,并不是所有的文本和图像都是匹配的,模型考虑这种不匹配的图像将会做出错误的预测。如下图所示,图片中没有任何与命名实体“Siri”相关的信息,如果模型考虑这张不匹配的图像,便会受图中“人物”的影响将“Siri”预测为PER(人)。而在只有文本的情况下,预训练模型(BERT等)通过预训练任务中学到的知识可以将“Siri”的类型预测为MISC(杂项)。

为了解决上述存在的问题,本文提出了MAF,一种通用匹配对齐框架(General Matching and Alignment Framework),将文本和图像的表示进行对齐并通过图文匹配的概率过滤图像信息 。由于该框架中的模块是插件式的,其可以很容易地被拓展到其它多模态任务上。

本文研究成果已被WSDM2022接收,

7cc4ec16-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

整体框架

本文框架如下图所示,由5个主要部分组成:

Input Representations

将原始的文本输入转为token序列的表示以及文本整体的表示,将原始的图像输入转为图像区域的表示以及图像整体的表示。

Cross-Modal Alignment Module

接收文本整体的表示和图像整体的表示作为输入,通过对比学习将文本和图像的表示变得更为一致。

Cross-Modal Interaction Module

接收token序列的表示以及图像区域的表示作为输入,使用注意力机制建立起文本token和图像区域之间的联系得到文本增强后的图像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增强后的图像的表示作为输入,用于判断文本和图像匹配的概率,并用输出的概率对图像信息进行过滤。

Cross-Modal Fusion Module

将文本token序列的表示和最终图像的表示结合在一起输入到CRF层进行预测。

7cf10116-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

主要部分

Input Representations

pYYBAGMXAjyAfd_9AAIrPNeQE1s850.jpg

7d0aae22-2d86-11ed-ba43-dac502259ad0.png

pYYBAGMXAmiAViCiAAF8GHZxccw723.jpg
poYBAGMXAm-AZaj2AALcEY_MaGs226.jpg

7d2afa56-2d86-11ed-ba43-dac502259ad0.png

poYBAGMXAoyAAY87AAGwW_qDavA106.jpg

实验

主要结果

本文的方法在Twitter-2015和Twitter-2017数据集上效果均优于之前的方法。

7d4b855a-2d86-11ed-ba43-dac502259ad0.png

运行时间

本文的方法相比于之前的方法除了有着模态之间交互的模块(本文中为CI),还添加了对齐模态表示的CA以及判断图文是否匹配的CM,这可能会导致训练成本以及预测成本增加。但本文简化了模态之间交互的过程,因此整体训练和预测时间以及模型大小均由于之前的SOTA方法。

7d71210c-2d86-11ed-ba43-dac502259ad0.png

消融实验

本文进行了消融实验,验证了CA和CM的有效性。

7d8a1194-2d86-11ed-ba43-dac502259ad0.png

样例分析

本文还进行了样例分析来更加直观地展示CA和CM的有效性。

7da422a0-2d86-11ed-ba43-dac502259ad0.png



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    4011

    浏览量

    143368
  • MLP
    MLP
    +关注

    关注

    0

    文章

    57

    浏览量

    5033

原文标题:用于多模态命名实体识别的通用匹配对齐框架

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    伺服电机正余弦编码器的相位对齐方式

    对齐方式主要可以分为两大类:需要物理调整的 硬件对齐 ,和依赖软件算法的 软件对齐 。 方法:物理调整的硬件对齐 这是传统的、通过调整编
    的头像 发表于 03-20 15:36 205次阅读
    伺服电机正余弦编码器的相位<b class='flag-5'>对齐</b>方式

    一种可跨不同领域的异常检测通用模型UniOD介绍

    本研究提出了一种可跨不同领域、适用于特征维度各异且特征空间异构的数据集的异常检测通用模型。
    的头像 发表于 03-18 09:09 549次阅读
    <b class='flag-5'>一种</b>可跨不同领域的异常检测<b class='flag-5'>通用</b>模型UniOD<b class='flag-5'>介绍</b>

    一种无OS的MCU实用软件框架

    介绍一种无OS的MCU实用软件框架,包括任务轮询管理,命令管理器、低功耗管理、环形缓冲区等实用模块。系统中广泛利用自定义段技术减少各个模块间的耦合关系,大大提供程序的可维护性。 主要功能 支持模块
    发表于 01-08 06:58

    用于窄带匹配高速射频ADC的全新方法

    本期,为大家带来的是《用于窄带匹配高速射频 ADC 的全新方法》,介绍一种用于窄带匹配高速射频 ADC 的全新方法,以解决高中间频率系统中 ADC 前端窄带
    的头像 发表于 01-04 15:56 7618次阅读
    用于窄带<b class='flag-5'>匹配</b>高速射频ADC的全新方法

    频谱分析仪与电压探头匹配指南

    如何实现频谱分析仪与电压探头的精准匹配?核心逻辑可概括为“三对齐一适配”——参数对齐、接口对齐、设置对齐+场景适配,最终目标是规避信号反射、
    的头像 发表于 12-29 14:51 558次阅读
    频谱分析仪与电压探头<b class='flag-5'>匹配</b>指南

    TDK MAF1005P型噪声抑制滤波器:设计利器的深度剖析

    TDK MAF1005P型噪声抑制滤波器:设计利器的深度剖析 在电子设备的设计中,噪声抑制直是工程师们关注的重点。TDK的MAF系列噪声抑制滤波器,特别是MAF1005P型,为我们提
    的头像 发表于 12-26 14:40 327次阅读

    TDK MAF1005FR音频线路噪声抑制滤波器:设计工程师的理想之选

    TDK MAF1005FR音频线路噪声抑制滤波器:设计工程师的理想之选 电子工程师在设计音频线路时,常常需要应对噪声干扰这棘手问题。TDK的MAF系列噪声抑制滤波器,特别是MAF10
    的头像 发表于 12-26 09:35 553次阅读

    摩尔线程新代大语言模型对齐框架URPO入选AAAI 2026

    近日,摩尔线程在人工智能前沿领域取得重要突破,其提出的新代大语言模型对齐框架——URPO统奖励与策略优化,相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这
    的头像 发表于 11-17 16:03 602次阅读
    摩尔线程新<b class='flag-5'>一</b>代大语言模型<b class='flag-5'>对齐</b><b class='flag-5'>框架</b>URPO入选AAAI 2026

    一种适用于动态环境的自适应先验场景-对象SLAM框架

    由于传统视觉SLAM在动态场景中容易会出现严重的定位漂移,本文提出了一种新颖的基于场景-对象的可靠性评估框架,该框架通过当前帧质量指标以及相对于可靠参考帧的场景变化,全面评估SLAM的稳定性。
    的头像 发表于 08-19 14:17 1003次阅读
    <b class='flag-5'>一种</b>适用于动态环境的自适应先验场景-对象SLAM<b class='flag-5'>框架</b>

    介绍一种直流过压保护电路

    本篇博文将详细分析一种典型的过压保护电路,探讨其工作原理、元件选择及实际应用,帮助大家深入理解如何保护电子设备。
    的头像 发表于 07-05 11:06 1690次阅读
    <b class='flag-5'>介绍</b><b class='flag-5'>一种</b>直流过压保护电路

    dhkey chcks不匹配怎么解决?

    \" 。 这是个随机问题,在配对和解除配对时观察到。 在执行此操作时,我们观察到在迭代 10 次配对和解除配对后,出现了密钥不
    发表于 07-01 06:36

    一种新型宽带鞭状套筒天线

    电子发烧友网站提供《一种新型宽带鞭状套筒天线.pdf》资料免费下载
    发表于 05-28 14:05 0次下载

    基于LockAI视觉识别模块:C++多模板匹配

    多模板匹配一种在图像中同时寻找多个模板的技术。通过对每个模板逐进行匹配,找到与输入图像最相似的区域,并标记出匹配度最高的结果。本实验提供
    的头像 发表于 05-14 14:37 1757次阅读
    基于LockAI视觉识别模块:C++多模板<b class='flag-5'>匹配</b>

    Allegro Skill布局功能--器件丝印过孔对齐介绍与演示

    Allegro系统虽然提供了基本的元件对齐功能,但其适用范围较为有限。相比之下,Fanyskill 的“对齐”命令在操作体验和功能性上更具优势:其界面设计更加直观易用,并支持多种元素的对齐操作,包括
    发表于 05-14 08:59 4438次阅读
    Allegro Skill布局功能--器件丝印过孔<b class='flag-5'>对齐</b><b class='flag-5'>介绍</b>与演示

    一种新型激光雷达惯性视觉里程计系统介绍

    针对具有挑战性的光照条件和恶劣环境,本文提出了LIR-LIVO,这是一种轻量级且稳健的激光雷达-惯性-视觉里程计系统。通过采用诸如利用深度与激光雷达点云关联实现特征的均匀深度分布等先进技术,以及利用
    的头像 发表于 04-28 11:18 1263次阅读
    <b class='flag-5'>一种</b>新型激光雷达惯性视觉里程计系统<b class='flag-5'>介绍</b>