0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种全新易用的基于Word-Word关系的NER统一模型

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-03-23 13:37 次阅读

总体说一下

NER任务大概分为三种:flat, overlapped, and discontinuousNER,如下图所示:

aching in legs 为flat NER

aching in shoulders为discontinuous NER

aching in legs和achingin shoulders这两个实体共同重复了aching in,为overlapped NER

d4b71bb6-965e-11ec-952b-dac502259ad0.png

最近的研究都在考虑如何通过一个大一统模型一次性解决这三种问题。目前的最佳的方法基本都是基于span-based和seq2seq的,然而span-based方法主要倾向于通过枚举所有span组合来解决边界问题,时间复杂度上是个问题;而后者大家都知道,存在错误传播。 所以,本文提出了一种新颖的方式和框架来解决所有的NER问题:通过预测word-word之间的关系(这里称之为W2NER)。其中word与word之间的关系主要有三种:

NNW: Next-Neighboring-Word,预测与后面词的关系

THW-*: Tail-Head-Word-* ,预测与前面词的关系,其中*表示具体关系(ORG、PER等)

NONE:表示没有关系

其中,本文采用一个多粒度2D图来表示word之间的关系,如下图,其中为了解决图的稀疏性,而将这两种关系放到一个图里,一个在右上角,一个在左下角。

d4c5f730-965e-11ec-952b-dac502259ad0.png

最终在14个公开数据集(包含中文和英文)上做了大量实验,并都取得了最佳值,也成为了最新的SoTA。

模型

d4db75e2-965e-11ec-952b-dac502259ad0.png

一下子看,感觉模型想是一堆模块堆积而成,其实细读论文会发现这些模型都是由NER的前人经验而来,有理有据。 具体来看,大概分为三个模块: Encoder Layer通过BERT获取表示信息,然后通过LSTM获取上下文信息。 Convolution Layer这里有一个CLN(Conditional Layer Normalization)层,主要用来获得word j在word i前提下的表示:

d4f25596-965e-11ec-952b-dac502259ad0.png

d507a27a-965e-11ec-952b-dac502259ad0.pngd51d7226-965e-11ec-952b-dac502259ad0.png

d531eaee-965e-11ec-952b-dac502259ad0.png

然后是BERT-Style Grid Representation层,这里主要是模型BERT的3个embedding层而来,这里的三个表示层为信息表示、关系位置信息表示和位置域表示组成,通过MLP融合到一起。 然后通过多粒度的空洞卷积(Multi-Granularity Dilated Convolution)采样不同的信息。 Co-Predictor Layer这里用了一个普通的MLP和一个专门用于变长标签预测的biaffine预测:

d543fc2a-965e-11ec-952b-dac502259ad0.png

d553a832-965e-11ec-952b-dac502259ad0.png   最后过一个softmax层: d567e6e4-965e-11ec-952b-dac502259ad0.png   最后是一个Decoder层,这里主要就是通过NNW和HTW-*构成一个环的部分就是一个实体,比如下面这个例子就解释了所有情况:  

d57ded72-965e-11ec-952b-dac502259ad0.png

损失的话,就简单了:

d591a092-965e-11ec-952b-dac502259ad0.png

实验

英文flat数据集:

d5a0b190-965e-11ec-952b-dac502259ad0.png

中文flat数据集:

d5b734ec-965e-11ec-952b-dac502259ad0.png

英文overlapped数据集:

d5ca541e-965e-11ec-952b-dac502259ad0.png

中文overlapped数据集,F1性能:

d5e4260a-965e-11ec-952b-dac502259ad0.png

英文discontinuous数据集:

d5f2ed16-965e-11ec-952b-dac502259ad0.png

和前沿最佳论文作对比:

d60f9934-965e-11ec-952b-dac502259ad0.png

消融实验,F1性能:

d62d0122-965e-11ec-952b-dac502259ad0.png

训练速度和推理速度都得到了极大提升:

d643e432-965e-11ec-952b-dac502259ad0.png

这篇文章还是非常不错的,是一个简单有效的NER新框架,可以较为轻松的应用于线下。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • word
    +关注

    关注

    1

    文章

    77

    浏览量

    21732
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24347

原文标题:一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何利用labview创建个新的word文档?

    附件中是我用labview将文字写入到word文档的截图,但是只能够写入在个已存在的word文档里面。如果我想要新建word文档并写入
    发表于 05-06 18:25

    复制Simulink中的仿真模型word的方法小结

    的是个位图文件,因而放大缩小时会存在失真。大家都知道调整矢量图时不存在失真,那么simulink能够导出仿真模型的矢量图吗?答案是肯定的。下面即提供了一种解决方法。1、在File->
    发表于 07-06 06:06

    Microsoft Office Word、Excel 和

    采用 Microsoft Office Word、Excel 和 PowerPoint 2007 新增的文件格式打开、编辑和保存文档、工作簿和演示文稿。 Microsoft Office XP 和 2003 系统 Word、Excel 或 PowerPoint 程序的用
    发表于 02-12 08:45 165次下载

    一种基于Word文档的数字密写设计与实现

    提出了一种新的基于 Word 文档的数字密写设计与实现方法,介绍了应用程序的实现方案,给出了系统组成方框图。实验结果表明,算法很好地实现了文本的嵌入和信息隐藏,且对
    发表于 08-04 09:40 20次下载

    《微机原理及应用》课程教程 (word文档)

     《微机原理及应用》课程教案目    录 下载WORD文档前    言 下载WORD文档第一章 51系列单片机概述 下载WORD文档   
    发表于 09-16 11:17 202次下载

    一种快速Word编程接口的设计与实现

    本文在分析MS Word文档存储格式的基础上,研究了读取Word文档二进制数据流并将其恢复成可读信息的方法,设计实现了一种快速Word编程接口,大大地提高了文档处理速度和系统性能
    发表于 02-21 15:58 23次下载

    Office Word、Excel和PowerPoint 文

    打开、编辑和保存采用从 Office 2007 开始引入到 Microsoft Office Word、Excel 和 PowerPoint 中的 Open XML 文件格式的文档、工作簿和演示文稿。Microsoft Office XP 和 2003 系统 Word、E
    发表于 07-06 00:14 238次下载
    Office <b class='flag-5'>Word</b>、Excel和PowerPoint 文

    一种快速Word编程接口的设计与实现

    本文在分析MS Word文档存储格式的基础上,研究了读取Word文档二进制数据流并将其恢复成可读信息的方法,设计实现了一种快速Word编程接口,大大地提高了文档处理速度和系统性能
    发表于 07-22 17:39 16次下载

    word如何去删除水印

    word如何去删除水印:利用WPS文字工具打开这份Word文档,然后在菜单中依次选择“视图-页眉页脚”命令;接着把鼠标移动到水印上,当出现十字星时,单击一下鼠
    发表于 01-26 12:40 6036次阅读

    如何在Word中怎么样画电路图?

    如何在Word中怎么样画电路图? 编制物理试卷时,很多人认为用Word画图困难,喜欢用windows自带的画图程序画图,或
    发表于 12-26 10:24 1.1w次阅读
    如何在<b class='flag-5'>Word</b>中怎么样画电路图?

    word/word2003上次启动失败,以安全模式启动的解决

    word/word2003上次启动失败,以安全模式启动的解决方法 这个问题其实很好解决:问题在于坏的word文件导致word的模版出错了。 电子发烧友
    发表于 08-03 22:21 4037次阅读
    <b class='flag-5'>word</b>/<b class='flag-5'>word</b>2003上次启动失败,以安全模式启动的解决

    VC上机指导WORD文档

    VC上机指导WORD文档
    发表于 03-04 17:48 2次下载

    Labview做的PDF转Word小程序源码分享

    Labview做的PDF转Word小程序源码分享
    发表于 12-02 11:27 48次下载

    LV版本的PDF转Word

    LV版本的PDF转Word,亲测有效好用。
    发表于 05-16 15:56 0次下载

    如何使用Python读取写入Word文件

    01 准备 Python 是一种通用编程语言,也可以用于处理 Microsoft Word 文件。在本文中,我将向你介绍如何使用 Python 和 python-docx 库读取、写入和操作
    的头像 发表于 09-27 17:03 1440次阅读