基于中文数据的标签词构造过程-电子发烧友网

一、简介

在UIE出来以前，小样本NER主要针对的是英文数据集，目前主流的小样本NER方法大多是基于prompt，在英文上效果好的方法，在中文上不一定适用，其主要原因可能是：

中文长实体相对英文较多，英文是按word进行切割，很多实体就是一个词；边界相对来说更清晰；

生成方法对于长实体来说更加困难。但是随着UIE的出现，中文小样本NER 的效果得到了突破。

二、主流小样本NER方法

2.1、EntLM

EntLM该方法核心思想：抛弃模板，把NER作为语言模型任务，实体的位置预测为label word,非实体位置预测为原来的词，该方法速度较快。模型结果图如图2-1所示：

图2-1 EntLM模型

论文重点在于如何构造label word：在中文数据上本实验做法与论文稍有区别，但整体沿用论文思想：下面介绍了基于中文数据的标签词构造过程；

采用领域数据构造实体词典；

基于实体词典和已有的实体识别模型对中文数据(100 000)进行远程监督，构造伪标签数据；

采用预训练的语言模型对计算LM的输出，取实体部分概率较高的top3个词；

根据伪标签数据和LM的输出结果，计算词频；由于可能出现在很多类中都出现的高频标签词，因此需要去除冲突，该做法沿用论文思想；

使用均值向量作为类别的原型，选择top6高频词的进行求平均得到均值向量；

2.2、TemplateNER

TemplateNER的核心思想就是采用生成模型的方法来解决NER问题，训练阶段通过构造模板，让模型学习哪些span是实体,哪些span不是实体，模板集合为：$T=[T+,T+ ...T+,T-]$,T+为xx is aentity，T-为 xx is not aentity,训练时采用目标实体作为正样本，负样本采用随机非实体进行构造，负样本的个数是正样本的1.5倍。推理阶段，原始论文中是 n-gram 的数量限制在 1 到 8 之间，作为实体候选，但是中文的实体往往过长，所以实验的时候是将，n-gram的长度限制在15以内，推理阶段就是对每个模板进行打分，选择得分最大的作为最终实体。

这篇论文在应用中的需要注意的主要有二个方面：

模板有差异，对结果影响很大，模板语言越复杂，准确率越低；

随着实体类型的增加，会导致候选实体量特别多，训练，推理时间更，尤其在句子较长的时候，可能存在效率问题，在中文数据中，某些实体可能涉及到15个字符（公司名），导致每个句子的候选span增加，线上使用困难,一条样本推理时间大概42s

图2-2 TemplateNER抽取模型

2.3、LightNER

LightNER的核心思想采用生成模型进行实体识别，预训练模型采用 BART通过 prompt 指导注意力层来重新调整注意力并适应预先训练的权重，输入一个句子，输出是：实体的序列，每个实体包括：实体 span 在输入句子中的 start index，end index ，以及实体类型，该方法的思想具有一定的通用性，可以用于其他信息抽取任务。

图2-3 LightNER抽取模型

2.4、UIE

UIE(通用信息抽取框架)真正的实现其实是存在两个版本，最初是中科院联合百度发的ACL2022的一篇论文，Unified Structure Generation for Universal Information Extraction，这个版本采用的是T5模型来进行抽取，采用的是生成模型，后来百度推出的UIE信息抽取框架，采用的是span抽取方式，直接抽取实体的开始位置和结束位置，其方法和原始论文并不相同，但是大方向相同。

输入形同：UIE采用的是前缀prompt的形式，采用的是Schema+Text的形式作为输入，文本是NER任务，所以Schema为实体类别，比如：人名、地名等。

采用的训练形式相同，都是采用预训练加微调的形式

不同点：

百度UIE是把NER作为抽取任务，分别预测实体开始和结束的位置，要针对schema进行多次解码，比如人名进行一次抽取，地名要进行一次抽取，以次类推，也就是一条文本要进行n次，n为schema的个数，原始UIE是生成任务，一次可以生成多个schema对应的结果

百度UIE是在ernie基础上进行预训练的，原始的UIE是基于T5模型。

图2-4 UIE抽取模型

三、实验结果

该部分主要采用主流小样本NER模型在中文数据上的实验效果。

通用数据1测试效果：

Method	5-shot	10-shot	20-shot	50-shot
BERT-CRF	-	0.56	0.66	0.74
LightNER	0.21	0.42	0.57	0.73
TemplateNER	0.24	0.44	0.51	0.61
EntLM	0.46	0.54	0.56	-

从实验结果来看，其小样本NER模型在中文上的效果都不是特别理想，没有达到Bert-CRF的效果，一开始怀疑结果过拟了，重新换了测试集，发现BERT-CRF效果依旧变化不大，就是比其他的小样本学习方法好。

3.1、UIE实验结果

UIE部分做的实验相对较多，首先是消融实验，明确UIE通用信息抽取的能力是因为预训练模型的原因，还是因为模型本身的建模方式让其效果好，其中，BERTUIE，采用BERT作为预训练语言模型，pytorch实现，抽取方式采用UIE的方式，抽取实体的开始和结束位置。

领域数据1测试结果（实体类型7类）：

预训练模型	框架	F1	Epoch
Ernie3.0	Paddle	0.71	200
Uie-base	paddle	0.72	100
BERT	pytorch	0.705	30

从本部分实验可以确定的是，预训练模型其实就是一个锦上添花的作用， UIE的本身建模方式更重要也更有效。

领域数据1测试结果（实体类型7类）：

	5-shot	10-shot	20-shot	50-shot
BERT-CRF	0.697	0.75	0.82	0.85
百度UIE	0.76	0.81	0.84	0.87
BERTUIE	0.73	0.79	0.82	0.87
T5（放宽后评价）	0.71	0.75	0.79	0.81

领域数据3测试效果（实体类型6类），20-shot实验结果：

	BERT-CRF	LightNER	EntLM	百度UIE	BERTUIE
F1	0.69	0.57	0.58	0.72	0.69

UIE在小样本下的效果相较于BERT-CRF之类的抽取模型要好，但是UIE的速度较于BERT-CRF慢很多，大家可以根据需求决定用哪个模型。如果想进一步提高效果，可以针对领域数据做预训练，本人也做了预训练，效果确实有提高。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

百度

百度

+关注

关注
9

文章
2172

浏览量
88926
语言模型

语言模型

+关注

关注
0

文章
435

浏览量
10047
数据集

数据集

+关注

关注
4

文章
1179

浏览量
24353

原文标题：中文小样本NER模型方法总结和实战

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

轿车参数化分析模型的构造研究及应用

设置参数以ANSYS 命令流的方式运行3. 运用参数化模型生成程序对实车进行简化抽象及参数化构造概念设计的车身参数化分析模型并在依托早期车身开发平台的基础上论述了该模型在早期车身开发中的应用过程方案

发表于 04-16 13:40

数字签名方案的同底构造攻击

在数字签名中,由于签名因子或整个签名方案设计的不合理,使得攻击者很容易通过将签名验证等式进行变形,将其转换成一个同底的等式,并通过指数的相等伪造出签名数据。针对此问题,提出同底构造攻击的概念,并

发表于 05-06 09:04

[讨论]提高网站关键词排名的28个SEO小技巧

提高网站关键词排名的28个SEO小技巧关键词位置、密度、处理 URL中出现关键词（英文）网页标题中出现关键词（1-3个）关键词

发表于 12-01 17:08

为什么要添加标签呢？添加标签对你有什么好处

为什么要添加标签呢？1、什么是标签？标签是——描述主题内容的关键词。2、标签有什么作用？优质的标签

发表于 09-29 17:11

标签不能输入中文，应该怎么解决？

在标签中输入中文时候突然跳出对话框，如下图所示然后发现所有控件的标签都不能输入中文，只能是创建后默认的中文名字，修改的话只能输入非

发表于 12-26 13:38

RFID图书馆电子标签

的三次互感校验技术，以对标签和读写设备进行相互校验，即读写器要验证标签的合法性，标签也要验证读写器的合法性;标签在数据交换前要与读写器进行三次相互认证，而且在通讯

发表于 04-01 14:38

upper address 这个词应该怎么翻译？

and A8 for the upper address. ”upper address 是什么意思？我刚学硬件开发，可能翻译过来都不知道什么意思，哈哈。不过首先还是要先知道中文是哪个词。请各位大大指教~--------------------解决了，意思就是寄存器地

发表于 08-23 21:02

HanLP关键词提取算法分析详解

顶点之间的相关性重要程度，而这就是带权图模型。2. 源码实现2.1 关键词提取流程给定若干个句子，提取关键词。而TextRank算法是 graphbased ranking model，因此需要构造一个

发表于 11-05 10:41

基于CRF序列标注的中文依存句法分析器的Java实现

可以知道决定两个词之间的依存关系主要有二个因素: 方向和距离。因此我们将类别标签定义为具有如下的形式:[ + |- ] dPOS其中, [ + | – ]表示方向, + 表示支配词在句中的位置出现在

发表于 01-16 14:21

关键词优化有哪些实用的方法

的排名。还有一些实用的方法就是网站的一个关键词布局，这里应该设计seo算法中的页面相关匹配程度，这样来提升网站页面的整体相关性，其次是重要的位置部署好我们要做的关键词，比如重要的一些标签来添加我们做

发表于 08-11 01:19

中文分词研究难点-词语切分和语言规范

，我们在进行数据挖掘、精准推荐和自然语言处理工作中也会经常用到中文分词技术。词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有

发表于 09-04 17:39

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。所以下面介绍一下如何设计中文的英文的唤醒

发表于 10-25 15:09

铝电解的构造和生产过程

铝电解的构造和生产过程铝电解基本由正极箔+氧化膜（不能独立于正极箔存在）+电解纸（浸有电解液）+负极箔+外壳+胶塞+引线+

发表于 10-07 15:35 •1455次阅读

计算机程序的构造和解释中文版

电子发烧友网站提供《计算机程序的构造和解释中文版.txt》资料免费下载

发表于 01-04 17:24 •0次下载

基于K近邻多标签分类算法

被预测的标签，将其与已经预测的标签间的条件概率进行排序，求出最大值；最后，将最大值跟对应标签值相乘同时结合最大化后验概率（MAP）来构造多标签

发表于 01-02 16:47 •0次下载

搜索历史

基于中文数据的标签词构造过程

评论

轿车参数化分析模型的构造研究及应用

数字签名方案的同底构造攻击

[讨论]提高网站关键词排名的28个SEO小技巧

为什么要添加标签呢？添加标签对你有什么好处

标签不能输入中文，应该怎么解决？

RFID图书馆电子标签

upper address 这个词应该怎么翻译？

HanLP关键词提取算法分析详解

基于CRF序列标注的中文依存句法分析器的Java实现

关键词优化有哪些实用的方法

中文分词研究难点-词语切分和语言规范

开发语音产品时设计唤醒词和命令词的技巧

铝电解的构造和生产过程

计算机程序的构造和解释中文版

基于K近邻多标签分类算法