0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何简单粗暴的提升NER效果?

深度学习自然语言处理 来源:深度学习自然语言处理 作者:船长尼莫 2022-12-12 14:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在NLP的基础任务中,NER无疑很难做,但是做好了,会提升下游的很多效果。那么如何提升NER的效果呢?数据增强无疑是一种简单粗暴的方式。船长这次带着大家简单过一下,本文无公式!

ca888e24-79d2-11ed-8abf-dac502259ad0.png

首先我们的着重考虑对象是有词库的,在工业界词库是必备的,没有标注词库,这个NER的任务可能会做的很不好。我们从以下的三种数据增强trick来逐步介绍。

实体替换

如果我们有一个训练数据集,比方说一个case:“海底捞的主要食物是火锅”,在NER的任务中,标注成为“{海底捞^饭店}的主要食物是{火锅^食物}”,其中海底捞的实体为饭店,而火锅的为食物。

那么为了扩大我们的训练数据集,我们会随机的对同类型的实体进行替换,例如“海底捞”替换成为“肯德基”,也即“肯德基的主要食物是火锅”。有意思的地方来了,很明显我们都知道肯德基是没有火锅的,那么这样造的case会有问题吗?答案是从常识的角度是有问题的,所以我们尽量要挑出和火锅相关的实体,利用知识图谱的方式,搭建出更合理的训练集。

边界噪声

比方说文本“这家饭店的爆品是火锅啦”,结果模型把火锅啦整体识别成为食物实体,那就很不对劲了。在这种情况下,属于NER的一个悠久遗留问题,边界预测问题,NER很难识别到实体的真正边界,解决这种的方法也是利用人工造的一些噪声。

比较简单的方式,是可以从字表里面随机的抽样字,再随机的加到边界处。变成,让模型自主的去学习到实体的边界,这种方式简单但是效果一般,为什么这么讲?因为这种随机的采样对于模型来说,很好学习,我们应该尝试去构造再难一点的数据。

这家饭店的爆品是火锅嘿

比较可行的方式,是在模版数据中利用N-Gram挖掘到噪声词语/字,再利用频率的高低构建出现的概率,以这种概率进行替换,举例来说,饭店类的模版有很多是围绕着词语“食物”展开,那么这时候我们可以把“食物”插入到实体的边界,成为:

这家饭店的爆品是火锅食物

对于模型来讲,再难一点的方式,可以从训练数据中,挖掘到和火锅相关的噪声,再把它插入进去。例如,根据词语火锅进行展开,利用5-Gram搜索到附近的词语,找到一些和火锅相关,但是不是强相关的词语,比方说辣椒,那这时候就会形成:

这家饭店的爆品是火锅辣椒

不得不说,这种文本对于机器来讲已经很难识别了,但是这种方式的时间开销很大,需要提前离线找到和每个实体相关的词语,再进行噪声的插入。

模版构造样本

什么意思呢?我们先利用实体,在线上的日志中挖掘到很多模版,再利用这批模版随机的进行填充,形成最后的训练数据,这批训练的数据量会很大,但是样本的质量是一般的。例如我们可以对模版“这家饭店的爆品是{食物}”进行随机的食物实体填充,成为:

这家饭店的爆品是榴莲

但是当一个模版有多个实体槽位的时候,随机的进行实体填充往往有很大的问题,比方说模版“这家{饭店}的爆品是{食物}”,如果我们填充成为“这家海底捞的爆品是榴莲”,虽然对于NER的任务来讲没有太大的问题,但是从常识角度来说,未免也太差了些。

这种情况下,我们需要批判性的思考,这种数据是否有利于提升我线上的效果,如果线上的要求并不包含常识,那这就是个好模型,反之亦然。我们也可以根据知识图谱来进行填充,增加常识信息。

cab11268-79d2-11ed-8abf-dac502259ad0.png

这次船长主要带大家过了一些简单高效的NER数据增强Trick,有什么问题就写下你的疑惑,我们讨论一下~

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046
  • NER
    NER
    +关注

    关注

    0

    文章

    7

    浏览量

    6438
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23192

原文标题:如何简单粗暴的提升NER效果?一文告诉你如何用词库来做NER数据增强

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    PID调参实用方法

    控制算法的情况下,我们可以通过简单的阈值判断法来控制温度,一个if判断语句,当采集到的温度大于100时,单片机控制加热头关闭,当采集的温度小于100度时,单片机则控制加热头开启,简单粗暴,但这样的控制
    发表于 11-28 07:17

    5大X-ray影像优化技巧提升工业检测效果

    检测效果,成为众多行业内人士关注的重点。通过本篇文章,我们将探讨五大技巧,帮助您更有效地提高X-ray影像的质量,解决用户痛点,并提升产品质量。 1. 选择合适的X-ray设备 选择适合特定工业需求的X-ray设备至关重要。目前市场上存在多种型号
    的头像 发表于 10-10 11:40 272次阅读

    tSGTools--表盘控件--轻松实现仪表盘显示效果

    使用TOPWAY厂家的SGTools开发, 没有写任何代码,很简单实现了仪表盘的显示效果。 图片屏幕7寸: HMT070ATA-9C
    发表于 09-15 15:41

    机器人看点:宇树新专利可提升机器人表演效果 蔚来资本入股具身智能公司原力灵机 美信科技新设机器人制

    给大家带来一些机器人相关讯息: 宇树新专利可提升机器人表演效果 据企查查APP信息显示,宇树科技股份有限公司“一种基于数字孪生的机器人运动控制方法和电子设备”专利公布;该新专利可提升机器人表演
    的头像 发表于 09-01 16:55 1623次阅读

    如何评估通信协议优化对数据传输效率的提升效果

    评估通信协议优化对数据传输效率的提升效果,核心逻辑是 “控制变量 + 多维度量化对比”—— 即通过定义明确的评估目标、构建一致的测试环境、选取关键效率指标,对比优化前后的协议表现,最终验证优化是否达到预期(如降低延迟、提升吞吐量
    的头像 发表于 08-29 17:52 685次阅读

    根据标题利用API优化电商搜索功能:提升转化率

    ​ 在电商平台中,搜索功能是用户发现商品的核心入口。一个高效的搜索系统不仅能提升用户体验,还能显著提高转化率——即用户从搜索到实际购买的比率。然而,传统搜索往往依赖简单的关键词匹配,导致结果不相关
    的头像 发表于 07-21 16:23 398次阅读
    根据标题利用API优化电商搜索功能:<b class='flag-5'>提升</b>转化率

    5个大型超声波清洗机使用技巧,提升清洗效果

    的日益重视。在使用大型超声波清洗机时,如何最大化清洗效果,成为了众多用户关注的重点。本文将为您介绍5个实用技巧,帮助您提升超声波清洗机的清洗效果。1.选择合适的清洗
    的头像 发表于 07-17 16:22 614次阅读
    5个大型超声波清洗机使用技巧,<b class='flag-5'>提升</b>清洗<b class='flag-5'>效果</b>

    5个关键技巧,提升超声波真空清洗机使用效果

    充分发挥其清洗优势。结合行业最新发展趋势和用户反馈,本文将深入探讨提升超声波真空清洗机使用效果的5个关键技巧,帮助您解决清洗难题,提高生产效率与产品质量。无论您是初次
    的头像 发表于 07-15 17:33 441次阅读
    5个关键技巧,<b class='flag-5'>提升</b>超声波真空清洗机使用<b class='flag-5'>效果</b>

    探索吉他音色与效果器的奇妙世界(3)- 时延和哇音效果

    本文是第二届电力电子科普征文大赛的获奖作品,来自上海科技大学李晨曦的投稿。时延类效果器如果失真类效果器是拿信号的幅值开刀,那么时延类效果器则是在信号的时域特性上做文章。根据原理的不同,可以将时延类
    的头像 发表于 06-14 10:00 1111次阅读
    探索吉他音色与<b class='flag-5'>效果</b>器的奇妙世界(3)- 时延和哇音<b class='flag-5'>效果</b>器

    探索吉他音色与效果器的奇妙世界(2)- 失真类效果

    的音量下得到失真音色呢?随着半导体技术的发展,失真类效果器应运而生。在介绍失真类效果器之前,需要先简单介绍一下二极管削波电路。二极管削波电路通常由一个或多个二极管、
    的头像 发表于 06-07 08:34 819次阅读
    探索吉他音色与<b class='flag-5'>效果</b>器的奇妙世界(2)- 失真类<b class='flag-5'>效果</b>器

    效果器的基础知识

    电子发烧友网站提供《效果器的基础知识.doc》资料免费下载
    发表于 03-26 14:30 6次下载

    智慧路灯的照明效果如何?

    先进技术,在照明性能上实现了显著提升。深入了解叁仟智慧路灯的照明效果,对于评估其在智慧城市照明系统中的价值具有重要意义。接下来,让我们一同探究叁仟智慧路灯卓越的照明表现。    一、优质灯具奠定照明基础 叁仟智慧路
    的头像 发表于 03-16 16:10 629次阅读

    不到千元轻松入手!华为云 Flexus 数字人制作简单效果极佳

    在数字化浪潮的席卷下,越来越多的数字人如雨后春笋般出现在大众视野中,数字人热度持续提升。然而,在这炙手可热的背后,是数字人便捷的制作流程和逼真效果二者不可兼得的矛盾,这就直接将广大中小企业隔绝在数
    的头像 发表于 03-10 11:05 1053次阅读
    不到千元轻松入手!华为云 Flexus 数字人制作<b class='flag-5'>简单</b>、<b class='flag-5'>效果</b>极佳

    浅析光通速率提升的3个维度

    光通信中的整体速率提升不是简单的依赖某一种单一技术,而是将各种技术综合运用,实现整体速率的提升,因此对于测试系统提出了更高的要求,联讯仪器一直紧随前沿技术的发展,与时俱进,不断精进研发实力,旨为光通行业提供高可靠性、高性能和高效
    的头像 发表于 03-04 09:52 745次阅读
    浅析光通速率<b class='flag-5'>提升</b>的3个维度

    回馈式交流电子负载:测试效率与节能效果的双重提升

    ,通过创新的能量回馈机制,实现了测试效率与节能效果的双重提升,为电力电子测试领域带来了革命性变革。 一、传统测试方法的局限性 传统电阻负载测试方法采用耗能式工作原理,将电能转化为热能消耗。这种测试方式
    发表于 02-07 11:13