0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

清华联合阿里达摩院开发行业首个人工标注的少样本NER数据集

深度学习自然语言处理 来源:量子位 作者:量子位 2021-05-28 14:59 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NER(命名实体识别)作为NLP的一项基本任务,其日常是训练人工智能(zhang)对一段文本中的专有名词(人名、地名、机构名等)进行识别和分类。

翻译成计算机语言,就是从一段非结构化的自然语言中找到各种实体,并将其分为合适的类别。且避免出现“江大桥同志到底就任了多少年南京市长”这样的问题

但在数据缺乏,样本不足的前提下,如何基于先验知识进行分类和学习,这就是目前NLPer面临的一道难题——少样本(Few-Shot)。

虽然已有越来越多针对少样本NER的研究出现(比如预训练语言模型BERT),但仍没有一个专属数据集以供使用。

而现在,共包含来自维基百科的18万条句子,49万个实体和460万标注,并具有8个粗粒度(coarse-grained types)实体类型和66个细粒度(fine-grained types)实体类型的数据集来了。

这就是清华大学联合阿里达摩院共同开发的,行业内第一个人工标注(human-annotated)的少样本NER数据集,FEW-NERD。

什么样的数据集?

对比句子数量、标记数、实体类型等统计数据,FEW-NERD比相关领域内已有的NER数据集都要更大。

dae04584-be8d-11eb-9e57-12bb97331649.png

此外,它也是规模最大的人工标注的数据集。

为实体命名常常需要联系上下文,尤其是在实体类型很多时,注解难度将大大增加。

而FEW-NERD的注释来自70位拥有语言学知识的注释者,以及10位经验丰富的专家。

具体而言,每个段落会交由两人独立完成注释,然后由专家审查,再对分批抽取数据进行双重检查。这很好地保证了注释的准确性。

比如上述“London is the fifth album by the British rock band…”这句话中的实体“London”,就被准确标注成了“Art-Music”。

而在以段落为单位进行标注时,因为样本量并不多,所以FEW-NERD数据的类别分布预计是相对平衡的,这也是它与以往NER数据集的一个关键区别。

并且在实践中,大多数未见的实体类型都是细粒度的。而传统的NER数据集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18个粗粒度的类型。

这就难以构建足够多的N元任务(N-way metatasks),并训练学习相关特征。

相比之下,FEW-NERD共包含了112个实体标签, 并具有8个粗粒度实体类型,和66个细粒度实体类型。

基准的选择

为了探索FEW-NERD所有实体类型之间的知识相关性(knowledge correlations),研究者进行了实体类型相似性的实证研究。

从实验结果得知,相同粗粒度类型的实体类型具有较大的相似性,从而使知识迁移更加容易。

这启发了研究者从知识迁移的角度进行基准设定。最终设置了三个基准:

FEW-NERD (SUP)
采用标准的监督式NER设置,将70%的数据随机分割为训练数据,10%为验证数据,20%为测试数据。

FEW-NERD(INTRA)
少样本学习任务,只包含粗粒度实体类型。

FEW-NRTD (INTER)
少样本学习任务,包含60%的细粒度类型,20%的细粒度类型。

实际的应用

针对少样本命名实体识别,FEW-NERD提供了一个同时包含粗粒度和细粒度,且统一基准的大型数据集。

而作者也指出,由于精确的上下文标注,FEW-NERD数据集不仅可以用于少样本场景,在监督学习、终身学习、开放信息抽取、实体分类等任务上也可以发挥作用。

此外,建立在FEW-NERD基础上的模型和系统,还能帮助构建各个领域的知识图谱(KGs),包括生物医学、金融和法律领域,并进一步促进NLP在特定领域的应用发展。

开发者还表示,将在未来增加跨域注释、远距离注释和更精细的实体类型来扩展FEW-NERD。

原文标题:ACL-IJCNLP 2021|行业首个少样本NER数据集,清华联合阿里达摩院开发

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93982
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261523

原文标题:ACL-IJCNLP 2021|行业首个少样本NER数据集,清华联合阿里达摩院开发

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新思科技HAPS-200助力阿里巴巴达摩加速玄铁C930开发验证

    在AI驱动的时代,验证不仅仅是功能正确,更要确保性能、功耗和软件兼容性。HAPS-200的引入,助力达摩玄铁团队能够在设计早期完成系统级验证,显著缩短上市时间,降低风险,并推动RISC-V生态加速成熟,开启RISC-V高性能新时代。
    的头像 发表于 11-18 11:12 560次阅读

    RISC-V创新中心与达摩合作签约

    10月30日,RISC-V创新中心与达摩合作签约暨创新发展交流会在苏州市集成电路创新中心隆重举行,来自全国各地的重点企业、科研机构、行业协会、投资机构等代表出席活动,共话RISC-V产业创新发展新图景。
    的头像 发表于 11-03 15:43 483次阅读

    标贝科技参编《人工智能高质量数据建设指南》

    人工智能迈入“数据驱动”的关键发展阶段,高质量数据已成为突破技术瓶颈、推动产业落地的核心引擎。日前,中国信息通信研究
    的头像 发表于 09-11 17:19 691次阅读

    中国中车通过中国信通可信AI人工智能数据质量四级评估

    2025年8月,中国中车集团有限公司顺利通过中国信通可信AI人工智能数据质量4级评估,成为制造行业
    的头像 发表于 08-22 17:02 1196次阅读

    请问AICube所需的目标检测数据标注可以使用什么工具?

    请问AICube所需的目标检测数据标注可以使用什么工具? 我使用labelimg进行标注标注后的数据
    发表于 08-11 08:07

    阿里巴巴达摩刘志伟:QEMU RISC-V 的进展、特性与未来规划

    2025 年 7 月 18 日,在第五届(2025)RISC-V 中国峰会的软件与生态系统分论坛上,阿里巴巴达摩 RISC-V 及生态部技术专家刘志伟带来了关于 QEMU RISC-V 的报告
    发表于 07-18 11:20 5427次阅读
    <b class='flag-5'>阿里</b>巴巴<b class='flag-5'>达摩</b><b class='flag-5'>院</b>刘志伟:QEMU RISC-V 的进展、特性与未来规划

    什么是自动驾驶数据标注?如何好做数据标注

    [首发于智驾最前沿微信公众号]在自动驾驶系统的开发过程中,数据标注是一项至关重要的工作。它不仅决定了模型训练的质量,也直接影响了车辆感知、决策与控制的性能表现。随着传感器种类和数据量的
    的头像 发表于 07-09 09:19 927次阅读
    什么是自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>标注</b>?如何好做<b class='flag-5'>数据</b><b class='flag-5'>标注</b>?

    全球首个胃癌影像筛查AI模型发布

    浙江省肿瘤医院联合阿里巴巴达摩,发布了全球首个胃癌影像筛查AI模型DAMO GRAPE,首次利用平扫CT影像识别早期胃癌病灶,并
    的头像 发表于 06-30 14:37 3668次阅读

    AI时代 图像标注不要没苦硬吃

    识别算法的性能提升依靠大量的图像标注,传统模式下,需要人工对同类型数据进行一步步手动拉框,这个过程的痛苦只有做过的人才知道。越多素材的数据
    的头像 发表于 05-20 17:54 425次阅读
    AI时代   图像<b class='flag-5'>标注</b>不要没苦硬吃

    东软集团入选国家数据数据标注优秀案例

    近日,东软飞标医学影像标注平台在国家数据局发布数据标注优秀案例名单中排名第一(案例名称“多模态医学影像智能
    的头像 发表于 05-09 14:37 1013次阅读

    标贝科技“4D-BEV上亿点云标注系统”入选国家数据局首批数据标注优秀案例

    4月29日,作为第八届数字中国建设峰会的重要组成部分,由国家数据局主办的高质量数据数据标注主题交流活动在福州市数字中国会展中心举行。会议
    的头像 发表于 04-30 14:38 570次阅读
    标贝科技“4D-BEV上亿点云<b class='flag-5'>标注</b>系统”入选国家<b class='flag-5'>数据</b>局首批<b class='flag-5'>数据</b><b class='flag-5'>标注</b>优秀案例

    普华基础软件莅临阿里巴巴达摩调研交流

    近日, 普华基础软件股份有限公司(以下简称普华基础软件)董事、总经理刘宏倩一行前往阿里巴巴达摩(杭州)科技有限公司(以下简称达摩)调研交
    的头像 发表于 04-08 10:10 949次阅读

    中兴通讯GoldenDB数据库助力首个住房公积金国产数据联合实验室落地扬州

    领域的国产数据联合实验室成功落地,双方将围绕GoldenDB数据库在公积金核心系统的深度应用展开技术攻关,为全国公积金行业数字化转型提供示范样本
    的头像 发表于 04-07 18:26 1000次阅读

    阿里个人电脑,阿里个人电脑的特点

        在当代IT管理体系中,远程连接工具发挥着举足轻重的作用。这些工具赋予系统管理员同时操控与监视多台远程计算机的能力,显著提升了工作效率并增强了系统安全性。今天小编给大家讲解阿里个人电脑的特点
    的头像 发表于 02-07 15:44 966次阅读
    <b class='flag-5'>阿里</b>云<b class='flag-5'>个人</b>电脑,<b class='flag-5'>阿里</b>云<b class='flag-5'>个人</b>电脑的特点

    AI自动图像标注工具SpeedDP将是数据标注行业发展的重要引擎

    AI大浪潮下,许多企业都在不断借助AI来提升自己的行业竞争力,数据标注企业也不例外,传统人工标注效率不足的弊端困扰了多年,如今新的“引擎”就
    的头像 发表于 01-02 17:53 1121次阅读
    AI自动图像<b class='flag-5'>标注</b>工具SpeedDP将是<b class='flag-5'>数据</b><b class='flag-5'>标注</b><b class='flag-5'>行业</b>发展的重要引擎