0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

清华联合阿里达摩院开发行业首个人工标注的少样本NER数据集

深度学习自然语言处理 来源:量子位 作者:量子位 2021-05-28 14:59 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NER(命名实体识别)作为NLP的一项基本任务,其日常是训练人工智能(zhang)对一段文本中的专有名词(人名、地名、机构名等)进行识别和分类。

翻译成计算机语言,就是从一段非结构化的自然语言中找到各种实体,并将其分为合适的类别。且避免出现“江大桥同志到底就任了多少年南京市长”这样的问题

但在数据缺乏,样本不足的前提下,如何基于先验知识进行分类和学习,这就是目前NLPer面临的一道难题——少样本(Few-Shot)。

虽然已有越来越多针对少样本NER的研究出现(比如预训练语言模型BERT),但仍没有一个专属数据集以供使用。

而现在,共包含来自维基百科的18万条句子,49万个实体和460万标注,并具有8个粗粒度(coarse-grained types)实体类型和66个细粒度(fine-grained types)实体类型的数据集来了。

这就是清华大学联合阿里达摩院共同开发的,行业内第一个人工标注(human-annotated)的少样本NER数据集,FEW-NERD。

什么样的数据集?

对比句子数量、标记数、实体类型等统计数据,FEW-NERD比相关领域内已有的NER数据集都要更大。

dae04584-be8d-11eb-9e57-12bb97331649.png

此外,它也是规模最大的人工标注的数据集。

为实体命名常常需要联系上下文,尤其是在实体类型很多时,注解难度将大大增加。

而FEW-NERD的注释来自70位拥有语言学知识的注释者,以及10位经验丰富的专家。

具体而言,每个段落会交由两人独立完成注释,然后由专家审查,再对分批抽取数据进行双重检查。这很好地保证了注释的准确性。

比如上述“London is the fifth album by the British rock band…”这句话中的实体“London”,就被准确标注成了“Art-Music”。

而在以段落为单位进行标注时,因为样本量并不多,所以FEW-NERD数据的类别分布预计是相对平衡的,这也是它与以往NER数据集的一个关键区别。

并且在实践中,大多数未见的实体类型都是细粒度的。而传统的NER数据集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18个粗粒度的类型。

这就难以构建足够多的N元任务(N-way metatasks),并训练学习相关特征。

相比之下,FEW-NERD共包含了112个实体标签, 并具有8个粗粒度实体类型,和66个细粒度实体类型。

基准的选择

为了探索FEW-NERD所有实体类型之间的知识相关性(knowledge correlations),研究者进行了实体类型相似性的实证研究。

从实验结果得知,相同粗粒度类型的实体类型具有较大的相似性,从而使知识迁移更加容易。

这启发了研究者从知识迁移的角度进行基准设定。最终设置了三个基准:

FEW-NERD (SUP)
采用标准的监督式NER设置,将70%的数据随机分割为训练数据,10%为验证数据,20%为测试数据。

FEW-NERD(INTRA)
少样本学习任务,只包含粗粒度实体类型。

FEW-NRTD (INTER)
少样本学习任务,包含60%的细粒度类型,20%的细粒度类型。

实际的应用

针对少样本命名实体识别,FEW-NERD提供了一个同时包含粗粒度和细粒度,且统一基准的大型数据集。

而作者也指出,由于精确的上下文标注,FEW-NERD数据集不仅可以用于少样本场景,在监督学习、终身学习、开放信息抽取、实体分类等任务上也可以发挥作用。

此外,建立在FEW-NERD基础上的模型和系统,还能帮助构建各个领域的知识图谱(KGs),包括生物医学、金融和法律领域,并进一步促进NLP在特定领域的应用发展。

开发者还表示,将在未来增加跨域注释、远距离注释和更精细的实体类型来扩展FEW-NERD。

原文标题:ACL-IJCNLP 2021|行业首个少样本NER数据集,清华联合阿里达摩院开发

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95008
  • 人工智能
    +关注

    关注

    1820

    文章

    50313

    浏览量

    266864

原文标题:ACL-IJCNLP 2021|行业首个少样本NER数据集,清华联合阿里达摩院开发

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中国电信与阿里云共建粤港澳大湾区首个真武万卡智算集群上线

    近日,由中国电信联合阿里云建设的粤港澳大湾区首个真武万卡智算集群在韶关数据中心正式上线。
    的头像 发表于 04-15 10:47 389次阅读

    IAR荣获阿里巴巴达摩2026年度玄铁优选伙伴称号

    3月24日,由阿里巴巴达摩主办的2026玄铁RISC-V生态大会在上海盛大举行。作为全球RISC-V生态领域最具影响力的行业盛会之一,本届大会汇聚了全球数百家顶尖产学研机构与技术领袖
    的头像 发表于 03-28 11:26 363次阅读

    阿里巴巴达摩发布新一代旗舰CPU产品玄铁C950

    3月24日,阿里巴巴达摩主办的2026玄铁RISC-V生态大会在上海举行。
    的头像 发表于 03-25 14:03 475次阅读

    阿里最新消息 阿里达摩发布新型CPU 阿里国际在海外落地首个企业级Agent

    给大家带来两个阿里的最新消息: 阿里达摩发布新型CPU 据阿里达摩
    的头像 发表于 03-24 18:08 2617次阅读

    RISC-V创新中心联合达摩玄铁发布无剑芯片设计平台定制版

    RISC-V开源芯片产业再迎新利好。今天(3月17日),在RISC-V创新中心玄铁技术应用交流会暨2026玄铁生态大会巡讲(苏州站)活动现场,RISC-V创新中心联合达摩玄铁正式发布“无剑芯片
    的头像 发表于 03-18 16:30 480次阅读

    新思科技HAPS-200助力阿里巴巴达摩加速玄铁C930开发验证

    在AI驱动的时代,验证不仅仅是功能正确,更要确保性能、功耗和软件兼容性。HAPS-200的引入,助力达摩玄铁团队能够在设计早期完成系统级验证,显著缩短上市时间,降低风险,并推动RISC-V生态加速成熟,开启RISC-V高性能新时代。
    的头像 发表于 11-18 11:12 1060次阅读

    RISC-V创新中心与达摩合作签约

    10月30日,RISC-V创新中心与达摩合作签约暨创新发展交流会在苏州市集成电路创新中心隆重举行,来自全国各地的重点企业、科研机构、行业协会、投资机构等代表出席活动,共话RISC-V产业创新发展新图景。
    的头像 发表于 11-03 15:43 1000次阅读

    标贝科技参编《人工智能高质量数据建设指南》

    人工智能迈入“数据驱动”的关键发展阶段,高质量数据已成为突破技术瓶颈、推动产业落地的核心引擎。日前,中国信息通信研究
    的头像 发表于 09-11 17:19 1020次阅读

    中国中车通过中国信通可信AI人工智能数据质量四级评估

    2025年8月,中国中车集团有限公司顺利通过中国信通可信AI人工智能数据质量4级评估,成为制造行业
    的头像 发表于 08-22 17:02 1520次阅读

    请问AICube所需的目标检测数据标注可以使用什么工具?

    请问AICube所需的目标检测数据标注可以使用什么工具? 我使用labelimg进行标注标注后的数据
    发表于 08-11 08:07

    阿里巴巴达摩刘志伟:QEMU RISC-V 的进展、特性与未来规划

    2025 年 7 月 18 日,在第五届(2025)RISC-V 中国峰会的软件与生态系统分论坛上,阿里巴巴达摩 RISC-V 及生态部技术专家刘志伟带来了关于 QEMU RISC-V 的报告
    发表于 07-18 11:20 5851次阅读
    <b class='flag-5'>阿里</b>巴巴<b class='flag-5'>达摩</b><b class='flag-5'>院</b>刘志伟:QEMU RISC-V 的进展、特性与未来规划

    什么是自动驾驶数据标注?如何好做数据标注

    [首发于智驾最前沿微信公众号]在自动驾驶系统的开发过程中,数据标注是一项至关重要的工作。它不仅决定了模型训练的质量,也直接影响了车辆感知、决策与控制的性能表现。随着传感器种类和数据量的
    的头像 发表于 07-09 09:19 1627次阅读
    什么是自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>标注</b>?如何好做<b class='flag-5'>数据</b><b class='flag-5'>标注</b>?

    全球首个胃癌影像筛查AI模型发布

    浙江省肿瘤医院联合阿里巴巴达摩,发布了全球首个胃癌影像筛查AI模型DAMO GRAPE,首次利用平扫CT影像识别早期胃癌病灶,并
    的头像 发表于 06-30 14:37 3968次阅读

    东软集团入选国家数据数据标注优秀案例

    近日,东软飞标医学影像标注平台在国家数据局发布数据标注优秀案例名单中排名第一(案例名称“多模态医学影像智能
    的头像 发表于 05-09 14:37 1409次阅读

    标贝科技“4D-BEV上亿点云标注系统”入选国家数据局首批数据标注优秀案例

    4月29日,作为第八届数字中国建设峰会的重要组成部分,由国家数据局主办的高质量数据数据标注主题交流活动在福州市数字中国会展中心举行。会议
    的头像 发表于 04-30 14:38 837次阅读
    标贝科技“4D-BEV上亿点云<b class='flag-5'>标注</b>系统”入选国家<b class='flag-5'>数据</b>局首批<b class='flag-5'>数据</b><b class='flag-5'>标注</b>优秀案例