0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自然语言处理中的事件抽取综述

深度学习自然语言处理 来源:深度学习自然语言处理 作者:lucy 2021-01-07 15:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本系列文章主要总结近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等。主要包括以下几大部分:

定义(Define)

综述(Survey)

模型(Models)

数据集(Datasets)

挑战与展望(Future Research Challenges)

Github地址:https://github.com/xiaoqian19940510/Event-Extraction

任务定义

Closed-domain

Closed-domain事件抽取使用预定义的事件模式从文本中发现和提取所需的特定类型的事件。事件模式包含多个事件类型及其相应的事件结构。D.Ahn首先提出将ACE事件抽取任务分成四个子任务:触发词检测、事件/触发词类型识别、事件论元检测和参数角色识别。我们使用ACE术语来介绍如下事件结构:

「事件提及」:描述事件的短语或句子,包括触发词和几个参数。

「事件触发词」:最清楚地表达事件发生的主要词,一般指动词或名词。

「事件论元」:一个实体,时间表达式,作为参与者的值和在事件中具有特定角色的属性。

「论元角色」:论元与它所参与的事件之间的关系

Open domain

在没有预定义的事件模式的情况下,开放域事件抽取的目的是从文本中检测事件,在大多数情况下,还可以通过提取的事件关键词聚类相似的事件。事件关键词指的是那些主要描述事件的词/短语,有时关键词还进一步分为触发器和参数。

「故事分割」:从新闻中检测故事的边界。

「第一个故事检测」:检测新闻流中讨论新话题的故事。

「话题检测」:根据讨论的主题将故事分组。

「话题追踪」:检测讨论先前已知话题的故事。

「故事链检测」:决定两个故事是否讨论同一个主题。

前两个任务主要关注事件检测;其余三个任务用于事件集群。虽然这五项任务之间的关系很明显,但每一项任务都需要一个不同的评价过程,并鼓励采用不同的方法来解决特定问题。

综述

元事件抽取研究综述, 2019[1]

事件抽取是信息抽取领域的一个重要研究方向,在情报收集、知识提取、文档摘要、知识问答等领域有着广泛应用。写了一篇对当前事件抽取领域研究得较多的元事件抽取任务的综述。

首先,简要介绍了元事件和元事件抽取的基本概念,以及元事件抽取的主要实现方法。然后,重点阐述了元事件抽取的主要任务,详细介绍了元事件检测过程,并对其他相关任务进行了概述。最后,总结了元事件抽取面临的问题,在此基础上展望了元事件抽取的发展趋势。

An Overview of Event Extraction from Text, 2019[2]

文本挖掘的一个常见应用是事件抽取,它包括推导出与事件相关的特定知识,这些知识重新映射到文本中。事件抽取可处理各种类型的文本,如(在线)新闻消息、博客和手稿。本文献回顾了用于各种事件抽取目的的文本挖掘技术。它提供了关于如何根据用户、可用内容和使用场景选择特定事件抽取技术的一般指南。

A Survey of Event Extraction from Text, 2019[3]

事件抽取的任务定义、数据源和性能评估,还为其解决方案方法提供了分类。在每个解决方案组中,提供了最具代表性的方法的详细分析,特别是它们的起源、基础、优势和弱点。最后,对未来的研究方向进行了展望。

A Survey of Textual Event Extraction from Social Networks, 2017[4]

过去的十年中,在社交网络上挖掘文本内容以抽取相关数据和有用的知识已成为无所不在的任务。文本挖掘的一种常见应用是事件抽取,它被认为是一个复杂的任务,分为不同难度的多个子任务。

在本文中,对现有的主要文本挖掘技术进行了概述,这些技术可用于许多不同的事件抽取目标。首先,介绍基于统计模型将数据转换为知识的主要数据驱动方法。其次,介绍了基于专家知识的知识驱动方法,通常通过基于模式的方法来抽取知识。然后,介绍结合了数据驱动和知识驱动方法的主要现有混合方法。最后,比较社交网络事件抽取研究,概括了每种提出的方法的主要特征。

A Survey of event extraction methods from text for decision support systems, 2016[5]

事件抽取是一种可以追溯到20世纪80年代的专门的信息抽取流程,由于大数据的出现以及文本挖掘和自然语言处理等相关领域的发展,事件抽取技术得到了极大的普及。然而,到目前为止,对这一特殊领域的概述仍然是难以捉摸的。

因此,总结了文本数据的事件抽取技术,划分成数据驱动、知识驱动和混合方法三类,并对这些方法进行了定性评价。此外,还讨论了从文本语料库中抽取事件的常见决策支持应用。最后,对事件抽取系统的评价进行了阐述,并指出了当前的研究问题。

数据集

英文数据集

ACE2005 English Corpus[6]

ACE 2005多语种训练语料库包含了用于2005年自动内容抽取(ACE)技术评价的完整的英语、阿拉伯语和汉语训练数据集。语料库由语言数据联盟(LDC)为实体、关系和事件注释的各种类型的数据组成,该联盟得到了ACE计划的支持和LDC的额外帮助。

Rich ERE[7]

Rich ERE扩展了实体、关系和事件本体,并扩展了什么是taggable的概念。Rich ERE还引入了事件跳跃的概念,以解决普遍存在的事件共引用的挑战,特别是关于在文档内和文档之间的事件提及和事件参数粒度变化,从而为创建(分层的或嵌套的)跨文档的事件表示铺平了道路。

TAC2015[8]

TAC KBP事件跟踪的目标是提取关于事件的信息,以便这些信息适合作为知识库的输入。轨迹包括用于检测和链接事件的事件块任务,以及用于提取属于同一事件的事件参数和链接参数的事件参数(EA)任务。2015年TAC KBP赛事轨迹分为5个子任务

KBP2017[9]

TAC知识库填充(KBP)的目标是开发和评估从非结构化文本中填充知识库的技术。KBP包括为KBP开发特定组件和功能的组件跟踪,以及称为“冷启动”的端到端KB构建任务,该任务通过在技术成熟时集成选定的组件从头开始构建KB。与在冷启动KB任务中执行的功能相比,组件跟踪中所需的功能可以“更多”,也可以“更少”。组件轨道比冷启动“更多”,因为每个轨道可能探索未立即集成到冷启动任务中的试点任务; 他们是“少”,将组件集成到一个KB需要额外协调与和解各个组件之间的不匹配,这样KB符合知识库模式(例如,知识库不能断言一个实体是一个事件的“地方”如果它还断言,实体是一个“人”)。

其他的还有,Genia2011 dataset, Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等

中文数据集

ACE2005 Chinese Corpus[10]

ACE 2005多语种训练语料库包含了用于2005年自动内容抽取(ACE)技术评价的完整的英语、阿拉伯语和汉语训练数据集。语料库由语言数据联盟(LDC)为实体、关系和事件注释的各种类型的数据组成,该联盟得到了ACE计划的支持和LDC的额外帮助。

未来展望与挑战

数据层面

领域数据难构造,标注成本大

生成标注数据 or 无标注式事件抽取论元

模型层面

pipeline方式存在错误信息的传递,如何减小错误信息传递

论元之间的关联关系的有效利用

性能评估层面

无标注数据的评价指标设计

责任编辑:xj

原文标题:超全必读!事件抽取综述(上)

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7349

    浏览量

    95037
  • 自然语言处理

    关注

    1

    文章

    630

    浏览量

    14731

原文标题:超全必读!事件抽取综述(上)

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    融合多场耦合效应:生成式人工智能技术演进及其在航空发动机复杂工程系统的赋能机制研究

    人工智能技术正经历着从感知智能向生成智能、再向代理智能与物理智能演进的深刻变革。在这一进程,生成式AI技术的突破性发展尤为引人瞩目,其不仅能够在自然语言处理和计算机视觉领域生成高度逼真的文本与图像,更开始向工业制造、科学研究等
    的头像 发表于 02-26 10:07 683次阅读
    融合多场耦合效应:生成式人工智能技术演进及其在航空发动机复杂工程系统<b class='flag-5'>中</b>的赋能机制研究

    MediaTek Genio平台推动端侧AI在零售场景规模化落地

    从智能货架和预测式补货,到自适应数字标牌和基于自然语言的客户互动,端侧 AI 正在推动零售从被动响应走向主动预测。在实体门店,如果没有智能自动化,库存准确率明显降低,导致销售机会流失和低效的补货流程。端侧 AI 通过在信息生成的瞬间完成
    的头像 发表于 02-10 15:23 588次阅读

    解锁谷歌FunctionGemma模型的无限潜力

    在智能体 AI 领域,工具调用能力是将自然语言转化为可执行软件操作的关键。此前,我们发布了专门针对函数调用而特别优化的 Gemma 3 270M 模型版本 FunctionGemma。该模型旨在协助开发者构建响应快速且具高性价比的智能体,以将自然语言转化为可执行的 API
    的头像 发表于 02-04 11:30 448次阅读
    解锁谷歌FunctionGemma模型的无限潜力

    自然语言处理NLP的概念和工作原理

    自然语言处理 (NLP) 是人工智能 (AI) 的一个分支,它会教计算机如何理解口头和书面形式的人类语言自然语言处理将计算
    的头像 发表于 01-29 14:01 611次阅读
    <b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>NLP的概念和工作原理

    ALVA透过CES 2026揭秘下一代工业智造落地路径

    在 CES 2026 现场,一台机器人流畅地理解了这句自然语言指令,它在杂乱的工具精准识别出目标,平稳递出。
    的头像 发表于 01-26 16:07 638次阅读

    云知声论文入选自然语言处理顶会EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(EMNLP 2025)公布论文录用结果,云知
    的头像 发表于 11-10 17:30 905次阅读
    云知声论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会EMNLP 2025

    HarmonyOSAI编程自然语言代码生成

    安装CodeGenie后,在下方对话框内,输入代码需求描述,将根据描述智能生成代码,生成内容可一键复制或一键插入至编辑区当前光标位置。 提问示例 使用ArkTs语言写一段代码,在页面中间部分
    发表于 09-05 16:58

    北斗生态环境监测站:读懂自然的 “语言

    北斗生态环境监测站:读懂自然的 “语言”柏峰【BF-BDQX】当生态监测遇上北斗技术,一场关于 “精准守护自然” 的变革正悄然发生 ——北斗生态环境监测站以北斗定位导航系统为核心
    的头像 发表于 09-04 10:59 637次阅读
    北斗生态环境监测站:读懂<b class='flag-5'>自然</b>的 “<b class='flag-5'>语言</b>”

    【HZ-T536开发板免费体验】5- 无需死记 Linux 命令!用 CangjieMagic 在 HZ-T536 开发板上搭建 MCP 服务器,自然语言轻松控板

    引言:为什么需要 “自然语言控板”? 痛点引入 :嵌入式开发,开发者常需通过 SSH 等工具登录开发板,手动输入复杂的 Linux 命令(如ls -l、gpio readall、ifconfig等
    发表于 08-23 13:10

    高德与阿里云一起,开启智慧出行新范式

    ,加速智能化场景落地。 技术融合:大模型赋能地图交互升级 基于阿里云通义千问系列大模型领先的自然语言处理与多模态交互能力,MCP Server实现从文本指令到可视化地图的精准转化。用户可通过自然语言生成个性化出行方案(如智能路径
    的头像 发表于 07-18 10:29 674次阅读

    思必驰与上海交大联合实验室研究成果入选两大顶级会议

    近日,计算语言学与自然语言处理领域全球顶级会议ACL 2025及语音研究领域旗舰会议INTERSPEECH 2025相继公布论文录用结果。思必驰-上海交大联合实验室表现亮眼,共有13篇论文被两大会议收录!
    的头像 发表于 07-11 16:24 1072次阅读
    思必驰与上海交大联合实验室研究成果入选两大顶级会议

    milvus向量数据库的主要特性和应用场景

    Milvus 是一个开源的向量数据库,专门为处理和分析大规模向量数据而设计。它适用于需要高效存储、检索和管理向量数据的应用场景,如机器学习、人工智能、计算机视觉和自然语言处理等。
    的头像 发表于 07-04 11:36 1242次阅读
    milvus向量数据库的主要特性和应用场景

    如何在MATLAB构建智能语音助手

    具身智能是一种将智能与物理实体深度融合的人工智能形态,强调智能行为既依赖智能体自身算力,更离不开其与环境的感知交互。在具身智能体与人类交互方面,自然语言是极为直观且高效的沟通方式。
    的头像 发表于 06-30 14:30 3236次阅读
    如何在MATLAB<b class='flag-5'>中</b>构建智能语音助手

    人工智能浪潮下,制造企业如何借力DeepSeek实现数字化转型?

    DeepSeek,凭借其强大的深度学习和自然语言处理能力,能够理解复杂问题并提供精准解决方案。它不仅能够作为学习、工作、生活的助手,满足用户在不同场景下的需求,更能在制造业中发挥重要作用。通过自然语言交互,用户无需学习复杂的操作
    的头像 发表于 05-29 16:17 753次阅读

    云知声四篇论文入选自然语言处理顶会ACL 2025

    近日,第63届国际计算语言学年会ACL 2025(Annual Meeting of the Association for Computational Linguistics,简称ACL)论文接收
    的头像 发表于 05-26 14:15 1465次阅读
    云知声四篇论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会ACL 2025