0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

统一的文本到结构生成框架——UIE

深度学习自然语言处理 来源:高能AI 作者:JayJay 2022-04-13 09:54 次阅读

引言:信息抽取终于走到了这一步:迈入大一统时代!

今天为大家介绍一篇好基友 @陆博士 的ACL22论文《Unified Structure Generation for Universal Information Extraction》,这也是中科院和百度联合发布的1篇信息抽取统一建模工作UIE。

UIE官方链接:https://universal-ie.github.io

本文的组织架构为:

9a3521ca-ba87-11ec-aa7f-dac502259ad0.png

1.统一建模是IE发展的必然趋势

众所周知,信息抽取(IE)是一个从文本到结构的转换过程。常见的实体、关系、事件分别采取Span、Triplet、Record形式的异构结构。

曾几何时,当我们面对各种复杂多样的IE任务,我们总会造各式各样IE模型的轮子,来满足不同复杂任务的多变需求。

9a445d5c-ba87-11ec-aa7f-dac502259ad0.png

如上图所示:由于多样的抽取目标、相异的复杂结构、多变的领域需求时,导致信息抽取模型一直难以实现统一建模,极大限制了IE系统高效架构开发、有效知识共享、快速跨域适配。

比如,一个真实的情况是:针对不同任务设定,需要针对特定领域schema建模,不同IE模型被单个训练、不共享,一个公司可能需要管理众多IE模型。

9a5733a0-ba87-11ec-aa7f-dac502259ad0.png

当我们每次造不同IE轮子的时候,都要喝下不同的肥宅快乐水,撩以解忧(这不是个玩笑)

不过,在生成式统一建模各类NLP任务的今天,信息抽取统一建模也成为可能。

不久前,JayJay在《信息抽取的"第二范式"》一文中指出:生成式统一建模,或许是信息抽取领域正在发生的一场“深刻变革”。

因此:开发通用的IE结构是大有裨益的,可以统一建模不同的IE任务,从各种资源中自适应预测异构结构。总之:统一、通用的IE势不可挡!

这篇ACL2022论文,@陆博士提出了一个面向信息抽取的统一文本到结构生成框架UIE,它可以:

统一地建模不同的IE任务;

自适应地生成目标结构;

从不同的知识来源统一学习通用的信息抽取能力。

9a734e1e-ba87-11ec-aa7f-dac502259ad0.png

具体来说,UIE:

通过结构化抽取语言对不同的信息抽取目标结构进行统一编码;

通过结构化模式提示器自适应生成目标结构;

通过大规模结构化/非结构化数据进行模型预训练捕获常见的IE能力;

实验结果表明,本文提出的统一生成框架,基于T5模型进行了IE预训练,在实体、关系、事件和情感等4个信息抽取任务、13个数据集的全监督、低资源和少样本设置下均取得了SOTA性能。

接下来,我们将具体介绍UIE是如何统一建模的,以及具体是如何预训练的?

2. UIE统一建模方式:文本到结构生成

信息抽取任务可以表述为“文本到结构”的问题,不同的IE任务对应不同的结构。

UIE旨在通过单一框架统一建模不同IE任务的文本到结构的转换,也就是:不同的结构转换共享模型中相同的底层操作和不同的转换能力。

这里主要有两个挑战:

IE任务的多样性,需要提取许多不同的目标结构,如实体、关系、事件等;

IE任务是通常是使用不同模式定义的特定需求(不同schema),需要自适应地控制提取过程;

因此,针对上述挑战,需要:

设计结构化抽取语言(SEL,Structured Extraction Language)来统一编码异构提取结构,即编码实体、关系、事件统一表示。

构建结构化模式提示器(SSI,Structural Schema Instructor),一个基于schema的prompt机制,用于控制不同的生成需求。

9a824c7a-ba87-11ec-aa7f-dac502259ad0.png

上图展示了UIE的整体框架,整体架构就是:SSI + Text -> SEL

一句话简单概括就是:SSI就是输入特定抽取任务的schema,SEL就是把不同任务的抽取结果统一用1种语言表示。

1)SEL:结构化抽取语言

不同的IE任务可以分解为2个原子操作:

Spotting:找出Spot Name对应的Info Span,如某个实体或Trigger触发词;

Associating:找出Asso Name对应的Info Span,链接Info Span片段间的关系:如两个实体pair的关系、论元和触发词间的关系;

9a92ccb2-ba87-11ec-aa7f-dac502259ad0.png

如上图(a)所示:SEL语言可以统一用(Spot Name:Info Span(Asso Name:Info Span)(Asso Name:Info Span)...)形式表示,具体地:

Spot Name:Spotting操作的Info Span的类别信息,如实体类型;

Asso Name: Associating操作的Info Span的类别信息,如关系类型、关系类型;

Info Span:Spotting或Associating操作相关的文本Span;

如上图(b)所示:

蓝色部分代表关系任务:person为实体类型Spot Name,work for为关系类型Asso Name;

红色部分代表事件任务:start-position为事件类型Spot Name,employee为论元类型Asso Name;

黑色部分代表实体任务:organization和time为实体类型Spot Name;

9aa69562-ba87-11ec-aa7f-dac502259ad0.png

上图给出一个中文case:考察事件 为事件类型Spot Name,主角/时间/地点 为论元类型Asso Name。

2)SSI:结构化模式提示器

SSI的本质一个基于schema的prompt机制,用于控制不同的生成需求:在Text前拼接上相应的Schema Prompt,输出相应的SEL结构语言。

不同任务的的形式是:

实体抽取:[spot] 实体类别 [text]

关系抽取:[spot] 实体类别 [asso] 关系类别 [text]

事件抽取:[spot] 事件类别 [asso] 论元类别 [text]

观点抽取:[spot] 评价维度 [asso] 观点类别 [text]

下图给出了不同任务数据集的SSI形式:

9ab8c76e-ba87-11ec-aa7f-dac502259ad0.png

3. UIE预训练和微调方式

本小节,我们将介绍:

1)Pre-train:如何预训练一个大规模的UIE模型,来捕获不同IE任务间的通用IE能力?

2)Finetune:如何通过快速的Finetune使UIE适应不同设置下的不同 IE 任务。

1)Pre-train:大规模异构监督预训练

UIE预训练语料主要来自Wikipedia、Wikidata和ConceptNet,构建了3种预训练数据:

D_pair: 通过Wikipedia对齐Wikidata,构建text-to-struct的平行语料:(SSI,Text,SEL)

D_record: 构造只包含SEL语法结构化record数据:(None,None,SEL)

D_text: 构造无结构的原始文本数据:(None,Text',Text'')

针对上述数据,分别构造3种预训练任务,将大规模异构数据整合到一起进行预训练:

Text-to-Structure Pre-training:为了构建基础的文本到结构的映射能力,对平行语料D_pair训练,同时构建负样本作为噪声训练(引入negative schema)。

Structure Generation Pre-training:为了具备SEL语言的结构化能力,对D_pair数据只训练 UIE 的 decoder 部分。

Retrofitting Semantic Representation:为了具备基础的语义编码能力,对D_text数据进行 span corruption训练。

最终的预训练目标,包含以上3部分;

9ad236e0-ba87-11ec-aa7f-dac502259ad0.png

2)Finetune:拒识噪声注入的模型微调机制

为了解决自回归Teacher-forcing的暴露偏差,构建了拒识噪声注入的模型微调机制:随机采样SEL中不存在的SpotName类别和AssoName类别,即:(SPOTNAME, [NULL]) 和 (ASSONAME, [NULL]),学会拒绝生成错误结果的能力,如下图所示:

9ae1a72e-ba87-11ec-aa7f-dac502259ad0.png

4. UIE主要实验结论

1)全监督实验

9af08410-ba87-11ec-aa7f-dac502259ad0.png

如上图所示,SEL代表未经预训练的UIE模型。可以看出:

1、在4类信息抽取任务、13个数据集、7大领域的IE任务上,UIE达到了SOTA性能;

2、对比SEL和UIE结果:异构监督预训练显著地提升了 UIE 的通用信息抽取能力,具有更好的跨任务迁移能力;

2)少样本实验

9b07210c-ba87-11ec-aa7f-dac502259ad0.png

少样本实验可以发现:

1、大规模异构监督预训练可以学习通用的信息抽取能力,使模型具有更好小样本学习能力。

2、当去掉SSI结构化模式提示器后,发现指标下降,因此:结构化抽取指令具有更好的定向迁移的能力。

3)消融实验

9b262d9a-ba87-11ec-aa7f-dac502259ad0.png

上述消融实验表明:基于拒识噪声注入的模型微调机制可以有效缓解自回归生成过程中的暴露偏差问题。

总结与展望

本文介绍了一个统一的文本到结构生成框架——UIE,可以通用建模不同的IE任务,自适应生成有针对性的结构,从不同的知识来源统一学习通用的信息抽取能力。

实验结果表明UIE实现了在监督和低资源下的SOTA性能,同时验证了其普遍性、有效性和可转移性。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 建模
    +关注

    关注

    1

    文章

    281

    浏览量

    60502
  • 文本
    +关注

    关注

    0

    文章

    118

    浏览量

    16922

原文标题:信息抽取大一统:百度中科院发布通用抽取模型UIE,刷新13个IE数据集SOTA!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    美日联手研究生成式AI,将建立合作框架

    近期,美国和日本政府宣布将联手研究生成式人工智能(AI),并计划建立一个合作框架以共同推进该领域的技术进步。
    的头像 发表于 04-18 15:15 342次阅读

    【鸿蒙】NAPI 框架生成工具实现流程

    NAPI 框架生成工具 可以根据用户指定路径下的 ts(typescript)接口文件一键生成 NAPI 框架代码、业务代码框架、GN 文件
    的头像 发表于 02-28 17:00 249次阅读
    【鸿蒙】NAPI <b class='flag-5'>框架</b><b class='flag-5'>生成</b>工具实现流程

    高级检索增强生成技术(RAG)全面指南

    ChatGPT、Midjourney等生成式人工智能(GenAI)在文本生成文本到图像生成等任务中表现出令人印象深刻的性能。
    的头像 发表于 12-25 15:16 2134次阅读
    高级检索增强<b class='flag-5'>生成</b>技术(RAG)全面指南

    如何生成状态机框架

    生成状态机框架 使用FSME不仅能够进行可视化的状态机建模,更重要的是它还可以根据得到的模型自动生成用C++或者Python实现的状态机框架。首先在FSME界面左边的树形列表中选择"R
    的头像 发表于 09-13 16:54 651次阅读
    如何<b class='flag-5'>生成</b>状态机<b class='flag-5'>框架</b>

    Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

    今天,Meta发布了Code Llama,一款可以使用文本提示生成代码的大型语言模型(LLM)。
    的头像 发表于 08-25 09:06 950次阅读
    Meta发布一款可以使用<b class='flag-5'>文本</b>提示<b class='flag-5'>生成</b>代码的大型语言模型Code Llama

    通过循环训练实现忠实的低资源数据文本生成

    结构化数据中自然语言生成(NLG)往往会产生多种错误,从而限制了这些模型在面向客户的应用中的实用性。当NLG 模型在生成的输出文本时注入与输入结构
    的头像 发表于 08-24 14:53 267次阅读
    通过循环训练实现忠实的低资源数据<b class='flag-5'>文本生成</b>

    基于扩散模型的图像生成过程

    近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。 不过仅凭文本来控制图像的生成
    的头像 发表于 07-17 11:00 2110次阅读
    基于扩散模型的图像<b class='flag-5'>生成</b>过程

    面向结构化数据的文本生成技术研究

    今天我们要讲的文本生成是现在最流行的研究领域之一。文本生成的目标是让计算机像人类一样学会表达,目前看基本上接近实现。这些突然的技术涌现,使得计算机能够撰写出高质量的自然文本,满足特定的需求。
    的头像 发表于 06-26 14:39 352次阅读
    面向<b class='flag-5'>结构</b>化数据的<b class='flag-5'>文本生成</b>技术研究

    基于文本到图像模型的可控文本到视频生成

    文本到视频模型需要大量高质量的视频和计算资源,这限制了相关社区进一步的研究和应用。为了减少过度的训练要求,我们研究了一种新的高效形式:基于文本到图像模型的可控文本到视频生成。这个任务
    的头像 发表于 06-14 10:39 586次阅读
    基于<b class='flag-5'>文本</b>到图像模型的可控<b class='flag-5'>文本</b>到视频<b class='flag-5'>生成</b>

    Meta开源文本如何生成音乐大模型

    年初,谷歌推出了音乐生成大模型 MusicLM,效果非常不错。有人称这比大火的 ChatGPT 还重要,几乎解决了音乐生成问题。近日,Meta 也推出了自己的文本音乐生成模型 Musi
    的头像 发表于 06-12 15:11 547次阅读
    Meta开源<b class='flag-5'>文本</b>如何<b class='flag-5'>生成</b>音乐大模型

    开源了!UniControl:可控视觉生成统一扩散模型

    现有的可控图片生成模型都是针对单一的模态进行设计,然而 Taskonomy [3] 等工作证明不同的视觉模态之间共享特征和信息,因此本文认为统一的多模态模型具有巨大的潜力。
    的头像 发表于 06-08 15:01 379次阅读
    开源了!UniControl:可控视觉<b class='flag-5'>生成</b>的<b class='flag-5'>统一</b>扩散模型

    微软提出Control-GPT:用GPT-4实现可控文本到图像生成

    该研究提出了一个简单而有效的框架 Control-GPT,它利用 LLM 的强大功能根据文本 prompt 生成草图。Control-GPT 的工作原理是首先使用 GPT-4 生成 T
    的头像 发表于 06-05 15:31 488次阅读
    微软提出Control-GPT:用GPT-4实现可控<b class='flag-5'>文本</b>到图像<b class='flag-5'>生成</b>!

    什么是生成式AI?生成式AI的四大优势

    生成式AI是一种特定类型的AI,专注于生成新内容,如文本、图像和音乐。这些系统在大型数据集上进行训练,并使用机器学习算法生成与训练数据相似的新内容。这在各种应用程序中都很有用,比如创建
    发表于 05-29 14:12 2747次阅读

    大型语言模型能否捕捉到它们所处理和生成文本中的语义信息

      大型语言模型能否捕捉到它们所处理和生成文本中的语义信息?这一问题在计算机科学和自然语言处理领域一直存在争议。然而,MIT的一项新研究表明,仅基于文本形式训练、用于预测下一个token的语言模型
    的头像 发表于 05-25 11:34 485次阅读
    大型语言模型能否捕捉到它们所处理和<b class='flag-5'>生成</b>的<b class='flag-5'>文本</b>中的语义信息

    如何从arduino发送文本arduino?

    从arduino发送文本arduino
    发表于 05-04 07:45