0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

统一的文本到结构生成框架——UIE

深度学习自然语言处理 来源:高能AI 作者:JayJay 2022-04-13 09:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

引言:信息抽取终于走到了这一步:迈入大一统时代!

今天为大家介绍一篇好基友 @陆博士 的ACL22论文《Unified Structure Generation for Universal Information Extraction》,这也是中科院和百度联合发布的1篇信息抽取统一建模工作UIE。

UIE官方链接:https://universal-ie.github.io

本文的组织架构为:

9a3521ca-ba87-11ec-aa7f-dac502259ad0.png

1.统一建模是IE发展的必然趋势

众所周知,信息抽取(IE)是一个从文本到结构的转换过程。常见的实体、关系、事件分别采取Span、Triplet、Record形式的异构结构。

曾几何时,当我们面对各种复杂多样的IE任务,我们总会造各式各样IE模型的轮子,来满足不同复杂任务的多变需求。

9a445d5c-ba87-11ec-aa7f-dac502259ad0.png

如上图所示:由于多样的抽取目标、相异的复杂结构、多变的领域需求时,导致信息抽取模型一直难以实现统一建模,极大限制了IE系统高效架构开发、有效知识共享、快速跨域适配。

比如,一个真实的情况是:针对不同任务设定,需要针对特定领域schema建模,不同IE模型被单个训练、不共享,一个公司可能需要管理众多IE模型。

9a5733a0-ba87-11ec-aa7f-dac502259ad0.png

当我们每次造不同IE轮子的时候,都要喝下不同的肥宅快乐水,撩以解忧(这不是个玩笑)

不过,在生成式统一建模各类NLP任务的今天,信息抽取统一建模也成为可能。

不久前,JayJay在《信息抽取的"第二范式"》一文中指出:生成式统一建模,或许是信息抽取领域正在发生的一场“深刻变革”。

因此:开发通用的IE结构是大有裨益的,可以统一建模不同的IE任务,从各种资源中自适应预测异构结构。总之:统一、通用的IE势不可挡!

这篇ACL2022论文,@陆博士提出了一个面向信息抽取的统一文本到结构生成框架UIE,它可以:

统一地建模不同的IE任务;

自适应地生成目标结构;

从不同的知识来源统一学习通用的信息抽取能力。

9a734e1e-ba87-11ec-aa7f-dac502259ad0.png

具体来说,UIE:

通过结构化抽取语言对不同的信息抽取目标结构进行统一编码;

通过结构化模式提示器自适应生成目标结构;

通过大规模结构化/非结构化数据进行模型预训练捕获常见的IE能力;

实验结果表明,本文提出的统一生成框架,基于T5模型进行了IE预训练,在实体、关系、事件和情感等4个信息抽取任务、13个数据集的全监督、低资源和少样本设置下均取得了SOTA性能。

接下来,我们将具体介绍UIE是如何统一建模的,以及具体是如何预训练的?

2. UIE统一建模方式:文本到结构生成

信息抽取任务可以表述为“文本到结构”的问题,不同的IE任务对应不同的结构。

UIE旨在通过单一框架统一建模不同IE任务的文本到结构的转换,也就是:不同的结构转换共享模型中相同的底层操作和不同的转换能力。

这里主要有两个挑战:

IE任务的多样性,需要提取许多不同的目标结构,如实体、关系、事件等;

IE任务是通常是使用不同模式定义的特定需求(不同schema),需要自适应地控制提取过程;

因此,针对上述挑战,需要:

设计结构化抽取语言(SEL,Structured Extraction Language)来统一编码异构提取结构,即编码实体、关系、事件统一表示。

构建结构化模式提示器(SSI,Structural Schema Instructor),一个基于schema的prompt机制,用于控制不同的生成需求。

9a824c7a-ba87-11ec-aa7f-dac502259ad0.png

上图展示了UIE的整体框架,整体架构就是:SSI + Text -> SEL

一句话简单概括就是:SSI就是输入特定抽取任务的schema,SEL就是把不同任务的抽取结果统一用1种语言表示。

1)SEL:结构化抽取语言

不同的IE任务可以分解为2个原子操作:

Spotting:找出Spot Name对应的Info Span,如某个实体或Trigger触发词;

Associating:找出Asso Name对应的Info Span,链接Info Span片段间的关系:如两个实体pair的关系、论元和触发词间的关系;

9a92ccb2-ba87-11ec-aa7f-dac502259ad0.png

如上图(a)所示:SEL语言可以统一用(Spot Name:Info Span(Asso Name:Info Span)(Asso Name:Info Span)...)形式表示,具体地:

Spot Name:Spotting操作的Info Span的类别信息,如实体类型;

Asso Name: Associating操作的Info Span的类别信息,如关系类型、关系类型;

Info Span:Spotting或Associating操作相关的文本Span;

如上图(b)所示:

蓝色部分代表关系任务:person为实体类型Spot Name,work for为关系类型Asso Name;

红色部分代表事件任务:start-position为事件类型Spot Name,employee为论元类型Asso Name;

黑色部分代表实体任务:organization和time为实体类型Spot Name;

9aa69562-ba87-11ec-aa7f-dac502259ad0.png

上图给出一个中文case:考察事件 为事件类型Spot Name,主角/时间/地点 为论元类型Asso Name。

2)SSI:结构化模式提示器

SSI的本质一个基于schema的prompt机制,用于控制不同的生成需求:在Text前拼接上相应的Schema Prompt,输出相应的SEL结构语言。

不同任务的的形式是:

实体抽取:[spot] 实体类别 [text]

关系抽取:[spot] 实体类别 [asso] 关系类别 [text]

事件抽取:[spot] 事件类别 [asso] 论元类别 [text]

观点抽取:[spot] 评价维度 [asso] 观点类别 [text]

下图给出了不同任务数据集的SSI形式:

9ab8c76e-ba87-11ec-aa7f-dac502259ad0.png

3. UIE预训练和微调方式

本小节,我们将介绍:

1)Pre-train:如何预训练一个大规模的UIE模型,来捕获不同IE任务间的通用IE能力?

2)Finetune:如何通过快速的Finetune使UIE适应不同设置下的不同 IE 任务。

1)Pre-train:大规模异构监督预训练

UIE预训练语料主要来自Wikipedia、Wikidata和ConceptNet,构建了3种预训练数据:

D_pair: 通过Wikipedia对齐Wikidata,构建text-to-struct的平行语料:(SSI,Text,SEL)

D_record: 构造只包含SEL语法结构化record数据:(None,None,SEL)

D_text: 构造无结构的原始文本数据:(None,Text',Text'')

针对上述数据,分别构造3种预训练任务,将大规模异构数据整合到一起进行预训练:

Text-to-Structure Pre-training:为了构建基础的文本到结构的映射能力,对平行语料D_pair训练,同时构建负样本作为噪声训练(引入negative schema)。

Structure Generation Pre-training:为了具备SEL语言的结构化能力,对D_pair数据只训练 UIE 的 decoder 部分。

Retrofitting Semantic Representation:为了具备基础的语义编码能力,对D_text数据进行 span corruption训练。

最终的预训练目标,包含以上3部分;

9ad236e0-ba87-11ec-aa7f-dac502259ad0.png

2)Finetune:拒识噪声注入的模型微调机制

为了解决自回归Teacher-forcing的暴露偏差,构建了拒识噪声注入的模型微调机制:随机采样SEL中不存在的SpotName类别和AssoName类别,即:(SPOTNAME, [NULL]) 和 (ASSONAME, [NULL]),学会拒绝生成错误结果的能力,如下图所示:

9ae1a72e-ba87-11ec-aa7f-dac502259ad0.png

4. UIE主要实验结论

1)全监督实验

9af08410-ba87-11ec-aa7f-dac502259ad0.png

如上图所示,SEL代表未经预训练的UIE模型。可以看出:

1、在4类信息抽取任务、13个数据集、7大领域的IE任务上,UIE达到了SOTA性能;

2、对比SEL和UIE结果:异构监督预训练显著地提升了 UIE 的通用信息抽取能力,具有更好的跨任务迁移能力;

2)少样本实验

9b07210c-ba87-11ec-aa7f-dac502259ad0.png

少样本实验可以发现:

1、大规模异构监督预训练可以学习通用的信息抽取能力,使模型具有更好小样本学习能力。

2、当去掉SSI结构化模式提示器后,发现指标下降,因此:结构化抽取指令具有更好的定向迁移的能力。

3)消融实验

9b262d9a-ba87-11ec-aa7f-dac502259ad0.png

上述消融实验表明:基于拒识噪声注入的模型微调机制可以有效缓解自回归生成过程中的暴露偏差问题。

总结与展望

本文介绍了一个统一的文本到结构生成框架——UIE,可以通用建模不同的IE任务,自适应生成有针对性的结构,从不同的知识来源统一学习通用的信息抽取能力。

实验结果表明UIE实现了在监督和低资源下的SOTA性能,同时验证了其普遍性、有效性和可转移性。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 建模
    +关注

    关注

    1

    文章

    320

    浏览量

    62754
  • 文本
    +关注

    关注

    0

    文章

    119

    浏览量

    17747

原文标题:信息抽取大一统:百度中科院发布通用抽取模型UIE,刷新13个IE数据集SOTA!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    万里红文本生成算法通过国家网信办备案

    近日,国家互联网信息办公室发布了第十四批深度合成服务算法备案信息,北京万里红科技有限公司(以下简称:万里红)自主研发的“万里红文本生成算法”正式通过备案。该算法致力于通过自动化的方式,提升知识问答、RAG分类、预测、文档生成的准确率,确保信息的安全性和合规性,为用户提供及
    的头像 发表于 11-14 09:06 426次阅读

    Copilot操作指南():使用图片生成原理图符号、PCB封装

    “  上周推出支持图片生成模型的华秋发行版之后,得到了很多小伙伴的肯定。但看到更多的回复是:为什么我的 Copilot 无法生成符号?只有普通的文本回复?今天就为大家详细讲解下图片生成
    的头像 发表于 07-15 11:14 3939次阅读
    Copilot操作指南(<b class='flag-5'>一</b>):使用图片<b class='flag-5'>生成</b>原理图符号、PCB封装

    种基于扩散模型的视频生成框架RoboTransfer

    在机器人操作领域,模仿学习是推动具身智能发展的关键路径,但高度依赖大规模、高质量的真实演示数据,面临高昂采集成本与效率瓶颈。仿真器虽提供了低成本数据生成方案,但显著的“模拟现实”(Sim2Real)鸿沟,制约了仿真数据训练策略的泛化能力与落地应用。
    的头像 发表于 07-09 14:02 647次阅读
    <b class='flag-5'>一</b>种基于扩散模型的视频<b class='flag-5'>生成</b><b class='flag-5'>框架</b>RoboTransfer

    关于鸿蒙App上架中“AI文本生成模块的资质证明文件”的情况说明

    检查结果为“通过”或审核状态为“审核通过”。 那么对于这个问题,我也是尝试去解决……这里分享下我了解的情况和方法 首先,这个政策虽然说是针对AI文本生成模块,但实际上,针对的是所有调用了AI大模型
    发表于 06-30 18:37

    ArkUI-X应用工程结构说明

    )并可以部署相应的OS平台,降低跨平台应用开发成本。 应用工程目录结构介绍 跨平台应用工程目录结构说明 以IDE创建的模板工程【ArkUI-X】Empty Ability举例,包含
    发表于 06-19 23:11

    STM32如何移植Audio框架

    最近在学习音频解码,想用下Audio框架。 1、这个该如何移植自己创建的BSP并对接到device框架中?看了官方移植文档没有对没有对该部分的描述。 2、我只想实现
    发表于 04-01 08:08

    种多模态驾驶场景生成框架UMGen介绍

    端自动驾驶技术的快速发展对闭环仿真器提出了迫切需求,而生成式模型为其提供了种有效的技术架构。然而,现有的驾驶场景生成方法大多侧重于图像模态,忽略了其他关键模态的建模,如地图信息、
    的头像 发表于 03-24 15:57 1516次阅读
    <b class='flag-5'>一</b>种多模态驾驶场景<b class='flag-5'>生成</b><b class='flag-5'>框架</b>UMGen介绍

    动量感知规划的端端自动驾驶框架MomAD解析

    端自动驾驶框架实现了感知与规划的无缝集成,但通常依赖于次性轨迹预测,这可能导致控制不稳定,并且对单顿感知中的遮挡问题较为敏感。为解决这问题,我们提出了动量感知驾驶
    的头像 发表于 03-18 09:31 1479次阅读
    动量感知规划的端<b class='flag-5'>到</b>端自动驾驶<b class='flag-5'>框架</b>MomAD解析

    基于事件相机的统一帧插值与自适应去模糊框架(REFID)

    )的解决方案。团队提出了种基于事件相机的统一帧插值与自适应去模糊框架(REFID)。该框架基于双向递归网络,结合事件流和图像信息,自适应地融合来自不同时间点的信息,从而能够在模糊的输
    的头像 发表于 03-14 11:48 1292次阅读
    基于事件相机的<b class='flag-5'>统一</b>帧插值与自适应去模糊<b class='flag-5'>框架</b>(REFID)

    使用OpenVINO GenAI和LoRA适配器进行图像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用户可以将平平无奇的文本提示词转换为令人惊艳的视觉效果。
    的头像 发表于 03-12 13:49 1558次阅读
    使用OpenVINO GenAI和LoRA适配器进行图像<b class='flag-5'>生成</b>

    汽车框架结构焊接技术探析

    日益增长,传统的焊接技术面临着新的挑战与机遇。本文将探讨当前汽车框架结构焊接技术的发展现状、面临的挑战以及未来趋势。 首先,让我们回顾下汽车框架结构焊接技术的基本类
    的头像 发表于 02-27 09:42 620次阅读

    《AI Agent 应用与项目实战》阅读心得2——客服机器人、AutoGen框架生成式代理

    更精准地路由用户请求相应的处理模块。在后端功能设计上,采用了模块化的响应生成机制,包括知识检索引擎、对话状态管理器和响应生成器三个核心组件。知识检索引擎使用向量相似度匹配算法,不仅支持精确匹配,还能
    发表于 02-25 21:59

    Quantinuum发布开创性生成式量子人工智能框架

    科罗拉多州布鲁姆菲尔德与伦敦,2025年2月5日——Quantinuum今日宣布了项重大突破,推出了开创性的生成式量子人工智能框架(Gen QAI)。这
    的头像 发表于 02-10 11:34 863次阅读

    阿里云通义开源长文本新模型Qwen2.5-1M

    。 Qwen2.5-1M模型提供了7B和14B两种尺寸供用户选择,以满足不同场景下的需求。在处理长文本输入时,该模型能够保持稳定的性能,为用户提供更加准确、可靠的输出结果。 除了推出新模型外,阿里云通义还同时开源了推理框架。这
    的头像 发表于 02-05 14:01 792次阅读

    检索增强型生成(RAG)系统详解

    流畅且类似人类的文本方面表现出色,但它们有时在事实准确性上存在困难。当准确性非常重要时,这可能是个巨大的问题。 那么,这个问题的解决方案是什么呢?答案是检索增强型生成(RAG)系统。 RAG集成了像GPT这样的模型的强大功能,
    的头像 发表于 12-24 10:44 1649次阅读
    检索增强型<b class='flag-5'>生成</b>(RAG)系统详解