0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

统一的文本到结构生成框架——UIE

深度学习自然语言处理 来源:高能AI 作者:JayJay 2022-04-13 09:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

引言:信息抽取终于走到了这一步:迈入大一统时代!

今天为大家介绍一篇好基友 @陆博士 的ACL22论文《Unified Structure Generation for Universal Information Extraction》,这也是中科院和百度联合发布的1篇信息抽取统一建模工作UIE。

UIE官方链接:https://universal-ie.github.io

本文的组织架构为:

9a3521ca-ba87-11ec-aa7f-dac502259ad0.png

1.统一建模是IE发展的必然趋势

众所周知,信息抽取(IE)是一个从文本到结构的转换过程。常见的实体、关系、事件分别采取Span、Triplet、Record形式的异构结构。

曾几何时,当我们面对各种复杂多样的IE任务,我们总会造各式各样IE模型的轮子,来满足不同复杂任务的多变需求。

9a445d5c-ba87-11ec-aa7f-dac502259ad0.png

如上图所示:由于多样的抽取目标、相异的复杂结构、多变的领域需求时,导致信息抽取模型一直难以实现统一建模,极大限制了IE系统高效架构开发、有效知识共享、快速跨域适配。

比如,一个真实的情况是:针对不同任务设定,需要针对特定领域schema建模,不同IE模型被单个训练、不共享,一个公司可能需要管理众多IE模型。

9a5733a0-ba87-11ec-aa7f-dac502259ad0.png

当我们每次造不同IE轮子的时候,都要喝下不同的肥宅快乐水,撩以解忧(这不是个玩笑)

不过,在生成式统一建模各类NLP任务的今天,信息抽取统一建模也成为可能。

不久前,JayJay在《信息抽取的"第二范式"》一文中指出:生成式统一建模,或许是信息抽取领域正在发生的一场“深刻变革”。

因此:开发通用的IE结构是大有裨益的,可以统一建模不同的IE任务,从各种资源中自适应预测异构结构。总之:统一、通用的IE势不可挡!

这篇ACL2022论文,@陆博士提出了一个面向信息抽取的统一文本到结构生成框架UIE,它可以:

统一地建模不同的IE任务;

自适应地生成目标结构;

从不同的知识来源统一学习通用的信息抽取能力。

9a734e1e-ba87-11ec-aa7f-dac502259ad0.png

具体来说,UIE:

通过结构化抽取语言对不同的信息抽取目标结构进行统一编码;

通过结构化模式提示器自适应生成目标结构;

通过大规模结构化/非结构化数据进行模型预训练捕获常见的IE能力;

实验结果表明,本文提出的统一生成框架,基于T5模型进行了IE预训练,在实体、关系、事件和情感等4个信息抽取任务、13个数据集的全监督、低资源和少样本设置下均取得了SOTA性能。

接下来,我们将具体介绍UIE是如何统一建模的,以及具体是如何预训练的?

2. UIE统一建模方式:文本到结构生成

信息抽取任务可以表述为“文本到结构”的问题,不同的IE任务对应不同的结构。

UIE旨在通过单一框架统一建模不同IE任务的文本到结构的转换,也就是:不同的结构转换共享模型中相同的底层操作和不同的转换能力。

这里主要有两个挑战:

IE任务的多样性,需要提取许多不同的目标结构,如实体、关系、事件等;

IE任务是通常是使用不同模式定义的特定需求(不同schema),需要自适应地控制提取过程;

因此,针对上述挑战,需要:

设计结构化抽取语言(SEL,Structured Extraction Language)来统一编码异构提取结构,即编码实体、关系、事件统一表示。

构建结构化模式提示器(SSI,Structural Schema Instructor),一个基于schema的prompt机制,用于控制不同的生成需求。

9a824c7a-ba87-11ec-aa7f-dac502259ad0.png

上图展示了UIE的整体框架,整体架构就是:SSI + Text -> SEL

一句话简单概括就是:SSI就是输入特定抽取任务的schema,SEL就是把不同任务的抽取结果统一用1种语言表示。

1)SEL:结构化抽取语言

不同的IE任务可以分解为2个原子操作:

Spotting:找出Spot Name对应的Info Span,如某个实体或Trigger触发词;

Associating:找出Asso Name对应的Info Span,链接Info Span片段间的关系:如两个实体pair的关系、论元和触发词间的关系;

9a92ccb2-ba87-11ec-aa7f-dac502259ad0.png

如上图(a)所示:SEL语言可以统一用(Spot Name:Info Span(Asso Name:Info Span)(Asso Name:Info Span)...)形式表示,具体地:

Spot Name:Spotting操作的Info Span的类别信息,如实体类型;

Asso Name: Associating操作的Info Span的类别信息,如关系类型、关系类型;

Info Span:Spotting或Associating操作相关的文本Span;

如上图(b)所示:

蓝色部分代表关系任务:person为实体类型Spot Name,work for为关系类型Asso Name;

红色部分代表事件任务:start-position为事件类型Spot Name,employee为论元类型Asso Name;

黑色部分代表实体任务:organization和time为实体类型Spot Name;

9aa69562-ba87-11ec-aa7f-dac502259ad0.png

上图给出一个中文case:考察事件 为事件类型Spot Name,主角/时间/地点 为论元类型Asso Name。

2)SSI:结构化模式提示器

SSI的本质一个基于schema的prompt机制,用于控制不同的生成需求:在Text前拼接上相应的Schema Prompt,输出相应的SEL结构语言。

不同任务的的形式是:

实体抽取:[spot] 实体类别 [text]

关系抽取:[spot] 实体类别 [asso] 关系类别 [text]

事件抽取:[spot] 事件类别 [asso] 论元类别 [text]

观点抽取:[spot] 评价维度 [asso] 观点类别 [text]

下图给出了不同任务数据集的SSI形式:

9ab8c76e-ba87-11ec-aa7f-dac502259ad0.png

3. UIE预训练和微调方式

本小节,我们将介绍:

1)Pre-train:如何预训练一个大规模的UIE模型,来捕获不同IE任务间的通用IE能力?

2)Finetune:如何通过快速的Finetune使UIE适应不同设置下的不同 IE 任务。

1)Pre-train:大规模异构监督预训练

UIE预训练语料主要来自Wikipedia、Wikidata和ConceptNet,构建了3种预训练数据:

D_pair: 通过Wikipedia对齐Wikidata,构建text-to-struct的平行语料:(SSI,Text,SEL)

D_record: 构造只包含SEL语法结构化record数据:(None,None,SEL)

D_text: 构造无结构的原始文本数据:(None,Text',Text'')

针对上述数据,分别构造3种预训练任务,将大规模异构数据整合到一起进行预训练:

Text-to-Structure Pre-training:为了构建基础的文本到结构的映射能力,对平行语料D_pair训练,同时构建负样本作为噪声训练(引入negative schema)。

Structure Generation Pre-training:为了具备SEL语言的结构化能力,对D_pair数据只训练 UIE 的 decoder 部分。

Retrofitting Semantic Representation:为了具备基础的语义编码能力,对D_text数据进行 span corruption训练。

最终的预训练目标,包含以上3部分;

9ad236e0-ba87-11ec-aa7f-dac502259ad0.png

2)Finetune:拒识噪声注入的模型微调机制

为了解决自回归Teacher-forcing的暴露偏差,构建了拒识噪声注入的模型微调机制:随机采样SEL中不存在的SpotName类别和AssoName类别,即:(SPOTNAME, [NULL]) 和 (ASSONAME, [NULL]),学会拒绝生成错误结果的能力,如下图所示:

9ae1a72e-ba87-11ec-aa7f-dac502259ad0.png

4. UIE主要实验结论

1)全监督实验

9af08410-ba87-11ec-aa7f-dac502259ad0.png

如上图所示,SEL代表未经预训练的UIE模型。可以看出:

1、在4类信息抽取任务、13个数据集、7大领域的IE任务上,UIE达到了SOTA性能;

2、对比SEL和UIE结果:异构监督预训练显著地提升了 UIE 的通用信息抽取能力,具有更好的跨任务迁移能力;

2)少样本实验

9b07210c-ba87-11ec-aa7f-dac502259ad0.png

少样本实验可以发现:

1、大规模异构监督预训练可以学习通用的信息抽取能力,使模型具有更好小样本学习能力。

2、当去掉SSI结构化模式提示器后,发现指标下降,因此:结构化抽取指令具有更好的定向迁移的能力。

3)消融实验

9b262d9a-ba87-11ec-aa7f-dac502259ad0.png

上述消融实验表明:基于拒识噪声注入的模型微调机制可以有效缓解自回归生成过程中的暴露偏差问题。

总结与展望

本文介绍了一个统一的文本到结构生成框架——UIE,可以通用建模不同的IE任务,自适应生成有针对性的结构,从不同的知识来源统一学习通用的信息抽取能力。

实验结果表明UIE实现了在监督和低资源下的SOTA性能,同时验证了其普遍性、有效性和可转移性。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 建模
    +关注

    关注

    1

    文章

    324

    浏览量

    63487
  • 文本
    +关注

    关注

    0

    文章

    120

    浏览量

    17915

原文标题:信息抽取大一统:百度中科院发布通用抽取模型UIE,刷新13个IE数据集SOTA!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    为什么国产MCU的工程生态很难统一

    背景 国产 MCU 种类多、厂商众多,生态碎片化明显。 主要原因 厂商 SDK 不统一 :API、驱动结构差异大 开发工具闭源 :无法统一配置流程 工程模板缺失 :初始化步骤、外设配置不
    发表于 01-28 09:25

    软通动力签约数字化统一支付平台项目

    近日,软通动力与安徽辰信息科技有限公司正式达成合作,将携手共建“统一支付平台”。该项目旨在打造“统一入口、统一管理、统一清算、
    的头像 发表于 01-23 16:30 972次阅读

    京东零售广告创意:统一的布局生成和评估模型

    至关重要的作用。当前的布局生成方法在能力上具有任务特定性,并且评估标准与人类感知不致,导致其应用范围有限且评估效果不佳。为了解决这些问题,Uni-Layout实现了统一生成、模拟人类的评估以及二者之间的对齐。针对通用
    的头像 发表于 01-13 16:18 1183次阅读
    京东零售广告创意:<b class='flag-5'>统一</b>的布局<b class='flag-5'>生成</b>和评估模型

    重构电子系统抗扰设计的统一理论框架——从关联认知正向设计

    行业图谱EMC保护方案大全国外品牌替代表EMC行业标准雷卯实验室免费测试雷卯产品规格书讲解请点击以上内容了解更多摘要:本文提出种基于多物理场关联性的统一理论框架,旨在从根本上解决静电放电(ESD
    的头像 发表于 01-06 14:53 325次阅读
    重构电子系统抗扰设计的<b class='flag-5'>统一</b>理论<b class='flag-5'>框架</b>——从关联认知<b class='flag-5'>到</b>正向设计

    半导体封装框架的外部结构设计

    封装框架的外部结构设计,核心包含联筋(Dambar)与假脚(False leads)两大关键部分,以下将针对各设计要素及技术要求展开详细说明。
    的头像 发表于 12-26 15:03 931次阅读
    半导体封装<b class='flag-5'>框架</b>的外部<b class='flag-5'>结构</b>设计

    万里红文本生成算法通过国家网信办备案

    近日,国家互联网信息办公室发布了第十四批深度合成服务算法备案信息,北京万里红科技有限公司(以下简称:万里红)自主研发的“万里红文本生成算法”正式通过备案。该算法致力于通过自动化的方式,提升知识问答、RAG分类、预测、文档生成的准确率,确保信息的安全性和合规性,为用户提供及
    的头像 发表于 11-14 09:06 818次阅读

    请问STM32如何移植Audio框架

    最近在学习音频解码,想用下Audio框架。 1、这个该如何移植自己创建的BSP并对接到device框架中?看了官方移植文档没有对没有对该部分的描述。 2、我只想实现
    发表于 09-25 07:17

    Copilot操作指南():使用图片生成原理图符号、PCB封装

    “  上周推出支持图片生成模型的华秋发行版之后,得到了很多小伙伴的肯定。但看到更多的回复是:为什么我的 Copilot 无法生成符号?只有普通的文本回复?今天就为大家详细讲解下图片生成
    的头像 发表于 07-15 11:14 5301次阅读
    Copilot操作指南(<b class='flag-5'>一</b>):使用图片<b class='flag-5'>生成</b>原理图符号、PCB封装

    种基于扩散模型的视频生成框架RoboTransfer

    在机器人操作领域,模仿学习是推动具身智能发展的关键路径,但高度依赖大规模、高质量的真实演示数据,面临高昂采集成本与效率瓶颈。仿真器虽提供了低成本数据生成方案,但显著的“模拟现实”(Sim2Real)鸿沟,制约了仿真数据训练策略的泛化能力与落地应用。
    的头像 发表于 07-09 14:02 954次阅读
    <b class='flag-5'>一</b>种基于扩散模型的视频<b class='flag-5'>生成</b><b class='flag-5'>框架</b>RoboTransfer

    关于鸿蒙App上架中“AI文本生成模块的资质证明文件”的情况说明

    检查结果为“通过”或审核状态为“审核通过”。 那么对于这个问题,我也是尝试去解决……这里分享下我了解的情况和方法 首先,这个政策虽然说是针对AI文本生成模块,但实际上,针对的是所有调用了AI大模型
    发表于 06-30 18:37

    边缘生成式AI面临哪些工程挑战?

    本文由TechSugar编译自electronicdesign当大多数人想到人工智能(AI)时,他们通常能想到的是能够生成文本、图像或语音内容的应用。像ChatGPT这样流行的文本应用(在几天
    的头像 发表于 06-25 10:44 1299次阅读
    边缘<b class='flag-5'>生成</b>式AI面临哪些工程挑战?

    无法使用OpenVINO™在 GPU 设备上运行稳定扩散文本图像的原因?

    在OpenVINO™ GPU 设备上使用图像大小 (1024X576) 运行稳定扩散文本图像,并收到错误消息: RuntimeError: Exception from
    发表于 06-25 06:36

    ArkUI-X应用工程结构说明

    )并可以部署相应的OS平台,降低跨平台应用开发成本。 应用工程目录结构介绍 跨平台应用工程目录结构说明 以IDE创建的模板工程【ArkUI-X】Empty Ability举例,包含
    发表于 06-19 23:11

    生成式人工智能认证:重构AI时代的人才培养与职业跃迁路径

    ,恰似座连接技术前沿与个体成长的桥梁,既承载着时代对人才的迫切需求,也指向着未来职场的核心竞争力。 、技术革命的双重性:赋能与失衡并存 生成式人工智能的突破性,在于其首次让机器具备了“无中生有”的创造力。从
    的头像 发表于 05-23 09:29 1002次阅读

    PanDao:实际约束条件下成像系统的初始结构生成

    的是,寻找合适的初始设计方案以进行后续适配与优化,已经被证明是项艰巨的工作。为避免这耗时流程,本次研究的目标是从既定规格与约束条件中直接生成多种优质的初始结构。此研究将会为光学设计
    发表于 05-07 08:57