0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于Zero-Shot的多语言抽取式文本摘要模型

深度学习自然语言处理 来源:机器之心 作者:机器之心 2022-07-08 10:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这项研究旨在解决零样本下法语、德语、西班牙语、俄语和土耳其语等多语种的抽取式摘要任务,并在多语言摘要数据集 MLSUM 上大幅提升了基线模型的分数。

抽取式文本摘要目前在英文上已经取得了很好的性能,这主要得益于大规模预训练语言模型和丰富的标注语料。但是对于其他小语种语言,目前很难得到大规模的标注数据。

中国科学院信息工程研究所和微软亚洲研究院联合提出一种是基于 Zero-Shot 的多语言抽取式文本摘要模型。具体方法是使用在英文上预训练好的抽取式文本摘要模型来在其他低资源语言上直接进行摘要抽取;并针对多语言 Zero-Shot 中的单语言标签偏差问题,提出了多语言标签(Multilingual Label)标注算法和神经标签搜索模型(Neural Label Search for Summarization, NLSSum)。

实验结果表明,模型 NLSSum 在多语言摘要数据集 MLSUM 的所有语言上大幅度超越 Baseline 模型的分数。其中在俄语(Ru)数据集上,零样本模型性能已经接近使用全量监督数据得到的模型。

该研究发表在了 ACL 2022 会议主会长文上。

47f1a78c-f928-11ec-ba43-dac502259ad0.png

引言

随着 BERT 在自然语言处理领域的发展,在大规模无标注数据上进行预训练的模式得到了广泛的关注。

近些年,有很多研究工作在多种语言的无标签语料上进行训练,从而得到了支持多种语言的预训练模型。这些基于多语言文本的预训练模型能够在跨语言的下游任务上取得很好的性能,例如 mBERT、XLM 和 XLMR。对于基于 Zero-Shot 的多语言任务,上述的多语言模型也能取得不错的效果。其中,XLMR 模型的 Zero-Shot 效果在 XNLI 数据集上已经能够达到其他模型 Fine-tune 的水平。因此这为我们在抽取式文本摘要任务上进行基于 Zero-Shot 的探索提供了基础。

在单语言的抽取式文本摘要中,数据集通常只含有原始文档和人工编写的摘要,因此需要使用基于贪心算法的句子标签标注算法来对原文中的每句话进行标注。但这种算法是面向单语言的标注方法,得到的结果会产生单语言标签偏差问题,在多语言的任务上仍然需要优化。下面的图表展示的就是单语言标签偏差问题。

498ef6b2-f928-11ec-ba43-dac502259ad0.png

▲表1. 多语言 Zero-Shot 中的单语言标签偏差问题

如上表 1 样例所示,这个例子是摘要领域目前最常见的 CNN/DM 数据集中选取的部分文档。CNN/DM 是一个英文数据集,示例中上半部分的即为原始文档中的英文表示和人工编写的英文摘要;示例中的下半部分是使用微软开源的工业级翻译模型 Marian,将英文的文档和摘要全部翻译为德语。示例中的这句话和人工编写的摘要具有较高的相似性,因此会得到较高的 ROUGE 分数。

但是对于翻译成德语的文档句子和摘要,我们发现两者的相似性较低,对应的 ROUGE 分数也会较低。这种情况下,使用英语语言环境下标注的标签直接训练的多语言文本摘要模型,在其他语言的语言环境中并不是最优的。

上述实例表明同一个句子在不同语言环境下会存在标签偏差的问题,也就是目前的贪心算标注标签的方式无法满足基于 Zero-Shot 的多语言文本摘要任务。

为了解决上述基于 Zero-Shot 的多语言抽取式文本摘要中单语言标签偏置的问题,我们提出了一种多语言标签算法。在原来单语言标签的基础上,通过使用翻译和双语词典的方式在 CNN/DM 数据集上构造出另外几组多语言交互的句子标签。对于这几组语言标签,设计出神经语言标签搜索模型 (NLSSum) 来充分利用它们对抽取式摘要模型进行监督学习。

在 NLSSum 模型中,使用层次级的权重来对这几组标签进行句子级别 (Sentence-Level) 和组级别 (Set-Level) 的权重赋值。在抽取式模型的训练期间, Sentence-Level 和 Set-Level 权重预测器是和摘要抽取器一起在英文标注语料上进行训练的。模型推断测试的时候,在其他语言上只使用摘要抽取器来进行摘要抽取。

技术概览

我们针对基于 Zero-Shot 多语言摘要任务中的单语言标签偏移问题,提出了神经标签搜索模型来对多语言标签使用神经网络搜索其权重,并使用加权后的标签监督抽取式摘要器。具体的流程分为以下五步:

多语言数据增强:这里的目前是将原始英文文档用翻译、双语词典换等方式来减少和目标语言之间的偏差;

多语言标签:我们的抽取式摘要模型最终是通过多语言标签来进行监督的,其中多语言标签总共包含 4 组标签,这 4 组标签都是根据不同的策略来标注的;

神经标签搜索:在这步中为不同组标签设计了层次级的权重预测,包括句子级别 (Sentence-Level) 和组级别 (Set-Level),最终使用加权的标签来对抽取式摘要模型进行监督;

微调训练 / Fine-Tunig:使用增强的文档数据和加权平均的多语言标签来 Fine-Tune 神经摘要抽取模型;

基于 Zero-Shot 的多语言摘要抽取:使用在英文标注数据上训练完的模型可以直接在低资源语言的文档上进行摘要句子抽取。

49bab4fa-f928-11ec-ba43-dac502259ad0.png

▲图1:多语言标签

如上图 1 所示,在原始英文文档 D 和人工编写摘要 s 上设计出四组多语言标签 (Ua,Ub,Uc,Ud),具体的构造方法如下所示:

1. 标签集合 Ua:定义 Ua=GetPosLabel (D,s) 为使用文档 D 和人工编写摘要 s 使用贪心算法得到的抽取为摘要的句子集合,其中 GetPosLabel 返回的是标签为 1 的句子的索引。使用 (D,s) 得到的是英文文档上的到的摘要句子,这个结果对于其他语言来说并不是最优的,因此我们还设计了另外三组标签。

2. 标签集合 Ub:首先将英文原始文档和人工编写摘要都使用机器翻译模型 MarianMT 将其翻译为目标语言,标记为 DMT 和 sMT,然后使用 Ub=GetPosLabel (DMT,sMT) 的方式得到翻译后文档上摘要句子的索引集合。这种借助于机器翻译模型的方法相当于使用目标语言的句法结构来表达原始英文的语义,因此得到的摘要句子能反应出目标语言句法结构对摘要信息的偏重。

3. 标签集合 Uc:在这组标签的构造中,首先将原始英文文档自动翻译为目标语言 DMT,然后将人工编写的英文摘要使用双语词典替换为目标语言 SWR (将所有摘要中的词都进行替换),然后我们使用 Uc=GetPosLabel (DMT,SWR) 的方式得到翻译和词替换方式交互的摘要句子索引集合。这种方法将原始文档使用机器翻译来替换句法结构,摘要使用双语词典翻译来保留原始语言句法结构同时和文档语言保持一直,因此能够得到目标语言和原始语言之间句法结构在抽取摘要句子上的交互。

4. 标签集合 Ud:这个方法中,文档使用的是原始英文文档 D;摘要先经过机器翻译转换到目标语言,然后经过双语词典进行词替换转换回英语,使用 S′来表示。最终我们使用 Ud=GetPosLabel (D,S′) 来得到抽取式摘要句子标签集合。在这种方法中,原始文档保持不变,摘要则是使用目标语言的句法结构,因此能够再次得到目标语言和原始语言之间句法结构在抽取摘要句子上的交互。

需要注意的是,使用 GetPosLabel (D,S) 的时候,要保证 D 和 S 是同种语言的表示,因为基于贪心算法的标签标注算法本质上是对词语级别进行匹配。另外,还有很多种构造多语言标签的方法,我们只是选取了几组有代表性的方法。这些方法中使用的机器翻译模型和双语词典替换可能会引入额外的误差,因此需要为这几组标签学习合适的权重。

如下图 2 所示,对于已经得到的几组多语言标签 (Ua,Ub,Uc,Ud),需要设计神经标签搜索的模型来对不同组的标签设置权重。权重包含两部分,句子级别 (Sentence-Level) 和组级别 (Set-Level)。对应这两个级别的权重,我们分别定义两个权重预测器,句子级别权重预测 Transformeralpha 和组级别权重预测 Transformerbeta。

49da9a90-f928-11ec-ba43-dac502259ad0.png

▲图2:多语言神经标签搜索摘要模型

实验结果

NLSSum 是通过神经搜索的方式来对 MultilingualLabel 中不同标签集合赋予不同的权重,并最终得到加权平均的标签。使用这种最终的标签在英文数据集上训练抽取式摘要模型。和单语言标签相比,多语言标签中存在更多的跨语言语义和语法信息,因此本文的模型能够在 Baseline 基础上获得较大的提升。

如下表 2 所示,实验使用的数据集包括 CNN/DM 和 MLSUM,具体数据集描述如表 6.2 所示。MLSUM 是第一个大规模的多语言文本摘要数据集,它从新网网站上爬取了 150 万条文档和摘要,包含五种语言:法语 (French,Fr)、德语 (German,De)、西班牙语 (Spanish,ES)、俄语 (Russian,Ru) 和土耳其语 (Turkish,Tr)。MLSUM 是在测试推断的时候验证 Zero-Shot 多语言模型的跨语言迁移能力。在训练阶段使用的是文本摘要领域最常见的 CNN/DM 英文数据集。

4a02006c-f928-11ec-ba43-dac502259ad0.png

▲表2:MLSUM 数据集上的 ROUGE 结果

这里对 MLSUM 数据集上各个基线模型的的 ROUGE 结果进行对比。表格总共分为三部分。

第一部分展示的是 Oracle 和 Lead 这些简单的基线模型;

第二部分展示的是基于监督学习的一些基线模型,其中 (TrainAll) 是在所有语言的数据集上进行训练,(TrainOne) 是在每个语言的数据集上单独训练;

第三部分展示的是无监督学习的结果,所有的模型都是只在英文数据集上进行训练。

其中,根据第二部分的结果很容易发现,在监督学习中,基于生成式的摘要方式比抽取式的更加合适。在第三部分中,基线模型 XLMRSum 的性能能够超越生成式模型的 MARGE,这说明无监督学习中使用抽取式方法更加合适。

另外,当使用机器翻译和双语词典替换来对原始文档进行数据增强的时候 (基线模型 XLMRSum-MT 和 XLMRSum-WR),可以发现 XLMRSum-MT 模型会带来模型性能下降,而 XLMRSum-WR 会带来性能的提升,因此最终的模型中数据增强选择的是基于双语词典的词替换方式。

因此对于我们 NLSSum 模型,我们同样有两种配置,NLSSum-Sep是将 CNN/DM 单独词替换为对应的一种目标语言并进行微调训练;NLSSum是 CNN/DM 词分别替换为所有的目标语言并在所有语言的替换后的数据集上进行微调训练。

最终结果显示,在所有语言上进行训练的 NLSSum 效果更好。从表格中我们可以总结出以下结论:

基于翻译模型的输入数据增强会引入误差,所以应该避免在输入中使用翻译模型;相反,双语词典的词替换方式是一个不错的数据增强方法;

标签的构造过程中不涉及模型输入,所以可以使用机器翻译模型来辅助标签生成。

如下图 3 所示,通过可视化分析进一步研究不同语言间重要信息的分布位置,从中可以看出英文语言中重要信息分布较为靠前,而其他语言中的重要信息则比较分散,这也是多语言标签能够提升模型性能重要原因。

4a283f84-f928-11ec-ba43-dac502259ad0.png

▲图3:不同语言中摘要句子的分布位置

未来研究将关注于:1. 寻找更加合理的多语言句子级别标签标注算法;2. 研究如何提升低资源语言摘要结果,同时不降低英语语料上的结果。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6760

    浏览量

    108159
  • 数据
    +关注

    关注

    8

    文章

    7363

    浏览量

    95157
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26298

原文标题:ACL2022 | 基于神经标签搜索的零样本多语言抽取式文本摘要

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GT20L24F6Y标准点阵多国语言字库芯片:开启多语言显示新境界

    GT20L24F6Y标准点阵多国语言字库芯片:开启多语言显示新境界 在当今全球化的时代,多语言显示需求变得越来越普遍。无论是消费电子设备、工业控制界面还是公共信息展示系统,都需要支持多种语言
    的头像 发表于 04-28 15:40 143次阅读

    GT32L24F0210标准点阵多国语言字库芯片:多语言显示的理想之选

    GT32L24F0210标准点阵多国语言字库芯片:多语言显示的理想之选 在电子设备设计中,支持多国语言显示是满足全球市场需求的关键。上海高通半导体有限公司推出的GT32L24F0210标准点阵多国
    的头像 发表于 04-28 14:30 206次阅读

    GT32L24A180标准点阵中外文字库芯片:多语言显示的理想之选

    GT32L24A180标准点阵中外文字库芯片:多语言显示的理想之选 在电子设备的设计中,文字显示是一个关键的功能。无论是消费电子、工业控制还是智能终端,都需要准确、清晰地显示各种语言文字。上海高
    的头像 发表于 04-28 14:20 193次阅读

    工作流大模型节点说明

    模型节点是平台提供的基础节点之一,开发者可以在该节点使用大语言模型处理任务。 节点说明 大模型节点可以调用大型语言
    发表于 03-19 14:56

    RK平台ROS2适配全指南:从编译到运行,手把手搞定嵌入机器人开发

    Operating System 2)作为新一代机器人操作系统,在分布通信、实时性、多语言支持上的升级,更是嵌入机器人开发的核心框架。
    的头像 发表于 02-06 16:42 6207次阅读
    RK平台ROS2适配全指南:从编译到运行,手把手搞定嵌入<b class='flag-5'>式</b>机器人开发

    什么是大模型,智能体...?大模型100问,快速全面了解!

    ,LLM)是大模型中最主要的一类,专门用于处理和生成人类语言。大语言模型通过“阅读”海量的文本数据(如书籍、网页、文章等)进行预训练,学会
    的头像 发表于 02-02 16:36 1195次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    京东多语言质量解决方案

    一、业界多语言面临的通用挑战是什么 做这个事之前,我们先看看业界做了什么。 •阿里巴巴全球化测试技术介绍 •蚂蚁全球化无线端质量解决方案 •谈谈多语言测试 总结下来,需要面临3个通用
    的头像 发表于 01-13 16:18 1214次阅读
    京东<b class='flag-5'>多语言</b>质量解决方案

    使用 Docker 一键部署 PaddleOCR-VL: 新手保姆级教程

    ? PaddleOCR-VL 是基于轻量级视觉语言模型(VLM)的文档解析解决方案,核心模型为 PaddleOCR-VL-0.9B,支持多语言文本
    的头像 发表于 12-18 18:26 6974次阅读
    使用 Docker 一键部署 PaddleOCR-VL: 新手保姆级教程

    ElfBoard技术贴|如何在【RK3588】ELF 2开发板上完成PPOC本地化部署

    PPOCR是由百度开发的一款开源深度学习OCR(光学字符识别)模型,专注于文本检测、识别与理解任务,具备多场景、多语言的字符识别能力。该模型基于大规模多样化的
    的头像 发表于 11-14 10:54 7562次阅读
    ElfBoard技术贴|如何在【RK3588】ELF 2开发板上完成PPOC本地化部署

    阿里巴巴国际站关键字搜索 API 实战:3 步搞定多语言适配 + 限流破局,询盘量提升 40%

    跨境电商API开发常陷合规、多语言、限流等坑。本文详解从国际合规(GDPR/CCPA)到参数优化、数据结构化及区域化搜索的全链路方案,附Python代码模板与缓存重试架构,助力提升调用成功率至99%+,精准询盘增长42%。
    的头像 发表于 10-20 14:44 2094次阅读

    速卖通全球运营利器:商品详情接口多语言 + 合规 + 物流适配技术全解析

    速卖通全球化适配是跨境成功关键!本文详解2025最新接口方案,涵盖多语言智能翻译、合规自动校验、物流精准推荐与性能优化四大模块,助力商家提升转化率30%+,降低风险,提效80%。附实操代码与新手三步走策略,适合所有想出海的卖家。
    的头像 发表于 10-16 09:30 796次阅读
    速卖通全球运营利器:商品详情接口<b class='flag-5'>多语言</b> + 合规 + 物流适配技术全解析

    AI智能大模型,你身边的最好用的办公提效小能手

    几十亿到数万亿; 任务广:一次训练可以支持多个任务,具备通用能力; 适应快:只需少量样例,就能迁移到新任务中(Few-shotZero-shot)。 讯维AI智能大模型训练流程包含以下几个步骤: 1.收集数据:包括书籍、百科、
    的头像 发表于 09-30 10:59 420次阅读

    小语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    与一致性校验,实现高精度、低成本的小语种OCR训练数据生成。该方案将数据准备周期 从数周缩短至数小时 ,为小语种模型的快速迭代与冷启动提供了全新范式 一、引言:小语种OCR的“数据之困” 在跨境支付、多语言文档处理、全球化应用本地化等场景中,小语种(如俄
    的头像 发表于 08-29 11:26 3940次阅读
    小语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    1Whisper简介Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在
    的头像 发表于 07-25 15:21 1055次阅读
    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性。
    的头像 发表于 07-17 14:55 2117次阅读
    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程