0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

针对文本生成任务提出一种基于提示的迁移学习方法

深度学习自然语言处理 来源:RUC AI Box 作者:李军毅 2022-09-23 15:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文将介绍我们已发表在NAACL 2022的两篇论文,分别关注预训练语言模型的能力评测与提示迁移学习。预训练语言模型在广泛的任务中取得了不错的效果,但是对于预训练模型的语言能力仍缺乏系统性的评估与判断。面对这一难题,我们提出了一个针对预训练语言模型的通用语言能力测试(ElitePLM),从记忆、理解、推理和创作四个能力维度评估5类10个预训练模型的语言能力,希望为后续研究提供选择、应用、解释和设计预训练模型的参考指导。另外,目前预训练语言模型大多采用微调(fine-tuning)范式适应文本生成任务,但这一范式难以应对数据稀疏的场景。因此,我们采用提示学习(prompt-based learning)构建一个通用、统一且可迁移的文本生成模型PTG,在全样本与少样本场景下都具有不俗的表现。

一、预训练语言模型的能力评测

背景

近年来,预训练语言模型(PLMs)在各种各样的任务上取得了非常不错的结果。因此,如何从多个方面系统性地评估预训练模型的语言能力成为一个非常重要的研究话题,这有助于研究者为特定任务选择合适的预训练语言模型。目前相关的研究工作往往聚焦于单个能力的评估,或者只考虑很少部分的任务,缺乏系统的设计与测试。为了解决这一难题,我们针对预训练语言模型提出了一个通用语言能力测试(ElitePLM),从记忆、理解、推理、创作四个方面评估预训练模型的语言能力。

通用语言能力测试

评测模型

为了保证测试模型的广泛性与代表性,我们选择了五类预训练模型进行测试:

Bidirectional LMs: BERT, RoBERTa, ALBERT;

Unidirectional LMs: GPT-2;

Hybrid LMs: XLNet, UniLM;

Knowledge-enhanced LMs: ERNIE;

Text-to-Text LMs: BART, T5, ProphetNet;

记忆能力(Memory)

记忆是人类最基本的能力。ElitePLM将评估预训练语言模型在预训练阶段记住的知识与语言模式,因此我们采用LAMA与Wikipedia两个数据集。LAMA是常用的知识探针数据集,Wikipedia是广泛使用的预训练语料,这两个数据集都将转化为填空式问题进行测试,评测指标为Precision@1。评测结果如下图所示(更多结果见原论文和附录)。可以看出,RoBERTa采用双向的训练目标和一些鲁棒的训练策略取得了最好的效果,因此预训练目标和策略反映了模型记忆信息的方式,深刻影响模型的记忆能力。

fd387450-3afe-11ed-9e49-dac502259ad0.png

理解能力(Comprehension)

理解是一个复杂且多面的能力,包括对文本词汇、背景知识、语言结构的理解。因此,我们采用GLUE, SuperGLUE, SQuAD v1.1, SQuAD v2.0和RACE五个数据集对预训练模型理解词汇、背景知识和语言结构进行评测。GLUE的评测结果如下图所示(更多结果见原论文和附录)。可以看出,在记忆测试上表现良好的模型(如RoBERTa,XLNet)在理解测试上也具有优异的表现,因此记忆能力的改善有助于提升理解能力。

fd56458e-3afe-11ed-9e49-dac502259ad0.png

推理能力(Reasoning)

推理是建立在文本理解的基础上,ElitePLM中主要关注三种推理模式:常识推理、演绎推理和溯因推理。因此,我们采用CommonsenseQA, ROCStories, SWAG, HellaSwag, Sense Making和ARCT六个数据集对上述三种推理进行评测。评测结果如下图所示(更多结果见原论文和附录)。可以看出,ALBERT采用inter-sentence coherence预训练目标在推理测试中取得了不错的效果,因此句子级推理目标可以提升预训练模型的推理能力。虽然引入了知识,但是ERNIE在知识相关的数据集CommonsenseQA中表现平平,因此需要设计更加有效的知识融合方式。

fd7471f8-3afe-11ed-9e49-dac502259ad0.png

创作能力(Composition)

创作也就是从无到有生成新文本,它不仅需要模型对相关内容的理解,还需要推理出合适的上下文。因为,我们采用WritingPrompts——故事生成, CNN/Daily Mail, GigaWord——摘要生成和SQuAD v1.1——问题生成四个数据集对模型的创作能力进行测试,其中故事生成为长文本生成任务,摘要生成与问题生成为短文本生成任务。评测结果如下图所示(更多结果见原论文和附录)。可以看出,denoising预训练目标更有利于短文本生成,left-to-right预训练目标更有利于长文本生成。

fd87e846-3afe-11ed-9e49-dac502259ad0.png

结论

基于对预训练语言模型的记忆、理解、推理和创作能力的测试,我们发现:(1)使用不同预训练目标和策略的模型擅长不同的任务,比如基于双向目标的BERT和使用鲁棒训练策略的RoBERTa能够很好地记忆预训练语料,使用permutation language modeling的XLNet在理解任务中可以有效地建模双向的上下文信息,使用inter-sentence coherence目标的ALBERT在句子级推理任务中更合适;(2)在微调预训练模型时,他们的表现受到目标领域数据分布的影响比较大;(3)预训练模型在相似任务中的迁移能力出人意料的良好,特别是推理任务。ElitePLM除了作为预训练语言模型能力测试的基准,我们还开放了所有数据集的测试结果,基于这些测试结果,研究者可以对预训练模型在每种能力上的表现进行更加深入的分析。例如,我们在论文中分析了模型在QA任务上的测试结果,发现预训练模型对于复杂的答案类型仍然有待提高,此外,我们也对模型的创作文本进行了图灵测试。

总之,ElitePLM希望能够帮助研究者建立健全的原则,以在实际应用中选择、应用、解释和设计预训练模型。

二、 预训练语言模型的提示迁移

背景

目前大部分预训练语言模型都采用微调(fine-tuning)的方式来适应文本生成任务。但是,在现实中,我们常常遇到只有少量标注数据、难以进行微调的场景。我们知道,大部分文本生成任务都采用相似的学习机制例如Seq2Seq,预训练语言模型如GPT也展现了构建通用且可迁移框架的重要性。基于上述目标,我们采用提示学习(prompt-based learning)构建一个通用、统一且可迁移的文本生成模型PTG,特别是对于数据稀疏的场景。

形式化定义

给定输入文本与输出文本,文本生成任务的目标是最大化条件生成概率。本文采用连续提示,其中为提示向量数目,最终的训练目标为。在迁移学习下,我们有一系列源任务,其中第个源任务 包含条输入文本与输出文本,迁移学习的目标是利用在源任务中学习到的知识解决目标任务。在本文中,我们考虑一种基于提示学习的新型迁移学习框架:针对每个源任务,我们学习独立的source prompt , 然后将这些已学习的prompt迁移到目标任务。

fdb3c3bc-3afe-11ed-9e49-dac502259ad0.png

模型

在这一过程,我们需要解决两个核心挑战:(1)已有研究表明prompt是高度任务特定的,因此对于新任务来说需要有效的迁移及重用prompt机制;(2)对于单个任务而言,一个prompt显然不足以应对大量不同的数据样本,因此有必要在prompt迁移过程中考虑任务于样本的双重特征。

学习可迁移的Source Prompts

对于每个源任务,基于共享的一个冻结PLM,使用训练数据和训练目标学习source prompt ,这些prompt将存储在一个source prompt pool中,记为。构建提示池的目的是为了将提示共享给所有目标任务,同时在迁移时考虑任务间的相似性。

如何衡量任务间的相似性?我们通过谱聚类的方式将source prompts进行聚簇,每个prompt将被看作是有权无向图上的一个节点,然后采用min-max cut策略进行分割,最后得到所有簇,每个prompt属于其中某个簇,簇中的prompt认为具有任务间的相似性。

有了上述结构,我们将构建一个multi-key记忆网络,对于簇中的一个source prompt ,它与一个可学习的cluster key 和一个可学习的prompt key 进行联结,即:

fde6ab38-3afe-11ed-9e49-dac502259ad0.png

迁移Instance Adaptive Prompts

在迁移prompt过程中,我们需要考虑任务特征与样本特征,因此我们设计了一个自适应的注意力机制,高效地学习target prompt来解决目标任务。

对于目标任务中的一个样本,我们使用task query和instance query从提示池中选择合适的source prompts来学习新的target prompt以解决目标任务的样本。Task query被定义为一个任务特定的可学习向量,instance query则需要考虑样本输入的特征,我们使用一个冻结的BERT计算,即,对BERT顶层每个单词的表示采用平均池化操作。对于提示池中的prompt ,我们使用task query和instance query计算匹配分数:

fdf3ee9c-3afe-11ed-9e49-dac502259ad0.png

最终,对于目标任务中的样本,我们学习到的target prompt为。基于此,我们在目标任务上的训练目标为:

fe0929d8-3afe-11ed-9e49-dac502259ad0.png

实验结果

在实验中,我们选择三类生成任务的14个数据集:compression(包括摘要生成和问题生成)、transduction(包括风格迁移和文本复述)以及creation(包括对话和故事生成)。数据集统计如下表所示。

fe13fb92-3afe-11ed-9e49-dac502259ad0.png

基准模型方面,我们选择了预训练语言模型(GPT-2, BART和T5)、Prefix-Tuning、SPoT和Multi-task Tuning,并分别在全样本与少样本两种场景下进行任务间迁移与数据集间迁移的测试。

全样本场景

对于任务间迁移实验,我们考虑两种情况:(1)目标任务和数据集为摘要生成(CNN/Daily Mail),其他五种任务为源任务;(2)目标任务和数据集为对话(PersonaChat),其他五种任务为源任务。

对于数据集间迁移实验,我们同样也考虑两种情况:(1)在摘要生成任务下,目标数据集为CNN/Daily Mail或者XSUM,其他摘要数据集为源数据集;(2)在对话任务下,目标数据集为PersonaChat或者DailyDialog,其他对话数据集为源数据集。

实验结果如下表所示。可以看到,通过将prompt从源任务迁移到目标任务,PTG超越了GPT-2, BART, T5和Prefix-Tuning,这表明提示迁移提供了一种非常有效的预训练语言模型微调方式。其次,PTG也超越了同样基于提示迁移的方法SPoT,这是因为SPoT在迁移时仅仅使用source prompt初始化target prompt。最后,PTG与Multi-task Tuning表现相当甚至超越其表现。这表明简单地混合所有任务进行微调并不足以应对文本生成任务的复杂性。

fe23757c-3afe-11ed-9e49-dac502259ad0.png

少样本场景

少样本实验下的任务间迁移与数据集间迁移设置与全样本场景一致。除此以外,我们减少目标任务与数据集的训练样本数目为{50, 100, 200, 500}。对于每个数目,我们在2中随机种子下分别进行5次实验,最终结果为10次实验的平均结果。

实验结果如下表所示。可以看到,少样本场景下PTG取得了与最强基准模型Multi-task Tuning相当的表现,甚至超越其表现,这也进一步说明了我们方法的有效性。

fe66de3e-3afe-11ed-9e49-dac502259ad0.png

消融实验

此外,我们还设置了消融实验,探究不同模块对模型表现的影响,包括提示池(prompt pool)、提示聚簇(prompt cluster)、multi-key记忆网络(multi-key memory network)和样本级特征(instance-level query)。实验结果如下表所示。

fe7a543c-3afe-11ed-9e49-dac502259ad0.png

任务间相似性分析

我们针对源任务上学习到的source prompts做了源任务间的相似性分析,下图展示了prompt之间余弦相似度的热力图。可以看出,6个任务14个数据集大致可以分为3类,这与我们选择数据集的类别基本吻合。

fe8cc8ec-3afe-11ed-9e49-dac502259ad0.png

结论

本文针对文本生成任务提出一种基于提示的迁移学习方法。通过在源任务学习一系列的源提示,模型将这些提示迁移到目标任务以解决下游任务。在模型中,我们设计了一种自适应注意力机制,在提示迁移时考虑任务特征和样本特征。在大量实验上的结果表明,我们的方法要优于基准办法。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11265
  • 数据集
    +关注

    关注

    4

    文章

    1232

    浏览量

    26063
  • 迁移学习
    +关注

    关注

    0

    文章

    74

    浏览量

    5838

原文标题:NAACL'22 | 预训练模型哪家强?提示迁移学习为文本生成提供新思路

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    万里红文本生成算法通过国家网信办备案

    近日,国家互联网信息办公室发布了第十四批深度合成服务算法备案信息,北京万里红科技有限公司(以下简称:万里红)自主研发的“万里红文本生成算法”正式通过备案。该算法致力于通过自动化的方式,提升知识问答、RAG分类、预测、文档生成的准确率,确保信息的安全性和合规性,为用户提供及
    的头像 发表于 11-14 09:06 446次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    、浪费资源与破坏环境 二、用小模型代替大模型 1、强化学习 2、指令调整 3、合成数据 三、终身学习迁移学习 1、终身学习 终身
    发表于 09-14 14:04

    ARM入门学习方法分享

    。 以下是些入门学习方法的分享: 、 理解基本概念:首先,了解ARM是什么以及它的基本概念是很重要的。ARM(Advanced RISC Machines)指的是一种精简指令集
    发表于 07-23 10:21

    Copilot操作指南():使用图片生成原理图符号、PCB封装

    的操作方法。  ”   图片生成原理图符号(Symbol) Copilot 支持图片生成原理图符号功能,支持原理图编辑器与符号编辑器两场景。只需在 Copilot 中  @图片
    的头像 发表于 07-15 11:14 4014次阅读
    Copilot操作指南(<b class='flag-5'>一</b>):使用图片<b class='flag-5'>生成</b>原理图符号、PCB封装

    关于鸿蒙App上架中“AI文本生成模块的资质证明文件”的情况说明

    检查结果为“通过”或审核状态为“审核通过”。 那么对于这个问题,我也是尝试去解决……这里分享下我了解到的情况和方法 首先,这个政策虽然说是针对AI文本生成模块,但实际上,
    发表于 06-30 18:37

    章 W55MH32 高性能以太网单片机的学习方法概述

    本章介绍W55MH32的学习方法,建议先了解硬件资源,按基础篇、入门篇循序渐进学习。参考两份手册,提供例程资料,还给出官网、github 等学习资料查找渠道。让我们起踏上W55MH3
    的头像 发表于 05-26 09:07 573次阅读
    第<b class='flag-5'>一</b>章 W55MH32 高性能以太网单片机的<b class='flag-5'>学习方法</b>概述

    使用MATLAB进行无监督学习

    无监督学习一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1203次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>

    一种无刷直流电机霍耳信号与定子绕组关系自学习方法

    的关系。提出一种无刷直流电机霍耳信号与定子绕组关系自学习方法,该方法通过不同的绕组通电组合将电机转子依次转到6个不同的位置并记录对应的霍耳信号,然后得出霍耳信号与定子绕组的对应关系。
    发表于 03-25 15:15

    一种多模态驾驶场景生成框架UMGen介绍

    端到端自动驾驶技术的快速发展对闭环仿真器提出了迫切需求,而生成式模型为其提供了一种有效的技术架构。然而,现有的驾驶场景生成方法大多侧重于图像模态,忽略了其他关键模态的建模,如地图信息、
    的头像 发表于 03-24 15:57 1520次阅读
    <b class='flag-5'>一种</b>多模态驾驶场景<b class='flag-5'>生成</b>框架UMGen介绍

    使用OpenVINO GenAI和LoRA适配器进行图像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用户可以将平平无奇的文本提示词转换为令人惊艳的视觉效果。
    的头像 发表于 03-12 13:49 1582次阅读
    使用OpenVINO GenAI和LoRA适配器进行图像<b class='flag-5'>生成</b>

    stm32cubemx 6.13.0(win)版本生成代码中文注释乱码怎么解决?

    stm32cubemx 6.13.0(win)版本生成代码中文注释乱码
    发表于 03-11 07:10

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    功能对比: 1. 核心定位差异 维度 DeepSeek-V3 DeepSeek-R1 目标场景 通用型任务文本生成、多轮对话等) 复杂推理与数学能力优先(如STEM领域) 优化方向 平衡性能与成本,覆盖广泛
    发表于 02-14 02:08

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    理和理解这些数据。在自然语言处理中,Embedding常用于将文本数据中的单词、句子或文档映射为固定长度的实数向量,这些向量包含了丰富的语义信息。RAG技术是一种结合信息检索与文本生成能力的技术,它通过
    发表于 01-17 19:53

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    Tuning)和Prompt-Tuning:通过在输入序列中添加特定提示来引导模型生成期望的输出,简单有效,适用于多种任务。P-Tuning v1和P-Tuning v2:基于多任务
    发表于 01-14 16:51

    传统机器学习方法和应用指导

    用于开发生物学数据的机器学习方法。尽管深度学习般指神经网络算法)是个强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度学习相比
    的头像 发表于 12-30 09:16 1992次阅读
    传统机器<b class='flag-5'>学习方法</b>和应用指导