0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用对比前缀控制文本生成以及长文本生成的动态内容规划

深度学习自然语言处理 来源:复旦DISC 作者:复旦DISC 2022-08-02 15:06 次阅读

引言

文本生成作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。本篇主要介绍了三篇ACL2022的三篇文章。主要包含了增强预训练语言模型理解少见词语能力的可插拔模型、利用对比前缀控制文本生成以及长文本生成的动态内容规划。

文章概览

1. A Simple but Effective Pluggable Entity Lookup Table for Pre-trained Language Models

一个简单但有效的预训练语言模型的可插拔实体查找表

论文地址:https://arxiv.org/pdf/2202.13392.pdf

预训练语言模型(PLM)不能很好地回忆大规模语料库中实体词语的知识,尤其是那些少见的实体。这篇文章通过将实体在语料库中多次出现的输出嵌入表示结合起来,构建了一个简单但有效的可插拔实体查找表(PELT)。PELT可以兼容地插入PLM,向其补充实体词语的知识。与以往的知识增强PLM相比,PELT仅需要0.2% ~ 5%预训练的计算量,并具有从不同领域语料库获取知识的能力。

2. Controllable Natural Language Generation with Contrastive Prefixes

带有对比前缀的可控文本生成

论文地址:https://arxiv.org/pdf/2202.13257.pdf

为了引导预训练语言模型的生成具有某种属性的文本,以前的工作主要集中在微调语言模型或利用属性鉴别器。这篇文章在前缀微调的基础上进行改进,考虑了前缀之间的关系,同时训练多个前缀。本文提出了一种新的监督学习和一种无监督学习来训练单个属性标签控制的前缀,而这两种方法的结合可以实现多个属性标签的控制。实验结果表明,该方法能够在保持较高语言质量的同时,引导生成文本具有所需的属性。

3. PLANET: Dynamic Content Planning in Autoregressive Transformers for Long-form Text Generation

PLANET:用于长文本生成的自回归Transformer中的动态内容规划

论文地址:https://arxiv.org/pdf/2203.09100.pdf

现有的方法在长文本生成任务中存在逻辑不连贯的问题,这篇文章提出了一个新的生成框架PLANET,利用自回归的自注意力机制来动态地进行内容规划和表层实现。为了指导输出句子的生成,该框架将句子的潜在表征补充到Transformer解码器中,以维持基于词袋的句子级语义规划。此外,该模型引入了一个基于文本连贯性的对比学习目标,以进一步提高输出的内容连贯性。在反驳论点生成和观点文章生成这两个任务中,该方法明显优于base line,能生成更连贯的文本和更丰富的内容。

论文

01001b50-118e-11ed-ba43-dac502259ad0.png

动机

一些最新的研究表明,预训练语言模型(PLM)可以通过自我监督的预训练从大规模语料库中自动获取知识,然后将学到的知识编码到模型参数中。然而,由于词汇量有限,PLM难以从大规模语料库中回忆知识,尤其是少见的实体。

为了提高PLM理解实体的能力,目前有两种方法:

一是从知识图谱、实体描述或语料库中获得外部实体词嵌入。为了利用外部知识,模型将原始词嵌入与外部实体嵌入对齐。缺点是忽略了从PLM本身探索实体嵌入,使得所学到的嵌入没有领域适应性。

二是通过额外的预训练将知识注入PLM的参数中,例如从语料库构建额外的实体词汇,或采用与实体相关的训练前任务来强化实体表示。缺点是额外预训练计算量过于庞大,增加了下游任务扩展或更新定制词汇表的成本。

本文为了解决前两种方法的缺点,引入了一个简单有效的可插拔实体查找表(PELT),将知识注入到PLM中。优点是只消耗相当于0.2% ~ 5%的预训练计算量,并且支持来自不同领域的词汇。

01182696-118e-11ed-ba43-dac502259ad0.png

模型

重新审视Masked Language Modeling

PLM进行自我监督的预训练任务,如掩码语言建模(Masked Language Modeling,MLM),从大规模未标记语料库中学习语义和句法知识。MLM可以看作是一种完形填空任务,根据上下文表示来预测缺失的词。

给定一个词序列, MLM先将其中某个词语替换为[MASK]标记,再将替换之后的进行词嵌入和位置嵌入作为PLM的输入,获得上下文表示:

01297de2-118e-11ed-ba43-dac502259ad0.png

其中为Transformer的编码器,为层归一化,为词嵌入,为位置嵌入。

然后PLM使用前馈神经网络(FFN)来输出被掩盖位置的预测词嵌入

013b128c-118e-11ed-ba43-dac502259ad0.png

进一步计算在所有单词之间的交叉熵损失

0153dcfe-118e-11ed-ba43-dac502259ad0.png

重新审视上式中的损失,可以直观地观察到词嵌入和PLM的输出位于同一个向量空间。因此,我们能够从PLM的输出补充实体词的嵌入,将其上下文知识注入到模型中。

构建可插拔的实体嵌入

具体地说,给定一个通用的或特定于领域的语料库,本文的模型构建了一个实体词查找表。对于实体,例如Wikidata实体或专有名词实体,我们构造其嵌入如下:

步骤1:收集所有包含实体e的句子,并用[MASK]掩盖

为了在PLM词汇表中加入实体,可以在其他参数被冻结的情况下优化其嵌入。首先收集包含实体的句子,并用[MASK]替换。在中,对MLM损失的影响为

0165be6a-118e-11ed-ba43-dac502259ad0.png

其中

0175bb12-118e-11ed-ba43-dac502259ad0.png

步骤2:求

与整个词汇量对的影响相比,的影响要小得多。如果忽略这部分影响,

求对的最优解,那么的结果与成正比,记为

01813eec-118e-11ed-ba43-dac502259ad0.png

其中为比例因子。

这里说明了将若干个相加即可得到实体的新嵌入表示,如下图所示。

0194366e-118e-11ed-ba43-dac502259ad0.png

将实体知识注入PLM

由于上述得到的新的实体嵌入和原始词嵌入都是从MLM中获得的,因此新的实体嵌入可以看作是一个特殊的输入表示。为了将实体知识注入到PLM中,本文使用一对括号将构建的新嵌入包围起来,然后将其插入到原始实体词嵌入之后。例如,原始输入为Most people with COVID-19 have a dry [MASK] they can feel in their chest.,在注入新嵌入之后变为•Most people with COVID-19(COVID-19)have a dry [MASK] they can feel in their chest.

括号中的即为实体COVID-19新嵌入,而其他词使用了原来的嵌入。本文只是将修改后的输入传递给PLM进行编码,而不需要任何额外的结构或参数,以帮助模型预测[MASK]处的单词为"cough"。

实验

论文比较了关系分类、知识获取的准确率:

01b44274-118e-11ed-ba43-dac502259ad0.png

01d153b4-118e-11ed-ba43-dac502259ad0.png

01e7f3a8-118e-11ed-ba43-dac502259ad0.png

以及对低频率实体性能的提升:

0203099a-118e-11ed-ba43-dac502259ad0.png

论文

0214ac0e-118e-11ed-ba43-dac502259ad0.png

动机

可控文本生成的任务是引导文本向着期望属性生成。属性之间往往存在相互关系,例如,对情感这个主题可以设定两个对立的属性:积极和消极,作者认为这种相反的关系有助于提高前缀的可控性,训练时将某个主题的所有属性一起训练,但每个属性都各自训练一个前缀,且前缀互相独立。

模型

本文的方法是使用前缀来引导GPT-2的文本生成,其中前缀是一个属性特定的连续向量,位于GPT-2激活层之前。某个主题的前缀集合记为。与Li和Liang(2021)的每个属性前缀都独立训练不同,作者考虑了属性之间的关系,同时训练多个前缀。

的维数为,其中为前缀数量,在单主题控制中,等于属性的数量。为前缀向量的长度。,为GPT-2中激活层维度,其中为Transformer层数,为隐藏层大小,代表一个key向量和一个value向量。仿照Li和Liang(2021)的做法,作者通过一个大矩阵和有较小参数的对进行训练,式子为。训练结束后,只需要保留,和可以丢弃。由于GPT-2参数在训练时被固定,因此也不需要保存。

下图显示了一个在训练后的前缀控制下生成文本的示例。这些前缀可以以监督、半监督或无监督的方式进行训练。由于半监督方法是监督方法和无监督方法的结合,所以文章将介绍监督方法和无监督方法。为了清晰起见,文章在单主题控制设置下介绍这些方法。

0229aa64-118e-11ed-ba43-dac502259ad0.png

监督学习

假设相关主题有属性集,每个训练样本都是一对,其中是输入文本,,为的属性。注意属性同时表示中前缀的索引,因此在下面的描述中也表示前缀索引。

给定一个训练样本,对前缀进行优化以生成,而不鼓励其他前缀生成。为了实现这一目标,中的所有前缀都应该同时进行训练,且需要引入额外的损失函数。因此,总训练损失是语言模型损失与对比损失的加权和:

0239f018-118e-11ed-ba43-dac502259ad0.png

损失能够让生成的文本包含鼓励生成的信息,损失能够让生成的文本去除不鼓励产生的信息,代表着不同属性之间的“距离”。整个训练过程如下图所示。

02527656-118e-11ed-ba43-dac502259ad0.png

无监督学习

在无监督学习中,假设相关主题的属性集是已知的。训练样本只包含输入文本。属性不再可用,因此与x关联的前缀的索引是未知的。因此,对应的前缀的索引是一个潜变量,其后验分布遵循分类分布。

文章采用上述监督学习中的主要模型作为解码器,并引入一个编码器来参数化分类分布,根据选择前缀索引,然后将前缀输入解码器。由于前缀的选择过程不可微,作者使用Gumbel-Softmax松弛,计算如下:

0286f94e-118e-11ed-ba43-dac502259ad0.png

其中是Gumbel-Softmax的温度,是编码器函数。

为了训练前缀,总损失函数是三个损失项的加权和:

029b5df8-118e-11ed-ba43-dac502259ad0.png

其中为语言模型损失。是KL散度,这里作者假设先验是均匀分布。注意,这两项构成了VAE的损失函数,优化这两个损失项可以改善的证据下界。

为无监督对比损失,类似于监督学习中,但计算方式不同,因为真实属性不可用。其中为预先设置的距离,是另一个表示相对前缀索引的潜在变量,计算方法如下

02ab89f8-118e-11ed-ba43-dac502259ad0.png

的目的是通过将从推开一段距离。的计算如下:

02d5d618-118e-11ed-ba43-dac502259ad0.png

实验

作者做了三个实验,分别是情感控制、去除有害文本、主题控制。结果说明了模型在引导生成文本具有某种属性的能力上有提升

02e471e6-118e-11ed-ba43-dac502259ad0.png

03142882-118e-11ed-ba43-dac502259ad0.png

0334581e-118e-11ed-ba43-dac502259ad0.png

论文

03489914-118e-11ed-ba43-dac502259ad0.png

动机

尽管预训练语言模型在生成流畅文本方面取得了进展,但现有的方法在长文本生成任务中仍然存在逻辑不连贯的问题,这些任务需要适当的内容规划,以形成连贯的高级逻辑流。现有的方法大致分为两类,一类是全局规划,利用潜在变量作为全局规划来指导生成过程,但是没有考虑细粒度的句子级规划。

03720b14-118e-11ed-ba43-dac502259ad0.png

另一类是两阶段规划,首先生成句子级的内容规划,然后将内容规划传递给表层实现模块生成文本,但是内容规划和表层实现模块是脱节的,无法反向传播,会导致错误累积。

0390d5e4-118e-11ed-ba43-dac502259ad0.png

因此文章提出了一个新的生成框架PLANET,利用自回归的自我注意力机制来动态地进行内容规划和表层实现。

03a07486-118e-11ed-ba43-dac502259ad0.png

模型

任务描述

输入:

(1)一个语句,该语句可以是论点生成的主题,也可以是文章生成的标题,

(2)与该语句相关的一组无序的关键短语,作为话题的引导信号,对长文本生成任务进行建模。

输出:

一个由多个句子组成的文本,以连贯的逻辑恰当地反映了主题和关键短语。

训练目标:

03bb783a-118e-11ed-ba43-dac502259ad0.png

整体框架如图

03c714f6-118e-11ed-ba43-dac502259ad0.png

潜在表征学习

为每个目标句子引入一个潜在表征,来表示整个语义信息,并指导词的生成。

步骤一:在每个目标句子前插入一个标记,并将解码器在对应位置的隐藏层作为目标句子的潜在表征。

步骤二:当产生第j个输出句子时,潜在表征首先通过前面的潜在表征和前面句子计算得到。

步骤三:在句子表层实现时,之前生成的句子和潜在表征都参与到当前句子的计算中,且以当前潜在表征为指导。

0401d190-118e-11ed-ba43-dac502259ad0.png

内容选择

关键词潜在表征

先将关键词用分隔符拼接,输入编码器以获得潜在表征,再收集这些潜在表征,构建关键词存储库

内容选择层

内容选择层从关键词存储库B中检索关键词信息,并将所选信息集成到解码过程中。

步骤一:在解码时间步,Transformer解码器的顶层表示通过多头注意力连接到关键词存储库,获得加入所选关键词信息的上下文向量

0412e4bc-118e-11ed-ba43-dac502259ad0.png

步骤二:通过前馈层和残差连接(RC)将关键词上下文向量合并到解码器的隐藏层中

0426f74a-118e-11ed-ba43-dac502259ad0.png

步骤三:通过softmax将增强后的隐藏层传递到另一个前馈层,估计每个输出词的概率

04393de2-118e-11ed-ba43-dac502259ad0.png

句子级词袋规划

该部分的目的是监督潜在表征SN的学习过程。目的是通过目标句子的词袋来反映全局语义规划,从而为潜在表征的意义奠定基础。

将第j个目标句子的词袋定义为整个词汇上的分类分布。其中,为多层前馈网络。我们期望该分布能够捕捉到对应句子的整体语义规划。

044abe50-118e-11ed-ba43-dac502259ad0.png

损失函数:最大化预测每个目标句子词袋的可能性。

045e00a0-118e-11ed-ba43-dac502259ad0.png

基于一致性的对比学习

该部分的目的是加强内容规划,并驱动模型学习更加连贯的输出。于是进一步设计了一个对比学习(CL)的训练任务。

负样本构造

将原始目标句子视为代表逻辑连贯输出的正样本,并构造不连贯的负样本。

对于一个正样本,根据以下策略创建4个负样本:

•SHUFFLE:随机打乱目标句子

•REPLACE:将50%的原始目标句子随机替换为语料库中的随机句子

•DIFFERENT:将所有原始目标句子全部替换为语料库中的随机句子

•MASK:从关键词集合中随机掩盖与关键词相关的20%的非停词,并采用BART填充掩盖的位置

损失函数

模型将内容选择层的输出表征映射到0到1之间的一致性得分,并且强制原始目标句子的得分比所有对应的负样本都大,即设定一个固定的边界

04745b70-118e-11ed-ba43-dac502259ad0.png

其中,是sigmoid变换,和是正样本和负样本在内容选择层的输出表征,是平均池化层

训练目标函数

损失函数联合优化了内容规划和表层实现模型,结合了以下目标函数:

•句子级词袋规划损失函数()

•交叉熵损失函数()

•对比学习损失函数()

0485c96e-118e-11ed-ba43-dac502259ad0.png

其中α和β被为超参数。

实验

在论点生成和观点文章生成任务上进行了实验。实验结果证明了方法在两种任务上都有提升。

0498794c-118e-11ed-ba43-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43782

    浏览量

    230562
  • PLM
    PLM
    +关注

    关注

    2

    文章

    85

    浏览量

    20722
  • 文本
    +关注

    关注

    0

    文章

    118

    浏览量

    16918

原文标题:ACL2022 | 文本生成的相关前沿进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    快速全面了解大模型长文本能力

    那关于LLM的长文本能力,目前业界通常都是怎么做的?有哪些技术点或者方向?今天我们就来总结一波,供大家快速全面了解。
    发表于 02-22 14:04 277次阅读
    快速全面了解大模型<b class='flag-5'>长文本</b>能力

    深入探索知名大模型的实际应用

    2023 年,国内外各大厂商均投身于大模型的浪潮当中,涌现了诸多知名的大模型及应用,它们结合了文本、图片、视频、音频多种介质,在文本生成、图片生成、AI 编程等方向均有出色的表现。
    发表于 01-29 13:47 189次阅读
    深入探索知名大模型的实际应用

    高级检索增强生成技术(RAG)全面指南

    ChatGPT、Midjourney等生成式人工智能(GenAI)在文本生成文本到图像生成等任务中表现出令人印象深刻的性能。
    的头像 发表于 12-25 15:16 2071次阅读
    高级检索增强<b class='flag-5'>生成</b>技术(RAG)全面指南

    php生成动态网页内容的方法

    。与静态网页相比,动态网页可以根据特定条件生成不同的内容。 PHP的基本概念和语法 PHP是一种服务器端脚本语言,它可以嵌入到HTML中。PHP文件通常以.php扩展名保存,并且在服务器上执行。 PHP使用简单的语法和
    的头像 发表于 12-04 16:22 342次阅读

    LLM在生成摘要方面效果到底如何?

    文本摘要,作为自然语言生成(NLG)中的一项任务,主要用来将一大段长文本压缩为简短的摘要,例如新闻文章、源代码和跨语言文本等多种内容都能用到
    发表于 09-21 11:34 323次阅读
    LLM在<b class='flag-5'>生成</b>摘要方面效果到底如何?

    Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

    今天,Meta发布了Code Llama,一款可以使用文本提示生成代码的大型语言模型(LLM)。
    的头像 发表于 08-25 09:06 943次阅读
    Meta发布一款可以使用<b class='flag-5'>文本</b>提示<b class='flag-5'>生成</b>代码的大型语言模型Code Llama

    通过循环训练实现忠实的低资源数据文本生成

    从结构化数据中自然语言生成(NLG)往往会产生多种错误,从而限制了这些模型在面向客户的应用中的实用性。当NLG 模型在生成的输出文本时注入与输入结构化数据无关的无意义词语或信息就会产生幻觉。
    的头像 发表于 08-24 14:53 264次阅读
    通过循环训练实现忠实的低资源数据<b class='flag-5'>文本生成</b>

    84.7 8 文本生成实战之采样生成文本 #硬声创作季

    代码应用程序
    充八万
    发布于 :2023年07月20日 22:25:59

    面向结构化数据的文本生成技术研究

    今天我们要讲的文本生成是现在最流行的研究领域之一。文本生成的目标是让计算机像人类一样学会表达,目前看基本上接近实现。这些突然的技术涌现,使得计算机能够撰写出高质量的自然文本,满足特定的需求。
    的头像 发表于 06-26 14:39 343次阅读
    面向结构化数据的<b class='flag-5'>文本生成</b>技术研究

    基于文本到图像模型的可控文本到视频生成

    文本到视频模型需要大量高质量的视频和计算资源,这限制了相关社区进一步的研究和应用。为了减少过度的训练要求,我们研究了一种新的高效形式:基于文本到图像模型的可控文本到视频生成。这个任务
    的头像 发表于 06-14 10:39 578次阅读
    基于<b class='flag-5'>文本</b>到图像模型的可控<b class='flag-5'>文本</b>到视频<b class='flag-5'>生成</b>

    Meta开源文本如何生成音乐大模型

    年初,谷歌推出了音乐生成大模型 MusicLM,效果非常不错。有人称这比大火的 ChatGPT 还重要,几乎解决了音乐生成问题。近日,Meta 也推出了自己的文本音乐生成模型 Musi
    的头像 发表于 06-12 15:11 542次阅读
    Meta开源<b class='flag-5'>文本</b>如何<b class='flag-5'>生成</b>音乐大模型

    微软提出Control-GPT:用GPT-4实现可控文本到图像生成

    该研究提出了一个简单而有效的框架 Control-GPT,它利用 LLM 的强大功能根据文本 prompt 生成草图。Control-GPT 的工作原理是首先使用 GPT-4 生成 T
    的头像 发表于 06-05 15:31 483次阅读
    微软提出Control-GPT:用GPT-4实现可控<b class='flag-5'>文本</b>到图像<b class='flag-5'>生成</b>!

    ETH提出RecurrentGPT实现交互式超长文本生成

    RecurrentGPT 则另辟蹊径,是利用大语言模型进行交互式长文本生成的首个成功实践。它利用 ChatGPT 等大语言模型理解自然语言指令的能力,通过自然语言模拟了循环神经网络(RNNs)的循环计算机制。
    的头像 发表于 05-29 14:34 605次阅读
    ETH提出RecurrentGPT实现交互式超<b class='flag-5'>长文本生成</b>

    什么是生成式AI?生成式AI的四大优势

    生成式AI是一种特定类型的AI,专注于生成内容,如文本、图像和音乐。这些系统在大型数据集上进行训练,并使用机器学习算法生成与训练数据相似的
    发表于 05-29 14:12 2681次阅读

    清华朱军团队提出ProlificDreamer:直接文本生成高质量3D内容

    将 Imagen 生成的照片(下图静态图)和 ProlificDreamer(基于 Stable-Diffusion)生成的 3D(下图动态图)进行对比。有网友感慨:短短一年时间,高质
    的头像 发表于 05-29 10:02 612次阅读
    清华朱军团队提出ProlificDreamer:直接<b class='flag-5'>文本生成</b>高质量3D<b class='flag-5'>内容</b>