应用于任意预训练模型的prompt learning模型

最近又出了个比较吸引人眼球的Prompt Learning，甚至该方法还被称之为NLP的“第四范式”，具体有哪几项请参考以下链接：

综述文章：https://arxiv.org/pdf/2107.13586.pdf

相关资源：http://pretrain.nlpedia.ai

Part1什么是Prompt Learning

从BERT诞生开始，使用下游任务数据微调预训练语言模型（LM）已成为 NLP 领域的通用做法。直到GPT-3模型首先将自然语言的提示信息（prompt）和任务示例（demonstration）作为上下文输入给GPT-3，使得GPT-3只需要少数的几个样本，不需要训练底层的参数便能够处理任务。应该是受到这一做法的启发，目前很多研究聚焦在Prompt Learning上，只为了更好的激发语言模型的潜能。

在了解Prompt Learning之前，首先我们要知道什么是prompt。prompt是提示的意思，也就是说需要提示模型我们想让它干什么。通常在GPT-3中，我们输入一段描述，再加上“翻译”或者“问答”的prompt，那么GPT-3会生成相应的结果。

最近该玩法在NLU中也得到了应用，比如情感分类任务，给定一句话“I missed the bus today.”，在其之后添加一个prompt：“I felt so __”，之后让语言模型用一个情感类的词进行完型填空，再将填空的词语映射到标签，这样一来就能够解决分类任务了。

大家发现没有，这样一来减少了训练和测试阶段之间的gap，因为我们在预训练的时候使用的MLM任务就是一个完型填空任务，通常使用分类任务fine-tuning模型的时候需要加一个hidden_size * label_size的FFN，还得专门去训练这个FFN的参数。但是如果使用Prompt Learning的方式，就省略了这一步了。这样一来岂不是不用花大力气训练模型了？哈哈是的，很多研究证明Prompt Learning在小样本（few-shot）场景下很有效。

Part2Few-shot Learner

论文标题：Making Pre-trained Language Models Better Few-shot Learners

论文来源：ACL2021

论文链接：https://arxiv.org/pdf/2012.15723.pdf

论文代码：https://github.com/princeton-nlp/LM-BFF

本文主要有两个贡献点：

（1）基于提示（prompt）进行微调，关键是如何自动化生成提示模板；

（2）将样本示例以上下文的形式添加到每个输入中，关键是如何对示例进行采样；

1prompt-based fine-tuning

之前说过GPT-3模型基于prompt生成文本。受到该启发本文提出了一种可以应用于任意预训练模型的prompt learning模型——LM-BFF（小样本微调预训练模型）。

从上图可以看出在预训练的时候使用的MLM任务就是一个完型填空任务，在分类任务中微调的时候需要加一个hidden_size * label_size的FFN，微调的过程需要训练这个FFN的参数。在使用Prompt Learning的方式的时候省略了这一步。这样一来就不用花大力气训练模型了，而且该方法减少了训练和测试阶段之间的gap，在小样本（few-shot）场景下很有效。

在具体的实验过程中，作者发现使用不同的模板或不同的标签词进行微调得到的效果是不同的，如下图所示：