0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于prompt和对比学习的句子表征学习模型

深度学习自然语言处理 来源:CSDN 作者:王嘉宁 2022-10-25 09:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

虽然BERT等语言模型有很大的成果,但在对句子表征方面(sentence embeddings)上表现依然不佳,因为BERT存在 sentence bias anisotropy 问题;

我们发现prompt,再给定不同的template时可以生成不同方面的positive pair,且避免embedding bias。

相关工作

Contrastive Learning(对比学习) 可以利用BERT更好地学习句子表征。其重点在于如何寻找正负样本。例如,使用inner dropout方法构建正样本。

现有的研究表明,BERT的句向量存在一个 坍缩现象 ,也就是句向量受到高频词的影响,进而坍缩在一个凸锥,也就是各向异性,这个性质导致度量句子相似性的时候存在一定的问题,这也就是 anisotropy 问题。

发现

(1)Original BERT layers fail to improve the performance.

对比两种不同的sentence embedding方法:

对BERT的输入input embedding进行平均;

对BERT的输出(last layer)进行平均

评价两种sentence embedding的效果,采用sentence level anisotropy评价指标:

anisotropy :将corpus里面的sentence,两两计算余弦相似度,求平均。

对比了不同的语言模型,预实验如下所示:

0ee90dc0-5398-11ed-a3b6-dac502259ad0.png

从上表可以看出,貌似anisotropy对应的spearman系数比较低,说明相关性不大。比如bert-base-uncased,

可以看出static token embedding的anisotropy很大,但是最终的效果也差不多。

(2)Embedding biases harms the sentence embeddings performance.

token embedding会同时受到token frequency和word piece影响

0f096a5c-5398-11ed-a3b6-dac502259ad0.png

不同的语言模型的token embedding高度受到词频、subword的影响;

通过可视化2D图,高频词通常会聚在一起,低频词则会分散

For frequency bias, we can observe that high fre- quency tokens are clustered, while low frequency tokens are dispersed sparsely in all models (Yan et al., 2021). The begin-of-word tokens are more vulnerable to frequency than subword tokens in BERT. However, the subword tokens are more vul- nerable in RoBERTa.

三、方法

如何避免BERT在表征句子时出现上述提到的问题,本文提出使用Prompt来捕捉句子表征。但不同于先前prompt的应用(分类或生成),我们并不是获得句子的标签,而是获得句子的向量,因此关于prompt-based sentence embedding,需要考虑两个问题:

如何使用prompt表征一个句子;

如何寻找恰当的prompt;

本文提出一种基于prompt和对比学习的句子表征学习模型。

3.1 如何使用prompt表征一个句子

本文设计一个template,例如“[X] means [MASK]”,[X] 表示一个placehoder,对应一个句子,[MASK]则表示待预测的token。给定一个句子,并转换为prompt后喂入BERT中。有两种方法获得该句子embedding:

方法一:直接使用[MASK]对应的隐状态向量:;

方法二:使用MLM在[MASK]位置预测topK个词,根据每个词预测的概率,对每个词的word embedding进行加权求和来表示该句子:

方法二将句子使用若干个MLM生成的token来表示,依然存在bias,因此本文只采用第一种方法

3.2 如何寻找恰当的prompt

关于prompt设计上,可以采用如下三种方法:

manual design:显式设计离散的template;

使用T5模型生成;

OptiPrompt:将离散的template转换为continuous template;

11cca4c0-5398-11ed-a3b6-dac502259ad0.png

3.3 训练

采用对比学习方法,对比学习中关于positive的选择很重要,一种方法是采用dropout。本文采用prompt方法,为同一个句子生成多种不同的template,以此可以获得多个不同的positive embedding。

The idea is using the different templates to repre- sent the same sentence as different points of view, which helps model to produce more reasonable pos- itive pairs.
为了避免template本身对句子产生语义上的偏向。作者采用一种trick:

喂入含有template的句子,获得[MASK]对应的embedding ;

只喂入template本身,且template的token的position id保留其在原始输入的位置,此时获得[MASK]对应的embeding:

最后套入对比学习loss中进行训练:

四、实验

作者在多个文本相似度任务上进行了测试,实验结果如图所示:

11ee8694-5398-11ed-a3b6-dac502259ad0.png

1215b084-5398-11ed-a3b6-dac502259ad0.png


惊奇的发现,PromptBERT某些时候竟然比SimCSE高,作者也提出使用对比学习,也许是基于SimCSE之上精细微调后的结果。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11255

原文标题:Prompt+对比学习,更好地学习句子表征

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一种改进的句子相似度计算模型

    在基于实例的机器翻译中,句子相似度计算是实例匹配的有效机制。该文对基于相同词的句子相似模型作进步的改进,包括关键词抽取,以及在句子相似度的
    发表于 11-20 15:18 9次下载

    基于分层组合模式的句子组合模型

    和短语向量组成的三元组来训练个神经网络模型;然后,通过训练好的神经网络模型来组合句子向量(两组合方法:
    发表于 12-01 13:38 0次下载
    基于分层组合模式的<b class='flag-5'>句子</b>组合<b class='flag-5'>模型</b>

    一种新的目标分类特征深度学习模型

    为提高低配置计算环境中的视觉目标实时在线分类特征提取的时效性和分类准确率,提出一种新的目标分类特征深度学习模型。根据高时效性要求,选用分类器模型离线深度
    发表于 03-20 17:30 0次下载
    <b class='flag-5'>一种</b>新的目标分类特征深度<b class='flag-5'>学习</b><b class='flag-5'>模型</b>

    深度学习模型介绍,Attention机制和其它改进

    al. 于2016年提出了PCNNs+Attention(APCNNs)算法。相比之前的PCNNs模型,该算法在池化层之后,softmax层之前加入了一种基于句子级别的attention机制,算法的示意图如下:
    的头像 发表于 03-22 15:41 1.9w次阅读
    深度<b class='flag-5'>学习</b><b class='flag-5'>模型</b>介绍,Attention机制和其它改进

    语义表征的无监督对比学习个新理论框架

    首先,是否存在良好且广泛适用的表征呢?在计算机视觉等领域,答案是肯定的,因为深度卷积神经网络 (CNN) 在大型含多类别标签数据集 (如 ImageNet) 上以高精度训练时,最终会学习得到非常强大而简洁的表征信息。
    的头像 发表于 04-04 17:41 3345次阅读
    语义<b class='flag-5'>表征</b>的无监督<b class='flag-5'>对比</b><b class='flag-5'>学习</b>:<b class='flag-5'>一</b>个新理论框架

    一种新型的AI模型可以提升学生的学习能力

    研究人员设计了一种人工智能(AI)模型,该模型可以更好地预测教育游戏中学生的学习量。改进后的模型利用了称为多任务
    发表于 04-27 16:12 1933次阅读

    一种注意力增强的自然语言推理模型aESIM

    在自然语言处理任务中使用注意力机制可准确衡量单词重要度。为此,提出一种注意力增强的自然语言推理模型aESM。将词注意力层以及自适应方向权重层添加到ESIM模型的双向LSTM网络中,从而更有效地
    发表于 03-25 11:34 9次下载
    <b class='flag-5'>一种</b>注意力增强的自然语言推理<b class='flag-5'>模型</b>aESIM

    一种基于间隔准则的多标记学习算法

    针对多标记学习分类问题,算法适应方法将其转化为排序问题,并将输出标记按照其与示例的相关性进行排序,该类方法取得了较好的分类效果。基于间隔准则提出一种多标记学习算法,通过优化模型在示例的
    发表于 03-26 11:33 9次下载

    一种可分享数据和机器学习模型的区块链

    作为一种可用于分享数据和机器学习模型的区抉链,基于骨架网络训练神经网络模型,以全网节点匿名分享的数据作为训练模型的数据集,实现了不依赖第三方
    发表于 04-14 16:09 15次下载
    <b class='flag-5'>一种</b>可分享数据和机器<b class='flag-5'>学习</b><b class='flag-5'>模型</b>的区块链

    一种基于排序学习的软件众包任务推荐方法

    为了更有效地实现软件众包任务推荐,提升软件开发质量,为工人推荐合适的任务,降低工人利益受损风险,以达到工人和众包平台双赢的效果,设计了一种基于排序学习的软件众包任务推荐方法。首先,基于改进的隐语
    发表于 04-23 11:13 4次下载
    <b class='flag-5'>一种</b>基于排序<b class='flag-5'>学习</b>的软件众包任务推荐方法

    一种基于Q学习算法的增量分类模型

    大数据时代的数据信息呈现持续性、爆炸性的増长,为杋器学习算法带来了大量监督样本。然而,这对信息通常不是次性获得的,且获得的数据标记是不准确的,这对传统的分类模型提岀了挑战,而増量学习一种
    发表于 05-13 14:17 3次下载

    结合句子间差异的无监督句子嵌入对比学习方法-DiffCSE

    句向量表征技术目前已经通过对比学习获取了很好的效果。而对比学习的宗旨就是拉近相似数据,推开不相似数据,有效地
    的头像 发表于 05-05 11:35 1855次阅读

    对比学习中的4典型范式的应用分析

    对比学习是无监督表示学习一种非常有效的方法,核心思路是训练query和key的Encoder,让这个Encoder对相匹配的query和key生成的编码距离接近,不匹配的编码距离远。
    的头像 发表于 07-08 11:03 2858次阅读

    如何通过多模态对比学习增强句子特征学习

    视觉作为人类感知体验的核心部分,已被证明在建立语言模型和提高各种NLP任务的性能方面是有效的。作者认为视觉作为辅助语义信息可以进步促进句子表征学习
    的头像 发表于 09-21 10:06 2087次阅读

    机器学习与数据挖掘的对比与区别

    。 机器学习和数据挖掘是对相互关联的领域。它们都是理解数据、建立模型和提取知识的工具,但目标和方法有所不同。在这篇文章中,我们将比较机器学习与数据挖掘,并讨论它们之间的区别和联系。
    的头像 发表于 08-17 16:11 2246次阅读