0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在Prompt Learning下引入外部知识达到好文本分类效果

深度学习自然语言处理 来源:夕小瑶的卖萌屋 作者:小伟 2022-07-08 11:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

背景

利用Prompt Learning(提示学习)进行文本分类任务是一种新兴的利用预训练语言模型的方式。在提示学习中,我们需要一个标签词映射(verbalizer),将[MASK]位置上对于词表中词汇的预测转化成分类标签。例如{POLITICS: "politics", SPORTS: "sports"} 这个映射下,预训练模型在[MASK]位置对于politics/sports这个标签词的预测分数会被当成是对POLITICS/SPORTS这个标签的预测分数。

手工定义或自动搜索得到的verbalizer有主观性强覆盖面小等缺点,我们使用了知识库来进行标签词的扩展和改善,取得了更好的文本分类效果。同时也为如何在Prompt Learning下引入外部知识提供了参考。

方法

我们提出使用知识库扩展标签词,通过例如相关词词表,情感词典等工具,基于手工定义的初始标签词进行扩展。例如,可以将{POLITICS: "politics", SPORTS: "sports"} 扩展为以下的一些词:

bd18025a-ed60-11ec-ba43-dac502259ad0.png

表1: 基于知识库扩展出的标签词。

bd25f252-ed60-11ec-ba43-dac502259ad0.png

图1: 以问题分类任务为例的KPT流程图。

之后我们可以通过一个多对一映射将多个词上的预测概率映射到某个标签上。

但是由于知识库不是为预训练模型量身定做的,使用知识库扩展出的标签词具有很大噪音。例如SPORTS扩展出的movement可能和POLITICS相关性很大,从而引起混淆;又或者POLITICS扩展出的machiavellian(为夺取权力而不择手段的)则可能由于词频很低不容易被预测到,甚至被拆解成多个token而不具有词语本身的意思。

因此我们提出了三种精调以及一种校准的方法。

01

频率精调

我们利用预训练模型M本身对于标签词v的输出概率当成标签词的先验概率,用来估计标签词的先验出现频率。我们把频率较小的标签词去掉。

bd379138-ed60-11ec-ba43-dac502259ad0.png

公式1: 频率精调。C代表语料库。

02

相关性精调

有的标签词和标签相关性不大,有些标签词会同时和不同标签发生混淆。我们利用TF-IDF的思想来赋予每个标签词一个对于特定类别的重要性。

bd427238-ed60-11ec-ba43-dac502259ad0.png

公式2: 相关性精调,r(v,y)是一个标签词v和标签y的相关性,类似于TF项。右边一项则类似IDF项,我们要求这一项大也就是要求v和其非对应类相关性小。

03

可学习精调

在少样本实验中,我们可以为每个标签词赋予一个可学习的权重,因此每个标签词的重要性就变成:

bd4dc138-ed60-11ec-ba43-dac502259ad0.png

公式3:可学习的标签词权重。

04

基于上下文的校准

在零样本实验中不同标签词的先验概率可能差得很多,例如预测 basketball可能天然比fencing大,会使得很多小众标签词影响甚微。我们使用校准的方式来平衡这种影响。

bd5be0a6-ed60-11ec-ba43-dac502259ad0.png

公式4: 基于上下文的校准,分母是公式1中的先验概率。

使用上以上这些精调方法,我们知识库扩展的标签词就能有效使用了。

实验

bd6714d0-ed60-11ec-ba43-dac502259ad0.png

表2:零样本文本分类任务。

如表2所示,零样本上相比于普通的Prompt模板,性能有15个点的大幅长进。相比于加上了标签词精调的也最多能有8个点的提高。我们提出的频率精调,相关性精调等也各有用处。

bd73cfcc-ed60-11ec-ba43-dac502259ad0.png

表3:少样本文本分类任务。

如表3所示,在少样本上我们提出的可学习精调搭配上相关性精调也有较大提升。AUTO和SOFT都是自动的标签词优化方法,其中SOFT以人工定义的标签词做初始化,可以看到这两种方法的效果都不如KPT。

bd83242c-ed60-11ec-ba43-dac502259ad0.png

图2: SPORTS和BUSINESS类的知识库扩展的标签词对于预测的贡献。

标签词的可视化表明,每一条句子可能会依赖不同的标签词进行预测,完成了我们增加覆盖面的预期。

总结

最近比较受关注的Prompt Learning方向,除了template的设计,verbalizer的设计也是弥补MLM和下游分类任务的重要环节。我们提出的基于知识库的扩展,直观有效。同时也为如何在预训练模型的的利用中引入外部知识提供了一些参考。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 频率
    +关注

    关注

    4

    文章

    1581

    浏览量

    61721
  • 知识库
    +关注

    关注

    0

    文章

    15

    浏览量

    6818

原文标题:ACL2022 | KPT: 文本分类中融入知识的Prompt Verbalizer

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    科技品牌的2026必修课:如何在CES Asia2026北京消费电子展上实现预算与效果的最优解?

    科技品牌的2026必修课:如何在CES Asia2026北京消费电子展上实现预算与效果的最优解?
    的头像 发表于 12-02 10:57 182次阅读

    在标准库配置的stm32f103x的spi在引入rtthread后收发的消息就错了,为什么?

    我在标准库配置的stm32f103x的spi在引入rtthread后收发的消息就错了,引入之前没问题,请问这是啥情况
    发表于 10-13 08:07

    我如何用Prompt工程将大模型调教成风控专家

    作为一个交易风控的算法工程师,在日常工作中,我常常与海量的数据和复杂的模型打交道,试图在看似平静的水面,捕捉那些隐藏的风险暗流。最近,我尝试将大语言模型(LLM)引入到我的工作流中,这段经历充满了
    的头像 发表于 09-08 14:22 289次阅读
    我如何用<b class='flag-5'>Prompt</b>工程将大模型调教成风控专家

    iXMC1404如何在XMC1400 SL上启用外部20 MHz晶振?

    : 微控制器变得无响应。 代码似乎无法正确上传。 DAVE™中看不到内存分配。 我怀疑该问题与外部振荡器设置或时钟配置有关。有人可以指导我吗: 如何在 XMC1400 SL 上正确启用外部晶体振荡器(20
    发表于 07-14 07:59

    《仿盒马》app开发技术分享-- 分类模块顶部导航列表弹窗(16)

    的index传递进去,选中状态要保持同步。同时在弹窗内选择分类外部列表也要同步切换,并且每次切换都要在list允许居中的情况实现选中的item居中。 代码实现 首先实现弹窗的创建数据的传入,和选择后
    发表于 06-30 10:34

    B10 BMS技术知识初探(上、

    课程名称: BMS技术知识初探课程目标: 可充电电池已是人们生活中不可缺少的组成部分,基于电池技术为基础的电动汽车、储能行业,更是新能源发展的重要标志。而BMS技术是电池安全的重要保障,是电池安全
    发表于 05-02 11:04

    何在热敏打印机中实现图片的灰阶打印效果吗?

    谁知道如何在热敏打印机中实现图片的灰阶打印效果。 现在基本上文字打印,图片打印功能都已开发结束,图片打印现在用的是点阵打印的方法。想增加灰阶打印的效果。 有哪个大神做过相关方面开发,知道如何实现的吗?
    发表于 04-03 08:40

    效果器的基础知识

    电子发烧友网站提供《效果器的基础知识.doc》资料免费下载
    发表于 03-26 14:30 6次下载

    《AI Agent 应用与项目实战》阅读心得3——RAG架构与部署本地知识

    则将检索到的内容与原始查询结合,生成最终响应。这种设计使得AI系统能够突破训练数据的限制,实现知识的动态更新。书中详细介绍了RAG的完整工作流程:从数据提取开始,通过文本分割将长文档切分成适当大小
    发表于 03-07 19:49

    在Video Mode,DLP6500稳定的帧频能达到多少呢?

    Video Mode,DLP6500稳定的帧频能达到多少呢? DLP9000呢? 外部输入(External Input)这个又是怎么实现的?如果用外部输入,稳定的帧频能
    发表于 03-03 08:30

    DLPNIRNANOEVM按照官方文档编译好文件以后,如何烧录进去?

    按照官方文档编译好文件以后,如何烧录进去
    发表于 02-24 08:51

    英特尔代工或引入多家外部股东

    据台湾媒体报道,英特尔代工业务可能迎来重大变革,计划引入包括台积电、高通、博通在内的多家外部股东。此举旨在提升美国本土先进半导体代工服务的竞争活力,进一步推动产业发展。 报道指出,高通和博通计划
    的头像 发表于 02-18 10:45 993次阅读

    渊亭KGAG升级引入“高级策略推理”

    为了突破现有AI技术在决策推理方面的局限,渊亭科技对其知识图谱分析平台KGAG进行了最新升级,创新性地引入了“高级策略推理”模式。这一模式的引入,实现了“大模型×知识图谱×专家策略×动
    的头像 发表于 02-14 15:07 806次阅读

    何在PCB上通过器件选择和布线达到降低噪声的目的?

    何在PCB上通过器件选择和布线达到降低噪声的目的?
    发表于 02-14 07:16

    AMC7834只使用外部4个ADC,怎么配置可以使转换速率达到最快?

    1.只使用外部4个ADC,怎么配置可以使转换速率达到最快?最快情况,进行一次装换ADC1,ADC2,ADC3,ADC4采样点的时间间隔是多少?(我们设置的是单次触发模式) 2.DAV功能配置后
    发表于 12-23 06:51