0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软在EMNLP2020上发表最新工作

深度学习自然语言处理 来源:NLPCAB 作者:NLPCAB 2020-10-22 11:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自:NLPCAB

句子表示在很多任务中都是重要的一环。尤其是在大数据量的场景下,很多场景都需要召回+排序两个步骤,如果第一个环节没有召回候选结果,那最后的排序模型再怎么优秀也没法给出正确答案。

今天就给大家介绍一个微软在EMNLP2020上发表的最新工作,利用transformer生成更高质量的句子编码。

虽然BERT式模型的出现解决了很多判别问题,但直接用无监督语料训练出的BERT做句子表示并不理想:

如果只取CLS,这个表示是针对NSP进行优化的,表示的信息有限

如果取平均或最大池化,可能会把无用信息计算进来,增加噪声

所以作者的改进目的是设计一个下游任务,直接优化得到的句子embedding。

那怎么设计目标才能充分利用无监督数据呢?

作者给出了一个巧妙的方法,就是用周边其他句子的表示预测当前句子的token。

具体的做法是:先利用Transformer抽取句子表示,再对句子表示进行attention,选取相关的句子预测当前token。有点Hierarchical Attention的意思。

比如在预测上图中最后一句的黄蓝两个token时,明显第一句的信息就够用了,那目标函数的设置会让第一句的权重变大,也会让抽取出的句子表示去包含这些信息。

接下来详细介绍一下预训练和精调的步骤,以及作者加入的其他tricks。

Cross-Thought模型

预训练

下图是预训练的模型结构,计算的步骤是:

将段落按顺序拆成独立短句,通过12层Transformer(蓝色半透明的矩形)分别进行编码。在实际的预训练中,每个sample包含500个长度为64的短句,batch size是128(16张V100)

取出 ... 等special token的输出(大红点)作为句子表示

把每列句子表示作为一个序列输入到cross-sequence transformer(蓝色弧线,每一列的cross-sequence transformer参数都不同),输出attention分数加权后的新表示

将新的句子表示与第一步的token表示进行拼接,经过一层transformer,预测被mask的15%个token(每个句子都这么处理,图中只画了第一个句子的)

整体流程理解起来比较简单,作者还用了一些额外的tricks提升效果:

为了抽取更多的信息,在句子开头加入了多个占位token(之前BERT只有一个[CLS]),在实验结论中发现5个占位的表现较好(但占位token的增加会加大计算量)

占位token的位置表示是固定的,而真实token是随机从0-564中抽取连续的64个,这样可以训练更多的位置表示,方便之后对更长的序列进行编码

精调

精调主要是考虑和下游任务的衔接。作者选择了问答和句子对分类来验证模型的表现。

对于问答任务,假设答案句子的表示都已经编码好了:

输入问题,经过12层Transformer得到问题表示

利用cross-sequence transformers,对问题表示与答案表示进行计算,得到各个答案的权重 (每列都会得到一个,作者对所有列取了平均)

根据gold answer的index m,计算Ranking loss(代表第0个答案的权重)

对于句子对分类任务比较简洁,输入两个句子A和B:

分别对A和B进行编码,取出句子表示,输入cross-sequence transformers得到融合后的句子表示

将两个句子的所有表示拼接起来,得到2Nxd的矩阵(N是占位token的个数,d是表示的维度)

把第二步得到的表示flatten,得到一个长度 2Nd 的一维向量,输入到分类层

实验效果

作者在不少数据集上都验证了效果,单纯从输出句子表示的效果来看,不仅是句间关系还是问答的候选召回上都有不小的提升,尤其是召回:

除了指标对比外,作者还展示了两个无监督预训练模型的打分结果:

总结

近两年句子表示的研究越来越少了,因为句子表示经常用于句间关系判断的任务,而交互式的判别显然比双塔效果要好。所以研究者们要不在研究更轻量的句间匹配模型(比如RE2、Deformer),要不就是继续用BERT类模型做出更好的效果。但对于业界来说,句子表示在召回上的速度还是最快的,效果也比单纯的字面匹配要好。

为了充分利用无监督数据、得到更高质量的句子表示,Cross-Thought提供了一个新的预训练思路:用句子表示预测token。同时也给我们展现出了它在候选召回上的巨大潜力,添加的额外cross-sequence transformer对速度的影响也不会太大。另外,作者只使用了wiki语料进行预训练,如果有更多语料相信效果会更好。

目前源码还未放出,希望开源社区的富有大佬们早日训一个中文的Cross-Thought~

原文标题:【EMNLP2020】超越MLM,微软打造全新预训练任务

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107340
  • 函数
    +关注

    关注

    3

    文章

    4406

    浏览量

    66829

原文标题:【EMNLP2020】超越MLM,微软打造全新预训练任务

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云知声论文入选自然语言处理顶会EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(EMNLP 2025)公布论文录用结果,云知声提交的《面向门诊病历生成的高质量医患对话合成技术
    的头像 发表于 11-10 17:30 513次阅读
    云知声论文入选自然语言处理顶会<b class='flag-5'>EMNLP</b> 2025

    沐曦联合香港科技大学登上AI顶会

    近日,沐曦PDE-AI Solution团队与香港科技大学合作,两大人工智能顶级会议NeurIPS2025与EMNLP 2025发表重要研究成果,涵盖大语言模型(LLM)的多样化解
    的头像 发表于 10-14 09:46 925次阅读

    机智云出席新的社会阶层人士科技创新工作推进会

    近日,由广东省委统战部、广州市委统战部指导,广州大学、广东省新的社会阶层人士联合会、广州市新的社会阶层人士联谊会联合主办的“新力建功·科创赋能”新的社会阶层人士科技创新工作推进会暨IEEE机电一体化与计算机技术工程国际学术会议广州举行。
    的头像 发表于 09-04 15:31 466次阅读

    深开鸿与深信大共建“教师工程实践与创新工作站”,共育开源鸿蒙生态人才

    完成签约。仪式,许志良副校长代表深信大向深开鸿授予“教师工程实践与创新工作站”牌匾,标志着校企合作进入实质推进阶段,为后续产学研深度融合与项目落地奠定了坚实基础。
    的头像 发表于 08-27 16:26 752次阅读
    深开鸿与深信大共建“教师工程实践与创<b class='flag-5'>新工作</b>站”,共育开源鸿蒙生态人才

    EtherCAT转CANopen网关与伺服器汇川组态软件的配置步骤

    EtherCAT转CANopen网关与伺服器汇川组态软件的配置步骤 汇川组态软件工业自动化领域具有广泛的应用,该软件能够有效地实现EtherCAT转CANopen网关与伺服器的集成配置
    的头像 发表于 06-12 10:06 809次阅读
    EtherCAT转CANopen网关与伺服器<b class='flag-5'>在</b>汇川组态软件<b class='flag-5'>上</b>的配置步骤

    Arm携手微软共筑云计算和PC未来

    计算平台并从中受益。无论是 Microsoft Azure 的云端还是 Windows on Arm PC 的边缘侧,开发者可以在任何地方加速其应用和工作负载。
    的头像 发表于 05-28 14:08 742次阅读

    Arm与微软合作加速边缘设备的AI体验

    随着人工智能 (AI) 成为当今个人电脑 (PC) 和移动设备使用体验(从聊天机器人到生产力提升)中不可或缺的一部分,这些设备对 CPU 高效、可扩展的推理需求也持续增长。Arm 与微软正携手合作
    的头像 发表于 05-28 13:54 671次阅读

    微软科技重磅发布两款企业级AI应用

    和智能体功能,旨在借助AI技术革新工作效率,助力企业的智能化转型。新增功能涵盖了定制化智能体、销售自动化、客户服务集成和ERP创新等。
    的头像 发表于 05-12 15:32 940次阅读

    晶科能源受邀担任B20南非工业转型与创新工作组联席主席

    日前,作为唯一光伏企业,晶科能源受邀担任B20南非“工业转型与创新工作组”的联席主席。B20是G20的官方工商论坛,汇集了全球工商界塑造国际经济政策方面的建言献策,以推动可持续和包容性增长。
    的头像 发表于 04-21 17:44 692次阅读

    无人机消防巡检的新工作日志

           无人机消防巡检的新工作日志        二十层楼高的写字楼外墙,盘旋着四个旋翼的银色飞行器。它沿着建筑轮廓匀速移动,镜头对准每扇窗户仔细扫描。这并非科幻电影场景,而是现代城市里每天
    的头像 发表于 03-10 17:34 614次阅读

    微软发布量子计算芯片Majorana 1,密谋17年就这?

    电子发烧友网报道(文 / 吴子鹏)当地时间本周三(2 月 20 日),微软公司宣布推出其首款量子计算芯片,命名为 Majorana 1。微软《自然》杂志
    的头像 发表于 02-21 00:05 2546次阅读
    <b class='flag-5'>微软</b>发布量子计算芯片Majorana 1,密谋17年就这?

    龙芯中科荣获2024年度信息技术应用创新工作委员会卓越贡献成员单位

    近日,中国电子工业标准化技术协会信息技术应用创新工作委员会(以下简称“信创工委会”)北京召开2024年度工作总结座谈会暨信创“大比武”总结大会。中国工程院院士、信创工委会专家技术委员会副主任委员倪
    的头像 发表于 01-23 10:50 981次阅读

    RT-Thread睿赛德出席中国工博会科技论坛,共话开源硬件与新工业革命

    行业领袖和技术专家,共同探讨开源硬件推动新工业革命中的重要作用。RT-Thread睿赛德作为上海开源信息技术协会理事长单位出席本次论坛,并发表主题演讲。RT-Th
    的头像 发表于 01-22 18:53 884次阅读
    RT-Thread睿赛德出席中国工博会科技论坛,共话开源硬件与<b class='flag-5'>新工</b>业革命

    芯盛智能荣获2024年信息技术应用创新工作委员会卓越贡献成员单位

    日前,中国电子工业标准化技术协会信息技术应用创新工作委员会(以下简称 “信创工委会”)2024 年度总结座谈会于北京隆重举行。此次会议对信创工作中作出突出贡献的成员单位予以表彰。江苏芯盛智能
    的头像 发表于 01-20 09:56 927次阅读

    微软寻求365 Copilot中引入非OpenAI模型

    担心企业用户使用365 Copilot时面临的成本和速度问题,因此正在寻求更多样化的技术来源。尽管微软与OpenAI之间有着紧密的合作关系,并允许微软定制OpenAI的模型,但微软
    的头像 发表于 12-25 10:41 833次阅读