0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于多视图协作学习的人岗匹配研究论文提要

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-11-05 09:32 次阅读

近日,第29届国际计算机学会信息与知识管理大会(CIKM 2020)在线上召开,CIKM是CCF推荐的B类国际学术会议,是信息检索和数据挖掘领域顶级学术会议之一。

本届CIKM会议共收到920篇论文投稿,其中录用论文193篇,录取率约为21%。 而在众多论文当中,一篇BOSS直聘和中国人民大学联合发表的基于多视图协作学习的人岗匹配研究吸引了我们的注意力。

论文题目:《Learning to Match Jobs with Resumes from Sparse Interaction Data using Multi-View Co-Teaching Network》。 论文链接:https://arxiv.org/abs/2009.13299 本论文针对求职者和招聘方的交互行为数据稀疏且带有噪声这一场景,基于多视图协作学习,提出了一个新型匹配模型。 新型模型相比以往模型,增加了基于关系的匹配模块,且将两个匹配模块融合进行协作训练,优化了该场景下的人岗匹配效率。 CIKM大会评审反馈,该论文提出的多视图协作学习网络能够解决人岗匹配系统的负样本噪声问题。同时,融合文本匹配模块和关系匹配模块进行的联合表示学习有助于解决双边交互行为数据稀疏问题,突破了以往匹配模型需要大量有效样本数据的限定条件。而该思路对于互联网求职招聘场景以外领域的推荐系统研究也有一定指导意义。

1

背景介绍

近年来,随着以BOSS直聘为代表的移动互联网求职招聘平台的兴起,人岗匹配任务越来越受到学术界的关注。 针对该问题,常见的方法是将其转化为一个有监督的文本匹配任务来解决,当标记样本足够充分时,此类方法往往能取得较好的效果。 然而,在真实的互联网求职招聘平台上,求职者和招聘方的交互行为数据往往是稀疏且带有噪声的,这严重影响着匹配算法的性能。 因此,本文提出了一种基于稀疏交互数据的多视图协作学习模型,并将其应用于人岗匹配任务,取得了较好的效果。 该方法的思路如下: 我们设计了一种全新的匹配模型,包含基于文本的匹配模块和基于关系的匹配模块两部分,这两部分能捕获不同视角下的语义信息,并相互补充。 此外,为了解决交互行为数据稀疏的问题,我们设计了两种特定训练策略来更好地融合这两个匹配模块: 一方面,两个模块共享学习参数和表示,可以增强每个模块初始的表示; 另一方面,我们采用了一种协作学习的机制来减少噪声数据对训练的影响。核心思想是让这两个模块通过选择更置信的训练实例来互相指导训练。 这两种策略可以更好地用于表示的增强和数据的增强。 与单纯基于文本的匹配模型相比,我们所提出的方法能够从有限甚至稀疏的交互数据中更好地学习数据的表示,在带有噪声的训练数据上该方法也更具鲁棒性。

2

问题定义

对于人岗匹配任务,给定职位文本数据集合

和简历文本数据集合

,以及匹配结果集合

。 其中,每一个职位j或简历r均由多句描述职位或简历的文本构成,代表简历和职位是否匹配。根据上述定义,我们的任务是学习一个预测函数

来预测未知的职位简历对的匹配结果。

3

方法描述

多视图协作学习的人岗匹配模型图 为了解决在线求职招聘场景下由于交互数据稀疏和采样负例而带来的噪声问题,我们提出了一种基于多视图协作学习的人岗匹配模型。

基于文本的匹配模块近年来,基于预训练语言模型的方法在各种自然语言处理任务上均取得了不错的效果。 鉴于此,这里采用BERT编码简历和职位的每一个句子表示,然后使用Transformer编码表示整篇文档表示。

j和r分别代表职位和简历文档,和分别代表第层的输入简历和职位的向量。

最后将职位表示和简历表示拼接后再接一个Sigmoid层输出得到的作为候选简历和职位的匹配分。

基于关系的匹配模块前文所述的匹配模块主要关注文本语义上的匹配,但由于显式交互数据是相对稀疏的,因此挖掘潜在的隐式关联将有助于抽取出更多额外信息作为补充。 为此我们设计了基于关系的匹配模块,该模块包含构造职位-简历关系图和学习职位简历的表示两部分。构造职位-简历关系图首先定义职位-简历关系图

。其中,

代表职位和简历两类节点,

代表关系集合。 由于有职位和简历两类节点,所以共包含三种连接类型,即职位-职位,职位-简历和简历-简历。同时,采用如下两种数据信号来刻画节点间的连接关系:第一类是相同领域标签的职位或者简历之间构建连接关系;第二类是根据职位描述或简历文本中抽取出的关键词,职位或者简历之间出现了同样的关键词构建连接关系。职位简历的表示学习基于职位-简历关系图,可以进一步捕捉图上潜在的语义信息来学习节点上的特征表示(即职位和简历)。 图神经网络近年来已经成为学习图节点特征表示的最流行的方法,由于在职位-简历关系图中存在大量不同类别的关系连接,为了更好刻画在这类带有丰富关系的图结构,这里采用关系图卷积网络(Relational Graph Convolutional Network)来刻画不同关系和节点的表示。 第l层的节点学习到的表示的公式如下:

代表了第l层节点的表示, 代表节点的邻接节点集合。由于每一种关系t对应一个特定的参数矩阵,所以能够基于关系的语义信息学习到节点的表示。 通过在图上学习的节点表示,最终得到简历和职位的表示,与之前的方法类似,通过拼接简历表示和职位表示计算最终匹配分。

多视图的协作学习网络接下来将介绍所设计的多视图协作学习网络,以及如何将基于文本和基于关系的匹配模块集成到统一的训练方法中。 首先,网络会共享学习到的信息和参数,以增强每个模块的原始表示;其次,针对如何减少训练数据对噪声的影响,我们借鉴了机器学习中协同学习的思想,通过选择更可靠的训练实例来让这两个组件相互帮助。接下来,介绍这两种策略的细节。表示增强由于在匹配过程中包含文本表示和关系表示两类表示方法,为了在初始表示学习的过程中互相增强,在初始学习文本模块的表示时会拼接关系图上节点的表示。

类似地,为了增强图关系上节点的表示,会采用文本模块学习到的表示作为关系图训练时的初始表示。

利用协作学习的数据增强这里的基本假设是,真实样本通常在不同的模型视角下会得到相似的预测结果,而噪声数据则会在不同视角下表现得不稳定。 在协作学习网络中,文本匹配模块和关系匹配模块可以视为两个对等的learner。用于训练一个learner的样本首先由另一个learner进行检查,并且仅将标记为高置信度的实例保留在训练过程中。 由于这两个learner从不同视角对数据建模,学习的策略有所不同,因此他们可以互相帮助选择高置信度的训练样本,从而提升模型效果。 具体训练方法如下图所示:

提出的co-teaching的算法流程图 这里具体提出了两种实现策略。(1)实例的重加权给定一个模型,其对等模型目的是在不同视角下,增加高置信度样本的权重并降低不可靠样本的权重。例如,对于模型B,假设在训练过程中的一个batch中有K个实例。

让其对等模型A为这个K个实例分配权重。其核心想法是根据样本真实标签信息与A的预测之间的一致程度对实例赋予权重:

这里的权重越高代表了该实例越可信。同时将这些权重结果传递给模型B并让其进行模型参数的更新。(2)实例的筛选过滤除了对不同样本重新加权外,还可以直接筛除相对较差的实例。直观地,如果实例对应的损失较小,则它离决策边界很远,更有可能是可靠的样本。可以通过以下公式建模:

实例重加权和筛选过滤方法都旨在为模型学习选择更可靠的样本。他们用不同的方法达到这个目的。 实例重新加权是一种相对“软”的方法,其所有实例均保留,只不过不同实例具有不同的重要程度。而实例筛选过滤是一种相对“硬”的方法,会直接丢弃一些样本。还有一种思路是通过在对样本重新加权之前对样本进行过滤来将这两种方法结合起来。

4

实验结果

数据集介绍本文基于在线招聘平台BOSS直聘的数据集进行相关实验。该数据集包括三个领域类别,便于测试我们的模型在不同领域下的稳定性。 表1总结了处理后的数据统计信息,可以看到:(1)所有数据集都很稀疏,无论是达成匹配或拒绝;(2)不同领域下的数据稀疏程度有所不同。例如,技术类规模较大但较稀疏,而销售相对稠密;(3)对于每个领域类别,发生显示拒绝(即不匹配)的数量要比达成匹配的数量少得多。

表1:数据集的统计信息

实验结果对比方法1、DSSM [1]提出的深度结构语义匹配模型。 2、BPJFNN [2]提出的基于循环神经网络的匹配模型。 3、PJFNN [3]提出的基于卷积神经网络的匹配模型。 4、APJFNN [2]提出的基于层级注意力机制的匹配模型。 5、DGMN [4]提出的基于全局句子粒度交互的匹配模型。 6、JRMPM [5]提出的引入历史交互作为记忆模块的匹配模型。 7、UBD [6]用来解决噪声数据带来的影响,采用分歧的思想对分类器双方产生不同结果的数据进行参数更新。 8、NFM [7]使用神经因子分解机来学习高阶交互,使用文本和ID特征作为输入。

表2:主实验的结果 根据表2中的实验结果,结论如下:1、首先,NFM很难在我们的任务上取得良好的效果。原因是该任务比传统推荐场景数据更加稀疏;同时,DSSM在大多数情况下表现不佳,因为它无法捕获文本信息中的时序信息;BPJFNN、PJFNN、APJFNN、JRMPM和DGMN之间的性能差异很小,并且针对不同指标或不同领域会有微小差别;此外,UBD是唯一训练时解决噪声问题的baseline,与其他baseline方法相比,该方法的效果有显著提升,这也侧面证实了该任务下处理噪声数据的必要性。2、我们提出的模型在不同数据集的所有指标上均获得了最佳性能。与其他方法相比,模型中的协作学习机制能够识别更多信息量丰富且更可靠的样本来学习参数,也更容易削弱噪声数据带来的影响,因此优于其他baseline方法。3、对比筛选过滤和重加权这两种策略,我们发现后者在大多数情况下更优异。可能因为重新加权策略采用了“软”降噪的方法,该方法在处理噪声数据时会更鲁棒。 除了上述主实验结果分析外,我们也同时分析了不同模块组件对最终效果的影响。 如表3所示,这里T代表文本匹配模块、R代表关系匹配模块、C代表协作学习网络。 结果表明,所有这三个组件对提高人岗匹配的性能都有正向作用。尤其是文本匹配模块和协作学习网络给模型带来的提升较大。 此外,一个有趣的观察是,简单地融合多视图的数据可能不会导致良好的性能(即TR

表3:消融实验结果

5

总结

本文提出了一种基于多视图协同教学网络,该网络能够在交互行为数据稀疏且带有噪声这一场景下进行学习,以进行人岗匹配。我们考虑融合文本匹配模块和关系匹配模块进行的联合表示学习,该方法能够结合各自模块的优势来更好的学习匹配表示。同时我们设计了两种特定训练策略来更好地融合这两个匹配模块,即表示增强和数据增强。一方面,两个模块共享学习参数和表示,可以增强每个模块初始的表示; 另一方面,我们采用了一种协作学习的机制来减少噪声数据对训练的影响。大量实验表明,与以往的方法对比,该方法能够从数据稀疏且带有噪声的交互数据中获得更好的匹配效果。在本文中,我们聚焦于宏观的交互行为,例如接受或拒绝面试邀请这样的行为。然而一些微观交互也会对匹配产生一定的影响,例如单击或停留时间。未来我还将考虑将此类信息融入进来以设计一个更加全面的匹配模型。此外,我们还将考虑将我们的方法应用于更多的领域类别,研究不同类别之间的领域自适应问题。

参考文献

[1]Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, and Larry Heck. 2013. Learning deep structured semantic models for web search using clickthrough data. In Proceedings of the 22nd ACM international conference on Conference on information and knowledge management, pages 2333–2338. ACM.

[2]Chuan Qin, Hengshu Zhu, Tong Xu, Chen Zhu, Liang Jiang, Enhong Chen, and Hui Xiong. 2018. Enhancing person-job fit for talent recruitment: An ability-aware neural network approach. In In Proceedings of the 41st International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR-2018) , Ann Arbor, Michigan, USA. [3]Chen Zhu, Hengshu Zhu, Hui Xiong, Chao Ma, Fang Xie, Pengliang Ding, and Pan Li. 2018. Person-job fit: Adapting the right talent for the right job with joint representation learning. ACM Transactions on Management Information Systems ACM TMIS. [4]Shuqing Bian, Wayne Xin Zhao, Yang Song, Tao Zhang, and Ji-Rong Wen. 2019. Domain Adaptation for Person-Job Fit with Transferable Deep Global Match Network. In EMNLP-IJCNLP 2019. 4809–4819. [5]Rui Yan, Ran Le, Yang Song, Tao Zhang, Xiangliang Zhang, and Dongyan Zhao. 2019. Interview Choice Reveals Your Preference on the Market: To Improve Job-Resume Matching through Profiling Memories. In KDD 2019. 914–922. [6]Eran Malach and Shai Shalev-Shwartz. 2017. Decoupling "when to update" from "how to update". In NeurIPS 2017. 960–970. [7]XiangnanHe and Tat-SengChua. 2017.Neural Factorization Machines for Sparse Predictive Analytics. In SIGIR 2017. 355–364.

责任编辑:xj

原文标题:【CIKM 2020】基于多视图协作学习的人岗匹配研究

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 噪声
    +关注

    关注

    13

    文章

    1068

    浏览量

    47031
  • 数据
    +关注

    关注

    8

    文章

    6504

    浏览量

    87448
  • 深度学习
    +关注

    关注

    73

    文章

    5206

    浏览量

    119804
  • 协作学习系统

    关注

    0

    文章

    2

    浏览量

    1586

原文标题:【CIKM 2020】基于多视图协作学习的人岗匹配研究

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    浅谈阻抗匹配(一)什么是电路匹配

    阻抗匹配是一个较大的话题,根据具体的频率和使用场景,大概可以分为4个模块讨论。分别是:电路匹配、传输线匹配、天线匹配、噪声匹配
    的头像 发表于 11-03 11:50 722次阅读
    浅谈阻抗<b class='flag-5'>匹配</b>(一)什么是电路<b class='flag-5'>匹配</b>?

    谷歌邮箱官方宣布将于2024年1月停止支持基本HTML视图

    据悉,谷歌邮箱官方宣布将于2024年1月停止支持基本HTML视图,届时所有使用它的人都将切换到该服务更现代的“标准”视图。这一变化似乎是在9月19日左右谷歌的一篇支持文章中宣布的。 据了解,目前网页
    的头像 发表于 09-27 16:09 707次阅读

    ARM与Linux入门学习建议分享

    由于很多人总问这个问题,所以这里做一个总结文档供大家参考。这里必须先说明,以下的步骤都是针对 Linux 系统的,并不面向WinCE 。也许你会注意到,现在做嵌入式的人中,做 linux 研究的人
    发表于 09-25 06:05

    基于Json格式的文本视图验证工具

    基于Json格式的文本视图验证工具
    发表于 09-19 09:15 8次下载

    基于HALCON的模板匹配方法总结

    推荐很早就想总结一下前段时间学习HALCON地心得,但由于其他地事情总是抽不出时间。去年有过一段时间地集中学习,做了许多地练习和实验,并对基于HDevelop地形状匹配算法地参数优化进行了研究
    发表于 09-19 06:13

    拓扑视图与实际拓扑结构间的差异

    简介 拓扑视图是硬件和网络编辑器的三个工作区中的一个。在此处可执行以下任务: 显示以太网拓扑 组态以太网拓扑 标识出指定拓扑结构与实际拓扑结构间的差异并将这种差异降至最低 编辑设备名称 结构 下图
    的头像 发表于 09-10 09:56 588次阅读
    拓扑<b class='flag-5'>视图</b>与实际拓扑结构间的差异

    西门子博途设备视图简介

    设备视图是硬件和网络编辑器的三个工作区中的一个。
    的头像 发表于 09-06 16:36 1424次阅读
    西门子博途设备<b class='flag-5'>视图</b>简介

    地物光谱匹配模型研究

    遥感的目的是通过对图像的定性、定量分析,深入研究各种自然环境要素。由于组成成份的差异地物覆盖形成了可诊断的典型光谱反射特征,这成为地物光谱识别的物理基础。迄今为止各种航空和航天遥感仪的工作波段选择
    的头像 发表于 07-07 14:38 278次阅读
    地物光谱<b class='flag-5'>匹配</b>模型<b class='flag-5'>研究</b>

    三维计算视觉研究分析

    三维计算视觉研究内容包括: 1)三维匹配 :两帧或者多帧点云数据之间的匹配,因为激光扫描光束受物体遮挡的原因,不可能通过一次扫描完成对整个物体的三维点云的获取。因此需要从不同的位置和角度对物体进行
    的头像 发表于 06-19 11:06 349次阅读

    小样本学习领域的未来发展方向

    什么是小样本学习?它与弱监督学习等问题有何差异?其核心问题是什么?来自港科大和第四范式的这篇综述论文提供了解答。 数据是机器学习领域的重要资源,在数据缺少的情况下如何训练模型呢?小样本
    的头像 发表于 06-14 09:59 571次阅读
    小样本<b class='flag-5'>学习</b>领域的未来发展方向

    基于几何变换器的2D-to-BEV视图转换学习

    BEV感知是自动驾驶的重要趋势。常规的自动驾驶算法方法基于在前视图或透视图中执行检测、分割、跟踪,而在BEV中可表示周围场景,相对而言更加直观,并且在BEV中表示目标对于后续模块最为理想。
    发表于 06-06 17:47 863次阅读
    基于几何变换器的2D-to-BEV<b class='flag-5'>视图</b>转换<b class='flag-5'>学习</b>

    如何使用ChatGPT在1天内完成毕业论文

    自己的论文。 使用工具: 1. Prompt框架学习: https://github.com/prompt-engineering/prompt-patterns 2. 国内免费ChatGPT站点
    的头像 发表于 05-17 16:22 683次阅读
    如何使用ChatGPT在1天内完成毕业<b class='flag-5'>论文</b>

    最新3D表征自监督学习+对比学习:FAC

    第二个是我们防止 3D 片段/对象之间的过度判别,并通过 Siamese 对应网络中的自适应特征学习鼓励片段级别的前景到背景的区别,该网络有效地自适应地学习点云视图内和点云视图之间的特
    的头像 发表于 05-17 09:28 538次阅读
    最新3D表征自监督<b class='flag-5'>学习</b>+对比<b class='flag-5'>学习</b>:FAC

    解读滴滴调度系统中的人工智能

    一文读懂滴滴背后的人工智能。 作者了解到,去年滴滴成立了机器学习研究院,之后改名为滴滴研究院。 滴滴研究院做的事情是结合大数据与机器
    发表于 04-11 10:41 0次下载
    解读滴滴调度系统中<b class='flag-5'>的人</b>工智能

    阻抗不匹配时,有哪些办法让它匹配呢?

    负载阻抗等于信源内阻抗的共轭值,即它们的模相等而辐角之和为零。这时在负载阻抗上可以得到最大功率。这种匹配条件称为共轭匹配。如果信源内阻抗和负载阻抗均为纯阻性,则两种匹配条件是等同的。
    发表于 04-08 10:30 2946次阅读