0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种用于从文本简历中挖掘相关信息的框架

zhKF_jqr_AI 来源:未知 作者:李倩 2018-07-17 09:07 次阅读

编者按:如果你曾负责过招聘,筛查简历一定让你又爱又恨,能看到一份层次鲜明重点突出的简历简直是一股清流。面对格式多样的简历,如何能一眼看到重点呢?作者Yogesh H. Kulkarni就设计了一款能挖掘简历中重要信息文本的框架RegEx。以下是论智的编译。

摘要

本文展示了一种用于从文本简历中挖掘相关信息的框架。虽然这里只有一份简历作为案例,但是今后,框架不仅可以进一步扩展到不同简历格式上,还可以用到例如决策、合同、药物说明书等文本上。

介绍

世界上大多数非结构化的数据都在文本形式中。为了理解这一点,我们要么花费大量精力处理它,要么你运用一些自动手段提取出有用信息。面对大量、风格各异的文本数据,还是需要用文本挖掘技术提取相关信息,将结构混乱的数据转化成结构清晰的形式,之后才能进一步进行处理、分析、可视化。

这篇文章的关注重点比较特殊,是候选人的个人档案或简历。我们都知道,HR收到的简历通常有各种格式的(txt、doc、pdf等等),而且内容和版面设计也是五花八门,想从这些文件中筛选出自己认为有用的信息是一项非常有挑战性的工作。即使如此,我们可能还不能完全提取出有用的信息,因为格式实在是多种多样,所以我们可以先从简单的步骤开始,至少从我们已知的形式中提取出有效信息。

简单地说,这里有两种方法:基于语言学的方法和基于机器学习的方法。在语言学的方法中,为了寻找关键信息用的是模式搜索的方法,而在机器学习中,提取信息时用到的是监督或非监督的方法。在这篇文章中用到的RegEx术语基于语言学的模式匹配方法。

框架

想从简历中提取目标对象的一种简单方法就是在编码程序中,为每个对象写一个模式匹配的逻辑。如果模式有任何改变,或者如果有新的对象或模式出现,你需要改变编码程序。这使得框架的维护变得非常麻烦,复杂程度不断提高。为了解决这个问题,我们的框架提出了分离逻辑分析和目标种类的方法,下面会详细进行讲解。目标对象和它们的RegEx模式在配置文件中都有详细的记录,文件同时还记录了为每种对象提取方法的类别。这种分离方法的优点是,它不仅可以重复使用,保持稳定,而且还可以用到其他领域,例如合同文件、法律文件或者医疗报告等等。

元素查找

配置文件指定了需要被提取的对象以及它们的模式和提取方法。它同样指定了需要寻找目标所在的区域。具体代码如下:

上述代码表述了例如姓名、电话、电子邮件等要素的元数据,用来提取它们的方法是“univalue_extractor”。这些要素所在的区域用“”表示,这是一个未经标记的区域,可以指简历最开头的那几行。类似电子邮件或电话号码的要素可能会有多种表达方式,如果第一种方法识别失败,会自动启动第二种方法。

姓名:通常简历的第一行会写姓名,有可能会带有“姓名”两个字作为开头。

电子邮件:通常是一个单词(其中可能会夹杂一个点),然后出现“@”,之后又是英文字母、标点、字母。

电话:国际区号省略,之后是3-3-4的数字模式,前三个数字也有可能省略(固定电话)。

Python的’etree’ ElementTree库用来在内部词典中分析config xml。

分析器读取技术参数的词典,并用它来寻找文本简历中的元素。

一旦找到匹配的元素,它就会以节点标示的形式存储起来,例如电子邮件、电话等等。

像上述元数据一样,教育资质可以按以下步骤搜索:

利用分析器的“section_value_extractor”,在“EducationSection”区域中进行分析,通过匹配文字找到区域内的价值。

san如果分析器找到任何含有“10th”、“X”、“SSC”的文字,它就会提取出描述中学的相关信息。

如果分析器找到任何含有“12th”、“XII”、“HSC”字样的文本,它会提取出代表高中学历的关键信息。

分割

上面的代码表示标有“总体部分”或“教育部分”的文本。这些通常都在配置文件的顶部。

“section_extractor”方法一行一行地分析文件,并寻找文本的小标题。

通过标题的关键词可以了解每一段的主要内容。例如“总结部分”可能会含有“总结”、“目标”等词语。

一旦匹配,“总结部分”就确定了下来,之后会进行下一部分的分析。

新的标题匹配后,系统会自动开始下一部分的匹配。

结果

分析出的一份简历如下:

具体的操作步骤可见GitHub:github.com/yogeshhk/MiningResume

结语

这篇文章展示了从非结构化数据(如简历)中挖掘结构化信息的过程,由于只有一个案例展示,因此它可能不适用于其他格式。今后我们会对此改进,使其适合其他简历类型,甚至其他领域的文档。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码
    +关注

    关注

    6

    文章

    835

    浏览量

    54456
  • 机器学习
    +关注

    关注

    66

    文章

    8116

    浏览量

    130547

原文标题:文本挖掘教程:如何从一份简历中快速找到有用信息

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于Trie的一种关联规则挖掘方法

    集。本文提出了一种基于Trie的在可信度构架下进行关联规则挖掘的方法,用于解决支持度为零的类特殊问题,在不生成候选集的基础上,直接计算出所有的子集,节省了生成频繁项集的时空开销。【关
    发表于 04-24 09:55

    一种基于AliOS Things的uData感知设备软件框架

    中分别有三张数据表,应用服务表、抽象数据表,物理传感器表。uData数据类型uData主要分两种类型的数据,一种是uData的应用算法数据类型,开发者和外部模块也只和这类型的数据进行通信和交互;另外一种
    发表于 01-22 17:16

    灵玖软件:NLPIR智能挖掘系统专注中文处理

    态生成,资源价格变化,随着时间的推移,从不同的不同地理位置的移动数据,数据中心而供应充足的计算资源来处理它们,是实现成本效益的项重要任务。  文本挖掘或者文档挖掘
    发表于 01-21 11:39

    NLPIR在文本信息提取方面的优势介绍

    的关键信息(主体、时间、金额等),进行高效抽取知识。 NLPIR大数据语义智能分析平台,是基于中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并
    发表于 09-12 15:33

    文本信息抽取的分阶段详细介绍

    模型是上述文本信息抽取的具体实现。 NLPIR大数据语义智能分析平台在文本信息提取介绍方面,能够实现新词提取和关键词提取。 新词发现能
    发表于 09-16 15:03

    NLPIR平台实现文本挖掘站式应用

    的工具。语义智能分析的全链条指的是语料数据的采集预处理,经过自然语言处理 到文本挖掘信息检索再到可视化呈现和导出以便适合于不同人员的使用需求的 全部处理过程。数据收集和预处理部分数
    发表于 11-07 16:43

    如何去实现一种ThreadX内核框架的设计呢

    ThreadX内核模板框架是怎样去设计的?如何去实现一种ThreadX内核框架的设计呢?
    发表于 11-29 07:08

    一种专门用于检测小目标的框架Dilated Module

    1. 介绍本文提出一种专门用于检测小目标的框架框架结构如下图:我们探索了可以提高小目标检测能力的3个方面:Dilated模块,特征融合以及passthrough模块。Dilated
    发表于 11-04 11:14

    基于文章标题信息的汉语自动文本分类

    文本分类是文本挖掘的一个重要组成部分,是信息搜索领域的一项重要研究课题。该文提出一种基于文章标题信息
    发表于 04-13 08:31 10次下载

    一种适应短文本相关测度及其应用

    一种适应短文本相关测度及其应用:针对博客社区和BBS 论坛充斥Web 垃圾信息的问题,提出相关度向量空间模型cVSM,并以此作为评论的特征
    发表于 10-17 23:07 18次下载

    电网缺陷文本挖掘技术及其应用

    电网企业拥有大量蕴含着重要可靠性信息的设备缺陷文本,依靠人工进行挖掘不仅效率低而且准确性因人而异。以变压器缺陷文本为研究对象,通过分析文本
    发表于 01-12 13:55 5次下载
    电网缺陷<b class='flag-5'>文本</b><b class='flag-5'>挖掘</b>技术及其应用

    基于数据挖掘的核医学文本关联规则挖掘方法

    医学影像是现代临床医学疾病诊治不可或缺的重要组成部分, SPECT是功能影像的主要成像技术,广泛应用于肿瘤骨转移等疾病的诊治。 SPECT诊断报告文本包含患者个人信息、图像描述和建议性结果等几个方面
    发表于 04-28 15:39 4次下载
    基于数据<b class='flag-5'>挖掘</b>的核医学<b class='flag-5'>文本</b>关联规则<b class='flag-5'>挖掘</b>方法

    基于协同训练的电商领域文本短语挖掘方法

    电商领域的文本通常不遵循通用领域文本的表达方式,导致传统短语挖掘方法在电商领域文本中的挖掘精度较低。为此,提出
    发表于 05-13 15:01 0次下载

    基于新型文本块分割法的简历解析器

    近些年,基于神经网络的文本分类器和词嵌入在自然语言处理中被广泛应用。然而,传统的简历解析器采用基于关键字的模糊匹配或正则表达式来进行文本块分割。文中提岀了一种基于神经网络
    发表于 06-16 11:47 17次下载

    文本挖掘之概率主题模型综述

    文本挖掘之概率主题模型综述
    发表于 06-24 14:16 16次下载