0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Python文本预处理的基本步骤,讨论文本预处理过程所需要的工具

电子工程师 来源:lq 2019-01-28 09:26 次阅读

本文将讨论文本预处理的基本步骤,旨在将文本信息从人类语言转换为机器可读格式以便用于后续处理。此外,本文还将进一步讨论文本预处理过程所需要的工具。

当拿到一个文本后,首先从文本正则化(text normalization)处理开始。常见的文本正则化步骤包括:

将文本中出现的所有字母转换为小写或大写

将文本中的数字转换为单词或删除这些数字

删除文本中出现的标点符号、重音符号以及其他变音符号

删除文本中的空白区域

扩展文本中出现的缩写

删除文本中出现的终止词、稀疏词和特定词

文本规范化(text canonicalization)

下面将详细描述上述文本正则化步骤。

将文本中出现的字母转化为小写

示例1:将字母转化为小写

Python 实现代码:

input_str=”The5biggestcountriesbypopulationin2017areChina,India,UnitedStates,Indonesia,andBrazil.”input_str=input_str.lower()print(input_str)

输出:

the5biggestcountriesbypopulationin2017arechina,india,unitedstates,indonesia,andbrazil.

删除文本中出现的数字

如果文本中的数字与文本分析无关的话,那就删除这些数字。通常,正则化表达式可以帮助你实现这一过程。

示例2:删除数字

Python 实现代码:

importreinput_str=’BoxAcontains3redand5whiteballs,whileBoxBcontains4redand2blueballs.’result=re.sub(r’d+’,‘’,input_str)print(result)

输出:

BoxAcontainsredandwhiteballs,whileBoxBcontainsredandblueballs.

删除文本中出现的标点

以下示例代码演示如何删除文本中的标点符号,如[!”#$%&’()*+,-./:;<=>?@[]^_`{|}~] 等符号。

示例3:删除标点

Python 实现代码:

importstringinput_str=“This&is[an]example?{of}string.with.?punctuation!!!!”#Samplestringresult=input_str.translate(string.maketrans(“”,””),string.punctuation)print(result)

输出:

Thisisanexampleofstringwithpunctuation

删除文本中出现的空格

可以通过 strip()函数移除文本前后出现的空格。

示例4:删除空格

Python 实现代码:

input_str=“ astringexample “input_str=input_str.strip()input_str

输出:

‘astringexample’

符号化(Tokenization)

符号化是将给定的文本拆分成每个带标记的小模块的过程,其中单词、数字、标点及其他符号等都可视为是一种标记。在下表中(Tokenization sheet),罗列出用于实现符号化过程的一些常用工具。

删除文本中出现的终止词

终止词(Stop words)指的是“a”,“a”,“on”,“is”,“all”等语言中最常见的词。这些词语没什么特别或重要意义,通常可以从文本中删除。一般使用Natural Language Toolkit(NLTK)来删除这些终止词,这是一套专门用于符号和自然语言处理统计的开源库。

示例7:删除终止词

实现代码:

input_str=“NLTKisaleadingplatformforbuildingPythonprogramstoworkwithhumanlanguagedata.”stop_words=set(stopwords.words(‘english’))fromnltk.tokenizeimportword_tokenizetokens=word_tokenize(input_str)result=[iforiintokensifnotiinstop_words]print(result)

输出:

[‘NLTK’,‘leading’,‘platform’,‘building’,‘Python’,‘programs’,‘work’,‘human’,‘language’,‘data’,‘.’]

此外,scikit-learn也提供了一个用于处理终止词的工具:

fromsklearn.feature_extraction.stop_wordsimportENGLISH_STOP_WORDS

同样,spaCy也有一个类似的处理工具:

fromspacy.lang.en.stop_wordsimportSTOP_WORDS

删除文本中出现的稀疏词和特定词

在某些情况下,有必要删除文本中出现的一些稀疏术语或特定词。考虑到任何单词都可以被认为是一组终止词,因此可以通过终止词删除工具来实现这一目标。

词干提取(Stemming)

词干提取是一个将词语简化为词干、词根或词形的过程(如books-book,looked-look)。当前主流的两种算法是Porter stemming算法(删除单词中删除常见的形态和拐点结尾)和Lancaster stemming算法。

示例8:使用 NLYK 实现词干提取

实现代码:

fromnltk.stemimportPorterStemmerfromnltk.tokenizeimportword_tokenizestemmer=PorterStemmer()input_str=”Thereareseveraltypesofstemmingalgorithms.”input_str=word_tokenize(input_str)forwordininput_str:print(stemmer.stem(word))

输出:

Therearesevertypeofstemalgorithm.

词形还原(Lemmatization)

词形还原的目的,如词干过程,是将单词的不同形式还原到一个常见的基础形式。与词干提取过程相反,词形还原并不是简单地对单词进行切断或变形,而是通过使用词汇知识库来获得正确的单词形式。

当前常用的词形还原工具库包括:NLTK(WordNet Lemmatizer),spaCy,TextBlob,Pattern,gensim,Stanford CoreNLP,基于内存的浅层解析器(MBSP),Apache OpenNLP,Apache Lucene,文本工程通用架构(GATE),Illinois Lemmatizer和DKPro Core。

示例 9:使用 NLYK 实现词形还原

实现代码:

fromnltk.stemimportWordNetLemmatizerfromnltk.tokenizeimportword_tokenizelemmatizer=WordNetLemmatizer()input_str=”beenhaddonelanguagescitiesmice”input_str=word_tokenize(input_str)forwordininput_str:print(lemmatizer.lemmatize(word))

输出:

behavedolanguagecitymouse

词性标注(POS)

词性标注旨在基于词语的定义和上下文意义,为给定文本中的每个单词(如名词、动词、形容词和其他单词)分配词性。当前有许多包含POS标记器的工具,包括NLTK,spaCy,TextBlob,Pattern,Stanford CoreNLP,基于内存的浅层分析器(MBSP),Apache OpenNLP,Apache Lucene,文本工程通用架构(GATE),FreeLing,Illinois Part of Speech Tagger和DKPro Core。

示例 10:使用 TextBlob 实现词性标注

实现代码:

input_str=”Partsofspeechexamples:anarticle,towrite,interesting,easily,and,of”fromtextblobimportTextBlobresult=TextBlob(input_str)print(result.tags)

输出:

[(‘Parts’,u’NNS’),(‘of’,u’IN’),(‘speech’,u’NN’),(‘examples’,u’NNS’),(‘an’,u’DT’),(‘article’,u’NN’),(‘to’,u’TO’),(‘write’,u’VB’),(‘interesting’,u’VBG’),(‘easily’,u’RB’),(‘and’,u’CC’),(‘of’,u’IN’)]

词语分块(浅解析)

词语分块是一种识别句子中的组成部分(如名词、动词、形容词等),并将它们链接到具有不连续语法意义的高阶单元(如名词组或短语、动词组等)的自然语言过程。常用的词语分块工具包括:NLTK,TreeTagger chunker,Apache OpenNLP,文本工程通用架构(GATE),FreeLing。

示例 11:使用 NLYK 实现词语分块

第一步需要确定每个单词的词性。

实现代码:

input_str=”AblacktelevisionandawhitestovewereboughtforthenewapartmentofJohn.”fromtextblobimportTextBlobresult=TextBlob(input_str)print(result.tags)

输出:

[(‘A’,u’DT’),(‘black’,u’JJ’),(‘television’,u’NN’),(‘and’,u’CC’),(‘a’,u’DT’),(‘white’,u’JJ’),(‘stove’,u’NN’),(‘were’,u’VBD’),(‘bought’,u’VBN’),(‘for’,u’IN’),(‘the’,u’DT’),(‘new’,u’JJ’),(‘apartment’,u’NN’),(‘of’,u’IN’),(‘John’,u’NNP’)]

第二部就是进行词语分块

实现代码:

reg_exp=“NP:{

?*}”rp=nltk.RegexpParser(reg_exp)result=rp.parse(result.tags)print(result)

输出:

(S(NPA/DTblack/JJtelevision/NN)and/CC(NPa/DTwhite/JJstove/NN)were/VBDbought/VBNfor/IN(NPthe/DTnew/JJapartment/NN)of/INJohn/NNP)

也可以通过result.draw()函数绘制句子树结构图,如下图所示。

命名实体识别(Named Entity Recognition)

命名实体识别(NER)旨在从文本中找到命名实体,并将它们划分到事先预定义的类别(人员、地点、组织、时间等)。

常见的命名实体识别工具如下表所示,包括:NLTK,spaCy,文本工程通用架构(GATE) -- ANNIE,Apache OpenNLP,Stanford CoreNLP,DKPro核心,MITIE,Watson NLP,TextRazor,FreeLing等。

示例12:使用TextBlob实现词性标注

实现代码:

fromnltkimportword_tokenize,pos_tag,ne_chunkinput_str=“BillworksforApplesohewenttoBostonforaconference.”printne_chunk(pos_tag(word_tokenize(input_str)))

输出:

(S(PERSONBill/NNP)works/VBZfor/INApple/NNPso/INhe/PRPwent/VBDto/TO(GPEBoston/NNP)for/INa/DTconference/NN./.)

共指解析Coreference resolution(回指分辨率anaphora resolution)

代词和其他引用表达应该与正确的个体联系起来。Coreference resolution在文本中指的是引用真实世界中的同一个实体。如在句子“安德鲁说他会买车”中,代词“他”指的是同一个人,即“安德鲁”。常用的Coreference resolution工具如下表所示,包括Stanford CoreNLP,spaCy,Open Calais,Apache OpenNLP等。

搭配提取(Collocation extraction)

搭配提取过程并不是单独、偶然发生的,它是与单词组合一同发生的过程。该过程的示例包括“打破规则break the rules”,“空闲时间free time”,“得出结论draw a conclusion”,“记住keep in mind”,“准备好get ready”等。

示例 13:使用ICE实现搭配提取

实现代码:

input=[“heandChazzduelwithallkeysontheline.”]fromICEimportCollocationExtractorextractor=CollocationExtractor.with_collocation_pipeline(“T1”,bing_key=“Temp”,pos_check=False)print(extractor.get_collocations_of_length(input,length=3))

输出:

[“ontheline”]

关系提取(Relationship extraction)

关系提取过程是指从非结构化的数据源(如原始文本)获取结构化的文本信息。严格来说,它确定了命名实体(如人、组织、地点的实体)之间的关系(如配偶、就业等关系)。例如,从“昨天与Mark和Emily结婚”这句话中,我们可以提取到的信息是Mark是Emily的丈夫。

总结

本文讨论文本预处理及其主要步骤,包括正则化、符号化、词干化、词形还原、词语分块、词性标注、命名实体识别、共指解析、搭配提取和关系提取。还通过一些表格罗列出常见的文本预处理工具及所对应的示例。在完成这些预处理工作后,得到的结果可以用于更复杂的NLP任务,如机器翻译、自然语言生成等任务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4455

    浏览量

    90756
  • python
    +关注

    关注

    51

    文章

    4675

    浏览量

    83467
  • 文本
    +关注

    关注

    0

    文章

    118

    浏览量

    16920

原文标题:Python文本预处理:步骤、使用工具及示例

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器学习为什么需要数据预处理

    数据预处理是准备原始数据并使其适合机器学习模型的过程。这是创建机器学习模型的第一步也是关键的一步。 创建机器学习项目时,我们并不总是遇到干净且格式化的数据。在对数据进行任何操作时,必须对其进行清理
    的头像 发表于 08-24 09:20 1154次阅读
    机器学习为什么<b class='flag-5'>需要</b>数据<b class='flag-5'>预处理</b>

    振动信号的预处理具体是什么意思?

    振动信号的处理预处理之间有什么区别?我用labview对振动信号进行预处理处理吗?
    发表于 10-08 15:33

    Python数据预处理方法

    机器学习-Python实践Day3(特征工程--数据预处理2)
    发表于 06-03 15:55

    预处理/函数/函数库的相关资料推荐

    **注:**如下内容来自朱老师物联网大讲堂C语言高级一、预处理1.C语言预处理理论1.1 由源码到可执行程序的过程(1)源码.c->(编译)->elf可执行程序(2)源码.c->
    发表于 12-15 07:21

    图像预处理和改进神经网络推理的简要介绍

    为提升识别准确率,采用改进神经网络,通过Mnist数据集进行训练。整体处理过程分为两步:图像预处理和改进神经网络推理。图像预处理主要根据图像的特征,将数据处理成规范的格式,而改进神经网
    发表于 12-23 08:07

    全志R128芯片 如何在FreeRTOS下对代码源文件进行快速预处理

    1.主题FreeRTOS_R128_如何对代码源文件进行快速预处理2.问题背景硬件:R128软件:FreeRTOS客户在日常的开发过程中,会碰到源文件中有许多的宏或许多条件编译的代码,有时候需要
    发表于 03-17 10:23

    C语言预处理命令有哪些?

    往往我说今天上课的内容是预处理时,便有学生质疑:预处理不就是include 和define么?这也用得着讲啊?。是的,非常值得讨论,即使是include 和define。但是预处理仅限
    发表于 06-25 06:15

    C语言的编译预处理

    在将一个C源程序转换为可执行程序的过程中, 编译预处理是最初的步骤. 这一步骤是由预处理器(preprocessor)来完成的. 在源流程序
    发表于 09-20 18:17 47次下载

    浅析VerilogHDL编译系统的预处理

    。在Verilog HDL语言编译时,特定的编译指令在整个编译过程中有效(编译过程可跨越多个文件),直到遇到其他不同的编译程序指令。常用的编译预处理语句如下:
    发表于 03-26 16:10 656次阅读

    机器学习的特征预处理问题讨论

    本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理
    的头像 发表于 03-15 17:14 726次阅读

    C语言预处理指令及分类

    C/C++ 程序中的源代码中包含以 # 开头的各种编译指令,这些指令称为预处理指令。预处理指令不属于 C/C++ 语言的语法,但在一定意义上可以说预处理扩展了 C/C++。
    的头像 发表于 11-29 10:14 2002次阅读

    textCNN论文与原理——短文本分类

    包是处理图片的torchvision,而处理文本的少有提及,快速处理文本数据的包也是有的,那就是torchtext[1]。下面还是结合上一个
    的头像 发表于 12-31 10:08 2250次阅读
    textCNN<b class='flag-5'>论文</b>与原理——短<b class='flag-5'>文本</b>分类

    C语言-预处理(#define、#if...)

    在C语言程序里,出现的#开头的代码段都属于预处理预处理:是在程序编译阶段就执行的代码段。
    的头像 发表于 08-14 10:13 1624次阅读

    预处理相关知识点总结

    编译一个 C 程序设计很多步骤。其中第 1 个步骤被称为预处理阶段。C 预处理器在源代码编译之前对其进行一些文本性质的操作。他的主要任务包括
    的头像 发表于 05-31 09:52 394次阅读
    <b class='flag-5'>预处理</b>相关知识点总结

    C语言有哪些预处理操作?

    C语言的预处理是在编译之前对源代码进行处理的阶段,它主要由预处理器完成。预处理器是一个独立的程序,它负责对源代码进行一些文本替换和
    的头像 发表于 12-08 15:40 290次阅读
    C语言有哪些<b class='flag-5'>预处理</b>操作?