0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

文本数据分析:文本挖掘还是自然语言处理?

zhKF_jqr_AI 来源:未知 作者:李倩 2018-04-10 14:58 次阅读

数据分析师Seth Grimes曾指出“80%的商业信息来自非结构化数据,主要是文本数据”,这一表述可能夸大了文本数据在商业数据中的占比,但是文本数据的蕴含的信息价值毋庸置疑。KDnuggets的编辑、机器学习研究者和数据科学家Matthew Mayo就在网站上写了一个有关文本数据分析的文章系列。本文是该系列的第一篇,主要讲述了文本数据分析的大致步骤和框架。以下是论智对原文的编译。

虽然NLP和文本挖掘不是一回事儿,但它们仍是紧密相关的:它们处理同样的原始数据类型、在使用时还有很多交叉。下面我们就来描述一下这些任务的处理步骤。

如今的文本数据量非常之大,许多都是从日常生活中产生的,其中既有结构化的,也有半结构化甚至混乱的数据。我们对此能做什么?事实上,能做的有很多,这取决于你的目标是什么。

文本挖掘还是自然语言处理?

自然语言处理(NLP)关注的是人类的自然语言与计算机设备之间的相互关系。NLP是计算机语言学的重要方面之一,它同样也属于计算机科学和人工智能领域。而文本挖掘和NLP的存在领域类似,它关注的是识别文本数据中有趣并且重要的模式。

但是,这二者仍有不同。首先,这两个概念并没有明确的界定(就像“数据挖掘”和“数据科学”一样),并且在不同程度上二者相互交叉,具体要看与你交谈的对象是谁。我认为通过洞见级别来区分是最容易的。如果原始文本是数据,那么文本挖掘就是信息,NLP就是知识,也就是语法和语义的关系。下面的金字塔表示了这种关系:

数据处理,自然语言

另一种区分这两个概念的方法是用下方的韦恩图区分,其中也涉及其他相关概念,从而能更好地表示它们之间重叠的关系。

数据处理,自然语言处理

我们的目的并不是二者绝对或相对的定义,重要的是要认识到,这两种任务下对数据的预处理是相同的。

努力消除歧义是文本预处理很重要的一个方面,我们希望保留原本的含义,同时消除噪音。为此,我们需要了解:

关于语言的知识

关于世界的知识

结合知识来源的方法

除此之外,下图所示的六个因素也加大了文本数据处理的难度,包括非标准的语言表述、断句问题、习惯用语、新兴词汇、常识以及复杂的名词等等。

数据处理,自然语言处理

文本数据科学任务框架

我们能否为文本数据的处理制作一个高效并且通用的框架呢?我们发现,处理文本和处理其他非文本的任务很相似,可以查看我之前写的KDD Process作为参考。

以下就是处理文本任务的几大主要步骤:

1.数据收集

获取或创建语料库,来源可以是邮箱、英文维基百科文章或者公司财报,甚至是莎士比亚的作品等等任何资料

2.数据预处理

在原始文本语料上进行预处理,为文本挖掘或NLP任务做准备

数据预处理分为好几步,其中有些步骤可能适用于给定的任务,也可能不适用。但通常都是标记化、归一化和替代的其中一种。

3.数据挖掘和可视化

无论我们的数据类型是什么,挖掘和可视化是探寻规律的重要步骤

常见任务可能包括可视化字数和分布,生成wordclouds并进行距离测量

4.模型搭建

这是文本挖掘和NLP任务进行的主要部分,包括训练和测试

在适当的时候还会进行特征选择和工程设计

语言模型:有限状态机、马尔可夫模型、词义的向量空间建模

机器学习分类器:朴素贝叶斯、逻辑回归、决策树、支持向量机、神经网络

序列模型:隐藏马尔可夫模型、循环神经网络(RNN)、长短期记忆神经网络(LSTMs)

5.模型评估

模型是否达到预期?

度量标准将随文本挖掘或NLP任务的类型而变化

即使不做聊天机器人或生成模型,某种形式的评估也是必要的

在下篇连载中,我将为大家带来在文本数据任务中,对数据预处理的框架的进一步探索,敬请关注。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据处理
    +关注

    关注

    0

    文章

    510

    浏览量

    28248
  • 自然语言处理

    关注

    1

    文章

    509

    浏览量

    13103

原文标题:文本数据分析(一):基本框架

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    自然语言处理包括哪些内容 自然语言处理技术包括哪些

    自然语言处理(Natural Language Processing, NLP)一般包括以下内容: 语音识别(Speech Recognition):将人类语言转换为计算机可以理解的形式。 语音合成
    的头像 发表于 08-03 16:22 3925次阅读

    python自然语言

    最近,python自然语言是越来越火了,那么什么是自然语言自然语言(Natural Language )广纳了众多技术,对自然或人类语言
    发表于 05-02 13:50

    NLPIR语义分析是对自然语言处理的完美理解

    ,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。包括大数据完整的技术链条:
    发表于 10-19 11:34

    自然语言处理怎么最快入门?

    `本文整理自知乎上的一个问答,分享给正在学习自然语言处理的朋友们!一、自然语言处理是什么?自然语言
    发表于 11-28 10:02

    灵玖软件:NLPIR智能挖掘系统专注中文处理

    语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜
    发表于 01-21 11:39

    语义理解和研究资源是自然语言处理的两大难题

    都是为了解决低资源问题。自然语言处理在一些特定领域的应用时,会受到资源不足的影响。一般现在采用的主要方法是对引入领域知识,通过增加人工标注数据,使用半监督利用标注数据;或者采用多任务学
    发表于 09-19 14:10

    【推荐体验】腾讯云自然语言处理

    自然语言处理技术的功劳。可以说,只要有大量文本数据的应用场景,几乎都涉及到NLP技术,也都可以使用相关自然语言处理产品的接口来做智能
    发表于 10-09 15:28

    NLPIR平台实现文本挖掘的一站式应用

    的工具。语义智能分析的全链条指的是从语料数据的采集预处理,经过自然语言处理文本
    发表于 11-07 16:43

    什么是自然语言处理

    什么是自然语言处理自然语言处理任务有哪些?自然语言处理的方法是什么?
    发表于 09-08 06:51

    自然语言处理技术可助力机器学习加快挖掘数据

    目前,产业界正发力钻研人工智利用数据的高效方法。通过自然语言处理和主题建模可以使技术优化、竞争分析和微弱信号检测等流程得到改善,加快海量文本数据分析
    的头像 发表于 04-11 15:06 1683次阅读

    自然语言处理(NLP)的学习方向

    科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。
    的头像 发表于 07-06 16:30 1.3w次阅读

    自然语言处理的图像文本建模相关研究及分析

    近年来,图像文本建模研究已经成为自然语言处理领域一个重要的硏究方向。图像常被用于增强句子的语义理解与表示。然而也有硏究人员对图像信息用于句子语义理解的必要性提岀质疑,原因是文本本身就能
    发表于 03-24 11:33 27次下载
    <b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>的图像<b class='flag-5'>文本</b>建模相关研究及<b class='flag-5'>分析</b>

    NLA自然语言分析,助力解决数据分析的难题

    NLA自然语言分析便是顺应数据分析大环境而诞生的一项功能,为用户提供更加智能便捷的数据分析
    发表于 06-02 10:07 363次阅读

    自然语言理解问答对话文本数据,赋予计算机智能交流的能力

    自然语言理解(Natural Language Understanding,简称NLU)问答对话文本数据是现代人工智能领域的一项重要资源。这些数据集涵盖了用户与计算机之间的自然语言交互
    的头像 发表于 08-07 18:11 417次阅读

    自然语言处理和人工智能的区别

      自然语言处理(Natural Language Processing,NLP)是人工智能(AI)中的一个分支,它利用计算机技术对自然语言进行处理,使得电脑能够理解和操作人类
    发表于 08-28 17:32 935次阅读