浅析自然语言处理知识体系结构-电子发烧友网

自然语言处理知识太庞大了，网上也都是一些零零散散的知识，比如单独讲某些模型，也没有来龙去脉，学习起来较为困难，于是我自己总结了一份知识体系结构，内容来源主要参考黄志洪老师的自然语言处理课程，主要参考书为宗成庆老师的《统计自然语言处理》，可能很多内容写的不清楚，但好像中文NLP书籍就这一本全一些。

▌一、自然语言处理概述

1）自然语言处理：利用计算机为工具，对书面实行或者口头形式进行各种各样的处理和加工的技术，是研究人与人交际中以及人与计算机交际中的演员问题的一门学科，是人工智能的主要内容。

2）自然语言处理是研究语言能力和语言应用的模型，建立计算机（算法）框架来实现这样的语言模型，并完善、评测、最终用于设计各种实用系统。

3）研究问题（主要）：

信息检索

机器翻译

文档分类

问答系统

信息过滤

自动文摘

信息抽取

文本挖掘

舆情分析

机器写作

语音识别

研究模式：自然语言场景问题，数学算法，算法如何应用到解决这些问题，预料训练，相关实际应用

自然语言的困难：

场景的困难：语言的多样性、多变性、歧义性

学习的困难：艰难的数学模型（hmm,crf,EM,深度学习等）

语料的困难：什么的语料？语料的作用？如何获取语料？

▌二、形式语言与自动机

语言：按照一定规律构成的句子或者字符串的有限或者无限的集合。

描述语言的三种途径：

穷举法

文法（产生式系统）描述

自动机

自然语言不是人为设计而是自然进化的，形式语言比如：运算符号、化学分子式、编程语言形式语言理论朱啊哟研究的是内部结构模式这类语言的纯粹的语法领域，从语言学而来，作为一种理解自然语言的句法规律，在计算机科学中，形式语言通常作为定义编程和语法结构的基础形式语言与自动机基础知识：

集合论

图论

自动机的应用：

单词自动查错纠正

词性消歧（什么是词性？什么的词性标注？为什么需要标注？如何标注？）

形式语言的缺陷：

对于像汉语，英语这样的大型自然语言系统，难以构造精确的文法

不符合人类学习语言的习惯

有些句子语法正确，但在语义上却不可能，形式语言无法排出这些句子

解决方向：基于大量语料，采用统计学手段建立模型

▌三、语言模型

1）语言模型（重要）：通过语料计算某个句子出现的概率（概率表示），常用的有2-元模型，3-元模型

2）语言模型应用：

语音识别歧义消除例如，给定拼音串：tashiyanyanjiusaunfade

可能的汉字串：踏实烟酒算法的他是研究酸法的他是研究算法的，显然，最后一句才符合。

3）语言模型的启示：

开启自然语言处理的统计方法

统计方法的一般步骤：

收集大量语料

对语料进行统计分析，得出知识

针对场景建立算法模型

解释和应用结果

4）语言模型性能评价，包括评价目标，评价的难点，常用指标（交叉熵，困惑度）

5）数据平滑：

数据平滑的概念，为什么需要平滑？

平滑的方法，加一法，加法平滑法，古德-图灵法，J-M法，Katz平滑法等。

6）语言模型的缺陷：

语料来自不同的领域，而语言模型对文本类型、主题等十分敏感。

n与相邻的n-1个词相关，假设不是很成立。

▌四、概率图模型，生成模型与判别模型，贝叶斯网络，马尔科夫链与隐马尔科夫模型（HMM）

1）概率图模型概述（什么的概率图模型，参考清华大学教材《概率图模型》）

2）马尔科夫过程（定义，理解）

3）隐马尔科夫过程（定义，理解）

HMM的三个基本问题（定义，解法，应用）

注：第一个问题，涉及最大似然估计法，第二个问题涉及EM算法，第三个问题涉及维特比算法，内容很多，要重点理解，（参考书李航《统计学习方法》，网上博客，笔者github）

▌五、马尔科夫网，最大熵模型，条件随机场（CRF）

1)HMM的三个基本问题的参数估计与计算

2）什么是熵

3）EM算法（应用十分广泛，好好理解）

4）HMM的应用

5）层次化马尔科夫模型与马尔科夫网络

提出原因，HMM存在两个问题

6）最大熵马尔科夫模型

优点：与HMM相比，允许使用特征刻画观察序列，训练高效

缺点：存在标记偏置问题

7）条件随机场及其应用(概念，模型过程，与HMM关系)

参数估计方法（GIS算法，改进IIS算法）

CRF基本问题：特征选取（特征模板）、概率计算、参数训练、解码（维特比）

应用场景：

词性标注类问题（现在一般用RNN+CRF）

中文分词（发展过程，经典算法，了解开源工具jieba分词）

中文人名，地名识别

8）CRF++

▌六、命名实体识别，词性标注，内容挖掘、语义分析与篇章分析（大量用到前面的算法）

1）命名实体识别问题

python自然语言

最近，python自然语言是越来越火了，那么什么是自然语言。自然语言（Natural Language ）广纳了众多技术，对自然或人类语言进

发表于 05-02 13:50

NLPIR语义分析是对自然语言处理的完美理解

和逻辑表示。语义分析就是对信息所包含的语义的识别，并建立一种计算模型，使其能够像人那样理解自然语言。语义分析是自然语言理解的根本问题，它在自然语言处理、信息检索、信息过滤、信息分类、语

发表于 10-19 11:34

hanlp汉语自然语言处理入门基础知识介绍

，援引《统计自然语言处理》中的定义：形态学（morphology）：形态学（又称“词汇形态学”或“词法”）是语言学的一个分支，研究词的内部结构，包括屈折变化和构词法两个部分。由于词具有

发表于 01-02 14:43

语义理解和研究资源是自然语言处理的两大难题

两方面，语义理解和资源问题。语义理解包括对自然语言知识和常识的学习，如果只是要学习机器的知识，对于人类来说并不难，但是如果让机器掌握人的思考模式和处理方法模式，其模式构建和具体实施则

发表于 09-19 14:10

【推荐体验】腾讯云自然语言处理

结构化抽取，有效辅助人工，降低人力参与成本。因为现在腾讯云自然语言处理产品公测免费，所以我注册了腾讯云账号去专门体验了一下，最直观的感受就是确实如产品介绍中说的：开箱即用的NLP能力，满足各种文本智能需求

发表于 10-09 15:28

自然语言处理的语言模型

自然语言处理——53 语言模型（数据平滑）

发表于 04-16 11:11

什么是自然语言处理

什么是自然语言处理？自然语言处理任务有哪些？自然语言处理的方法是什么？

发表于 09-08 06:51

基于自然语言处理的知识检索算法研究

基于自然语言处理的知识检索算法研究_贾润亮

发表于 01-07 21:39 •1次下载

自然语言处理怎么最快入门_自然语言处理知识了解

自然语言处理就是实现人机间自然语言通信，实现自然语言理解和自然语言生成是十分困难的，造成困难的根本原因是

发表于 12-28 17:10 •5119次阅读

自然语言处理的优点有哪些_自然语言处理的5大优势

在自然语言处理领域，深度学习的承诺是：给新模型带来更好的性能，这些新模型可能需要更多数据，但不再需要那么多的语言学专业知识。

发表于 12-29 13:52 •2.7w次阅读

自然语言处理（NLP）知识结构总结

自然语言处理知识太庞大了，网上也都是一些零零散散的知识，比如单独讲某些模型，也没有来龙去脉，学习起来较为困难，于是我自己总结了一份知识体系结构

发表于 08-29 09:58 •4430次阅读

搜索历史

浅析自然语言处理知识体系结构

评论

python自然语言

NLPIR语义分析是对自然语言处理的完美理解

hanlp汉语自然语言处理入门基础知识介绍

语义理解和研究资源是自然语言处理的两大难题

【推荐体验】腾讯云自然语言处理

自然语言处理的分词方法

自然语言处理的语言模型

自然语言处理的词性标注方法

求自然语言处理笔记

自然语言处理——总结、习题

什么是自然语言处理

基于自然语言处理的知识检索算法研究

自然语言处理怎么最快入门_自然语言处理知识了解

自然语言处理的优点有哪些_自然语言处理的5大优势

自然语言处理（NLP）知识结构总结