数据挖掘常用算法-电子发烧友网

数据挖掘常用算法

1、朴素贝叶斯

朴素贝叶斯（NB）属于生成式模型（即需要计算特征与类的联合概率分布），计算过程非常简单，只是做了一堆计数。NB有一个条件独立性假设，即在类已知的条件下，各个特征之间的分布是独立的。这样朴素贝叶斯分类器的收敛速度将快于判别模型，如逻辑回归，所以只需要较少的训练数据即可。即使NB条件独立假设不成立，NB分类器在实践中仍然表现的很出色。它的主要缺点是它不能学习特征间的相互作用，用mRMR中的R来讲，就是特征冗余。

2、逻辑回归（logisticregression）

逻辑回归是一个分类方法，属于判别式模型，有很多正则化模型的方法（L0，L1，L2），而且不必像在用朴素贝叶斯那样担心特征是否相关。与决策树与SVM相比，还会得到一个不错的概率解释，甚至可以轻松地利用新数据来更新模型（使用在线梯度下降算法onlinegradientdescent）。如果需要一个概率架构（比如，简单地调节分类阈值，指明不确定性，或者是要获得置信区间），或者希望以后将更多的训练数据快速整合到模型中去，那么可以使用它。

3、最近邻算法——KNN

KNN即最近邻算法，其主要过程为：计算训练样本和测试样本中每个样本点的距离（常见的距离度量有欧式距离，马氏距离等）；对上面所有的距离值进行排序；选前k个最小距离的样本；根据这k个样本的标签进行投票，得到最后的分类类别；

如何选择一个最佳的K值，这取决于数据。一般情况下，在分类时较大的K值能够减小噪声的影响。但会使类别之间的界限变得模糊。一个较好的K值可通过各种启发式技术来获取，比如，交叉验证。另外噪声和非相关性特征向量的存在会使K近邻算法的准确性减小。

近邻算法具有较强的一致性结果。随着数据趋于无限，算法保证错误率不会超过贝叶斯算法错误率的两倍。对于一些好的K值，K近邻保证错误率不会超过贝叶斯理论误差率。

4、决策树

可以处理特征间的交互关系并且是非参数化的，因此不必担心异常值或者数据是否线性可分（举个例子，决策树能轻松处理好类别A在某个特征维度x的末端，类别B在中间，然后类别A又出现在特征维度x前端的情况）。它的缺点之一就是不支持在线学习，于是在新样本到来后，决策树需要全部重建。另一个缺点就是容易出现过拟合，但这也就是诸如随机森林RF（或提升树boostedtree）之类的集成方法的切入点。另外，随机森林经常在很多分类问题上表现很好（通常比支持向量机好一些），它训练快速并且可调，同时无须担心要像支持向量机那样调一大堆参数，所以在以前一直很受欢迎。

5、Adaboosting

Adaboost是一种加和模型，每个模型都是基于上一次模型的错误率来建立的，过分关注分错的样本，而对正确分类的样本减少关注度，逐次迭代之后，可以得到一个相对较好的模型。Adaboost是一种典型的boosting算法。

6、SVM支持向量机

高准确率，为避免过拟合提供了很好的理论保证，而且就算数据在原特征空间线性不可分，只要给个合适的核函数，它就能运行得很好。在动辄超高维的文本分类问题中特别受欢迎。可惜内存消耗大，难以解释，运行和调参也有些烦人，而随机森林却刚好避开了这些缺点，比较实用。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据挖掘

数据挖掘

+关注

关注
1

文章
405

浏览量
24034

数据挖掘的应用领域,并举例说明

数据挖掘（Data Mining）是一种从大量数据中提取出有意义的信息和模式的技术。它结合了数据库、统计学、机器学习和人工智能等领域的理论和方法，通过高效的

发表于 02-03 14:19 •515次阅读

常用的校验算法有哪些？

常用的校验算法有哪些，是不是和通信规约有关。比如MODBUS一般都用CRC16（不确定是不是叫这个）。这些校验算法是之前积累下来的吗。自己也可以定义一个校验算法吧，只要发送端和接收端用

发表于 11-03 06:50

机器学习与数据挖掘方法和应用

机器学习与数据挖掘方法和应用（经典）

发表于 09-26 07:56

基于Python实现随机森林算法

机器学习算法是数据挖掘、数据能力分析和数学建模必不可少的一部分，而随机森林算法和决策树算法是其中

发表于 09-21 11:17 •653次阅读

关于数据挖掘的十种算法原理讲解

数据挖掘主要分为三类：分类算法、聚类算法和相关规则，基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典

发表于 09-18 15:00 •656次阅读

关于<b class='flag-5'>数据</b><b class='flag-5'>挖掘</b>的十种<b class='flag-5'>算法</b>原理讲解

一文弄懂数据挖掘的十大算法，数据挖掘算法原理讲解

数据挖掘主要分为三类：分类算法、聚类算法和相关规则，基本涵盖了当前商业市场对算法的所有需求。这三类包含了许多经典

发表于 09-14 15:56 •532次阅读

一文弄懂<b class='flag-5'>数据</b><b class='flag-5'>挖掘</b>的十大<b class='flag-5'>算法</b>，<b class='flag-5'>数据</b><b class='flag-5'>挖掘</b><b class='flag-5'>算法</b>原理讲解

机器学习与数据挖掘的区别机器学习与数据挖掘的关系

机器学习与数据挖掘的区别，机器学习与数据挖掘的关系机器学习与数据挖掘是如今热门的领域。随着

发表于 08-17 16:30 •1520次阅读

数据挖掘和机器学习之间的关系

数据挖掘和机器学习之间的关系数据挖掘和机器学习是两个非常相关的领域，但是在很多情况下它们被误解为是同一种东西。事实上，数据

发表于 08-17 16:29 •2316次阅读

数据挖掘和机器学习有什么关系

数据挖掘和机器学习有什么关系数据挖掘和机器学习是两个不同的概念，但它们有一些重要的相似之处。这篇文章将详细介绍数据

发表于 08-17 16:29 •2068次阅读

数据挖掘十大算法

数据挖掘十大算法数据挖掘是目前最热门的技术和概念之一。数据

发表于 08-17 16:29 •1835次阅读

python数据挖掘案例

python数据挖掘案例 Python数据挖掘在各个领域中应用非常广泛。它可以帮助我们从大量的数据中挖掘

发表于 08-17 16:29 •848次阅读

python数据挖掘与机器学习

python数据挖掘与机器学习 Python是一个非常流行的编程语言，被广泛用于数据挖掘和机器学习领域。在本篇文章中，我们将探讨Python在数据

发表于 08-17 16:29 •884次阅读

数据挖掘的流程数据挖掘分类算法

　　分类是用于识别什么样的事务属于哪一类的方法，可用于分类的算法有决策树、bayes分类、神经网络、支持向量机等等。　　数据挖掘的一般流程　　第一步，建立模型，确定数据表中哪些列是要用

发表于 07-18 17:00 •0次下载

数据挖掘定义及方法数据挖掘在微电子领域的应用

　　摘要：本文首先介绍了微电子领域及该领域中半导体制造的发展现状，然后分析了数据挖掘在半导体制造中应用的必要性和可行性。最后重点讨论数据挖掘技术在研究晶圆制造质量异常问题中的应用，文章

发表于 07-18 15:43 •0次下载

详细介绍8种最常用的排序算法

在计算机科学领域中，排序算法是一种基本的算法。排序算法可以将一个数据集合重新排列成一个按照某种规则有序的集合，常用于

发表于 06-06 14:52 •2334次阅读

搜索历史

数据挖掘常用算法