0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据挖掘常用算法

工程师 来源:网络整理 作者:h1654155205.5246 2019-04-10 16:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据挖掘常用算法

1、朴素贝叶斯

朴素贝叶斯(NB)属于生成式模型(即需要计算特征与类的联合概率分布),计算过程非常简单,只是做了一堆计数。NB有一个条件独立性假设,即在类已知的条件下,各个特征之间的分布是独立的。这样朴素贝叶斯分类器的收敛速度将快于判别模型,如逻辑回归,所以只需要较少的训练数据即可。即使NB条件独立假设不成立,NB分类器在实践中仍然表现的很出色。它的主要缺点是它不能学习特征间的相互作用,用mRMR中的R来讲,就是特征冗余。

2、逻辑回归(logisticregression)

逻辑回归是一个分类方法,属于判别式模型,有很多正则化模型的方法(L0,L1,L2),而且不必像在用朴素贝叶斯那样担心特征是否相关。与决策树与SVM相比,还会得到一个不错的概率解释,甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法onlinegradientdescent)。如果需要一个概率架构(比如,简单地调节分类阈值,指明不确定性,或者是要获得置信区间),或者希望以后将更多的训练数据快速整合到模型中去,那么可以使用它。

3、最近邻算法——KNN

KNN即最近邻算法,其主要过程为:计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);对上面所有的距离值进行排序;选前k个最小距离的样本;根据这k个样本的标签进行投票,得到最后的分类类别;

如何选择一个最佳的K值,这取决于数据。一般情况下,在分类时较大的K值能够减小噪声的影响。但会使类别之间的界限变得模糊。一个较好的K值可通过各种启发式技术来获取,比如,交叉验证。另外噪声和非相关性特征向量的存在会使K近邻算法的准确性减小。

近邻算法具有较强的一致性结果。随着数据趋于无限,算法保证错误率不会超过贝叶斯算法错误率的两倍。对于一些好的K值,K近邻保证错误率不会超过贝叶斯理论误差率。

4、决策树

可以处理特征间的交互关系并且是非参数化的,因此不必担心异常值或者数据是否线性可分(举个例子,决策树能轻松处理好类别A在某个特征维度x的末端,类别B在中间,然后类别A又出现在特征维度x前端的情况)。它的缺点之一就是不支持在线学习,于是在新样本到来后,决策树需要全部重建。另一个缺点就是容易出现过拟合,但这也就是诸如随机森林RF(或提升树boostedtree)之类的集成方法的切入点。另外,随机森林经常在很多分类问题上表现很好(通常比支持向量机好一些),它训练快速并且可调,同时无须担心要像支持向量机那样调一大堆参数,所以在以前一直很受欢迎。

5、Adaboosting

Adaboost是一种加和模型,每个模型都是基于上一次模型的错误率来建立的,过分关注分错的样本,而对正确分类的样本减少关注度,逐次迭代之后,可以得到一个相对较好的模型。Adaboost是一种典型的boosting算法。

6、SVM支持向量机

高准确率,为避免过拟合提供了很好的理论保证,而且就算数据在原特征空间线性不可分,只要给个合适的核函数,它就能运行得很好。在动辄超高维的文本分类问题中特别受欢迎。可惜内存消耗大,难以解释,运行和调参也有些烦人,而随机森林却刚好避开了这些缺点,比较实用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24969
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    单片机的算法

    平滑滤波算法 设置一个数据缓存区,每新采集一个数据便存入暂存区中,同时去掉一个最老数据,保存这N个数据始终是最新更新的
    发表于 11-28 08:19

    C语言的常见算法

    # C语言常见算法 C语言中常用算法可以分为以下几大类: ## 1. 排序算法 ### 冒泡排序 (Bubble Sort) ```c void bubbleSort(int
    发表于 11-24 08:29

    8种常用的CRC算法分享

    CRC 计算单元可按所选择的算法和参数配置来生成数据流的 CRC 码。有些应用中,可利用 CRC 技术来验证数据的传输和存储的完整性。 8 种常用的 CRC
    发表于 11-13 07:25

    奥松电子协办第二届智能计算与数据挖掘国际学术会议

    2025年10月24日至26日,第二届智能计算与数据挖掘国际学术会议(ICDM 2025)在中国广州隆重举行。本次会议由广州航海学院、汕头大学、广东省数智科技研究会联合主办,广州奥松电子股份有限公司作为协办单位之一,携手多家产业机构,共同推动智能计算与
    的头像 发表于 11-03 14:18 397次阅读

    国密系列算法简介及SM4算法原理介绍

    一、 国密系列算法简介 国家商用密码算法(简称国密/商密算法),是由我国国家密码管理局制定并公布的密码算法标准。其分类1所示: 图1 国家商用密码
    发表于 10-24 08:25

    加密算法的应用

    ,加密和解密速度相对较慢,适用于数据量较小的场景,所以常用来传输对称加密的密钥。常见的非对称加密算法包括RSA、ECC等。 4. 加密算法的应用场景 加密技术的应用场景非常广
    发表于 10-24 08:03

    数据滤波算法的具体实现步骤是怎样的?

      数据滤波算法在电能质量在线监测装置中的具体实现,需围绕 “ 数据采集→预处理→算法执行→参数适配→效果验证→结果输出 ” 的全流程展开,核心是结合装置硬件特性(采样率、ADC 精度
    的头像 发表于 10-10 16:45 427次阅读

    XKCON祥控输煤皮带智能机器人巡检系统对监测数据进行挖掘分析

    XKCON祥控输煤皮带智能机器人巡检系统通过智能机器人在皮带运行过程中对皮带的运行状态和环境状况进行实时检测,在应用过程中,不但提升了巡视周期频次,还通过大数据分析和深度学习算法,对监测数据进行
    的头像 发表于 09-15 11:22 406次阅读
    XKCON祥控输煤皮带智能机器人巡检系统对监测<b class='flag-5'>数据</b>进行<b class='flag-5'>挖掘</b>分析

    基于数据算法驱动的配方研发新模式

    基于数据算法驱动的配方研发新模式 随着人工智能、大数据和机器学习技术的快速发展,传统依赖经验和试错的配方研发模式正逐步向数据驱动、算法优化的
    的头像 发表于 08-06 17:25 788次阅读

    用树莓派挖掘5种顶级加密货币!

    挖掘的最佳加密货币可通过CPU或硬盘挖掘获得。这些加密货币采用“抗ASIC”算法,树莓派能够处理并解决这些算法。我将为您介绍适合在树莓派上挖掘
    的头像 发表于 07-21 16:34 928次阅读
    用树莓派<b class='flag-5'>挖掘</b>5种顶级加密货币!

    物联网感知数据挖掘:赋能万物智联的核心引擎

    背后,数据挖掘与分析技术正成为解锁设备潜能、驱动产业变革的关键钥匙。 一、从数据到洞察:六大核心价值维度 1. 价值转化器:解锁设备数据的商业密码 工业传感器产生的振动频谱、智能电表的
    的头像 发表于 06-17 16:22 493次阅读

    达梦数据常用管理SQL命令详解

    达梦数据常用管理SQL命令详解
    的头像 发表于 06-17 15:12 6573次阅读
    达梦<b class='flag-5'>数据</b>库<b class='flag-5'>常用</b>管理SQL命令详解

    单片机常用算法源码下载!

    单片机常用算法源码下载!
    发表于 06-10 20:44

    三一挖掘机一键启动开关易坏的原因及更换注意事项

    三一挖掘机一键启动开关易坏的原因虽然三一挖掘机的一键启动系统设计旨在提高便利性和安全性,但在实际使用中,可能会出现一些问题导致开关易坏。这些问题可能包括:频繁使用:挖掘机在施工过程中频繁启动和关闭
    发表于 03-12 09:29

    易华录智慧交管大模型实现交通数据价值的深度挖掘与应用

    易华录将多年积累的数据治理经验与DeepSeek卓越的推理能力深度融合,实现了交通数据价值的深度挖掘与应用。“DeepSeek+小易”智能引擎双驱动,让交通管控更智能、更高效,让每一位交警真切感
    的头像 发表于 03-08 13:48 1380次阅读