0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习和数据挖掘的关系

新机器视觉 来源:机器学习算法与Python实战 作者:机器学习算法与 2022-06-29 10:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在开篇之前,想和大家聊一下机器学习和数据挖掘的关系。

数据挖掘只是机器学习中涉猎的领域之一,机器学习还有模式识别、计算机视觉语音识别、统计学习以及自然语言处理等。

机器学习即 ML,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习作为人工智能研究较为年轻的分支,机器学习也分监督学习和非监督学习,同时随着人工智能越来越被人们重视和越热,深度学习也是机器学习的一个新的领域。

机器学习,从知识清单开始

我们第一天学开车的时候一定不会直接上路,而是要你先学习基本的知识,然后再进行上车模拟。

只有对知识有全面的认知,才能确保在以后的工作中即使遇到了问题,也可以快速定位问题所在,然后找方法去对应和解决。

所以我列了一个机器学习入门的知识清单,分别是机器学习的一般流程、十大算法、算法学习的三重境界,以此来开启我们的学习之旅。

一、机器学习的基本流程

b9f9a8b6-f6e9-11ec-ba43-dac502259ad0.jpg

引用大佬的解释:

A computer program is said to learn fromexperience E with respect to some task T and some performance measure P,if itsperformance on T,as measured by P,improves with experience E. —Tom Mitchell

简单来说,机器学习就是针对现实问题,使用我们输入的数据对算法进行训练,算法在训练之后就会生成一个模型,这个模型就是对当前问题通过数据捕捉规律的描述。然后我们将模型进一步导入数据,或者引入新的数据集进行评估,根据结果的好坏反过来调整算法,形成反馈和优化闭环。整个过程机器在不断的学习、训练和优化迭代,这个也是机器学习强大的地方。

二、机器学习的十大算法

为了进行机器学习和数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织 ICDM(the IEEE International Conference on Data Mining)评选出了十大经典的算法。

按照不同的目的,我可以将这些算法分成四类,以便你更好的理解。

分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART

聚类算法:K-Means,EM

关联分析:Apriori

连接分析:PageRank

1. C4.5

C4.5 算法是得票最高的算法,可以说是十大算法之首。C4.5 是决策树的算法,它创造性地在决策树构造过程中就进行了剪枝,并且可以处理连续的属性,也能对不完整的数据进行处理。它可以说是决策树分类中,具有里程碑式意义的算法。

2.朴素贝叶斯(NaiveBayes)

朴素贝叶斯模型是基于概率论的原理,它的思想是这样的:对于给出的未知物体想要进行分类,就需要求解在这个未知物体出现的条件下各个类别出现的概率,哪个最大,就认为这个未知物体属于哪个分类。

3. SVM

SVM 的中文叫支持向量机,英文是 SupportVector Machine,简称 SVM。SVM 在训练中建立了一个超平面的分类模型。

4. KNN

KNN 也叫 K 最近邻算法,英文是 K-Nearest Neighbor。所谓 K 近邻,就是每个样本都可以用它最接近的 K 个邻居来代表。如果一个样本,它的 K 个最接近的邻居都属于分类 A,那么这个样本也属于分类 A。

5. AdaBoost

Adaboost 在训练中建立了一个联合的分类模型。boost 在英文中代表提升的意思,所以 Adaboost 是个构建分类器的提升算法。它可以让我们多个弱的分类器组成一个强的分类器,所以 Adaboost 也是一个常用的分类算法。

6. CART

CART 代表分类和回归树,英文是 Classificationand Regression Trees。像英文一样,它构建了两棵树:一颗是分类树,另一个是回归树。和C4.5 一样,它是一个决策树学习方法。

7. Apriori

Apriori 是一种挖掘关联规则(association rules)的算法,它通过挖掘频繁项集(frequentitem sets)来揭示物品之间的关联关系,被广泛应用到商业挖掘和网络安全等领域中。频繁项集是指经常出现在一起的物品的集合,关联规则暗示着两种物品之间可能存在很强的关系。

8. K-Means

K-Means 算法是一个聚类算法。你可以这么理解,最终我想把物体划分成 K 类。假设每个类别里面,都有个“中心点”,即意见领袖,它是这个类别的核心。现在我有一个新点要归类,这时候就只要计算这个新点与K 个中心点的距离,距离哪个中心点近,就变成了哪个类别。

9. EM

EM 算法也叫最大期望算法,是求参数的最大似然估计的一种方法。原理是这样的:假设我们想要评估参数 A 和参数 B,在开始状态下二者都是未知的,并且知道了 A 的信息就可以得到 B 的信息,反过来知道了 B 也就得到了 A。可以考虑首先赋予A 某个初值,以此得到 B 的估值,然后从 B 的估值出发,重新估计 A 的取值,这个过程一直持续到收敛为止。

EM 算法经常用于聚类和机器学习领域中。

10. PageRank

PageRank 起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强。同样 PageRank 被 Google 创造性地应用到了网页权重的计算中:当一个页面链出的页面越多,说明这个页面的“参考文献”越多,当这个页面被链入的频率越高,说明这个页面被引用的次数越高。基于这个原理,我们可以得到网站的权重划分。

算法可以说是机器学习的灵魂,也是最精华的部分。这 10 个经典算法在整个机器学习领域中的得票最高的,后面的一些其他算法也基本上都是在这个基础上进行改进和创新。今天你先对十大算法有一个初步的了解,你只需要做到心中有数就可以了。

三、机器学习的三大境界

1.掌握算法入口出口

第一重境界,将算法本身是做黑箱,在不知道算法具体原理的情况下能够掌握算法的基本应用情景(有监督、无监督),以及算法的基本使用情景,能够调包实现算法。

2.理解原理,灵活调优

第二重境界则是能够深入了解、掌握算法原理,并在此基础上明白算法实践过程中的关键技术、核心参数,最好能够利用编程语言手动实现算法,能够解读算法执行结果,并在理解原理的基础上对通过调参对算法进行优化。

3.融会贯通,设计算法

最后一重境界,实际上也是算法(研发)工程师的主要工作任务,即能够结合业务场景、自身数学基础来进行有针对性的算法研发,此部分工作不仅需要扎实的算法基本原理知识,也需要扎实的编程能力。

总结

今天我列了下学习机器学习你要掌握的知识清单,只有你对机器学习的流程、算法、原理有更深的理解,你才能在实际工作中更好地运用,祝你在机器学习的路上越走越远。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50332

    浏览量

    266968
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    25123
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137226

原文标题:学习机器学习的最佳路径路?

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习中的数据质量双保障:从“验证”到“标记”

    机器学习的世界里,有句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构多先进、算法多精妙,数据的质量始终是决定模型性能的核心。本文聚焦数据
    的头像 发表于 04-24 15:48 59次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的<b class='flag-5'>数据</b>质量双保障:从“验证”到“标记”

    1.25 Gbps时钟和数据恢复IC ADN2805:特性、原理与应用全解析

    1.25 Gbps时钟和数据恢复IC ADN2805:特性、原理与应用全解析 在高速数据传输领域,时钟和数据恢复(CDR)技术至关重要,它能够确保数据的准确传输和处理。今天,我们就来深
    的头像 发表于 03-23 11:20 666次阅读

    机器学习特征工程:分类变量的数值化处理方法

    编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都是典型的分类
    的头像 发表于 02-10 15:58 449次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>特征工程:分类变量的数值化处理方法

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习
    的头像 发表于 02-04 14:44 684次阅读

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据
    的头像 发表于 01-07 15:37 351次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    电能质量在线监测装置的采样率和数据推送频率的关系是怎样的?

    电能质量在线监测装置的采样率与数据推送频率是相互独立但又紧密关联的两个核心参数,其关系可概括为底层采集与上层输出的解耦设计,同时需通过硬件能力、协议机制和场景需求实现动态平衡。以下从技术原理、实际
    的头像 发表于 11-07 13:46 562次阅读
    电能质量在线监测装置的采样率<b class='flag-5'>和数据</b>推送频率的<b class='flag-5'>关系</b>是怎样的?

    奥松电子协办第二届智能计算与数据挖掘国际学术会议

    2025年10月24日至26日,第二届智能计算与数据挖掘国际学术会议(ICDM 2025)在中国广州隆重举行。本次会议由广州航海学院、汕头大学、广东省数智科技研究会联合主办,广州奥松电子股份有限公司作为协办单位之一,携手多家产业机构,共同推动智能计算与
    的头像 发表于 11-03 14:18 747次阅读

    XKCON祥控输煤皮带智能机器人巡检系统对监测数据进行挖掘分析

    XKCON祥控输煤皮带智能机器人巡检系统通过智能机器人在皮带运行过程中对皮带的运行状态和环境状况进行实时检测,在应用过程中,不但提升了巡视周期频次,还通过大数据分析和深度学习算法,对监
    的头像 发表于 09-15 11:22 784次阅读
    XKCON祥控输煤皮带智能<b class='flag-5'>机器</b>人巡检系统对监测<b class='flag-5'>数据</b>进行<b class='flag-5'>挖掘</b>分析

    量子机器学习入门:三种数据编码方法对比与应用

    在传统机器学习数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组件。量子
    的头像 发表于 09-15 10:27 955次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:三种<b class='flag-5'>数据</b>编码方法对比与应用

    用树莓派挖掘5种顶级加密货币!

    加密货币是用于在线交易的数字货币。挖掘这些货币通常需要专门的硬件,如ASIC矿机或高性能GPU。然而,有些加密货币仍可用树莓派来挖掘。在本文中,我将为您介绍可在树莓派上挖掘的最佳加密货币。适合用树莓
    的头像 发表于 07-21 16:34 1816次阅读
    用树莓派<b class='flag-5'>挖掘</b>5种顶级加密货币!

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3097次阅读

    【嘉楠堪智K230开发板试用体验】K230机器视觉相关功能体验

    K230开发板摄像头及AI功能测评 摄像头作为机器视觉应用的基础,能够给机器学习模型提供输入,提供输入的质量直接影响机器学习模型的效果。 K
    发表于 07-08 17:25

    MYSQL集群高可用和数据监控平台实现方案

    该项目共分为2个子项目,由MYSQL集群高可用和数据监控平台两部分组成。
    的头像 发表于 05-28 10:10 1457次阅读
    MYSQL集群高可用<b class='flag-5'>和数据</b>监控平台实现方案

    使用MATLAB进行无监督学习

    无监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和
    的头像 发表于 05-16 14:48 1601次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>

    【「# ROS 2智能机器人开发实践」阅读体验】+ROS2应用案例

    的知识,还需要对ROS 2的节点通信和数据处理有一定的了解。通过实践这一部分内容,我掌握了如何在ROS 2中实现二维码识别,这对于提高机器人的智能性和交互性具有重要意义。 地图构建:SLAM技术
    发表于 04-27 11:42