0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习新手基础:十大算法导览

新机器视觉 来源:新机器视觉 作者:王抒伟 2020-11-27 10:00 次阅读

机器学习中,有一个称为“ No Free Lunch ”的定理。简单来说,与监督学习特别相关的这个定理,它指出没有万能算法,就是用一个算法能很好地解决每个问题。

例如,不能说神经网络总是比决策树更好,反之亦然。有许多因素在起作用,例如数据集的大小和结构。

那么,如果我遇到一个问题,首先应该尝试多种不同的算法来解决问题,同时使用保留的“测试集”数据评估绩效并选择最优的那个算法,然后GitHub 搜索最优代码修改哈哈哈哈。

当然,如果需要打扫房屋,可以使用吸尘器、扫帚或拖把。你不会用铲子吧?
所以尝试的算法必须适合要解决的问题,这才是选择正确的机器学习任务的来源。

基础

有一个通用原则是所有用于预测建模的受监督机器学习算法的基础。

机器学习算法被描述为学习目标函数(f),该函数最好将输入变量(X)映射到输出变量(Y):Y = f(X)

这是一个简单的学习任务,我们想在给定新的输入变量(X)的情况下,对(Y)进行预测。但是不知道函数(f)。

机器学习的最常见类型是学习映射Y = f(X)可以对新X预测到Y,目标是尽可能进行最准确的预测。

对于初入机器学习领域,没有机器学习基础知识的新手,我会对常用的十大机器学习算法做简单介绍。

1.线性回归

线性回归可能是统计和机器学习中最著名和最易理解的算法之一。

主要与最小化模型的误差或做出尽可能准确的预测有关,但以可解释性为代价。我们将从许多不同领域(包括统计数据)中学习。

线性回归的表示法是一个方程,该方程通过找到称为系数(B),来描述输入变量(x)与输出变量(y)之间关系的线。

例如:y = B0 + B1 * x 卧槽,这不是一次函数吗?哈哈

给定输入x,我们将预测y,线性回归学习算法的目标是找到系数B0和B1的值, 例如用于普通最小二乘法和梯度下降优化的线性代数解。

2.LOGISTIC回归

逻辑回归是机器学习从统计领域“借”的另一种技术。它是二分类问题(具有两个类值的问题)的首选方法。

Logistic回归类似于线性回归,因为目标是找到权重每个输入变量的系数的值。与线性回归不同,输出的预测使用称为对数函数的非线性函数进行变换。

逻辑函数看起来像一个大S,它将任何值转换为0到1的范围。因为我们可以将规则应用于逻辑函数的输出为0和1(例如,如果IF小于0.5,则输出1)并预测类别值。

与线性回归一样,当去除与输出变量无关的属性以及相关的属性时,逻辑回归的效果更好。这是一个快速学习二进制分类问题并有效的模型

3.线性判别分析

Logistic回归是传统上仅限于两类分类问题的分类算法。如果是多分类,则线性判别分析算法(LDA)就是很重要的算法了。

LDA的表示非常简单,它由数据的统计属性组成,这些属性是针对每个类别计算的。对于单个输入变量,这包括:

每个类别的平均值。

计算所有类别的方差

通过为每个类别计算一个区分值并为具有最大值的类别进行预测来进行预测。
该算法的前提是:数据具有高斯分布(钟形曲线),因此最好在操作之前从数据中删除异常值。

4.分类和回归树

决策树是用于预测建模机器学习的重要算法类型。
决策树模型的表示形式是二叉树。这是来自算法和数据结构的二叉树,没有什么花哨的。每个节点代表一个输入变量(x)和该变量的分割点(假设变量是数字)。

树的叶节点包含用于进行预测的输出变量(y)。通过遍历树的拆分直到到达叶节点并在该叶节点输出类值来进行预测。

树学习速度很快,做出预测的速度也非常快。它们对于许多问题通常也很准确,不需要为数据做任何特殊预处理。

5-朴素贝叶斯

朴素贝叶斯(Naive Bayes)是一种简单但功能强大的预测建模算法。

该模型由两种类型的概率组成,可以直接从您的训练数据中计算出:
1)每个类别的概率;
2)给定每个x值的每个类别的条件概率。

开始计算,概率模型可用于使用贝叶斯定理对新数据进行预测。当你的数据是实值时,通常会假设一个高斯分布(钟形曲线),以便可以轻松地估计这些概率。

朴素贝叶斯之所以被称为朴素,是因为它假定每个输入变量都是独立的。这是一个很强的假设,对于真实数据来说是不现实的,尽管如此,该技术对于大量复杂问题非常有效。

6 - K近邻

KNN算法非常简单且非常有效。KNN的模型表示是整个训练数据集。简单吧?

通过搜索整个训练集中的K个最相似实例并汇总这K个实例的输出变量,可以对新数据点进行预测。
对于回归问题,这可能是平均输出变量,对于分类问题,这可能是最常见的类别值。

诀窍在于如何确定数据实例之间的相似性。如果您的属性都具有相同的比例(例如,都是距离数据),最简单的方法是使用欧几里得距离,您可以根据每个输入变量之间的差异直接计算一个数字。

KNN可能需要大量内存或空间来存储所有数据,因为它把所有数据都遍历了。您还可以随着时间的训练数据,以保持预测的准确性。

距离或紧密度的概念可能会分解为非常高的维度(许多输入变量),这可能会对问题的算法性能产生负面影响。所以对于数据的输入就至关重要。

7- 矢量化学习

K最近的缺点是需要整个训练数据集。学习向量量化算法(简称LVQ)是一种人工神经网络算法,可让选择要需要的训练实例数量。

LVQ的表示形式是向量的集合。这些是在最开始开始时随机选择的,适用于在学习算法的多次迭代中最好地总结训练数据集。
学习之后,可以像使用K近邻一样,使用数据进行预测。通过计算每个向量与新数据实例之间的距离,可以找到最相似的数据向量(最佳匹配的向量)。然后返回最佳匹配的类值作为预测。记得数据归一化,获得的效果更好。

8-支持向量机

支持向量机可能是最受欢迎的机器学习算法之一。

超平面是分割输入变量空间的线。
在SVM中,选择一个超平面以按类别(类别0或类别1)最好地分隔输入变量空间中的点。
在二维图中,您可以将其可视化为一条线,并假设所有输入点都可以被这条线完全隔开。SVM学习算法找到超平面对类进行最佳分离的系数。

超平面和最近的数据点之间的距离称为边距。可以将这两个类别分开的最佳或最佳超平面是边距最大的线。
仅这些点与定义超平面和分类器的构造有关。这些点称为支持向量。
在实践中,使用优化算法来找到使余量最大化的系数的值。

SVM可能是功能最强大的即用型分类器之一,使用频率很高。

9-BAGGING和随机森林

随机森林是最流行,功能最强大的机器学习算法之一。这是一种称为Bootstrap聚类或BAGGING的集成机器学习算法。

您需要对数据进行大量采样,计算平均值,然后对所有平均值取平均值,以便更好地估算真实平均值。

在bagging中,使用相同的方法,但用于估计整个统计模型(最常见的是决策树)。获取训练数据的多个样本,然后为每个数据样本构建模型。当你需要对新数据进行预测时,每个模型都将进行预测,并对预测取平均值以对真实输出值进行更好的估计。

随机森林是对这种方法的一种调整,在该方法中将创建决策树,不是选择最佳的拆分点。

因此,为每个数据样本创建的模型与原先的模型相比,差异更大。将他们的预测结合起来可以更好地估计真实的基础输出值。

10-BOOSTING和ADABOOST

Boosting是一种集成技术,尝试从多个弱分类器创建强分类器。这是通过从训练数据构建模型,然后创建第二个模型来尝试纠正第一个模型中的错误来完成的。添加模型,直到完美预测训练集或添加最大数量的模型为止。

AdaBoost是为二进制分类开发的第一个真正成功的增强算法。这是了解增强的最佳起点。现代的增强方法基于AdaBoost,最著名的是随机梯度增强机.

具体细节可以看这个视频.

AdaBoost与决策树一起使用。
创建第一棵树后,将在每个训练实例上使用该树的性能来加权要创建的下一棵树应注意每个训练实例的关注程度。
难以预测的训练数据的权重更高,而易于预测的实例的权重更低。依次创建模型,每个模型都会更新训练实例上的权重,这些权重会影响序列中下一棵树执行的学习。构建完所有树之后,对新数据进行预测,并根据训练数据的准确性对每棵树的性能进行加权。

由于该算法在纠正错误方面投入了很多精力,因此删除异常值和数据去噪非常重要。

责任编辑:xj

原文标题:机器学习新手的十大算法导览

文章出处:【微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4438

    浏览量

    90552
  • 机器学习
    +关注

    关注

    66

    文章

    8061

    浏览量

    130442

原文标题:机器学习新手的十大算法导览

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器学习的基本流程和十大算法

    为了进行机器学习和数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织 ICDM(the IEEE International Conference on Data Mining)评选出了十大经典
    发表于 10-31 11:30 464次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的基本流程和<b class='flag-5'>十大</b><b class='flag-5'>算法</b>

    机器学习的研究现状和发展趋势 机器学习的常见算法和优缺点

    随着计算能力和大数据的崛起,机器学习算法正迎来快速发展的时期。在研究层面上,机器学习和深度学习
    发表于 08-22 17:49 1714次阅读

    机器学习有哪些算法机器学习分类算法有哪些?机器学习预判有哪些算法

    机器学习有哪些算法机器学习分类算法有哪些?机器
    的头像 发表于 08-17 16:30 1267次阅读

    机器学习vsm算法

    机器学习vsm算法 随着机器学习技术的不断发展,相似性计算是机器
    的头像 发表于 08-17 16:29 537次阅读

    机器学习算法入门 机器学习算法介绍 机器学习算法对比

    机器学习算法入门 机器学习算法介绍 机器
    的头像 发表于 08-17 16:27 576次阅读

    机器学习算法总结 机器学习算法是什么 机器学习算法优缺点

    机器学习算法总结 机器学习算法是什么?机器
    的头像 发表于 08-17 16:11 961次阅读

    机器学习算法汇总 机器学习算法分类 机器学习算法模型

    机器学习算法汇总 机器学习算法分类 机器
    的头像 发表于 08-17 16:11 648次阅读

    机器学习算法的5种基本算子

    机器学习算法的5种基本算子 机器学习是一种重要的人工智能技术,它是为了让计算机能够通过数据自主的学习
    的头像 发表于 08-17 16:11 1261次阅读

    智能数字辨识水表-基于机器学习算法

    智智能数字辨识水表-基于机器学习算法
    的头像 发表于 08-10 11:26 380次阅读
    智能数字辨识水表-基于<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>算法</b>

    基于机器学习算法的校准优化方案

    基于机器学习算法的校准优化方案
    发表于 06-29 12:35 239次阅读
    基于<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>算法</b>的校准优化方案

    机器学习理论:k近邻算法

    KNN(k-Nearest Neighbors)思想简单,应用的数学知识几乎为0,所以作为机器学习的入门非常实用、可以解释机器学习算法使用过
    的头像 发表于 06-06 11:15 398次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>理论:k近邻<b class='flag-5'>算法</b>

    机器学习的经典算法与应用

      一、机器学习基础概念   关于数据   机器学习就是喂入算法和数据,让算法从数据中寻找一种相
    的头像 发表于 05-28 11:29 670次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典<b class='flag-5'>算法</b>与应用

    机器学习算法学习之特征工程3

    特征工程是机器学习过程中的关键步骤,涉及将原始数据转换为机器学习算法可以有效使用的格式。在本篇博客文章中,我们介绍了各种特征工程技术,包括特
    的头像 发表于 04-19 11:38 709次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>算法学习</b>之特征工程3

    机器学习算法学习之特征工程2

    特征工程是机器学习过程中的关键步骤,涉及将原始数据转换为机器学习算法可以有效使用的格式。在本篇博客文章中,我们介绍了各种特征工程技术,包括特
    的头像 发表于 04-19 11:38 569次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>算法学习</b>之特征工程2

    如何评估机器学习模型的性能?机器学习算法选择

    如何评估机器学习模型的性能?典型的回答可能是:首先,将训练数据馈送给学习算法学习一个模型。第二,预测测试集的标签。第三,计算模型对测试集的
    发表于 04-04 14:15 554次阅读