0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

5岁孩子都能理解的机器学习

汽车玩家 来源:今日头条 作者:闻数起舞 2020-05-03 17:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

尽可能简单地解释ML模型的工作方式

如果您是数据科学的新手,那么这个标题并不是要侮辱您。 这是我的第二篇帖子,主题是一个受欢迎的面试问题,内容类似于:"像我五岁那样向我解释[插入技术主题]。"

事实证明,达到5岁的理解水平相当困难。 因此,尽管这篇文章可能对幼稚园学习者来说不是很清楚,但对于没有或几乎没有数据科学背景的人来说,它应该是清楚的(如果不是最后,请在评论中让我知道)。

我将首先解释什么是机器学习以及不同类型的机器学习,然后再介绍常见的模型。 我不会进行任何数学运算,但是将来我会在另一篇文章中考虑这样做。 请享用!

监督机器学习的定义

监督学习是一种机器学习,其中您放入模型中的数据被"标记"。 标记只是简单地表示观测结果(也就是数据行)是已知的。 例如,如果您的模型试图预测您的朋友是否会打高尔夫球,那么您可能会有诸如温度,星期几等变量。如果您的数据带有标签,那么您的变量也将包含 如果您的朋友实际打高尔夫球,则值为1;否则,则为0。

无监督机器学习的定义

您可能已经猜到了,在涉及标签数据时,无监督学习与有监督学习相反。 在无监督学习的情况下,您不知道朋友是否打高尔夫球,这取决于计算机通过模型找到模式来猜测发生的事情或预测发生的事情。

监督机器学习模型

[需要成人监督]

逻辑回归

遇到分类问题时,将使用逻辑回归。 这意味着您的目标变量(也就是您要预测的变量)由类别组成。 这些类别可以是"是/否",也可以是代表客户满意度的介于1到10之间的数字。

逻辑回归模型使用方程式创建包含数据的曲线,然后使用该曲线预测新观测的结果。

5岁孩子都能理解的机器学习

> Illustration of Logistic Regression

在上图中,新观测值的预测值为0,因为它位于曲线的左侧。 如果查看此曲线所基于的数据,这是有道理的,因为在图形的"预测值为0"区域中,大多数数据点的y值为0。

线性回归

线性回归通常是人们学习的最早的机器学习模型之一。 这是因为仅使用一个x变量时,它的算法(即幕后方程式)相对容易理解-它只是画出一条最合适的线,这是在小学阶段教授的一种概念。 然后,该最佳拟合线用于做出有关新数据点的预测(参见插图)。

5岁孩子都能理解的机器学习

> Illustration of Linear Regression

线性回归与逻辑回归相似,但是当目标变量是连续的时使用线性回归,这意味着它可以采用任何数值。 实际上,任何具有连续目标变量的模型都可以归类为"回归"。 连续变量的一个例子是房屋的售价。

线性回归也很容易解释。 模型方程式包含每个变量的系数,并且这些系数指示目标变量针对自变量(x变量)中的每个小变化而变化了多少。 以房价为例,这意味着您可以看一下回归方程,并说"哦,这告诉我,每增加1平方英尺的房屋大小(x变量),便要卖出价格(目标变量) 增加25美元。"

K最近邻居(KNN)

该模型可用于分类或回归! 名称" K最近的邻居"并不旨在造成混淆。 该模型首先绘制出所有数据。 标题的" K"部分是指模型为了确定预测值应使用的最邻近数据点的数量(请参见下图)。 您作为未来的数据科学家,可以选择K,然后您可以使用这些值来查看哪个值提供最佳预测。

5岁孩子都能理解的机器学习

> Illustration of K Nearest Neighbors

K = __圈中的所有数据点都会对此新数据点的目标变量值进行"投票"。 得票最多的那个值是KNN为新数据点预测的值。 在上图中,最近的邻居中有2个是1类,而邻居中的1个是2类。因此,模型将为此数据点预测1类。 如果模型试图预测数值而不是类别,则所有"投票"都是对数值进行平均以获得预测。

支持向量机(SVM)

支持向量机通过在数据点之间建立边界来工作,其中一类的大多数位于边界的一侧(在2D情况下也称为线),而另一类的大多数位于另一侧。

5岁孩子都能理解的机器学习

> Illustration of Support Vector Machines

它的工作方式是机器寻求找到最大边距的边界。 边距定义为每个类的最近点与边界之间的距离(请参见插图)。 然后绘制新的数据点,并根据它们落在边界的哪一侧将其分类。

我对此模型的解释是针对分类情况的,但是您也可以使用SVM进行回归!

决策树和随机森林

5岁孩子都能理解的机器学习

> Illustration of Machine Learning

机器学习是指将大量数据加载到计算机程序中并选择一种模型以"拟合"数据时,这将使计算机(无需您的帮助)可以得出预测。 计算机制作模型的方式是通过算法进行的,算法的范围从简单的方程式(如直线方程式)到非常复杂的逻辑/数学系统,可以使计算机获得最佳预测。

无监督机器学习模型

[谨慎使用]

现在,我们正在尝试无监督的学习(又称"双关")。 提醒一下,这意味着我们的数据集未标记,因此我们不知道观察结果。

K均值聚类

当使用K表示聚类时,必须首先假设数据集中有K个聚类。 由于您不知道数据中实际上有多少个组,因此必须尝试不同的K值,并使用可视化和度量标准来查看哪个K值有意义。 K表示最适合圆形和相似大小的簇。

K Means算法首先选择最佳的K个数据点,以形成K个聚类中每个聚类的中心。 然后,它对每个点重复以下两个步骤:

· 将数据点分配到最近的集群中心

· 通过获取此集群中所有数据点的平均值来创建一个新中心

5岁孩子都能理解的机器学习

> Illustration of K Means Clustering

DBSCAN集群

DBSCAN集群模型与K的不同之处在于,它不需要您输入K的值,并且它还可以找到任何形状的集群(请参见下图)。 您无需输入簇的数量,而是输入簇中所需的最小数据点数以及搜索簇的数据点周围的半径。 DBSCAN将为您找到集群! 然后,您可以更改用于制作模型的值,直到获得对数据集有意义的聚类为止。

5岁孩子都能理解的机器学习

此外,DBSCAN模型会为您分类"噪声"点(即,远离所有其他观测值的点)。 当数据点非常靠近时,此模型比K表示的效果更好。

神经网络

在我看来,神经网络是最酷,最神秘的模型。 它们之所以称为神经网络,是因为它们是按照我们大脑中神经元的工作方式建模的。 这些模型用于在数据集中查找模式。 有时他们发现人类可能永远无法识别的模式。

神经网络可以很好地处理图像和音频等复杂数据。 它们是当今我们一直看到的许多软件功能的背后,从面部识别(不再令人毛骨悚然,Facebook)到文本分类。

对于本文而言,即使只是触及神经网络的运行方式,也可能过于复杂。 如果您想了解更多信息,请参阅"初学者"指南:https://pathmind.com/wiki/neural-network。

结论

希望本文不仅增加了您对这些模型的理解,还使您意识到它们是多么的酷和有用! 当我们让计算机进行工作/学习时,我们可以坐下来看看它能找到什么模式。 有时可能会造成混淆,因为即使专家也无法理解计算机得出其结论的确切逻辑,但是在某些情况下,我们关心的只是它擅长预测!

但是,有时候我们确实会关心计算机如何达到其预测,例如是否正在使用模型来确定哪些求职者将获得第一轮面试。 有关此的更多信息,以下是TED的精彩演讲,您不必成为数据科学家即可理解或欣赏:

与往常一样,非常感谢您的阅读,如果发现有用,请分享这篇文章! :)

所有图形都是我在www.canva.com上制作的(充满爱意)。 如果您希望使用它们,请与我联系。

还要向Sean Davern,Scott Kroeger,Dotun Opasina和Bhanu Yerra表示感谢,以帮助他们通过我们的数据科学访谈实践课程更好地理解这些模型。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136267
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    当AI通识课程走进校园:我们如何让孩子从“会用”到“会创造”?

    意味着,“AI教育”正从国家战略层面稳步落地,逐步融入基础教育现场,成为孩子们校园生活的一部分。 这门新课程的意义,远不止于传递知识,更在于为下一代播下面向未来的种子。它并不旨在让每一个孩子都深入掌握复杂的算法与编程语言,而是希望引导他们
    的头像 发表于 09-16 14:22 474次阅读

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视了该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机科学家或程序员。 从头开始:什么
    的头像 发表于 09-10 17:38 718次阅读
    如何在<b class='flag-5'>机器</b>视觉中部署深度<b class='flag-5'>学习</b>神经网络

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 2648次阅读

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    阅读心得体会:ROS2机器人视觉与地图构建技术 通过对本书第7章(ROS2视觉应用)和第8章(ROS2地图构建)的学习,我对机器人视觉感知和自主导航的核心技术有了更深入的理解。以下是我
    发表于 05-03 19:41

    请问STM32部署机器学习算法硬件至少要使用哪个系列的芯片?

    STM32部署机器学习算法硬件至少要使用哪个系列的芯片?
    发表于 03-13 07:34

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场的未来发展。
    的头像 发表于 02-13 09:39 633次阅读

    嵌入式机器学习的应用特性与软件开发环境

    作者:DigiKey Editor 在许多嵌入式系统中,必须采用嵌入式机器学习(Embedded Machine Learning)技术,这是指将机器学习模型部署在资源受限的设备(如微
    的头像 发表于 01-25 17:05 1240次阅读
    嵌入式<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的应用特性与软件开发环境

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。 01 传统机器
    的头像 发表于 12-30 09:16 1990次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    【「具身智能机器人系统」阅读体验】1.初步理解具身智能

    重要。 书中还详细介绍了支持具身智能机器人的核心技术系统,包括自主机器人计算系统、感知系统、定位系统及规划和控制系统。 本书共分5个部分。 第1部分(第1章和第2章)介绍具身智能机器
    发表于 12-28 21:12

    【「具身智能机器人系统」阅读体验】1.全书概览与第一章学习

    简单的具身智能机器人的应用案例。具体目录如下: 第一章学习 具身智能机器人是指能够在无人工干预下自主执行任务的机器人。相较于传统非具身智能机器
    发表于 12-27 14:50

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 709次阅读

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    将自然语言理解与运动规划融为一体。这种端到端的方法使机器人能够直接从人类指令生成动作序列,大幅简化了控制流程。该项目的工作流程包含设计并封装一个人机器人函数库、编写清晰地描述提示词、在仿真环境中执行
    发表于 12-24 15:03

    【「具身智能机器人系统」阅读体验】+初品的体验

    《具身智能机器人系统》 一书由甘一鸣、俞波、万梓燊、刘少山老师共同编写,其封面如图1所示。 本书共由5部分组成,其结构和内容如图2所示。 该书可作为高校和科研机构的教材,为学生和研究人员提供系统
    发表于 12-20 19:17

    zeta在机器学习中的应用 zeta的优缺点分析

    在探讨ZETA在机器学习中的应用以及ZETA的优缺点时,需要明确的是,ZETA一词在不同领域可能有不同的含义和应用。以下是根据不同领域的ZETA进行的分析: 一、ZETA在机器学习
    的头像 发表于 12-20 09:11 1636次阅读

    构建云原生机器学习平台流程

    构建云原生机器学习平台是一个复杂而系统的过程,涉及数据收集、处理、特征提取、模型训练、评估、部署和监控等多个环节。
    的头像 发表于 12-14 10:34 679次阅读