0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习的6个关键概念

汽车玩家 来源:今日头条 作者:闻数起舞 2020-04-14 17:12 次阅读

机器学习是一种将传统数学与现代强大的计算处理相结合的技术,以学习数据集中固有的模式。 在机器学习中,目标是产生一种可以使用这些模式执行某些指定任务的算法

在监督式机器学习的情况下,目标可能是开发一个模型,该模型可以识别一组输入所属的类别或类别,或预测连续值,例如房屋价格。

在本文中,我将介绍机器学习中的一些关键概念。 如果您是机器学习的新手,这将使您对本领域中使用的一些术语和技术有一个很好的了解。

1.特征

在机器学习中,我们上面讨论的输入称为特征。 要素是分配给数据点的一组属性。

以下示例数据集是著名的数据集,通常用于机器学习实践问题(称为"波士顿住房价格")。 它由一组与房屋相关的功能(在下图中以红色突出显示)组成,例如年龄,平均房间数和物业税值以及相应的房价。

为了使机器学习模型成功完成其任务,至少其中一些功能与房屋价格之间需要存在统计关系。

机器学习的6个关键概念

> Boston housing prices dataset — features are highlighted red

2.特征选择与工程

优化机器学习模型的重要一步是优化。 我们开发的模型需要以最佳状态执行,而要确保做到这一点的一种方法是使用最佳功能来训练模型。

包括每个特征并不总是有用的。 有些特征可能与我们尝试预测的变量没有有意义的统计关系,而另一些特征可能彼此紧密相关。 这两种情况都将噪声引入训练阶段,这可能会降低模型性能。 特征选择是选择最佳特征以包含在训练阶段中的过程。

同样,原始形式的特征可能无法提供足够的有意义的数据来训练性能模型。 另外,某些特征根本不能以其原始形式使用,一个很好的例子就是基于日期/时间的功能。 机器学习模型不能使用日期或时间戳作为特征,我们需要首先从日期中导出有意义的特征,才能包含此信息。 我们可以使用整数形式的日期部分(例如月,日或星期数),或计算两个日期之间的差,以提供算法可以理解的模式。 这就是所谓的特征工程。

3.标签

有监督的机器学习需要一些被称为标记数据的东西。 这意味着每组要素都具有相应标签的数据。 这些标签可以是类别或类型(例如猫或狗),也可以是连续值,例如在波士顿房屋价格数据集中以标签为价格的情况。

在开发机器学习模型时,功能通常称为X,标签称为y。

机器学习的6个关键概念

> Boston housing prices dataset — labels are highlighted red

4.训练

监督式机器学习需要标记数据,因为算法使用这些示例特征值及其对应的标记来"学习"模式,如果成功,则将使模型能够准确地预测新的未标记数据上的标记。

在机器学习过程中,学习的这一阶段称为训练阶段。 在此阶段结束时,您将拥有一个可用于预测新的未标记数据的标签或值的模型。 训练阶段通常称为拟合模型。

5.调参

在本文前面介绍功能选择时,我曾讨论过一个优化过程。 此过程的另一部分称为调参,涉及优化算法参数以找到适合您特定数据集的最佳组合。

所有机器学习模型都包含具有多种选项的参数。 例如,随机森林模型具有许多可调参数。 一个示例是n_estimators,它确定森林中树木的数量。 通常,树的数量越多,结果越好,但是在特定点(并且这取决于数据集),随着您添加更多的树,改进会降低。 为您的数据集找到最佳树数是一种调整随机森林算法参数的方法。

每种算法都有许多可调参数,并且每个参数都有大量潜在的选项。 幸运的是,有自动方法可以找到这些参数的最佳组合,这就是所谓的超参数优化。

6.验证

建立模型后,我们需要确定其执行给定任务的能力。 在我们的示例数据中,我们将要了解模型可以多么准确地预测房屋价格。 在机器学习中,建立最佳性能指标很重要,这将根据我们要解决的问题而有所不同。

通常,在开始机器学习项目时,我们将首先将要使用的数据集分为两部分。 我们一个用来训练模型,另一个用于测试阶段。

机器学习中的测试通常称为验证。 我们使用模型对保留的测试数据集进行预测,并测量所选的性能指标,以确定模型能够很好地执行给定任务。

本文概述了讨论机器学习时最常用的一些术语和概念。 如果您刚刚开始学习,它应该可以帮助您了解机器学习教程中使用的一些术语。 如果您想深入学习使用python创建您的第一个模型,可以在这里阅读我的教程"如何创建您的第一个机器学习模型"。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8124

    浏览量

    130567
收藏 人收藏

    评论

    相关推荐

    如何使用机器学习在M480上执行关键字识别

    应用程序: 本样本代码使用机器学习来在 M480 上执行关键字识别。 BSP 版本: M480系列 BSP CMSIS V3.04.000 硬件: NuMaker-PFM-M487 VER 3.0
    发表于 08-29 06:46

    机器学习和深度学习的区别

      机器学习和深度学习是当今最流行的人工智能(AI)技术之一。这两种技术都有助于在不需要人类干预的情况下让计算机自主学习和改进预测模型。本文将探讨
    发表于 08-28 17:31 1053次阅读

    机器学习概念和发展历程 机器学习的工作原理和基本组成

    机器学习是人工智能的一个分支,它是一种让计算机通过大量的数据分析和学习,以便自主预测和决策的技术。它利用算法和统计学的方法,让计算机从数据中“学习”到模式,并使用这些模式来进行自主决策
    发表于 08-22 17:40 1062次阅读

    使用机器学习在M480上执行关键字识别

    应用程序: 本样本代码使用机器学习来在 M480 上执行关键字识别。 BSP 版本: M480系列 BSP CMSIS V3.04.000 硬件: NuMaker-PFM-M487 VER 3.0
    发表于 08-22 08:02

    深度学习机器学习的定义和优缺点 深度学习机器学习的区别

      深度学习机器学习机器学习领域中两个重要的概念,都是人工智能领域非常热门的技术。两者的关系
    发表于 08-21 18:27 2161次阅读

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?
    的头像 发表于 08-17 16:30 1399次阅读

    机器学习theta是什么?机器学习tpe是什么?

    机器学习theta是什么?机器学习tpe是什么? 机器学习是近年来蓬勃发展的一个领域,其相关技术
    的头像 发表于 08-17 16:30 1230次阅读

    机器学习是什么意思?机器学习属于什么分支?机器学习有什么用处?

    机器学习是什么意思?机器学习属于什么分支?机器学习是什么有什么用处?
    的头像 发表于 08-17 16:30 1277次阅读

    机器学习与数据挖掘的区别 机器学习与数据挖掘的关系

    或视为同一概念。在这篇文章中,我们将讨论机器学习和数据挖掘之间的区别以及它们之间的关系。 机器学习和数据挖掘的区别
    的头像 发表于 08-17 16:30 1532次阅读

    数据挖掘和机器学习有什么关系

    数据挖掘和机器学习有什么关系 数据挖掘和机器学习是两个不同的概念,但它们有一些重要的相似之处。这篇文章将详细介绍数据挖掘和
    的头像 发表于 08-17 16:29 2070次阅读

    机器学习算法入门 机器学习算法介绍 机器学习算法对比

    机器学习算法入门 机器学习算法介绍 机器学习算法对比 机器
    的头像 发表于 08-17 16:27 630次阅读

    机器学习和深度学习的区别

    机器学习和深度学习的区别 随着人工智能技术的不断发展,机器学习和深度学习已经成为大家熟知的两个术
    的头像 发表于 08-17 16:11 3388次阅读

    创建一边缘机器学习系统

    。图像识别是一项相当复杂的机器学习任务,通常 需要比关键字识别更高的性能。 该指南也适用于想要为高端智能设备创建SoC的系统设计人员设备,比如智能手机。 具体来说,该指南解释道: •为什么要为这个
    发表于 08-02 11:02

    机器学习笔记之优化-拉格朗日乘子法和对偶分解

    优化是机器学习中的关键步骤。在这个机器学习系列中,我们将简要介绍优化问题,然后探讨两种特定的优化方法,即拉格朗日乘子和对偶分解。这两种方法在
    的头像 发表于 05-30 16:47 1430次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>笔记之优化-拉格朗日乘子法和对偶分解

    机器学习的经典算法与应用

      一、机器学习基础概念   关于数据   机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。   Iris 鸢尾花数据集是一个
    的头像 发表于 05-28 11:29 745次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典算法与应用