0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

了解一下机器学习中的基础知识

电子工程师 来源:CDA-数据分析师 2021-03-31 17:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

机器学习中涉及到了很多的概念,当然要想了解机器学习的话就需要对这些基础知识有一个深入的了解才能够入门机器学习,那么机器学习的基础知识都有哪些呢?本文给大家列举一下机器学习的基础知识。

(1)准确率的概念,准确率就是分类模型预测准确的比例。

(2)AUC(曲线下面积)则是一种考虑到所有可能的分类阈值的评估标准。ROC 曲线下面积代表分类器随机预测真正类要比假正类概率大的确信度。

(3)激活函数就是一种函数,也就是将前一层所有神经元激活值的加权和输入到一个非线性函数中,然后向下一层传递该函数的输出值。

(4)AdaGrad是一种复杂的梯度下降算法,重新调节每个参数的梯度,高效地给每个参数一个单独的学习率。这些知识都是需要我们要了解的。

(5)在机器学习中,反向传播神经网络中完成梯度下降的重要算法。首先,在前向传播的过程中计算每个节点的输出值。然后,在反向传播的过程中计算与每个参数对应的误差的偏导数。

(6)基线就是被用为对比模型表现参考点的简单模型。基线帮助模型开发者量化模型在特定问题上的预期表现。

(7)批量就是指模型训练中一个迭代使用的样本集。批量大小就是一个批量中样本的数量。批量大小通常在训练与推理的过程中确定。

(8)偏置就是与原点的截距或偏移量。偏置被称为机器学习模型中的 b 或者 w0。而二元分类器一类分类任务,输出两个互斥(不相交)类别中的一个。binning/bucketing则是根据值的范围将一个连续特征转换成多个称为 buckets 或者 bins二元特征,称为 buckets或者bins。

(9)检查点则是在特定的时刻标记模型的变量的状态的数据。检查点允许输出模型的权重,也允许通过多个阶段训练模型。检查点还允许跳过错误继续进行。注意其自身的图式并不包含于检查点内。

(10)候选采样是一种优化训练时间的方式,使用 Softmax 等算法计算所有正标签的概率,同时只计算一些随机取样的负标签的概率。这个想法的思路是,负类别可以通过频率更低的负强化进行学习,而正类别经常能得到适当的正强化,实际观察确实如此。候选取样的动力是计算有效性从所有负类别的非计算预测的得益。

(11)标定层是一种调整后期预测的结构,通常用于解释预测偏差。调整后的预期和概率必须匹配一个观察标签集的分布。

(12)分类模型是机器学习模型的一种,将数据分离为两个或多个离散类别。分类模型与回归模型成对比。

(13)类别是所有同类属性的目标值作为一个标签。

(14)类别不平衡数据集是一个二元分类问题,其中两个类别的标签的分布频率有很大的差异。

(15)收敛就是训练过程达到的某种状态,其中训练损失和验证损失在经过了确定的迭代次数后,在每一次迭代中,改变很小或完全不变。换句话说就是,当对当前数据继续训练而无法再提升模型的表现水平的时候,就称模型已经收敛。在深度学习中,损失值下降之前,有时候经过多次迭代仍保持常量或者接近常量,会造成模型已经收敛的错觉。

(16)混淆矩阵就是总结分类模型的预测结果的表现水平的 N×N 表格。混淆矩阵的一个轴列出模型预测的标签,另一个轴列出实际的标签。N 表示类别的数量。在一个二元分类模型中,N=2。多类别分类的混淆矩阵可以帮助发现错误出现的模式。混淆矩阵包含了足够多的信息可以计算很多的模型表现度量,比如精度和召回率。

(17)连续特征拥有无限个取值点的浮点特征。和离散特征相反。

(18)分类阈值应用于模型的预测分数以分离正类别和负类别的一种标量值标准。当需要将 logistic 回归的结果映射到二元分类模型中时就需要使用分类阈值。

(19)凸函数就是一种形状大致呈字母 U 形或碗形的函数。然而,在退化情形中,凸函数的形状就像一条线。凸函数是很常用的损失函数。因为当一个函数有最小值的时候,梯度下降的各种变化都能保证找到接近函数最小值的点。类似的,随机梯度下降的各种变化有很大的概率找到接近函数最小值的点。两个凸函数相加后仍然是凸函数。深度模型通常是非凸的。

(20)早期停止法就是一种正则化方法,在训练损失完成下降之前停止模型训练过程。当验证数据集的损失开始上升的时候,即泛化表现变差的时候,就该使用早期停止法了。

(21)交叉熵就是多类别分类问题中对 Log 损失函数的推广。交叉熵量化两个概率分布之间的区别。

(22)密集特征就是大多数取值为非零的一种特征,通常用取浮点值的张量表示。和稀疏特征相反。

(23)派生特征是合成特征的同义词。

(24)离散特征就是只有有限个可能取值的一种特征。和连续特征(continuous feature)对照。

(25)dropout 正则化就是训练神经网络时一种有用的正则化方法。dropout 正则化的过程是在单次梯度计算中删去一层网络中随机选取的固定数量的单元。删去的单元越多,正则化越强。

(26)动态模型是以连续更新的方式在线训练的模型。即数据连续不断的输入模型。

(27)数据集就是样本的集合。

(28)决策边界在一个二元分类或多类别分类问题中模型学习的类别之间的分离器。

(29)深度模型是一种包含多个隐藏层的神经网络。深度模型依赖于其可训练的非线性性质。和宽度模型对照。

(30)假负类就是被模型错误的预测为负类的样本。

(31)假正类就是被模型错误的预测为正类的样本。

(32)假正类率的概念就是在ROC 曲线(ROC curve)中的 x 轴。FP 率的定义是:假正率=假正类数/(假正类数+真负类数)

(33)特征就是输入变量,用于做出预测。

(34)特征列就是具有相关性的特征的集合,一个样本的一个特征列中可能会有一个或者多个特征。特征的数据类型;一个特征是固定长度的或应该转换为嵌入。一个特征列可以仅包含一个特征。

(35)特征交叉就是将特征进行交叉(乘积或者笛卡尔乘积)运算后得到的合成特征。特征交叉有助于表示非线性关系。

(36)特征工程就是在训练模型的时候,决定哪些特征是有用的,然后将记录文件和其它来源的原始数据转换成上述特征的过程。

(37)特征集就是机器学习模型训练的时候使用的特征群。

(38)特征定义就是描述所需的信息从 tf.Example 协议缓存中提取特征数据。因为 tf.Example 协议缓存只是数据的容器,必须明确以下信息:

(39)嵌入就是连续值特征的明确的特征。嵌入通常指将高维向量转换到低维空间中。

TensorFlow 中,嵌入是通过反向传播损失训练的,正如神经网络的其它参量一样。

(40)经验风险最小化就是选择能最小化训练数据的损失的模型函数的过程。和结构风险最小化(structual risk minimization)对照。

(41)集成就是多个模型预测的综合考虑。可以通过以下一种或几种方法创建一个集成方法,这些方法分别是设置不同的初始化、设置不同的超参量。设置不同的总体结构。而深度和广度模型是一种集成。

(42)样本就是一个数据集的一行内容。一个样本包含了一个或多个特征,也可能是一个标签。样本有标注样本和无标注样本。

(43)梯度就是所有变量的偏导数的向量。在机器学习中,梯度是模型函数的偏导数向量。梯度指向最陡峭的上升路线。

(44)梯度截断就是在应用梯度之前先修饰数值,梯度截断有助于确保数值稳定性,防止梯度爆炸出现。

(45)梯度下降是通过计算模型的相关参量和损失函数的梯度最小化损失函数,值取决于训练数据。梯度下降迭代地调整参量,逐渐靠近权重和偏置的最佳组合,从而最小化损失函数。

(46)图在 TensorFlow 中的一种计算过程展示。图中的节点表示操作。节点的连线是有指向性的,表示传递一个操作的结果给另一个操作。使用 TensorBoard 能可视化计算图。

(47)泛化是指模型利用新的没见过的数据而不是用于训练的数据作出正确的预测的能力。

(48)广义线性模型就是最小二乘回归模型的推广/泛化,基于高斯噪声,相对于其它类型的模型,这种模型基于其它类型的噪声,比如泊松噪声,或类别噪声等等。广义线性模型的例子包括很多,比如logistic回归、多分类回归、最小二乘回归。而广义线性模型的参数可以通过凸优化得到,它的性质有很多,第一就是最理想的最小二乘回归模型的平均预测结果等于训练数据的平均标签。第二就是最理想的 logistic 回归模型的平均概率的预测结果等于训练数据的平均标签。第三就是广义线性模型的能力局限于其特征的性质。和深度模型不同,一个广义线性模型无法学习新的特征。

(49)启发式就是一个问题的实际的和非最优的解,但能从学习经验中获得足够多的进步。

(50)折页损失函数就是损失函数的一个类型,用于分类模型以寻找距离每个样本的距离最大的决策边界,即最大化样本和边界之间的边缘。

责任编辑:lq6

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 分离器
    +关注

    关注

    1

    文章

    84

    浏览量

    16552
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • AUC
    AUC
    +关注

    关注

    0

    文章

    9

    浏览量

    6968
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「Yocto项目实战教程:高效定制嵌入式Linux系统」阅读体验】+基础概念学习理解

    。为了对珠峰更了解些,开始接触 Linux 系统开发,并逐渐认识到 Yocto 项目在定制嵌入式 Linux 系统方面的重要性。所以很想拜读此书。 二、书籍内容概述 基础知识 书中首先回顾了 Linux
    发表于 08-04 22:29

    肇观电子推出W系列水下机器人视觉模组

    在此背景,肇观电子推出全球首创W系列水下机器人视觉模组,以光学视觉革命突破水下感知瓶颈!
    的头像 发表于 06-17 14:58 1140次阅读
    肇观电子推出W系列水<b class='flag-5'>下机器</b>人视觉模组

    下机器人示教编程教学课件资料

    下机器人示教编程教学课件(新)
    发表于 06-11 17:23 0次下载

    电路基础学习资料

    不可多得的电路基础知识学习资料,作者郝铭先生具有深厚的电路功底,且讲解的非常通俗易懂,非常适合初学者。 纯分享贴,有需要可以直接下载附件获取完整资料! (如果内容有帮助可以关注、点赞、评论支持一下哦~)
    发表于 05-17 15:01

    效果器的基础知识

    电子发烧友网站提供《效果器的基础知识.doc》资料免费下载
    发表于 03-26 14:30 6次下载

    射频基础知识培训(华为)—PPT版

    基本概念和知识 纯分享贴,有需要可以直接下载附件获取完整资料! (如果内容有帮助可以关注、点赞、评论支持一下哦~)
    发表于 03-22 16:30

    无刷直流电机基础知识总结(可下载)

    今天给大家分享电机控制需要了解基础知识,供大家参考学习
    发表于 03-06 13:47 1次下载

    功率器件热设计基础知识

    功率器件热设计是实现IGBT、碳化硅SiC等高功率密度器件可靠运行的基础。掌握功率半导体的热设计基础知识,不仅有助于提高功率器件的利用率和系统可靠性,还能有效降低系统成本。本文将从热设计的基本概念、散热形式、热阻与导热系数、功率模块的结构和热阻分析等方面,对功率器件热设计基础知识
    的头像 发表于 02-03 14:17 1254次阅读

    PCB绘制基础知识

    电子发烧友网站提供《PCB绘制基础知识.pdf》资料免费下载
    发表于 01-21 15:20 8次下载
    PCB绘制<b class='flag-5'>基础知识</b>

    射频前端设计的功率等级基础知识

    伴随更多频段的增加和愈发复杂的移动设备出现,蜂窝通信市场已发生巨大变化。随着4G和5G的部署,3GPP的最新规范已将PC2引入FDD频段,更高的发射功率水平也由此带来了与之相关的全新挑战。下面,就让我们回顾一下PC2的基础知识,并深入探讨PC2如何随着这些新的5G部署而演
    的头像 发表于 01-07 11:26 2681次阅读
    射频前端设计<b class='flag-5'>中</b>的功率等级<b class='flag-5'>基础知识</b>

    EMC基础知识-华为

    EMC基础知识-华为
    发表于 01-06 14:09 5次下载

    “碰一下”支付背后的4G技术

    不知道你是否有留意,近期,在线下支付场景,多了个支付宝“碰一下”支付的设备,只需要“解锁手机—碰一下—确认”即可完成支付,对比打开付款码支付,步骤确实更加简洁。
    的头像 发表于 01-03 16:27 5000次阅读

    华为云 Flexus X 实例部署安装 Jupyter Notebook,学习 AI,机器学习算法

    前言 由于本人最近在学习机器算法,AI 算法的知识,需要搭建学习环境,所以就在最近购买的
    的头像 发表于 01-02 13:43 861次阅读
    华为云 Flexus X 实例部署安装 Jupyter Notebook,<b class='flag-5'>学习</b> AI,<b class='flag-5'>机器</b><b class='flag-5'>学习</b>算法

    传统机器学习方法和应用指导

    在上篇文章,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    华为-射频基础知识培训

    课程目标z 熟悉和掌握射频基本概念和知识z 了解无线射频系统结构z 了解天馈系统的概念和知课程内容第章 无线通信的基本概念第二章 射频常用计算单位简介第三章 射频常用概念辨析第四章
    发表于 12-10 13:39 1次下载