0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

详谈机器学习的决策树模型

如意 来源:逍遥埠 作者:逍遥埠 2020-07-06 09:49 次阅读

决策树模型是白盒模型的一种,其预测结果可以由人来解释。我们把机器学习模型的这一特性称为可解释性,但并不是所有的机器学习模型都具有可解释性。

作为可解释性属性的一部分,特征重要性是一个衡量每个输入特征对模型预测结果贡献的指标,即某个特征上的微小变化如何改变预测结果。

直觉

不同于基尼不纯度或熵,没有一个通用的数学公式来定义特征的重要性,而特征的重要性在不同的模型中是不同的。

例如,对于线性回归模型,假设所有输入特征具有相同的尺度(如[0,1],那么每个特征的特征重要性就是与该特征相关的权值的绝对值。从这个公式可以看出线性回归模型的f (X) =∑i = 1 n (wixi),模型的结果是线性正比于每个组件(wixi)这是由重量决定的(wi)的组件。

对于决策树,为了度量特征的重要性,我们需要研究模型,看看每个特征是如何在模型的最终“决策”中发挥作用的。从前面的文章中我们了解到,在决策树模型中,在每个决策节点上,我们选择最佳的特征进行分割,以便进一步区分到达该决策节点的样本。在每一次分割中,我们都更接近最终的决定(即叶节点)。因此,我们可以说,在每个决策节点上,所选择的分割特征决定了最终的预测结果。直观地说,我们也可以说,那些被选择的特征比那些实际上在决策过程中没有作用的非被选择的特征更重要。现在,剩下的问题是我们如何量化地衡量这种重要性。

有人可能还记得,我们使用信息增益或基尼系数来衡量分割的质量。当然,还可以将增益与所选择的特性关联起来,并使用增益来量化该特性在这个特定的分裂发生时的贡献。此外,我们可以累积决策树中出现的每个特征的增益。

最后,每个特征的累积增益可以作为决策树模型的特征重要性。

另一方面,作为一个可能会注意到,这一决定节点不是同样重要的是,自从决定节点树的根可以帮助过滤所有的输入样本,而决定节点树的底部有助于区分总样本的只有少数。因此,一个特征在每个决策节点获得的增益的权重并不相同,即一个特征在一个决策节点获得的增益应按该决策节点帮助区分的样本比例进行加权。

基于上述直觉,我们可以推导出以下公式来计算决策树中每个特征的重要性I:

详谈机器学习的决策树模型

注:我们可以用上述公式中的信息增益来代替基尼系数增益度量,只要我们对所有特征都使用相同的度量。

通过上面的公式,我们可以得到一个值来衡量决策树中每个特征的重要性。有时,可能需要对值进行规范化,以便更直观地比较这些值,即将所有值缩放到(0,1)的范围内。例如,如果有两个特征经过归一化后得分相同(即0.5),我们可以说它们在决策树中同等重要。

举个例子

让我们看一个具体的例子,看看我们如何应用上面的公式来计算决策树中的特征重要性。首先,我们在下图中展示了一个实例决策树。

详谈机器学习的决策树模型

从图中可以看出,该树中共有3个决策节点。在每个决策节点中,我们指出了三条信息:

1、选择要分割的特性。

2、特征获得的基尼系数

3、分别分配给左子节点和右子节点的样本数量。

此外,我们可以看出决策树总共训练了100个样本。

因此,我们可以计算出树中涉及的两个特征的特征重要性如下:

详谈机器学习的决策树模型

进一步,我们可以得到归一化特征重要性如下:

详谈机器学习的决策树模型

后记:路漫漫其修远兮,吾将上下而求索!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8126

    浏览量

    130571
  • 决策树
    +关注

    关注

    2

    文章

    96

    浏览量

    13346
  • 白盒测试
    +关注

    关注

    1

    文章

    14

    浏览量

    10541
收藏 人收藏

    评论

    相关推荐

    如何使用TensorFlow构建机器学习模型

    在这篇文章中,我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型
    的头像 发表于 01-08 09:25 361次阅读
    如何使用TensorFlow构建<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>

    决策树:技术全解与案例实战

    决策树算法是机器学习领域的基石之一,其强大的数据分割能力让它在各种预测和分类问题中扮演着重要的角色。
    的头像 发表于 12-13 09:49 472次阅读
    <b class='flag-5'>决策树</b>:技术全解与案例实战

    一种基于决策树的飞机级故障诊断建模方法研究

    、预测和管理飞机的运行状态。鉴于此,将机器学习中的决策树算法应用到故障诊断技术中,建立了复杂的数学模型,提出了一种基于飞机状态参数构成的决策树
    的头像 发表于 11-16 16:40 538次阅读
    一种基于<b class='flag-5'>决策树</b>的飞机级故障诊断建模方法研究

    模型算法总结

    、AdaBoost回归、梯度提升决策树回归、人工神经网络、随机森林回归、多输出随机森林回归、XGBoost回归。 需要面试或者需要总体了解/复习机器学习回归模型的小伙伴可以通读下本文,
    的头像 发表于 11-03 10:39 318次阅读
    <b class='flag-5'>模型</b>算法总结

    基于机器学习的车位状态预测方法

    本发明公开一种基于机器学习的车位状态预测方法,基于历史数据,建立回归决策树模型进而构建改进决策树模型
    发表于 09-21 07:24

    决策树引擎解决方案

    电子发烧友网站提供《决策树引擎解决方案.pdf》资料免费下载
    发表于 09-13 11:17 0次下载
    <b class='flag-5'>决策树</b>引擎解决方案

    ISM330DHCX中可用的机器学习内核功能信息

    本文档旨在提供 ISM330DHCX 中可用的机器学习内核功能信息。机器学习处理能力允许将一些算法从应用处理器转移到 MEMS传感器,从而持续降低功耗。通过
    发表于 09-08 07:53

    决策树的生成资料

    在本文中,我们将讨论一种监督式学习算法。最新一代意法半导体 MEMS 传感器内置一个基于决策树分类器的机器学习核心(MLC)。这些产品很容易通过后缀中的 X 来识别(例如,LSM6DS
    发表于 09-08 06:50

    机器学习模型评估指标

    机器学习模型指标在机器学习建模过程中,针对不同的问题,需采用不同的模型评估指标。
    发表于 09-06 12:51 452次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>评估指标

    机器学习算法汇总 机器学习算法分类 机器学习算法模型

    机器学习算法汇总 机器学习算法分类 机器学习算法模型
    的头像 发表于 08-17 16:11 728次阅读

    决策树的剪枝#机器学习

    机器学习
    未来加油dz
    发布于 :2023年07月14日 16:10:15

    决策树模型学习基本概念(3)#大数据机器

    机器
    未来加油dz
    发布于 :2023年07月10日 20:44:06

    决策树模型学习基本概念(2)#大数据机器

    机器
    未来加油dz
    发布于 :2023年07月10日 20:43:22

    决策树模型学习基本概念(1)#大数据机器

    机器
    未来加油dz
    发布于 :2023年07月10日 20:42:01

    机器学习构建ML模型实践

    实践中的机器学习:构建 ML 模型
    的头像 发表于 07-05 16:30 456次阅读