0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

详谈机器学习的决策树模型

如意 来源:逍遥埠 作者:逍遥埠 2020-07-06 09:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

决策树模型是白盒模型的一种,其预测结果可以由人来解释。我们把机器学习模型的这一特性称为可解释性,但并不是所有的机器学习模型都具有可解释性。

作为可解释性属性的一部分,特征重要性是一个衡量每个输入特征对模型预测结果贡献的指标,即某个特征上的微小变化如何改变预测结果。

直觉

不同于基尼不纯度或熵,没有一个通用的数学公式来定义特征的重要性,而特征的重要性在不同的模型中是不同的。

例如,对于线性回归模型,假设所有输入特征具有相同的尺度(如[0,1],那么每个特征的特征重要性就是与该特征相关的权值的绝对值。从这个公式可以看出线性回归模型的f (X) =∑i = 1 n (wixi),模型的结果是线性正比于每个组件(wixi)这是由重量决定的(wi)的组件。

对于决策树,为了度量特征的重要性,我们需要研究模型,看看每个特征是如何在模型的最终“决策”中发挥作用的。从前面的文章中我们了解到,在决策树模型中,在每个决策节点上,我们选择最佳的特征进行分割,以便进一步区分到达该决策节点的样本。在每一次分割中,我们都更接近最终的决定(即叶节点)。因此,我们可以说,在每个决策节点上,所选择的分割特征决定了最终的预测结果。直观地说,我们也可以说,那些被选择的特征比那些实际上在决策过程中没有作用的非被选择的特征更重要。现在,剩下的问题是我们如何量化地衡量这种重要性。

有人可能还记得,我们使用信息增益或基尼系数来衡量分割的质量。当然,还可以将增益与所选择的特性关联起来,并使用增益来量化该特性在这个特定的分裂发生时的贡献。此外,我们可以累积决策树中出现的每个特征的增益。

最后,每个特征的累积增益可以作为决策树模型的特征重要性。

另一方面,作为一个可能会注意到,这一决定节点不是同样重要的是,自从决定节点树的根可以帮助过滤所有的输入样本,而决定节点树的底部有助于区分总样本的只有少数。因此,一个特征在每个决策节点获得的增益的权重并不相同,即一个特征在一个决策节点获得的增益应按该决策节点帮助区分的样本比例进行加权。

基于上述直觉,我们可以推导出以下公式来计算决策树中每个特征的重要性I:

详谈机器学习的决策树模型

注:我们可以用上述公式中的信息增益来代替基尼系数增益度量,只要我们对所有特征都使用相同的度量。

通过上面的公式,我们可以得到一个值来衡量决策树中每个特征的重要性。有时,可能需要对值进行规范化,以便更直观地比较这些值,即将所有值缩放到(0,1)的范围内。例如,如果有两个特征经过归一化后得分相同(即0.5),我们可以说它们在决策树中同等重要。

举个例子

让我们看一个具体的例子,看看我们如何应用上面的公式来计算决策树中的特征重要性。首先,我们在下图中展示了一个实例决策树。

详谈机器学习的决策树模型

从图中可以看出,该树中共有3个决策节点。在每个决策节点中,我们指出了三条信息:

1、选择要分割的特性。

2、特征获得的基尼系数

3、分别分配给左子节点和右子节点的样本数量。

此外,我们可以看出决策树总共训练了100个样本。

因此,我们可以计算出树中涉及的两个特征的特征重要性如下:

详谈机器学习的决策树模型

进一步,我们可以得到归一化特征重要性如下:

详谈机器学习的决策树模型

后记:路漫漫其修远兮,吾将上下而求索!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233
  • 决策树
    +关注

    关注

    3

    文章

    96

    浏览量

    14011
  • 白盒测试
    +关注

    关注

    1

    文章

    15

    浏览量

    10823
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于级联分类器的人脸检测基本原理

    ,然后把滑动窗口中的像素灰度值和级联分类器里预先训练好的468棵决策树中的节点进行比较,得到该窗口检测结果为人脸的置信度。如果置信度大于一定的阈值,那么我们认为人脸被检测到了,反之则为未检测到人脸
    发表于 10-30 06:14

    科技发布H2仿生人形机器

    就在10月20日会跳舞的机器人来了,宇科技正式发布H2仿生人形机器人,高180cm,重70kg,配以31个关节。在宇科技展示的视频中,H2仿生人形
    的头像 发表于 10-20 17:52 1470次阅读

    科技预告新款人形机器人:有31个关节

    机器人似乎要搞大事了,宇科技发布了新款人形机器人的海报,虽然配文只有“敬请期待”几个字,但是根据海报信息显示新款机器人配备有31个关节
    的头像 发表于 08-19 23:10 1734次阅读

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文
    发表于 07-31 11:38

    十大鲜为人知却功能强大的机器学习模型

    本文转自:QuantML当我们谈论机器学习时,线性回归、决策树和神经网络这些常见的算法往往占据了主导地位。然而,除了这些众所周知的模型之外,还存在一些鲜为人知但功能强大的算法,它们能够
    的头像 发表于 04-02 14:10 916次阅读
    十大鲜为人知却功能强大的<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>

    “功夫机器人”爆火,这颗芯片的价值藏不住了

    电子发烧友网报道(文 / 吴子鹏)日前,宇机器人再次公开了旗下人形机器人 G1 的 “功夫 BOT” 动作视频,展示了其在算法升级后能够轻松学习并执行任意动作的能力。视频中的
    的头像 发表于 02-28 00:11 4129次阅读
    宇<b class='flag-5'>树</b>“功夫<b class='flag-5'>机器</b>人”爆火,这颗芯片的价值藏不住了

    科技携两款机器人亮相2025GDC

    等大模型AI突破的刺激下, 有望成为人形机器人真正的量产元年。 在春晚亮相的宇科技一直备受关注,我们今天又看到一条消息,宇科技携两款机器
    的头像 发表于 02-23 15:47 1905次阅读

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习
    的头像 发表于 02-13 09:39 619次阅读

    Kaggle知识点:7种超参数搜索方法

    问题。一些常见的超参数例子包括梯度基算法中的学习率,或者决策树算法中的深度,这些可以直接影响模型准确拟合训练数据的能力。超参数调优涉及在复杂的、高维的超参数空间中
    的头像 发表于 02-08 14:28 1699次阅读
    Kaggle知识点:7种超参数搜索方法

    科技在物联网方面

    。 人工智能算法优化:宇科技不断优化其机器人的人工智能算法,使其能够在物联网环境中更好地进行智能决策。通过机器学习、深度
    发表于 02-04 06:48

    xgboost超参数调优技巧 xgboost在图像分类中的应用

    一、XGBoost超参数调优技巧 XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升决策树(GBDT)的高效梯度提升框架,在机器学习竞赛和实际业务应用中取得了卓越
    的头像 发表于 01-31 15:16 2145次阅读

    xgboost与LightGBM的优势对比

    Gradient Boosting) 是一种基于梯度提升决策树(GBDT)的优化分布式梯度提升库,由陈天奇等人于2014年提出。它通过优化目标函数的负梯度来构建树模型,并支持并行和GPU加速。 LightGBM
    的头像 发表于 01-19 11:18 2113次阅读

    xgboost的并行计算原理

    之一。 XGBoost简介 XGBoost是一种基于梯度提升框架的集成学习算法,它通过构建多个决策树来提高模型的预测性能。与传统的梯度提升相比,XGBoost在算法上进行了优化,包括
    的头像 发表于 01-19 11:17 1571次阅读

    xgboost在图像分类中的应用

    XGBoost(eXtreme Gradient Boosting)是一种高效的机器学习算法,它基于梯度提升框架,通过构建多个弱学习器(通常是决策树)来提高
    的头像 发表于 01-19 11:16 1558次阅读

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    医疗领域,手术辅助机器人需要毫米级的精确控制,书中有介绍基于视觉伺服的实时控制算法,以及如何利用大模型优化手术路径规划。工业场景中,协作机器人面临的主要挑战是快速适应新工艺流程。具身智能通过在线
    发表于 12-24 15:03