0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

建立决策树的逻辑

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-10-10 10:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一个小故事

zenRRan二十出头了,到了婚配的年龄啦。又因为家是名门望族,所以一堆人抢着想来应聘配偶的职位。但是zenRRan比较挑剔,必须达到他的要求才能有机会成为他的另一半,要求为:

1. 性别女,非女性不要

于是刷刷刷走了一半人,剩下的全部为女性。

2.身高必须要在150-165cm

于是又走了一堆人,剩下的为160-165cm之间的女生。

3.性格要温柔贤惠

听到这些,又走了一些人,最后留下的极为最后的应聘候选人。

上述过程可以用树来表示:

像上面的这样的二叉树状决策在我们生活中很常见,而这样的选择方法就是决策树。机器学习的方法就是通过平时生活中的点点滴滴经验转化而来的。

建立决策树的逻辑

正如上述树状图所示,我们最终会通过特征:

性别,身高,性格

得到了4种分类结果,都存在于叶子节点。

非女生,身高不符合的女生,身高符合性格不符合的女生,都符合的最佳候选人。

现在我们来回想下上面的建立决策的流程:

首先在一群给定数据(应聘者)中,我们先通过一个特征(性别)来进行二分类。当然选取这个特征也是根据实际情况而定的,比如zenRRan选取第一个条件为性别的原因是,来的男的太多了,比例占的有点大,所以先给他分成类放到一边,剩下的更加好分类而已。

然后,对叶子节点(那些还想继续分类的节点们)继续进行上述的流程。

那么怎么选取特征作为当前的分类依据呢?有两种方法:

信息熵和基尼系数。

信息熵

熵这个概念想必大家都不陌生,熵用来表示数据的确定性程度。研究一个词,就要从他的来源说起,熵,来自热动力学,表示原子或者一个事物的稳定程度,温度越高,原子越活跃,越不稳定;反而温度越低,就越稳定,越保持不动。所以慢慢的这个概念被用到各个方向,也就有了新的定义词汇,但是它的本意没变,就是稳定程度大小的表示。

那么在决策树里面,我们用的是一种熵,信息熵,来表示类别的稳定程度。

公式为:

注:p为一个类的占比

什么意思呢?具体用数字表示下:

比如一个分类结果由三个类组成,占比为1/3 1/31/3,那么它们的信息熵为:

如果占比为1/10 2/10 7/10,那么它的信息熵为:

那再举一个极端情况,也就是我们想要得到的类,只包含一种情况,其他的比例为0,那么比如占比情况为:1 0 0,那么它的信息熵为:

我们会发现一个分类结果里,里面的类别比例越是接近,信息熵也就越大,反之越是趋向于一个值,越是小,会达到0。

如果将所有的情况考虑在内的话,就能绘成一个图(为了好画,以该分好的类别里有两种事物为例):

我们会发现,当占比为0.5的时候,也就是另一个事物的占比也是0.5的时候信息熵最高,当倾向于一个事物的时候,信息熵最小,无限接近并达到0。

为什么都占比一样的时候信息熵最大呢?也就是说最不稳定呢?因为当每个事物都占比一样的时候,一个小事物进来,不清楚它到底属于哪一类;如果只有一类事物或者一类事物居多数,那么也就比较明确该属于哪类,也就稳定,确定了。

那么怎么用呢?

我们通过计算机分类,因为有很多种分类情况,不是每一次分类都是直接将同一类分到一个类别里,而是将该分好的两个类的信息熵总和最小为依据,不断地通过暴力寻找最佳选择。然后递归进行对分好类的数据进行再分类。

基尼系数

基尼系数和信息熵在这里具有同样的性质。先看看它的公式:

公式看不出什么特色之处,就继续用数字展示下:

比如依然是三分类,类别占比为1/3 1/3 1/3,基尼系数为:

类别占比为1/10 2/10 7/10,基尼系数为:

如果是极端情况下占比为1 0 0,那么基尼系数为;

我们根据公式其实就能看出来,平方的函数为凸函数,而该公式在都相等的时候值最大。

代码实现

再重说下流程:

通过对每个特征进行尝试分类,记录当前分类最小的信息熵(或基尼系数)的特征为当前分类结果。

选取一些点,初始化数据:

X为二维平面的数据点,Y为类别。

数据点分布情况:

信息熵函数:

基尼系数函数:

二者使用一个即可。

下面是一个分类核心的流程:

文字描述为:

对数据点的特征0维进行尝试分类,先按照0维数据排序,然后取每相邻的中点值,然后以0维该值分界线,处于分界线两侧的数据分别求信息熵(或基尼系数),如果比之前的小,这就保存该值和当前维度。然后选取第1维进行相同操作,最终的最小信息熵(或基尼系数)最小对应的值为本次分类的结果。

但是这个仅仅是一层分类,如果还子节点还有要分类的数据,继续上述操作即可。

分类代码:

分类效果流程图:

决策树第一层分类结果为:

当前线为最佳值,1维的数据就是分过的,但是没有当前的值好,也就没显示。

现在已经分出了两类,左边的红色和右边的绿色+蓝色。那么还要对上述的右边进行分类,获取该数据,并且继续进行分类,分类流程图为:

最终得出的分类结果为上述两条线。其中粉色为第一层分类,紫色为第二层分类。

批判性思维看决策树

看到上述的分类结果,其实你心里也想到了决策树的缺点了,就是分类总是横平竖直的,不能是曲线。

比如

该四个数据的分类最佳理想条件下应该为上述紫色线条,但是决策树的结果为;

如果存在数据在:

明明应该属于蓝色点的,但是被划分到红色点里。

所以可以看出,决策树对数据的要求是是苛刻的。

另一个问题是,决策树的学习问题,从上述代码实现过程能够看出来,可以说是暴力求解了。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 二叉树
    +关注

    关注

    0

    文章

    74

    浏览量

    13024
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137420
  • 决策树
    +关注

    关注

    3

    文章

    96

    浏览量

    14115

原文标题:【机器学习】决策树的理论与实践

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    行业洞察__工业远程监测的数字孪生与智能体协同:演进逻辑与选型策略

    启动一个对应的智能体工作流。这个工作流不是固定的死循环,而是带有逻辑分支的决策树。比如,智能体首先会查询知识库(可能是设备手册、历史维修记录、操作SOP),判断这个波动是否属于已知故障模式。如果是,它会
    发表于 05-22 10:43

    从采购设备到选择伙伴:2026年高压试验变压器选型决策树

    “选择一个能支撑业务发展的战略伙伴”。以下决策树模型,将助您拨开迷雾,做出科学选择。第一步:核心场景定义——您的“主战场”在哪里?这是所有决策的起点。请明确您70%
    的头像 发表于 05-18 16:32 119次阅读
    从采购设备到选择伙伴:2026年高压试验变压器选型<b class='flag-5'>决策树</b>

    UniStore正式全面开放

    5月7日,宇科技正式宣布,全球首个人形机器人任务动作应用商店——宇UniStore官方共享应用平台即日起面向全球用户全面开放。用户可通过该平台开发和下载机器人应用,像安装手机App一样简单,无需任何底层编程能力。
    的头像 发表于 05-09 11:22 1083次阅读

    SCADA采集监控系统提供强大的数据分析与决策支持

    工业生产管理,数据是核心,管控是关键,决策是根本。面对产线设备多、数据分散难归集、过程异常难预警、优化决策无依据等行业痛点,一套成熟的SCADA采集监控系统,正是制造企业破局的关键。 1、内置算法
    发表于 05-06 15:21

    科技,IPO申请获受理

    电子发烧友网综合报道 3月20日,上交所网站显示,宇科技股份有限公司科创板IPO申请已受理,成为又一家科创板IPO“预先审阅”落地项目。此次IPO,宇科技拟募资42.02亿元。   招股书显示
    的头像 发表于 03-20 18:33 4400次阅读
    宇<b class='flag-5'>树</b>科技,IPO申请获受理

    算法工程师需要具备哪些技能?

    :自动化任务(如数据预处理、模型训练调度)。Git版本控制:团队协作开发(如分支管理、代码合并)。 机器学习监督学习:线性回归、逻辑回归、决策树、SVM等。无监督学习:聚类(K-Means)、降维
    发表于 02-27 10:53

    如何专业评估UPS电源的性能与架构:一份面向决策者的终极指南

    在关键业务运营中,选择一台合适的UPS电源(不间断电源)是一项具有长期影响的技术决策。面对纷繁的产品参数与营销话术,技术决策者常感到困惑:究竟如何穿透表象,评估UPS电源的真实性能与架构价值?本文
    的头像 发表于 12-11 08:38 529次阅读
    如何专业评估UPS电源的性能与架构:一份面向<b class='flag-5'>决策</b>者的终极指南

    万界星空AI产线MES:打破产线“黑箱”,迈向智能决策

    AI产线MES是制造业数字化转型的必然产物。 它不再是简单的管理执行工具,而是演变成了一个能够感知、分析、决策、执行的“产线大脑”。通过引入AI,制造企业能够解锁前所未有的效率、质量和灵活性,在日益激烈的全球竞争中建立起核心优势。
    的头像 发表于 12-02 13:36 491次阅读
    万界星空AI产线MES:打破产线“黑箱”,迈向智能<b class='flag-5'>决策</b>

    基于级联分类器的人脸检测基本原理

    ,然后把滑动窗口中的像素灰度值和级联分类器里预先训练好的468棵决策树中的节点进行比较,得到该窗口检测结果为人脸的置信度。如果置信度大于一定的阈值,那么我们认为人脸被检测到了,反之则为未检测到人脸
    发表于 10-30 06:14

    科技,被起诉

    电子发烧友网综合报道 天眼查显示,近日,杭州宇科技股份有限公司(以下简称“宇科技”)新增1条开庭公告,原告为杭州露韦美日化有限公司(以下简称“露韦美日化”),案由为侵害发明专利权纠纷,该案将于8
    的头像 发表于 08-26 07:50 5317次阅读
    宇<b class='flag-5'>树</b>科技,被起诉

    光伏电站辅助决策系统的实现

    光伏电站中应用光伏电站辅助决策系统,对光伏电站来说,不仅是提升运维效率、降低人力成本,优化发电效率、增加经济效益的需要,更多的是通过决策科学化,增强安全性、防范运营风险。作为一款光伏电站的智能管理
    的头像 发表于 08-15 09:14 1167次阅读
    光伏电站辅助<b class='flag-5'>决策</b>系统的实现

    工业电脑的进化从基础控制到智能决策的跨越

    工控机从单纯的基础控制设备进化为具备智能决策能力的边缘计算节点,标志着工业自动化领域的一次深刻革命,这一跨越不仅是技术堆叠的升级,更是工业系统运行逻辑的根本性重构。以下是这一进化路径的核心解析
    的头像 发表于 08-08 10:45 630次阅读

    玩具语音方案选型决策OTP vs Flash 的成本功耗与灵活性

    玩具语音芯片方案选型的选择有很多的,但是基于各方面的限制和功能上的需求,那么在OTP和FLASH语音芯片之间如何做抉择? ​ 一、决策树总览 玩具语音方案选型可先考虑产品语音内容后期是否需要修改
    的头像 发表于 07-08 17:08 819次阅读

    电源工程师的核心技能体系

    电源工程师的核心技能体系需覆盖从基础理论到专业实践、工具应用及行业适配的全链条能力。以下是系统化的技能框架,按知识层级和应用场景展开,帮助从业者明确能力提升路径: 一、基础理论层:核心知识根基
    的头像 发表于 06-05 09:44 3589次阅读