机器学习：决策树--python

今天，我们介绍机器学习里比较常用的一种分类算法，决策树。决策树是对人类认知识别的一种模拟，给你一堆看似杂乱无章的数据，如何用尽可能少的特征，对这些数据进行有效的分类。

决策树借助了一种层级分类的概念，每一次都选择一个区分性最好的特征进行分类，对于可以直接给出标签 label 的数据，可能最初选择的几个特征就能很好地进行区分，有些数据可能需要更多的特征，所以决策树的深度也就表示了你需要选择的几种特征。

在进行特征选择的时候，常常需要借助信息论的概念，利用最大熵原则。

决策树一般是用来对离散数据进行分类的，对于连续数据，可以事先对其离散化。

在介绍决策树之前，我们先简单的介绍一下信息熵，我们知道，熵的定义为：

机器学习：决策树--python

我们先构造一些简单的数据：

from sklearn import datasets

import numpy as np

import matplotlib.pyplot as plt

import math

import operator

def Create_data（）：

dataset = ［［1，1，‘yes’］，

［1， 1，‘yes’］，

［1， 0， ‘no’］，

［0， 1， ‘no’］，

［3， 0， ‘maybe’］］

feat_name = ［‘no surf acing’， ‘flippers’］

return dataset， feat_name

然后定义一个计算熵的函数：

def Cal_entrpy（dataset）：

n_sample = len（dataset）

n_label = {}

for featvec in dataset：

current_label = featvec［-1］

if current_label not in n_label.keys（）：

n_label［current_label］ = 0

n_label［current_label］ += 1

shannonEnt = 0.0

for key in n_label：

prob = float（n_label［key］） / n_sample

shannonEnt -= prob * math.log（prob， 2）

return shannonEnt

要注意的是，熵越大，说明数据的类别越分散，越呈现某种无序的状态。

下面再定义一个拆分数据集的函数：

def Split_dataset（dataset， axis， value）：

retDataSet = ［］

for featVec in dataset：

if featVec［axis］ == value：

reducedFeatVec = featVec［：axis］

reducedFeatVec.extend（featVec［axis+1 ：］）

retDataSet.append（reducedFeatVec）

return retDataSet

结合前面的几个函数，我们可以构造一个特征选择的函数：

def Choose_feature（dataset）：

num_sample = len（dataset）

num_feature = len（dataset［0］） - 1

baseEntrpy = Cal_entrpy（dataset）

best_Infogain = 0.0

bestFeat = -1

for i in range （num_feature）：

featlist = ［example［i］ for example in dataset］

uniquValus = set（featlist）

newEntrpy = 0.0

for value in uniquValus：

subData = Split_dataset（dataset， i， value）

prob = len（subData） / float（num_sample）

newEntrpy += prob * Cal_entrpy（subData）

info_gain = baseEntrpy - newEntrpy

if （info_gain 》 best_Infogain）：

best_Infogain = info_gain

bestFeat = i

return bestFeat

然后再构造一个投票及计票的函数

def Major_cnt（classlist）：

class_num = {}

for vote in classlist：

if vote not in class_num.keys（）：

class_num［vote］ = 0

class_num［vote］ += 1

Sort_K = sorted（class_num.iteritems（），

key = operator.itemgetter（1）， reverse=True）

return Sort_K［0］［0］

有了这些，就可以构造我们需要的决策树了：

def Create_tree（dataset， featName）：

classlist = ［example［-1］ for example in dataset］

if classlist.count（classlist［0］） == len（classlist）：

return classlist［0］

if len（dataset［0］） == 1：

return Major_cnt（classlist）

bestFeat = Choose_feature（dataset）

bestFeatName = featName［bestFeat］

myTree = {bestFeatName： {}}

del（featName［bestFeat］）

featValues = ［example［bestFeat］ for example in dataset］

uniqueVals = set（featValues）

for value in uniqueVals：

subLabels = featName［：］

myTree［bestFeatName］［value］ = Create_tree（Split_dataset

（dataset， bestFeat， value）， subLabels）

return myTree

def Get_numleafs（myTree）：

numLeafs = 0

firstStr = myTree.keys（）［0］

secondDict = myTree［firstStr］

for key in secondDict.keys（）：

if type（secondDict［key］）.__name__ == ‘dict’ ：

numLeafs += Get_numleafs（secondDict［key］）

else：

numLeafs += 1

return numLeafs

def Get_treedepth（myTree）：

max_depth = 0

firstStr = myTree.keys（）［0］

secondDict = myTree［firstStr］

for key in secondDict.keys（）：

if type（secondDict［key］）.__name__ == ‘dict’ ：

this_depth = 1 + Get_treedepth（secondDict［key］）

else：

this_depth = 1

if this_depth 》 max_depth：

max_depth = this_depth

return max_depth

阅读全文

12 下一页全文

python(82776) python(82776)
决策树(13272) 决策树(13272)

基于Python实现随机森林算法

机器学习算法是数据挖掘、数据能力分析和数学建模必不可少的一部分，而随机森林算法和决策树算法是其中较为常用的两种算法，本文将会对随机森林算法的Python实现进行保姆级教学。

2023-09-21 11:17:28

185

【下载】《机器学习》+《机器学习实战》

]目录：第一部分　分类第1章　机器学习基础　　2第2章　k-近邻算法　　15第3章　决策树 　　32第4章　基于概率论的分类方法：朴素贝叶斯　　53第5章　Logistic回归　　73第6章

2017-06-01 15:49:24

决策树引擎解决方案

电子发烧友网站提供《决策树引擎解决方案.pdf》资料免费下载

2023-09-13 11:17:52

python数据挖掘与机器学习

python数据挖掘与机器学习 Python是一个非常流行的编程语言，被广泛用于数据挖掘和机器学习领域。在本篇文章中，我们将探讨Python在数据挖掘和机器学习中的应用，并介绍一些Python中常

2023-08-17 16:29:38

388

python机器学习概述

Python机器学习概述机器学习是人工智能领域的一个重要分支，是一种可以自动改进和学习的算法。在过去的几十年里，机器学习已经成为计算机科学和数据科学领域中最流行、应用最广泛的领域之一。Python

2023-08-17 16:11:43

304

常见的机器学习算法及其应用场景

决策树是一个树结构（可以是二叉树或非二叉树），其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个输出类别。使用决策树进行决策的过程就是从根节点

2023-08-11 12:24:50

257

决策树的剪枝#机器学习

机器学习

未来加油dz发布于 2023-07-14 16:10:15

什么是集成学习算法-1

同质集成:只包含同种类型算法，比如决策树集成全是决策树，异质集成:包含不同种类型算法，比如同时包含神经网络和决策树

2023-02-24 16:37:28

340

基于集成学习的决策介绍（下）

本文主要介绍基于集成学习的决策树，其主要通过不同学习框架生产基学习器，并综合所有基学习器的预测结果来改善单个基学习器的识别率和泛化性。

2023-02-17 15:52:12

255

基于集成学习的决策介绍（上）

2023-02-17 15:52:09

340

[8.1.1]--决策树原理

机器学习

jf_90840116发布于 2022-12-10 19:47:17

大数据—决策树

大数据————决策树（decision tree） 决策树（decision tree）：是一种基本的分类与回归方法，主要讨论分类的决策树。在分类问题中，表示基于特征对实例进行分类的过程，可以

2022-10-20 10:01:36

565

GitHub上的机器学习核心存储库和运动

　　支持的传感器是独一无二的，因为它们都有一个机器学习核心，可以并行运行一个或多个决策树。ST 是第一个提供此类组件的公司，并因此获得了奖项。它仍然是独一无二的，因为机器学习核心可以以微控制器功耗的一小部分提供决策能力。

2022-05-11 16:20:36

655

机器学习之决策树生成详解

根据给定的数据集创建一个决策树就是机器学习的课程，创建一个决策树可能会花费较多的时间，但是使用一个决策树却非常快。创建决策树时最关键的问题就是选取哪一个特征作为分类特征，好的分类特征能够最大化的把

2021-08-27 14:38:54

17971

基于遗传优化决策树的建筑能耗预测模型

基于遗传优化决策树的建筑能耗预测模型

2021-06-27 16:19:13

基于文本挖掘和决策树的中国手游产业分析

针对中国传统的手游产业发展存在主题识别不精准，缺乏利用数据挖掘和可视化分析方法等问题，文中提出了一种基于文本挖掘和决策树（ Desision tree）分析的中国手游产业发展研究方法，从多方面分析了

2021-06-17 16:16:33

基于非均衡数据分类的犹豫模糊决策树

为优化针对非均衡数据的分类效果，结合犹豫模糊集理论与决策树算法，提出一种改进的模糊决策树算法。通过 SMOTE算法对非均衡数据进行过采样处理，使用K- means聚类方法获得各属性的聚类中心点，利用

2021-06-09 15:51:47

可提高心电信号分类识别准确率的模糊决策树

为提高心电信号分类识别的准确率，提出一种基于时频特征融合与动态模糊决策树的心电信号分类识别方法。对心电信号依次进行周期分割、小波包分解与重构和形态识别处理，将小波包变换系数矩阵的二范数作为频域特征

2021-05-28 10:34:48

决策树的结构/优缺点/生成

决策树（DecisionTree）是机器学习中一种常见的算法，它的思想非常朴素，就像我们平时利用选择做决策的过程。决策树是一种基本的分类与回归方法，当被用于分类时叫做分类树，被用于回归时叫做回归树。

2021-03-04 10:11:13

7322

python机器学习笔记资料免费下载

本文档的主要内容详细介绍的是python机器学习笔记资料免费python机器学习笔记资料免费下载。

2021-03-01 10:09:38

什么是决策树模型，决策树模型的绘制方法

决策树是一种解决分类问题的算法，本文将介绍什么是决策树模型，常见的用途，以及如何使用“亿图图示”软件绘制决策树模型。

2021-02-18 10:12:20

11325

决策树的判断标准及算法

在决策树中，可能有多个特征，但是一些特征是无关重要的，一些则是对分类（target）起到决定作用的。

2021-02-18 10:06:29

3401

决策树的一般流程及应用

所有的机器学习算法中，决策树应该是最友好的了。它呢，在整个运行机制上可以很容易地被翻译成人们能看懂的语言，也因此被归为“白盒模型”。

2021-01-29 09:36:40

6815

决策树的基本概念/学习步骤/算法/优缺点

本文将介绍决策树的基本概念、决策树学习的3个步骤、3种典型的决策树算法、决策树的10个优缺点。

2021-01-27 10:03:20

1918

使用基尼不纯度拆分决策树的步骤

决策树是机器学习中使用的最流行和功能最强大的分类算法之一。顾名思义，决策树用于根据给定的数据集做出决策。也就是说，它有助于选择适当的特征以将树分成类似于人类思维脉络的子部分。

2021-01-13 09:37:41

1093

机器学习中常用的决策树算法技术解析

决策树是最重要的机器学习算法之一，其可被用于分类和回归问题。本文中，我们将介绍分类部分。

2020-10-12 16:39:34

1012

建立决策树的逻辑

像上面的这样的二叉树状决策在我们生活中很常见，而这样的选择方法就是决策树。机器学习的方法就是通过平时生活中的点点滴滴经验转化而来的。

2020-10-10 10:44:19

2140

决策树的构成要素及算法

决策树是一种解决分类问题的算法，决策树算法采用树形结构，使用层层推理来实现最终的分类。

2020-08-27 09:52:48

3138

一文知道决策树的优缺点

决策树易于理解和解释，可以可视化分析，容易提取出规则。

2020-08-27 09:50:07

15078

人工智能、机器学习以及深度学习三者之间的关系是什么？

“训练”，通过各种算法从数据中学习如何完成任务。机器学习传统的算法包括决策树、聚类、贝叶斯分类等。从学习方法上来分可以分为监督学习、无监督学习、半监督学习、集成学习、深度学习和强化学习。

2020-07-26 11:14:44

10456

详谈机器学习的决策树模型

决策树模型是白盒模型的一种，其预测结果可以由人来解释。我们把机器学习模型的这一特性称为可解释性，但并不是所有的机器学习模型都具有可解释性。

2020-07-06 09:49:06

2860

详解机器学习决策树的优缺点

决策树（Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

2020-01-19 17:06:00

6906

开发成功的机器学习应用程序需要一定的“偏方”

澄清说明：分类器与学习器的含义是什么？假设你有训练数据，并使用你构建另一个程序（模型）的程序处理这些数据，例如决策树。学习器是从输入数据构建决策树模型的程序，而决策树模型是分类器（能够为每个输入数据实例提供预测输出的东西）。

2019-05-16 18:18:25

2493

如何使用最优二叉决策树分类模型进行奶牛运动行为的识别

针对奶牛行为分类过程中决策树算法构建主观性强、阈值选取无确定规则，易导致分类精度差的问题，该文提出一种基于最优二叉决策树分类模型的奶牛运动行为识别方法，首先选取描述奶牛腿部三轴加速度数值大小、对称性

2019-04-24 08:00:00

决策树和随机森林模型

我们知道决策树容易过拟合。换句话说，单个决策树可以很好地找到特定问题的解决方案，但如果应用于以前从未见过的问题则非常糟糕。俗话说三个臭皮匠赛过诸葛亮，随机森林就利用了多个决策树，来应对多种不同场景。

2019-04-19 14:38:02

7210

如何使用针对不平衡数据进行决策树改进方法资料说明

针对异常检测中异常数据与正常数据的比例严重不平衡导致决策树性能下降的问题，提出了C4.5决策树的三种改进方法一C4.5 +δ、均匀分布熵（ UDE）和改进分布熵函数（IDEF）。首先，推导了C4.5

2019-03-27 10:56:06

什么是决策树?决策树算法思考总结

C4.5算法：基于ID3算法的改进，主要包括：使用信息增益率替换了信息增益下降度作为属性选择的标准；在决策树构造的同时进行剪枝操作；避免了树的过度拟合情况；可以对不完整属性和连续型数据进行处理，提升了算法的普适性。

2019-02-04 09:45:00

9264

基于决策树算法的电能表故障预测方法

今天为大家介绍一项国家发明授权专利——基于决策树算法的电能表故障预测方法。该专利由国电南瑞科技股份有限公司申请，并于2018年11月30日获得授权公告。

2018-12-17 11:40:35

1438

机器学习教程之机器学习导论的详细电子教材免费下载

对机器学习的定义和应用实例进行了介绍，涵盖了监督学习。贝叶斯决策理论。参数方法、多元方法、维度归约、聚类、非参数方法、决策树。线性判别式、多层感知器，局部模型、隐马尔可夫模型。分类算法评估和比较，组合多学习器以及增强学习等。

2018-12-14 15:03:55

机器学习教程之机器学习的十三个经典课件资料免费下载

本文档的主要内容详细介绍的是机器学习教程之机器学习的十三个经典课件资料免费下载主要内容包括了：1，引言 2，基于符号和逻辑表示的概念学习 3，决策树 4，人工神经网络 5，统计和估计理论的基础概念

2018-11-22 17:36:01

决策树的原理和决策树构建的准备工作，机器学习决策树的原理

希望通过所给的训练数据学习一个贷款申请的决策树，用于对未来的贷款申请进行分类，即当新的客户提出贷款申请时，根据申请人的特征利用决策树决定是否批准贷款申请。

2018-10-08 14:26:09

5361

人工智能之机器学习CART算法解析

CART（Classification andRegression Tree）分类回归树是一种决策树构建算法。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART

2018-09-05 10:00:00

4254

深度神经决策树：深度神经网络和树模型结合的新模型

近日，来自爱丁堡大学的研究人员提出了一种结合深度神经网络和树模型的新型模型——深度神经决策树(Deep Neural Decision Trees, DNDT)。

2018-08-19 09:14:44

11530

在工程师的手中，我们可以用机器学习搭建自己的音乐梦想！

万万没想到，在工程师的手中，我们可以用机器学习搭建自己的音以决策树为例，这是一种常见的机器学习算法，并不涉及“神经网络”、“深度学习”的范畴。简言之，决策树是一种以递归方式学习每个特征的阈值并将数据分类的系统。

2018-08-01 09:41:43

2556

结合深度神经网络和决策树的完美方案

“ANT的出发点与mGBDT类似，都是期望将神经网络的表示学习和决策树的特点做一个结合，不过，ANT依旧依赖神经网络BP算法进行的实现，”冯霁说：“而深度森林（gcForest/mGBDT）的目的

2018-07-25 09:39:01

8769

数据挖掘算法：决策树算法如何学习及分裂剪枝

决策树（decision tree）算法基于特征属性进行分类，其主要的优点：模型具有可读性，计算量小，分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5，Breiman等提出的CART。其中，C4.5是基于ID3的，对分裂属性的目标函数做出了改进。

2018-07-21 10:13:29

5056

构建一个决策树并查看它如何进行预测

正如你所看到的，决策树非常直观，他们的决策很容易解释。这种模型通常被称为白盒模型。相反，正如我们将看到的，随机森林或神经网络通常被认为是黑匣子模型。他们做出了很好的预测，并且我们可以轻松检查他们执行的计算以进行这些预测; 然而，通常很难用简单的术语来解释为什么会做出预测。

2018-07-16 17:12:01

13687

人工智能机器学习之随机森林(RF)

决策树主要用来解决分类和回归问题，但是决策树（DT）会产生过拟合现象，导致泛化能力变弱。过拟合是建立决策树模型时面临的重要挑战之一。鉴于决策树容易过拟合的缺点，由美国贝尔实验室大牛们提出了采用随机森林（RF）投票机制来改善决策树。

2018-05-30 06:59:00

2811

带你了解一下人工智能中的决策树(DT)

决策树（DT）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。从数据产生决策树的机器学习技术叫做决策树学习。

2018-05-29 07:12:00

1583

大神教你怎么用Python抓取婚恋网用户数据，用决策树生成自己择偶观

机器学习中，决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所

2018-05-28 10:53:25

3732

基于决策树的在轨卫星故障诊断知识挖掘

针对目前卫星在轨故障诊断后验证知识获取困难，随着卫星在轨运行功能或性能退化导致门限诊断精度下降的问题，本文深入研究了卫星在轨管理过程中积累的异常数据和故障案例，提出了一种基于决策树的在轨卫星故障诊断

2018-02-23 10:50:30

海量嘈杂数据决策树算法

针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响，以及传统驻留内存算法处理海量数据困难的问题，提出一种基于Hadoop平台的不确定概率C4.5算法-IP-C4.5算法。在训练模型

2018-01-13 09:41:38

基于粗决策树的动态规则提取算法

针对静态算法对大数据和增量数据处理不足的问题，构造了基于粗决策树的动态规则提取算法，并将其应用于旋转机械故障诊断中。将粗集与决策树结合，用增量方式实现样本抽取；经过动态约简、决策树构造、规则提取

2017-12-29 14:24:05

决策树C4.5算法属性取值优化研究

决策树算法是一种最简单、最直接、最有效的文本分类算法。最早的决策树算法是ID3算法，于1986年由Quinlan提出，该算法是一种基于信息熵的决策树分类算法。由于该算法是以信息熵作为属性选择的标准

2017-12-12 11:20:55

MATLAB编译生成AUTOLISP代码实现可变ID3基因分型决策树分类图的绘制

决策树分类器，是一种基于实例的分类算法，广泛被应用于人工智能领域。ID3算法是最为经典的决策树建树算法，它通过递归和逐次挑选信息量最多的属性来构造决策树。决策树的结构有时非常庞大和复杂，而决策树分类

2017-12-07 11:23:03

使决策树规模最小化算法

决策树技术在数据挖掘的分类领域应用极其广泛，可以从普通决策表（每行记录包含一个决策值）中挖掘有价值的信息，但是要从多值决策表（每行记录包含多个决策值）中挖掘潜在的信息则比较困难。多值决策表中每行记录

2017-12-05 15:47:26

基于贪心算法的非一致决策表的决策树分析方法

决策树技术在数据挖掘的分类领域中被广泛采用。采用决策树从一致决策表f即条件属性值相同的样本其决策值相同）中挖掘有价值信息的相关研究较为成熟，而对于非一致决策表（即条件属性值相同的样本其决策值

2017-12-05 14:30:45

一种新型的决策树剪枝优化算法

目前关于决策树剪枝优化方面的研究主要集中于预剪枝和后剪枝算法。然而，这些剪枝算法通常作用于传统的决策树分类算法，在代价敏感学习与剪枝优化算法相结合方面还没有较好的研究成果。基于经济学中的效益成本

2017-11-30 10:05:19

基于Bagging决策树优化算法

针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题，提出了一种基于Bagging的决策树改进算法，并基于MapReduce模型对改进算法进行了并行化。首先，基于Bagging技术对C4.5算法

2017-11-21 11:57:08

决策树的构建设计并用Graphviz实现决策树的可视化

最近打算系统学习下机器学习的基础算法，避免眼高手低，决定把常用的机器学习基础算法都实现一遍以便加深印象。本文为这系列博客的第一篇，关于决策树(Decision Tree)的算法实现，文中我将对决策树

2017-11-15 13:10:04

14051

基于ID3的决策树算法研究

路径最短，从而提升分类的速度和准确率。通过实例对改进算法生成决策树产生的结果分析，表明了该算法生成的决策树结构更简单，时间复杂度更优。算法更有效。

2017-11-14 14:08:05

采用ID3和C4.5算法生成决策树在学生管理系统中应用

决策树算法最早源于人工智能的机器学习技术，用以实现数据内在规律的探究和新数据对象的分类预测U。由于其出色的数据分析能力和直观易懂的结果展示等特点，决策树成为一种重要的数据挖掘技术。随着信息化技术

2017-10-28 12:58:36

解读决策树与随机森林模型的概念

为什么要引入随机森林呢。我们知道，同一批数据，我们只能产生一颗决策树，这个变化就比较单一了，这就有了集成学习的概念。

2017-10-18 17:47:37

3329

已全部加载完成

搜索历史

机器学习：决策树--python

评论