0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据—决策树

恬静简朴1 来源:恬静简朴1 作者:恬静简朴1 2022-10-20 10:01 次阅读

大数据————决策树(decision tree)

决策树(decision tree):是一种基本的分类与回归方法,主要讨论分类的决策树。

在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。

决策树通常有三个步骤:特征选择、决策树的生成、决策树的修剪。

用决策树分类:从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,此时每个子节点对应着该特征的一个取值,如此递归的对实例进行测试并分配,直到到达叶节点,最后将实例分到叶节点的类中。

决策树学习的目标:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。

决策树学习的本质:从训练集中归纳出一组分类规则,或者说是由训练数据集估计条件概率模型。

决策树学习的损失函数:正则化的极大似然函数

决策树学习的测试:最小化损失函数

决策树学习的目标:在损失函数的意义下,选择最优决策树的问题。

数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。一个决策树包含三种类型的节点:

决策节点:通常用矩形框来表示

机会节点:通常用圆圈来表示

终结点:通常用三角形来表示

剪枝是决策树停止分支的方法之一,剪枝有分预先剪枝和后剪枝两种。预先剪枝是在树的生长过程中设定一个指标,当达到该指标时就停止生长,这样做容易产生“视界局限”,就是一旦停止分支,使得节点N成为叶节点,就断绝了其后继节点进行“好”的分支操作的任何可能性。不严格的说这些已停止的分支会误导学习算法,导致产生的树不纯度降差最大的地方过分靠近根节点。后剪枝中树首先要充分生长,直到叶节点都有最小的不纯度值为止,因而可以克服“视界局限”。然后对所有相邻的成对叶节点考虑是否消去它们,如果消去能引起令人满意的不纯度增长,那么执行消去,并令它们的公共父节点成为新的叶节点。这种“合并”叶节点的做法和节点分支的过程恰好相反,经过剪枝后叶节点常常会分布在很宽的层次上,树也变得非平衡。后剪枝技术的优点是克服了“视界局限”效应,而且无需保留部分样本用于交叉验证,所以可以充分利用全部训练集的信息。但后剪枝的计算量代价比预剪枝方法大得多,特别是在大样本集中,不过对于小样本的情况,后剪枝方法还是优于预剪枝方法的。

大数据知识点:

一、大数据概述:1.大数据及特点分析;2.大数据关健技术;3.大数据计算模式;4.大数据应用实例

二、大数据处理架构Hadoop:1.Hadoop项目结构;2.Hadoop安装与使用;3.Hadoop集群的部署与使用;4.Hadoop 代表性组件

三、分布式文件系统HDFS :1.HDFS体系结构;2.HDFS存储;3.HDFS数据读写过程

四、分布式数据库HBase :1.HBase访问接口;2.HBase数据类型;3.HBase实现原理;4.HBase运行机制;5.HBase应用

五、MapReduce :1.MapReduce体系结构;2.MapReduce工作流程;3.资源管理调度框架YARN ;4.MapReduce应用

六、Spark :1.Spark生态与运行架构;2.Spark SQL;3.Spark部署与应用方式

七、IPython Notebook运行Python Spark程序:1.Anaconda;2.IPython Notebook使用Spark;3.使用IPython Notebook在Hadoop YARN模式运行

八、Python Spark集成开发环境 :1.Python Spark集成开发环境部署配置;2.Spark数据分析库MLlib的开发部署

九、Python Spark决策树二分类与多分类 :1.决策树原理;2.大数据问题;3.决策树二分类;4.决策树多分类

十、Python Spark支持向量机 :1.支持向量机SVM 原理与算法;2.Python Spark SVM程序设计

十一、Python Spark 贝叶斯模型 :1.朴素贝叶斯模型原理;2.Python Spark贝叶斯模型程序设计

十二、Python Spark逻辑回归 :1.逻辑回归原理;2.Python Spark逻辑回归程序设计

十三、Python Spark回归分析 :1.大数据分析;2.数据集介绍;3.Python Spark回归程序设计

十四、Spark ML Pipeline 机器学习流程分类 :1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等

2.使用Spark ML Pipeline 机器学习流程分类程序设计

十五、Python Spark 创建推荐引擎 :1.推荐算法;2.推荐引擎大数据分析使用场景;3.推荐引擎设计

十六、项目实践:1.日志分析系统与日志挖掘项目实践;2.推荐系统项目实践

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 决策树
    +关注

    关注

    2

    文章

    96

    浏览量

    13345
  • 大数据
    +关注

    关注

    64

    文章

    8649

    浏览量

    136589
收藏 人收藏

    评论

    相关推荐

    决策树:技术全解与案例实战

    决策树算法是机器学习领域的基石之一,其强大的数据分割能力让它在各种预测和分类问题中扮演着重要的角色。
    的头像 发表于 12-13 09:49 468次阅读
    <b class='flag-5'>决策树</b>:技术全解与案例实战

    一种基于决策树的飞机级故障诊断建模方法研究

    、预测和管理飞机的运行状态。鉴于此,将机器学习中的决策树算法应用到故障诊断技术中,建立了复杂的数学模型,提出了一种基于飞机状态参数构成的决策树的飞机级故障诊断建模方法,对飞机健康管理应用的发展具有一定的参考意义,有利于健康管理系统朝着更加综合化、智能化、网络化和标准化的方
    的头像 发表于 11-16 16:40 538次阅读
    一种基于<b class='flag-5'>决策树</b>的飞机级故障诊断建模方法研究

    基于机器学习的车位状态预测方法

    本发明公开一种基于机器学习的车位状态预测方法,基于历史数据,建立回归决策树模型进而构建改进决策树模型,对每个区域的停车率进行预测,基于停车率和用户喜好度为用户推荐相应的停车区域,获取相应停车区域
    发表于 09-21 07:24

    决策树引擎解决方案

    电子发烧友网站提供《决策树引擎解决方案.pdf》资料免费下载
    发表于 09-13 11:17 0次下载
    <b class='flag-5'>决策树</b>引擎解决方案

    大数据如何应用于业务和决策

    大数据已经成为当今商业和决策制定中的一个关键因素。随着互联网的普及和技术的不断进步,我们生产的数据量呈指数级增长。这些数据不仅包括来自社交媒体、传感器、移动设备等各种来源的信息,还包括
    的头像 发表于 09-08 11:00 307次阅读

    ISM330DHCX中可用的机器学习内核功能信息

    一系列可配置节点组成的数学工具。每个节点均采用“如果-则-否则”条件,并根据阈值评估输入信号(由传感器数据计算出的统计参数表示)。可通过配置 ISM330DHCX 来同时独立运行多达 8 个决策树
    发表于 09-08 07:53

    决策树的生成资料

    量、峰峰值、过零(正和负)、原始和过滤后的传感器数据峰值检测(正和负)。如果在所选的特征中观察到不同的模式,则可以使用决策树进行分类。考虑图 1 中所示的加速度数据示例。
    发表于 09-08 06:50

    ID决策树(2)#Python

    数据函数代码python
    未来加油dz
    发布于 :2023年08月23日 18:34:54

    ID决策树(1)#Python

    数据函数代码python
    未来加油dz
    发布于 :2023年08月23日 18:33:55

    C.决策树(3)#Python

    数据函数代码python
    未来加油dz
    发布于 :2023年08月23日 18:21:40

    C.决策树(2)#Python

    数据函数代码python
    未来加油dz
    发布于 :2023年08月23日 18:20:08

    C.决策树(1)#Python

    数据函数代码python
    未来加油dz
    发布于 :2023年08月23日 18:19:22

    决策树(2)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月11日 18:26:31

    决策树(1)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月11日 18:26:06

    自动驾驶决策概况

    文章目录1. 第一章行为决策在自动驾驶系统架构中的位置 2. 行为决策算法的种类 2.1 基于规则的决策算法 2.1.1 决策树 2.1.2 有限状态机(FSM) 2.1.3 基于本体
    发表于 06-01 16:24 0次下载
    自动驾驶<b class='flag-5'>决策</b>概况