0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据—决策树

恬静简朴1 来源:恬静简朴1 作者:恬静简朴1 2022-10-20 10:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大数据————决策树(decision tree)

决策树(decision tree):是一种基本的分类与回归方法,主要讨论分类的决策树。

在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。

决策树通常有三个步骤:特征选择、决策树的生成、决策树的修剪。

用决策树分类:从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,此时每个子节点对应着该特征的一个取值,如此递归的对实例进行测试并分配,直到到达叶节点,最后将实例分到叶节点的类中。

决策树学习的目标:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。

决策树学习的本质:从训练集中归纳出一组分类规则,或者说是由训练数据集估计条件概率模型。

决策树学习的损失函数:正则化的极大似然函数

决策树学习的测试:最小化损失函数

决策树学习的目标:在损失函数的意义下,选择最优决策树的问题。

数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。一个决策树包含三种类型的节点:

决策节点:通常用矩形框来表示

机会节点:通常用圆圈来表示

终结点:通常用三角形来表示

剪枝是决策树停止分支的方法之一,剪枝有分预先剪枝和后剪枝两种。预先剪枝是在树的生长过程中设定一个指标,当达到该指标时就停止生长,这样做容易产生“视界局限”,就是一旦停止分支,使得节点N成为叶节点,就断绝了其后继节点进行“好”的分支操作的任何可能性。不严格的说这些已停止的分支会误导学习算法,导致产生的树不纯度降差最大的地方过分靠近根节点。后剪枝中树首先要充分生长,直到叶节点都有最小的不纯度值为止,因而可以克服“视界局限”。然后对所有相邻的成对叶节点考虑是否消去它们,如果消去能引起令人满意的不纯度增长,那么执行消去,并令它们的公共父节点成为新的叶节点。这种“合并”叶节点的做法和节点分支的过程恰好相反,经过剪枝后叶节点常常会分布在很宽的层次上,树也变得非平衡。后剪枝技术的优点是克服了“视界局限”效应,而且无需保留部分样本用于交叉验证,所以可以充分利用全部训练集的信息。但后剪枝的计算量代价比预剪枝方法大得多,特别是在大样本集中,不过对于小样本的情况,后剪枝方法还是优于预剪枝方法的。

大数据知识点:

一、大数据概述:1.大数据及特点分析;2.大数据关健技术;3.大数据计算模式;4.大数据应用实例

二、大数据处理架构Hadoop:1.Hadoop项目结构;2.Hadoop安装与使用;3.Hadoop集群的部署与使用;4.Hadoop 代表性组件

三、分布式文件系统HDFS :1.HDFS体系结构;2.HDFS存储;3.HDFS数据读写过程

四、分布式数据库HBase :1.HBase访问接口;2.HBase数据类型;3.HBase实现原理;4.HBase运行机制;5.HBase应用

五、MapReduce :1.MapReduce体系结构;2.MapReduce工作流程;3.资源管理调度框架YARN ;4.MapReduce应用

六、Spark :1.Spark生态与运行架构;2.Spark SQL;3.Spark部署与应用方式

七、IPython Notebook运行Python Spark程序:1.Anaconda;2.IPython Notebook使用Spark;3.使用IPython Notebook在Hadoop YARN模式运行

八、Python Spark集成开发环境 :1.Python Spark集成开发环境部署配置;2.Spark数据分析库MLlib的开发部署

九、Python Spark决策树二分类与多分类 :1.决策树原理;2.大数据问题;3.决策树二分类;4.决策树多分类

十、Python Spark支持向量机 :1.支持向量机SVM 原理与算法;2.Python Spark SVM程序设计

十一、Python Spark 贝叶斯模型 :1.朴素贝叶斯模型原理;2.Python Spark贝叶斯模型程序设计

十二、Python Spark逻辑回归 :1.逻辑回归原理;2.Python Spark逻辑回归程序设计

十三、Python Spark回归分析 :1.大数据分析;2.数据集介绍;3.Python Spark回归程序设计

十四、Spark ML Pipeline 机器学习流程分类 :1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等

2.使用Spark ML Pipeline 机器学习流程分类程序设计

十五、Python Spark 创建推荐引擎 :1.推荐算法;2.推荐引擎大数据分析使用场景;3.推荐引擎设计

十六、项目实践:1.日志分析系统与日志挖掘项目实践;2.推荐系统项目实践

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 决策树
    +关注

    关注

    3

    文章

    96

    浏览量

    14102
  • 大数据
    +关注

    关注

    64

    文章

    9099

    浏览量

    144071
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    黑M-狂野大数据5期|网盘无密Mp4+大数据直播课-狂野大数据

    大数据直播成为了提升数据生产力的关键技术之一。它通过实时数据流的采集、分析和呈现,极大地优化了决策效率,推动了创新的步伐。那么,未来大数据
    的头像 发表于 04-06 11:13 210次阅读

    轻松入门大数据 一站式完成核心能力构建 | 更新完结

    业务决策的时效性。本文从实战角度出发,系统梳理大数据查询优化的核心思路和实战技巧,帮助读者建立完整的优化知识体系。 一、优化的起点:理解查询的执行过程 在动手优化之前,首先要理解一条查询语句在数据平台中是如何被执行的
    的头像 发表于 03-23 14:05 422次阅读

    物联网平台赋能可视化数据决策,打造工厂“智慧大脑”

    ,无法形成全局视图,更难以支撑快速、精准的管理决策。 打造一个集中、直观、智能的数据可视化平台,让关键信息一目了然,让管理决策有数可依,成为企业运营管理的迫切需求。数之能物联网平台具备高效可靠的
    的头像 发表于 02-04 14:52 232次阅读

    智慧星光持续深耕数据智能创新实践,让决策分析有“智”更有“效”

    。北京智慧星光信息技术股份有限公司,作为深耕认知智能与文本大数据领域十余年的技术密集型企业,正通过构建“感知-理解-决策”一体化的数据智能体系,为这一时代命题提交答卷—— 不仅让数据
    的头像 发表于 01-12 14:02 690次阅读

    大数据解决方案如何实施

    大数据解决方案实施的难点在于以下几点:  1.很少有优质可用的数据  在数聚股份看来,这几年数据交易机构如雨后春笋,“数据变现”成为很多拥有数据
    的头像 发表于 12-25 18:22 1152次阅读

    最受欢迎的大数据可视化工具

     在数聚股份看来,大数据可视化是进行各种大数据分析的最重要组成部分之一。 一旦原始数据流被以图像形式表示时,以此做决策就变得容易多了。 为了满足并超越客户的期望,
    的头像 发表于 12-24 17:05 388次阅读
    最受欢迎的<b class='flag-5'>大数据</b>可视化工具

    大数据平台运营的基础是什么

    在数聚股份看来,越来越多的企业开始搭建自己的大数据平台体系,并倾注大量资源用于平台的迭代和运营。那么大数据平台作为越来越被关注的企业新兴价值点,它应该以何种方式看待,并且以什么样的方式去建设和运营
    的头像 发表于 12-23 16:07 360次阅读

    组态大数据平台是什么?有什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业自动化、能源管理、楼宇监控等领域。其核心价值在于降低
    的头像 发表于 10-30 11:29 329次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?有什么功能?

    基于级联分类器的人脸检测基本原理

    ,然后把滑动窗口中的像素灰度值和级联分类器里预先训练好的468棵决策树中的节点进行比较,得到该窗口检测结果为人脸的置信度。如果置信度大于一定的阈值,那么我们认为人脸被检测到了,反之则为未检测到人脸
    发表于 10-30 06:14

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 807次阅读

    如何根据设备健康状态数据进行分析决策

    要根据设备健康状态数据做好分析决策,需先明确数据核心价值,再通过 “数据预处理→多维度分析→风险评估→决策落地” 的闭环流程推进,既依托技术
    的头像 发表于 08-20 10:07 983次阅读
    如何根据设备健康状态<b class='flag-5'>数据</b>进行分析<b class='flag-5'>决策</b>?

    光伏电站辅助决策及运维管理平台,构建系统化运维管理模式

    对光伏电站的运维管理工作进行辅助决策,可通过构建系统化的运维管理辅助决策工具实现,如光伏电站辅助决策及运维管理平台,这款系统平台可通过整合数据采集、分析模型、
    的头像 发表于 07-25 17:52 663次阅读

    玩具语音方案选型决策OTP vs Flash 的成本功耗与灵活性

    玩具语音芯片方案选型的选择有很多的,但是基于各方面的限制和功能上的需求,那么在OTP和FLASH语音芯片之间如何做抉择? ​ 一、决策树总览 玩具语音方案选型可先考虑产品语音内容后期是否需要修改
    的头像 发表于 07-08 17:08 772次阅读

    工业数据中台如何支持智能决策

    工业数据中台通过 数据整合、模型构建、实时响应与业务闭环 四大核心能力,将数据转化为可执行的决策依据,推动企业从“经验驱动”向“数据驱动”转
    的头像 发表于 06-16 17:13 647次阅读

    更改最大数据包大小时无法识别USB设备如何解决?

    将生产者 EP 端点描述符中的最大数据包大小从 1024 字节更改为 512 字节时,无法识别 USB 设备。 请告知如何解决这个问题。
    发表于 05-20 08:13