0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

随机森林的概念、工作原理及用例

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-08-05 10:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随机森林是一种监督式算法,使用由众多决策树组成的一种集成学习方法,输出是对问题最佳答案的共识。随机森林可用于分类或回归。

什么是随机森林?

随机森林是用于分类和回归的一种主流集成学习方法。

集成学习方法结合了多种机器学习 (ML) 算法,以获得更好的模型 – 应用于数据科学的群体智慧。此类学习方法基于这样一种概念:一群对问题领域知之有限的人集思广益,可以获得比一个知识丰富的人更好的解决方案。

随机森林是一组决策树,是几乎人人都熟悉的解决问题的比喻。决策树通过针对数据集元素,询问一系列回答是否的问题来得出答案。在下面的示例中,为了预测一个人的收入,决策会考虑变量(特征),例如此人是否有工作(是或否)以及此人是否有房子。在算法环境中,机器会不断搜索特征,以允许将一组中的观察结果按如下方式进行分割,即结果组之间尽可能不同,而每个不同子组的成员之间尽可能相似。

ae1d5a88-13f4-11ed-ba43-dac502259ad0.png

随机森林使用名为“bagging”的技术,通过数据集和特征的随机自助抽样样本并行构建完整的决策树。虽然决策树基于一组固定的特征,而且经常过拟合,但随机性对森林的成功至关重要。

ae35625e-13f4-11ed-ba43-dac502259ad0.png

随机性可确保单个树之间的相关性较低,从而减少偏差风险。大量树的存在也减少了过拟合问题,如果模型在训练数据中加入过多“噪声”并因此做出糟糕决策,这种问题就会出现。

使用随机森林模型,随着模型中不相关树的数量增加,做出正确预测的可能性也会增加。结果的质量更高,因为它们反映了大多数树做出的决策。此投票过程通过限制误差来保护每个树不互相伤害。即使有些树错误,也会有一些树正确,因此这组树集体朝正确的方向前行。虽然随机森林模型在考虑许多特征时可能会运行缓慢,但即使是使用有限数量特征的小模型也会产生非常好的结果。

随机森林的工作原理是什么?

随机森林中的每棵树在称为自助聚集 (bagging) 的过程中随机对训练数据子集进行抽样。该模型适合这些较小的数据集,并汇总预测结果。通过有放回抽样,可以重复使用同一数据的几个实例,结果就是,这些树不仅基于不同的数据集进行训练,而且还使用不同的特性做出决策。

ae53b4e8-13f4-11ed-ba43-dac502259ad0.png

图像来源:KDNuggets

用例

分类示例包括:

欺诈检测

垃圾邮件检测

文本情感分析

预测患者风险、败血症或癌症

回归示例包括:

预测欺诈数量

预测销售额

为何选择随机森林?

随机森林模型有五个主要优点:

非常适合回归和分类问题。回归中的输出变量是一个数字序列,例如某个街区的房价。分类问题的输出变量通常是一个单一答案,例如房屋的售价是否高于或低于要价。

可以处理缺失值并保持高准确性,即使由于 bagging 和有放回抽样而缺失大量数据时也是如此。

算法由于输出的是“多数规则”,使得模型几乎不可能过拟合。

该模型可以处理包含数千个输入变量的庞大数据集,因此成为降维的不错工具。

其算法可用于从训练数据集中识别非常重要的特征。

其也有一些缺点:

随机森林优于决策树,但其准确性低于 XGBoost 等梯度提升树集成。

随机森林包含大量树,因此速度比 XGBoost 慢。

梯度提升决策树

梯度提升决策树 (GBDT) 是一种决策树集成学习算法,类似于用于分类和回归的随机森林。随机森林和 GBDT 都构建了由多个决策树组成的模型。两者的区别在于重建和组合的方式。

GBDT 使用一种称为 boosting 的技术,以迭代方式训练一组浅层决策树,每次迭代都使用上一个模型的残差拟合下一个模型。最终得到的预测结果是所有树预测结果的加权总和。随机森林 bagging 可大幅减少差异和过拟合,而 GBDT boosting 则可减少偏差和欠拟合。

XGBoost(极端梯度提升)是 GBDT 的领先、可扩展的分布式变体。使用 XGBoost 时,树并行构建,而非顺序构建。GBoost 遵循按层生长策略,扫描梯度值并使用这些部分和来评估训练集中每个可分割点的分割质量。

XGBoost 因其广泛的用例、可移植性、多样化的语言支持以及云集成而广受欢迎。

与 XGBoost 相比,随机森林模型的准确性可能会因两个不同的误差来源(偏差和方差)而下降:

梯度提升模型通过以低学习率进行多轮提升来消除偏差和方差。

梯度提升模型超参数也有助于消除方差。

随机森林模型使用树深度和树的数量消除偏差和方差。

随机森林树可能需要比梯度提升树更深入。

更多数据可减少偏差和方差。

NVIDIA GPU 加速的

随机森林、XGBOOST 和端到端数据科学

在架构方面,CPU 仅由几个具有大缓存内存的核心组成,一次只可以处理几个软件线程。相比之下,GPU 由数百个核心组成,可以同时处理数千个线程。

ae784146-13f4-11ed-ba43-dac502259ad0.jpg

基于 CUDA-X AI 创建的 NVIDIA RAPIDS开源软件库套件使您完全能够在 GPU 上执行端到端数据科学和分析流程。此套件依靠 NVIDIA CUDA 基元进行低级别计算优化,但通过用户友好型 Python 接口实现了 GPU 并行化和高带宽显存速度。

ae947f64-13f4-11ed-ba43-dac502259ad0.png

借助 RAPIDS GPU DataFrame,数据可以通过一个类似 Pandas 的接口加载到 GPU 上,然后用于各种连接的机器学习和图形分析算法,而无需离开 GPU。这种级别的互操作性可通过 Apache Arrow 等库实现,并且可加速端到端流程(从数据准备到机器学习,再到深度学习)。

RAPIDS 的机器学习算法和数学基元遵循熟悉的类似于 scikit-learn 的 API。单块 GPU 和大型数据中心部署均支持 XGBoost、随机森林等主流工具。针对大型数据集,相较于同等功效的 CPU,这些基于 GPU 的实施方案能够以 10 到 50 倍的速度更快地完成任务。

NVIDIA RAPIDS 团队与 DMLC XGBoost 组织建立了紧密的合作关系,而且 GPU 加速 XGBoost 现已包括无缝嵌入式 GPU 加速,可显著加快模型训练速度并提高准确性。对在配备 NVIDIA P100 加速器和 32 个英特尔至强 E5-2698 CPU 核心的系统上运行的 XGBoost 脚本进行的测试表明,相较于在输出质量相同的非 GPU 系统上运行相同的测试,速度提升了 4 倍。这一点尤为重要,因为数据科学家通常会多次运行 XGBoost,以便调整参数并找到出色的准确性。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5732

    浏览量

    110364
  • 算法
    +关注

    关注

    23

    文章

    4817

    浏览量

    98887
  • 随机森林
    +关注

    关注

    1

    文章

    22

    浏览量

    4462

原文标题:NVIDIA 大讲堂 | 什么是 随机森林?

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    KC9420+HK‑100C:以高清智控筑牢森林防火全天候安全防线

    控制板,以高清成像、远距变倍、智能控制、稳定传输构建全天候、广覆盖、高可靠的森林防火监测体系,让火情早发现、早预警、早处置,科技守护万顷林海安宁。 一、高清远摄:千里林海清晰在握,细微烟点无处遁形 林区地形复杂、视野跨度大,对成
    的头像 发表于 04-27 14:40 139次阅读

    这个电路干啥的呢?它的工作原理是怎么样?

    很多工程师认为圈起来的这个电路不能工作,我刚开始看到这个电路也是这么认为的!这个圈起来的三极管(PNP)电路到底能不能工作呢,怎么样的工作原理呢?欢迎工程师们在评论区畅所欲言。 APA320-160W+160W.
    发表于 04-15 11:03

    433M无线模块的工作原理和距离

    一、工作原理  433MHz无线模块的工作原理是通过发射器和接收器之间的模拟信号进行无线通信。具体来说,它由发射器和接收器两部分组成,这两部分通过433MHz的模拟信号进行通信。发射器工作原理
    发表于 04-10 14:44

    串行mram磁性随机存储器的工作原理与存储机制

    在存储器技术不断演进的今天,MRAM磁性随机存储器凭借其独特的非易失性、高速读写与高耐久性,正成为越来越多高端应用场景的理想选择。尤其是串行MRAM磁性随机存储器,通过精简的接口设计与灵活的集成方式,进一步拓展了MRAM在嵌入式系统、工业控制和汽车电子等领域的适用性。
    的头像 发表于 03-30 16:27 336次阅读
    串行mram磁性<b class='flag-5'>随机</b>存储器的<b class='flag-5'>工作原理</b>与存储机制

    Raythink燧石热像仪精准监测,赋能森林防火智能升级!

    森林草原防灭火条例》自2026年1月1日起正式实施,其中“预防为主”被明确列为工作方针,并在第九条明确鼓励科技创新与先进装备研发应用,旨在提升监测预警的科技化、标准化水平。在这一政策背景下,技术
    的头像 发表于 01-30 11:58 739次阅读
    Raythink燧石热像仪精准监测,赋能<b class='flag-5'>森林</b>防火智能升级!

    无线充电器的工作原理核心

    无线充电器的工作原理核心
    的头像 发表于 12-06 10:19 2298次阅读
    无线充电器的<b class='flag-5'>工作原理</b>核心

    腾柱无桥PFC电路的工作原理和拓扑结构

    以单极性SPWM调制方式为,说明图腾柱PFC的工作原理。此处仅以正向AC-DC说明。后续会专门介绍DC-AC的功能介绍。
    的头像 发表于 11-26 14:30 4604次阅读
    腾柱无桥PFC电路的<b class='flag-5'>工作原理</b>和拓扑结构

    永铭超级电容SLM系列赋能森林防火监控系统,凸显关键电容优势

    DESIGNER'SDREAM森林防火监控系统的市场前景01随着气候变化导致全球范围内极端天气增多,各国政府和相关部门对森林防火工作的重视程度不断提升,对高效、智能化的森林
    的头像 发表于 09-01 10:08 774次阅读
    永铭超级电容SLM系列赋能<b class='flag-5'>森林</b>防火监控系统,凸显关键电容优势

    广州唯创电子语音芯片的工作原理与应用解析

    、车载导航、医疗器械等领域提供了高效的语音解决方案。本文将以唯创电子语音芯片为,深入解析其工作原理及技术特点。一、语音芯片的核心工作原理语音芯片的工作流程可分为
    的头像 发表于 08-28 08:33 961次阅读
    广州唯创电子语音芯片的<b class='flag-5'>工作原理</b>与应用解析

    随机数和伪随机数的区别

    随机数在当前程序运行环境中是一种常用参数,目前主要分为两种,伪随机数和真随机数,本期我们就来讲一下二者的区别。
    的头像 发表于 08-27 17:46 3024次阅读

    解析基带和射频的工作原理

    在现代通信技术中,基带和射频是两个核心概念,它们共同构成了无线通信的基础。尽管这两个术语频繁出现在技术文档和行业讨论中,但其具体功能和技术细节却常常被误解。本文将以移动通信为,深入解析基带和射频的工作原理及其在通信链路中的作用
    的头像 发表于 08-06 09:28 3166次阅读
    解析基带和射频的<b class='flag-5'>工作原理</b>

    蓝牙随机化RPA更新的重要性和工作原理

    蓝牙™随机可解析私有地址(Bluetooth® Randomized RPA)更新功能已推出,该更新通过优化可解析私有地址的管理,提高了低功耗蓝牙设备的隐私性和能效。本文将介绍蓝牙™随机化RPA更新的重要性、解释其工作原理,并为
    的头像 发表于 07-10 09:36 1296次阅读
    蓝牙<b class='flag-5'>随机</b>化RPA更新的重要性和<b class='flag-5'>工作原理</b>

    语音控制模块工作原理

    ,才能够发出正确的指令。 语音芯片控制模块是实现 “语音指令 - 设备响应” 的核心组件,其工作原理可拆解为信号采集、处理、识别及指令执行的完整链路,下面将以WTK69000为给大家分享一下整个流程的工作原理。 一、语音信号采
    的头像 发表于 06-17 11:49 1937次阅读
    语音控制模块<b class='flag-5'>工作原理</b>

    管道浮力平衡压袋(配重压袋)工作原理

    管道浮力平衡压袋(配重压袋)工作原理
    发表于 06-12 15:09 0次下载

    技术干货 | 功能安全术语的暗黑森林

    在汽车产业高度发展的当下,功能安全已从抽象概念转化为系统性防控要求。ISO26262定义的核心术语正是突破概念模糊性的首道门槛——既是工程师协同的技术语言,也是实现安全出行的底层方法论。今天我们就来
    的头像 发表于 06-10 16:38 2360次阅读
    技术干货 | 功能安全术语的暗黑<b class='flag-5'>森林</b>