0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用PyCaret + RAPIDS简化模型构建

星星科技指导员 来源:NVIDIA 作者:Sofia Sayyah 2022-04-19 16:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

PyCaret是一个低代码 Python 机器学习库,基于流行的 R Caret 库。它自动化了从数据预处理到 i NSight 的数据科学过程,因此短代码行可以用最少的人工完成每个步骤。此外,使用简单的命令比较和调整许多模型的能力可以简化效率和生产效率,同时减少创建有用模型的时间。

PyCaret 团队在 2 . 2 版中添加了 NVIDIA GPU 支持,包括RAPIDS中所有最新和最伟大的版本。使用 GPU 加速, PyCaret 建模时间可以快 2 到 200 倍,具体取决于工作负载。

这篇文章将介绍如何在 GPU 上使用 PyCaret 以节省大量的开发和计算成本。

所有基准测试都是在一台 32 核 CPU 和四个 NVIDIA Tesla T4 的机器上运行的,代码几乎相同。为简单起见, GPU 代码编写为在单个 GPU 上运行。

PyCaret 入门

使用 PyCaret 与导入库和执行 setup 语句一样简单。setup()功能创建环境,并提供一系列预处理功能,一气呵成。

from pycaret.regression import * exp_reg = setup(data = df, target = ‘Year’, session_id = 123, normalize = True)

在一个简单的设置之后,数据科学家可以开发其管道的其余部分,包括数据预处理/准备、模型训练、集成、分析和部署。在准备好数据后,最好从比较模型开始。

与 PyCaret 的简约精神一样,我们可以通过一行代码来比较一系列标准模型,看看哪些模型最适合我们的数据。 compare _ models 命令使用默认超参数训练 PyCaret 模型库中的所有模型,并使用交叉验证评估性能指标。然后,数据科学家可以根据这些信息选择他们想要使用的模型、调整和集成。

top3 = compare_models(exclude = [‘ransac’], n_select=3)

比较模型

pYYBAGJec6KAEuJVAAJfAB5I3Mw802.png

图 1 : PyCaret 中 compare _ models 命令的输出。

**模型从最佳到最差排序, PyCaret 突出显示了每个度量类别中的最佳结果,以便于使用。

用 RAPIDS cuML 加速 PyCaret

PyCaret 对于任何数据科学家来说都是一个很好的工具,因为它简化了模型构建并使运行许多模型变得简单。使用 GPU s , PyCaret 可以做得更好。由于 PyCaret 在幕后做了大量工作,因此看似简单的命令可能需要很长时间。例如,我们在一个具有大约 50 万个实例和 90 多个属性(加州大学欧文分校的年度预测 MSD 数据集)的数据集上运行了前面的命令。在 CPU 上,花费了 3 个多小时。在 GPU 上,只花了不到一半的时间。

在过去,在 GPU 上使用 PyCaret 需要许多手动编码,但谢天谢地, PyCaret 团队集成了 RAPIDS 机器学习库( cuML ),这意味着您可以使用使 PyCaret 如此有效的相同简单 API ,同时还可以使用 GPU 的计算能力。

在 GPU 上运行 PyCaret 往往要快得多,这意味着您可以充分利用 PyCaret 提供的一切,而无需平衡时间成本。使用刚才提到的同一个数据集,我们在 CPU 和 GPU 上测试了 PyCaret ML 功能,包括比较、创建、调优和集成模型。切换到 GPU 很简单;我们在设置函数中将use_gpu设置为True:

exp_reg = setup(data = df, target = ‘Year’, session_id = 123, normalize = True, use_gpu = True)

PyCaret 设置为在 GPU 上运行,它使用 cuML 来训练以下所有型号:

对数几率回归

脊分类器

随机森林

K 邻域分类器

K 邻域回归器

支持向量机

线性回归

岭回归

套索回归

群集分析

基于密度的空间聚类

仅在 GPU 上运行相同的compare_models代码的速度是 GPU 的2.5倍多。

对于流行但计算昂贵的模型,在模型基础上的影响更大。例如, K 邻域回归器在 GPU 上的速度是其 265 倍。

poYBAGJec6aAZgk7AABQVDYtMHQ115.png

图 2 : CPU 和 GPU 上运行的常见 PyCaret 操作的比较。

影响

PyCaret API 的简单性释放了原本用于编码的时间,因此数据科学家可以做更多的实验并对实验进行微调。当与 GPU 配合使用时,这种影响甚至更大,因为充分利用 PyCaret 的评估和比较工具套件的计算成本显著降低。

结论

广泛的比较和评估模型有助于提高结果的质量,而 PyCaret 正是为了这样做。 GPU 上的 PyCaret 抵消了大量处理所带来的时间成本。

RAPIDS 的目标是加速您的数据科学, PyCaret 是越来越多的库之一,它们与 RAPIDS 套件的兼容性有助于为您的机器学习追求带来新的效率。

关于作者

Sofia Sayyah 是 NVIDIA 的数据工程实习生。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5339

    浏览量

    136285
  • 机器学习
    +关注

    关注

    67

    文章

    8571

    浏览量

    137459
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    将英飞凌的 MOSFET AIMBG120R040M1带有温度参数的 SPICE 模型导入 LTspice 时遇到的问题和错误求解

    MOSFET AIMG120R040M1 导入 LTSPICE的,发现其 L3 模型中有 6 个引脚,除了栅极、源极、漏极和开尔文源极外,还有结温 Tj 和封装温度 Tcase。请问如何正确导入此模型,以及如何在仿真中输入温度。此外,使用其
    发表于 05-20 07:43

    航空运维大模型智能系统平台软件:构建全生命周期智慧保障体系

    AI模型
    北京华盛恒辉科技
    发布于 :2026年05月11日 22:55:44

    小鹏汽车正式发布世界模型X-World技术报告

    近日,小鹏汽车正式发布世界模型X-World技术报告,从数据、模型、训练、验证及应用等多层面详解X-World的构建与使用。
    的头像 发表于 04-02 10:27 2604次阅读
    小鹏汽车正式发布世界<b class='flag-5'>模型</b>X-World技术报告

    NVIDIA开放模型助力构建下一代数字健康智能体

    NVIDIA Nemotron 系列开放模型和 NVIDIA NeMo 库正在为临床医生、研究人员和开发者提供开放权重和方法,使他们能够在自有的基础设施上构建和部署定制化的数字健康智能体。
    的头像 发表于 03-25 09:46 582次阅读

    工作流大模型节点说明

    用与端侧匹配版本的插件进行返回。 配置技能后,大模型节点的能力更接近一个独立运行的智能体,可以自动进行意图识别,并判断调用技能的时机和方式,大幅度提高此节点的文本处理能力和文本生成效果,简化
    发表于 03-19 14:56

    如何构建适合自动驾驶的世界模型

    [首发于智驾最前沿微信公众号]世界模型经历了系统动力学阶段(1960年~2000年)、认知科学阶段(2001年~2017年)、深度学习阶段(2018年至今),但将其应用到自动驾驶汽车上,还是近几年才
    的头像 发表于 02-18 08:14 1.1w次阅读
    如何<b class='flag-5'>构建</b>适合自动驾驶的世界<b class='flag-5'>模型</b>?

    安宝特产品丨3DE-实体模型简化-快捷简化和表面收缩

    CAD 实体模型如何轻量化?快捷简化与表面收缩助力版权保护和营销素材制作成本优化。
    的头像 发表于 12-01 13:28 455次阅读
    安宝特产品丨3DE-实体<b class='flag-5'>模型</b><b class='flag-5'>简化</b>-快捷<b class='flag-5'>简化</b>和表面收缩

    构建CNN网络模型并优化的一般化建议

    通过实践,本文总结了构建CNN网络模型并优化的一般化建议,这些建议将会在构建高准确率轻量级CNN神经网络模型方面提供帮助。 1)避免单层神经网络:我们清楚神经网络本身是需要不断抽象出
    发表于 10-28 08:02

    如何在vivadoHLS中使用.TLite模型

    测试 在Vivado HLS中运行综合、高级综合和RTL仿真,确保设计正确。 注意事项 以上步骤是一个简化的示例,具体的实现可能因您的模型和需求而有所不同。在实际应用中,您可能需要进一步优化接口和数据传输,以满足性能和资源要求。
    发表于 10-22 06:29

    NVIDIA RAPIDS 25.06版本新增多项功能

    RAPIDS 是一套面向 Python 数据科学的 NVIDIA CUDA-X 库,最新发布的 25.06 版本引入了多项亮眼新功能,其中包括 Polars GPU 流执行引擎——这是一种面向图
    的头像 发表于 09-09 09:54 1383次阅读

    构建适用于三维集成系统的互连线长分布模型

    在三维集成电路设计中,TSV技术通过垂直互连显著优化了互连线长分布特性。基于伦特定律的经典分析框架,可构建适用于三维集成系统的互连线长分布模型
    的头像 发表于 08-21 10:41 1467次阅读
    <b class='flag-5'>构建</b>适用于三维集成系统的互连线长分布<b class='flag-5'>模型</b>

    实现SSC-EARSM湍流模型的关键技术

    简化基线显式代数雷诺应力模型(S-BSL-EARSM)相比,分离敏感型修正显式代数雷诺应力模型(SSC-EARSM)旨在更好地预测分离流动。
    的头像 发表于 08-13 15:08 924次阅读
    实现SSC-EARSM湍流<b class='flag-5'>模型</b>的关键技术

    瑞芯微模型量化文件构建

    模型是一张图片输入时,量化文件如上图所示。但是我现在想量化deepprivacy人脸匿名模型,他的输入是四个输入。该模型训练时数据集只标注了人脸框和关键点,该模型的预处理是放到
    发表于 06-13 09:07

    知识分享 | 评估模型架构——如何实现?

    确保良好的模型架构对于开发安全和可靠的软件非常重要。本文为您介绍MES Model Examiner® (MXAM)如何优化模型架构,简化复杂度管理步骤,并最终提升软件质量。
    的头像 发表于 06-05 11:46 826次阅读
    知识分享 | 评估<b class='flag-5'>模型</b>架构——如何实现?

    碳化硅衬底厚度测量中探头温漂的热传导模型与实验验证

    引言 在碳化硅衬底厚度测量过程中,探头温漂会严重影响测量精度。构建探头温漂的热传导模型并进行实验验证,有助于深入理解探头温漂的产生机理,为提高测量准确性提供理论依据与技术支持。 热传导模型
    的头像 发表于 06-04 09:37 665次阅读
    碳化硅衬底厚度测量中探头温漂的热传导<b class='flag-5'>模型</b>与实验验证