0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA RAPIDS cuDF加速预处理工作流

NVIDIA英伟达 来源:NVIDIA英伟达 2024-11-19 15:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文属于《解码 AI》系列栏目,该系列的目的是让技术更加简单易懂,从而解密 AI,同时向 RTX 工作站和 PC 用户展示全新硬件、软件、工具和加速特性。

AI 正帮助各行各业推动创新和提高效率,但要充分发挥其潜力,必须基于海量的高质量数据对各种模型进行训练。数据科学家在准备这类数据方面发挥着关键作用,在专业数据(通常为专有数据)对于增强 AI 功能至关重要的特定领域尤其如此。

为了帮助数据科学家应对日益增长的工作负载需求,NVIDIA 发布了 RAPIDS cuDF 库,以便用户更轻松地处理数据,并且无需更改代码即可加速 pandas 软件库。Pandas 是面向 Python 的一个灵活、功能强大的热门数据分析和处理库。借助 cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。

NVIDIA RTX AI 硬件和技术也可以加速数据处理。这包括强大的 GPU,可提供在各个层面快速高效地加速 AI 所需的计算性能 — 从数据科学工作流到 PC 和工作站上的模型训练和定制。

数据科学的瓶颈

最常用的数据格式是按行和列组织的表格数据。小型数据集可以使用 Excel 等电子表格工具进行管理,但是,包含数千万行的数据集和建模工作流通常依赖于采用了例如 Python 等编程语言的 DataFrame 程序库。

Python 是进行数据分析时的热门选择,主要是因为 pandas 库采用易于使用的应用编程接口(API)。然而,随着数据集的规模不断增长,pandas 在纯 CPU 系统中难以实现理想的处理速度和效率。该库在处理文本密集型数据集时的性能也为人所诟病,而对大语言模型来说,这是一种重要的数据类型。

当数据需求超出 pandas 的能力时,数据科学家会面临两难境地:要么忍受缓慢的处理速度,要么采取复杂且成本高昂的措施,即转而采用更高效但对用户不够友好的工具。

使用 RAPIDS cuDF加速预处理工作流

RAPIDS cuDF 配合 RTX AI PC 和工作站,可为热门的 pandas 软件库提供最高达 100 倍加速

借助 RAPIDS cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。RAPIDS 是一套开源 GPU 加速的 Python 库,旨在改进数据科学和分析工作流。cuDF 是一个 GPU DataFrame 库,可提供类似于 pandas 的 API 来加载、过滤和操作数据。

使用 cuDF 的“pandas 加速器模式”,数据科学家可以在 GPU 上运行现有的 pandas 代码,充分利用强大的并行处理功能,并可放心的将代码在必要时移植到 CPU 上。这种互通性提供了出色、可靠的性能。

最新版本的 cuDF 支持更大规模的数据集和数十亿行的表格文本数据。这样,数据科学家就能够使用 pandas 代码来预处理生成式 AI 的数据。

在 NVIDIA RTX 加持的 AI 工作站

和 PC 上加速数据科学

最近的一项研究表明,57% 的数据科学家使用 PC、台式机或工作站等本地资源来执行数据科学任务。

从 NVIDIA GeForce RTX 4090 GPU 开始,数据科学家可以实现显著的速度提升。随着数据集规模不断增长,处理工作占用更多内存,相比于基于传统 CPU 的解决方案,在工作站中配合使用 cuDF 和 NVIDIA RTX 5880 Ada 架构 GPU,可以将性能提升多达 100 倍。

ea062c2c-9ffd-11ef-93f3-92fbcf53809c.png

y 轴表示两种常见的数据科学操作—“join”和“groupby”,而 x 轴显示运行每项操作所需的时间

数据科学家可以在 NVIDIA AI Workbench 上轻松开始使用 RAPIDS cuDF。利用这个基于容器的免费开发者环境管理器,数据科学家和开发者可以跨 GPU 系统创建、迁移 AI 和数据科学工作负载并进行协作。用户可以从 NVIDIA GitHub 仓库中提供的几个示例项目开始,例如 cuDF AI Workbench 项目。

HP AI Studio 也默认支持 cuDF,这是一个集中式数据科学平台,旨在帮助 AI 开发者将其开发环境从工作站无缝复制到云端。这便于他们创建、开发项目并进行协作,而无需管理多个环境。

在 RTX 加持的 AI PC 和工作站上,cuDF 的优势并不仅限于提升原始性能。还包括:

在强大的 GPU 上进行固定成本的本地开发,并可以无缝复制到本地部署的服务器或云实例,从而节省时间和支出。

加快数据处理以实现更快迭代,以便数据科学家以交互式的速度进行实验、优化并从数据集中产生洞察。

实现更有效的数据处理,以在后续工作流获得更好的模型结果。

数据科学的新时代

随着 AI 和数据科学的不断发展,快速处理和分析大量数据集的能力将成为各行业实现突破的关键差异化因素。无论是开发复杂的机器学习模型、执行复杂的统计分析还是探索生成式 AI,RAPIDS cuDF 都可为新一代数据处理奠定基础。

NVIDIA 正通过增加对最热门的 DataFrame 工具的支持来巩固这一基础,其中包括 Polars,它是增长最快的 Python 库之一,与其他开箱即用的纯 CPU 工具相比,可帮助显著加速数据处理。

Polars 本月宣布推出由 RAPIDS cuDF 提供支持的 Polars GPU 引擎公开测试版。Polars 用户现在可以将本已极快的 DataFrame 库性能提升多达 13 倍。

RTX AI 为未来的工程师创造无限可能

无论在大学数据中心、GeForce RTX 笔记本电脑还是 NVIDIA RTX 工作站上运行,NVIDIA GPU 都可加速学习过程。数据科学领域及其他领域的学生将增强其学习体验,并通过广泛应用于现实世界应用的硬件获得实战经验。

生成式 AI 正在深入改变游戏、视频会议和各种交互体验。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5509

    浏览量

    109121
  • AI
    AI
    +关注

    关注

    90

    文章

    38235

    浏览量

    297139
  • 工作流
    +关注

    关注

    0

    文章

    45

    浏览量

    12863

原文标题:解密 AI 如何加速数据科学工作流

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    数据预处理软核加速模块设计

    数据拼接操作,其预处理模块结构框图如下图 模块最后得到的信号为ddr_q、ddr_clk和ddr_wrreq。ddr_q是并行128bits图像数据,ddr_clk是RAM的出口时钟,同时引出作为下一模块的数据时钟,ddr_wrreq置高时代表有效数据。
    发表于 10-29 08:09

    NVIDIA RAPIDS 25.06版本新增多项功能

    RAPIDS 是一套面向 Python 数据科学的 NVIDIA CUDA-X 库,最新发布的 25.06 版本引入了多项亮眼新功能,其中包括 Polars GPU 执行引擎——这是一种面向图
    的头像 发表于 09-09 09:54 750次阅读

    NVIDIA在Hot Chips 2025大会展示创新技术

    本周在加利福尼亚州帕洛阿尔托(Palo Alto)举行的 Hot Chips 大会上,NVIDIA 专家详细介绍了 NVIDIA NVLink 和Spectrum-X 以太网技术、Blackwell 以及 CUDA 如何为全球数百万的 AI
    的头像 发表于 08-27 12:52 1649次阅读

    锂电池制造 | 电芯预处理工艺的步骤详解

    电芯预处理是锂电池包制造的首要工序,无论是新能源汽车的续航稳定性,还是储能系统的循环寿命,其根基都可追溯至预处理工序对电芯一致性的把控,其核心在于通过系统检测与筛选消除量产电芯的性能差异,为后续组装
    的头像 发表于 08-11 14:53 917次阅读
    锂电池制造 | 电芯<b class='flag-5'>预处理工</b>艺的步骤详解

    高效地扩展Polars GPU Parquet读取器

    处理大型数据集时,数据处理工具的性能至关重要。Polars 作为一个以速度和效率著称的开源数据处理库,它提供了由 cuDF 驱动的 GPU 加速
    的头像 发表于 04-21 17:12 672次阅读
    高效地扩展Polars GPU Parquet读取器

    非技术人员如何用n8n + DeepSeek打造AI自动化工作流

    作者:算力魔方创始人/英特尔创新大使刘力 本文从零开始介绍使用n8n和DeepSeek快速实现一个AI Agent,全自动实现一个Python代码的生成和执行工作流。 一,什么是n8n? n8n
    的头像 发表于 04-09 14:28 7877次阅读
    非技术人员如何用n8n + DeepSeek打造AI自动化<b class='flag-5'>工作流</b>?

    NVIDIA虚拟GPU 18.0版本的亮点

    生产力、安全性和性能。新版软件可帮助企业和开发者进一步推动创新、改变工作流并更大限度地发挥加速计算的潜力。
    的头像 发表于 04-07 11:28 1150次阅读

    NVIDIA加速的Apache Spark助力企业节省大量成本

    随着 NVIDIA 推出 Aether 项目,通过采用 NVIDIA 加速的 Apache Spark 企业得以自动加速其数据中心规模的分析工作
    的头像 发表于 03-25 15:09 917次阅读
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>的Apache Spark助力企业节省大量成本

    Sapphire Rapids与OpenVINO™工具套件是否兼容?

    无法确定 Sapphire Rapids 与 OpenVINO™ 工具套件的兼容性
    发表于 03-05 06:55

    NX CAD软件:数字化工作流程解决方案(CAD工作流程)

    NXCAD——数字化工作流程解决方案(CAD工作流程)使用西门子领先的产品设计软件NXCAD加速执行基于工作流程的解决方案。我们在了解行业需求方面累积了多年的经验,并据此针对各个行业的
    的头像 发表于 02-06 18:15 754次阅读
    NX CAD软件:数字化<b class='flag-5'>工作流</b>程解决方案(CAD<b class='flag-5'>工作流</b>程)

    NVIDIA RAPIDS cuDF如何赋能AI加速数据科学

    随着 AI 正帮助各行各业推动创新和提高效率,基于海量的高质量数据来训练各种模型是充分发挥 AI 应用潜力的必经之路,正因如此,数据科学家们面临着日益增长的工作负载需求,迫切需求寻找高效趁手的工具以应对挑战。
    的头像 发表于 01-24 09:26 1068次阅读

    NVIDIA推出AI零售购物助手蓝图

    NVIDIA 于近日发布了用于零售购物助手的 NVIDIA AI Blueprint,这个生成式 AI 参考工作流旨在变革网购和实体店购物的体验。
    的头像 发表于 01-14 11:17 1026次阅读

    NVIDIA在CES 2025带来多项发布

    NVIDIA 创始人兼首席执行官黄仁勋在北京时间 1 月 7 日发表了 CES 开幕主题演讲,介绍了加速计算技术在 AI、机器人、游戏和自动驾驶领域取得的突破性进展。主题演讲展示了 NVIDIA 如何通过新产品、世界模型、工具和
    的头像 发表于 01-13 11:30 1283次阅读

    NVIDIA推出Isaac GR00T Blueprint

    用于合成数据的 Isaac GR00T 工作流以及 NVIDIA Cosmos 世界基础模型,为通用人形机器人的开发注入强大动力。
    的头像 发表于 01-09 11:13 1290次阅读

    AI工作流自动化是做什么的

    AI工作流自动化是指利用人工智能技术,对工作流程中的重复性、规则明确的任务进行自动化处理的过程。那么,AI工作流自动化是做什么的呢?接下来,AI部落小编为您分享。
    的头像 发表于 01-06 17:57 1458次阅读