0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA RAPIDS cuDF如何赋能AI加速数据科学

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-01-24 09:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着 AI 正帮助各行各业推动创新和提高效率,基于海量的高质量数据来训练各种模型是充分发挥 AI 应用潜力的必经之路,正因如此,数据科学家们面临着日益增长的工作负载需求,迫切需求寻找高效趁手的工具以应对挑战。

Pandas 是一个灵活而强大的 Python 数据分析和处理库,由于其是一款非常易于使用的 API,成为了数据科学家的首选。然而,随着数据集大小的增长,Pandas 在纯 CPU 系统中的处理速度和效率方面就会遇到困难。

对于面向数据分析工作的 DataFrame 软件库,除了 Pandas,目前还有一颗冉冉上升的开源新星——Polars。相比于主要依赖单线程执行的 Pandas,Polars 在处理大数据集时的速度通常比其快 5 到 10 倍。

尽管 Pandas 和 Polars 在数据处理领域各有所长,但是处理超大数据集不仅需要极致发挥 CPU 的能力,也需要 GPU 发挥作用。在这一背景下,NVIDIA 发布了 RAPIDS cuDF 库,用于加载、连接、聚合、过滤和以其他方式操作数据,充分利用了 GPU 大规模并行处理能力的优势。

RAPIDS 是一套开源的 GPU 加速 Python 程序库,旨在改进数据科学和分析工作流。RAPIDS cuDF 是一个 GPU DataFrame 程序库,其提供了一个类似 Pandas 的 API,用于加载、过滤和操作数据。cuDF 的早期版本只适用于 GPU 开发工作流程。而 NVIDIA 也在持续对这一应用进行更新。

现在 RAPIDS cuDF 可以为 950 万 Pandas 用户带来 GPU 加速,而无需他们更改代码,根据数据集大小为 5 GB 的分析基准测试结果,处理时间缩短到原来的 1/150。而由 RAPIDS cuDF 驱动的全新 GPU 引擎已经可将 NVIDIA GPU 上的 Polars 工作流速度最高提速 13 倍,这意味着仅在一台机器上数据科学家就能实现在数秒内处理数亿行数据。

借助 RAPIDS cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。此外,随着数据集规模不断增长,处理工作占用更多内存,在 NVIDIA RTX 加持的 AI 工作站和 PC 上的运行也实现了显著的速度提升。相比于基于传统 CPU 的解决方案,在工作站中配合使用 cuDF 和 NVIDIA RTX 5880 Ada 架构 GPU,可以将性能提升多达 100 倍。

通过以下博客了解更多关于 RAPIDS cuDF 的最新信息,解锁在 AI 应用与解决方案中加速数据分析探索的创新灵感。

无需更改代码即可将 Pandas 提速近 150 倍

Pandas 是 Python 生态系统中最流行的 DataFrame 程序库,但它的速度会随着 CPU 上数据量的增加而变慢。现在只需一条命令,用户就可以在无需更改代码的情况下,使用 cuDF 将加速计算引入到其 Pandas 工作流中。根据数据集大小为 5 GB 的分析基准测试结果,处理时间缩短到原来的 150 分之一。

点击阅读《无需更改代码,RAPIDS cuDF 将 Pandas 提速近 150 倍》了解更多 cuDF 将统一的 CPU/GPU 体验引入 Pandas 工作流并为其带来顶尖性能的详细信息。

RAPIDS cuDF 驱动的 Polars GPU 引擎

最高提速 13 倍

RAPIDS cuDF 驱动的 Polars GPU 引擎现已发布公测版,为各行各业的数据科学家和工程师提供了一种适用于中等规模数据处理的强大工具。该引擎最高能够将 NVIDIA GPU 上的 Polars 工作流速度提速 13 倍,可以在不产生分布式系统开销的情况下,高效处理数亿行规模的数据集。Polars GPU 引擎直接内置在 Polars API 中,使所有用户都能轻松访问。

点击阅读《RAPIDS cuDF 驱动的 Polars GPU 引擎发布公测版》了解更多将 NVIDIA 加速计算引入 Polars 显著提升加速性能的详细介绍。

使用 RAPIDS cuDF 加速预处理工作流

突破数据科学的瓶颈

随着 AI 和数据科学的不断发展,快速处理和分析大量数据集的能力将成为各行业实现突破的关键差异化因素。无论是开发复杂的机器学习模型、执行复杂的统计分析还是探索生成式 AI,RAPIDS cuDF 都可为新一代数据处理奠定基础。

点击阅读《解密 AI 如何加速数据科学工作流》了解更多相关信息,预见 RTX AI 将如何为未来的工程师创造无限可能。

GTC 2025 将于2025 年 3 月 17 至 21 日在美国加州圣何塞及线上同步举行。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109110
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5100

    浏览量

    134477
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296826
  • 数据科学
    +关注

    关注

    0

    文章

    168

    浏览量

    10751

原文标题:合集详解 RAPIDS cuDF 如何赋能 AI 加速数据科学

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助
    的头像 发表于 12-01 09:25 514次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动
    发表于 09-17 11:45

    NVIDIA RAPIDS 25.06版本新增多项功能

    RAPIDS 是一套面向 Python 数据科学NVIDIA CUDA-X 库,最新发布的 25.06 版本引入了多项亮眼新功能,其中包括 Polars GPU 流执行引擎——这是
    的头像 发表于 09-09 09:54 738次阅读

    NVIDIA AI助力科学研究领域持续突破

    随着 AI 技术的广泛应用,AI 正在成为科学研究的引擎。NVIDIA 作为重要的技术推手,持续驱动着 AI 系统解锁更多领域的
    的头像 发表于 08-05 16:30 960次阅读

    NVIDIA全栈加速代理式AI应用落地

    在近期举办的 AWS 中国峰会上,NVIDIA 聚焦于“NVIDIA 全栈加速代理式 AI 应用落地”,深入探讨了代理式 AI (Agent
    的头像 发表于 07-14 11:41 1062次阅读

    NVIDIA AI技术助力欧洲医疗健康行业发展

    从构建全球规模最大的生物多样性数据库,到打造罕见病研究的 AI 工厂,NVIDIAAI
    的头像 发表于 06-19 14:40 3176次阅读

    NVIDIA携手微软加速代理式AI发展

    代理式 AI 正在重新定义科学探索,推动各行各业的研究突破和创新发展。NVIDIA 和微软正通过深化合作提供先进的技术,从云到 PC 加速代理式 A
    的头像 发表于 05-27 14:03 762次阅读

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发

    NVIDIA GTC 推出新一代专业级 GPU 和 AI 的开发者工具—同时,ChatRTX 更新现已支持 NVIDIA NIM,RTX
    的头像 发表于 03-28 09:59 1081次阅读

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驱动的工程设计和科学应用

    融合设计专业知识与加速计算,推动科技创新、实现效和工程生产力方面的突破性进展,引领全球生活新范式 内容提要 ● Cadence 借助 NVIDIA 最新 Blackwell 系统,将求解器的速度
    的头像 发表于 03-24 10:14 1221次阅读

    英伟达GTC2025亮点:NVIDIA认证计划扩展至企业存储领域,加速AI工厂部署

    全新的存储认证和参考架构让企业 IT 部门更轻松地选择和部署 AI 基础设施,实现最优的性能和效。 AI 部署的成功依靠速度、数据和规模
    的头像 发表于 03-21 19:38 1719次阅读

    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,
    的头像 发表于 03-21 12:01 1186次阅读
    英伟达GTC2025亮点:Oracle与<b class='flag-5'>NVIDIA</b>合作助力企业<b class='flag-5'>加速</b>代理式<b class='flag-5'>AI</b>推理

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI       美国加利福尼亚州圣何塞 —— GTC  —— 2025 年 3 月 18 日
    发表于 03-19 15:24 471次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力企业<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> 推理

    NVIDIA RTXAI工作站加速数据科学工作流程

    各行各业都在借助 AI 实现转型,以提高竞争力和运营效率。在零售业中,聊天机器人正在简化用户的产品库存搜索。在金融服务业,基于 AI 的工具正应用于欺诈检测。而在医疗健康领域,AI 正在帮助从基因组学中发现新的见解,从而改善患者
    的头像 发表于 02-08 10:01 1087次阅读
    <b class='flag-5'>NVIDIA</b> RTX<b class='flag-5'>赋</b><b class='flag-5'>能</b><b class='flag-5'>AI</b>工作站<b class='flag-5'>加速</b><b class='flag-5'>数据</b><b class='flag-5'>科学</b>工作流程

    借助NVIDIA AI Foundry平台推动医疗健康与生命科学行业发展

    借助 NVIDIA AI Foundry,全球领先的临床研究与商业服务提供商 IQVIA 将为其全球生命科学领域的客户提供 AI 智能体,助力加速
    的头像 发表于 01-17 09:59 1277次阅读

    NVIDIA预测2025年AI行业发展

    NVIDIA 加速计算、数据科学和研究领域专家预测,多模态模型将推动行业创新和效率提升。
    的头像 发表于 12-18 13:49 1710次阅读