0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA加速的Apache Spark助力企业节省大量成本

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-03-25 15:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着 NVIDIA 推出 Aether 项目,通过采用 NVIDIA 加速的 Apache Spark 企业得以自动加速其数据中心规模的分析工作负载,从而节省数百万美元。

全球数万家企业依靠 Apache Spark 来处理海量数据,以支持关键业务的运营,同时预测趋势、客户行为、业务表现等。企业处理和理解数据的速度越快,盈利和节省的成本就越多。

这就是为什么拥有海量数据集的公司纷纷采用适用于 Apache Spark 的 RAPIDS 加速器,其中包括全球各地的大型零售商和银行。这个开源软件运行在 NVIDIA 加速计算平台上,它能够显著加速端到端数据科学和分析流程的处理,而无需更改任何代码。

为了让企业能更轻松地从 NVIDIA 加速的 Spark 中获取价值,NVIDIA 于近日发布了 Aether 项目。该项目包含了一系列工具和流程,可自动地评估、测试、配置和优化 Spark 工作负载,从而实现大规模的 GPU 加速。

Aether 项目可在一周内完成一年的工作量

对于在生产环境中使用 Spark 的客户来说,他们通常需要管理数以万计甚至更多的复杂作业。从纯 CPU 计算迁移到 GPU 驱动的计算具有诸多显著优势,但这一过程可能需要手动操作,耗时且费力。

此前,企业需要手动完成大量步骤,而 Aether 项目实现了这些步骤的自动化处理,包括分析所有 Spark 作业以找出最适合 GPU 加速的作业,以及每个作业的准备和试运行。它利用 AI 对每个作业的配置进行调优,以实现最优性能。

为了理解 Aether 项目的影响力,这里假设有一家企业需要完成 100 个 Spark 作业。借助 Aether 项目,每个作业最快仅需 4 天就能完成配置并针对 NVIDIA GPU 加速进行优化。而如果由一名数据工程师手动完成相同的工作量,可能需要长达一年的时间。

c42a86c8-08a4-11f0-9310-92fbcf53809c.png

澳大利亚联邦银行借助 NVIDIA 加速的 Apache Spark 来推动 AI 转型

与仅使用 CPU 相比,在 NVIDIA 加速计算平台上运行 Apache Spark 能够帮助全球各地的企业更快地完成作业,且所需硬件更少,从而节省时间、空间、电力和散热成本,同时降低本地基础设施的资本成本以及使用云计算的运营成本。

作为澳大利亚最大的金融机构,澳大利亚联邦银行处理该国 60% 的金融交易。在运行 Spark 工作负载时,该银行面临着延迟和成本方面的挑战。据估算,如果仅使用 CPU计算集群,这家银行除了要处理繁重的日常数据需求外,还需要近 9 年时间才能处理完积压的训练任务。

澳大利亚联邦银行首席数据和分析官 Andrew McMullan 表示:“我们每天要处理 4000 万次推理交易,因此能够及时、可靠地处理这些交易至关重要。”

通过在 GPU 驱动的基础设施上运行适用于 Apache Spark 的 RAPIDS 加速器,澳大利亚联邦银行把系统性能提升了 640 倍,仅用 5 天时间就完成了 63 亿笔交易的训练。此外,在处理每天 4000 万笔交易时,澳大利亚联邦银行目前能在 46 分钟内完成推理,成本比基于 CPU 的解决方案降低了 80% 以上。

McMullan 表示,NVIDIA 加速的 Apache Spark 还有另外一个重大优势。它在计算时间上极为高效,使其团队能够经济地构建模型,从而帮助澳大利亚联邦银行提供更好的客户服务、预测客户可能何时需要住房贷款方面的帮助,以及更快地检测欺诈交易。

澳大利亚联邦银行还计划使用 NVIDIA 加速的 Apache Spark 更好地确定客户通常在何处结束其数字旅程,从而能够在必要时采取补救措施,以降低放弃申请的比例。

全球生态系统

适用于 Apache Spark 的 RAPIDS 加速器通过全球合作伙伴网络提供。目前已经在亚马逊云科技、Cloudera、Databricks、Dataiku、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 平台上线。

Dell Technologies 同日也宣布,将适用于 Apache Spark 的 RAPIDS 加速器集成到 Dell Data Lakehouse 中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109099
  • 数据中心
    +关注

    关注

    16

    文章

    5519

    浏览量

    74655

原文标题:GTC25 | NVIDIA 加速的 Apache Spark 助力企业节省大量成本

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA DGX Spark系统恢复过程与步骤

    在使用 NVIDIA DGX Spark 的过程中,可能会出现配置故障,而导致开发中断的问题,本篇教程将带大家了解如何一步步完成系统恢复。
    的头像 发表于 11-28 09:46 3610次阅读
    <b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>系统恢复过程与步骤

    NVIDIA DGX Spark助力构建自己的AI模型

    2025 年 1 月 6 日,NVIDIA 正式宣布其 Project DIGITS 项目,并于 3 月 18 日更名为 NVIDIA DGX Spark,进一步公布了产品细节。DGX Spa
    的头像 发表于 11-21 09:25 547次阅读
    <b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b><b class='flag-5'>助力</b>构建自己的AI模型

    NVIDIA DGX Spark平台上对NVIDIA ConnectX-7 200G网卡配置教程

    NVIDIA DGX Spark 平台上对 NVIDIA ConnectX-7 200G 网卡进行配置时,会遇到“4 个逻辑端口”现象。理解背后的真相是后续所有配置的基础。本文将从此现象入手,逐步解析其原理,并提供从基础配置
    的头像 发表于 11-21 09:19 4430次阅读
    在<b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>平台上对<b class='flag-5'>NVIDIA</b> ConnectX-7 200G网卡配置教程

    NVIDIA DGX Spark快速入门指南

    NVIDIA DGX Spark 已正式向 AI 开发者交付,对于刚入手的全新 DGX Spark,该如何进行初始化设置?本篇文章将引导您完成 DGX Spark 首次设置。在初始设置
    的头像 发表于 11-17 14:11 4203次阅读
    <b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>快速入门指南

    NVIDIA宣布开源Aerial软件

    NVIDIA 开源其 Aerial 软件,并将 NVIDIA Sionna 研究套件和 Aerial 测试平台引入 NVIDIA DGX Spark 平台,为研究人员提供强大的工具和便
    的头像 发表于 11-03 15:14 577次阅读

    MediaTek携手NVIDIA开启个人AI算力新纪元

    Spark 助力开发者能在本地端对大型 AI 模型进行原型设计(Prototype)、微调(Fine-tune)和推理(Inference)。NVIDIA DGX Spark 将于
    的头像 发表于 10-16 11:26 479次阅读

    NVIDIA DGX Spark桌面AI计算机开启预订

    DGX Spark 现已开启预订!丽台科技作为 NVIDIA 授权分销商,提供从产品到服务的一站式解决方案,助力轻松部署桌面 AI 计算机。
    的头像 发表于 09-23 17:20 932次阅读
    <b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>桌面AI计算机开启预订

    使用NVIDIA GPU加速Apache Spark中Parquet数据扫描

    随着各行各业的企业数据规模不断增长,Apache Parquet 已经成为了一种主流数据存储格式。Apache Parquet 是一种列式存储格式,专为高效的大规模数据处理而设计。它按列而非按行
    的头像 发表于 07-23 10:52 728次阅读
    使用<b class='flag-5'>NVIDIA</b> GPU<b class='flag-5'>加速</b><b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中Parquet数据扫描

    NVIDIA技术助力企业创建主权AI智能体

    AI Factory 的经验证设计将加速基础设施与软件(包括全新 NVIDIA NIM 微服务和经扩展的 NVIDIA Blueprint)相结合,为各国和企业简化了全栈式 AI 开发
    的头像 发表于 06-16 14:28 1091次阅读

    NVIDIA助力解决量子计算领域重大挑战

    NVIDIA 加速量子研究中心提供了强大的工具,助力解决量子计算领域的重大挑战。
    的头像 发表于 03-27 09:17 999次阅读

    英伟达GTC2025亮点:NVIDIA认证计划扩展至企业存储领域,加速AI工厂部署

    ,现在已将企业存储纳入其中,旨在通过加速计算、网络、软件和存储,助力企业更高效地部署 AI 工厂。 在企业构建 AI 工厂的过程中,获取高质
    的头像 发表于 03-21 19:38 1719次阅读

    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA
    的头像 发表于 03-21 12:01 1182次阅读
    英伟达GTC2025亮点:Oracle与<b class='flag-5'>NVIDIA</b>合作<b class='flag-5'>助力</b><b class='flag-5'>企业</b><b class='flag-5'>加速</b>代理式AI推理

    NVIDIA GTC2025 亮点 NVIDIA推出 DGX Spark个人AI计算机

    台式超级计算机由 NVIDIA Grace Blackwell 驱动,为开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机制造商(包括华硕、Dell Technologies、HP
    的头像 发表于 03-20 18:59 1272次阅读
    <b class='flag-5'>NVIDIA</b> GTC2025 亮点  <b class='flag-5'>NVIDIA</b>推出 DGX <b class='flag-5'>Spark</b>个人AI计算机

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式 AI 服务首次实现集成,以帮助全球企业组织
    发表于 03-19 15:24 470次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作<b class='flag-5'>助力</b><b class='flag-5'>企业</b><b class='flag-5'>加速</b>代理式 AI 推理

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    台式超级计算机由 NVIDIA Grace Blackwell 驱动,为开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机制造商(包括华硕、Dell Technologies、HP
    发表于 03-19 09:59 504次阅读
       <b class='flag-5'>NVIDIA</b> 宣布推出 DGX <b class='flag-5'>Spark</b> 个人 AI 计算机