0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA为全球领先的数据分析平台Apache Spark提速

西西 来源:厂商供稿 作者:NVIDIA 2020-05-15 15:48 次阅读

开源社区通过对NVIDIA GPU的原生支持加速Spark 3.0;

实现数百TB数据的飞速ETL和SQL处理;

Adobe在Databricks上使用Spark 3.0将模型训练速度提高7倍

加利福尼亚州圣克拉拉市 - GTC 2020大会 - 2020年5月14日 – NVIDIA于今日宣布其正在与开源社区合作,为Apache Spark 3.0带来端到端的GPU加速。Apache Spark 3.0是一个热门的分析引擎,被全球范围内超过50万名数据科学家用于大数据处理。

随着Spark 3.0预计将于春季晚些时候发布,数据科学家和机器学习工程师将首次能够把革命性的GPU加速应用于普遍使用SQL数据库操作进行的ETL(提取、转换和加载)数据处理工作负载中。

此外,他们还将首次能够在同一Spark集群上处理AI模型训练任务,而无需将工作负载作为单独流程在单独的基础架构上运行。这样就可以对整个数据科学的处理流程进行高性能数据分析,对从数据湖到模型训练所涉及的数十、乃至数千TB的数据进行加速,而且无需对已被应用于本地和云端Spark应用程序的现有代码进行修改。

NVIDIA企业计算主管Manuvir Das表示:“数据分析是当今企业和研究者所面临最大的高性能计算挑战。从ETL到训练再到推理,整个Spark 3.0 方案的原生GPU加速为用户提供了最终将大数据潜力与AI性能相连所需的性能和规模。”

作为NVIDIA的战略AI合作伙伴,Adobe是最早在Databricks上运行Spark 3.0预览版的公司之一。Adobe已在Adobe Experience Cloud中使用GPU加速数据分析技术进行产品开发,并为各项推进数字化业务进程的功能提供支持。在初步测试中其已将性能提高了7倍,并节省了90%的成本。

性能提升后的Spark 3.0让科学家能够训练包含有更大数据集的模型,并增加反复训练模型的频率,从而提高模型的精度。现在,数据科学家每天可以处理数TB的新数据,这对于需要为在线推荐系统提供支持或分析新研究数据的数据科学家们而言至关重要。此外,处理速度的加快,减少了交付结果所需的硬件资源,从而节省了大量成本。

Adob机器学习高级总监William Yan表示:“相比于在CPU上运行Spark,NVIDIA加速的Spark 3.0性能速度得到了大幅提高。伴随着GPU性能的飞跃性提升,也将为我们全套Adobe Experience Cloud应用中AI功能的提升带来新的可能性。”

Databricks和NVIDIA为Spark提速

Apache Spark最初是由Databricks的创始人创建。Databricks的云端统一数据分析平台每天在一百多万台虚拟机上运行。NVIDIA与Databricks已开展合作,使用专为Databricks开发的RAPIDSTM软件套件优化Spark,将GPU加速应用于在Databricks上运行的医疗、金融、零售等众多行业的数据科学和机器学习工作负载中。

Apache Spark最初的创建者兼Databricks首席技术员Matei Zaharia表示:“我们与NVIDIA开展了长期合作,用专为Apache Spark 3.0和Databricks开发的RAPIDS相关优化来提高性能,使得像Adobe这样的我们两家公司共同的客户能够得以受益。我们所作出的这些努力加快了数据处理流程、模型训练和评分的速度,直接为我们的数据工程师和数据科学家社区带来更多的突破和洞见。”

NVIDIA GPU加速Spark中的ETL和数据传输

NVIDIA正在提供一种用于Apache Spark的全新开源RAPIDS加速器,帮助数据科学家提高其数据流程的端到端性能。该加速器能够将之前需要在CPU上运行的功能,转到GPU上运行,以发挥GPU的性能:

·在无需更改任何代码的情况下显著提高Spark SQL和DataFrame的运行性能,从而加速Spark中的ETL数据流程。

·无需独立的机器学习和深度学习集群,即可在相同的基础架构上加速数据准备和模型训练。

·加速Spark分布式集群中各节点之间的数据传输性能。这些资源库使用UCF Consortium 的开源UCX(Unified Communication X)框架,并通过使数据直接在GPU内存之间移动来最大程度地减少延迟。

Apache Software Foundation 上现已提供Spark 3.0的预览版。该产品预计将在未来几个月内全面上市。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4597

    浏览量

    101756
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4424

    浏览量

    126724
  • 数据分析
    +关注

    关注

    2

    文章

    1353

    浏览量

    33738
  • 大数据
    +关注

    关注

    64

    文章

    8657

    浏览量

    136604
  • SPARK
    +关注

    关注

    1

    文章

    99

    浏览量

    19733
收藏 人收藏

    评论

    相关推荐

    RDMA技术在Apache Spark中的应用

    、电信、零售、医疗保健还是物联网,Spark的应用几乎遍及所有需要处理海量数据和复杂计算的领域。它的快速、易用和通用性,使得数据科学家和工程师能够轻松实现数据挖掘、
    的头像 发表于 03-25 18:13 1070次阅读
    RDMA技术在<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中的应用

    Get职场新知识:做分析,用大数据分析工具

    综合分析。但现在有了大数据分析工具,一切问题都可迎刃而解。 大数据分析工具,顾名思义就是专门分析海量
    发表于 12-05 09:36

    SC23 | NVIDIA全球领先的 AI 计算平台 Hopper 再添新动力

    世界顶级服务器制造商和云服务提供商即将推出 HGX H200 系统与云实例。 11月13日,NVIDIA 宣布推出 NVIDIA HGX H200 ,为 Hopper 这一全球领先
    的头像 发表于 11-14 20:05 288次阅读
    SC23 | <b class='flag-5'>NVIDIA</b> 为<b class='flag-5'>全球</b><b class='flag-5'>领先</b>的 AI 计算<b class='flag-5'>平台</b> Hopper 再添新动力

    NVIDIA全球领先的 AI 计算平台 Hopper 再添新动力

    NVIDIA HGX™ H200,为 Hopper 这一全球领先的 AI 计算平台再添新动力。NVIDIA HGX H200
    发表于 11-14 14:30 113次阅读
    <b class='flag-5'>NVIDIA</b> 为<b class='flag-5'>全球</b><b class='flag-5'>领先</b>的 AI 计算<b class='flag-5'>平台</b> Hopper 再添新动力

    NVIDIA 携手腾讯开发和优化 Spark UCX 实现性能跃升

    腾讯网络平台部与数据平台部,联合 NVIDIA 合作开发和优化 Spark UCX,最终实现 Spark
    的头像 发表于 08-25 20:50 424次阅读
    <b class='flag-5'>NVIDIA</b> 携手腾讯开发和优化 <b class='flag-5'>Spark</b> UCX 实现性能跃升

    数据分析平台能为企业带来哪些好处

    数据分析平台是近年来迅速发展的一项关键技术,它利用先进的数据处理和分析技术,帮助企业从海量数据中提取有价值的信息和见解。对于企业来说,拥有
    的头像 发表于 07-14 17:23 662次阅读

    数据处理平台Spark(3)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 18:30:06

    数据处理平台Spark(2)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 18:29:37

    数据处理平台Spark(1)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 18:29:11

    Spark MLlib(3)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 13:02:33

    Spark MLlib(2)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 13:02:05

    Spark MLlib(1)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 13:01:36

    NVIDIA TensorRT与Apache Beam SDK的集成

    使用 NVIDIA TensorRT 在 Apache Beam 中简化和加速机器学习预测
    的头像 发表于 07-05 16:30 281次阅读

    电商数据分析攻略,让你轻松搞定数据分析

    在当今的数字经济时代,运用大数据分析来促进业务增长已然成为一种普遍行为,拥有一套系统化的数据分析方案尤为重要。奥威BI电商数据分析方案是一种基于数据挖掘和机器学习技术的解决方案,以丰富
    发表于 06-27 09:22

    事实证明,国产BI软件的财务数据分析性价比极高!

    国产BI软件做财务数据分析的性价比极高,主要得益于两个因素,一个是国产BI软件按功能模块购买,大幅度降低BI大数据分析平台的使用成本;另一个则是国产BI软件已打磨出标准化、系统化的财务数据分析
    发表于 05-16 11:06