0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA为全球领先的数据分析平台Apache Spark提速

西西 来源:厂商供稿 作者:NVIDIA 2020-05-15 15:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

开源社区通过对NVIDIA GPU的原生支持加速Spark 3.0;

实现数百TB数据的飞速ETL和SQL处理;

Adobe在Databricks上使用Spark 3.0将模型训练速度提高7倍

加利福尼亚州圣克拉拉市 - GTC 2020大会 - 2020年5月14日 – NVIDIA于今日宣布其正在与开源社区合作,为Apache Spark 3.0带来端到端的GPU加速。Apache Spark 3.0是一个热门的分析引擎,被全球范围内超过50万名数据科学家用于大数据处理。

随着Spark 3.0预计将于春季晚些时候发布,数据科学家和机器学习工程师将首次能够把革命性的GPU加速应用于普遍使用SQL数据库操作进行的ETL(提取、转换和加载)数据处理工作负载中。

此外,他们还将首次能够在同一Spark集群上处理AI模型训练任务,而无需将工作负载作为单独流程在单独的基础架构上运行。这样就可以对整个数据科学的处理流程进行高性能数据分析,对从数据湖到模型训练所涉及的数十、乃至数千TB的数据进行加速,而且无需对已被应用于本地和云端Spark应用程序的现有代码进行修改。

NVIDIA企业计算主管Manuvir Das表示:“数据分析是当今企业和研究者所面临最大的高性能计算挑战。从ETL到训练再到推理,整个Spark 3.0 方案的原生GPU加速为用户提供了最终将大数据潜力与AI性能相连所需的性能和规模。”

作为NVIDIA的战略AI合作伙伴,Adobe是最早在Databricks上运行Spark 3.0预览版的公司之一。Adobe已在Adobe Experience Cloud中使用GPU加速数据分析技术进行产品开发,并为各项推进数字化业务进程的功能提供支持。在初步测试中其已将性能提高了7倍,并节省了90%的成本。

性能提升后的Spark 3.0让科学家能够训练包含有更大数据集的模型,并增加反复训练模型的频率,从而提高模型的精度。现在,数据科学家每天可以处理数TB的新数据,这对于需要为在线推荐系统提供支持或分析新研究数据的数据科学家们而言至关重要。此外,处理速度的加快,减少了交付结果所需的硬件资源,从而节省了大量成本。

Adob机器学习高级总监William Yan表示:“相比于在CPU上运行Spark,NVIDIA加速的Spark 3.0性能速度得到了大幅提高。伴随着GPU性能的飞跃性提升,也将为我们全套Adobe Experience Cloud应用中AI功能的提升带来新的可能性。”

Databricks和NVIDIA为Spark提速

Apache Spark最初是由Databricks的创始人创建。Databricks的云端统一数据分析平台每天在一百多万台虚拟机上运行。NVIDIA与Databricks已开展合作,使用专为Databricks开发的RAPIDSTM软件套件优化Spark,将GPU加速应用于在Databricks上运行的医疗、金融、零售等众多行业的数据科学和机器学习工作负载中。

Apache Spark最初的创建者兼Databricks首席技术员Matei Zaharia表示:“我们与NVIDIA开展了长期合作,用专为Apache Spark 3.0和Databricks开发的RAPIDS相关优化来提高性能,使得像Adobe这样的我们两家公司共同的客户能够得以受益。我们所作出的这些努力加快了数据处理流程、模型训练和评分的速度,直接为我们的数据工程师和数据科学家社区带来更多的突破和洞见。”

NVIDIA GPU加速Spark中的ETL和数据传输

NVIDIA正在提供一种用于Apache Spark的全新开源RAPIDS加速器,帮助数据科学家提高其数据流程的端到端性能。该加速器能够将之前需要在CPU上运行的功能,转到GPU上运行,以发挥GPU的性能:

·在无需更改任何代码的情况下显著提高Spark SQL和DataFrame的运行性能,从而加速Spark中的ETL数据流程。

·无需独立的机器学习和深度学习集群,即可在相同的基础架构上加速数据准备和模型训练。

·加速Spark分布式集群中各节点之间的数据传输性能。这些资源库使用UCF Consortium 的开源UCX(Unified Communication X)框架,并通过使数据直接在GPU内存之间移动来最大程度地减少延迟。

Apache Software Foundation 上现已提供Spark 3.0的预览版。该产品预计将在未来几个月内全面上市。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109072
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134443
  • 数据分析
    +关注

    关注

    2

    文章

    1506

    浏览量

    35935
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143054
  • SPARK
    +关注

    关注

    1

    文章

    108

    浏览量

    21111
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    经营数据分析可以通过哪些方式

    在数聚股份看来,提起经营数据分析,大家往往会联想到一些密密麻麻的数字表格,或是高级的数据建模手法,再或是华丽的数据报表。其实,“ 分析 ”本身是每个人都具备的能力,对于业务决策者而言,
    的头像 发表于 12-05 16:31 353次阅读

    NVIDIA DGX Spark系统恢复过程与步骤

    在使用 NVIDIA DGX Spark 的过程中,可能会出现配置故障,而导致开发中断的问题,本篇教程将带大家了解如何一步步完成系统恢复。
    的头像 发表于 11-28 09:46 3544次阅读
    <b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>系统恢复过程与步骤

    NVIDIA DGX Spark助力构建自己的AI模型

    作为个人 AI 超级计算机,世界各地的 AI 研究人员、数据科学家和学生提供 NVIDIA Grace Blackwell 平台的强大功能。
    的头像 发表于 11-21 09:25 532次阅读
    <b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>助力构建自己的AI模型

    NVIDIA DGX Spark平台上对NVIDIA ConnectX-7 200G网卡配置教程

    NVIDIA DGX Spark 平台上对 NVIDIA ConnectX-7 200G 网卡进行配置时,会遇到“4 个逻辑端口”现象。理解背后的真相是后续所有配置的基础。本文将从
    的头像 发表于 11-21 09:19 4412次阅读
    在<b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b><b class='flag-5'>平台</b>上对<b class='flag-5'>NVIDIA</b> ConnectX-7 200G网卡配置教程

    NVIDIA DGX Spark快速入门指南

    NVIDIA DGX Spark 已正式向 AI 开发者交付,对于刚入手的全新 DGX Spark,该如何进行初始化设置?本篇文章将引导您完成 DGX Spark 首次设置。在初始设置
    的头像 发表于 11-17 14:11 4111次阅读
    <b class='flag-5'>NVIDIA</b> DGX <b class='flag-5'>Spark</b>快速入门指南

    NVIDIA宣布开源Aerial软件

    NVIDIA 开源其 Aerial 软件,并将 NVIDIA Sionna 研究套件和 Aerial 测试平台引入 NVIDIA DGX Spark
    的头像 发表于 11-03 15:14 567次阅读

    【产品介绍】Altair RapidMiner数据分析与人工智能平台

    AltairRapidMiner赋能组织解锁数据洞察,运用数据分析和先进的人工智能自动化,提供可扩展的面向未来的解决方案。Altair数据分析和人工智能平台包括
    的头像 发表于 09-18 17:56 641次阅读
    【产品介绍】Altair RapidMiner<b class='flag-5'>数据分析</b>与人工智能<b class='flag-5'>平台</b>

    普迪飞 Exensio®数据分析平台 | Test Operations解锁半导体测试新纪元

    TestOperations是Exensio数据分析平台的四个主要模块之一。T-Ops模块旨在帮助集成器件制造商(IDM)、无晶圆厂半导体公司(Fabless)和外包半导体(产品)封测厂(OSAT
    的头像 发表于 08-19 13:53 812次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b><b class='flag-5'>平台</b> | Test Operations解锁半导体测试新纪元

    使用NVIDIA GPU加速Apache Spark中Parquet数据扫描

    的方式组织数据,这使得 Parquet 在查询时仅读取所需的列,而无需扫描整行数据,即可实现高性能的查询和分析。高效的数据布局使 Parquet 在现代
    的头像 发表于 07-23 10:52 711次阅读
    使用<b class='flag-5'>NVIDIA</b> GPU加速<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中Parquet<b class='flag-5'>数据</b>扫描

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 496次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    NVIDIA推出行业领先辅助驾驶软件平台

    NVIDIA 发布了全面的、行业领先的辅助驾驶软件平台,服务于全球汽车制造商、卡车制造商、机器人出租车公司和初创企业,加速其大规模部署安全的智能交通创新技术。
    的头像 发表于 06-16 13:52 881次阅读

    NVIDIA发布AI优先DGX个人计算系统

    NVIDIA 宣布,多家行业领先系统制造商将打造 NVIDIA DGX Spark
    的头像 发表于 05-22 09:39 809次阅读

    NVIDIA加速的Apache Spark助力企业节省大量成本

    随着 NVIDIA 推出 Aether 项目,通过采用 NVIDIA 加速的 Apache Spark 企业得以自动加速其数据中心规模的
    的头像 发表于 03-25 15:09 893次阅读
    <b class='flag-5'>NVIDIA</b>加速的<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>助力企业节省大量成本

    NVIDIA GTC2025 亮点 NVIDIA推出 DGX Spark个人AI计算机

    台式超级计算机由 NVIDIA Grace Blackwell 驱动,开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机制造商(包括华硕、Dell Technologies、HP
    的头像 发表于 03-20 18:59 1267次阅读
    <b class='flag-5'>NVIDIA</b> GTC2025 亮点  <b class='flag-5'>NVIDIA</b>推出 DGX <b class='flag-5'>Spark</b>个人AI计算机

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    台式超级计算机由 NVIDIA Grace Blackwell 驱动,开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机制造商(包括华硕、Dell Technologies、HP
    发表于 03-19 09:59 504次阅读
       <b class='flag-5'>NVIDIA</b> 宣布推出 DGX <b class='flag-5'>Spark</b> 个人 AI 计算机