0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Apache Spark作为全球最流行的数据分析应用

我快闭嘴 来源:通信世界网 作者:通信世界网 2020-07-03 14:43 次阅读

Apache Spark作为全球最流行的数据分析应用,现已通过此前发布的Spark 3.0版本为超过50万用户提供革命性的GPU加速。

Databricks为用户提供了先进的企业云平台Spark,每天有超过100万台虚拟机运行该平台。在Spark + AI Summit峰会上,Databricks宣布其用于机器学习的Databricks Runtime 7.0将配备内置Spark 3.0的GPU加速器感知调度功能。该功能由Databricks与NVIDIA和其他社区成员合作开发。

Google Cloud近期宣布在Dataproc image 2.0版本上提供Spark 3.0预览版,同时指出在开源社区的协作下,现在已获得强大的NVIDIA GPU加速。NVIDIA将于7月16日与Google Cloud共同举办一场网络研讨会,深入探讨这些令数据科学家感到兴奋的新功能。

此外,用于Apache Spark的新开源RAPIDS 加速器现在可以加速ETL(提取、转换、加载)和数据传输,在无需更改任何代码的情况下提高端到端分析性能。

Spark性能的加速不仅意味着能够更快获得洞见,而且由于企业可以使用更少的基础设施来完成工作负载,因此还可以帮助企业降低成本。

加速数据分析:科学计算赋予AI更强大的力量

Spark有充分的理由成为新闻媒体报导的焦点。

数据对于帮助企业机构应对不断变化的机遇和潜在威胁至关重要。为此,他们需要破译隐藏在数据中的关键线索。

每当客户点击网站、拨打客户服务电话或生成每日销售报告时,就会给企业机构贡献大量的信息。随着AI的兴起,数据分析对于帮助公司发现趋势并保持市场领先地位所起到的作用日益重要。

前不久,数据分析还依靠小型数据集来收集历史数据和洞见,通过ETL对存储在传统数据仓库中的高度结构化数据进行分析。

ETL常常成为数据科学家在获取AI预测和建议时的瓶颈。ETL预计会占用数据科学家70%至90%的时间,这会减慢工作流程并将炙手可热的人才束缚在最普通的工作上。

当数据科学家在等待ETL时,他们无法重新训练模型来获取更好的商业洞见。传统的CPU基础设施无法通过有效的扩展来适应这些工作任务,这通常会大幅增加成本。

凭借GPU加速的Spark,ETL就不会再产生这样的麻烦。医疗、娱乐、能源、金融、零售等行业现在可以经济、高效地为其数据分析提速,更快地获取洞见。

并行处理助力数据分析

GPU并行处理使计算机可以一次执行多项操作。数据中心通过大规模横向扩展这些功能来支持复杂的数据分析项目。随着运用AI和机器学习工具的企业机构日益增加,并行处理已成为加速海量数据分析和ETL管道,进而驱动这些工作负载的关键。

比如有一家零售商希望预测下一个季节的库存。该零售商需要检查近期的销售量以及去年的数据。数据科学家还可可以此分析中添加天气模型,从而了解雨季或旱季对结果产生的影响。零售商还可以整合情绪分析数据,评估今年最流行的趋势。

由于需要分析的数据源太多,因此在对不同变量可能对销售量产生的影响进行建模时,速度就显得尤为重要。这就需要将分析加入到机器学习中,而且GPU也因此变得十分重要。

RAPIDS加速器为Apache Spark 3.0提速

随着数据科学家从使用传统的分析转而采用可以更好地对复杂市场需求进行建模的AI应用,如果继续采用CPU,则必须牺牲速度或增加成本才能跟上由此产生的处理需求。而随着AI在分析中的应用日益增加,需要有新的框架来通过GPU快速、经济高效地处理数据。

用于Apache Spark的全新RAPIDS加速器将Spark分布式计算框架与功能强大的RAPIDS cuDF库相连接,实现了GPU对Spark DataFrame和Spark SQL的运行提速。RAPIDS加速器还通过搜索在Spark节点之间移动数据的最快路径来加快Spark Shuffle的运行速度。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 医疗
    +关注

    关注

    8

    文章

    1725

    浏览量

    58044
  • AI
    AI
    +关注

    关注

    87

    文章

    26129

    浏览量

    263709
收藏 人收藏

    评论

    相关推荐

    RDMA技术在Apache Spark中的应用

    背景介绍 在当今数据驱动的时代,Apache Spark已经成为了处理大规模数据集的首选框架。作为一个开源的分布式计算系统,
    的头像 发表于 03-25 18:13 904次阅读
    RDMA技术在<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中的应用

    基于DPU和HADOS-RACE加速Spark 3.x

    背景简介 Apache Spark(下文简称Spark)是一种开源集群计算引擎,支持批/流计算、SQL分析、机器学习、图计算等计算范式,以其强大的容错能力、可扩展性、函数式API、多语
    的头像 发表于 03-25 18:12 852次阅读
    基于DPU和HADOS-RACE加速<b class='flag-5'>Spark</b> 3.x

    Get职场新知识:做分析,用大数据分析工具

    为什么企业每天累积那么多的数据,也做数据分析,但最后决策还是靠经验?很大程度上是因为这些数据都被以不同的指标和存储方式放在各自的系统中,这就导致了数据
    发表于 12-05 09:36

    别再埋头苦干了,标准化财务数据分析方案开箱即用!

    在这个数字化、智能化的时代,一味埋头苦干只会换来效率低下的结果,还是得巧用各种现成资源,以财务数据分析为例,就可以下载奥威BI财务数据分析方案。一键套用,立得覆盖各个主题的财务数据分析报表,快速摸清
    发表于 09-05 10:06

    Spark-2(2)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月12日 23:50:42

    Spark-1(2)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月12日 23:49:27

    Spark-1(1)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月12日 23:49:04

    内存计算Spark(3)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 13:10:17

    内存计算Spark(2)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 13:09:31

    Spark MLlib(3)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 13:02:33

    Spark MLlib(2)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 13:02:05

    Spark MLlib(1)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 13:01:36

    电商数据分析攻略,让你轻松搞定数据分析

    在当今的数字经济时代,运用大数据分析来促进业务增长已然成为一种普遍行为,拥有一套系统化的数据分析方案尤为重要。奥威BI电商数据分析方案是一种基于数据挖掘和机器学习技术的解决方案,以丰富
    发表于 06-27 09:22

    事实证明,国产BI软件的财务数据分析性价比极高!

    国产BI软件做财务数据分析的性价比极高,主要得益于两个因素,一个是国产BI软件按功能模块购买,大幅度降低BI大数据分析平台的使用成本;另一个则是国产BI软件已打磨出标准化、系统化的财务数据分析方案
    发表于 05-16 11:06

    什么是数据分析数据分析能为企业带来什么?

    随着大数据技术的发展,数据分析已成为企业决策的重要组成部分。数据分析是指通过收集、清洗和处理数据,从中发掘出有价值的信息和见解,以帮助企业做出更明智的决策。
    的头像 发表于 04-21 10:43 601次阅读