0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

又一个数据分析神器并行的计算库——dask横空出现!

人工智能与大数据技术 来源:菜鸟编程大本营 作者:菜鸟编程大本营 2021-06-26 14:34 次阅读

对于数据分析的工具,想必大家都或多或少的有一定的了解,常见的像是numpy和pandas更是大家日常使用的数据分析工具。但是面对大数据的处理时,像是numpy和pandas的在加载数据时,会看到内存用量的飙升,而dask却可以将这些大的数据进行并行计算。

今天小编就带领大家学习一个并行的计算库——dask。dask可以帮助我们并行化处理pandas的DataFrame和numpy的计算,甚至是并行化处理机器学习算法

01.dask库的使用介绍

dask库可以很好的兼容pandas的DataFrame数据和numpy的array数据,此外,像是Sklearn、XGBoost等机器学习库,dask也能够支持。dask的官网(https://dask.org/)对于支持的库有一个全面的展示。

dask库的强大之处在于它拥有丰富的已有库的兼容性,而且只需要改动很少的程序,就可以在自己的电脑上使用并行计算。

02.dask的安装

对于dask库的安装,也非常的简单,大家只需要在anaconda环境下运行conda install dask即可安装。

03.dask库的使用介绍

1).Numpy的array数据dask库对于numpy的array数组操作也非常的简洁。dask是将numpy的数组进行切分,切分成许多的block进行操作,对于小数据来说,可能优势不明显,但是当数据集达到几十G后,就能显示出dask的优势。

上图是利用dask进行array的操作,可以看到dask对于numpy数组的处理与numpy的操作并没有很大的区别,如果对于numpy数组操作熟悉的话,那么上手dask的numpy数组也是非常简单的。

2).Pandas的DataFrame数据

对于DataFrame数据,dask的操作同样与pandas非常的类似。需要注意的是,当求分组的“x“列均值时,dask并没有直接输出结果,而是在运行s的compute()函后,才得到结果,这是与pandas不同的一点。

04.dask的Delayed

对于dask库,Delayed模块是它进行并行计算的核心,delayed 通过将需要计算的任务记录在计算图中,并在之后,将其并行运行在硬件上得到结果。由于不能立即得到结果,所以该模块被称为delayed。对于delayed模块的使用。

可以看到,通过delayed装饰器来修饰函数,在下一个计算框图中定义z的计算,然后通过visualize函数来查看z的计算图,如上图右侧所示。同时可以看到z的计算图只需要不到1ms的时间即可完成。而z值的计算,同样采用z.compute()进行计算即可。

05.对于机器学习算法的支持

对于dask机器学习的应用,可以安装Dask-ML,Dask-ML是将Dask与流行的机器学习库(例如sklearn,XGBoost等)进行结合,提供的并行化机器学习处理库。可以利用pip install dask-ml进行安装。

有兴趣的小伙伴可以安装试一下,用惯了Pandas ,也可以试试换个口味了!

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6504

    浏览量

    87448
  • 函数
    +关注

    关注

    3

    文章

    3846

    浏览量

    61228
  • 机器学习
    +关注

    关注

    66

    文章

    8062

    浏览量

    130442

原文标题:再见Numpy,Pandas!又一个数据分析神器横空出现!

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    共模电容:又一款EMC滤波神器

    共模电容:又一款EMC滤波神器?|深圳比创达电子(上)
    的头像 发表于 12-25 10:54 269次阅读
    共模电容:<b class='flag-5'>又一</b>款EMC滤波<b class='flag-5'>神器</b>?

    Get职场新知识:做分析,用大数据分析工具

    为什么企业每天累积那么多的数据,也做数据分析,但最后决策还是靠经验?很大程度上是因为这些数据都被以不同的指标和存储方式放在各自的系统中,这就导致了数据
    发表于 12-05 09:36

    如何使用 Empyrical 风险指标计算神器

    Python安装指南 进行安装。 **(可选1) **如果你用Python的目的是数据分析,可以直接安装Anaconda: Python数据分析与挖掘好
    的头像 发表于 10-21 14:28 409次阅读

    别再埋头苦干了,标准化财务数据分析方案开箱即用!

    在这个数字化、智能化的时代,味埋头苦干只会换来效率低下的结果,还是得巧用各种现成资源,以财务数据分析为例,就可以下载奥威BI财务数据分析方案。
    发表于 09-05 10:06

    财务数据分析?奥威BI数据可视化工具很擅长

    的智能财务指标计算功能,还拥有套标准化、系统化的财务数据分析方案,无需测试,下载即可用! 奥威BI工具+智能财务方案:轻松完成智能财务数据可视化
    发表于 08-29 09:44

    分享套财务数据分析模板,零开发,更好用

    财务数据分析是很麻烦,数据量大且牵扯到多个业务数据来源、分析指标计算组合多变,换作般的
    发表于 08-15 10:47

    分布式图并行计算(3)#大数据分析

    数据分析
    学习硬声知识
    发布于 :2023年07月11日 13:13:58

    使用 RAPIDS RAFT 进行机器学习和数据分析的可重用计算模式

    使用 RAPIDS RAFT 进行机器学习和数据分析的可重用计算模式
    的头像 发表于 07-05 16:30 298次阅读
    使用 RAPIDS RAFT 进行机器学习和<b class='flag-5'>数据分析</b>的可重用<b class='flag-5'>计算</b>模式

    电商数据分析攻略,让你轻松搞定数据分析

    在当今的数字经济时代,运用大数据分析来促进业务增长已然成为种普遍行为,拥有套系统化的数据分析方案尤为重要。奥威BI电商数据分析方案是
    发表于 06-27 09:22

    数据分析到底是什么?_光点科技

    数据分析是当今信息时代中一个非常重要的概念。随着技术的不断发展和大数据的爆炸式增长,数据分析已成为各行各业的关键工具。
    的头像 发表于 05-19 10:46 435次阅读

    事实证明,国产BI软件的财务数据分析性价比极高!

    国产BI软件做财务数据分析的性价比极高,主要得益于两因素,一个是国产BI软件按功能模块购买,大幅度降低BI大数据分析平台的使用成本;另一个
    发表于 05-16 11:06

    数据分析的价值有什么?

    随着数字化时代的到来,数据已成为企业和组织中最宝贵的资产之一。而数据分析则是将这些数据转化为实际价值的关键工具。在各个领域中,数据分析的价值越来越被人们所认识和重视。
    的头像 发表于 04-25 16:09 570次阅读

    什么是数据分析数据分析能为企业带来什么?

    随着大数据技术的发展,数据分析已成为企业决策的重要组成部分。数据分析是指通过收集、清洗和处理数据,从中发掘出有价值的信息和见解,以帮助企业做出更明智的决策。
    的头像 发表于 04-21 10:43 603次阅读

    零售数据分析操作篇15:用总聚合做销售分析

    步骤好像并没有那么简单。那么,到底怎么样才能得到【平均客单价】呢?今天我们要讲的内容【总聚合】就刚好是帮助我们理解并解决类似的零售数据分析场景的。本期内容所谓【总聚合】,就是为了方便我们将某一个汇总字段
    发表于 04-18 17:04

    数据分析的目的和意义是什么?

    数据分析是一个越来越受到关注的领域,因为它可以帮助企业和组织利用数据来制定更明智的决策。数据分析的目的和意义是多方面的,例如:
    的头像 发表于 04-14 10:54 5375次阅读