0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

又一个数据分析神器并行的计算库——dask横空出现!

人工智能与大数据技术 来源:菜鸟编程大本营 作者:菜鸟编程大本营 2021-06-26 14:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

对于数据分析的工具,想必大家都或多或少的有一定的了解,常见的像是numpy和pandas更是大家日常使用的数据分析工具。但是面对大数据的处理时,像是numpy和pandas的在加载数据时,会看到内存用量的飙升,而dask却可以将这些大的数据进行并行计算。

今天小编就带领大家学习一个并行的计算库——dask。dask可以帮助我们并行化处理pandas的DataFrame和numpy的计算,甚至是并行化处理机器学习算法

01.dask库的使用介绍

dask库可以很好的兼容pandas的DataFrame数据和numpy的array数据,此外,像是Sklearn、XGBoost等机器学习库,dask也能够支持。dask的官网(https://dask.org/)对于支持的库有一个全面的展示。

dask库的强大之处在于它拥有丰富的已有库的兼容性,而且只需要改动很少的程序,就可以在自己的电脑上使用并行计算。

02.dask的安装

对于dask库的安装,也非常的简单,大家只需要在anaconda环境下运行conda install dask即可安装。

03.dask库的使用介绍

1).Numpy的array数据dask库对于numpy的array数组操作也非常的简洁。dask是将numpy的数组进行切分,切分成许多的block进行操作,对于小数据来说,可能优势不明显,但是当数据集达到几十G后,就能显示出dask的优势。

上图是利用dask进行array的操作,可以看到dask对于numpy数组的处理与numpy的操作并没有很大的区别,如果对于numpy数组操作熟悉的话,那么上手dask的numpy数组也是非常简单的。

2).Pandas的DataFrame数据

对于DataFrame数据,dask的操作同样与pandas非常的类似。需要注意的是,当求分组的“x“列均值时,dask并没有直接输出结果,而是在运行s的compute()函后,才得到结果,这是与pandas不同的一点。

04.dask的Delayed

对于dask库,Delayed模块是它进行并行计算的核心,delayed 通过将需要计算的任务记录在计算图中,并在之后,将其并行运行在硬件上得到结果。由于不能立即得到结果,所以该模块被称为delayed。对于delayed模块的使用。

可以看到,通过delayed装饰器来修饰函数,在下一个计算框图中定义z的计算,然后通过visualize函数来查看z的计算图,如上图右侧所示。同时可以看到z的计算图只需要不到1ms的时间即可完成。而z值的计算,同样采用z.compute()进行计算即可。

05.对于机器学习算法的支持

对于dask机器学习的应用,可以安装Dask-ML,Dask-ML是将Dask与流行的机器学习库(例如sklearn,XGBoost等)进行结合,提供的并行化机器学习处理库。可以利用pip install dask-ml进行安装。

有兴趣的小伙伴可以安装试一下,用惯了Pandas ,也可以试试换个口味了!

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93972
  • 函数
    +关注

    关注

    3

    文章

    4406

    浏览量

    66834
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136231

原文标题:再见Numpy,Pandas!又一个数据分析神器横空出现!

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    经营数据分析可以通过哪些方式

    套系统的、科学的、符合商业规律的数据分析知识。这些数据分析都要基于数据质量,所以通常我们还会需要有个数据质量管理的相关体系来配合。  经营
    的头像 发表于 12-05 16:31 355次阅读

    普迪飞 Exensio®数据分析平台 | Test Operations解锁半导体测试新纪元

    TestOperations是Exensio数据分析平台的四主要模块之。T-Ops模块旨在帮助集成器件制造商(IDM)、无晶圆厂半导体公司(Fabless)和外包半导体(产品)封测厂(OSAT
    的头像 发表于 08-19 13:53 817次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b>平台 | Test Operations解锁半导体测试新纪元

    构建自定义电商数据分析API

      在电商业务中,数据是驱动决策的核心。随着数据量的增长,企业需要实时、灵活的分析工具来监控销售、用户行为和库存等指标。自定义电商
    的头像 发表于 07-17 14:44 398次阅读
    构建自定义电商<b class='flag-5'>数据分析</b>API

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 498次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    如何使用协议分析仪进行数据分析与可视化

    使用协议分析仪进行数据分析与可视化,需结合数据捕获、协议解码、统计分析及可视化工具,将原始数据转化为可解读的图表和报告。以下是详细步骤及关键
    发表于 07-16 14:16

    读懂极易并行计算:定义、挑战与解决方案

    GPU经常与人工智能同时提及,其中重要原因在于AI与3D图形处理本质上属于同类问题——它们都适用极易并行计算。什么是极易并行计算?极易
    的头像 发表于 04-17 09:11 649次阅读
    读懂极易<b class='flag-5'>并行计算</b>:定义、挑战与解决方案

    Deepseek横空出世!中美AI之间的差距逆转了吗?

    DeepSeek的横空出世确实在中美AI竞争中引起了巨大反响,但要判断中美AI之间的差距是否因此逆转,还需从多个维度进行深入分析、技术性能与成本 DeepSeek以其卓越的性能和低廉的成本
    的头像 发表于 04-15 18:14 754次阅读

    TDengine 发布时序数据分析 AI 智能体 TDgpt,核心代码开源

    组成部分,标志着时序数据库在原生集成 AI 能力方面迈出了关键步。 TDgpt 是内嵌于 TDengine 中的时序数据分析 AI 智能体,具备时序数据预测、异常检测、
    的头像 发表于 03-27 10:30 560次阅读
    TDengine 发布时序<b class='flag-5'>数据分析</b> AI 智能体 TDgpt,核心代码开源

    xgboost的并行计算原理

    在大数据时代,机器学习算法需要处理的数据量日益增长。为了提高数据处理的效率,许多算法都开始支持并行计算。XGBoost作为种高效的梯度提升
    的头像 发表于 01-19 11:17 1571次阅读

    智能焊接数据分析设备提升工业效率与精度

    随着科技的不断进步,智能制造已经成为推动工业4.0发展的关键力量。在众多的智能制造技术中,智能焊接数据分析设备因其在提高生产效率和焊接质量方面的显著效果而受到广泛关注。本文将探讨智能焊接数据分析设备
    的头像 发表于 01-15 14:11 664次阅读

    DAC8728多通道输出数据,不能保持上一个数据吗?

    比如我给0通道写数据的时候,此时其他通道是置零的吗?不能保持上一个数据吗? 现在多通道输出的正弦波都是这个样子的,请问是不是我分析的这个原因呢?
    发表于 01-13 07:07

    Mathematica 在数据分析中的应用

    数据分析是现代科学研究和商业决策中不可或缺的部分。随着数据量的爆炸性增长,对数据分析工具的需求也在不断增加。Mathematica,作为
    的头像 发表于 12-26 15:41 1077次阅读

    首个科学计算基座大模型BBT-Neutron开源,助力突破大科学装置数据分析瓶颈

    大语言模型能否解决传统大语言模型在大规模数值数据分析中的局限性问题,助力科学界大科学装置设计、高能物理领域科学计算? 高能物理是探索宇宙基本组成与规律的前沿科学领域,研究粒子在极高能量下的相互作用
    的头像 发表于 12-26 15:29 1135次阅读
    首个科学<b class='flag-5'>计算</b>基座大模型BBT-Neutron开源,助力突破大科学装置<b class='flag-5'>数据分析</b>瓶颈

    绝缘电阻测试仪数据分析与处理

    绝缘电阻测试仪主要用于检查电气设备或电气线路对地及相间的绝缘电阻。将所测得的结果与有关数据比较,这是对实验结果进行分析判断的重要方法。以下是对绝缘电阻测试仪的数据分析与处理方法的介绍:
    的头像 发表于 12-10 15:00 1514次阅读

    ClickHouse:强大的数据分析引擎

    ,是款开源的面向列的分布式数据库管理系统,以其卓越的性能和强大的数据分析能力在大数据领域备受瞩目。 列式存储 列式存储是一种数据存储结构,
    的头像 发表于 12-10 10:23 867次阅读
    ClickHouse:强大的<b class='flag-5'>数据分析</b>引擎