0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

10个Python自动探索性数据分析神库!

数据分析与开发 来源:数据STUDIO 2023-07-17 14:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA Python包可以用几行Python代码执行EDA。

在本文中整理了10个可以自动执行EDA并生成有关数据的见解的Python包,看看他们都有什么功能,能在多大程度上帮我们自动化解决EDA的需求。

DTale

Pandas-profiling

sweetviz

autoviz

dataprep

KLib

dabl

speedML

datatile

edaviz

1、D-Tale

D-Tale使用Flask作为后端、React前端并且可以与ipython notebook和终端无缝集成。D-Tale可以支持Pandas的DataFrame, Series, MultiIndex, DatetimeIndex和RangeIndex。

importdtale importpandasaspd dtale.show(pd.read_csv("titanic.csv"))

9bad6ac8-2456-11ee-962d-dac502259ad0.gif

D-Tale库用一行代码就可以生成一个报告,其中包含数据集、相关性、图表和热图的总体总结,并突出显示缺失的值等。D-Tale还可以为报告中的每个图表进行分析,上面截图中我们可以看到图表是可以进行交互操作的。 2、Pandas-Profiling Pandas-Profiling可以生成Pandas DataFrame的概要报告。panda-profiling扩展了pandas DataFrame df.profile_report(),并且在大型数据集上工作得非常好,它可以在几秒钟内创建报告。#Installthebelowlibariesbeforeimporting importpandasaspd frompandas_profilingimportProfileReport #EDAusingpandas-profiling profile=ProfileReport(pd.read_csv('titanic.csv'),explorative=True) #SavingresultstoaHTMLfile profile.to_file("output.html")

9c8f878c-2456-11ee-962d-dac502259ad0.gif

3、Sweetviz Sweetviz是一个开源的Python库,只需要两行Python代码就可以生成漂亮的可视化图,将EDA(探索性数据分析)作为一个HTML应用程序启动。Sweetviz包是围绕快速可视化目标值和比较数据集构建的。

importpandasaspd importsweetvizassv #EDAusingAutoviz sweet_report=sv.analyze(pd.read_csv("titanic.csv")) #SavingresultstoHTMLfile sweet_report.show_html('sweet_report.html') Sweetviz库生成的报告包含数据集、相关性、分类和数字特征关联等的总体总结。

9d33241e-2456-11ee-962d-dac502259ad0.gif

4、AutoViz

9d6e3d10-2456-11ee-962d-dac502259ad0.png

Autoviz包可以用一行代码自动可视化任何大小的数据集,并自动生成HTML、bokeh等报告。用户可以与AutoViz包生成的HTML报告进行交互。importpandasaspd fromautoviz.AutoViz_ClassimportAutoViz_Class #EDAusingAutoviz autoviz=AutoViz_Class().AutoViz('train.csv')

9da241e6-2456-11ee-962d-dac502259ad0.gif

5、Dataprep Dataprep是一个用于分析、准备和处理数据的开源Python包。DataPrep构建在Pandas和Dask DataFrame之上,可以很容易地与其他Python库集成。 DataPrep的运行速度这10个包中最快的,他在几秒钟内就可以为Pandas/Dask DataFrame生成报告。

fromdataprep.datasetsimportload_dataset fromdataprep.edaimportcreate_report df=load_dataset("titanic.csv") create_report(df).show_browser()

9e1a7b3e-2456-11ee-962d-dac502259ad0.png

6、Klib

9e6cf3be-2456-11ee-962d-dac502259ad0.png

klib是一个用于导入、清理、分析和预处理数据的Python库。importklib importpandasaspd df=pd.read_csv('DATASET.csv') klib.missingval_plot(df)

9ea313cc-2456-11ee-962d-dac502259ad0.png

klib.corr_plot(df_cleaned,annot=False)

9f329bdc-2456-11ee-962d-dac502259ad0.png

klib.dist_plot(df_cleaned['Win_Prob'])

9f591ece-2456-11ee-962d-dac502259ad0.png

klib.cat_plot(df,figsize=(50,15))

9f77b85c-2456-11ee-962d-dac502259ad0.png

klibe虽然提供了很多的分析函数,但是对于每一个分析需要我们手动的编写代码,所以只能说是半自动化的操作,但是如果我们需要更定制化的分析,他是非常方便的。

9fa06b1c-2456-11ee-962d-dac502259ad0.gif

7、Dabl

Dabl不太关注单个列的统计度量,而是更多地关注通过可视化提供快速概述,以及方便的机器学习预处理和模型搜索。

9ffe3a30-2456-11ee-962d-dac502259ad0.png

dabl中的Plot()函数可以通过绘制各种图来实现可视化,包括:

目标分布图

散点图

线性判别分析

importpandasaspd importdabl df=pd.read_csv("titanic.csv") dabl.plot(df,target_col="Survived")

a0142ea8-2456-11ee-962d-dac502259ad0.gif

8、Speedml

SpeedML是用于快速启动机器学习管道的Python包。SpeedML整合了一些常用的ML包,包括 Pandas,Numpy,Sklearn,Xgboost 和 Matplotlib,所以说其实SpeedML不仅仅包含自动化EDA的功能。 SpeedML官方说,使用它可以基于迭代进行开发,将编码时间缩短了70%。

fromspeedmlimportSpeedml sml=Speedml('../input/train.csv','../input/test.csv', target='Survived',uid='PassengerId') sml.train.head()

a063463c-2456-11ee-962d-dac502259ad0.png

sml.plot.correlate()

a0766a0a-2456-11ee-962d-dac502259ad0.png

sml.plot.distribute()

a0a9bbf8-2456-11ee-962d-dac502259ad0.png

sml.plot.ordinal('Parch')

a0ddd7ee-2456-11ee-962d-dac502259ad0.png

sml.plot.ordinal('SibSp')

a109f8a6-2456-11ee-962d-dac502259ad0.png

sml.plot.continuous('Age')

a12f863e-2456-11ee-962d-dac502259ad0.png

9、DataTile

DataTile(以前称为Pandas-Summary)是一个开源的Python软件包,负责管理,汇总和可视化数据。DataTile基本上是PANDAS DataFrame describe()函数的扩展。

importpandasaspd fromdatatile.summary.dfimportDataFrameSummary df=pd.read_csv('titanic.csv') dfs=DataFrameSummary(df) dfs.summary()

a15d64a0-2456-11ee-962d-dac502259ad0.png

10、edaviz

edaviz是一个可以在Jupyter Notebook和Jupyter Lab中进行数据探索和可视化的python库,他本来是非常好用的,但是后来被砖厂(Databricks)收购并且整合到bamboolib 中,所以这里就简单的给个演示。

a184d846-2456-11ee-962d-dac502259ad0.gif

总结 在本文中,我们介绍了10个自动探索性数据分析Python软件包,这些软件包可以在几行Python代码中生成数据摘要并进行可视化。通过自动化的工作可以节省我们的很多时间。 Dataprep是我最常用的EDA包,AutoViz和D-table也是不错的选择,如果你需要定制化分析可以使用Klib,SpeedML整合的东西比较多,单独使用它啊进行EDA分析不是特别的适用,其他的包可以根据个人喜好选择,其实都还是很好用的,最后edaviz就不要考虑了,因为已经不开源了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • eda
    eda
    +关注

    关注

    72

    文章

    3053

    浏览量

    181502
  • 数据分析
    +关注

    关注

    2

    文章

    1506

    浏览量

    35937
  • python
    +关注

    关注

    57

    文章

    4857

    浏览量

    89575

原文标题:10 个 Python 自动探索性数据分析神库!

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    经营数据分析可以通过哪些方式

    在数聚股份看来,提起经营数据分析,大家往往会联想到一些密密麻麻的数字表格,或是高级的数据建模手法,再或是华丽的数据报表。其实,“ 分析 ”本身是每个人都具备的能力,对于业务决策者而言,
    的头像 发表于 12-05 16:31 354次阅读

    【产品介绍】Altair RapidMiner数据分析与人工智能平台

    AltairRapidMiner赋能组织解锁数据洞察,运用数据分析和先进的人工智能自动化,提供可扩展的面向未来的解决方案。Altair数据分析和人工智能平台包括
    的头像 发表于 09-18 17:56 645次阅读
    【产品介绍】Altair RapidMiner<b class='flag-5'>数据分析</b>与人工智能平台

    普迪飞 Exensio®数据分析平台 | Test Operations解锁半导体测试新纪元

    TestOperations是Exensio数据分析平台的四主要模块之一。T-Ops模块旨在帮助集成器件制造商(IDM)、无晶圆厂半导体公司(Fabless)和外包半导体(产品)封测厂(OSAT
    的头像 发表于 08-19 13:53 817次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b>平台 | Test Operations解锁半导体测试新纪元

    小米AI眼镜×商汤日日新 商汤“日日新”大模型交互平台「商量」已探索性接入小米AI眼镜

    程度:据国内XR Vision报道,小米AI眼镜首销3天销量或已接近5万副,创下了中国AI眼镜最快销售纪录。 作为小米长期生态合作伙伴,商汤“日日新”大模型交互平台「商量」已探索性接入小米AI 眼镜,成为用户的 “第二大脑”,帮助用户在生活与工
    的头像 发表于 08-07 15:35 9165次阅读
    小米AI眼镜×商汤日日新 商汤“日日新”大模型交互平台「商量」已<b class='flag-5'>探索性</b>接入小米AI眼镜

    构建自定义电商数据分析API

      在电商业务中,数据是驱动决策的核心。随着数据量的增长,企业需要实时、灵活的分析工具来监控销售、用户行为和库存等指标。一自定义电商数据分析
    的头像 发表于 07-17 14:44 398次阅读
    构建自定义电商<b class='flag-5'>数据分析</b>API

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 498次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    如何使用协议分析仪进行数据分析与可视化

    与可视化需结合工具功能与业务场景: 快速诊断:依赖内置统计和IO Graph。 深度分析:导出数据Python/R进行统计建模。 长期监控:集成至SIEM/APM系统实现自动化。 通
    发表于 07-16 14:16

    电力系统数据分析技术

    随着智能电网技术的发展和大数据时代的到来,电力系统数据分析技术已成为电力行业不可或缺的一部分。这些技术能够帮助电力公司更好地理解电网的运行状态,预测电力需求,优化电力资源分配,提高电网的稳定性
    的头像 发表于 01-18 09:46 1221次阅读

    适用于MySQL和MariaDB的Python连接器:可靠的MySQL数据连接器和数据库

    和 MariaDB 数据库服务器以及托管数据库服务,以对存储的数据执行创建、读取、更新和删除操作。该解决方案完全实现了 Python DB API 2.0 规范,并作为 Window
    的头像 发表于 01-17 12:18 844次阅读
    适用于MySQL和MariaDB的<b class='flag-5'>Python</b>连接器:可靠的MySQL<b class='flag-5'>数据</b>连接器和<b class='flag-5'>数据库</b>

    智能焊接数据分析设备提升工业效率与精度

    随着科技的不断进步,智能制造已经成为推动工业4.0发展的关键力量。在众多的智能制造技术中,智能焊接数据分析设备因其在提高生产效率和焊接质量方面的显著效果而受到广泛关注。本文将探讨智能焊接数据分析设备
    的头像 发表于 01-15 14:11 664次阅读

    适用于Oracle的Python连接器:可访问托管以及非托管的数据库

    适用于 Oracle 的 Python 连接器 适用于 Oracle 的 Python 连接器是一种可靠的连接解决方案,用于从 Python 应用程序访问 Oracle 数据库服务器和
    的头像 发表于 01-14 10:30 739次阅读

    智能焊接数据分析设备提升制造精度与效率

    不稳定、生产效率低等问题。而智能焊接数据分析设备的应用,则为解决这些问题提供了新的思路和技术手段。本文将探讨智能焊接数据分析设备如何通过数据采集、分析及应用,提升焊接制?
    的头像 发表于 01-14 09:36 741次阅读

    Mathematica 在数据分析中的应用

    数据分析是现代科学研究和商业决策中不可或缺的一部分。随着数据量的爆炸性增长,对数据分析工具的需求也在不断增加。Mathematica,作为一种强大的计算软件,以其独特的符号计算能力和广泛的内置函数
    的头像 发表于 12-26 15:41 1077次阅读

    绝缘电阻测试仪数据分析与处理

    绝缘电阻测试仪主要用于检查电气设备或电气线路对地及相间的绝缘电阻。将所测得的结果与有关数据比较,这是对实验结果进行分析判断的重要方法。以下是对绝缘电阻测试仪的数据分析与处理方法的介绍: 一、
    的头像 发表于 12-10 15:00 1514次阅读

    ClickHouse:强大的数据分析引擎

    ,是一款开源的面向列的分布式数据库管理系统,以其卓越的性能和强大的数据分析能力在大数据领域备受瞩目。 列式存储 列式存储是一种数据存储结构,也称为列存储或列式
    的头像 发表于 12-10 10:23 867次阅读
    ClickHouse:强大的<b class='flag-5'>数据分析</b>引擎