0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

实现海量数据分析及可视化的简便方法

DPVg_AI_era 作者:工程师飞燕 2018-08-07 14:04 次阅读

【新智元导读】近期,Kaggle发布了新的数据分析及可视化工具——Kaggle Kerneler bot,用户只需上传数据集,便可用Python为用户自动获取相关的深度数据分析结果。本文将带领读者体验一下这款便捷而又高效的工具。

Kaggle Kerneler bot是一个自动生成的kernel,其中包含了演示如何读取数据以及分析工作的starter代码。用户可以进入任意一个已经发布的项目,点击顶部的“Fork Notebook”来编辑自己的副本。接下来,小编将以最热门的两个项目作为例子,带领读者了解该如何使用这款便捷的工具。

好的开始是成功的一半!

要开始这个探索性分析(exploratory analysis),首先需要导入一些库并定义使用matplotlib绘制数据的函数。但要注意的是,并不是所有的数据分析结果图像都能够呈现出来,这很大程度上取决于数据本身(Kaggle Kerneler bot只是一个工具,不可能做到Jeff Dean或者Kaggle比赛选手们那么完美的结果)。

In [1]:

frommpl_toolkits.mplot3dimportAxes3Dfromsklearn.decompositionimportPCAfromsklearn.preprocessingimportStandardScalerimportmatplotlib.pyplotasplt#plottingimportnumpyasnp#linearalgebraimportos#accessingdirectorystructureimportpandasaspd#dataprocessing,CSVfileI/O(e.g.pd.read_csv)

在本例中,一共输入了12个数据集。

In [2]:

print(os.listdir('../input'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/007_nagato_yuki'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/046_alice_margatroid'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/065_sanzenin_nagi'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/096_golden_darkness'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/116_pastel_ink'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/140_seto_san'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/144_kotegawa_yui'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/164_shindou_chihiro'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/165_rollo_lamperouge'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/199_kusugawa_sasara'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/997_ana_coppola'))

接下里,用户在编辑界面中会看到四个已经编好的代码块,它们定义了绘制数据的函数。而在发布后的页面,这些代码块会被隐藏,如下图所示,只需单击已发布界面中的“code”按钮就可以显示隐藏的代码。

准备就绪!读取数据!

首先,让我们先看一下输入中的第一个数据集:

In [7]:

nRowsRead = 100 # specify ‘None’ if want to read whole file# color.csv may have more rows in reality, but we are only loading/previewing the first 100 rowsdf1 = pd.read_csv(‘。。/input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki/color.csv’, delimiter=‘,’, nrows = nRowsRead)df1.dataframeName = ‘color.csv’nRow, nCol = df1.shapeprint(f‘There are {nRow} rows and {nCol} columns’)

那么数据长什么样子呢?

In [8]:

df1.head(5)

Out [8]:

实现海量数据分析及可视化的简便方法

数据可视化:仅需简单几行!

样本的柱状图:

In [9]:

plotHistogram(df1, 10, 5)

二维和三维的PCA图:

In [10]:

plotPCA(df1, 2) # 2D PCAplotPCA(df1, 3) # 3D PCA

同理,更换数据集文件的路径,也可以得到其它数据对应的结果。

当然,除了上述几种可视化的结果外,根据输入数据以及需求的不同,也可以得到其它数据分析可视化结果,例如:

相关矩阵:

In [11]:

plotCorrelationMatrix(df1, 8)

散射和密度图:

In [12]:

plotScatterMatrix(df1, 20, 10)

针对数据分析、数据可视化工作,Kaggle kerneler bot应当说是相当的便捷和高效了。那么你是否也想尝试一下呢?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 可视化
    +关注

    关注

    1

    文章

    1017

    浏览量

    20551
  • 数据分析
    +关注

    关注

    2

    文章

    1351

    浏览量

    33732

原文标题:Kaggle放大招:简单几步实现海量数据分析及可视化

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    从使用效果来看,数据可视化工具离不开数据中台吗?

    数据可视化工具具有数据智能分析数据可视化展现两大作用,同时
    发表于 05-12 14:14

    为更快读懂报表,我们将数据可视化

    常用图表的基础上,开发数十种高级数据可视化图表,同时还赋予这些图表联动钻取功能,让浏览者一眼看懂数据的同时还能根据自身分析需求进行自助式数据分析
    发表于 06-05 17:21

    只有报表直观了,不能算真正的数据可视化

    ——数据中心(数据中台)。OurwayBI数据可视化软件的数据中台能支持亿级数据的匹配抽取,即使
    发表于 07-01 17:20

    能做数据治理的数据可视化工具,又快又灵活

    也就无从谈起。对这样的企业用户而言,数据治理是迈向BI数据智能可视化分析的首要关卡,必须先做数据治理,统一数据分析口径,厘清
    发表于 07-13 15:34

    现在做企业级数据分析,离不开秒分析数据可视化工具

    找到分析快、深入的数据可视化工具还不够,做企业级数据分析少不了针对企业用户实际状况和需求搭建数据分析模型,但这可是份相当耗时、复杂的工作,稍
    发表于 07-21 15:06

    请问怎么把BI数据可视化报表发给领导看?

    进行解答。怎么把做好的数据可视化报表发给领导?方法:启用分享功能,生成链接或二维码发送给领导。步骤:1、返回SpeedBI数据分析云首页,点击报表右上角“…”,选择“分享”。在弹出来的
    发表于 09-01 17:26

    一般图表做不了的分析,BI数据可视化图表可以

    随着业务变化,分析场景细分,出现了越来越多的一般图表做不了的分析,比如分析顾客满意度,又比如分析展示运动轨迹、多项目进程等。面对这些分析需求
    发表于 01-15 10:22

    不懂技术的业务,该怎么做数据可视化分析

    数据源,并通过点击、拖拉拽的操作快速制作数据分析视图、数据可视化分析报表。BI数据可视化工具通常
    发表于 06-30 13:37

    原始数据量大、质量参差不齐,能立即投入数据可视化分析吗?

    数据中台能够快速地把各个系统的原始数据集中起来,并通过定时清洗整理的方式来快速统一数据分析口径,打破数据孤岛现象,使得BI智能可视化分析系统
    发表于 11-02 10:09

    什么样的数据分析软件能让全员自助可视化分析更丝滑?

    的大数据时代,数据可视化分析的效率、灵活自助性都将极大地影响企业的经营决策。在动则千万级、过亿级的大数据量下,企业更需要一个能够智能且高效、灵活且自助的BI
    发表于 09-22 10:04

    奥威BI数据可视化软件|让业务独立自主分析

    增加。怎么才能提高分析效率?BI数据可视化软件的零编程构建分析模型,让业务独立自助分析的做法也就应运而生了。零编程构建
    发表于 04-11 10:29

    SpeedBI数据可视化工具:浏览器上做分析

    SpeedBI数据分析云是一种在浏览器上进行数据可视化分析的工具,它能够将数据可视化的形式呈现出来,并支持多种
    发表于 08-22 10:55

    财务数据分析?奥威BI数据可视化工具很擅长

    的智能财务指标计算功能,还拥有一套标准、系统的财务数据分析方案,无需测试,下载即可用! 奥威BI工具+智能财务方案:轻松完成智能财务数据可视化分
    发表于 08-29 09:44

    千人千面的数据分析有没可能?奥威BI数据可视化工具告诉你

    实现数字运营管理。 ③按需筛选。用户可根据具体情况按照组织、时间段、产品品类等条件展开数据筛选分析。 奥威BI数据
    发表于 08-29 14:45

    可视化策略的数据分析

    研究者采用可视化策略(即平行坐标)的数据分析方法,更好地展示了多维材料数据,可以更好地识别不同属性之间的有用关系。
    的头像 发表于 04-27 09:22 4068次阅读
    <b class='flag-5'>可视化</b>策略的<b class='flag-5'>数据分析</b>