侵权投诉

在Tableau中盒须图帮你6步筛除异常值

Tableau社区 2018-10-02 11:29 次阅读

如果您熟悉盒须图,那么您也知道这是一个非常好的图表来检查数据的分布并突出显示异常值。但有时仅仅显示异常值是不够的,我们可能也想筛选掉异常值,因为这些异常值可能是由于数据问题或某些我们不希望在分析中包含的特定情况所引起的。那我们该如何在 Tableau 中根据盒须图的逻辑筛选出异常值?

如果您不确定盒须图的样子,下图是一个简单的示意图。

在Tableau中盒须图帮你6步筛除异常值

图表中的每个圆圈代表 Sample Superstore Sales Excel 文件中美国各个州的总利润。盒子展示了各个州利润的中位数以及上四分位数(百分位 75)和下四分位数(百分位 25)之间的范围。另外两条须分别代表仍在 1.5 IQR 范围内的最低和最高线。IQR 是四分位数的范围 - 上四分位数和下四分位数之间的差值。也就是说,每条须都显示了该范围之间的数据点。

在Tableau中盒须图帮你6步筛除异常值

因此,如果我们想要筛除或突出异常值,我们需要计算 IQR 和所有在 IQR+/- 1.5 倍之内的数据。那么我们该怎么做?

第 1 步计算百分位 25 和百分位 75

首先,我们要计算百分位 25(Q1)和百分位 75(Q3)之间的所有数据。也就是盒子内的所有数据。为此,我们将使用度量(利润)的百分位数创建计算字段,并使用布尔运算让该范围之间的所有数据点返回 TRUE 值。

在 P25 和 P75 之间:

RANK_PERCENTILE(SUM([Profit]))<=0.75 and 

RANK_PERCENTILE(SUM([Profit]))>=0.25

此计算将让 Q1 和 Q3 之间的所有数据点返回 True 值。在我们的示例中,我们必须确保计算按州进行。因此我们可以将它放置在颜色架上来确保计算是按照我们希望的方式进行的。

在Tableau中盒须图帮你6步筛除异常值

第 2 步计算盒子的限制 – 下限与上限

我们已经在步骤 1 中突出显示了 Q1 和 Q3 之间的所有数据点。现在我们需要计算 Q1 的下限和 Q3 的上限,这样我们就可以计算出 IQR,这就是百分位 25 和百分 75 之间的差值。通常我们可以使用 LOD 来计算这些数字,但是由于我们不能在 LOD 中使用表计算,所以我们需要寻找另一个解决方案。为此,我们将在 WINDOW_MAX 中使用 IF 语句,而我们只能获得百分位 25 和百分位 75 之间的数据最大值 – 也就是上限。

Q1 和 Q3 之间的最大值

WINDOW_MAX(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)

我们将用同样的方法来计算最小值以获得 Q1 和 Q3 之间的下限。

Q1 和 Q3 之间的最小值

WINDOW_MIN(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)

就像我们在步骤 1 中进行计算一样,在我们的例子中,我们必须确保两个计算都是按州进行。我们还可以将两个计算放到到详细信息中,并将它们添加为参考线,以检查数字是否正确,如下图所示。

在Tableau中盒须图帮你6步筛除异常值

这看起来非常像步骤 1 之后的图像,但是如果您仔细看图,您可以发现使用刚刚建立的计算所制作的两条参考线,与上下限相互重合了。这表明我们离成功越来越近了!

第 3 步计算 IQR

我们之前也提到过 IQR 是 Q3 和 Q1 之间的差值,也是百分位 25 和百分位 75 之间的数据上下限之间的差值。换句话说,也就是我们在步骤 2 中所构建的两个计算之间的差异。可能是这篇文章中最简单的一步:

IQR:

[Max between Q1 and Q3] – [Min between Q1 and Q3]

第 4 步计算上下须

第 3 步很简单,而第 4 步也不困难。在上文中,我们已将须扩大到了 IQR 1.5 倍以内的数据。因此,我们只需要使用步骤 2 中构建的 Q1 和 Q3 之间的数据上下限以及步骤 3 中计算的 IQR 来计算上下须之间的数据范围,如下所示:

下须:

[Min between Q1 and Q3] – (1.5 * [IQR])

上须:

[Max between Q1 and Q3] + (1.5 * [IQR])

请小心并特别注意差值。对于较低的须而言,我们必须减去 1.5 倍的 IQR,并为上须增加 1.5 倍的 IQR。与上文一样,在我们的例子中,我们必须确保使用州来进行此计算。

第 5 步标记异常值

我们离成功很近了。现在我们有了来识别异常值的所有值。基本上来说,异常值将是低于我们下须极限或高于我们上须极限的所有数据点。我们可以用与步骤 1 非常相似的方式来创建一个计算,让这些异常值返回 TRUE 值。

异常值:

SUM([Profit])  < [Lower Whisker Limit] OR SUM([Profit])  > [Upper Whisker Limit]

同样的,请确保使用州(如果您按我们的例子)或代表您标记(圆圈)的维度进行计算。我们可以将这最后的计算放到颜色架中来突出显示异常值。

在Tableau中盒须图帮你6步筛除异常值

让异常值变大或变小。

在Tableau中盒须图帮你6步筛除异常值

甚至用改变形状的方式来突出异常值。

在Tableau中盒须图帮你6步筛除异常值

第 6 步筛除异常值

按照这篇文章的主要目的,我们现在可以做的是筛除异常值。但请记住,盒子和须将会使用新的数据重新计算。例如,如果现在我们将子类别添加到行,我们将获得这样的视图,使用颜色突出显示异常值,证如我们在步骤 5 中提到的那样。

在Tableau中盒须图帮你6步筛除异常值

但是我不想将我的异常值放在颜色中,我希望删除盒子和须线,并将异常值计算放到筛选器中,并排除 TRUE 值。然后我可能会添加一个参考线来显示按子类别划分的每个州的平均利润,但不考虑每个子类别的异常值。

在Tableau中盒须图帮你6步筛除异常值

完成了!现在我们可以在没有异常值的情况下查看并分析数据,我们也可以看到每个州的利润现在已经比以前更好地分布在子类别中。

原文标题:教你 6 步筛除异常值,快来 Pick 盒须图!

文章出处:【微信号:TableauChina,微信公众号:Tableau社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

中国银联这些年来大数据技术的变革以及优化

2007 年左右,中国银联开始进入到数据仓库年代。相较于报表,数据仓库对于用户体验来说是一个巨大的革....
的头像 InfoQ 发表于 12-12 14:32 236次 阅读
中国银联这些年来大数据技术的变革以及优化

软件能否真正改善大型联络中心BPO的绩效和成果?

“高流失率转化为招聘和培训的高成本,员工生产力下降以及与客户互动人员的士气低落,”总部位于丹佛的技术....
的头像 CTI论坛 发表于 12-04 14:42 298次 阅读
软件能否真正改善大型联络中心BPO的绩效和成果?

基于IDTechEx在RFID领域的广泛研究

在零售领域,RFID仍将继续用于服装标签,并在数量上领先于其他所有应用,仅在2019年,该应用就需要....
的头像 MEMS 发表于 11-30 07:05 288次 阅读
基于IDTechEx在RFID领域的广泛研究

工作环境准备及数据分析建模理论基础的学习课件免费下载

本文档的主要内容详细介绍的是工作环境准备及数据分析建模理论基础的学习课件免费下载包括了:课程介绍,数....
发表于 11-25 08:00 54次 阅读
工作环境准备及数据分析建模理论基础的学习课件免费下载

第二届虹桥国际经济论坛人工智能与创新发展分论坛

他举例称,该公司正在研发一项针对哮喘病的人工智能技术,它可以通过数据分析,在病发之前就向患者发送提醒....
的头像 倩倩 发表于 11-06 10:35 529次 阅读
第二届虹桥国际经济论坛人工智能与创新发展分论坛

通用Python机器学习库scikit-learn

《利用Python进行数据分析》 134 scikit-learn介绍
发表于 10-25 07:58 75次 阅读
通用Python机器学习库scikit-learn

回顾S800 SSD强势助力安防存储的内容介绍

随着大数据分析与AI产业的发展,数字化影像分析势必基于数据库的完整性,任何影像丢失损坏,都会直接影响....
的头像 江波龙电子 发表于 10-14 17:16 304次 阅读
回顾S800 SSD强势助力安防存储的内容介绍

如何使用HALCON机器视觉软件进行药品包装瓶批号检测技术的研究

检测是药品生产过程中的重要环节, 基于机器视觉的智能检测技术是实现药品生产质量快速、自动检测与控制的....
发表于 10-14 17:14 132次 阅读
如何使用HALCON机器视觉软件进行药品包装瓶批号检测技术的研究

物联网生态,如何实现隐私保护

 IOTF物联网生态致力于为全球提供更加可行的物联网技术。即建立一个全球范围的分散平台,用户能够在这....
的头像 倩倩 发表于 10-08 15:50 642次 阅读
物联网生态,如何实现隐私保护

人工智能又“觊觎”上了央视新闻剪辑师的职位

在媒体领域,人工智能(AI)技术发展迅猛,取得了惊人的进步。机器人实现了数据分析、自动写稿全过程,自....
的头像 倩倩 发表于 10-08 15:23 922次 阅读
人工智能又“觊觎”上了央视新闻剪辑师的职位

谁说菜鸟不会数据分析工具篇PDF电子书免费下载

工欲善其事,必先利其器。数据分析也不例外,本书基于Excel,通俗地讲解数据分析全流程工具。 作为《....
发表于 10-08 08:00 292次 阅读
谁说菜鸟不会数据分析工具篇PDF电子书免费下载

数据分析修炼手册教程免费下载

本文档的主要内容详细介绍的是数据分析修炼手册教程免费下载包括了:前言,数据分析师如何分类? ,数据分....
发表于 10-08 08:00 108次 阅读
数据分析修炼手册教程免费下载

谈人工智能对教育行业的影响

随着近几年的科技方面在人工智能的的飞速发展,人工智能不仅给我们的日常生活带来了一些新鲜的亮点。在对现....
发表于 09-28 02:25 423次 阅读
谈人工智能对教育行业的影响

爬虫技术为什么变成了害虫?爬虫技术到底犯了什么错?

 近日,多家通过爬虫技术开展大数据信贷风控的公司被查。短短几天时间,“爬虫”技术被推上了风口浪尖,大....
的头像 Wildesbeast 发表于 09-21 11:16 1317次 阅读
爬虫技术为什么变成了害虫?爬虫技术到底犯了什么错?

关于OpenCV团队到访云之梦参观交流介绍

Dmitry对云之梦的AI3D技术是否有计划更多地迁移到前端计算设备上非常感兴趣。事实上,云之梦研发....
的头像 云之梦科技 发表于 09-20 17:20 287次 阅读
关于OpenCV团队到访云之梦参观交流介绍

关于零售物联网的发展介绍

在产品形态上,友宝自主设计的友宝便利柜,已扩展研发出热链柜、冷链柜,售货品类也进一步扩至餐饮品类,生....
的头像 英特尔物联网 发表于 09-19 11:49 428次 阅读
关于零售物联网的发展介绍

关于数字标牌的性能分析和应用

除了硬件得到改进,还有新的软件可以充分发挥硬件的功能,帮助改进与消费者的关系。英特尔匿名观众分析等软....
的头像 英特尔物联网 发表于 09-19 10:05 366次 阅读
关于数字标牌的性能分析和应用

物联网是零售商和消费者之间的纽带

如今的购物者希望享有富有吸引力的无缝购物体验,不管他们在哪里,使用什么设备。通过触摸屏幕,音视频播放....
的头像 英特尔物联网 发表于 09-19 09:27 338次 阅读
物联网是零售商和消费者之间的纽带

基于模型的设计实现ISO 26262 ASIL D级认证分析和介绍

科世达是中国国内首家汽车类产品达到ISO 26262 ASIL D级认证的公司。来自MathWork....
的头像 MATLAB 发表于 09-18 11:49 582次 阅读
基于模型的设计实现ISO 26262 ASIL D级认证分析和介绍

回顾智能零售的发展之路

在过去的几年中,英特尔中国物联网事业部的零售部门不仅实现了自身市场份额的跨越式增长,还通过为中国市场....
的头像 英特尔物联网 发表于 09-18 08:59 369次 阅读
回顾智能零售的发展之路

MATLAB的全新应用程序简化了控制系统的设计和分析

MathWorks设计自动化部门的总监Paul Barnard说道: “全新的Control Sys....
的头像 MATLAB 发表于 09-17 17:54 322次 阅读
MATLAB的全新应用程序简化了控制系统的设计和分析

关于MATLAB新增交易成本分析功能的介绍和应用分析

Kissell Research Group总裁Robert Kissell表示:“通过将交易成本分....
的头像 MATLAB 发表于 09-17 16:33 336次 阅读
关于MATLAB新增交易成本分析功能的介绍和应用分析

关于Simulink支持设计空间探索的灵敏度分析工具的介绍和应用

设计工程人员可直接利用灵敏度分析结果改进设计、提高数值优化任务的性能,如依据测试数据进行模型拟合、调....
的头像 MATLAB 发表于 09-17 14:33 396次 阅读
关于Simulink支持设计空间探索的灵敏度分析工具的介绍和应用

关于汽车动力总成系统仿真分析

MathWorks 汽车行业市场经理金文思表示:“基于模型设计的汽车开发团队通常会寻找一个好的起点来....
的头像 MATLAB 发表于 09-17 10:20 414次 阅读
关于汽车动力总成系统仿真分析

关于MATLAB 数学建模快速入门的方法分析介绍

到此处,我们已经找到了评估股票价值和风险的方法,并能用 MALTAB 来实现了。但是,我们都是在命令....
的头像 MATLAB 发表于 09-16 14:57 353次 阅读
关于MATLAB 数学建模快速入门的方法分析介绍

MATLAB数据建模方法中的机器学习方法介绍

回归模型描述了响应(输出)变量与一个或多个预测变量(输入)变量之间的关系。 MATLAB 支持线性,....
的头像 MATLAB 发表于 09-16 14:31 1026次 阅读
MATLAB数据建模方法中的机器学习方法介绍

关于机器学习的相关分析介绍

应用机器学习处理大数据的工具和应用程序中,MATLAB 是一个理想的数据分析环境。使用 MATLAB....
的头像 MATLAB 发表于 09-16 11:32 349次 阅读
关于机器学习的相关分析介绍

关于用于预测地下地质特征的软件的分析和介绍

使用MATLAB,团队开发了从3D震波数据定量描述提取特征的算法。通过使用曲线拟合工具箱中的加权三次....
的头像 MATLAB 发表于 09-16 11:13 343次 阅读
关于用于预测地下地质特征的软件的分析和介绍

关于MATLAB与深度学习的关系和应用

使用 DAG 和 LSTM 网络,采用一个相应的应用程序给图像加标签,执行语义分割,为 NVIDIA....
的头像 MATLAB 发表于 09-16 10:21 568次 阅读
关于MATLAB与深度学习的关系和应用

关于可视计算的分析和介绍

三是端到端的数据分析,越来越多的视频分析是在前端摄像头,客户数据原来通过摄像头来采集,但数据处理则通....
的头像 英特尔物联网 发表于 09-16 09:50 493次 阅读
关于可视计算的分析和介绍

英特尔助力物联云注重打造未来新生态

标准能使所有开发者的开发工具和源代码变得兼容,标准化标志着一个产业的成熟与发展。为了推动产业的繁荣,....
的头像 英特尔物联网 发表于 09-16 08:37 329次 阅读
英特尔助力物联云注重打造未来新生态

回顾数据分析对2018所产生的影响分析

虽然深度学习仍被认为前途无量,但仍然需要进行大量的设计和调整来训练有效的深度网络。诸如自动超参数调优....
的头像 MATLAB 发表于 09-12 17:29 294次 阅读
回顾数据分析对2018所产生的影响分析

未来人工智能的发展所要面临的挑战

人工智能正在进入更多的行业,越来越多的公司已经体验到了实施人工智能的好处。尽管人工智能正在发展并越来....
发表于 09-12 16:56 316次 阅读
未来人工智能的发展所要面临的挑战

关于智能POS机的性能分析和介绍

易捷通基于英特尔HH10的双屏触控POS机能支持12寸的主显示器和9.7寸的副显示器,并能同时支持触....
的头像 英特尔物联网 发表于 09-12 15:39 2472次 阅读
关于智能POS机的性能分析和介绍

关于汽车行业进行软件质量管理的相关指南和方案

运行错误相对于编译错误或链接错误而言,即通常所说的代码在运行过程中存在的 bug。其分析结果分为确定....
的头像 MATLAB 发表于 09-12 11:53 531次 阅读
关于汽车行业进行软件质量管理的相关指南和方案

对于机器学习的熟练度分析和介绍

如何借助机器学习的力量,使用数据做出更好的决策?MATLAB 让机器学习简单易行。借助用于处理大数据....
的头像 MATLAB 发表于 09-11 16:10 442次 阅读
对于机器学习的熟练度分析和介绍

关于智能零售的便利性和应用分析介绍

英特尔借助自身的物联网网关收集到的实时数据,以及依托至强架构所构建的大数据计算平台,给李维斯提供了精....
的头像 英特尔物联网 发表于 09-11 10:14 642次 阅读
关于智能零售的便利性和应用分析介绍

关于人工智能和机器学习在医学应用的重要性和作用分析

MATLAB 等工具为领域专家提供了数据分析和高级机器学习功能,使他们能够更容易地将“数据科学”功能....
的头像 MATLAB 发表于 09-11 09:40 514次 阅读
关于人工智能和机器学习在医学应用的重要性和作用分析

关于基因组分析的优势和特点

在临床应用环境中,基因组学主要用于治疗癌症和遗传性疾病。这些患者从疾病发作到发现原因或治疗方法需要经....
的头像 英特尔物联网 发表于 09-10 10:12 437次 阅读
关于基因组分析的优势和特点

A股物联网板块掀起涨停潮,相关个股投资机会凸显

方正证券分析师翟炜在研报中指出NB-IoT与5G技术具有一定的互补性,5G的商用部署将是物联网投资逻....
的头像 倩倩 发表于 09-10 10:01 621次 阅读
A股物联网板块掀起涨停潮,相关个股投资机会凸显

关于英特尔用公式确保自动驾驶安全性的介绍和说明

在这种情况下,如果一辆由人类驾驶的汽车在自动驾驶汽车前方突然插队并形成事故,即便是自动驾驶汽车追尾人....
的头像 英特尔物联网 发表于 09-09 11:39 351次 阅读
关于英特尔用公式确保自动驾驶安全性的介绍和说明

智能机器人扫一扫鸡的面部,就可以识别它们的活跃度

此外,智能机器人可以移动、多方位实时感知鸡舍的温度、湿度、光照和有害气体,尽早预知鸡群疫情。如果发现....
的头像 倩倩 发表于 09-09 10:45 729次 阅读
智能机器人扫一扫鸡的面部,就可以识别它们的活跃度

物联网分析在行动:医疗保健分析

由于技术限制,许多这些数据源仍未被开发。总的来说,它们被标记为“黑暗数据”的标签。然而,他们可以使用....
的头像 倩倩 发表于 09-05 14:48 1265次 阅读
物联网分析在行动:医疗保健分析

文科女生选择物联网专业还是不错的选择

物联网领域由于产业生态逐渐庞大,岗位类型也比较多,所以女生也能够找到适合自己的就业岗位,比如数据分析....
的头像 倩倩 发表于 09-05 14:26 783次 阅读
文科女生选择物联网专业还是不错的选择

美的领跑成绩“抢眼”,智能家居新赛道

查看几家上市公司财报,美的集团营业收入已连续几年稳居家电行业第一,并实现营收和利润双增长,美的这几年....
的头像 倩倩 发表于 09-04 14:47 816次 阅读
美的领跑成绩“抢眼”,智能家居新赛道

回顾教育信息化的发展和未来

其实,早在2001年中国教育信息化开始的时候,各类电子硬件设备开始大量需求英特尔就开始推进OPS,从....
的头像 英特尔物联网 发表于 09-03 17:09 729次 阅读
回顾教育信息化的发展和未来

2019世界人工智能大会 自带「炼金」技能的未来建筑

有个机器人有限公司的联合创始人张阳新先生发布了最新一代群体机器人配送解决方案,它由智能服务仓、配送机....
的头像 倩倩 发表于 09-03 11:15 924次 阅读
2019世界人工智能大会 自带「炼金」技能的未来建筑

MPU6050传感器进行数据分析与滤波的详细资料说明

本文档的主要内容详细介绍的是MPU6050传感器进行数据分析与滤波的详细资料说明。
发表于 08-21 17:43 329次 阅读
MPU6050传感器进行数据分析与滤波的详细资料说明

物联网与互联网的两点差异

物联网平台需要支持:设备连接,设备管理,数据存储,数据分析,应用软件与设备交互,软件开发环境,软件运....
的头像 倩倩 发表于 08-21 15:44 700次 阅读
物联网与互联网的两点差异

关于中国首款智能环境车性能分析

这辆智能环境车内部的舒适性不错,很有高级商务车的感觉。作为一辆环保执法车辆,它有些过于豪华了,估计在....
的头像 汽车与新动力 发表于 08-19 17:15 621次 阅读
关于中国首款智能环境车性能分析

kaggle住宅价格预测

kaggle房价实战总结
发表于 08-13 10:08 106次 阅读
kaggle住宅价格预测

pandas数据分析常见操作

数据分析-pandas数据处理清洗常用总结
发表于 08-08 06:46 90次 阅读
pandas数据分析常见操作

总结Python面试中最常见的100个问题

Python中的内存管理由Python私有堆空间管理。所有Python对象和数据结构都位于私有堆中。....
的头像 将门创投 发表于 08-02 14:47 1371次 阅读
总结Python面试中最常见的100个问题

【技术杂谈】用Python来预测双色球,都想到未来的美好生活了呢~

炎炎夏日,懒的做饭,跑楼下买点烤鸭和凉面吃吃,路过一个卖彩票的店,突然灵感爆棚,想着是不是可以利用Python来预测一下的彩票...
发表于 07-29 11:07 624次 阅读
【技术杂谈】用Python来预测双色球,都想到未来的美好生活了呢~

【技术杂谈】从数据抓取到可视化分析

本文的目的:通过介绍从拉勾网抓取全国范围内的“数据分析”的职位数据,到使用 Tableau 进行简单的可视化分析,为大家展现一个...
发表于 07-11 09:30 636次 阅读
【技术杂谈】从数据抓取到可视化分析

pandas数据分析的方法

pandas数据分析中常用方法
发表于 06-03 06:16 241次 阅读
pandas数据分析的方法

数据量大时用集算器编写

数据分析用它就够了  37 个场景你要用集算器...
发表于 04-17 09:16 188次 阅读
数据量大时用集算器编写

北京大暴雨,我在西二旗公交站等船来接

近日,全国多地现强降雨(除了合肥!)尤其是北京,暴雨下得让人猝不及防。网友纷纷调侃: “在家里‘看海’”、“喜提‘内陆海...
发表于 07-19 09:07 822次 阅读
北京大暴雨,我在西二旗公交站等船来接

常用10款数据分析编程语言

在巨大的数据集中进行筛选的最好工具是什么?以下是总结的十大合适大数据处理的编程语言。1. R语言R语言是数据科学的宠儿,R语...
发表于 05-08 16:24 1958次 阅读
常用10款数据分析编程语言

我最近做的一个项目,原始数据接收到了,但分析结果为0是为什么?

各位大神,我最近做的一个项目,原始数据接收到了,但分析结果为0,见图1,图2为采集到数据分析结果 , 图3为程序框图,感谢指...
发表于 04-30 19:53 1305次 阅读
我最近做的一个项目,原始数据接收到了,但分析结果为0是为什么?