0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在Tableau中盒须图帮你6步筛除异常值

Tableau社区 来源:未知 作者:工程师曾玲 2018-10-02 11:29 次阅读

如果您熟悉盒须图,那么您也知道这是一个非常好的图表来检查数据的分布并突出显示异常值。但有时仅仅显示异常值是不够的,我们可能也想筛选掉异常值,因为这些异常值可能是由于数据问题或某些我们不希望在分析中包含的特定情况所引起的。那我们该如何在 Tableau 中根据盒须图的逻辑筛选出异常值?

如果您不确定盒须图的样子,下图是一个简单的示意图。

图表中的每个圆圈代表 Sample Superstore Sales Excel 文件中美国各个州的总利润。盒子展示了各个州利润的中位数以及上四分位数(百分位 75)和下四分位数(百分位 25)之间的范围。另外两条须分别代表仍在 1.5 IQR 范围内的最低和最高线。IQR 是四分位数的范围 - 上四分位数和下四分位数之间的差值。也就是说,每条须都显示了该范围之间的数据点。

因此,如果我们想要筛除或突出异常值,我们需要计算 IQR 和所有在 IQR+/- 1.5 倍之内的数据。那么我们该怎么做?

第 1 步计算百分位 25 和百分位 75

首先,我们要计算百分位 25(Q1)和百分位 75(Q3)之间的所有数据。也就是盒子内的所有数据。为此,我们将使用度量(利润)的百分位数创建计算字段,并使用布尔运算让该范围之间的所有数据点返回 TRUE 值。

在 P25 和 P75 之间:

RANK_PERCENTILE(SUM([Profit]))<=0.75 and 

RANK_PERCENTILE(SUM([Profit]))>=0.25

此计算将让 Q1 和 Q3 之间的所有数据点返回 True 值。在我们的示例中,我们必须确保计算按州进行。因此我们可以将它放置在颜色架上来确保计算是按照我们希望的方式进行的。

第 2 步计算盒子的限制 – 下限与上限

我们已经在步骤 1 中突出显示了 Q1 和 Q3 之间的所有数据点。现在我们需要计算 Q1 的下限和 Q3 的上限,这样我们就可以计算出 IQR,这就是百分位 25 和百分 75 之间的差值。通常我们可以使用 LOD 来计算这些数字,但是由于我们不能在 LOD 中使用表计算,所以我们需要寻找另一个解决方案。为此,我们将在 WINDOW_MAX 中使用 IF 语句,而我们只能获得百分位 25 和百分位 75 之间的数据最大值 – 也就是上限。

Q1 和 Q3 之间的最大值

WINDOW_MAX(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)

我们将用同样的方法来计算最小值以获得 Q1 和 Q3 之间的下限。

Q1 和 Q3 之间的最小值

WINDOW_MIN(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)

就像我们在步骤 1 中进行计算一样,在我们的例子中,我们必须确保两个计算都是按州进行。我们还可以将两个计算放到到详细信息中,并将它们添加为参考线,以检查数字是否正确,如下图所示。

这看起来非常像步骤 1 之后的图像,但是如果您仔细看图,您可以发现使用刚刚建立的计算所制作的两条参考线,与上下限相互重合了。这表明我们离成功越来越近了!

第 3 步计算 IQR

我们之前也提到过 IQR 是 Q3 和 Q1 之间的差值,也是百分位 25 和百分位 75 之间的数据上下限之间的差值。换句话说,也就是我们在步骤 2 中所构建的两个计算之间的差异。可能是这篇文章中最简单的一步:

IQR:

[Max between Q1 and Q3] – [Min between Q1 and Q3]

第 4 步计算上下须

第 3 步很简单,而第 4 步也不困难。在上文中,我们已将须扩大到了 IQR 1.5 倍以内的数据。因此,我们只需要使用步骤 2 中构建的 Q1 和 Q3 之间的数据上下限以及步骤 3 中计算的 IQR 来计算上下须之间的数据范围,如下所示:

下须:

[Min between Q1 and Q3] – (1.5 * [IQR])

上须:

[Max between Q1 and Q3] + (1.5 * [IQR])

请小心并特别注意差值。对于较低的须而言,我们必须减去 1.5 倍的 IQR,并为上须增加 1.5 倍的 IQR。与上文一样,在我们的例子中,我们必须确保使用州来进行此计算。

第 5 步标记异常值

我们离成功很近了。现在我们有了来识别异常值的所有值。基本上来说,异常值将是低于我们下须极限或高于我们上须极限的所有数据点。我们可以用与步骤 1 非常相似的方式来创建一个计算,让这些异常值返回 TRUE 值。

异常值:

SUM([Profit]) < [Lower Whisker Limit] OR SUM([Profit])  > [Upper Whisker Limit]

同样的,请确保使用州(如果您按我们的例子)或代表您标记(圆圈)的维度进行计算。我们可以将这最后的计算放到颜色架中来突出显示异常值。

让异常值变大或变小。

甚至用改变形状的方式来突出异常值。

第 6 步筛除异常值

按照这篇文章的主要目的,我们现在可以做的是筛除异常值。但请记住,盒子和须将会使用新的数据重新计算。例如,如果现在我们将子类别添加到行,我们将获得这样的视图,使用颜色突出显示异常值,证如我们在步骤 5 中提到的那样。

但是我不想将我的异常值放在颜色中,我希望删除盒子和须线,并将异常值计算放到筛选器中,并排除 TRUE 值。然后我可能会添加一个参考线来显示按子类别划分的每个州的平均利润,但不考虑每个子类别的异常值。

完成了!现在我们可以在没有异常值的情况下查看并分析数据,我们也可以看到每个州的利润现在已经比以前更好地分布在子类别中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据分析
    +关注

    关注

    2

    文章

    1349

    浏览量

    33729

原文标题:教你 6 步筛除异常值,快来 Pick 盒须图!

文章出处:【微信号:TableauChina,微信公众号:Tableau社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用AD7656过程采样值每间隔一段时间会有异常值出现是什么原因?

    使用AD7656过程中发现采样值每间隔一段时间(10分钟不等)会有异常值出现(0x4000或0xBFFF),不知什么原因。求分析。
    发表于 12-21 06:20

    Stm32H7 spi会带来更大的adc噪声,导致小信号异常值的原因?

    [Stm32H7]spi会带来更大的adc噪声,导致小信号异常值
    发表于 03-25 06:10

    异常值概述及检验处理

    异常值的处理
    发表于 04-26 13:13

    什么是锡?锡的危害是什么?如何规避锡

    什么是锡?锡的危害是什么锡产生的机理是什么锡风险如何规避
    发表于 04-25 08:20

    没有运动的情况下lm6dsox的正常值应该是多少?

    在表面上时,您至少应该看到 x 轴和 z 轴之间的一些差异(x 几乎接近 0,y 几乎接近 1g)。”你能告诉我没有运动的情况下,lm6dsox 的正常值应该是多少?谢谢
    发表于 12-20 06:46

    基于Python在数据流中查找异常值的方法

    在上一篇文章中,我解释了流算法的概念,并给出了许多如何应用流算法的示例。 其中之一是在不保存数据流元素的情况下计算数据流的滚动平均值。 现在,我想扩展这个示例,并在异常值检测的背景下向您展示另一种流算法的用例。
    的头像 发表于 05-03 18:17 2921次阅读
    基于Python在数据流中查找<b class='flag-5'>异常值</b>的方法

    Tableau与Einstein Analytics 合作推动数据分析

    2020年 10月 7 日 - 9 日,在Tableau Conference(Tableau 全球用户大会)上我们分享了将 Tableau 和 Salesforce Einstein
    的头像 发表于 10-21 16:35 2292次阅读
    <b class='flag-5'>Tableau</b>与Einstein Analytics 合作推动数据分析

    11月6日 Tableau 仪表盘设计简化与技巧分析

    欢迎大家参与由 Tableau 客户成功团队主持的 Tableau 故事慧!这一系列直播活动旨在为广大用户和 Tableau 成功使用者建立交流平台。希望大家可以通过嘉宾分享的成功经验,在个人的成长
    的头像 发表于 11-02 11:15 2876次阅读

    Tableau 2020.4亮点功能集锦

      Tableau 2020.4 最新版本现已问世!本次重磅推出浏览器中的 Tableau Prep Builder、地图支持多个标记层、适用于 Linux 版 Tableau Server 的资源
    的头像 发表于 12-24 17:46 2691次阅读

    异常值自识别的鲁棒性矩阵补全方法

    的情况下,目前大部分矩阵补全算法的鲁棒性并不理想。为了増加矩阵补全算法的鲁棒性并避免算法过拟合,讨论了几种较汋经典的矩阵补全算法,并提岀了一种新的鲁棒性矩阵补全方法。该算法可以识别异常值的位置并用近似数据
    发表于 05-19 11:32 3次下载

    Tableau Catalog能更快地找到正确的表和数据库

    Tableau 2019.3 发布以来,数据发现和信任一直是 Tableau Catalog (Tableau Data Management 的组件)的核心原则。在每一个版本中,我们都会添加
    的头像 发表于 06-13 14:43 1351次阅读

    基于异常检测的模型表现对比

    但这种分类方式常因为上下文定义边界模糊,导致集体异常值和上下文异常值的定义边界也模糊。上下文异常值的上下文在不同文献中通常非常不同。
    的头像 发表于 10-18 16:47 1228次阅读

    使用MATLAB进行异常检测(下)

    在使用 MATLAB 进行异常检测(上)中,我们探讨了什么是异常值,简单的一维数据异常检测问题,针对高维数据的有监督异常检测方法。 在(下)篇中,我们将和大家一起探讨无监督
    的头像 发表于 11-24 10:46 1702次阅读

    基于图神经网络的图异常值检测库介绍

    来学习节点的嵌入 (见图 1)。大多数 GNN 都持有同源性假设,即相连的节点是相似的;因此,聚合邻居的信息将有助于学习信息量更大的中心节点表示。中心节点表示可用于节点分类、链接预测和异常值检测 (OD) 等下游任务。
    的头像 发表于 12-08 10:34 1466次阅读

    数据清洗、缺失值填充和异常值处理

    综上所述,数据清洗、缺失值填充和异常值处理对数据分析非常重要,并且 MATLAB 提供了许多工具来实现这些步骤。可以根据具体情况选择合适的函数和方法来处理数据。
    的头像 发表于 06-21 15:30 2163次阅读