0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

教你如何处理不平衡数据集

电子工程师 来源:fqj 2019-06-07 11:27 次阅读

分类是机器学习最常见的问题之一,处理它的最佳方法是从分析和探索数据集开始,即从探索式数据分析(Exploratory Data Analysis,EDA)开始。除了生成尽可能多的数据见解和信息,它还用于查找数据集中可能存在的任何问题。在分析用于分类的数据集时,类别不平衡是常见问题之一。

什么是数据不平衡(类别不平衡)?

数据不平衡通常反映了数据集中类别的不均匀分布。例如,在信用卡欺诈检测数据集中,大多数信用卡交易类型都不是欺诈,仅有很少一部分类型是欺诈交易,如此以来,非欺诈交易和欺诈交易之间的比率达到50:1。本文中,我将使用来自Kaggle的信用卡欺诈交易数据数据集,你可以从这里下载

首先,我们先绘制类分布图,查看不平衡情况。

教你如何处理不平衡数据集

如你所见,非欺诈交易类型数据数量远远超过欺诈交易类型。如果我们在不解决这个类别不平衡问题的情况下训练了一个二分类模型,那么这个模型完全是有偏差的,稍后我还会向你演示它影响特征相关性的过程并解释其中的原因。

现在,我们来介绍一些解决类别不平衡问题的技巧,你可以在这里找到完整代码的notebook。

重采样(过采样和欠采样)

教你如何处理不平衡数据集

这听起来很直接。欠采样就是一个随机删除一部分多数类(数量多的类型)数据的过程,这样可以使多数类数据数量可以和少数类(数量少的类型)相匹配。

对多数类进行欠采样

对数据集进行欠采样之后,我重新画出了类型分布图(如下),可见两个类型的数量相等。

教你如何处理不平衡数据集

平衡数据集(欠采样)

第二种重采样技术叫过采样,这个过程比欠采样复杂一点。它是一个生成合成数据的过程,试图学习少数类样本特征随机地生成新的少数类样本数据。对于典型的分类问题,有许多方法对数据集进行过采样,最常见的技术是SMOTE(Synthetic Minority Over-sampling Technique,合成少数类过采样技术)。简单地说,就是在少数类数据点的特征空间里,根据随机选择的一个K最近邻样本随机地合成新样本。

还记得我说过不平衡的数据会影响特征相关性吗?让我向您展示处理不平衡类问题前后的特征相关性。

重采样之后:

请注意,现在特征相关性更明显了。在解决不平衡问题之前,大多数特征并没有显示出相关性,这肯定会影响模型的性能。除了会关系到整个模型的性能,特征性相关性还会影响ML模型的性能,因此修复类别不平衡问题非常重要。

集成方法(采样器集成)

在机器学习中,集成方法会使用多种学习算法和技术,以获得比单独使用其中一个算法更好的性能(是的,就像一个民主投票系统)。当使用集合分类器时,bagging方法变得流行起来,它通过构建多个分类器在随机选择的不同数据集上进行训练。在scikit-learn库中,有一个名叫“Bagging Classifier”的集成分类器,然而这个分类器不能训练不平衡数据集。当训练不平衡数据集时,这个分类器将会偏向多数类,从而创建一个有偏差的模型。

为了解决这个问题,我们可以使用imblearn库中的BalancedBaggingClassifier。它允许在训练集成分类器中每个子分类器之前对每个子数据集进行重采样。

因此,BalancedBaggingClassifier除了需要和Scikit Learn BaggingClassifier相同的参数以外,还需要2个参数sampling_strategy和replacement来控制随机采样器的执行。

使用集合采样器训练不平衡数据集

这样,您就可以训练一个分类器来处理类别不平衡问题,而不必在训练前手动进行欠采样或过采样。总之,每个人都应该知道,建立在不平衡数据集上的ML模型会难以准确预测稀有点和少数点,整体性能会受到限制。因此,识别和解决这些点的不平衡对生成模型的质量和性能是至关重要的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8094

    浏览量

    130513
  • 数据分析
    +关注

    关注

    2

    文章

    1347

    浏览量

    33727

原文标题:一文教你如何处理不平衡数据集(附代码)

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何理解矢量测量中“平衡”与“不平衡

    在矢量测试中,经常需要测量信号的不平衡性,会遇到相关的几个名词:Balance(平衡),Unbalance(不平衡/非平衡)和Imbalance(
    发表于 03-29 10:51 2334次阅读
    如何理解矢量测量中“<b class='flag-5'>平衡</b>”与“<b class='flag-5'>不平衡</b>

    关于三相不平衡的介绍

    关于三相不平衡的介绍 本文将讨论三相电压和电流的不平衡。由于不平衡电流是引起不对称电压的重要原因,并且电压不平衡是一个公认的电能质量参数,本文
    发表于 05-14 16:39 30次下载

    不平衡型AFC电路

    不平衡型AFC电路 如图不平衡型AFC电路,它由鉴相器,比较锯齿波形成电路,
    发表于 08-05 23:52 1571次阅读
    <b class='flag-5'>不平衡</b>型AFC电路

    不平衡数据的软子空间聚类算法

    针对受均匀效应的影响,当前K-means型软子空间算法不能有效聚类不平衡数据的问题,提出一种基于划分的不平衡数据软子空间聚类新算法。首先,提出一种双加权方法,在赋予每个属性一个特征权重
    发表于 11-25 11:33 0次下载

    三相电压不平衡产生原因_三相电压不平衡的治理措施

    电力系统中三相电压不平衡产生的主要原因是负荷的不平衡和系统阻抗的不平衡。其中负荷的不平衡是造成三相电压不平衡的主要原因,比较明显的单相负荷由
    的头像 发表于 10-28 16:43 2.3w次阅读

    三相不平衡有哪些处理方法

    在三相交流系统中,三相电压或电流在幅值上相同或相位差为120度,反之则判断为三相不平衡不平衡问题的处理有负荷补偿、负荷相序平衡、配网重构等方式来
    的头像 发表于 11-22 17:47 2w次阅读

    为什么三相变频电源出现不平衡?如何处理

      为什么三相变频电源会出现不平衡:   (1)在配电网侧,存在大量不平衡的单相负载,导致配电站的区域。在大多数地区,三相不平衡程度不同。   (2)用户用电过程的随机性和不确定性,以及日益增加
    的头像 发表于 03-24 09:52 1432次阅读
    为什么三相变频电源出现<b class='flag-5'>不平衡</b>?如<b class='flag-5'>何处理</b>?

    为什么要治理三相不平衡

    三相不平衡是指三相电路中,三个相电流或相电压不平衡的现象。在电力系统中,三相不平衡是一个常见而严重的问题,它会导致许多不良影响,因此需要进行治理。
    的头像 发表于 09-18 09:36 361次阅读

    三相不平衡是什么意思?三相电压不平衡怎么处理

    三相不平衡是什么意思?三相电压不平衡怎么处理?  三相不平衡是指三相电压或电流的幅度或相位不同,这会导致电力系统的不稳定、效率低下、设备寿命短等问题。在三相电力系统中,三相电压应该相等
    的头像 发表于 09-25 17:36 2353次阅读

    三相电压不平衡是什么原因造成的?三相不平衡会跳闸吗?

    三相电压不平衡是什么原因造成的?三相不平衡会跳闸吗?三相不平衡度允许范围  三相电压不平衡是指三相电源电压之间的差异,通常是由电源系统出现故障或不良设计引起的。
    的头像 发表于 09-25 17:36 2620次阅读

    I/Q不平衡的来源 IQ信道之间的不平衡会造成什么影响呢?

    字通信中,I/Q不平衡可能导致信号失真、干扰甚至数据丢失,特别是在高速数据传输和高频率应用中。 I/Q不平衡的来源可以分类为硬件和软件因素。硬件因素包括电子元器件毛刺、电缆或传输线路失
    的头像 发表于 10-31 09:34 696次阅读

    三相用电不平衡的危害?

    三相用电不平衡的危害? 三相用电不平衡是指三相电网中的三个相电压或三个相电流之间存在不平衡的情况。不平衡的三相用电可能会导致一系列的危害,以下是详尽、详实、细致的关于三相用电
    的头像 发表于 11-10 14:35 1001次阅读

    为什么三相变频电源出现不平衡?如何处理

    为什么三相变频电源出现不平衡?如何处理? 三相变频电源出现不平衡的原因有很多,主要包括电源输入问题、电源负载问题和控制系统问题等。下面将详细探讨这些问题以及如何处理。 首先,电源输入问
    的头像 发表于 11-16 11:06 774次阅读

    三相不平衡最佳解决办法 三相不平衡多少范围内是合理的

    三相不平衡最佳解决办法 在电力系统中,三相不平衡是指三个相之间电压或电流不相等的现象。当三相不平衡的情况发生时,可能会导致线路过载、设备寿命缩短、电能损耗增加等问题。因此,解决三相不平衡
    的头像 发表于 02-06 10:07 475次阅读

    三相不平衡调节装置 三相不平衡会造成什么后果

    三相不平衡调节装置是一种用于解决三相电力系统中三相电压或电流不平衡问题的设备。在本文中,我们将探讨三相不平衡的原因、后果和解决方案,并详细介绍三相不平衡调节装置的工作原理和应用。 引言
    的头像 发表于 02-06 10:14 345次阅读