0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何解决样本不均的问题?

深度学习自然语言处理 来源:炼丹笔记 作者:时晴 2021-05-26 09:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

样本不均的问题大家已经很常见了,我们总是能看到某一个类目的数量远高于其他类目,举个例子,曝光转化数远低于曝光未转化数。样本不均严重影响了模型的效果,甚至影响到我们对模型好坏的判断,因为模型对占比比较高的类目准确率非常高,对占比很低的类目预估的偏差特别大,但是由于占比较高的类目对loss/metric影响较大,我们会认为得到了一个较优的模型。比如像是异常检测问题,我们直接返回没有异常,也能得到一个很高的准确率。

重采样

这个是目前使用频率最高的方式,可以对“多数”样本降采样,也可以对“少数”样本过采样,如下图所示:

cf82abcc-bd58-11eb-9e57-12bb97331649.png

重采样的缺点也比较明显,过采样对少数样本“过度捕捞”,降采样会丢失大量信息。

重采样的方案也有很多,最简单的就是随机过采样/降采样,使得各个类别的数量大致相同。还有一些复杂的采样方式,比如先对样本聚类,在需要降采样的样本上,按类别进行降采样,这样能丢失较少的信息。过采样的话,可以不用简单的copy,可以加一点点“噪声”,生成更多的样本。

Tomek links

Tomek连接指的是在空间上“最近”的样本,但是是不同类别的样本。删除这些pair中,占大多数类别的样本。通过这种降采样方式,有利于分类模型的学习,如下图所示:

cf95388c-bd58-11eb-9e57-12bb97331649.png

SMOTE

这个方法可以给少数样本做扩充,SMOTE在样本空间中少数样本随机挑选一个样本,计算k个邻近的样本,在这些样本之间插入一些样本做扩充,反复这个过程,知道样本均衡,如下图所示:

cfa3f39a-bd58-11eb-9e57-12bb97331649.png

NearMiss

这是个降采样的方法,通过距离计算,删除掉一些无用的点。

NearMiss-1:在多数类样本中选择与最近的3个少数类样本的平均距离最小的样本。

NearMiss-2:在多数类样本中选择与最远的3个少数类样本的平均距离最小的样本。

NearMiss-3:对于每个少数类样本,选择离它最近的给定数量的多数类样本。

NearMiss-1考虑的是与最近的3个少数类样本的平均距离,是局部的;NearMiss-2考虑的是与最远的3个少数类样本的平均距离,是全局的。NearMiss-1方法得到的多数类样本分布也是“不均衡”的,它倾向于在比较集中的少数类附近找到更多的多数类样本,而在孤立的(或者说是离群的)少数类附近找到更少的多数类样本,原因是NearMiss-1方法考虑的局部性质和平均距离。NearMiss-3方法则会使得每一个少数类样本附近都有足够多的多数类样本,显然这会使得模型的精确度高、召回率低。

评估指标

为了避免对模型的误判,避免使用Accuracy,可以用confusion matrix,precision,recall,f1-score,AUC,ROC等指标。

惩罚项

对少数样本预测错误增大惩罚,是一个比较直接的方式。

使用多种算法

模型融合不止能提升效果,也能解决样本不均的问题,经验上,树模型对样本不均的解决帮助很大,特别是随机森林,Random Forest,XGB,LGB等。因为树模型作用方式类似于if/else,所以迫使模型对少数样本也非常重视。

正确的使用K-fold

当我们对样本过采样时,对过采样的样本使用k-fold,那么模型会过拟合我们过采样的样本,所以交叉验证要在过采样前做。在过采样过程中,应当增加些随机性,避免过拟合。

使用多种重采样的训练集

这种方法可以使用更多的数据获得一个泛化性较强的模型。用所有的少数样本,和多种采样的多数样本,构建多个模型得到多个模型做融合,可以取得不错的效果。

重采样使用不同rate

这个方法和上面的方法很类似,尝试使用各种不同的采样率,训练不同的模型。

没有什么解决样本不均最好的方法,以上内容也没有枚举出所有的解决方案,最好的方案就是尝试使用各种方案。

原文标题:对“样本不均衡”一顿操作

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50337

    浏览量

    266977
  • 模型
    +关注

    关注

    1

    文章

    3822

    浏览量

    52276
  • 深度学习
    +关注

    关注

    73

    文章

    5608

    浏览量

    124637

原文标题:对"样本不均衡"一顿操作

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    登临科技成功获选人工智能赛道样本企业

    近日,中央广播电视总台首届《直通未来年度盛典》在央视财经频道播出。盛典以“未来的产业 产业的未来”为主题,展示未来产业样本,分享新兴技术产业化模式,描绘中国经济发展新图景。
    的头像 发表于 02-26 15:59 873次阅读

    电机转子磁场不均匀的原因有哪些?

    电机转子是电机的核心部件,其负责将电能转化为机械能,实现电动机的工作。在电机转子的运转过程中,磁场是其较为关键的因素之一。然而,由于各种因素的影响,转子磁场不均匀已成为电机运行中的高频问题,若未及
    的头像 发表于 12-30 08:46 679次阅读

    TDK 2022样本套件中的NTC热敏电阻:工业温度测量的理想之选

    TDK 2022样本套件中的NTC热敏电阻:工业温度测量的理想之选 作为电子工程师,在工业应用的温度测量设计中,选择合适的NTC热敏电阻至关重要。TDK推出的2022样本套件中的NTC热敏电阻,为
    的头像 发表于 12-26 14:40 437次阅读

    TDK PTC热敏电阻:低压应用加热元件样本套件解析

    TDK PTC热敏电阻:低压应用加热元件样本套件解析 在电子设备的设计中,加热元件的选择至关重要,尤其是在低压应用场景下。今天我们来详细了解一下TDK的PTC热敏电阻加热元件样本套件,它为低压
    的头像 发表于 12-25 16:55 1187次阅读

    无线倾角传感器在货架监测中应对长期载荷不均导致的隐性形变

    直川科技无线倾角传感器以高精度传感、长期数据追踪与智能预警算法,将载荷不均导致的隐性形变转化为可量化的风险指标。其价值在于通过持续监测替代被动响应,帮助企业从源头上规避因缓慢形变引发的结构性风险,为仓储安全提供前瞻性保障。
    的头像 发表于 12-09 09:19 762次阅读
    无线倾角传感器在货架监测中应对长期载荷<b class='flag-5'>不均</b>导致的隐性形变

    经世智能复合机器人,助力实验室检测样本上下料,提升实验效率

    在生命科学、医药研发、环境监测等前沿领域的实验室中,样本检测的准确性与时效性直接关系到实验成果的产出效率。然而,传统人工进行检测样本上下料时,常面临“样本种类繁杂易混淆、微量样本操作误
    的头像 发表于 11-18 13:43 2012次阅读
    经世智能复合机器人,助力实验室检测<b class='flag-5'>样本</b>上下料,提升实验效率

    多颗MOS并联时热分布不均,导致个别器件过热失效的原因与对策

    在现场常遇到这样的问题:虽然设计理论上电流均分,但实测发现某颗MOS温度明显偏高,最终提前热失效。这种“热分布不均”的现象是并联设计中最常见、也最容易被忽视的隐患
    的头像 发表于 10-22 10:17 680次阅读
    多颗MOS并联时热分布<b class='flag-5'>不均</b>,导致个别器件过热失效的原因与对策

    何解决陶瓷管壳制造中的工艺缺陷

    陶瓷管壳制造工艺中的缺陷主要源于材料特性和工艺控制的复杂性。在原材料阶段,氧化铝或氮化铝粉体的粒径分布不均会导致烧结体密度差异,形成显微裂纹或孔隙;而金属化层与陶瓷基体的热膨胀系数失配,则会在高温循环中引发界面剥离。
    的头像 发表于 10-13 15:29 1252次阅读
    如<b class='flag-5'>何解</b>决陶瓷管壳制造中的工艺缺陷

    【新启航】碳化硅衬底 TTV 厚度不均匀性测量的特殊采样策略

    摘要 本文聚焦碳化硅衬底 TTV 厚度不均匀性测量需求,分析常规采样策略的局限性,从不均匀性特征分析、采样点布局优化、采样频率确定等方面提出特殊采样策略,旨在提升测量效率与准确性,为碳化硅衬底
    的头像 发表于 08-28 14:03 806次阅读
    【新启航】碳化硅衬底 TTV 厚度<b class='flag-5'>不均</b>匀性测量的特殊采样策略

    碳化硅衬底 TTV 厚度不均匀性测量的特殊采样策略

    摘要 本文聚焦碳化硅衬底 TTV 厚度不均匀性测量需求,分析常规采样策略的局限性,从不均匀性特征分析、采样点布局优化、采样频率确定等方面提出特殊采样策略,旨在提升测量效率与准确性,为碳化硅衬底
    的头像 发表于 08-27 14:28 1275次阅读
    碳化硅衬底 TTV 厚度<b class='flag-5'>不均</b>匀性测量的特殊采样策略

    智慧实验室行业|复合机器人样本转运及上下料解决方案

    经世智能复合机器人在智慧实验室行业主要应用于实验样本自动化转运、高通量实验流程衔接、危险物料与废弃物处理等环节,通过“AGV移动底盘+协作机械臂+视觉系统”一体化控制方案实现高效自动化作业。机器人
    的头像 发表于 08-14 09:40 1429次阅读
    智慧实验室行业|复合机器人<b class='flag-5'>样本</b>转运及上下料解决方案

    太阳光模拟器丨辐照不均匀度的定义和标准

    在材料光电性能表征、新能源器件研发及空间环境模拟等前沿领域,太阳光模拟器已成为模拟真实光照环境的核心工具。辐照不均匀度作为衡量太阳光模拟器性能的关键指标,直接影响测试结果的准确性与可靠性。本文将结合
    的头像 发表于 07-24 10:23 947次阅读
    太阳光模拟器丨辐照<b class='flag-5'>不均</b>匀度的定义和标准

    三防漆涂覆不均匀怎么解决

    三防漆涂覆不均匀是常见问题,主要表现为局部堆积、边缘漏涂、元器件周围厚薄不一,直接影响防护效果。这种问题并非单纯因操作不当,而是漆料、设备、基材等多环节协同作用的结果,针对性解决才能让涂层均匀致密
    的头像 发表于 07-18 17:04 976次阅读
    三防漆涂覆<b class='flag-5'>不均</b>匀怎么解决

    嵌入式AI技术漫谈:怎么为训练AI模型采集样本数据

    Q 需要为嵌入式AI模型提供多少样本数据? 我在向客户介绍如何使用AI方法设计一款客户产品时,客户理解,AI嵌入式项目的开发都是围绕数据展开的,如此,我经常会被问到这样的问题:客户的工程师需要采集
    的头像 发表于 06-11 16:30 1549次阅读

    设备需求极致紧凑的空间体验,我们该如何解决?

    在自动化集成过程,往往会碰到设备对控制系统体积有极致要求的情况,面对这样的挑战,如何解决?项目背景与需求分析在自动化集成过程,往往会碰到设备对控制系统体积有极致要求的情况,面对这样的挑战,如何解
    的头像 发表于 05-19 11:43 542次阅读
    设备需求极致紧凑的空间体验,我们该如<b class='flag-5'>何解</b>决?