0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何解决样本不均的问题?

深度学习自然语言处理 来源:炼丹笔记 作者:时晴 2021-05-26 09:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

样本不均的问题大家已经很常见了,我们总是能看到某一个类目的数量远高于其他类目,举个例子,曝光转化数远低于曝光未转化数。样本不均严重影响了模型的效果,甚至影响到我们对模型好坏的判断,因为模型对占比比较高的类目准确率非常高,对占比很低的类目预估的偏差特别大,但是由于占比较高的类目对loss/metric影响较大,我们会认为得到了一个较优的模型。比如像是异常检测问题,我们直接返回没有异常,也能得到一个很高的准确率。

重采样

这个是目前使用频率最高的方式,可以对“多数”样本降采样,也可以对“少数”样本过采样,如下图所示:

cf82abcc-bd58-11eb-9e57-12bb97331649.png

重采样的缺点也比较明显,过采样对少数样本“过度捕捞”,降采样会丢失大量信息。

重采样的方案也有很多,最简单的就是随机过采样/降采样,使得各个类别的数量大致相同。还有一些复杂的采样方式,比如先对样本聚类,在需要降采样的样本上,按类别进行降采样,这样能丢失较少的信息。过采样的话,可以不用简单的copy,可以加一点点“噪声”,生成更多的样本。

Tomek links

Tomek连接指的是在空间上“最近”的样本,但是是不同类别的样本。删除这些pair中,占大多数类别的样本。通过这种降采样方式,有利于分类模型的学习,如下图所示:

cf95388c-bd58-11eb-9e57-12bb97331649.png

SMOTE

这个方法可以给少数样本做扩充,SMOTE在样本空间中少数样本随机挑选一个样本,计算k个邻近的样本,在这些样本之间插入一些样本做扩充,反复这个过程,知道样本均衡,如下图所示:

cfa3f39a-bd58-11eb-9e57-12bb97331649.png

NearMiss

这是个降采样的方法,通过距离计算,删除掉一些无用的点。

NearMiss-1:在多数类样本中选择与最近的3个少数类样本的平均距离最小的样本。

NearMiss-2:在多数类样本中选择与最远的3个少数类样本的平均距离最小的样本。

NearMiss-3:对于每个少数类样本,选择离它最近的给定数量的多数类样本。

NearMiss-1考虑的是与最近的3个少数类样本的平均距离,是局部的;NearMiss-2考虑的是与最远的3个少数类样本的平均距离,是全局的。NearMiss-1方法得到的多数类样本分布也是“不均衡”的,它倾向于在比较集中的少数类附近找到更多的多数类样本,而在孤立的(或者说是离群的)少数类附近找到更少的多数类样本,原因是NearMiss-1方法考虑的局部性质和平均距离。NearMiss-3方法则会使得每一个少数类样本附近都有足够多的多数类样本,显然这会使得模型的精确度高、召回率低。

评估指标

为了避免对模型的误判,避免使用Accuracy,可以用confusion matrix,precision,recall,f1-score,AUC,ROC等指标。

惩罚项

对少数样本预测错误增大惩罚,是一个比较直接的方式。

使用多种算法

模型融合不止能提升效果,也能解决样本不均的问题,经验上,树模型对样本不均的解决帮助很大,特别是随机森林,Random Forest,XGB,LGB等。因为树模型作用方式类似于if/else,所以迫使模型对少数样本也非常重视。

正确的使用K-fold

当我们对样本过采样时,对过采样的样本使用k-fold,那么模型会过拟合我们过采样的样本,所以交叉验证要在过采样前做。在过采样过程中,应当增加些随机性,避免过拟合。

使用多种重采样的训练集

这种方法可以使用更多的数据获得一个泛化性较强的模型。用所有的少数样本,和多种采样的多数样本,构建多个模型得到多个模型做融合,可以取得不错的效果。

重采样使用不同rate

这个方法和上面的方法很类似,尝试使用各种不同的采样率,训练不同的模型。

没有什么解决样本不均最好的方法,以上内容也没有枚举出所有的解决方案,最好的方案就是尝试使用各种方案。

原文标题:对“样本不均衡”一顿操作

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261395
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51692
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123890

原文标题:对"样本不均衡"一顿操作

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    经世智能复合机器人,助力实验室检测样本上下料,提升实验效率

    在生命科学、医药研发、环境监测等前沿领域的实验室中,样本检测的准确性与时效性直接关系到实验成果的产出效率。然而,传统人工进行检测样本上下料时,常面临“样本种类繁杂易混淆、微量样本操作误
    的头像 发表于 11-18 13:43 1087次阅读
    经世智能复合机器人,助力实验室检测<b class='flag-5'>样本</b>上下料,提升实验效率

    【新启航】碳化硅衬底 TTV 厚度不均匀性测量的特殊采样策略

    摘要 本文聚焦碳化硅衬底 TTV 厚度不均匀性测量需求,分析常规采样策略的局限性,从不均匀性特征分析、采样点布局优化、采样频率确定等方面提出特殊采样策略,旨在提升测量效率与准确性,为碳化硅衬底
    的头像 发表于 08-28 14:03 481次阅读
    【新启航】碳化硅衬底 TTV 厚度<b class='flag-5'>不均</b>匀性测量的特殊采样策略

    碳化硅衬底 TTV 厚度不均匀性测量的特殊采样策略

    摘要 本文聚焦碳化硅衬底 TTV 厚度不均匀性测量需求,分析常规采样策略的局限性,从不均匀性特征分析、采样点布局优化、采样频率确定等方面提出特殊采样策略,旨在提升测量效率与准确性,为碳化硅衬底
    的头像 发表于 08-27 14:28 903次阅读
    碳化硅衬底 TTV 厚度<b class='flag-5'>不均</b>匀性测量的特殊采样策略

    智慧实验室行业|复合机器人样本转运及上下料解决方案

    经世智能复合机器人在智慧实验室行业主要应用于实验样本自动化转运、高通量实验流程衔接、危险物料与废弃物处理等环节,通过“AGV移动底盘+协作机械臂+视觉系统”一体化控制方案实现高效自动化作业。机器人
    的头像 发表于 08-14 09:40 947次阅读
    智慧实验室行业|复合机器人<b class='flag-5'>样本</b>转运及上下料解决方案

    太阳光模拟器丨辐照不均匀度的定义和标准

    在材料光电性能表征、新能源器件研发及空间环境模拟等前沿领域,太阳光模拟器已成为模拟真实光照环境的核心工具。辐照不均匀度作为衡量太阳光模拟器性能的关键指标,直接影响测试结果的准确性与可靠性。本文将结合
    的头像 发表于 07-24 10:23 549次阅读
    太阳光模拟器丨辐照<b class='flag-5'>不均</b>匀度的定义和标准

    三防漆涂覆不均匀怎么解决

    三防漆涂覆不均匀是常见问题,主要表现为局部堆积、边缘漏涂、元器件周围厚薄不一,直接影响防护效果。这种问题并非单纯因操作不当,而是漆料、设备、基材等多环节协同作用的结果,针对性解决才能让涂层均匀致密
    的头像 发表于 07-18 17:04 559次阅读
    三防漆涂覆<b class='flag-5'>不均</b>匀怎么解决

    嵌入式AI技术漫谈:怎么为训练AI模型采集样本数据

    Q 需要为嵌入式AI模型提供多少样本数据? 我在向客户介绍如何使用AI方法设计一款客户产品时,客户理解,AI嵌入式项目的开发都是围绕数据展开的,如此,我经常会被问到这样的问题:客户的工程师需要采集
    的头像 发表于 06-11 16:30 1071次阅读

    设备需求极致紧凑的空间体验,我们该如何解决?

    在自动化集成过程,往往会碰到设备对控制系统体积有极致要求的情况,面对这样的挑战,如何解决?项目背景与需求分析在自动化集成过程,往往会碰到设备对控制系统体积有极致要求的情况,面对这样的挑战,如何解
    的头像 发表于 05-19 11:43 304次阅读
    设备需求极致紧凑的空间体验,我们该如<b class='flag-5'>何解</b>决?

    西门子伺服电机简明样本

    西门子伺服电机简明样本
    发表于 04-14 15:36 2次下载

    当RFID技术遇上液氮罐——看如何解决“找管难”问题?

    传统液氮罐的存取过程需手动进行,存在样品管直接暴露在环境温度下的情况。样本暴露时间、暴露期的温度变化曲线无法监控和追溯;在取出选定样品管时往往连带其他样本暴露在环境温度下,长期的反复存取过程使其
    的头像 发表于 03-21 18:03 443次阅读
    当RFID技术遇上液氮罐——看如<b class='flag-5'>何解</b>决“找管难”问题?

    请问是否有任何OpenVINO™样本可以推断批次大小大于1的检测模型?

    是否有任何OpenVINO™样本可以推断批次大小大于 1 的检测模型?
    发表于 03-06 07:19

    在Visual Studio中运行Hello分类样本 ,仅在Visual Studio输出中收到错误消息,怎么解决?

    在 Visual Studio* 中运行 Hello 分类样本 ,仅在 Visual Studio* 输出中收到错误消息: Exception thrown
    发表于 03-05 08:16

    假设检验的功效和样本数量

    在假设检验中,我们会使用样本中的数据来描绘有关总体的结论。首先,我们会进行假设,这被称为原假设(以 H0 表示)。当您进行原假设时,您也需要定义备择假设 (Ha),其与原假设正相反。样本数据将用
    的头像 发表于 01-15 10:50 786次阅读

    ADS8556和ADS8568采集一个样本点最快支持多少nS?

    求教一下,有应用经验的给指导一下,ADS8556 和ADS8568 采集一个样本点最快支持多少nS,且两个相邻样本点的数据不能相互串扰。
    发表于 12-09 07:16

    磁极是如何解决磁集成产品电磁干扰的?

    磁集成后,有哪些新的电磁干扰源?该如何解决这些新的干扰源?磁极又是如何解决这些问题的? 磁集成后,EMC比分立磁性元件更难通过,到底是什么原因导致的?磁性元件企业又有哪些办法可以解决?今天我们采访
    的头像 发表于 12-06 11:27 1041次阅读
    磁极是如<b class='flag-5'>何解</b>决磁集成产品电磁干扰的?