0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过Logit调整的长尾学习

倩倩 来源:GiantPandaCV 作者:GiantPandaCV 2022-09-05 14:28 次阅读

1. 论文信息

标题:Long-Tail Learning via Logit Adjustment

作者:Aditya Krishna Menon, Sadeep Jayasumana, Ankit Singh Rawat, Himanshu Jain, Andreas Veit, Sanjiv Kumar (Google Research)

原文链接:https://arxiv.org/abs/2007.07314

代码链接:https://github.com/google-research/google-research/tree/master/logit_adjustment

2. 介绍

在传统的分类和识别任务中,训练数据的分布往往都受到了人工的均衡,即不同类别的样本数量无明显差异,如最有影响力的ImageNet,每种类别的样本数量就保持在1300张左右。

aece2de2-2cd9-11ed-ba43-dac502259ad0.jpg

在实际的视觉相关任务中,数据都存在如上图所示的长尾分布,少量类别占据了绝大多少样本,如图中Head部分,大量的类别仅有少量的样本,如图中Tail部分。解决长尾问题的方案一般分为4种:

重采样 (Re-sampling):采样过程中采样不同的策略,如对tail中的类别样本进行过采样,或者对head类别样本进行欠采样。

重加权 (Re-weighting):在训练过程中给与每种样本不同的权重,对tail类别loss设置更大的权重,这样有限样本数量。

新的学习策略 (Learning strategy):有专门为解决少样本问题涉及的学习方法可以借鉴,如:meta-learning、transfer learning。另外,还可以调整训练策略,将训练过程分为两步:第一步不区分head样本和tail样本,对模型正常训练;第二步,设置小的学习率,对第一步的模型使用各种样本平衡的策略进行finetune。

其实就笔者喜欢的风格而言,我对重加权这一方向的工作更为喜欢,因为通过各种统计学上的结论,来设计很好的loss改进来解决长尾/不均衡分布问题,我喜欢这类研究的原因是,他们(大部分)实现简单,往往只需几行代码修改下loss,就可以取得非常有竞争力的结果,因为简单所以很容易运用到一些复杂的任务中。

而从“奥卡姆剃刀”来看,我觉得各种迁移模型的理念虽然非常好,从头部常见类中学习通用知识,然后迁移到尾部少样本类别中,但是往往会需要设计复杂的模块,有增加参数实现过拟合的嫌疑,我认为这其实是把简单问题复杂化。我觉得从统计方面来设计更加优美,因此本文来介绍一篇我非常喜欢的从统计角度出发的工作。这篇论文来自Google Research,他们提供了一种logit的调整方法来应对长尾分布的问题。由于研究风格更偏向 machine learning, 所以论文风格更偏向统计类。

本文首先总结了对于logit的调整方法:

聚焦于测试阶段:对学习完的logit输出进行处理(post-hoc normalization),根据一些先验假设进行调整。

聚焦于训练阶段:在学习中调整loss函数,相对平衡数据集来说,调整优化的方向。

aeddeafc-2cd9-11ed-ba43-dac502259ad0.png

如上图,这两种方法都有许多较为优秀的工作,但是文中描述了这两种方法的几种限制:

weight normalization非常依赖于weight的模长会因为class的data数量稀少而变小,然而这种假设非常依赖于优化器的选择

直接修改loss进行重加权,也会影响模型的表征学习,从而导致优化过程不稳定,同时模型可能对尾部类过拟合,伤害了模型表征学习能力。

论文的motivation就是克服这些缺点,让不同类(head and tail classed)之间的logit能有一个相对较大的margin,设以一个consistent的loss,来让模型的性能更好。

3. 问题设定和过往方法回顾

3.1 Problem Settings

论文先从统计学的角度定义了一下这个problem settings,其实就是训练一个映射,让这个scorer的误分类损失最小:

但是类别不平衡的学习的setting导致P(y)分布是存在高度地skewed,使得许多尾部类别标签出现的概率很低。在这里,错误分类的比例就不是一个合适的metric: 因为模型似乎把所有的尾部类别都分类成头部类别也更够取得比较好的效果。所为了解决这个问题,一个自然的选择是平衡误差,平均每个类的错误率,从而让测试计算出的metric不是有偏的。

论文总结出了一个比较general的loss形式:

这里 是类别 yy 的权重;是另一个超参, 用来控制 margin 的大小。

3.2Post-hoc weight normalization

由于头部类别多,容易过拟合,自然会对头部类别overconfidence,所以我们需要通过一定的映射来调整logit。具体到调整的策略,自然是让大类置信度低一点,小类置信度高一点。

for , where and . Intuitively, either choice of upweights the contribution of rare labels through weight normalisation. The choice is motivated by the observations that tends to correlate with . Further to the above, one may enforce during training.

这里引用了一些其他做long-tail learning的论文,可以参考以便更好地对这一块进行理解。

3.3 Loss modification

至于对于loss的修改,就是很直接了在前面加一个权重,对于的取值,自然就是各个工作重点关注和改进的地方。

af02f478-2cd9-11ed-ba43-dac502259ad0.png

论文给予原有的各种方法各种比较全面的总结。

4. 方法

首先进行Post-hoc logit adjustment:

其实等号左边就是一个根据类别的样本数进行re-weighting。但是为了在exp的线性变换加上temperature时候不影响排序问题,所以把等号右边变成上式,通过这种方式放缩不会导致原本的排序出现问题。从而使得重加权仍能够给尾部类更高的权重。

af2dc766-2cd9-11ed-ba43-dac502259ad0.png

把loss改写成易于理解的方式就如下:

下面这个更为直接的loss被成为为pairwise margin loss,它可以把 y 与 y' 之间的margin拉大。

然后就是实现结合:

af47e862-2cd9-11ed-ba43-dac502259ad0.png

通过一些特殊的取值和另外的trick,可以实现两者的结合。

5. 实验结果

af5f3152-2cd9-11ed-ba43-dac502259ad0.png

这张图非常有意思,可以看出两个设计理念非常有效果。

af842f0c-2cd9-11ed-ba43-dac502259ad0.png

afa47d2a-2cd9-11ed-ba43-dac502259ad0.png

可以发现该方法在头部类和尾部类的性能都有所提升。

6. 结论

摘要:这篇写得很好的论文重新审视了logit调整的想法,以解决长尾问题。本文首先建立了一个统计框架,并以此为基础提出了两种有效实现对数平差的方法。他们通过在合成和自然长尾数据集上使用几个相关基线对其进行测试,进一步证明了这种方法的潜力。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 线性
    +关注

    关注

    0

    文章

    188

    浏览量

    24967
  • 模型
    +关注

    关注

    1

    文章

    2701

    浏览量

    47656
  • 数据集
    +关注

    关注

    4

    文章

    1176

    浏览量

    24340
收藏 人收藏

    评论

    相关推荐

    浅析 KV 存储之长尾时延问题,探寻行业更优解决方案!

    、主从同步等操作时,为不影响主线程,采用 fork 创建子线程去执行,但由于主线程仍在提供服务,触发 Copy-On-Write 时会引起性能抖动,导致长尾时延。 华为云 GeminiDB(原华
    的头像 发表于 04-08 18:28 660次阅读
    浅析 KV 存储之<b class='flag-5'>长尾</b>时延问题,探寻行业更优解决方案!

    如何通过调整PIN LIN上的PWM占空比来控制电机速度吗?

    有人知道如何通过调整 PIN LIN 上的 PWM 占空比来控制电机速度吗?
    发表于 01-26 07:11

    adv7401怎样调整输出图像垂直位置,通过哪个寄存器?

    adv7401怎样调整输出图像垂直位置,通过哪个寄存器
    发表于 12-07 07:11

    电压调整率是什么?电压调整率测试方法

    稳定性非常重要。 电压调整率测试方法主要包括两种:动态测试和静态测试。 动态测试是通过向电源加载突发负载,并观察电源输出电压的变化来评估电压调整率。具体测试步骤如下: 1. 准备测试设备:测试电源、负载电阻、负载控制
    的头像 发表于 11-10 15:26 2043次阅读

    如何通过动态电压调整(DVS)来实现精密电压调节?

    本文探讨如何通过动态电压调整(DVS)来实现精密电压调节。DVS是一种根据预期的负载瞬变将输出电压稍微调高或调低的过程。本文介绍如何使用特定IC实现可靠的电压监控。
    的头像 发表于 11-08 13:04 628次阅读
    如何<b class='flag-5'>通过</b>动态电压<b class='flag-5'>调整</b>(DVS)来实现精密电压调节?

    NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见

    2023 论文 《 Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias
    的头像 发表于 10-30 11:05 228次阅读
    NeurIPS 2023 | 大模型时代自监督预训练的隐性<b class='flag-5'>长尾</b>偏见

    rtc实时怎么通过按键操作调整时间?

    通过对RTC_Set(u16 syearu8 smonu8 sdayu8 houru8 minu8 sec)设置调整时间,年月日可以改,时分秒改不了,但是复位或者待机重启后时间又初始化了。想请教怎么按键操作修改时间且复位或待机不会初始化修改后的时间。
    发表于 09-27 07:54

    硬件电路如何设计调整内核供电

    DVFS 即动态电压频率调整,针对 SOC主频的不同,需要动态调整 SOC 的 Core Power。通过调整内核供电电压,实现SOC主频的调整
    的头像 发表于 09-19 17:01 427次阅读
    硬件电路如何设计<b class='flag-5'>调整</b>内核供电

    贴片机的调整

    贴片机的种类很多,相应调整有很多,按功能分有6大类的调整:①旋转头吸嘴部——吸嘴编码检测传感器的调整、贴装高度调整、不良元件排出压力调整、元
    发表于 09-19 15:12 581次阅读

    怎么调整OLED透明屏的显示效果

    OLED透明屏是一种新型的显示技术,具有高亮度、高对比度、快速响应和透明度高等特点,广泛应用于智能手机、电视、汽车显示屏等领域。调整OLED透明屏的显示效果需要通过以下几个方面进行调整。 亮度调节
    的头像 发表于 08-22 16:23 1042次阅读

    机器学习和深度学习的区别

    的区别。 1. 机器学习 机器学习是指通过数据使机器能够自动地学习和改进性能的算法。机器学习是人工智能的一个重要分支,它
    的头像 发表于 08-17 16:11 3262次阅读

    通过电池电压测量的例程学习ADC的使用

    你好,我是爱吃鱼香ROS的小鱼。上面两节通过LED和按键学习了GPIO的输出和输入。
    的头像 发表于 07-03 10:57 2042次阅读
    <b class='flag-5'>通过</b>电池电压测量的例程<b class='flag-5'>学习</b>ADC的使用

    CVPR 2023 | 清华大学提出LiVT,用视觉Transformer学习长尾数据

    背景 在机器学习领域中,学习不平衡的标注数据一直是一个常见而具有挑战性的任务。近年来,视觉 Transformer 作为一种强大的模型,在多个视觉任务上展现出令人满意的效果。然而,视觉
    的头像 发表于 06-18 21:30 339次阅读
    CVPR 2023 | 清华大学提出LiVT,用视觉Transformer<b class='flag-5'>学习</b><b class='flag-5'>长尾</b>数据

    认识电力调整

    今天合泉带大家一起来认识一下 电力调整器! 合泉电力调整器客户案例 电力调整器又称功率调节器,或简称调功器,英文缩写为SCR 电力调整器是一种通过
    的头像 发表于 05-19 10:35 1223次阅读
    认识电力<b class='flag-5'>调整</b>器

    通过机器学习发现规则

    希望机器学习将取代基于规则的系统是没有根据的。后者通常比复杂的机器学习模型更高效、更便宜。由于企业总是对效率视而不见,基于规则的系统将继续存在。
    的头像 发表于 05-04 11:13 455次阅读