0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

汤新加坡团队 针对长尾数据分布提出了视觉识别方案

ss 来源:学术头条 作者:学术头条 2020-11-25 17:05 次阅读

导读:在NeurIPS 2020上,商汤新加坡团队提出的Balanced-Meta Softmax (BALMS), 针对真实世界中常见的长尾数据分布提出了新的视觉识别方案。在优化目标方面,BALMS 提出一种新的损失函数,Balanced Softmax,来修正长尾设定下因训练与测试标签分布不同而导致的偏差。在优化过程方面,BALMS提出 Meta Sampler来自动学习最优采样率以配合Balanced Softmax,避免过平衡问题。BALMS在长尾图像分类与长尾实例分割的共四个数据集上取得SOTA表现。这项研究也被收录为ECCV LVIS workshop的spotlight。

论文名称: Balanced Meta-Softmax for Long-Tailed Visual Recognition

问题和挑战

真实世界中的数据分布大多符合长尾分布:常见类比占据了数据集中的主要样本,而大量的罕见类别只在数据集中少量出现。例如一个动物图片数据集中,宠物猫的图片数量可能远远超过熊猫的图片数量。

由于长尾现象对算法落地造成了很大的挑战,视觉社区对这一问题的关注日渐增加,近年陆续推出了一些长尾数据集,例如大规模实例分割数据集LVIS。我们发现长尾问题的难点主要存在于以下两个方面:

1)优化目标。根据长尾问题的设定,训练集是类别不均衡的。然而主流的指标,如mean AP (mAP),衡量全部类别上的平均精度,因此鼓励算法在类别平衡的测试集上取得较好的表现。这导致了训练与测试时标签分布不同的问题,我们称之为标签分布迁移。

2)优化过程。罕见类别在模型训练过程中很少出现,因此无法在优化过程中提供足够的梯度。这使得即使我们有了一个较好的优化目标,也很难使模型收敛到对应的全局最优。

方法介绍

1. Balanced Softmax

Softmax函数常常被用来将模型输出转化为物体属于每个类别的条件概率。

应用贝叶斯定理可以发现常规的Softmax回归会受到标签分布迁移的影响,并作出带偏差的估计。这个偏差导致Softmax回归出的分类器更倾向于认为样本属于常见类别。

举一个简单的例子,考虑这样一个任务:通过性别来分类猫和狗。这个任务看起来是无法完成的,因为我们知道性别在猫和狗上是均匀分布的。无论猫还是狗,都有50%的可能性是雌性和50%的可能性是雄性,因此只靠性别我们无法区别猫和狗。

有趣的是,当我们的训练数据是类别不平衡的时,比如有90%的猫和10%的狗,我们的估计就会出现偏差:这时无论是雄性还是雌性,我们都会倾向于认为它是一只猫。在这样的训练数据上学习到的分类器就会天然带有对常见类别的偏爱。

为了避免这个偏差,我们从多项分布的Exponential Family形式出发重新对Softmax进行了推导并显式考虑了标签分布迁移,得到了适合长尾问题的Balanced Softmax。同时,我们发现Balanced Softmax可以近似地最小化长尾设定下的泛化错误上界。

为了分析Balanced Softmax的效果,我们将模型在测试集上预测的分数在每个类别上累加,用来计算模型预测的标签分布。理想情况下,模型在测试集上预测出的标签分布应该是平衡的。在下图中我们对不同模型的预测类别进行了可视化,类别按照出现频率降序排列,第0类为出现次数最多的类。我们发现蓝色线代表的常规Softmax明显地偏向于常见类别,橙色线代表的Equalization Loss [1] 通过去除某阈值以下罕见类别的负样本梯度缓解了这一问题,而红色线代表的Balanced Softmax则进一步达到了最平衡的预测类别分布。

2. 元采样器Meta Sampler

虽然我们得到了一个适合长尾问题的理想的优化目标,优化过程本身依然充满挑战:罕见类别只能在训练中出现极少次数,因此无法很好地贡献到训练梯度。解决这一问题的最常见的方法是类别均衡采样 (CBS)[2],也就是对每个类别采样同样数量的样本来组成训练批次。然而,实验表明直接将Balanced Softmax与CBS一起使用会导致模型表现下降,于是我们对两者一起使用时的梯度进行了分析。在假设接近收敛时,我们有:

理想情况下每个类别的梯度的权重应和类别内样本数量成反比,但上式中的权重为和类别内样本数量成平方反比。我们将这个现象称为过平衡问题。

下图展示了一个对过平衡问题的可视化。这是一个类别不平衡的二维数据三分类问题,三个类别分别为红、黄、蓝,样本数量分别为10000、100和1。可以发现Balanced Softmax和CBS一起使用时,优化过程会被蓝色的罕见类别主导。

为了解决过平衡问题,我们提出了Meta Sampler(元采样器),一种可学习版本的CBS。Meta Sampler使用元学习的方法,显式地学习当前最佳的采样率,从而更好地配合Balanced Softmax的使用。

下图展示了我们对不同模型预测的标签分布进行的可视化。其中,紫色线代表的Balanced Softmax与CBS的组合由于过平衡问题,明显地偏向于尾部类别。而红色线代表的Balanced Softmax与Meta Sampler的组合则很好地解决了这一问题,最终取得了最为均衡的标签分布。

实验结果

我们在图像分类(CIFAR-10/100-LT,ImageNet-LT,Places-LT)与实例分割(LVIS-v0.5)两个任务上分别进行了实验验证。实验结果显示了Balanced Softmax和Meta Sampler对模型表现都有明显的贡献。两者的组合,Balanced Meta-Softmax (BALMS),在这两个任务上都达到或超过了SOTA结果,尤其在最具挑战性的LVIS数据集上大幅超过了之前的SOTA结果。

这项研究也被收录为ECCV LVIS workshop的Spotlight,关于LVSI-v1.0的相关实验结果可以在LVSI workshop主页上找到(Team Innova)。

结语

BALMS对长尾问题下的概率建模以及采样策略进行了探讨。我们发现常用的Softmax回归在存在标签分布迁移时会出现估计偏差,并提出了Balanced Softmax来避免这个偏差。另一方面,我们发现类别均衡采样器在与Balanced Softmax一起使用时会导致过平衡问题,于是提出元采样器来显式学习最优采样策略。我们的解决方案在长尾图像分类与长尾实例分割任务上均得到了验证。欢迎关注我们的开源代码库,希望BALMS可以成为未来长尾学习的良好基线。

责任编辑:xj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6511

    浏览量

    87588
  • 视觉识别
    +关注

    关注

    3

    文章

    87

    浏览量

    16504
收藏 人收藏

    评论

    相关推荐

    解决方案|基于3D视觉技术的铝合金板件刷油烘干自动化上下料

    针对铝合金板件刷油烘干上下料过程中的自动化需求,我们提出了一套基于3D视觉引导的解决方案。该方案通过引入先进的3D
    的头像 发表于 04-20 17:45 51次阅读
    解决<b class='flag-5'>方案</b>|基于3D<b class='flag-5'>视觉</b>技术的铝合金板件刷油烘干自动化上下料

    解决方案 | 3D视觉引导车门内板上料

    在现代汽车制造工业中,车门内板的上料过程对生产效率与产品质量至关重要。为了提高生产线的自动化水平,减少人工干预,同时确保上料的精准性和高效性,我们提出了视觉引导车门内板上料的解决方案
    的头像 发表于 03-28 17:15 143次阅读
    解决<b class='flag-5'>方案</b> | 3D<b class='flag-5'>视觉</b>引导车门内板上料

    AI视觉识别有哪些工业应用

    AI视觉识别涵盖多种应用,如人脸识别、目标检测和识别、图像分割、行为识别、视频分析等。本篇就简单介绍一下AI
    的头像 发表于 11-27 18:05 519次阅读
    AI<b class='flag-5'>视觉</b><b class='flag-5'>识别</b>有哪些工业应用

    深技大科研团队首次提出基于超光速等离子体尾波场产生阿秒脉冲的方案

    近日,深圳技术大学阮双琛教授和周沧涛教授团队在国际上首次提出基于超光速等离子体尾波场产生阿秒脉冲、亚周期相干光激波辐射的物理方案,并阐释了一种由电子集体作用主导的全新相干辐射产生机制。
    的头像 发表于 11-09 10:40 349次阅读
    深技大科研<b class='flag-5'>团队</b>首次<b class='flag-5'>提出</b>基于超光速等离子体尾波场产生阿秒脉冲的<b class='flag-5'>方案</b>

    请问视觉识别用什么处理芯片比较好?

    视觉识别领域有许多新的应用。比如自动驾驶。我们机器人比赛做巡线如果用视觉,就比较可靠。不知道谁有这方面的经验,推荐一个好用的主板及方案
    发表于 11-08 07:43

    低压无功补偿在分布式光伏现场中的应用

    摘要:分布式光伏电站由于建设时间短、技术成熟、收益明显而发展迅速,但光伏并网引起用户功率因数异常的问题也逐渐凸显。针对分布式光伏电站接入配电网后功率因数降低的问题,本文分析了低压无功补偿装置补偿失效的原因,并提出了一种有效的解决
    的头像 发表于 11-01 16:29 212次阅读

    MHz高频电感分布电容建模及优化设计方案

    本成果针对高频电感中的分布电容问题提出了建模及优化设计方案。探究了磁芯内部电场分布规律及建模方法;揭示了浮空磁芯电位的求解方法,推导了磁芯与
    发表于 10-30 10:44 305次阅读
    MHz高频电感<b class='flag-5'>分布</b>电容建模及优化设计<b class='flag-5'>方案</b>

    求助,用python实现机器视觉识别硬件那个好?

    要做个东西,需要视觉识别
    发表于 10-30 07:50

    基于ZigBee的分布式井盖监控系统

    随着我国现代经济发展水平的不断提高,城市井盖数目逐渐增加。由于较多井盖被盗,致使路面形成陷阱,危害到过往车辆和行人安全。本文提出了一种基于 ZigBee无线网络的智能安全监控系统,解决分布式布控困难
    发表于 09-18 08:46

    新唐针对BMS提出完整解决方案

    128.7万根,年增35.0%。而其中电池管理BMS的需求也迅速发展。 新唐针对BMS提出完整解决方案,由NuMicro® NUC1311作为主控端,下达命令给AFE控制电池电量,将电池电量信息回传给
    发表于 08-25 08:53

    新唐针对BMS提出完整解决方案

    为128.7万根,年增35.0%。而其中电池管理BMS的需求也迅速发展。 新唐针对BMS提出完整解决方案,由NuMicro® NUC1311作为主控端,下达命令给AFE控制电池电量,将电池电量信息回传给上位机如仪表显示当前电量或
    的头像 发表于 08-21 11:15 491次阅读

    机器视觉与农业智能感知的科研项目汇总

    。 一、基于改进ResNet50模型的自然环境下苹果物候期识别 参与机构:四川省农业科学院农业信息与农村经济研究所 针对传统方法对自然环境下苹果物候期图像识别精度低、覆盖面不全等问题,该团队
    的头像 发表于 08-10 16:43 327次阅读

    机器视觉与生物特征识别的关系

    机器视觉与生物特征识别的关系 机器视觉和生物特征识别是目前科技领域非常热门的方向。机器视觉是指利用电子设备来对物体进行
    的头像 发表于 08-09 17:43 493次阅读

    CVPR 2023 | 清华大学提出LiVT,用视觉Transformer学习长尾数据

    Transformer 处理长尾分布数据的能力和特性,还有待进一步挖掘。 目前,已有的长尾识别模型很少直接利用
    的头像 发表于 06-18 21:30 344次阅读
    CVPR 2023 | 清华大学<b class='flag-5'>提出</b>LiVT,用<b class='flag-5'>视觉</b>Transformer学习<b class='flag-5'>长尾数据</b>

    华为诺亚提出VanillaNet:一种新视觉Backbone,极简且强大!

    后来,Princeton大学的邓嘉团队提出了深度为12的网络并在ImageNet数据集上达到了80.7%,但引入的注意力导致了额外的跳过连接,仍为达到极限推理效率。对ParNet一文感兴趣的同学可查
    的头像 发表于 05-26 16:13 1924次阅读
    华为诺亚<b class='flag-5'>提出</b>VanillaNet:一种新<b class='flag-5'>视觉</b>Backbone,极简且强大!