0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型的闭集准确率与开集识别能力正相关的观点

倩倩 来源:GiantPandaCV 作者:GiantPandaCV 2022-09-09 09:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

参考一篇综述,首先介绍两个概念:

Close Set Recognition,闭集识别:指 训练集中的类别和测试集中的类别是一致的,例如最常用最经典的ImageNet-1k。所有在测试集中的图像的类别都在训练集中出现过,没有未知种类的图像。从AlexNet到VGG,再到ResNet,以及最近大火的Visual Transformer,都能够比较好的处理这一类别的任务。

Open Set Recognition,开集识别:指对一个在训练集上训练好的模型,当利用一个测试集(该测试集的中包含训练集中没有的类别)进行测试时,如果输入已知类别数据,输出具体的类别,如果输入的是未知类别的数据,则进行合适的处理(识别为unknown或者out-of-distribution)。例如在利用一个数据集训练好了一个模型可以对狗和人进行分类,而输入一张狗的图像,由于softmax这种方式的设定,模型可能会告诉你80%的概率为人,但显然这是不合理的,限制了模型泛化性能提升。而我们想要的结果,是当输入不为猫和人的图像(比如狗)时,模型输出为未知类别,输入人或猫图像,模型输出对应具体的类别。

3ab9d0de-2fde-11ed-ba43-dac502259ad0.png

由于现实场景中更多的是开放和非静态的环境,所以在模型部署中,经常会出现一些没有见过的情况,所以这种考虑开集检测的因素,对模型的部署十分有必要。那么模型在Close set和在Open set的表现是否存在一定的相关性呢?下面我们来了解一份ICLR 2021的工作来尝试理解和探索两者之间的关系。

在本文中,作者重新评估一些open set识别的方法,通过探索是否训练良好的闭集的分类器通过分析baseline的数据集,可以像最近的算法一样执行。要做到这一点,我们首先研究了分类器的闭集和开集性能之间的关系。

虽然人们可能期望更强的close set分类器过度拟合到train set出现的类别,因此在OSR中表现较差。其实最简单的方法也非常直观,就是‘maximum softmax probability (MSP) baseline,即经过softmax输出的最大的概率值。而该论文展示了在close set和open set上开放集的表现是高度相关的,这一点是非常关键的。而且展这种趋势在不同的数据集、目标以及模型架构中都是成立的。并在ImageNet-1k这个量级上的数据集进行评估,更能说明该方法的有效性。

但仅仅观察到这种现象,这种contribution虽然有意义,但可能也不足以支撑一篇顶会oral,所以自然要基于这一现象展开一些方法上的设计,来提升开集检测的表现。根据这一观察,论文提出一种通过改善close set性能的方式来进一步提升open set上的表现。

具体来说,我们引入了更多的增强、更好的学习率调度和标签平滑等策略,这些策略显著提高了MSP基线的close set和open set性能。我们还建议使用maximum logit score(MLS),而不是MSP来作为开放集指标。通过这些调整,可以在不改变模型结构的情况下,非常有效的提升模型open set状态下的识别性能。

3. 方法

3c2742e4-2fde-11ed-ba43-dac502259ad0.png

首先就是一张非常直观的图,在不用的数据集上,对OSR和CSR两个任务的表现进行比较。论文首先利用标准基准数据集上,选取三种有代表性的开放集识别方法,包括MSP,ARPL以及ARPL+CS。然后利用一个类似于VGG形态的的轻量级模型,在不同的分类数据集上进行检测。可以看到OSR和CSR两个任务的表现是呈现出高度的正相关的。

对于理论上的证明,论文选取了模型校准的角度来解读。直观地说,模型校准的目的是量化模型是否具有感知对象类别的能力,即是否可以把低置信度的预测与高错误率相关联。也就是说如果给了很低的置信度,而错误率又是很高的,那么就可以定义为模型没有被很好地校准。反之,则说明模型被很好地校准了。

3c5c5092-2fde-11ed-ba43-dac502259ad0.png

3c811c10-2fde-11ed-ba43-dac502259ad0.png

到目前为止,论文已经证明了在单一、轻量级架构和小规模数据集上封闭集和开放集性能之间的相关性——尽管我们强调它们是OSR文献中现有的标准基准。如上图,论文又在在大规模数据集(ImageNet-1k)上试验了一系列架构。和在CIFAR-10等小数据集一致,该数据集也存在上述的现象。

至于,获得更好的open set recognition上的表现,也就非常直接了。就是通过各种优化方式、训练策略的设计,让模型可以能够在close set上具有更好的性能。完整的细节和用于提高封闭集性能的方法的表格明细可以在论文,以及附录中更好地了解。

论文还提出一种新的评估close set性能的方式。以前的工作指出,开放集的例子往往比封闭集的例子具有更低的norm。因此,我们建议在开放集评分规则中使用最大对数,而不是softmax概率。Logits是深度分类器中最后一个线性层的原始输出,而softmax操作涉及到一个归一化,从而使输出可以被解释为一个概率向量的和为1。由于softmax操作将logits中存在的大部分特征幅度信息归一化,作者发现logits能带来更好的开放集检测结果。

3cae29b2-2fde-11ed-ba43-dac502259ad0.png

这种新的方式,改善了在所有数据集上的性能,并大大缩小了与最先进方法的差距,各数据集的AUROC平均绝对值增加了13.9%。如果以报告的baseline和当前最先进的方法之间的差异比例来计算,这意味着平均差异减少了87.2%。MLS方法还在TinyImageNet上取得了新的领先优势,比OpenHybrid高出3.3%。

另外,作者指出,目前的标准OSRbaseline评价方式有两个缺点:

它们都只涉及小规模的数据集;

它们缺乏对构成 "语义类 "的明确定义。

后者对于将开放集领域与其他研究问题,如out-of-distribution以及outlier的检测,进行区分非常重要。OSR旨在识别测试图像是否与训练类有语义上的不同,而不是诸如模型对其预测不确定或是否出现了低层次的distribution shift。所以作者基于这两个缺点,提出来了新的baseline用于评估open set的性能。具体关于数据集的细节,可以参考原文

4. 结论

在这篇文章中,作者给出了模型的闭集准确率与开集识别能力正相关的观点,同时通过实验验证了加强模型的闭集性能能够帮助我们获得更强的开集能力。对于 Open-Set Recognition 具有启发意义。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7366

    浏览量

    95185
  • 模型
    +关注

    关注

    1

    文章

    3879

    浏览量

    52355
  • 分类器
    +关注

    关注

    0

    文章

    153

    浏览量

    13871

原文标题:开集识别: A Good Closed-Set Classifier is All You Need

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能多模态与视觉大模型开发实战 - 2026必会

    提高数据的质量和一致性,为后续的模型训练做好准备。 模型训练是核心环节,学员们将使用预训练模型进行微调,以适应特定的应用场景。通过调整模型的参数和超参数,不断优化
    发表于 04-15 16:06

    【瑞萨AI挑战赛】手写数字识别模型在RA8P1 Titan Board上的部署

    (my_model, \"./mnist_model/my_model.pth\") 训练完成后,在测试上的准确率可达98%以上,满足手写数字识别的实际需求。 训练过程: 将训练好的模型
    发表于 03-15 20:42

    靠听诊器查故障?这套系统靠 “听声纹”,准确率 96%

    老技工的听诊器承载经验传承,但工业智能化时代,更需精准前置的科技手段。声振温协同监测系统的价值,不仅是96%的诊断准确率,更在于将故障预警从“事后”推向“事前”,实现运维模式从被动抢修到主动预防的转变。
    的头像 发表于 01-21 16:38 867次阅读
    靠听诊器查故障?这套系统靠 “听声纹”,<b class='flag-5'>准确率</b> 96%

    自动驾驶大模型中常提的泛化能力是指啥?

    [首发于智驾最前沿微信公众号]在讨论自动驾驶大模型时,常会有几个评价维度,如感知是否准确、决策是否稳定、系统是否足够鲁棒,以及模型有没有“泛化能力”。相比
    的头像 发表于 12-10 09:15 1019次阅读
    自动驾驶大<b class='flag-5'>模型</b>中常提的泛化<b class='flag-5'>能力</b>是指啥?

    SimData:基于aiSim的高保真虚拟数据生成方案

    01前言在自动驾驶感知系统的研发过程中,模型的性能高度依赖于大规模、高质量的感知数据。目前业界常用的数据包括KITTI、nuScenes、WaymoOpenDataset等,它们为自动驾驶算法的发展奠定了重要基础。然而,构建
    的头像 发表于 11-07 17:35 5575次阅读
    SimData:基于aiSim的高保真虚拟数据<b class='flag-5'>集</b>生成方案

    构建CNN网络模型并优化的一般化建议

    ,从而得到对我们有价值的识别信息。但这种迭代性并不是十分必要的,因为从实践来看,即使只有单层网络的模型,只要拥有充分数量的神经元,也可以获得较高的准确率。不过该种方式的一个重要缺点就是参数重多,导致
    发表于 10-28 08:02

    除了准确率,电能质量在线监测装置在谐波源识别方面还有哪些重要指标?

    除了识别准确率,电能质量在线监测装置在谐波源识别方面的核心价值还依赖于 识别效率、定位精度、抗干扰能力、场景适配性 等关键指标,这些指标直接
    的头像 发表于 10-22 16:22 1153次阅读

    电能质量在线监测装置识别谐波源的准确率有多高?

    电能质量在线监测装置识别谐波源的准确率受电网结构、监测方案、设备性能等多重因素影响,呈现显著的 场景化差异 。根据行业研究与工程实践,其准确率通常在 **65%~95%** 之间波动,具体可分为以下
    的头像 发表于 10-22 16:18 1052次阅读

    NVIDIA推出多语种语音AI开放数据模型

    新发布的 Granary 数据包含约 100 万小时音频,可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型
    的头像 发表于 09-23 15:34 1280次阅读

    模型时代,如何推进高质量数据建设?

    高质量数据,即具备高价值、高密度、标准化特征的数据集合。 在AI领域,高质量数据地位举足轻重,如同原油经炼化成为汽油驱动汽车,海量原始数据需转化为高质量数据,才能助力大模型精准掌
    的头像 发表于 08-21 13:58 1098次阅读

    Text2SQL准确率暴涨22.6%!3大维度全拆

    基于 BIRD 数据展开。 方法:提出 J-Schema 呈现数据库结构并合理提供示例值,结合思维链引导模型推理。采用 Iterative DPO 迭代训练,多轮迭代提升性能。用自洽性方法,通过硬 / 软投票从多个候选答案中选最优,软投票更优。 结果:解决 Text2S
    的头像 发表于 08-14 11:17 884次阅读
    Text2SQL<b class='flag-5'>准确率</b>暴涨22.6%!3大维度全拆

    AIcube1.4目标检测模型导入yolotxt格式数据后一直显示数据正在解析,为什么?

    AIcube1.4目标检测模型导入yolotxt格式数据后一直显示数据正在解析 数据有问题,把数据情况说的详细点
    发表于 08-13 07:16

    ocr识别时数据上传压缩包,上传成功,但不显示图片,图片数量仍显示0,为什么?

    ocr识别时数据上传压缩包,上传成功,但不显示图片,图片数量仍显示0
    发表于 07-23 08:11

    【Sipeed MaixCAM Pro开发板试用体验】+ 02 + 基础功能测试

    、基础功能测试 1.人脸表情情绪检测 通过开发板自带的应用程序实测发现识别准确率非常的高(但需在离人脸较近的地方进行识别,如果识别距离过远会导致
    发表于 07-19 22:50

    数据下载失败的原因?

    数据下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据多大?数据量有多少?
    发表于 06-18 07:04