0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Calibration: 一个工业价值极大,学术界却鲜有研究的问题

深度学习自然语言处理 来源:深度学习自然语言处理 作者:kid丶 2021-02-14 09:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

319df206-549c-11eb-8b86-12bb97331649.png

尽管深度学习给工业界带来了一波上线春天,但是总有很多比较难的业务,模型反复迭代后准确率依然达不到预期的产品标准,难以满足用户期望。

以下为工业界常见讨(si)论(b)场景:

R&D小哥哥一顿调参输出,RoBERTa都用上了,终于将模型从80%准确率提升到了90%,但是PM小姐姐说,“不行!咱们必须要达到95%准确率才能上线!否则就是对用户和产品逼格的伤害!”

怎么办呢?

熟悉工业界上线套路的小伙伴马上就能给出答案,那就是提高模型决策的阈值!PM小姐姐只是根据产品标准定义了模型准确率(或者说精确率,precision),但是并不在乎召回率有多高(毕竟模型只要没上线,就相当于召回率为0)。

那么基于上面的思路:假如模型的softmax输出可靠,比如二分类场景,模型softmax之后1类的输出是0.92,能表征模型有92%的把握说这是个正例,并且模型的这个把握是精准的,那么PM小姐姐说要达到95%准确率,那我们就疯狂提高模型的决策阈值就好了,这样把那些不确定性高的样本砍掉了,模型准确率自然就上来了。

然而,神经网络并不一定这么靠谱,你看模型的测试集输出的话,却常常发现模型要么以99.999的概率输出来判定正例,要么0.0001的概率输出来判定负例,基本没有样本落在0.1~0.9区间内。那么这时候上面的思路就失效了。

那么有没有办法让模型的softmax输出能真实的反映决策的置信度呢?这个问题,就被称为Calibration问题(直译是叫“校准”)。

故事要从一篇发表于2017年的ICML顶会论文开始,目前这篇论文引用量1001。

论文标题:

On Calibration of Modern Neural Networks

链接:

https://arxiv.org/pdf/1706.04599.pdf

神经网络的 overconfidence

31f2dc8a-549c-11eb-8b86-12bb97331649.jpg

首先,让咱们来思考一个普通图像分类任务。对于一张“koala”的图像,在经过神经网络后会得到 logits 输出 ,经过 softmax 层后得到对各类别的预测的后验概率,接着我们选择概率最大的类别( koala)输出为最后的预测类别。这里,最终的预测类别 ,其对应的置信度为 。在大多情况下,我们只关心类别的预测 有多准,根本不 care 置信度是怎样的。然而,在一些实际应用场景下,置信度的度量也同样重要。例如:

3248be66-549c-11eb-8b86-12bb97331649.jpg

如上图,对于自动驾驶中的目标识别任务,车辆的前方出现了一个人,神经网络会将其识别成塑料袋,此时输出的置信度为50%(低于阈值),则可通过其它传感器进行二次的正确识别(识别为人)。但想想看,若神经网络对塑料袋预测的置信度为90%会怎样?再例如:

327d70b6-549c-11eb-8b86-12bb97331649.jpg

使用 Resnet 模型简单的对一些图片任务进行训练,收敛后的模型对测试集的平均置信度高达80%-85%,然而只有将近70%的图片能被正确分对(红色代表分错,绿色代表分对)。这意味着啥?训练好的模型好像有点盲目自信,即出现overconfidence现象,或者可以称为模型的准确率和置信度不匹配(miscalibration)。

预期校准误差(ECE)

直观的来看,模型的准确率应当和置信度相匹配。一个完美校准的模型可定义成如下所示:

即,模型置信度 等于概率 的条件下模型的预测 为真实标记 的概率同样也为 。因此,本文提出一个新的度量方式叫做预期校准误差(Expected Calibrated Error, ECE)来描述模型学习的匹配程度:

很简单,其实就是将前面那个完美校准模型的等式写成差的期望的形式。我们将期望进一步展开可得到:

其中:

这里的 代表着一个个根据置信度区间划分的一个个桶(用来装样本的),如下图所示:

32a8aede-549c-11eb-8b86-12bb97331649.jpg

例如,我们将置信区间平均划分成5份,然后将样本按照其置信度挨个送到对应的桶中,分别计算每个桶中的平均置信度和准确率,两者的差值(Gap)的期望就是所定义的ECE。

读到这的读者应该能逐步体会本文想干一件啥事了。本文首先引出这样一个问题,深度模型在学习过程中出现准确率和置信度的严重不匹配问题,接着提出了一个合理的评价指标来描述模型学习的匹配程度,所以接下来,它要提出方法来想办法最小化期望校准误差(ECE)。

什么原因导致神经网络出现准确率与置信度不匹配?

然而ECE是没办法直接最小化的,因此本文尝试着做一些探索性的实验来观察啥因素会使得模型的 ECE 变大。本文分别从三个方面上去进行实验:

32d8c998-549c-11eb-8b86-12bb97331649.jpg

▲网络复杂度对ECE的影响

网络复杂度对 ECE 的影响:首先,作者使用两个模型(LeNet和ResNet)分别对CIFAR-100数据集进行了训练,准确率分别为55.1%和69.4%,ResNet 在预测性能上完爆LeNet。然而,ResNet 置信度(右图蓝色+红色部分)的分布和准确率(右图蓝色部分)出现了严重的不匹配,导致二者的 Gap (红色部分)非常大。注意完美校准模型的分布应当是蓝色部分刚好和对角线重合,且没有红色 Gap 部分。

32f9d5d4-549c-11eb-8b86-12bb97331649.jpg

▲网络的宽度和深度对ECE的影响

网络宽度和深度对 ECE 的影响:在得知模型复杂度会影响模型的 ECE 后,作者紧接着做了网络宽度和深度对模型 ECE 和错误率(Error)的影响。可以看到,在控制变量前提下,单方面的增加网络的深度和宽度均会使得模型的 Error 降低,这是我们所期望的;然而,ECE也会同样的随着上升。换句话来说,一昧的增加模型复杂度能有效的提高模型的预测性能,但同样带来的问题是模型的 overconfidence 问题愈发严重。

333021ac-549c-11eb-8b86-12bb97331649.jpg

▲归一化和权重衰减对ECE的影响

normalization 和 weight decay 对 ECE 的影响:接着的实验也是我们为提高模型性能经常使用的 batch normalization 和 loss regularization。左图:使用 batch normalization 会有效的提升模型的性能,但同时也会提升模型的 ECE。右图:weight decay 通常用来调节 L2 正则的权重衰减系数,随着其系数的增加相当于更多的强调模型参数 w 要尽可能的小,能有效的防止模型过拟合。该现象表明,模型越不过拟合,其ECE是越小的,也就是说模型越不会 overconfidence ;换句话说,模型对样本的拟合程度和对样本的置信度是息息相关的,拟合得越好,置信度越高,所以 ECE 越大。(个人理解,欢迎评论区指正~)

我们该如何对模型进行校准呢?

335ecf2a-549c-11eb-8b86-12bb97331649.jpg

作者接下来又做了一个很有意思的实验,在CIFAR-100上训练模型500个 epoch,其中在第250个 epoch 和第375个 epoch 下调节学习率,观察测试集上的 test error 和 test NLL 的变化情况。Test NLL 的定义如图中所示,它其实等价于测试集上的交叉熵。这个实验啥意思呢?我调节了一下学习率后,测试性能得到了提升,但是测试集上的交叉熵却出现了过拟合现象(出现了反常的上升现象)。有意思的点来了!有人肯定会 argue 不是说好本文研究的是overconfidence嘛?

即模型的置信度太高而准确率过低,这里对 NLL overfitting 岂不是好事,因为负对数似然上升了等价于模型的置信度的降低了。注意:这里的是对正确类上的置信度,而前面的实验是对预测类的置信度!其实认真想想,是一个意思,前面之所以 confident 很高的样本准确率很低,正是因为其在正确类别上的置信度太低导致的!!(这部分卡了很久)

该结果可以表明,模型置信度和准确率的不匹配很大可能的原因来自于模型对 NLL 的过拟合导致的。所以,咋办呢?最小化 NLL 呗。

3389ee8a-549c-11eb-8b86-12bb97331649.jpg

此时,本文提出在验证集上对带 temperature 参数的 softmax 函数进行校准。即我们训练完模型后,最小化 NLL 来学习 temperature 参数,注意到对该项的优化并不会影响模型预测的准确率,只会对模型的 confidence 进行校准。最终的结果是这样的,详细可参考论文。

33b6ee30-549c-11eb-8b86-12bb97331649.jpg

讨论

上述得实验结果我觉得对很多研究领域都是很有启发意义的。

模型的置信度应当是和准确率匹配的,这样的模型我觉得才是有意义的,否则以很高置信度进行很离谱的预测错误的模型会让人感觉这个模型好像什么都会、又好像什么都不会。

ECE 的指标是否能反应样本的一些性质,例如难易程度、是否为噪声等。

该文章是间接的去优化ECE的,能否有直接优化的形式,或者主动学习里面能否考虑这一点来挑选样本?

责任编辑:xj

原文标题:Calibration: 一个工业价值极大,学术界却鲜有研究的问题!

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106828
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123923

原文标题:Calibration: 一个工业价值极大,学术界却鲜有研究的问题!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    是德科技RISC-V芯片完整验证链路解决方案

    RISC-V 作为新代开放指令集架构(ISA),已经从学术界的概念研究快速走向全球产业化浪潮。在短短数年内,它从“开源替代方案”成长为全球半导体生态的重要力量,成为 CPU 架构演进中最具活力的选项之
    的头像 发表于 12-10 09:35 186次阅读
    是德科技RISC-V芯片完整验证链路解决方案

    工业互联网的重要价值

    工业互联网作为新代信息通信技术与工业经济深度融合的新型基础设施、应用模式和工业生态,其重要价值体现在经济、产业、社会和技术四
    的头像 发表于 11-20 09:51 191次阅读

    多模态与智能体:学术界与产业界共话边缘智能新未来-2025安凯微电子开发者技术论

    2025年10月24日,在“2025安凯微电子开发者技术论坛”(ADF 2025)期间,多位学术界专家与产业界行业资深人士齐聚H大厦多功能厅,围绕“从多媒体到多模态,从智能硬件到智能体”的核心议题
    的头像 发表于 10-29 10:15 3449次阅读
    多模态与智能体:<b class='flag-5'>学术界</b>与产业界共话边缘智能新未来-2025安凯微电子开发者技术论

    工业网关的价值在哪?如何解读?

    工业网关作为连接工业设备与云端平台的核心枢纽,其价值体现在技术融合、管理优化、价值创造三维度,通过打破数据孤岛、提升系统效率、驱动业务创新
    的头像 发表于 08-30 14:04 688次阅读

    Secure-IC 将参加中国密码学会主办的密码芯片学术会议-CryptoIC 2025

    CryptoIC是一年一度的重要会议,专注于密码硬件领域的最新研究和技术进展。它为学术界工业界提供了
    的头像 发表于 08-15 12:31 739次阅读
    Secure-IC 将参加中国密码学会主办的密码芯片<b class='flag-5'>学术</b>会议-CryptoIC 2025

    安泰电压放大器赋能聚合物稳定胆甾相液晶智能窗口研究

    实验名称: 胆甾液晶的光学性能,其反射谱、透射谱以及在不同条件下的光学响应研究 研究方向: 可见光透过率可调的mnSmart窗因其易于控制、外观美观、显著提高建筑居民的舒适度而受到学术界工业
    的头像 发表于 08-14 11:33 334次阅读

    知存科技邀您相约第二十一届全国容错计算学术会议

    7月18日至20日,由中国计算机学会主办的第二十一届全国容错计算学术会议(CCF CFTC 2025)将在杭州举行。作为国内容错计算领域一年一度的盛会,此次会议汇聚了来自学术界和产业界的众多精英,知存科技将作为存算
    的头像 发表于 07-16 15:20 857次阅读

    小鹏汽车在全球AI顶会展示下代自动驾驶模型

    Driving),与Waymo、英伟达、加利福尼亚大学洛杉矶分校(UCLA)、图宾根大学(University of Tuebingen)等来自工业界和学术界的自动驾驶同行共同探讨业界最新AI技术。
    的头像 发表于 06-23 09:13 997次阅读

    工业通信的“月老”:CC\\-Link IE和DeviceNet如何牵起机器人的“红线”

    工业自动化的“相亲角”,耐达讯通信技术CC-Link IE和DeviceNet就像两位性格迥异的“单身青年”。一个是精通高速数据传输的“技术宅”,一个是擅长设备兼容的“社交达人”。谁能想到,在
    发表于 06-12 14:35

    Arm与学术界密切合作培养AI人才

    人工智能 (AI) 的广泛采用正在重塑全球各行各业,它在带来空前机遇的同时,也引发了前所未有的挑战。其中最紧迫的问题之就是技能缺口,这意味着人才在有效整合和运用 AI 技术所需的专业知识方面尚存不足。
    的头像 发表于 05-28 14:23 578次阅读

    工业通信“黑科技”来袭Modbus转Profinet,主打 “泰酷辣”

    为Profinet网关设备后,可使现有设备更好地融入未来的工业网络架构中,为工厂的持续升级和发展奠定基础 。 简化网络管理 在工厂中,可能同时存在多种通信协议的设备。如果Modbus设备和Profinet设备
    发表于 05-19 15:44

    宏微科技亮相2025德国纽伦堡电力电子系统及元器件展览会

    业界。来自学术界工业界的专家、厂商在这里发布和展示最新的研究成果和产品,内容从半导体、元器件、封装技术到终端系统,涵盖整个生态链。
    的头像 发表于 05-13 18:24 898次阅读

    SOLIDWORKS科研版 面向学术界的解决方案

    学术界提供了套全方面、有效、灵活的计算机辅助设计(CAD)解决方案,助力科研人员突破设计瓶颈,加速科研成果的转化。 SOLIDWORKS科研版 面向学术界的解决方案 、SOLIDW
    的头像 发表于 04-16 16:12 597次阅读
    SOLIDWORKS科研版 面向<b class='flag-5'>学术界</b>的解决方案

    NVIDIA携手合作伙伴成立开放电力AI联盟

    这个全球性联盟汇聚了公用事业公司、科技企业、学术界等多方力量,共同构建开放 AI 模型,以变革发电、输电和用电的方式。
    的头像 发表于 03-28 10:05 903次阅读

    学术力量促进开源技术新未来

    开源社区、平台和实践正逐步融入学术评价体系,特别是以高等院校为代表的学术界,正积极参与开源项目,促进产学研深度融合,将更多科研成果转化为实际生产力。
    的头像 发表于 12-27 13:50 737次阅读