0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

南开/南理工/旷视提出CTKD:动态温度超参蒸馏新方法

CVer 来源:CVer 2023-01-04 14:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

论文题目:Curriculum Temperature for Knowledge Distillation

论文(AAAI 2023):https://arxiv.org/abs/2211.16231

开源代码(欢迎star):

https://github.com/zhengli97/CTKD

一句话概括:

相对于静态温度超参蒸馏,本文提出了简单且高效的动态温度超参蒸馏新方法。

背景问题:

目前已有的蒸馏方法中,都会采用带有温度超参的KL Divergence Loss进行计算,从而在教师模型和学生模型之间进行蒸馏,公式如下:

b079a2b8-8bf0-11ed-bfe3-dac502259ad0.png

b083b3c0-8bf0-11ed-bfe3-dac502259ad0.png

而现有工作普遍的方式都是采用固定的温度超参,一般会设定成4。

方法 FitNet
(ICLR 15')
AT
(ICLR 17')
SP
(ICCV 19')
Snapshot
(CVPR 19')
SSKD
(ECCV 20')
FRSKD
(CVPR 21')
τ的设定 3 4 4 2 or 3 4 4

那么这就带来了两个问题:

1. 不同的教师学生模型在KD过程中最优超参不一定是4。如果要找到这个最佳超参,需要进行暴力搜索,会带来大量的计算,整个过程非常低效。

2. 一直保持静态固定的温度超参对学生模型来说不是最优的。基于课程学习的思想,人类在学习过程中都是由简单到困难的学习知识。那么在蒸馏的过程中,我们也会希望模型一开始蒸馏是让学生容易学习的,然后难度再增加。难度是一直动态变化的。

于是一个自然而然的想法就冒了出来:

在蒸馏任务里,能不能让网络自己学习一个适合的动态温度超参进行蒸馏,并且参考课程学习,形成一个蒸馏难度由易到难的情况?

于是我们就提出了CTKD来实现这个想法。

方法:

既然温度超参τ可以在蒸馏里决定两个分布之间的KL Divergence,进而影响模型的学习,那我们就可以通过让网络自动学习一个合适的τ来达到以上的目的。

于是以上具体问题就直接可以转化成以下的核心思想:

在蒸馏过程里,学生网络被训练去最小化KL loss的情况下,τ作为一个可学习的参数,要被训练去最大化KL loss,从而发挥对抗(Adversarial)的作用,增加训练的难度。随着训练的进行,对抗的作用要不断增加,达到课程学习的效果。

以上的实现可以直接利用一个非常简单的操作:利用梯度反向层GRL (Gradient Reversal Layer )来去反向可学习超参τ的梯度,就可以非常直接达到对抗的效果,同时随着训练的进行,不断增加反向梯度的权重λ,进而增加学习的难度。

CTKD的论文的结构图如下:

b08e0366-8bf0-11ed-bfe3-dac502259ad0.jpg

Fig.1 CTKD网络结构图

CTKD方法可以简单分为左右两个部分:

对抗温度超参τ的学习部分。

这里只包含两个小模块,一个是梯度反向层GRL,用于反向经过温度超参τ的梯度,另一个是可学习超参温度τ。

其中对于温度超参τ,有两种实现方式,第一种是全局方案 (Global Temperature),只会产生一个τ,代码实现非常简单,就一句话:

self.global_T = nn.Parameter(torch.ones(1), requires_grad=True)

第二种是实例级别方案(Instance-wise Temperature),即对每个单独的样本都产生一个τ。代码实现也很简单,就是两层conv组成的MLP。

b096e724-8bf0-11ed-bfe3-dac502259ad0.jpg

Fig.2 两种不同的可学习温度超参实现。

2. 难度逐渐增加的课程学习部分。

随着训练的进行,不断增加GRL的权重λ,达到增加学习难度的效果。

在论文的实现里,我们直接采用Cos的方式,让反向权重λ从0增加到1。

以上就是CTKD的全部实现,非常的简单有效。

CTKD总共包含两个模块,GRL和温度生成模块,都非常的轻量化,

CTKD方法可以作为即插即用的插件应用在现有的SOTA的蒸馏方法中,取得广泛的提升。

实验结果

三个数据集:CIFAR-100,ImageNet和MS-COCO。

CIFAR-100上,CTKD的实验结果:

b09f4a9a-8bf0-11ed-bfe3-dac502259ad0.jpg

作为一个即插即用的插件,应用在已有的SOTA方法上:

b0a90f26-8bf0-11ed-bfe3-dac502259ad0.jpg

在ImageNet上的实验:

b0b54994-8bf0-11ed-bfe3-dac502259ad0.jpg

在MS-COCO的detection实验上:

b0bf62ee-8bf0-11ed-bfe3-dac502259ad0.jpg

温度超参的整体学习过程可视化:

b0ca1252-8bf0-11ed-bfe3-dac502259ad0.jpg

由以上图可以看到,CTKD整体的动态学习τ的过程。

将CTKD应用在多种现有的蒸馏方案上,可以取得广泛的提升效果。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3874

    浏览量

    52341
  • 代码
    +关注

    关注

    30

    文章

    4983

    浏览量

    74544

原文标题:AAAI 2023 | 南开/南理工/旷视提出CTKD:动态温度超参蒸馏新方法

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    河北省职业教育学会一行到访调研考察

    近日,河北省职业教育学会校企合作委员会组织学会相关领导及省内多所高职院校负责人一行到访,神州数码旗下神州数码DCN(以下简称“神州数码DCN”)作为在产教融合领域的战略合作伙伴
    的头像 发表于 05-16 17:16 1404次阅读

    做智能体硬件的敏捷法则

    对话硬件研发负责人王飞:当算法从“感知”走向“行动”,硬件如何成为智能体的最佳载体?
    的头像 发表于 04-15 09:34 563次阅读

    第三届华南理工大学“紫光同创杯”FPGA大赛成功举办

    1月24日,第三届华南理工大学“紫光同创杯”FPGA大赛成功举办。本届“紫光同创杯”由华南理工大学微电子学院和深圳市紫光同创电子股份有限公司联合举办,旨在让学生熟练使用国产FPGA开发平台,完成工程性高的项目,提升FPGA开发和实践技能,并通过赛事活动吸引更多学生了解参与
    的头像 发表于 02-02 14:03 1081次阅读

    用于窄带匹配高速射频ADC的全新方法

    本期,为大家带来的是《用于窄带匹配高速射频 ADC 的全新方法》,介绍了一种用于窄带匹配高速射频 ADC 的全新方法,以解决高中间频率系统中 ADC 前端窄带匹配的设计难题,可在 ADC 额定带宽内应用,能提升 ADC 性能、减少模拟停机时间。
    的头像 发表于 01-04 15:56 8145次阅读
    用于窄带匹配高速射频ADC的全<b class='flag-5'>新方法</b>

    合众思壮与河南理工大学达成战略合作

    12月18日,北京合众思壮科技股份有限公司(以下简称“合众思壮”)与河南理工大学战略合作签约仪式圆满举行。河南理工大学学术副校长金双根、测绘与国土信息工程学院党委书记张红霞、院长袁占良,合众思壮总经理朱兴旺、首席科学家沈军,以及双方相关部门负责人等共同出席了签约仪式。
    的头像 发表于 12-25 17:12 1474次阅读

    奥松电子荣获2025年中国创新方法大赛全国总决赛二等奖

    2025年11月18日-21日,2025年中国创新方法大赛总决赛在山东省泰安市成功举办。国内MEMS智能传感器与半导体关键零部件领域的国家级专精特新“小巨人”企业——广州奥松电子股份有限公司,凭借
    的头像 发表于 12-05 15:17 792次阅读

    海康威荣获2025年中国创新方法大赛总决赛金奖

    近日,2025年中国创新方法大赛圆满落幕。海康威凭借《工业听诊师——超长距离皮带运输机托辊声纹监测系统》项目脱颖而出,斩获全国总决赛唯一金奖。
    的头像 发表于 12-04 10:55 661次阅读

    奥松半导体荣获2025中国创新方法大赛重庆赛区二等奖

    近日,2025年中国创新方法大赛(重庆赛区)暨第八届重庆市创新方法大赛圆满落幕。本届大赛以“培育创新人才,服务产业发展”为主题,旨在激发企业创新活力,推动科技创新与产业创新深度融合。大赛由重庆市科协
    的头像 发表于 11-19 11:34 1063次阅读
    奥松半导体荣获2025中国创<b class='flag-5'>新方法</b>大赛重庆赛区二等奖

    国际权威学术刊物刊发稳石氢能与华南理工研究成果,创新螺旋流道设计提升AEM电解槽性能。

    近日,氢能研究领域国际权威期刊INTERNATIONAL JOURNAL OF HYDROGEN ENERGY刊发了稳石氢能、华南理工电力学院与广东省高效清洁能源利用重点实验室联合研发的成果。
    的头像 发表于 09-26 16:08 815次阅读
    国际权威学术刊物刊发稳石氢能与华<b class='flag-5'>南理工</b>研究成果,创新螺旋流道设计提升AEM电解槽性能。

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    ,其中第一章是概论,主要介绍大模型浪潮下AI芯片的需求与挑战。第二章和第三章分别介绍实现深度学习AI芯片的创新方法和架构。以及一些新型的算法和思路。第四章是全面介绍半导体芯产业的前沿技术,包括新型晶体管
    发表于 09-05 15:10

    技术培训 | 南理工专场:同星汽车电子基础工具链暨TSMaster软件应用培训圆满落幕

    2025.8.20南理工TSMaster技术培训8月19日至20日,同星智能(TSMaster)线下技术培训专场再次走进南京理工大学,为来自车辆工程,智能底盘,机械工程等相关专业的60余位硕士、博士
    的头像 发表于 08-22 20:05 1411次阅读
    技术培训 | <b class='flag-5'>南理工</b>专场:同星汽车电子基础工具链暨TSMaster软件应用培训圆满落幕

    芯片制造中高精度膜厚测量与校准:基于红外干涉技术的新方法

    、环境光干扰及薄膜倾斜等因素限制,测量精度难以满足高精度工业需求。为此,本研究提出一种融合红外干涉与激光校准的薄膜厚度测量新方法,旨在突破传统技术瓶颈,实现更精准、
    的头像 发表于 07-21 18:17 3255次阅读
    芯片制造中高精度膜厚测量与校准:基于红外干涉技术的<b class='flag-5'>新方法</b>

    无刷直流电机转矩脉动抑制新方法

    转矩脉动是影响无剧直流电机在高精度伺服系统中应用的主要原因。提出了一种基于a-p变换和Lyapunov函数的转矩脉动抑制直接功率控制方法。该方法在a-β坐标系下通过功率控制优化了电磁有功功率和电磁
    发表于 07-09 14:12

    无刷直流电机滑模观测器参数优化设计方法

    摘要:滑模反电势观测器的增益参数会影响观测器的收敛速度以及动态响应性能,常见的设计方法是基于观测器稳定性理论进行设计。提出一种利用遗传算法在稳定域内搜索观测误差最小的增益参数的新方法,
    发表于 06-27 16:48

    无刷直流电机反电势过零检测新方法

    的危险。同时,根据控制信号占空比切换低速区与高速区反电势采样方式,能有效改善在低速区时反电势过零检测效果。实验结果表明,提出的反电势过零检测新方法能保证电机工作于更宽的转速范围内。 纯分享帖,点击下方
    发表于 06-26 13:50