0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大连理工提出基于Wasserstein距离(WD)的知识蒸馏方法

智能感知与物联网技术研究所 来源:未知 2025-01-21 09:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自 Hinton 等人的开创性工作以来,基于 Kullback-Leibler 散度(KL-Div)的知识蒸馏一直占主导地位。 然而,KL-Div 仅比较教师和学生在相应类别上的概率,缺乏跨类别比较的机制,应用于中间层蒸馏时存在问题,其无法处理不重叠的分布且无法感知底层流形的几何结构。

20c8471a-d62a-11ef-9310-92fbcf53809c.gif

为了解决这些问题,大连理工大学的研究人员提出了一种基于 Wasserstein 距离(WD)的知识蒸馏方法。所提出方法在图像分类和目标检测任务上均取得了当前最好的性能,论文已被 NeurIPS 2024 接受为 Poster。

20ed0b68-d62a-11ef-9310-92fbcf53809c.png

论文标题: Wasserstein Distance Rivals Kullback-Leibler Divergence for Knowledge Distillation

论文地址:

https://arxiv.org/abs/2412.08139

项目地址:

https://peihuali.org/WKD/

代码地址:

https://github.com/JiamingLv/WKD

背景与动机介绍

知识蒸馏(KD)旨在将具有大容量的高性能教师模型中的知识迁移到轻量级的学生模型中。近年来,知识蒸馏在深度学习中受到了越来越多的关注,并取得了显著进展,在视觉识别、目标检测等多个领域得到了广泛应用。 在其开创性工作中,Hinton 等人引入了 Kullback-Leibler 散度(KL-Div)用于知识蒸馏,约束学生模型的类别概率预测与教师模型相似。 从那时起,KL-Div 在 Logit 蒸馏中占据主导地位,并且其变体方法 DKD、NKD 等也取得了令人瞩目的性能。此外,这些 Logit 蒸馏方法还可以与将知识从中间层传递的许多先进方法相互补充。 尽管 KL-Div 取得了巨大的成功,但它存在的两个缺点阻碍了教师模型知识的迁移。 首先,KL-Div 仅比较教师和学生在相应类别上的概率,缺乏执行跨类别比较的机制。 然而,现实世界中的类别呈现不同程度的视觉相似性,例如,哺乳动物物种如狗和狼彼此间的相似度较高,而与汽车和自行车等人工制品则有很大的视觉差异,如图1所示。

不幸的是,由于 KL-Div 是类别对类别的比较,KD 和其变体方法无法显式地利用这种丰富的跨类别知识。

210e0c6e-d62a-11ef-9310-92fbcf53809c.jpg

▲图1. 左图使用t-SNE展示了100个类别的嵌入分布。可以看出,这些类别在特征空间中表现出丰富的相互关系 (IR)。然而,右图中的KL散度无法显式地利用这些相互关系。

其次,KL-Div 在用于从中间层特征进行知识蒸馏时存在局限性。图像的深度特征通常是高维的且空间尺寸较小,因此其在特征空间中非常稀疏,不仅使得 KL-Div 在处理深度神经网络特征的分布时存在困难。 KL-Div 无法处理不重叠的离散分布,并且由于其不是一个度量,在处理连续分布时能力有限,无法感知底层流形的几何结构。

2124e89e-d62a-11ef-9310-92fbcf53809c.png

▲图2. 基于Wasserstein距离(WD)的知识蒸馏方法的总览图

为了解决这些问题,研究人员提出了一种基于Wasserstein距离的知识蒸馏方法,称为WKD,同时适用于Logit蒸馏(WKD-L)和Feature蒸馏(WKD-F),如图2所示。 在WKD-L中,通过离散WD最小化教师和学生之间预测概率的差异,从而进行知识转移。 通过这种方式,执行跨类别的比较,能够有效地利用类别间的相互关系(IRs),与KL-Div中的类别间比较形成鲜明对比。 对于WKD-F,研究人员利用WD从中间层特征中蒸馏知识,选择参数化方法来建模特征的分布,并让学生直接匹配教师的特征分布。 具体来说,利用一种最广泛使用的连续分布(高斯分布),该分布在给定特征的1阶和2阶矩的情况下具有最大熵。 论文的主要贡献可以总结如下:

提出了一种基于离散WD的Logit蒸馏方法(WKD-L),可以通过教师和学生预测概率之间的跨类别比较,利用类别间丰富的相互关系,克服KL-Div无法进行类别间比较的缺点。

将连续WD引入中间层进行Feature蒸馏(WKD-F),可以有效地利用高斯分布的Riemann空间几何结构,优于无法感知几何结构的KL-Div。

在图像分类和目标检测任务中,WKD-L优于非常强的基于KL-Div的Logit蒸馏方法,而WKD-F在特征蒸馏中优于KL-Div的对比方法和最先进的方法。WKD-L和WKD-F的结合可以进一步提高性能。

用于知识迁移的WD距离

用于Logit蒸馏的离散WD距离 类别之间的相互关系(IRs) 如图1所示,现实世界中的类别在特征空间中表现出复杂的拓扑关系。相同类别的特征会聚集并形成一个分布,而相邻类别的特征有重叠且不能完全分离。 因此,研究人员提出基于CKA量化类别间的相互关系(IRs),CKA是一种归一化的Hilbert-Schmidt独立性准则(HSIC),通过将两个特征集映射到再生核希尔伯特空间(RKHS)来建模统计关系。 首先将每个类别中所有训练样本的特征构成一个特征矩阵,之后通过计算任意两个类别特征矩阵之间的CKA得到类间相互关系(IR)。计算IR的成本可以忽略,因为在训练前仅需计算一次。 由于教师模型通常包含更丰富的知识,因此使用教师模型来计算类别间的相互关系213f777c-d62a-11ef-9310-92fbcf53809c.png损失函数21491dae-d62a-11ef-9310-92fbcf53809c.png215455ac-d62a-11ef-9310-92fbcf53809c.png分别表示教师模型和学生模型的预测类别概率,其通过softmax函数和温度对Logit计算得到。将离散的WD表示为一种熵正则化的线性规划:

218e6e0e-d62a-11ef-9310-92fbcf53809c.png

其中21a4add6-d62a-11ef-9310-92fbcf53809c.png21b5b338-d62a-11ef-9310-92fbcf53809c.png分别表示每单位质量的运输成本和在将概率质量从21c7e9c2-d62a-11ef-9310-92fbcf53809c.png移动到21d41440-d62a-11ef-9310-92fbcf53809c.png 时的运输量;21efd144-d62a-11ef-9310-92fbcf53809c.png是正则化参数。 定义运输成本21a4add6-d62a-11ef-9310-92fbcf53809c.png与相似度度量220d7dac-d62a-11ef-9310-92fbcf53809c.png成负相关。 因此,WKD-L的损失函数可以定义为:

221f48b6-d62a-11ef-9310-92fbcf53809c.png

用于Feature蒸馏的连续WD距离 特征分布建模 将模型某个中间层输出的特征图重塑为一个矩阵,其中第i列2231dddc-d62a-11ef-9310-92fbcf53809c.png表示一个空间特征。 之后,估计这些特征的一阶矩2240e4b2-d62a-11ef-9310-92fbcf53809c.png和二阶矩

224b5d52-d62a-11ef-9310-92fbcf53809c.png

,并将二者作为高斯分布的参数来建模输入图像特征的分布。 损失函数 设教师的特征分布为高斯分布

225bcfac-d62a-11ef-9310-92fbcf53809c.png

。类似地,学生的分布记为2265fb76-d62a-11ef-9310-92fbcf53809c.png。 两者之间的连续Wasserstein距离(WD)定义为:

226dc3c4-d62a-11ef-9310-92fbcf53809c.png

其中,227e7ce6-d62a-11ef-9310-92fbcf53809c.png22932e3e-d62a-11ef-9310-92fbcf53809c.png是高斯变量,q表示联合分布。最小化上式可以得到闭集形式的WD距离。此外,为了平衡均值和协方差的作用,引入了一个均值-协方差比率γ,最后损失定义为:

22a50258-d62a-11ef-9310-92fbcf53809c.png

实验分析和比较 研究人员在ImageNet和CIFAR-100上评估了WKD在图像分类任务中的表现,还评估了WKD在自蒸馏(Self-KD)中的有效,并且将WKD扩展到目标检测,并在MS-COCO上进行了实验。 在ImageNet上的图像分类 研究人员在ImageNet的在两种设置下与现有工作进行了比较。设置(a)涉及同质架构,其中教师和学生网络分别为ResNet34和ResNet18;设置(b)涉及异质架构,在该设置中,教师网络为ResNet50,学生网络为MobileNetV1。 对于Logit蒸馏,WKD-L在两种设置下均优于经典的KD及其所有变体。对于特征蒸馏,WKD-F也超过当前的最佳方法ReviewKD;最后,WKD-L和WKD-F的结合进一步提升了性能,超越了强有力的竞争方法。

22c3f190-d62a-11ef-9310-92fbcf53809c.png

▲表1. 在ImageNet上的图像分类结果

在CIFAR-100上的图像分类 研究人员在教师模型为CNN、学生为Transformer或反之的设置下评估了WKD方法,使用的CNN模型包括ResNet(RN)、MobileNetV2(MNV2)和ConvNeXt;Transformer模型包括ViT、DeiT和Swin Transformer。 对于Logit蒸馏,WKD-L在从Transformer到CNN迁移知识或反之的设置下始终优于最新的OFA方法。对于特征蒸馏,WKD-F在所有实验设置中排名第一; 研究人员认为,对于跨CNN和Transformer的知识转移,考虑到两者特征差异较大,WKD-F比像FitNet和CRD这样直接对原始特征进行对齐的方法更为合适。

22e1ad20-d62a-11ef-9310-92fbcf53809c.png

▲表2. CIFAR-100上跨CNN和Transformer的图像分类结果(Top-1准确率) 在ImageNet上的自蒸馏 研究人员在Born-Again Network(BAN)框架中将WKD方法用于自蒸馏任务(Self-KD)。 使用ResNet18在ImageNet上进行实验,结果如表3所示,WKD-L取得了最佳结果,比BAN的Top-1准确率高出约0.9%,比第二高的USKD方法高出0.6%。这一比较表明,WKD方法可以很好地推广到自蒸馏任务中。

22efcd74-d62a-11ef-9310-92fbcf53809c.png

▲表3. 在ImageNet上自蒸馏(Self-KD)的结果

在MS-COCO上的目标检测 研究人员将WKD扩展到Faster-RCNN框架下的目标检测中。对于WKD-L,使用检测头中的分类分支进行Logit蒸馏。对于WKD-F,直接从输入到分类分支的特征中进行知识迁移,即从RoIAlign层输出的特征来计算高斯分布。 对于Logit蒸馏,WKD-L显著优于经典的KD,并略微优于DKD。对于特征蒸馏,WKD-F在两个设置中均显著超过之前的最佳特征蒸馏方法ReviewKD。最后,通过结合WKD-L和WKD-F,表现超过了DKD+ReviewKD。当使用额外的边框回归进行知识迁移时,WKD-L+WKD-F进一步提高并超越了之前的最先进方法FCFD。

22ff3d5e-d62a-11ef-9310-92fbcf53809c.png

▲表4. 在MS-COCO上的目标检测结果。†:使用了额外的边框回归进行知识迁移

总结

Wasserstein距离(WD)在生成模型等多个领域中已展现出相较于KL散度(KL-Div)的显著优势。 然而,在知识蒸馏领域,KL散度仍然占据主导地位,目前尚不清楚Wasserstein距离能否实现更优的表现。 研究人员认为,早期基于Wasserstein距离的知识蒸馏研究未能充分发挥该度量的潜力。 因此,文中提出了一种基于Wasserstein距离的全新知识蒸馏方法,能够从Logit和Feature两个方面进行知识迁移。 大量的实验表明,离散形式的Wasserstein距离在Logit蒸馏中是当前主流KL散度的极具潜力的替代方案,而连续形式的Wasserstein距离在中间层特征迁移中也取得了令人信服的性能表现。

尽管如此,该方法仍存在一定局限性:WKD-L相比基于KL散度的Logit蒸馏方法计算开销更高,而WKD-F假设特征服从高斯分布。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像分类
    +关注

    关注

    0

    文章

    96

    浏览量

    12417
  • 目标检测
    +关注

    关注

    0

    文章

    230

    浏览量

    16379

原文标题:NeurIPS 2024 | 超越KL!大连理工提出WKD:基于WD距离的知识蒸馏新方法

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探访大连理工大学2.8万平方米电子实验室

    带着这样的疑问我们走进大连理工大学,那里有一片属于创造者的圣地——创新创业学院。推开那扇门,就仿佛踏进了一座微缩的未来工业城市,这里提供的不是模拟体验,而是真正的“工业级”实战环境。
    的头像 发表于 12-10 10:08 256次阅读

    工业镜头测量中的“工作距离”是什么?

    工业镜头作为机器视觉系统中的核心组件,在自动化生产、质量检测和精密测量等领域发挥着关键作用。其中,“工作距离”(WorkingDistance,简称WD)是一个至关重要的参数,它直接影响系统
    的头像 发表于 12-06 16:46 87次阅读
    工业镜头测量中的“工作<b class='flag-5'>距离</b>”是什么?

    资讯速递 | 开源鸿蒙具身智能PMC(筹)启动开发者招募

    和开源鸿蒙项目群工作委员会的指导下,开源鸿蒙具身智能PMC(筹)汇聚了涵盖高校、企业、科研机构的多元力量。上交、华为、中国科学院软件研究所、人形机器人(上海)有限公司、金砖国家未来网络研究院、兰州大学、大连理工、东北大学、润开鸿、国开鸿、灵境智源、优
    的头像 发表于 11-28 19:44 104次阅读
    资讯速递 | 开源鸿蒙具身智能PMC(筹)启动开发者招募

    大连理工在单光子精密光谱测量领域取得重要进展

    图a.单光子双梳鬼成像光谱技术基本原理。图b.单光子双梳鬼成像光谱实验装置图。 近日,大连理工大学光电工程与仪器科学学院梅亮教授团队携手之江实验室严国峰研究员团队在单光子精密光谱测量领域取得重要进展
    的头像 发表于 11-18 07:32 82次阅读
    <b class='flag-5'>大连理工</b>在单光子精密光谱测量领域取得重要进展

    HIOKI日置助力 2025 全国大学生电子设计赛总测评圆满落幕

    2025 年 TI 杯全国大学生电子设计竞赛总测评于 8 月 15 日至 22 日在大连理工大学成功举办,来自全国 507 所高校的近 1500 名师生齐聚滨城,在精密仪器的见证下展开创新角逐
    的头像 发表于 09-02 11:55 632次阅读
    HIOKI日置助力 2025 全国大学生电子设计赛总测评圆满落幕

    梦之墨深度支持2025年中国大学生工程实践与创新能力大赛

    “8月5日至9日,由大连理工大学、大连工业大学、大连交通大学联合承办的2025年中国大学生工程实践与创新能力大赛(简称“工创赛”)在大连举行。本届工创赛聚焦“交叉融合工程创新育新质,立
    的头像 发表于 08-18 10:01 851次阅读

    维视教育亮相第63届高等教育博览会

    近日,由中国高等教育学会主办,吉林大学、哈尔滨工业大学、大连理工大学、国药励展展览有限责任公司承办的第63届高等教育博览会在中铁·长春东北亚国际博览中心盛大开启。本届高博会以“融合·创新·引领:服务高等教育强国建设”为主题,聚焦新时代高等教育改革前沿,教育、科技、人才“三位一体”协同发展。
    的头像 发表于 05-27 18:13 779次阅读

    WD400-110S24P1 WD400-110S24P1

    电子发烧友网为你提供AIPULNION(AIPULNION)WD400-110S24P1相关产品参数、数据手册,更有WD400-110S24P1的引脚图、接线图、封装手册、中文资料、英文资料,WD400-110S24P1真值表,
    发表于 03-21 18:39
    <b class='flag-5'>WD</b>400-110S24P1 <b class='flag-5'>WD</b>400-110S24P1

    WD100-110S24N1 WD100-110S24N1

    电子发烧友网为你提供AIPULNION(AIPULNION)WD100-110S24N1相关产品参数、数据手册,更有WD100-110S24N1的引脚图、接线图、封装手册、中文资料、英文资料,WD100-110S24N1真值表,
    发表于 03-21 18:36
    <b class='flag-5'>WD</b>100-110S24N1 <b class='flag-5'>WD</b>100-110S24N1

    WD150-110S24Q1 WD150-110S24Q1

    电子发烧友网为你提供AIPULNION(AIPULNION)WD150-110S24Q1相关产品参数、数据手册,更有WD150-110S24Q1的引脚图、接线图、封装手册、中文资料、英文资料,WD150-110S24Q1真值表,
    发表于 03-21 18:36
    <b class='flag-5'>WD</b>150-110S24Q1 <b class='flag-5'>WD</b>150-110S24Q1

    WD150-110S24N1 WD150-110S24N1

    电子发烧友网为你提供AIPULNION(AIPULNION)WD150-110S24N1相关产品参数、数据手册,更有WD150-110S24N1的引脚图、接线图、封装手册、中文资料、英文资料,WD150-110S24N1真值表,
    发表于 03-21 18:35
    <b class='flag-5'>WD</b>150-110S24N1 <b class='flag-5'>WD</b>150-110S24N1

    WD75-110S24M1 WD75-110S24M1

    电子发烧友网为你提供AIPULNION(AIPULNION)WD75-110S24M1相关产品参数、数据手册,更有WD75-110S24M1的引脚图、接线图、封装手册、中文资料、英文资料,WD75-110S24M1真值表,
    发表于 03-21 18:34
    <b class='flag-5'>WD</b>75-110S24M1 <b class='flag-5'>WD</b>75-110S24M1

    WD50-110S24K1 WD50-110S24K1

    电子发烧友网为你提供AIPULNION(AIPULNION)WD50-110S24K1相关产品参数、数据手册,更有WD50-110S24K1的引脚图、接线图、封装手册、中文资料、英文资料,WD50-110S24K1真值表,
    发表于 03-20 18:59
    <b class='flag-5'>WD</b>50-110S24K1 <b class='flag-5'>WD</b>50-110S24K1

    研华KB Insight智能知识理工具加速工业智能化

    为应对新型工业化进程中“经验未数字化”与“数据未业务化”的双重困局,研华 IoTSuite 工业物联网平台 & AIoT 数智应用开发工具包全新发布又一利器—— KB Insight 智能知识理工具,助力企业知识资产的智能应用
    的头像 发表于 03-10 10:18 909次阅读

    摩尔线程宣布成功部署DeepSeek蒸馏模型推理服务

    近日,摩尔线程智能科技(北京)有限责任公司在其官方渠道发布了一则重要消息,宣布公司已经成功实现了对DeepSeek蒸馏模型推理服务的部署。这一技术突破,标志着摩尔线程在人工智能领域迈出了坚实的一步
    的头像 发表于 02-06 13:49 1185次阅读