0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

加法网络再突破—NeurIPS 2020 Spotlight

电子设计 来源:电子设计 作者:电子设计 2020-12-08 22:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

华为诺亚方舟实验室联合悉尼大学发布论文《Kernel Based Progressive Distillation for Adder Neural Networks》,提出了针对加法神经网络的蒸馏技术,ResNet-34和ResNet-50网络在ImageNet上分别达到了68.8%和76.8%的准确率,效果与相同结构的CNN相比持平或超越,该论文已被NeurIPS2020接收。

开源链接:
huawei-noah/AdderNet​github.com
论文链接:
https://arxiv.org/pdf/2009.13044.pdf​arxiv.org

研究背景

深度卷积神经网络(CNN)被广泛应用于诸多计算机视觉领域的实际任务中(例如,图片分类、物体检测、语义分割等)。然而,为了保证性能,神经网络通常是过参数化的,因此会存在大量的冗余参数。近期提出的加法神经网络(ANN),通过将卷积操作中的距离度量函数替换为L1距离,极大减少了神经网络中的乘法操作,从而减少了网络运行所需的功耗和芯片面积。
然而,ANN在准确率方面和同结构的CNN相比仍然有一定差距,在某种程度上限制了ANN在实际应用中对CNN的替换。为了提高ANN的性能,我们提出了一种基于核的渐进蒸馏方法。具体的,我们发现一个训练好的ANN网络其参数通常服从拉普拉斯分布,而一个训练好的CNN网络其参数通常服从高斯分布。因此,我们对网络中间层的特征图输出进行核变换后,使用距离度量函数估计教师网络(CNN)和学生网络(ANN)之间的损失。对于最后一层,我们使用传统的KL散度估计两个网络之间的损失。同时,在训练中我们使用随机初始化的教师网络,与学生网络同时训练,以减少两个网络之间参数分布的差异性。
实验表明,我们的算法得到的ANN能够在CIFAR-10,CIFAR-100,ImageNet等标准图片分类数据集上达到或超越同结构CNN的准确率。
对网络中间层特征图输出进行核变换
ANN本身精度不好的原因是原始ANN在反向传播时,使用的是近似的梯度,导致目标函数无法向着最小的方向移动。传统KD方法应用到ANN上效果不佳的原因,在于ANN的权重分布是拉普拉斯分布,而CNN的权重分布为高斯分布,因此分布不同导致无法直接对中间层的feature map使用KD方法。本方法首先将核变换作用于教师网络和学生网络的中间层输出,并使用1x1卷积对新的输出进行配准。之后,结合最后一层的蒸馏损失与分类损失,得到整体的损失函数。

渐进式蒸馏算法
传统的蒸馏方法使用固定的,训练好的教师网络来教学生网络。这样做会带来问题。由于教师网络和学生网络处于不同的训练阶段,因此他们的分布会因为训练阶段的不同而不同,所以会导致KD方法效果不好。因此我们采用渐进式蒸馏方法,让教师网络和学生网络共同学习,有助于KD方法得到好的结果。即目标函数变为:

其中b为当前的step。
实验结果
我们在CIFAR-10、CIFAR-100、ImageNet三个数据集上分别进行了实验。
下表是在CIFAR-10和CIFAR-100数据集上的结果,我们使用了VGG-small、ResNet-20与ResNet-32作为教师网络,同结构的ANN作为学生网络。可以看到,使用了本方法得到的ANN在分类准确率上相比原始的ANN有大幅度的提升,并且能够超过同结构的CNN模型。表格中#Mul表示网络中乘法操作的次数。#Add表示加法操作次数,#XNOR表示同或操作的次数。

下表展示了在ImageNet数据集上的结果,我们使用ResNet-18与ResNet-50网络作为教师网络,同结构的ANN作为学生网络。结果显示我们的方法得到的ANN在分类准确率上相比同结构CNN基本相同或能够超越。

最后,我们展示了ResNet-20,ANN-20与通过本方法得到的PKKD ANN-20模型在CIFAR-10与CIFAR-100数据集上的训练精度曲线与测试精度曲线。

图中的实线表示训练精度,虚线表示测试精度。在两个数据集中,CNN的训练和测试准确率都超过了原始的ANN模型。这是因为在训练原始ANN时,反向传播的梯度使用的是L2 norm来近似,因此梯度方向是不准确的。当使用本方法后,CNN的训练过程可以指导ANN的训练,因此可以得到更好的结果。同时,知识蒸馏方法能够帮助学生网络防止过拟合,这也是我们的方法有最低的训练精度和最高的测试精度的原因。



推荐阅读



文章首发知乎,更多深度模型压缩相关的文章请关注深度学习压缩模型论文专栏

审核编辑:符乾江

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47466
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123930
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    地平线五篇论文入选NeurIPS 2025与AAAI 2026

    近日,两大顶级学术会议录用结果相继揭晓,地平线凭借在机器人算法领域的深度钻研,共有5篇论文从全球数万份投稿中脱颖而出,分别入选NeurIPS 2025与AAAI 2026。
    的头像 发表于 11-27 11:39 539次阅读
    地平线五篇论文入选<b class='flag-5'>NeurIPS</b> 2025与AAAI 2026

    HUAWEI Mate X7正式发布,折叠引领者,巅峰之上突破

    和极致体验,构建覆盖全形态的折叠产品矩阵。HUAWEI Mate X7,聚势登场。 华为常务董事、产品投资委员会主任、终端BG董事长余承东表示:“折叠引领者,巅峰之上突破,Mate X7 越展开,越心动!” 心动设计,云锦天章 HUAWEI Mate X7采用全新“时空
    的头像 发表于 11-26 09:27 415次阅读
    HUAWEI Mate X7正式发布,折叠引领者,巅峰之上<b class='flag-5'>再</b><b class='flag-5'>突破</b>

    后摩智能六篇论文入选四大国际顶会

    2025年以来,后摩智能在多项前沿研究领域取得突破性进展,近期在NeurIPS、ICCV、AAAI、ACMMM四大国际顶会上有 6 篇论文入选。致力于大模型的推理优化、微调、部署等关键技术难题,为大模型的性能优化与跨场景应用提供了系统化解决方案。
    的头像 发表于 11-24 16:42 751次阅读
    后摩智能六篇论文入选四大国际顶会

    理想汽车12篇论文入选全球五大AI顶会

    2025年三季度以来,理想汽车基座模型团队在国际顶级AI学术会议上取得重大突破,共有12篇高质量研究论文入选AAAI、NeurIPS、EMNLP、ACM MM、ICCV五大顶会。
    的头像 发表于 11-21 14:44 453次阅读
    理想汽车12篇论文入选全球五大AI顶会

    华为助力南非MTN在IP网络领域实现突破

    在全球通信行业权威机构TM Forum(全球电信管理论坛)组织的自智网络(Autonomous Network,简称“AN”)等级测评中,华为助力南非MTN在IP网络领域实现突破,获得TM
    的头像 发表于 11-06 11:06 730次阅读

    自写计算IP思路以及源码

    所得的乘法结果之间的位差是2位,所以叠加时会有2位的重叠,这里我采用了错位拼接最后整体相加的方式规避了重叠的问题,即间隔4位的乘法结果可以直接拼接,求和时不会有对应位的加法运算。 比如以下代码,将
    发表于 10-30 06:15

    思必驰与上海交大联合实验室五篇论文入选NeurIPS 2025

    近日,机器学习与计算神经科学领域全球顶级学术顶级会议NeurIPS 2025公布论文录用结果,思必驰-上海交大联合实验室共有5篇论文被收录。NeurIPS(Conference on Neural
    的头像 发表于 10-23 15:24 608次阅读
    思必驰与上海交大联合实验室五篇论文入选<b class='flag-5'>NeurIPS</b> 2025

    如何限制PFC浪涌电流

    本期,为大家带来的是《如何限制 PFC 浪涌电流》,将介绍一种低成本、简单有效的方法来满足模块化硬件系统 - 通用冗余电源 (M-CRPS) 规格要求,限制浪涌电流。
    的头像 发表于 07-24 11:30 3.1w次阅读
    如何限制PFC<b class='flag-5'>再</b>浪涌电流

    DEKRA德凯在网络安全测试与认证领域实现新突破

    首家获此资质的测试实验室,服务范围涵盖工业控制、智能制造、能源、汽车及消费类物联网等多个高安全需求行业。这标志着德凯在网络安全测试与认证领域实现新突破,能够为企业提供一站式、符合国际标准的网络安全测试与认证服务。
    的头像 发表于 06-09 17:45 1162次阅读

    正点原子Linux最小系统板RK3506B资料发布!超低功耗,满载功耗低发热小,实现性能与能效双突破

    正点原子Linux最小系统板RK3506B资料发布!超低功耗,满载功耗低发热小,实现性能与能效双突破! 正点原子RK3506B开发板基于RK3506B处理器,搭载四核强芯,3
    发表于 05-15 15:27

    openKylin社区会员突破1000家

    在开源技术驱动全球创新的时代浪潮中,OpenAtom openKylin(简称“openKylin”)开源操作系统社区迎重大里程碑——企业会员突破1000家。此次会员突破1000家,是社区发展
    的头像 发表于 04-25 13:05 934次阅读

    人造太阳升级!中国核聚变实现「双亿度」突破

    近日,我国核聚变领域再获重大突破。中核集团核工业西南物理研究院宣布,新一代“人造太阳”装置——中国环流三号首次实现了原子核温度1.17亿度、电子温度1.6亿度的“双亿度”突破,并大幅提升了综合参数
    的头像 发表于 04-18 11:29 1125次阅读
    人造太阳<b class='flag-5'>再</b>升级!中国核聚变实现「双亿度」<b class='flag-5'>突破</b>

    电机高效制造在企业生产中的应用

    高效制造在企业生产中的应用.pdf (免责声明:本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!)
    发表于 04-07 17:31

    NVIDIA实现神经网络渲染技术的突破性增强功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神经网络渲染技术的突破性增强功能。NVIDIA 与微软合作,将在 4 月的 Microsoft DirectX 预览版中增加神经网络着色技术,让开
    的头像 发表于 04-07 11:33 889次阅读

    过期的锡膏是否还能使用?

    过期的锡膏是否还能使用,取决于多个因素,包括锡膏的储存条件、过期时间以及锡膏本身的特性。以下是对过期锡膏能否使用的详细分析:
    的头像 发表于 12-31 09:15 992次阅读