搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

介绍网络压缩算法，知识蒸馏

引言

学过化学的都知道蒸馏这个概念，就是利用不同组分的沸点不同，将不同组分从混合液中分离出来。知识蒸馏用于网络压缩，也具有类似的性质。具体的讲，有一个大的神经网络充当了“老师”的角色，她将书本上的知识先经过自己的转化和吸收，然后再传授给“学生”网络。学生网络模型相对较小，但是经过老师将知识提取教授，也可以实现大网络的功能。

知识蒸馏的方法是大名鼎鼎的Hinton提出的，这种方法实现了大网络向小网络的知识迁移，使得应用场景可以扩展到移动端。接下来我们具体看看知识蒸馏的整个过程。

1

原理

表面上看，大网络应该有更好的表达能力，或者说泛化能力。而小网络节点数量和大网络还有很大的差距，它如何能够做到逼近大网络的结果呢？首先，这与具体的应用场景范围有关，在一定的场景下，小网络可以接近大网络的分类能力。这就好像对于某个更复杂的函数，当限定某个值域的时候，可以用一些简单函数来逼近。其次，网络分类器最终的结果是用概率来表示的，分类结果取决于概率最大的。因此最大概率是90%和最大概率是60%的最终分类结果是一样的，这点就给了小网络更灵活的表达方式。最后就是小网络逼近大网络的程度和大网络的冗余程度有关，这类似于对大网络实行剪枝的结果。

那么如何训练一个小网络呢？我们可以先考虑一下在数值分析中，用一个函数S(x)来逼近另外一个函数f(x)，那么就可以通过最小化这两个函数在每个点的平方和来实现。同理，训练小的网络也必须使用大网络的输入和输出作为训练集，而不能再使用训练大网络的训练集了。原始训练集的标注结果是绝对的（是和不是：1,0），而大网络的输出结果是一个概率向量，其包含了每一类的概率大小。这个结果不再仅仅只含有原始训练集的信息，它还包含了大网络的信息。比如在原始图片中，一张猫的图片结果只有一个，但是经过大网络后，不仅仅有猫的结果，还有狗，房子，树等每个类别的概率结果。其他类别的概率实际上告诉了我们不同类别之间存在的差异和共性，比如一张猫的图片中是狗的概率可能就比是房子的概率大，因为猫和狗相对于猫和房子有更大的共性。

神经网络通常使用softmax函数来生成分类概率，这个函数形式为：

其中T是温度，通常设置为1。使用较高的T可以产生更加softer的概率分布。更softer的概率分布提高网络的泛化能力，有利于小网络的训练。

写到这里小编对softmax函数感到好奇，为什么神经网络都采用softmax来进行概率计算呢？学过热力学的会发现，这个softmax函数非常类似不同能级上粒子分布概率，位于能级E的粒子分布概率就是正比于：

而且温度越高高能级粒子概率也越大，这与softmax函数也有同样的结果。其实观察他们的推导过程就会发现，它们之所以有相同的形式来自于它们都是多分类问题，而且概率模型都属于广义线性模型。Softmax函数正是在广义线性函数的假设上推导出来的。现在我们给出其传统推导，和基于热力学统计的推导方法。

首先看什么是广义线性模型，广义线性模型是用于处理条件概率的一个基本模型，很多常见的分布模型（伯努利，高斯等）都属于广义线性模型。定义线性预测算子：

定义y基于x的条件概率分布，这个分布就是广义线性模型：

分类问题就是求在给定输入x的条件下，估计y值，即y属于哪个类的问题。可以通过期望值来作为y的估计。容易得到这个期望值为：

因此一旦知道y的概率分布就知道了y的估计。这个估计就是回归函数。现在我们来看softmax的传统推导。

Y有多个可能的分类：

每种分类对应着概率：

定义：

其中有：

于是得到广义分布：

其中有，

然后可以求出：

求得估计值：

这就是softmax函数。

现在我们从统计热力学角度来推导softmax函数。

神经网络的作用是对输入进行特征提取，我们可以把这个提取过程表示为：

现在我们需要来理解E_i，这个应该是表示从属于特征i的程度，我们可以选择一定函数f(E_i)来作为评价属于特征i的程度。现在我们假设特征1到k是可以涵盖所有输入的，即任何输入都是由这些特征构成的，特征值反应了输入属于某个特征的量，那么所有这些特征的量之和应该是所有输入量的和，那么我们可以有：

我们现在需要求y属于这个特征的概率，即：

现在我们假设有N个数，这些数要分配不同的y值。这些数被分配是完全随机的，但是受到每种y值的数量限制，对应E_i的数量为N_i。那么将这N个数分配给k个不同类的分配方式可以得到：

我们来最大化W，即求最大似然函数：

满足约束条件：

我们利用拉格朗日对偶原理来求解极值：

我们可以得到类似玻尔兹曼分布的公式：

其中u就是温度1/T。

现在回到正题，过于softer的代价函数可能会造成分类结果错误率低，为了平衡分类错误和小模型泛化能力，hinton提出使用两个代价函数来进行训练，一个是T值较大，另外一个是T值为1。通过调节这两个代价函数的比例来获得满意的训练结果。

2

实验结果

Hinton的论文中分别在MINIST，语音识别上进行了实验。我们仅仅看一下实验结果，对知识蒸馏效果有个简单印象。更深入的理解离不开实践，只有真正去写代码去看结果，才能不会纸上谈兵。

1） MINIST

大网络含有2个隐含层，1200个激活单元，60000个训练集图片。作者通过剪枝来将大网络减小到只有800个激活单元，将温度增加到20，相比于没有regularization会减小很大错误率。

2）语音识别

这里作者使用多个小网络集合来作为教师网络，然后单个网络作为学生网络。每个网络为8个隐含层，2560个激活单元，训练集有14000个标注数据。结果如下：

其中WER为错误率。

总结

本文介绍了网络压缩算法，知识蒸馏。很多是小编个人理解，如有不同意见欢迎指正交流。更多可以参考hinton大神的知识蒸馏文献。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4761

浏览量
97147
函数

函数

+关注

关注
3

文章
4406

浏览量
66841
网络节点

网络节点

+关注

关注
0

文章
54

浏览量
16827

原文标题：【网络压缩三】知识蒸馏

文章出处：【微信号：FPGA-EETrend，微信公众号：FPGA开发圈】欢迎添加关注！文章转载请注明出处。

评论

精选推荐
更多

文章

资料

帖子

从系统视角选时钟：一张“应用分层地图”讲清 TCXO / OCXO / SAW 的正确打开方式

FCom富士晶振
7小时前

449 阅读

基于AIK-RA8D1的人脸识别的应用演示

RA生态工作室
6天前

752 阅读

2025中国人工智能大会，藏着AI的行动派时刻

脑极体
23小时前

1519 阅读

T型三电平拓扑架构深入剖析与碳化硅MOSFET技术优势的全面研究报告

杨茜
1天前

2701 阅读

温补晶振选型有哪些关键参数呢？

赛思电子
4天前

3615 阅读

Microsoft内部WinCE培训资料

Ben_tree
4.27 MB

免费

0下载

Verilog数字系统设计

leixiaodong007
22 MB

免费

0下载

单片机控制系统的抗干扰设计

Kelly Yang
130.0 KB

免费

114下载

电子制作实例合集电子制作5000例多本电子书免费下载

0.01 MB

免费

1662下载

树莓派4B控制步进电机进阶教程(一)

訾存贵
0.19 MB

2积分

9下载

【乾芯QXS320F开发板试用】拿板第一天：环境准备

jf_87031193
22小时前

41 阅读

【瑞萨RA6E2地奇星开发板试用】+ 2.串口打印测试

jf_43382582
22小时前

153 阅读

【社区之星】李杨——把头扎进沙漠，发现沙子下是星辰大海

dianzi_0101
22小时前

122 阅读

我们计划设计一个基于电容的自举电路，招募英雄！

jf_53150340
22小时前

202 阅读

【瑞萨RA6E2地奇星开发板试用】+ 1.点灯测试1500ms跳转一次

jf_43382582
22小时前

147 阅读

推荐专栏
更多

企业产品

资料

方案
更多

华秋（原“华强聚丰”）：

电子发烧友

华秋开发

华秋电路(原"华强PCB")

华秋商城(原"华强芯城")

华秋智造

My ElecFans

APP
网站地图

设计技术

可编程逻辑

电源/新能源

MEMS/传感技术

测量仪表

嵌入式技术

制造/封装

模拟技术

RF/无线

接口/总线/驱动

处理器/DSP

EDA/IC设计

存储技术

光电显示

EMC/EMI设计

连接器

行业应用

LEDs

汽车电子

音视频及家电

通信网络

医疗电子

人工智能

虚拟现实

可穿戴设备

机器人

安全设备/系统

军用/航空电子

移动通信

工业控制

便携设备

触控感测

物联网

智能电网

区块链

新科技

特色内容

专栏推荐

学院

设计资源

设计技术

电子百科

电子视频

元器件知识

工具箱

VIP会员

最新技术文章

产品地图

品牌地图

社区

小组

论坛

问答

评测试用

企业服务

产品

资料

文章

方案

企业

供应链服务

硬件开发

华秋电路

华秋商城

华秋智造

nextPCB

BOM配单

媒体服务

网站广告

在线研讨会

活动策划

新闻发布

新品发布

小测验

设计大赛

华秋

关于我们

投资关系

新闻动态

加入我们

联系我们

举报投诉

社交网络

微博

移动端

发烧友APP

硬声APP

WAP

联系我们

广告合作

王婉珠：wangwanzhu@elecfans.com

内容合作

黄晶晶：huangjingjing@elecfans.com

内容合作（海外）

张迎辉：mikezhang@elecfans.com

供应链服务 PCB/IC/PCBA

江良华：lanhu@huaqiu.com

投资合作

曾海银：zenghaiyin@huaqiu.com

社区合作

刘勇：liuyong@huaqiu.com

关注我们的微信

下载发烧友APP

电子发烧友观察

电子工程师社区

1-32层PCB打样·中小批量

元器件现货·全球代购·SmartBOM

SMT贴片·PCBA加工

PCB Manufacturer

华秋简介

企业动态

联系我们

企业文化

企业宣传片

加入我们

版权所有 © 湖南华秋数字科技有限公司

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层（0731-88081133）
电子发烧友 （电路图） 湘公网安备43011202000918 工商网监湘ICP备2023018690号-1