信息保留的二值神经网络IR-Net，落地性能和实用性俱佳-电子发烧友网

在CVPR 2020上，商汤研究院链接与编译组和北京航空航天大学刘祥龙老师团队提出了一种旨在优化前后向传播中信息流的实用、高效的网络二值化新算法IR-Net。不同于以往二值神经网络大多关注量化误差方面，本文首次从统一信息的角度研究了二值网络的前向和后向传播过程，为网络二值化机制的研究提供了全新视角。同时，该工作首次在ARM设备上进行了先进二值化算法效率验证，显示了IR-Net部署时的优异性能和极高的实用性，有助于解决工业界关注的神经网络二值化落地的核心问题。

动机

二值神经网络因其存储量小、推理效率高而受到社会的广泛关注［1］。然而与全精度的对应方法相比，现有的量化方法的精度仍然存在显著的下降。

对神经网络的研究表明，网络的多样性是模型达到高性能的关键［2］，保持这种多样性的关键是：（1）网络在前向传播过程中能够携带足够的信息；（2）反向传播过程中，精确的梯度为网络优化提供了正确的信息。二值神经网络的性能下降主要是由二值化的有限表示能力和离散性造成的，这导致了前向和反向传播的严重信息损失，模型的多样性急剧下降。同时，在二值神经网络的训练过程中，离散二值化往往导致梯度不准确和优化方向错误。如何解决以上问题，得到更高精度的二值神经网络？这一问题被研究者们广泛关注，本文的动机在于：通过信息保留的思路，设计更高性能的二值神经网络。

基于以上动机，本文首次从信息流的角度研究了网络二值化，提出了一种新的信息保持网络（IR-Net）：（1）在前向传播中引入了一种称为Libra参数二值化（Libra-PB）的平衡标准化量化方法，最大化量化参数的信息熵和最小化量化误差；（2）在反向传播中采用误差衰减估计器（EDE）来计算梯度，保证训练开始时的充分更新和训练结束时的精确梯度。

IR-Net提供了一个全新的角度来理解二值神经网络是如何运行的，并且具有很好的通用性，可以在标准的网络训练流程中进行优化。作者使用CIFAR-10和ImageNet数据集上的图像分类任务来评估提出的IR-Net，同时借助开源二值化推理库daBNN进行了部署效率验证。

方法设计

高精度二值神经网络训练的瓶颈主要在于训练过程中严重的信息损失。前向sign函数和后向梯度逼近所造成的信息损失严重影响了二值神经网络的精度。为了解决以上问题，本文提出了一种新的信息保持网络（IR-Net）模型，它保留了训练过程中的信息，实现了二值化模型的高精度。

前向传播中的Libra Parameter Binarization（Libra-PB）

在此之前，绝大多数网络二值化方法试图减小二值化操作的量化误差。然而，仅通过最小化量化误差来获得一个良好的二值网络是不够的。因此，Libra-PB设计的关键在于：使用信息熵指标，最大化二值网络前向传播过程中的信息流。

根据信息熵的定义，在二值网络中，二值参数Qx（x）的熵可以通过以下公式计算：

如果单纯地追求量化误差最小化，在极端情况下，量化参数的信息熵甚至可以接近于零。因此，Libra-PB将量化值的量化误差和二值参数的信息熵同时作为优化目标，定义为：

在伯努利分布假设下，当p=0.5时，量化值的信息熵取最大值。

因此，在Libra-PB通过标准化和平衡操作获得标准化平衡权重，如图2所示，在Bernoulli分布下，由Libra-PB量化的参数具有最大的信息熵。有趣的是，对权重的简单变换也可以极大改善前向过程中激活的信息流。因为此时，各层的二值激活值信息熵同样可以最大化，这意味着特征图中信息可以被保留。

在以往的二值化方法中，为了使量化误差减小，几乎所有方法都会引入浮点尺度因子来从数值上逼近原始参数，这无疑将高昂的浮点运算引入其中。在Libra-PB中，为了进一步减小量化误差，同时避免以往二值化方法中代价高昂的浮点运算，Libra-PB引入了整数移位标量s，扩展了二值权重的表示能力。

因此最终，针对正向传播的Libra参数二值化可以表示如下：

IR-Net的主要运算操作可以表示为：

反向传播中的Error Decay Estimator（EDE）

由于二值化的不连续性，梯度的近似对于反向传播是不可避免的，这种对sign函数的近似带来了两种梯度的信息损失，包括截断范围外参数更新能力下降造成的信息损失，和截断范围内近似误差造成的信息损失。为了更好的保留反向传播中由损失函数导出的信息，平衡各训练阶段对于梯度的要求，EDE引入了一种渐进的两阶段近似梯度方法。

第一阶段：保留反向传播算法的更新能力。将梯度估计函数的导数值保持在接近1的水平，然后逐步将截断值从一个大的数字降到1。利用这一规则，近似函数从接近Identity函数演化到Clip函数，从而保证了训练早期的更新能力。第二阶段：使0附近的参数被更准确地更新。将截断保持为1，并逐渐将导数曲线演变到阶梯函数的形状。利用这一规则，近似函数从Clip函数演变到sign函数，从而保证了前向和反向传播的一致性。

各阶段EDE的形状变化如图3（c）所示。通过该设计，EDE减小了前向二值化函数和后向近似函数之间的差异，同时所有参数都能得到合理的更新。

实验结果

作者使用了两个基准数据集：CIFAR-10和ImageNet（ILSVRC12）进行了实验。在两个数据集上的实验结果表明，IR-Net比现有的最先进方法更具竞争力。

Deployment Efficiency

为了进一步验证IR-Net在实际移动设备中的部署效率，作者在1.2GHz 64位四核ARM Cortex-A53的Raspberry Pi 3B上进一步实现了IR-Net，并在实际应用中测试了其真实速度。表5显示，IR-Net的推理速度要快得多，模型尺寸也大大减小，而且IR-Net中的位移操作几乎不会带来额外的推理时间和存储消耗。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98743
算法

算法

+关注

关注
23

文章
4455

浏览量
90751
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24349

详解深度学习、神经网络与卷积神经网络的应用

在如今的网络时代，错综复杂的大数据和网络环境，让传统信息处理理论、人工智能与人工神经网络都面临巨大的挑战。近些年，深度学习逐渐走进人们的视线，通过深度学习解决若干问题的案例越来越多。一

发表于 01-11 10:51 •719次阅读

详解深度学习、<b class='flag-5'>神经网络</b>与卷积<b class='flag-5'>神经网络</b>的应用

具有小浮点的高性能神经网络

电子发烧友网站提供《具有小浮点的高性能神经网络.pdf》资料免费下载

发表于 09-13 17:07 •0次下载

具有小浮点的高<b class='flag-5'>性能</b><b class='flag-5'>神经网络</b>

人工神经网络和bp神经网络的区别

人工神经网络和bp神经网络的区别人工神经网络（Artificial Neural Network, ANN）是一种模仿人脑神经元网络结构和功能的计算模型，也被称为

发表于 08-22 16:45 •3433次阅读

cnn卷积神经网络原理 cnn卷积神经网络的特点是什么

cnn卷积神经网络原理 cnn卷积神经网络的特点是什么卷积神经网络（Convolutional Neural Network，CNN）是一种特殊的神经网络结构，主要应用于图像处理和

发表于 08-21 17:15 •1143次阅读

卷积神经网络和深度神经网络的优缺点卷积神经网络和深度神经网络的区别

深度神经网络是一种基于神经网络的机器学习算法，其主要特点是由多层神经元构成，可以根据数据自动调整神经元之间的权重，从而实现对大规模数据进行预测和分类。卷积

发表于 08-21 17:07 •2321次阅读

卷积神经网络的介绍什么是卷积神经网络算法

的深度学习算法。CNN模型最早被提出是为了处理图像，其模型结构中包含卷积层、池化层和全连接层等关键技术，经过多个卷积层和池化层的处理，CNN可以提取出图像中的特征信息，从而对图像进行分类。一、卷积神经网络算法卷积神经网络算法

发表于 08-21 16:49 •1425次阅读

卷积神经网络的基本原理卷积神经网络发展卷积神经网络三大特点

卷积神经网络的基本原理卷积神经网络发展历程卷积神经网络三大特点卷积神经网络的基本原理卷积神经网络（Convolutional Ne

发表于 08-21 16:49 •1441次阅读

卷积神经网络模型原理卷积神经网络模型结构

数据的不同方面，从而获得预测和最终的表现。本文将提供有关卷积神经网络模型的工作原理和结构的详细信息，包括其在图像、语音和自然语言处理等不同领域的应用。卷积神经网络的工作原理：卷积神经网

发表于 08-21 16:41 •660次阅读

卷积神经网络模型有哪些？卷积神经网络包括哪几层内容？

、视频等信号数据的处理和分析。卷积神经网络就是一种处理具有类似网格结构的数据的神经网络，其中每个单元只处理与之直接相连的神经元的信息。本文将对卷积神

发表于 08-21 16:41 •1507次阅读

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点卷积神经网络（Convolutional neural network，CNN）是一种基于深度学习技术的

发表于 08-21 16:41 •1933次阅读

卷积神经网络的应用卷积神经网络通常用来处理什么

卷积神经网络的应用卷积神经网络通常用来处理什么卷积神经网络（Convolutional Neural Network，简称CNN）是一种在神经网络领域内广泛应用的

发表于 08-21 16:41 •3987次阅读

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法

一。其主要应用领域在计算机视觉和自然语言处理中，最初是由Yann LeCun等人在20世纪80年代末和90年代初提出的。随着近年来计算机硬件性能的提升和深度学习技术的发展，CNN在很多领域取得了重大的进展和应用。一、卷积神经网络模型（一）卷积层（Convolution

发表于 08-17 16:30 •916次阅读

什么是神经网络？为什么说神经网络很重要？神经网络如何工作？

神经网络是一个具有相连节点层的计算模型，其分层结构与大脑中的神经元网络结构相似。神经网络可通过数据进行学习，因此，可训练其识别模式、对数据分类和预测未来事件。

发表于 07-26 18:28 •1968次阅读

浅析三种主流深度神经网络

来源：青榴实验室 1、引子深度神经网络(DNNs)最近在图像分类或语音识别等复杂机器学习任务中表现出的优异性能令人印象深刻。在本文中，我们将了解深度神经网络的基础知识和三个最流行神经网络

发表于 05-15 14:20 •610次阅读

三个最流行神经网络

在本文中，我们将了解深度神经网络的基础知识和三个最流行神经网络：多层神经网络(MLP)，卷积神经网络(CNN)和递归神经网络(RNN)。

发表于 05-15 14:19 •1175次阅读

搜索历史

信息保留的二值神经网络IR-Net，落地性能和实用性俱佳

动机

方法设计

评论

详解深度学习、神经网络与卷积神经网络的应用

具有小浮点的高性能神经网络

人工神经网络和bp神经网络的区别

cnn卷积神经网络原理 cnn卷积神经网络的特点是什么

卷积神经网络和深度神经网络的优缺点卷积神经网络和深度神经网络的区别

卷积神经网络的介绍什么是卷积神经网络算法

卷积神经网络的基本原理卷积神经网络发展卷积神经网络三大特点

卷积神经网络模型原理卷积神经网络模型结构

卷积神经网络模型有哪些？卷积神经网络包括哪几层内容？

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点

卷积神经网络的应用卷积神经网络通常用来处理什么

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法

什么是神经网络？为什么说神经网络很重要？神经网络如何工作？

浅析三种主流深度神经网络

三个最流行神经网络