MobileAI2021的图像超分竞赛的最佳方案-电子发烧友网

今天要介绍的MobileAI2021的图像超分竞赛的最佳方案，无论是PSNR指标还是推理速度均显著优于其他方案，推理速度达到了手机端实时（《40ms@1080P）。

Abstract

尽管基于深度学习的图像超分取得前所未有的进展，但实际应用要求i越来越高的性能、效率，尤其是移动端推理效率。智能手机的升级迭代、5G的盛行，用户能感知到的图像/视频分辨率越来越高，从早期的480过度到720p，再到1080p，再到最近的1k、4k。高分辨率需要更高的计算量，占用更多的RAM，这就导致了端侧设备的部署问题。

本文旨在设计一种8-bit量化版高效网络并将其部署到移动端，整个设计过程如下：

首先，我们通过将轻量型超分架构分解并分析每个节点的推理延迟，进而确定可利用的算子；

然后，我们深入分析了何种类型的架构便于进行8-bit量化并提出了ABPN（Anchor-BasedPlainNetwork）；

最后，我们采用量化感知训练（Quantization-AwareTraining，QAT）策略进一步提升模型的性能。

我们所设计的模型能以2dB指标优于8-bit量化版FSRCNN，同时满足实际速度需求。

Method

接下来，我们从节点延迟测试开始，然后引出本文方案背后的思考，最后构建所提ABPN。

Meta-nodeLatency

由于我们的目标在于构建一种实时量化模型用于真实场景（比如实时视频超分）。我们需要做的第一件事就是构建可移植算子集并统计每个算子的耗时。

我们将当前轻量型网络（如EDSR、CARN、IMDN、IDN、LatticeNet）进行分解构建初始算子集；

我们在SynapticsDolphin平台（专用NPU）上测试每个算子的延迟。

上述算子可以分为四大类：张量操作、卷积算子、激活算子、resize，见上表。从上表可以得出四个发现：

近期的SOTA轻量架构使用的技术似乎难以在移动端部署。

EDSR采用了大量的ResBlock，每个ResBlock会引入元素加，该操作甚至比高速优化的卷积还要慢；

CARN采用了全局与局部特征集成，每个集成过程包含一个concat与一个卷积，仅仅带来了0.09dB指标提升；

由于大量的特征分离与拼接，IDN与IMDN同样存在端侧部署问题；

LatticeNet的部署问题更为严重，它采用了16个CA模块，每个CA模块包含一个元素加、一个元素乘、两个池化层，四个卷积，导致了过高的计算负担。

另一个常见问题：它们都需要保存前面层的特征并采用控制数据流动。这种长距离依赖会导致RAM的低频处理，这是因为端侧内存非常有限。

因此，我们将不考虑特征融合、特征蒸馏、组卷积以及注意力机制。

尽管卷积的参数量是卷积的9倍，但由于并行计算的缘故，两者的推理速度差别并不大。因此，我们采用卷积以得到更大感受野。

在激活函数方面，我们选择ReLU。这是因为它要比LeakyReLu速度更快，而且i两者导致的性能差异非常小；

由于HR与LR之间的坐标映射导致resize操作的推理速度过慢。

Anchor-basedResidualLearning

正如前一节所讨论的，能用的算子非常有限。为得到一个好的解决方案，我们深入分析了架构设计与INT8量化之间的相关性。

据我们所知，其难度主要在于I2I（Image-to-Image，I2I）映射的高动态范围，最直接的想法是生成低标准差权值与激活。有两种方式可以达成该目的：

添加BN层：BN往往被集成在ResBlock中，尽管不会导致额外耗时与内存占用，但会导致0.2dB的性能下降。

残差学习：近邻像素往往具有相似的值，很自然的一种选择就是学习残差。残差学习又可以分为以下两种：

ISRL：图像空间的残差学习

FSRL：特征空间的残差学习。

图像空间的残差学习在早期的工作（如VDSR，DRRN）中有得到应用，而特征空间的残差学习则更多在近期的SOTA方案（如SRGAN、IDN、IMDN）中得到应用并取得了稍优的性能。然而，我们认为：ISRL更适合于INT8量化。

从前面Table1中可以看到：图像空间插值存在不可接受的推理耗时，甚至仅仅一次resize都无法满足实时需求。为解决该问题，我们提出了ABRL（Anchor-BasedResidualLearning）：它直接在LR空间复制每个像素9次为HR空间的每个像素生成锚点。受益于PixelShuffle层，所提ABRL可以通过一个concat+一个元素加操作实现。