0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MobileAI2021的图像超分竞赛的最佳方案

科技观察员 来源:AIWalker 作者:HappyAIWalker 2022-04-15 15:35 次阅读

今天要介绍的MobileAI2021的图像超分竞赛的最佳方案,无论是PSNR指标还是推理速度均显著优于其他方案,推理速度达到了手机端实时(《40ms@1080P)。

Abstract

尽管基于深度学习的图像超分取得前所未有的进展,但实际应用要求i越来越高的性能、效率,尤其是移动端推理效率。智能手机的升级迭代、5G的盛行,用户能感知到的图像/视频分辨率越来越高,从早期的480过度到720p,再到1080p,再到最近的1k、4k。高分辨率需要更高的计算量,占用更多的RAM,这就导致了端侧设备的部署问题。

本文旨在设计一种8-bit量化版高效网络并将其部署到移动端,整个设计过程如下:

首先,我们通过将轻量型超分架构分解并分析每个节点的推理延迟,进而确定可利用的算子;

然后,我们深入分析了何种类型的架构便于进行8-bit量化并提出了ABPN(Anchor-BasedPlainNetwork);

最后,我们采用量化感知训练(Quantization-AwareTraining,QAT)策略进一步提升模型的性能。

我们所设计的模型能以2dB指标优于8-bit量化版FSRCNN,同时满足实际速度需求。

Method

接下来,我们从节点延迟测试开始,然后引出本文方案背后的思考,最后构建所提ABPN。

Meta-nodeLatency

由于我们的目标在于构建一种实时量化模型用于真实场景(比如实时视频超分)。我们需要做的第一件事就是构建可移植算子集并统计每个算子的耗时。

我们将当前轻量型网络(如EDSR、CARN、IMDN、IDN、LatticeNet)进行分解构建初始算子集;

我们在SynapticsDolphin平台(专用NPU)上测试每个算子的延迟。

poYBAGJZH6qAbTeIAAW4n7Z4ank948.png

上述算子可以分为四大类:张量操作、卷积算子、激活算子、resize,见上表。从上表可以得出四个发现:

近期的SOTA轻量架构使用的技术似乎难以在移动端部署。

EDSR采用了大量的ResBlock,每个ResBlock会引入元素加,该操作甚至比高速优化的卷积还要慢;

CARN采用了全局与局部特征集成,每个集成过程包含一个concat与一个卷积,仅仅带来了0.09dB指标提升;

由于大量的特征分离与拼接,IDN与IMDN同样存在端侧部署问题;

LatticeNet的部署问题更为严重,它采用了16个CA模块,每个CA模块包含一个元素加、一个元素乘、两个池化层,四个卷积,导致了过高的计算负担。

另一个常见问题:它们都需要保存前面层的特征并采用控制数据流动。这种长距离依赖会导致RAM的低频处理,这是因为端侧内存非常有限。

因此,我们将不考虑特征融合、特征蒸馏、组卷积以及注意力机制。

尽管卷积的参数量是卷积的9倍,但由于并行计算的缘故,两者的推理速度差别并不大。因此,我们采用卷积以得到更大感受野。

在激活函数方面,我们选择ReLU。这是因为它要比LeakyReLu速度更快,而且i两者导致的性能差异非常小;

由于HR与LR之间的坐标映射导致resize操作的推理速度过慢。

Anchor-basedResidualLearning

正如前一节所讨论的,能用的算子非常有限。为得到一个好的解决方案,我们深入分析了架构设计与INT8量化之间的相关性。

据我们所知,其难度主要在于I2I(Image-to-Image,I2I)映射的高动态范围,最直接的想法是生成低标准差权值与激活。有两种方式可以达成该目的:

添加BN层:BN往往被集成在ResBlock中,尽管不会导致额外耗时与内存占用,但会导致0.2dB的性能下降。

残差学习:近邻像素往往具有相似的值,很自然的一种选择就是学习残差。残差学习又可以分为以下两种:

ISRL:图像空间的残差学习

FSRL:特征空间的残差学习。

图像空间的残差学习在早期的工作(如VDSR,DRRN)中有得到应用,而特征空间的残差学习则更多在近期的SOTA方案(如SRGAN、IDN、IMDN)中得到应用并取得了稍优的性能。然而,我们认为:ISRL更适合于INT8量化。

从前面Table1中可以看到:图像空间插值存在不可接受的推理耗时,甚至仅仅一次resize都无法满足实时需求。为解决该问题,我们提出了ABRL(Anchor-BasedResidualLearning):它直接在LR空间复制每个像素9次为HR空间的每个像素生成锚点。受益于PixelShuffle层,所提ABRL可以通过一个concat+一个元素加操作实现。

poYBAGJZIMSAL-okAAYjMQDQkqo655.png

上图给出了四种类型残差学习的区别所在,从推理耗时角度来看:

FSRL仅需要一个元素加操作,它的耗时为5.2ms;

ABRL包含一个通道拼接与一个元素加,总结耗时15.6ms,约为最近邻插值的四分之一。

所提ABRL有这样两个优点:

相比FSRL,ABRL可以显著提升INT8量化模型的性能,提升高达0.6dB;

多分枝架构可以通过并行加速,因此ABRL与FSRL的实际推理耗时相当。ABRL与FSRL的主要耗时源自RAM的访问速度慢。

NetworkArchitecture

poYBAGJZH56APOV9AANM_24soFA800.png

上图给出了本文所提架构示意图,它包含四个主要模块:

浅层特征提取:该过程由卷积+ReLU构成,定义如下:

poYBAGJZH5qAa_CMAAATi1xX8fs964.png

深层特征提取:该过程采用多个Conv-ReLU组合构成,描述如下:

为充分利用并行推理,我们设置Conv-ReLu的数量为5以匹配上分支的开销,这意味着当Conv-ReLU数量小于5时推理速度不变。最后,我们采用一个卷积将前述特征变换到HR图像空间:

pYYBAGJZH5aAbf3uAAAPpYmTAwU455.png

然后再采用本文所提ABRL得到超分特征:

poYBAGJZH5CABv7qAAAP4TGdjqQ769.png

重建模块:该模块采用PixelShuffle进对前述所得超分超分进行像素重排得到超分图像。

poYBAGJZH4yAUKExAAAVKr_yvA4283.png

后处理模块:该模块采用Clip操作约束超分输出,即输出最大值不超过255,最小值不小于0。移除该操作会导致输出分布偏移,进而导致量化误差。

LossFunction

在损失函数方面,我们采用了简单的L1损失,定义如下:

Experiments

在训练方面,图像块尺寸为64x64,batch=16,优化器为Adam,初始学习率0.001,每200epoch减半,合计训练1000epoch。训练数据为DIV2K,在RGB空间评估性能。

QAT是一种流程的提升模型性能的量化技术且无额外推理耗时。我们设置初始学习率为0.0001,每50epoch减半,合计训练200epoch。QAT可以进一步提升0.06的B性能,此时INT8模型仅比FP32性能低0.07dB。

ResidualLearning

poYBAGJZH4eAVAP5AAN_FlhUkL4876.png

上表对比了残差学习的性能、耗时。从中可以看到:

对于FP32模型而言,FSRL模型取得了最佳性能,其他模型性能相当;

对于INT8模型而言,不带残差的模型会出现严重性能下降(-1.93dB),FSRL模型会下降0.78dB,而ISRL则则仅仅下降0.13dB。因此,残差学习可以极大缓解INT8量化过程中的高动态范围问题,而ISRL变现优于FSRL。

TestonSnapdragon820

我们在Snapdragon820的手机平台上,采用AIBenchmark软件测试了所提方案的CPUGPU以及NNAPI耗时,结果见下表。

pYYBAGJZH4OAB8I2AAcSK0tG-EA092.png

MAI2021SISRChallenge

本文起初用于参加MAI2021图像超分竞赛,结果见下表。注:首次的提交的模型在模型尾部没有添加Clip操作,导致量化性能非常差(小于20dB);在竞赛结束后才解决了该问题并提交了校正后模型。受益于素体ABRL,所提方案取得了最佳PSNR指标,同时具有更快的推理速度。

poYBAGJZH3-AF-8uAAKwkou7Frg557.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5219

    浏览量

    119860
  • 图像空间
    +关注

    关注

    0

    文章

    2

    浏览量

    840
收藏 人收藏

    评论

    相关推荐

    分辨率图像重建方法研究

    分辨率图像重建方法研究分辨率图像重建就是由低分辨率图像序列来估计高分辨率图像,已成为当前研究
    发表于 03-14 17:08

    TI大学生电子设计竞赛MSP430解决方案-智能电动车

    `TI大学生电子设计竞赛MSP430解决方案-智能电动车详细的智能电动车设计报告,原理图,PCB图,电路图,程序等都有详细解释。`
    发表于 08-17 15:46

    电子设计竞赛系列丛书,完整,详细,望诸位好好学

    命题、分赛区组织的方式,竞赛采用“半封闭、相对集中”的组织方式进行。竞赛期间学生可以查阅有关纸介或网络技术资料,队内学生可以集体商讨设计思想,确定设计方案,分工负责、团结协作,以队为基本单位独立完成
    发表于 07-02 17:44

    WIZnet竞赛方案设计类

    曾经参加过“第九单片机活动”:【WIZnet竞赛方案设计类】--电梯远程监控系统! 因为时间有限 没有实物,只是方案,流程和硬件图纸!这次希望能有W5500模块的支持 把项目搞上去!资料见附件!
    发表于 04-29 16:15

    2021年全国大学生电子设计竞赛官方通知正式发布 精选资料分享

    转载自公众号:德州仪器TI校园计划关于组织2021年全国大学生电子设计竞赛的通知(电组字〔2021〕01号)各赛区组织委员会、各有关高等学校:全国大学生电子设计竞赛(以下简称全国
    发表于 07-21 06:06

    电子设计竞赛相关资料分享

    2021年1月31日,全国大学生电子设计竞赛组委会向各赛区组委会、各有关高校下发《关于组织2021年全国大学生电子设计竞赛的通知》,正式启动2021
    发表于 11-30 06:59

    【年终回馈】HarmonyOS 2021「知识竞赛」来袭,多重豪礼送不停!

    HarmonyOS 2021知识竞赛吧,仅需10钟即可完成,4重缤纷豪礼送不停,还有王者称号电子版证书,秀翻你的朋友圈!话不多说,扫描下方二维码,立即报名开始竞赛考试吧~注:本次
    发表于 12-23 16:23

    ARM用以解决图像模型过参数问题

    ARM网络为,通过设置不同的网络宽度参数我们可以得到不同的子网络。上图给出了该方案的训练过程,每次迭代过程中图像块的重建难易程度在变化,故用于
    发表于 06-10 17:52

    介绍一种MobileAI2021图像竞赛最佳方案

    今天要介绍的MobileAI2021图像竞赛最佳方案
    发表于 06-10 18:03

    介绍一种Any-time super-Resolution Method用以解决图像模型过参数问题

    作为forward的输入可能更好一些。上图给出了该方案的训练过程,每次迭代过程中图像块的重建难易程度在变化,故用于的子网络也在动态调整,进而确保了网络的全部参数都能参数到训练过程中
    发表于 03-21 15:25

    英特尔升级游戏开发者竞赛最佳艺术设计和最佳音效

    AuraLab在Karma,Incarnation 1的2015年英特尔®升级游戏开发者竞赛中获得最佳艺术和最佳音效类别。
    的头像 发表于 11-05 06:33 2476次阅读

    MINIEYE荣获2021最佳汽车解决方案

    美国当地时间2021年5月25日,边缘人工智能与视觉联盟 (Edge AI and Vision Alliance) 公布了2021年度最佳视觉产品奖。MINIEYE舱内感知方案(In
    的头像 发表于 06-23 16:00 1632次阅读

    2021年电子竞赛元器件清单参考

    2021年电子竞赛元器件清单参考
    发表于 07-31 17:26 17次下载

    世健获汉桑“2021年度最佳供应商奖”

    2022年1月,世健系统(香港)有限公司荣获客户汉桑(南京)科技有限公司“2021年度最佳供应商”奖。
    的头像 发表于 02-26 13:13 1559次阅读

    图像传感器处理和最佳实践

    图像传感器处理和最佳实践
    发表于 11-15 20:30 0次下载
    <b class='flag-5'>图像</b>传感器处理和<b class='flag-5'>最佳</b>实践