0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Pytorch量化感知训练的详解

电子设计 来源:电子设计 作者:电子设计 2020-12-08 22:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

文章转载于微信公众号:GiantPandaCV
作者: Pui_Yeung

前言

  量化感知训练(Quantization Aware Training )是在模型中插入伪量化模块(fake/_quant module)模拟量化模型在推理过程中进行的舍入(rounding)和钳位(clamping)操作,从而在训练过程中提高模型对量化效应的适应能力,获得更高的量化模型精度 。在这个过程中,所有计算(包括模型正反向传播计算和伪量化节点计算)都是以浮点计算实现的,在训练完成后才量化为真正的int8模型。  

Pytorch官方从1.3版本开始提供量化感知训练API,只需修改少量代码即可实现量化感知训练。目前torch.quantization仍处于beta阶段,不保证API前向、后向兼容性。以下介绍基于Pytorch 1.7,其他版本可能会有差异。

Pytorch量化感知训练流程

  首先给出提供一个可运行demo,直观了解量化感知训练的6个步骤,再进行详细的介绍

importtorchfromtorch.quantizationimportprepare_qat,get_default_qat_qconfig,convertfromtorchvision.modelsimportquantization# Step1:修改模型#这里直接使用官方修改好的MobileNetV2,下文会对修改点进行介绍model=quantization.mobilenet_v2()print("originalmodel:")print(model)# Step2:折叠算子#fuse_model()在training或evaluate模式下算子折叠结果不同,#对于QAT,需确保在training状态下进行算子折叠assertmodel.trainingmodel.fuse_model()print("fusedmodel:")print(model)#Step3:指定量化方案#通过给模型实例增加一个名为"qconfig"的成员变量实现量化方案的指定#backend目前支持fbgemm和qnnpackBACKEND="fbgemm"model.qconfig=get_default_qat_qconfig(BACKEND)# Step4:插入伪量化模块prepare_qat(model,inplace=True)print("modelwithobservers:")print(model)#正常的模型训练,无需修改代码# Step5:实施量化model.eval()#执行convert函数前,需确保模型在evaluate模式model_int8=convert(model)print("quantizedmodel:")print(model_int8)# Step6:int8模型推理#指定与qconfig相同的backend,在推理时使用正确的算子torch.backends.quantized.engine=BACKEND#目前Pytorch的int8算子只支持CPU推理,需确保输入和模型都在CPU侧#输入输出仍为浮点数fp32_input=torch.randn(1,3,224,224)y=model_int8(fp32_input)print("output:")print(y)

Step1:修改模型

  Pytorch下需要适当修改模型才能进行量化感知训练,以下以常用的MobileNetV2为例。官方已修改好的MobileNetV2的代码,详见这里(https://github.com/pytorch/vi...

修改主要包括3点,以下摘取相应的代码进行介绍:

(1)在模型输入前加入QuantStub(),在模型输出后加入DeQuantStub()。目的是将输入从fp32量化为int8,将输出从int8反量化为fp32。模型的/_/_init/_/_()和forward()修改为:

classQuantizableMobileNetV2(MobileNetV2):def__init__(self,*args,**kwargs):"""MobileNetV2mainclassArgs:InheritsargsfromfloatingpointMobileNetV2"""super(QuantizableMobileNetV2,self).__init__(*args,**kwargs)self.quant=QuantStub()self.dequant=DeQuantStub()defforward(self,x):x=self.quant(x)x=self._forward_impl(x)x=self.dequant(x)returnx

(2)对加法等操作加入伪量化节点。因为int8数值进行加法运算容易超出数值范围,所以不是直接进行计算,而是进行反量化->计算->量化的操作。以InvertedResidual的修改为例:

classQuantizableInvertedResidual(InvertedResidual):def__init__(self,*args,**kwargs):super(QuantizableInvertedResidual,self).__init__(*args,**kwargs)#加法的伪量化节点需要记录所经过该节点的数值的范围,因此需要实例化一个对象self.skip_add=nn.quantized.FloatFunctional()defforward(self,x):ifself.use_res_connect:#普通版本MobileNetV2的加法#returnx+self.conv(x)#量化版本MobileNetV2的加法returnself.skip_add.add(x,self.conv(x))else:returnself.conv(x)

(3)将ReLU6替换为ReLU。MobileNet V2使用ReLU6的原因是对ReLU的输出范围进行截断以缓解量化为fp16模型时的精度下降。因为int8量化本身就能确定截断阈值,所以将ReLU6替换为ReLU以去掉截断阈值固定为6的限制。官方的修改代码在建立网络后通过/_replace/_relu()将MobileNetV2中的ReLU6替换为ReLU:

model=QuantizableMobileNetV2(block=QuantizableInvertedResidual,**kwargs)_replace_relu(model)

Step2:算子折叠

  算子折叠是将模型的多个层合并成一个层,一般用来减少计算量和加速推理。对于量化感知训练而言,算子折叠作用是将模型变“薄”,减少中间计算过程的误差积累。

  以下比较有无算子折叠的结果(上:无算子折叠,下:有算子折叠,打印执行prepare/_qat()后的模型)

 如果不进行算子折叠,每个Conv-BN-ReLU单元一共会插入4个FakeQuantize模块。而进行算子折叠后,原来Conv2d()被ConvBnReLU2d()代替(3层合并到了第1层),BatchNorm2d()和ReLU()被Inentity()代替(仅作为占位),最终只插入了2个FakeQuantize模块。

FakeQuantize模块的减少意味着推理过程中进行的量化-反量化的次数减少,有利于减少量化带来的性能损失。

  算子折叠由实现torch.quantization.fuse/_modules()。目前存在的比较遗憾的2点:

  算子折叠不能自动完成,只能由程序员手工指定要折叠的子模型。以torchvision.models.quantization.mobilenet/_v2()中实现的算子折叠函数为例:

deffuse_model(self):#遍历模型内的每个子模型,判断类型并进行相应的算子折叠forminself.modules():iftype(m)==ConvBNReLU:fuse_modules(m,['0','1','2'],inplace=True)iftype(m)==QuantizableInvertedResidual:#调用子模块实现的fuse_model(),间接调用fuse_modules()m.fuse_model()

  能折叠的算子组合有限。目前支持的算子组合为:ConV + BN、ConV + BN + ReLU、Conv + ReLU、Linear + ReLU、BN + ReLU。如果尝试折叠ConvTranspose2d、ReLU6等不支持的算子则会报错。

Step3:指定量化方案

  目前支持fbgemm和qnnpack两种backend方案。官方推荐x86平台使用fbgemm方案,ARM平台使用qnnpack方案。  量化方案通过如下方法指定

model.qconfig=get_default_qat_qconfig(backen)#或model.qconfig=get_default_qat_qconfig(backen)

  即通过给model增加一个名为qconfig为成员变量并赋值。

  量化方案可通过设置qconfig自定义,本文暂不讨论。

Step4:插入伪量化模块  

通过执行prepare/_qat(),实现按qconfig的配置方案给每个层增加FakeQuantize()模块 每个FakeQuantize()模块内包含相应的Observer()模块,在模型执行forward()时自动记录数值,供实施量化时使用。

Step5:实施量化  

完成训练后,通过执行convert()转换为真正的int8量化模型。 完成转换后,FakeQuantize()模块被去掉,原来的ConvBNReLU2d()算子被替换为QuantizedConvReLU2d()算子。

Step6:int8模型推理

  int8模型的调用方法与普通的fp32模型的调用无异。需要注意的是,目前量化算子仅支持CPU计算,故须确保输入和模型都在CPU侧。

  若模型推理中出现报错,一般是前面的步骤存在设置不当,参考常见问题第1点。

常见问题

(1) RuntimeError: Could not run XX with arguments from the YY backend. XX is only available for these backends ZZ  

虽然fp32模型和int8模型都能在CPU上推理,但fp32算子仅接受tensor作为输入,int8算子仅接受quantedtensor作为输入,输入和算子的类型不一致导致上述错误。

  一般排查方向为:是否完成了模型修改,将加法等操作替换为量化版本;是否正确添加了QuantStub()和DeQuantStub();是否在执行convert()前是否执行了model.eval()(在traning模型下,dropout无int8实现但没有被去掉,然而在执行推理时会报错)。

(2) 是否支持GPU训练,是否支持DistributedDataParallel训练?  

支持。官方有一个完整的量化感知训练的实现,使用了GPU和DistributedDataParallel,可惜在文档和教程中未提及,参考这里(https://github.com/pytorch/vi.../_quantization.py)。

(3) 是否支持混合精度模型(例如一部分fp32推理,一部分int8推理)?  

官方没有明确说明,但经实践是可以的。

  模型是否进行量化取决于是否带qconfig。因此可以将模型定义修改为

classMixModel(nn.Module):def__init__(self):super(MixModel,self).__init__()self.fp32_part=Fp32Model()self.int8_part=Int8Model()defforward(self,x):x=self.int8_part(x)x=self.fp32(x)returnxmix_model=MixModel()mix_model.int8_part.qconfig=get_default_qat_qconfig(BACKEND)prepare_qat(mix_model,inplace=True)

  由此可实现所需的功能。注意将QuantStub()、Dequant()模块移到Int8Model()中。

(4)精度保持效果如何,如何提升精度?  

笔者进行的实验不多,在做过的简单的OCR任务中,可以做到文字检测和识别模型的指标下降均不超过1个点(量化的int8模型对比正常训练的fp32模型)。官方教程中提供了分类例子的效果和提升精度的技巧,可供参考。

总结

  Pytorch官方提供的量化感知训练API,上手较为简单,易于集成到现有训练代码中。但目前手动修改模型和算子折叠增加了一定的工作量,期待在未来版本的改进。

- END -

推荐阅读

更多嵌入式AI技术干货请关注嵌入式AI专栏。

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5614

    浏览量

    124750
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14953
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在阿里云PAI平台的机器人感知强化学习规模化实践

    物理 AI 正在迅速从基础运动控制迈向更复杂的环境理解。传统机器人强化学习(RL)长期依赖本体感知(proprioception),包括关节角度、力矩反馈和内部状态,来训练灵巧的运动技能。
    的头像 发表于 05-18 10:34 358次阅读
    在阿里云PAI平台的机器人<b class='flag-5'>感知</b>强化学习规模化实践

    轻薄型MEMS IMU:机器人运动感知的 “轻量化核心引擎”

    在机器人技术向小型化、高机动、长续航演进的今天,传感器的 “轻量化” 与 “高精度” 不再是取舍,而是核心竞争力。ER-MIMU-103 以仅 47×44×14mm 的紧凑尺寸、40g 的极致轻量化
    的头像 发表于 04-14 16:50 972次阅读

    量化模型在 iMX93 NPU 上运行,但输出不正确怎么解决

    良好的精度,但 int8 输出似乎完全随机。在对一些训练数据进行测试后,应该为正的帧的范围是 -128 到 127,应该为负的帧也是如此。我是否误解了输出,或者在转换或量化模型时出了问题?
    发表于 03-18 07:53

    【瑞萨AI挑战赛】手写数字识别模型在RA8P1 Titan Board上的部署

    轻量级深度学习模型端侧部署的优质硬件平台。本文将基于RA8P1 Titan Board开发板,结合ruhmi、RT-Thread Studio等工具,从开发环境搭建、手写数字识别模型训练、模型转换量化
    发表于 03-15 20:42

    PyTorch 中RuntimeError分析

    ? 错误原因 这个 RuntimeError 是因为在 PyTorch 中,upsample_nearest2d_out_frame(最近邻2D上采样)操作尚未对 BFloat16 数据类型提供
    发表于 03-06 06:02

    Pytorch 与 Visionfive2 兼容吗?

    Pytorch 与 Visionfive2 兼容吗? $ pip3 install torch torchvision torchaudio --index-url https
    发表于 02-06 08:28

    从物理感知量化数据:无应力计高精度测量原理与实现路径

    在大型混凝土结构的安全监测中,数据的准确性是决策的生命线。VWS-W型无应力计之所以能成为工程师信赖的工具,其核心在于它建立了一套从物理感知到数据输出的完整高精度测量体系。今天,我们就来深度解读其
    的头像 发表于 01-27 15:56 271次阅读
    从物理<b class='flag-5'>感知</b>到<b class='flag-5'>量化</b>数据:无应力计高精度测量原理与实现路径

    贴片机顶不住负荷?轻量化系统预警帮你 “防患于未然”

    贴片机长期过载如同人过度劳累,短期可撑、长期必出问题。对电子制造企业而言,与其等设备停机、订单延误再补救,不如提前部署轻量化系统预警,用精准数据感知风险,用科学方式优化管理。
    的头像 发表于 11-14 14:23 443次阅读
    贴片机顶不住负荷?轻<b class='flag-5'>量化</b>系统预警帮你 “防患于未然”

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是训练一个手写数字识别的神经网络
    发表于 10-22 07:03

    Arm方案 基于Arm架构的边缘侧设备(树莓派或 NVIDIA Jetson Nano)上部署PyTorch模型

    本文将为你展示如何在树莓派或 NVIDIA Jetson Nano 等基于 Arm 架构的边缘侧设备上部署 PyTorch 模型。
    的头像 发表于 07-28 11:50 3181次阅读

    使用 ai cude 里面自带的案例训练UI显示异常的原因?怎么解决?

    案例的配置是默认的,显示训练ui更改显示异常
    发表于 06-23 06:21

    动态感知+智能决策,一文解读 AI 场景组网下的动态智能选路技术

    人工智能(AI),特别是大规模模型训练和推理,正以前所未有的方式重塑数据中心网络。传统的“尽力而为”网络架构,在处理海量、突发的AI数据洪流时捉襟见肘。AI模型对网络性能的严苛要求——高带宽、低延迟
    的头像 发表于 06-20 15:01 1799次阅读
    动态<b class='flag-5'>感知</b>+智能决策,一文解读 AI 场景组网下的动态智能选路技术

    k210在线训练的算法是yolo5吗?

    k210在线训练的算法是yolo5吗
    发表于 06-16 08:25

    瑞芯微模型量化文件构建

    模型是一张图片输入时,量化文件如上图所示。但是我现在想量化deepprivacy人脸匿名模型,他的输入是四个输入。该模型训练时数据集只标注了人脸框和关键点,该模型的预处理是放到模型外的,不在模型
    发表于 06-13 09:07

    OCR识别训练完成后给的是空压缩包,为什么?

    OCR识别 一共弄了26张图片,都标注好了,点击开始训练,显示训练成功了,也将压缩包发到邮箱了,下载下来后,压缩包里面是空的 OCR图片20几张图太少了。麻烦您多添加点,参考我们的ocr识别训练数据集 请问
    发表于 05-28 06:46