深度学习刷SOTA的一堆trick-电子发烧友网

一般通用的trick都被写进论文和代码库里了

像优秀的优化器，学习率调度方法，数据增强，dropout，初始化，BN，LN，确实是调参大师的宝贵经验，大家平常用的也很多。

这里主要有几个，我们分成三部分，稳定有用型trick，场景受限型trick，性能加速型trick。

稳定有用型trick

0.模型融合

懂得都懂，打比赛必备，做文章没卵用的人人皆知trick，早年模型小的时候还用stacking，直接概率融合效果也不错。

对抗训练

对抗训练就是在输入的层次增加扰动，根据扰动产生的样本，来做一次反向传播。以FGM为例，在NLP上，扰动作用于embedding层。给个即插即用代码片段吧，引用了知乎id:Nicolas的代码，写的不错，带着看原理很容易就明白了。

#初始化
fgm=FGM(model)
forbatch_input,batch_labelindata:
#正常训练
loss=model(batch_input,batch_label)
loss.backward()#反向传播，得到正常的grad
#对抗训练
fgm.attack()#在embedding上添加对抗扰动
loss_adv=model(batch_input,batch_label)
loss_adv.backward()#反向传播，并在正常的grad基础上，累加对抗训练的梯度
fgm.restore()#恢复embedding参数
#梯度下降，更新参数
optimizer.step()
model.zero_grad()

具体FGM的实现

importtorch
classFGM():
def__init__(self,model):
self.model=model
self.backup={}

defattack(self,epsilon=1.,emb_name='emb.'):
#emb_name这个参数要换成你模型中embedding的参数名
forname,paraminself.model.named_parameters():
ifparam.requires_gradandemb_nameinname:
self.backup[name]=param.data.clone()
norm=torch.norm(param.grad)
ifnorm!=0andnottorch.isnan(norm):
r_at=epsilon*param.grad/norm
param.data.add_(r_at)

defrestore(self,emb_name='emb.'):
#emb_name这个参数要换成你模型中embedding的参数名
forname,paraminself.model.named_parameters():
ifparam.requires_gradandemb_nameinname:
assertnameinself.backup
param.data=self.backup[name]
self.backup={}

2.EMA/SWA

移动平均，保存历史的一份参数，在一定训练阶段后，拿历史的参数给目前学习的参数做一次平滑。这个东西，我之前在earhian的祖传代码里看到的。他喜欢这东西+衰减学习率。确实每次都有用。

#初始化
ema=EMA(model,0.999)
ema.register()

#训练过程中，更新完参数后，同步updateshadowweights
deftrain():
optimizer.step()
ema.update()

# eval前，apply shadow weights；eval之后，恢复原来模型的参数
defevaluate():
ema.apply_shadow()
#evaluate
ema.restore()

具体EMA实现，即插即用：

classEMA():
def__init__(self,model,decay):
self.model=model
self.decay=decay
self.shadow={}
self.backup={}

defregister(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
self.shadow[name]=param.data.clone()

defupdate(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
assertnameinself.shadow
new_average=(1.0-self.decay)*param.data+self.decay*self.shadow[name]
self.shadow[name]=new_average.clone()

defapply_shadow(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
assertnameinself.shadow
self.backup[name]=param.data
param.data=self.shadow[name]

defrestore(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
assertnameinself.backup
param.data=self.backup[name]
self.backup={}

这两个方法的问题就是跑起来会变慢，并且提分点都在前分位，不过可以是即插即用类型

3.Rdrop等对比学习方法

有点用，不会变差，实现起来也很简单

#训练过程上下文
ce=CrossEntropyLoss(reduction='none')
kld=nn.KLDivLoss(reduction='none')
logits1=model(input)
logits2=model(input)
#下面是训练过程中对比学习的核心实现！！！！
kl_weight=0.5#对比loss权重
ce_loss=(ce(logits1,target)+ce(logits2,target))/2
kl_1=kld(F.log_softmax(logits1,dim=-1),F.softmax(logits2,dim=-1)).sum(-1)
kl_2=kld(F.log_softmax(logits2,dim=-1),F.softmax(logits1,dim=-1)).sum(-1)
loss=ce_loss+kl_weight*(kl_1+kl_2)/2

大家都知道，在训练阶段。dropout是开启的，你多次推断dropout是有随机性的。

模型如果鲁棒的话，你同一个样本，即使推断时候，开着dropout，结果也应该差不多。好了，那么它的原理也呼之欲出了。用一张图来形容就是：

随便你怎么踹(dropout)，本AI稳如老狗。

KLD loss是衡量两个分布的距离的，所以说他就是在原始的loss上，加了一个loss，这个loss刻画了模型经过两次推断，抵抗因dropout造成扰动的能力。

4.TTA

这个一句话说明白，测试时候构造靠谱的数据增强，简单一点的数据增强方式比较好，然后把预测结果加起来算个平均。

5.伪标签

代码和原理实现也不难，代价也是训练变慢，毕竟多了一些数据一句话说明白，就是用训练的模型，把测试数据，或者没有标签的数据，推断一遍。构成伪标签，然后拿回去训练。注意不要leak。

听起来挺离谱的，我们把步骤用伪代码实现一下。

model1.fit(train_set,label,val=validation_set)#step1
pseudo_label=model.pridict(test_set)#step2
new_label=concat(pseudo_label,label)#step3
new_train_set=concat(test_set,train_set)#step3
model2.fit(new_train_set,new_label,val=validation_set)#step4
final_predict=model2.predict(test_set)#step5

用网上一个经典的图来说就是。

6.神经网络自动填空值

表数据在NN上的trick，快被tabnet 集大成了，这个方法是把缺失值的位置之外的地方mask，本身当成1这样可以学习出一个参数，再加回这个feature的输入上。可以看看他文章的实现。

场景受限型trick

有用但场景受限或者不稳定

1.PET或者其他prompt的方案

在一些特定场景上有用，比如zeroshot，或者小样本的监督训练，在数据量充足情况下拿来做模型融合有点用，单模型不一定干的过硬怼。

2.Focalloss

偶尔有用，大部分时候用处不大，看指标，在一些对长尾，和稀有类别特别关注的任务和指标上有所作为。

3.mixup/cutmix等数据增强

挑数据，大部分数据和任务用处不大，局部特征比较敏感的任务有用，比如音频分类等

4人脸等一些改动softmax的方式

在数据量偏少的时候有用，在工业界数据量巨大的情况下用处不大

5.领域后预训练

把自己的数据集，在Bert base上用MLM任务再过一遍，代价也是变慢，得益于huggingface可用性极高的代码，实现起来也非常简单，适用于和预训练预料差别比较大的一些场景，比如中药，ai4code等，在一些普通的新闻文本分类数据集上用处不大。

6.分类变检索

这算是小样本分类问题的标准解法了，类似于人脸领域的baseline，在这上面有很多围绕类间可分，类内聚集的loss改进，像aa-softmax,arcface，am-softmax等

在文本分类，图像分类上效果都不错。

突破性能型trick

1.混合精度训练

AMP即插即用，立竿见影。

2.梯度累积

在优化器更新参数之前，用相同的模型参数进行几次前后向传播。在每次反向传播时计算的梯度被累积（加总）。不过这种方法会影响BN的计算，可以用来突破batchsize上限。

3.Queue或者memery bank

可以让batchsize突破天际，可以参考MoCo用来做对比学习的那个实现方式

4.非必要不同步

多卡ddp训练的时候，用到梯度累积时，可以使用no_sync减少不必要的梯度同步，加快速度

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

代码

代码

+关注

关注
30

文章
4555

浏览量
66759
深度学习

深度学习

+关注

关注
73

文章
5237

浏览量
119906
nlp

nlp

+关注

关注
1

文章
463

浏览量
21819

原文标题：深度学习刷SOTA的一堆trick

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

.sct文件自动生成了一堆代码，并且有warning是什么原因导致的？

.sct文件自动生成了一堆代码，并且有warning，手动改回去后编译，警告消失，重新编译又自动生成代码并且伴随警告，请问是什么原因造成的，需要如何解决？

发表于 03-07 06:39

深度学习的由来深度学习的经典算法有哪些

深度学习作为机器学习的一个分支，其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的

发表于 10-09 10:23 •358次阅读

<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的由来 <b class='flag-5'>深度</b><b class='flag-5'>学习</b>的经典算法有哪些

一文详解机器学习和深度学习的区别

深度学习这几年特别火，就像5年前的大数据一样，不过深度学习其主要还是属于机器学习的范畴领域内，所以这篇文章里面我们来唠一唠机器

发表于 09-06 12:48 •1339次阅读

一文详解机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的区别

人工智能SOTA什么意思

人工智能SOTA什么意思人工智能SOTA是机器学习领域中的一个术语，指的是目前能够实现的最佳结果，SOTA是State of the art的缩写，意为“最新技术”的最佳状态。在人工

发表于 08-22 16:45 •1w次阅读

深度学习服务器怎么做深度学习服务器diy 深度学习服务器主板用什么

深度学习服务器怎么做深度学习服务器diy 深度学习服务器主板用什么随着人工智能的飞速发展，

发表于 08-17 16:11 •539次阅读

深度学习框架和深度学习算法教程

深度学习框架和深度学习算法教程深度学习是机器学习领

发表于 08-17 16:11 •715次阅读

深度学习框架的作用是什么

深度学习框架的作用是什么深度学习是一种计算机技术，它利用人工神经网络来模拟人类的学习过程。由于其高度的精确性和精度，

发表于 08-17 16:10 •1165次阅读

深度学习框架是什么？深度学习框架有哪些？

深度学习框架是什么？深度学习框架有哪些？深度学习框架是一种软件工具，它可以帮助开发者轻松快速

发表于 08-17 16:03 •1771次阅读

什么是深度学习算法？深度学习算法的应用

什么是深度学习算法？深度学习算法的应用深度学习算法被认为是人工智能的核心，它是一种模仿人类大脑

发表于 08-17 16:03 •1476次阅读

深度学习算法简介深度学习算法是什么深度学习算法有哪些

深度学习算法简介深度学习算法是什么?深度学习算法有哪些? 作为一种现代化、前沿化的技术，

发表于 08-17 16:02 •6807次阅读

深度学习的七种策略

深度学习的七种策略深度学习已经成为了人工智能领域的热门话题，它能够帮助人们更好地理解和处理自然语言、图形图像、语音等各种数据。然而，要想获得最好的效果，只是使用

发表于 08-17 16:02 •1306次阅读

AI、机器学习和深度学习的区别及应用

深度学习和神经网络的区别在于隐藏层的深度。一般来说，神经网络的隐藏层要比实现深度学习的系统浅得多，而深度

发表于 07-28 10:44 •325次阅读

通过A2B更新软件—A2B如何给汽车应用中的SOTA带来变革

无线软件升级(SOTA)正迅速成为汽车OEM须开发和部署的重要能力。更新模块、支持客户、和通过附加特性带来利润的能力，使得掌握SOTA成为一个有吸引力的主张。本文讨论SOTA为何出现在汽车环境中，如何部署

发表于 06-15 16:02 •1177次阅读

使用std::string但它给了我一堆链接器错误是怎么回事？

你好！我试图使用 std::string 但它给了我一堆链接器错误（对 _sbrk_r、_fstat_r、_read_r、_lseek_r、_write_r、_close_r、_open_r

发表于 06-12 07:17

智造之眼丨深度学习应用

智造之眼®科学设计深度学习各应用流程，在尽量简化前期准备工作的基础上为客户提供稳定且准确的深度学习解决方案。

发表于 05-04 16:55 •472次阅读

搜索历史

深度学习刷SOTA的一堆trick

评论