刷SOTA一般通用的trick-电子发烧友网

一般通用的trick都被写进论文和代码库里了

像优秀的优化器，学习率调度方法，数据增强，dropout，初始化，BN，LN，确实是调参大师的宝贵经验，大家平常用的也很多。

这里主要有几个，我们分成三部分，稳定有用型trick，场景受限型trick，性能加速型trick。

稳定有用型trick

0.模型融合

懂得都懂，打比赛必备，做文章没卵用的人人皆知trick，早年模型小的时候还用stacking，直接概率融合效果也不错。

对抗训练

对抗训练就是在输入的层次增加扰动，根据扰动产生的样本，来做一次反向传播。以FGM为例，在NLP上，扰动作用于embedding层。给个即插即用代码片段吧，引用了知乎id:Nicolas的代码，写的不错，带着看原理很容易就明白了。

#初始化
fgm=FGM(model)
forbatch_input,batch_labelindata:
#正常训练
loss=model(batch_input,batch_label)
loss.backward()#反向传播，得到正常的grad
#对抗训练
fgm.attack()#在embedding上添加对抗扰动
loss_adv=model(batch_input,batch_label)
loss_adv.backward()#反向传播，并在正常的grad基础上，累加对抗训练的梯度
fgm.restore()#恢复embedding参数
#梯度下降，更新参数
optimizer.step()
model.zero_grad()

具体FGM的实现

importtorch
classFGM():
def__init__(self,model):
self.model=model
self.backup={}

defattack(self,epsilon=1.,emb_name='emb.'):
#emb_name这个参数要换成你模型中embedding的参数名
forname,paraminself.model.named_parameters():
ifparam.requires_gradandemb_nameinname:
self.backup[name]=param.data.clone()
norm=torch.norm(param.grad)
ifnorm!=0andnottorch.isnan(norm):
r_at=epsilon*param.grad/norm
param.data.add_(r_at)

defrestore(self,emb_name='emb.'):
#emb_name这个参数要换成你模型中embedding的参数名
forname,paraminself.model.named_parameters():
ifparam.requires_gradandemb_nameinname:
assertnameinself.backup
param.data=self.backup[name]
self.backup={}

2.EMA/SWA

移动平均，保存历史的一份参数，在一定训练阶段后，拿历史的参数给目前学习的参数做一次平滑。这个东西，我之前在earhian的祖传代码里看到的。他喜欢这东西+衰减学习率。确实每次都有用。

#初始化
ema=EMA(model,0.999)
ema.register()

#训练过程中，更新完参数后，同步updateshadowweights
deftrain():
optimizer.step()
ema.update()

# eval前，apply shadow weights；eval之后，恢复原来模型的参数
defevaluate():
ema.apply_shadow()
#evaluate
ema.restore()

具体EMA实现，即插即用：

classEMA():
def__init__(self,model,decay):
self.model=model
self.decay=decay
self.shadow={}
self.backup={}

defregister(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
self.shadow[name]=param.data.clone()

defupdate(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
assertnameinself.shadow
new_average=(1.0-self.decay)*param.data+self.decay*self.shadow[name]
self.shadow[name]=new_average.clone()

defapply_shadow(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
assertnameinself.shadow
self.backup[name]=param.data
param.data=self.shadow[name]

defrestore(self):
forname,paraminself.model.named_parameters():
ifparam.requires_grad:
assertnameinself.backup
param.data=self.backup[name]
self.backup={}

这两个方法的问题就是跑起来会变慢，并且提分点都在前分位，不过可以是即插即用类型

3.Rdrop等对比学习方法

有点用，不会变差，实现起来也很简单

#训练过程上下文
ce=CrossEntropyLoss(reduction='none')
kld=nn.KLDivLoss(reduction='none')
logits1=model(input)
logits2=model(input)
#下面是训练过程中对比学习的核心实现！！！！
kl_weight=0.5#对比loss权重
ce_loss=(ce(logits1,target)+ce(logits2,target))/2
kl_1=kld(F.log_softmax(logits1,dim=-1),F.softmax(logits2,dim=-1)).sum(-1)
kl_2=kld(F.log_softmax(logits2,dim=-1),F.softmax(logits1,dim=-1)).sum(-1)
loss=ce_loss+kl_weight*(kl_1+kl_2)/2

大家都知道，在训练阶段。dropout是开启的，你多次推断dropout是有随机性的。

模型如果鲁棒的话，你同一个样本，即使推断时候，开着dropout，结果也应该差不多。好了，那么它的原理也呼之欲出了。用一张图来形容就是：

随便你怎么踹(dropout)，本AI稳如老狗。

KLD loss是衡量两个分布的距离的，所以说他就是在原始的loss上，加了一个loss，这个loss刻画了模型经过两次推断，抵抗因dropout造成扰动的能力。

4.TTA

这个一句话说明白，测试时候构造靠谱的数据增强，简单一点的数据增强方式比较好，然后把预测结果加起来算个平均。

5.伪标签

代码和原理实现也不难，代价也是训练变慢，毕竟多了一些数据一句话说明白，就是用训练的模型，把测试数据，或者没有标签的数据，推断一遍。构成伪标签，然后拿回去训练。注意不要leak。

听起来挺离谱的，我们把步骤用伪代码实现一下。

model1.fit(train_set,label,val=validation_set)#step1
pseudo_label=model.pridict(test_set)#step2
new_label=concat(pseudo_label,label)#step3
new_train_set=concat(test_set,train_set)#step3
model2.fit(new_train_set,new_label,val=validation_set)#step4
final_predict=model2.predict(test_set)#step5

用网上一个经典的图来说就是。