小样本学习领域的研究进展-电子发烧友网

编者按：子曰：“举一隅不以三隅反，则不复也”。

人类从少量样本中去思考，还能用这个做什么；而机器则是见到了上亿的数据，却希望下一个与之前的相似。

在机器学习领域中，随着更多应用场景的涌现，我们越来越面临着样本数量不足的问题。因此，如何通过举一反三的方式进行小样本学习，成为了一个重要的研究方向。

本文中，复旦大学的付彦伟教授，将介绍过去一年中小样本学习领域的研究进展。

文末，大讲堂提供文中提到参考文献的下载链接。

本次报告主要回顾one-shot learning，也可以称为few-shot learning或low-shot learning领域最近的进展。

首先，one-shot learning产生的动机大家都比较了解。现在在互联网，我们主要用large-scale方法处理数据，但真实情况下，大部分类别我们没有数据积累，large-scale方法不完全适用。所以我们希望在学习了一定类别的大量数据后，对于新的类别，我们只需要少量的样本就能快速学习。

存在的问题一方面是知识缺失，另一方面是需要大量的训练样本。第一点在本文中不做讨论。

对于第二点，目前考虑的解决方法主要有两个：

第一个是人能够识别一个从没有见过的物体，也就是zero-shot learning；

第二个是从已有任务中学习知识，将其应用到未来模型训练中，可以认为是一个迁移学习的问题。

那么我们如何定义one-shot learning呢？它的目的是从一个或几个图像样本中学习类别信息。但我们这里的one-shot learning并不限于一般图像，也可以在文本，医疗图像等特殊图像，或者物理化学中的扫描图像上进行应用。

One-shot learning的研究主要分为如下几类：

第一类方法是直接基于有监督学习的方法，这是指没有其他的数据源，不将其作为一个迁移学习的问题看待，只利用这些小样本，在现有信息上训练模型，然后做分类；

第二个是基于迁移学习的方法，是指有其他数据源时，利用这些辅助数据集去做迁移学习。这是我今年一篇综述里提到的模型分类。

对于第一类直接进行有监督学习的方法，可以做基于实例的学习，比如KNN，以及非参数方法。

而基于迁移学习的one-shot learning，首先是基于属性的学习，比如我们最早在做zero-shot learning的时候，会顺便做one-shot learning，把特征投影到一个属性空间，然后在这个属性空间中既可以做one-shot learning，又可以做zero-shot learning，但是每个类别都需要属性标注，也就是需要额外的信息。最近的机器学习领域里，所讨论one-shot learning一般不假设我们知道这些额外信息，大体上可以被分为meta-learning，或者metric-learning。 Meta-learning从数据中学习一种泛化的表示，这种泛化的表示可以被直接用于目标数据上，小样本的类别学习过程。Metric-learning从数据源中构建一个空间。但是本质上meta-learning和metric-learning还是有很多相似的地方。

接下来是数据增强，这其实是很重要也很容易被忽视的一点，可以有很多方法来实现：

第一，利用流信息学习one-shot模型，常见的有半监督学习和transductive learning，探讨的是如何用无标签数据去做one-shot learning。

第二，在有预训练模型时，用这些预训练模型进行数据增强。

第三，从相近的类别借用数据，来增强训练数据集。

第四，合成新的有标签训练数据，用一些遥感里的方法，可以合成一些图像，或者3d物体。

第五，用GAN来学习合成模型，比如最近用GAN来做personal ID和人脸相关研究。

第六，属性引导的增强方法。具体大家可以在文章里进行详细了解。

首先基于迁移学习的方法，我们目前的实验结果显示：大部分已经发表的one-shot learning方法在miniImageNet数据集上的结果，比不过resnet-18的结果，这也是很微妙的一点。我们的代码已经放到github上，大家有兴趣可以看一下。（如果我们的实验在什么地方有问题，欢迎大家给我发邮件）

下面简单介绍相关文章。首先是Wang Yuxiong的文章Learning to Learn: Model Regression Networks for Easy Small Sample Learning，他们用原数据构建了很多模型库，然后目标数据直接回归这些模型库。具体就是在source class上训练一个regression network。对于大量样本我们可以得到一个比较好的分类器。对于少量样本我们可以得到一个没那么好的分类器。这个regression network的目的就是把没那么好的分类器映射成比较好的分类器。即，把一个分类器的权重映射到另一个分类器。

第二个是Matching Networks for One Shot Learning，这个文章很有意思，从标题中就能读出大概做了什么工作。对于一张图片，我们训练一个matching network来提取它的feature。然后用一个简单的数学公式来判断feature之间的距离。对于新的图片，根据它与已知图片的距离来进行分类。这篇文章精巧地设计了训练的过程，来使得这个过程与测试时的过程一致。

第三是MAML，是与模型无关的meta-learning的方法，它主要侧重于深度网络的快速适应。这篇文章的思想就是找到一个网络最好的初始位置，这个初始位置被定义为：经过几个小样本的调整后可以得到最好的表现。

第四个是Optimization as a model for few-shot learning，也是meta-learning的方法，将任务组织成一个最优化的问题。这篇文章将梯度下降的过程与LSTM的更新相对比，发现它们非常相似。所以可以用LSTM来学习梯度下降的过程，以此使用LSTM来做梯度下降的工作。

第五个是meta networks，也是meta-learning方法。其中利用了少量样本在基础网络中产生的梯度，来快速生成新的参数权重。

今年NIPS一篇prototypical network，主要是在matching networks的基础上做了一些更改。它们给每一个类一个原型，样本与类的距离就是样本与原型的距离。然后选用欧氏距离替代了matching network的余弦距离。

今年CVPR的Learning to compare: Relation network for few-shot learning。简单来说就是用embedding module来提取feature。然后用relation module来输出两个feature之间的距离。一次来通过距离进行分类选择。

关于on-shot learning，还有其他参考文献，可在文末的链接中下载。

下面简单介绍一下数据增强的相关文章。

上图是我们今年的提交到ECCV的一个工作，用左边的encoder-trinet把视觉特征映射到语义空间。因为语义空间上有更丰富的信息，可以在语义空间上做数据扩充（添加高斯噪声和寻找最近邻），再映射回视觉空间来得到更多的扩充样例。

ICCV2017这篇文章根据已有的图像去生成新的图像，然后做low-shot 视觉识别。具体来说，比如说你有三张图片：一张是鸟，一张是鸟站在树枝上，一张是猴子。那么你可以学习一个网络让它生成猴子站在树枝上的图片。本质上是，想把一个类的变化迁移到另一个类上，以此来做数据扩充。

这是去年在CVPR上发表的文章AGA，主要针对3D数据，把图像投影到一个属性空间做数据增强。这是一个few-shot learning方法。具体就是，给定几张距离观测者不同距离的桌子的照片，以及一张凳子的照片，让机器学会如何去生成不同距离的凳子的照片，以此来做数据扩充。

最后在 one-shot learning之上，我们还可能遇到一个问题，one-shot learning只关注目标类别上的分类问题，我们希望学习到的模型对源数据类别也适用，否则将带来一个问题，被称为灾难性遗忘。

发表在PNAS的文章提出EWC 模型来解决这个问题。灾难性遗忘往往源于我们学习任务B的时候更新网络，使得任务A做的没那么好了。EWC提供了一种方法来计算权重对于任务A的重要性，把重要性引入到损失函数中，来避免更改会影响A效果的权重。

还有learning without forgetting这篇文章，也是侧重于解决这个问题。简单来说就是拿到一个新任务后，我们会更新网络。我们希望在更新网络前后网络没有太大变化，所以我们添加一个loss来限制网络更新前后对于这个新的任务输出的特征不能有太大变化，也就是一个distill loss。

最后，小样本学习还有很多可以研究的东西。目前的成果主要还是基于把已知类别的一些信息迁移到新的类别上。可能未来可以尝试下更多的方向，比如利用无监督的信息或者是半监督的方法。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8095

浏览量
130514

原文标题：【领域报告】小样本学习年度进展|VALSE2018

文章出处：【微信号：deeplearningclass，微信公众号：深度学习大讲堂】欢迎添加关注！文章转载请注明出处。

新技术在生物样本冷冻中的应用案例分析

可以提供关于样本冻结和解冻过程的重要信息，还可用于研究生物分子在低温条件下的行为，从而推动了相关领域的研究进展。　　二、新技术在生物样本冷

发表于 12-26 13:30

综述：基于二维材料的气体传感器研究进展

）、MXenes等。由于二维材料具有纳米尺寸的层状结构、优异的半导体性能、大比表面积，因此，在气体传感器领域具有其它材料不可比拟的优势。据麦姆斯咨询报道，针对二维气敏材料及其复合材料在气体传感器领域的研究进展，杭州电子科技大学

发表于 11-23 09:13 •292次阅读

基于二维材料的气体传感器研究进展

、优异的半导体性能、大比表面积，因此，在气体传感器领域具有其它材料不可比拟的优势。据麦姆斯咨询报道，针对二维气敏材料及其复合材料在气体传感器领域的研究进展，杭州电子科技大学和西安微电子技术研

发表于 11-10 09:11 •319次阅读

先进激光雷达探测技术研究进展

电子发烧友网站提供《先进激光雷达探测技术研究进展.pdf》资料免费下载

发表于 10-31 11:10 •0次下载

偏振三维成像技术的原理和研究进展

目标表面镜面反射光与漫反射光间的相互干扰，造成高精度偏振三维成像实现困难。该综述介绍了偏振三维成像物理机理、目标表面出射光偏振特性，以及偏振三维成像研究进展。最后总结了目前偏振三维成像面临的问题和未来的发展方向。

发表于 10-26 09:50 •379次阅读

什么是零样本学习？为什么要搞零样本学习？

零样本分类的技术目前正处于高速发展时期，所涉及的具体应用已经从最初的图像分类任务扩展到了其他计算机视觉任务乃至自然语言处理等多个相关领域。对此，本文将其称为广义零样本分类。相应地，我们将针对图像分类任务的零

发表于 09-22 11:10 •1005次阅读

微电子领域中陶瓷劈刀研究与应用进展

微电子领域中陶瓷劈刀研究与应用进展

发表于 09-07 11:27 •404次阅读

先进封装中硅通孔(TSV)铜互连电镀研究进展

先进封装中硅通孔(TSV)铜互连电镀研究进展

发表于 09-06 11:16 •572次阅读

面部表情识别技术的最新研究进展

面部表情识别技术是人工智能领域的研究热点之一，对于揭示情感状态和心理状况具有重要意义。本文将介绍面部表情识别技术的最新研究进展，包括深度学习、多模态融合、微表情识别等方面。首先，深度

发表于 08-21 17:58 •636次阅读

量子计算关键技术研究进展

量子计算具备可能超越经典计算的潜在能力，近年来在技术研究、应用探索及产业生态培育等方面取得诸多进展，整体发展进入快车道，已成为全球多国科研布局与投资热点。重点梳理分析量子计算关键技术研究进展、应用探索开展态势和产业生态培育等，并

发表于 08-08 11:32 •898次阅读

超结IGBT的结构特点及研究进展

超结IGBT的结构特点及研究进展

发表于 08-08 10:11 •0次下载

湖南先进传感与信息技术创新研究院：在微纳近红外探测器领域取得重要研究进展

传感新品【湖南先进传感与信息技术创新研究院：在微纳近红外探测器领域取得重要研究进展】近日，湘潭大学湖南先进传感与信息技术创新研究院曹觉先教授和黄凯教授团队在纳米材料

发表于 06-20 08:47 •661次阅读

小样本学习领域的未来发展方向

什么是小样本学习？它与弱监督学习等问题有何差异？其核心问题是什么？来自港科大和第四范式的这篇综述论文提供了解答。数据是机器学习领域的重要资

发表于 06-14 09:59 •594次阅读

基于深度学习的散射成像研究进展

卷积神经网络（CNN）是一种用于对目标进行重建、分类等处理的深度学习方法。自2016年深度学习被首次应用于散射成像，该研究一直是光学成像领域的热门方向。

发表于 05-24 09:51 •190次阅读

高速可见光通信的前沿研究进展

对可见光通信的前沿研究进行了综述，阐述了其研究背景和基础系统架构，围绕材料器件、高速系统、异构网络、水下可见光通信和机器学习等五个前沿研究方向展开了对可见光通信

发表于 05-17 15:14