Google AI最新研究用无监督数据增强推进半监督学习，取得令人瞩目的成果-电子发烧友网

Google AI 最新研究用无监督数据增强推进半监督学习，取得令人瞩目的成果。该方法超越了所有现有的半监督学习方法，并实现了仅使用极少量标记样本即可达到使用大量标记样本训练集的精度。

深度学习之所以能够成功的关键因素，是算法的进步，以及并行处理硬件（GPU / TPU）以及大型标记数据集（如ImageNet）。

然而，当标记数据稀缺时，深度学习就像缺了一条腿。在这种情况下，需要应用数据增强方法，例如对句子进行释义或将图像进行旋转，以有效地增加标记的训练数据的量。

如今，在诸如自然语言处理（NLP），视觉和语音等各种领域的数据增强方法的设计上，已经取得了重大进展。不幸的是，数据增加通常仅限于监督学习，需要标签从原始示例转移到增强示例。

上图：基于文本（顶部）或基于图像（底部）训练数据的示例增强操作。

在谷歌最近“用于一致性训练的无监督数据增强（UDA）”的研究中，证明还可以对未标记数据执行数据增强，以显著改善半监督学习（SSL）。

谷歌的结果促进了半监督学习的复兴，而且还发现3点有趣的现象：（1）SSL可以匹配甚至优于使用数量级更多标记数据的纯监督学习。（2）SSL在文本和视觉两个领域都能很好地工作。（3）SSL能够与迁移学习很好地结合。

此外谷歌还开放了代码在GitHub。

GitHub地址：

https://github.com/google-research/uda

无监督数据扩充

无监督数据增强同时使用标记数据和未标记数据。在标记数据方面，它使用监督学习的标准方法来计算损失函数以训练模型，如下图的左侧部分所示。

而对于未标记的数据，则应用一致性训练来强制预测未标记的示例和增强的未标记示例是否相似，如下图的右侧部分所示。

这里，相同的模型被同时应用于未标记的示例和增强的对应物，以产生两个模型预测，从中计算一致性损失（即，两个预测分布之间的距离）。

然后，UDA通过联合优化标记数据的监督损失和未标记数据的无监督一致性损失，来计算最终损失。

通过最小化一致性损失，UDA允许标签信息从标记的示例平滑地传播到未标记的示例。

直觉上，人们可以将UDA视为隐含的迭代过程：该模型依赖于少量标记的示例，来对一些未标记的示例进行正确的预测，从中通过一致性损失，并将标签信息传播到增强的对应物。随着时间的推移，越来越多未标记的示例终将被正确预测，这反映了模型的改进的泛化。

谷歌对各种其他类型的噪声进行一致性训练测试（例如高斯噪声、对抗性噪声等）后，在各种各样的噪声上实现了最先进的性能。

UDA根据任务应用不同的现有增强方法，包括反向翻译、自动增强和TF-IDF单词替换。

新的NLP和计算机视觉的基准

UDA在低数据体系中出乎意料地有效。只用20个标记示例，UDA通过50000个未标记的示例，在IMDb情绪分析任务中实现了4.20的错误率。

该结果优于先前使用25000个标记示例训练的最先进模型（错误率为4.32）。在大数据制度中，通过完整的训练集，UDA也提供了强大的收益。

IMDb的基准，是一种情绪分析任务。UDA在不同培训规模的监督学习中超越了最先进的成果，如下图。

在CIFAR-10半监督学习基准测试中，UDA的表现同样优于所有现有的SSL方法，如VAT、ICT和MixMatch。

在4k示例情况下，UDA实现了5.27的错误率，与使用50k示例的完全监督模型的性能相匹配。

此外，通过更先进的PyramidNet+ShakeDro架构p，UDA实现了2.7的新的最新错误率，与之前的最佳半监督结果相比，错误率降低了45％以上。

在SVHN上，UDA仅使用250个标记示例，就实现了2.85的错误率，与使用70k标记示例训练的完全监督模型的性能相匹配。

CIFAR-10的SSL基准测试，图像分类任务。UDA超越了所有现有的半监督学习方法，所有这些方法都使用Wide-ResNet-28-2架构。在4000个示例中，UDA将完全监督设置的性能与50000个示例相匹配。

在具有10％标记示例的ImageNet上，UDA将TOP 1精度从55.1％提高到68.7％。

在具有完全标记集和1.3M额外未标记示例的高数据体系中，UDA继续为前1精度提供78.3％至79.0％的增益。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Google

Google

+关注

关注
5

文章
1713

浏览量
56790
函数

函数

+关注

关注
3

文章
3868

浏览量
61308
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24351

原文标题：让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

适用于任意数据模态的自监督学习数据增强技术

本文提出了一种适用于任意数据模态的自监督学习数据增强技术。自监督学习算法在自然语言处理、计算机视觉等领域

发表于 09-04 10:07 •784次阅读

适用于任意<b class='flag-5'>数据</b>模态的自<b class='flag-5'>监督学习</b><b class='flag-5'>数据</b><b class='flag-5'>增强</b>技术

深非监督学习-Hierarchical clustering 层次聚类python的实现

【深度学习基础-17】非监督学习-Hierarchical clustering 层次聚类-python实现

发表于 04-28 10:07

如何用卷积神经网络方法去解决机器监督学习下面的分类问题？

人工智能下面有哪些机器学习分支？如何用卷积神经网络（CNN）方法去解决机器学习监督学习下面的分类问题？

发表于 06-16 08:09

基于半监督学习的跌倒检测系统设计_李仲年

基于半监督学习的跌倒检测系统设计_李仲年

发表于 03-19 19:11 •4次下载

基于半监督学习框架的识别算法

人体行为识别是计算机视觉研究的热点问题，现有的行为识别方法都是基于监督学习框架．为了取得较好的识别效果，通常需要大量的有标记样本来建模．然而，获取有标记样本是一个费时又费力的工作．为了解决这个

发表于 01-21 10:41 •1次下载

你想要的机器学习课程笔记在这：主要讨论监督学习和无监督学习

with experience E（一个程序从经验E中学习解决任务T进行某一任务量度P，通过P测量在T的表现而提高经验E（另一种定义：机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。）不同类型的机器

发表于 12-03 17:12 •420次阅读

如何用Python进行无监督学习

无监督学习是一种用于在数据中查找模式的机器学习技术。无监督算法给出的数据不带标记，只给出输入变量(X)，没有相应的输出变量。在无

发表于 01-21 17:23 •3962次阅读

机器学习算法中有监督和无监督学习的区别

无监督学习的好处之一是，它不需要监督学习必须经历的费力的数据标记过程。但是，要权衡的是，评估其性能的有效性也非常困难。相反，通过将监督学习算法的输出与测试

发表于 07-07 10:18 •5376次阅读

最基础的半监督学习

导读最基础的半监督学习的概念，给大家一个感性的认识。半监督学习(SSL)是一种机器学习技术，其中任务是从一个小的带标签的数据集和相对较大的未带标签的

发表于 11-02 16:08 •2384次阅读

半监督学习最基础的3个概念

有趣的方法，用来解决机器学习中缺少标签数据的问题。SSL利用未标记的数据和标记的数据集来学习任务。SSL的目标是得到比单独使用标记

发表于 11-02 16:14 •2684次阅读

为什么半监督学习是机器学习的未来？

为什么半监督学习是机器学习的未来。 监督学习是人工智能领域的第一种学习类型。从它的概念开始，无数的算法，从简单的逻辑回归到大规模的神经网络，都已经被

发表于 11-27 10:42 •3648次阅读

半监督学习：比监督学习做的更好

监督学习是人工智能领域的第一种学习类型。从它的概念开始，无数的算法，从简单的逻辑回归到大规模的神经网络，都已经被研究用来提高精...

发表于 12-08 23:32 •1140次阅读

基于人工智能的自监督学习详解

自监督学习让 AI 系统能够从很少的数据中学习知识，这样才能识别和理解世界上更微妙、更不常见的表示形式。

发表于 03-30 17:09 •5642次阅读

机器学习中的无监督学习应用在哪些领域

监督学习|机器学习| 集成学习|进化计算| 非监督学习| 半监督学习| 自监督学习| 无

发表于 01-20 10:52 •4598次阅读

自监督学习的一些思考

自监督学习的流行是势在必然的。在各种主流有监督学习任务都做到很成熟之后，数据成了最重要的瓶颈。从无标注数据中学习有效信息一直是...

发表于 01-26 18:50 •1次下载

搜索历史

Google AI最新研究用无监督数据增强推进半监督学习，取得令人瞩目的成果

评论