半监督学习最基础的3个概念-电子发烧友网

导读

今天给大家介绍半监督学习中的3个最基础的概念：一致性正则化，熵最小化和伪标签，并介绍了两个经典的半监督学习方法。

没看一的点这里哈：半监督学习入门基础（一）

半监督学习 (SSL) 是一种非常有趣的方法，用来解决机器学习中缺少标签数据的问题。SSL利用未标记的数据和标记的数据集来学习任务。SSL的目标是得到比单独使用标记数据训练的监督学习模型更好的结果。这是关于半监督学习的系列文章的第2部分，详细介绍了一些基本的SSL技术。

一致性正则化，熵最小化，伪标签

SSL的流行方法是在训练期间往典型的监督学习中添加一个新的损失项。通常使用三个概念来实现半监督学习，即一致性正则化、熵最小化和伪标签。在进一步讨论之前，让我们先理解这些概念。

一致性正则化强制数据点的实际扰动不应显著改变预测器的输出。简单地说，模型应该为输入及其实际扰动变量给出一致的输出。我们人类对于小的干扰是相当鲁棒的。例如，给图像添加小的噪声(例如改变一些像素值)对我们来说是察觉不到的。机器学习模型也应该对这种扰动具有鲁棒性。这通常通过最小化对原始输入的预测与对该输入的扰动版本的预测之间的差异来实现。

模型对输入x及其扰动x^的一致性度量

d(.,.) 可以是均方误差或KL散度或任何其他距离度量。

一致性正则化是利用未标记数据找到数据集所在的平滑流形的一种方法。这种方法的例子包括π模型、Temporal Ensembling，Mean Teacher，Virtual Adversarial Training等。

熵最小化鼓励对未标记数据进行更有信心的预测，即预测应该具有低熵，而与ground truth无关(因为ground truth对于未标记数据是未知的)。让我们从数学上理解下这个。

熵的计算

这里，K是类别的数量，是模型对x预测是否属于类别k的置信度。

此外，输入示例中所有类的置信度之和应该为1。这意味着，当某个类的预测值接近1，而其他所有类的预测值接近0时，熵将最小化。因此，这个目标鼓励模型给出高可信度的预测。

理想情况下，熵的最小化将阻止决策边界通过附近的数据点，否则它将被迫产生一个低可信的预测。请参阅下图以更好地理解此概念。

由不同的半监督学习方法生成的决策边界

伪标签是实现半监督学习最简单的方法。一个模型一开始在有标记的数据集上进行训练，然后用来对没有标记的数据进行预测。它从未标记的数据集中选择那些具有高置信度(高于预定义的阈值)的样本，并将其预测视为伪标签。然后将这个伪标签数据集添加到标记数据集，然后在扩展的标记数据集上再次训练模型。这些步骤可以执行多次。这和自训练很相关。

在现实中视觉和语言上扰动的例子

视觉:

翻转，旋转，裁剪，镜像等是图像常用的扰动。

语言

反向翻译是语言中最常见的扰动方式。在这里，输入被翻译成不同的语言，然后再翻译成相同的语言。这样就获得了具有相同语义属性的新输入。

NLP中的反向翻译

半监督学习方法

π model：

这里的目标是一致性正则化。

π模型鼓励模型对两个相同的输入(即同一个输入的两个扰动变量)输出之间的一致性。

π模型有几个缺点，首先，训练计算量大，因为每个epoch中单个输入需要送到网络中两次。第二，训练目标zĩ是有噪声的。

Temporal Ensembling：

这个方法的目标也是一致性正则化，但是实现方法有点不一样。

众所周知，与单一模型相比，模型集成通常能提供更好的预测。通过在训练期间使用单个模型在不同训练时期的输出来形成集成预测，这一思想得到了扩展。

简单来说，不是比较模型的相同输入的两个扰动的预测(如π模型)，模型的预测与之前的epoch中模型对该输入的预测的加权平均进行比较。

这种方法克服了π模型的两个缺点。它在每个epoch中，单个输入只进入一次，而且训练目标zĩ 的噪声更小，因为会进行滑动平均。

这种方法的缺点是需要存储数据集中所有的zĩ 。

英文原文：https://medium.com/analytics-vidhya/a-primer-on-semi-supervised-learning-part-2-803f45edac2

责任编辑：xj

原文标题：半监督学习入门基础（二）：最基础的3个概念

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

SSL

SSL

+关注

关注
0

文章
119

浏览量
25488
半监督

半监督

+关注

关注
0

文章
5

浏览量
6305
机器学习

机器学习

+关注

关注
66

文章
8112

浏览量
130542
深度学习

深度学习

+关注

关注
73

文章
5235

浏览量
119893

原文标题：半监督学习入门基础（二）：最基础的3个概念

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

机器学习基础知识全攻略

有监督学习通常是利用带有专家标注的标签的训练数据，学习一个从输入变量X到输入变量Y的函数映射。Y = f (X)，训练数据通常是(n×x,y)的形式，其中n代表训练样本的大小，x和y分别是变量X和Y的样本值。

发表于 02-25 13:53 •90次阅读

基于transformer和自监督学习的路面异常检测方法分享

铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法，有助于定位异常区域。

发表于 12-06 14:57 •789次阅读

基于transformer和自<b class='flag-5'>监督学习</b>的路面异常检测方法分享

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《

发表于 10-30 11:36 •1617次阅读

深度学习的由来深度学习的经典算法有哪些

深度学习作为机器学习的一个分支，其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的学习

发表于 10-09 10:23 •354次阅读

机器学习模型类型分类

机器学习按照模型类型分为监督学习模型、无监督学习模型两大类。 1. 有监督学习 有监督学习通常是利用带有专家标注的标签的训练数据，

发表于 09-05 11:45 •1331次阅读

适用于任意数据模态的自监督学习数据增强技术

本文提出了一种适用于任意数据模态的自监督学习数据增强技术。自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的，但是在具体操作上是

发表于 09-04 10:07 •783次阅读

人工智能的关键技术包括哪些

机器学习是人工智能的一个重要分支，它通过计算的手段、学习经验（也可以说是利用经验）来改善系统的性能。它包括：有监督学习、无监督学习和强化学习

发表于 08-28 12:53 •1109次阅读

机器学习有哪些算法？机器学习分类算法有哪些？机器学习预判有哪些算法？

有许多不同的类型和应用。根据机器学习的任务类型，可以将其分为几种不同的算法类型。本文将介绍机器学习的算法类型以及分类算法和预测算法。机器学习的算法类型 1. 监督学习算法在

发表于 08-17 16:30 •1388次阅读

深度学习框架和深度学习算法教程

了基于神经网络的机器学习方法。深度学习算法可以分为两大类：监督学习和无监督学习。监督学习的基本任务是训练模型去

发表于 08-17 16:11 •707次阅读

人工智能技术包括哪些方面

机器学习通常分为监督学习和无监督学习。 监督学习通过在计算机上显示标记的数据集进行训练，使其可以预测未来的输入。无监督学习则是一种不需要标记

发表于 08-14 15:06 •1252次阅读

人工智能ai是什么

在人工智能的发展中，最重要的是机器学习（Machine Learning），这是一种人工智能的实现方式，通过对大量数据进行分析和学习，让系统自己找到规律和特征，从而达到自主智能化的目的。在机器学习中，主要有三种方式，分别是

发表于 08-14 14:20 •2843次阅读

人工智能有哪些算法

无监督学习算法主要用于聚类和关联规则挖掘。聚类问题是指将数据集合划分成相似的组，而关联规则挖掘问题是指发现数据集合中经常一起出现的数据项。常见的无监督学习算法包括K-means、谱聚类、Apriori等。

发表于 08-14 13:51 •3081次阅读

利用 Superb AI Suite 和 NVIDIA TAO Toolkit 创建高质量的计算机视觉应用

数据标记和模型训练一直被认为是团队在构建 AI 或机器学习基础设施时所面临的最大挑战。两者都是机器学习应用开发过程中的重要步骤，如果执行不当就会导致结果不准确和性能下降。数据标记对于所有形式的监督学习

发表于 06-30 17:30 •265次阅读

最新3D表征自监督学习+对比学习：FAC

第二个是我们防止 3D 片段/对象之间的过度判别，并通过 Siamese 对应网络中的自适应特征学习鼓励片段级别的前景到背景的区别，该网络有效地自适应地学习点云视图内和点云视图之间的特征相关性。

发表于 05-17 09:28 •562次阅读

机器学习步骤详解，一文了解全过程

调整，使其生成正确的输出。在其他情况下，则实行无监督学习，由系统负责梳理数据来发现以前未知的模式。大多数机器学习模型都是遵循这两种范式（监督学习与无监督学习）。

发表于 05-16 09:55 •4133次阅读