最基础的半监督学习-电子发烧友网

导读

最基础的半监督学习的概念，给大家一个感性的认识。

半监督学习(SSL)是一种机器学习技术，其中任务是从一个小的带标签的数据集和相对较大的未带标签的数据中学习得到的。SSL的目标是要比单独使用有标记数据训练的监督学习技术得到更好的结果。这是半监督学习系列文章的第1部分，对这个机器学习的重要子领域进行了简要的介绍。

区分半监督学习，监督学习和无监督学习

整个数据集中可用于训练的有标记数据的范围区分了机器学习的这三个相关领域。

监督学习是机器学习中最流行的模式，在这种模式中，可以通过标签的形式获得完整的监督。整个数据集都有标记，即一个标签与训练数据集中的每个样本相关联。机器学习模型使用这个标签数据集训练，并期望对新的样本预测一个标签。监督学习主要包括两类任务：分类和回归。分类问题要求算法预测一个离散值，而回归任务是需要从输入变量(X)逼近一个映射函数(f)到连续输出变量(y)。

手写数字识别使用(MNIST)数据集。每个样本都有一个图像和对应的数字作为标签。任务是学习从图像中预测标签(即数字)。

另一个例子是情感分类，使用IMDB数据集。每条记录都包含一个评论和一个相应的标签(正面的或负面的)。这里的任务是预测给定评论的情绪。

房价预测是一个回归任务，其中标签(房价)是一个连续变量。

在无监督学习中，没有标记数据可用。训练数据集包含样本，但没有特定的期望结果或标签。机器学习模型试图通过提取有用的特征并对其进行分析来自动地在数据中找到结构。像聚类、异常检测、关联等任务属于无监督学习。

聚类是将数据集划分为多个簇，使同一簇中的数据点与同一簇中的其他数据点更相似，与其他簇中的数据点不相似。例如，下图(左)中的数据点可以分成3个簇，如图(右)所示。注意，簇可以是任何形状。

半监督式学习(SSL)，正如其名称所示，介于两个极端之间(监督式是指整个数据集被标记，而非监督式是指没有标记)。半监督学习任务具有一个标记和一个未标记的数据集。它使用未标记的数据来获得对数据结构的更多理解。通常，SSL使用小的带标签数据集和较大的未带标签数据集来进行学习。

我们的目标是学习一个预测器来预测未来的测试数据，这个预测器比单独从有标记的训练数据中学习的预测器更好。

监督学习，半监督学习，无监督学习在标记数据上的差别可视化

为什么要关注半监督学习

在许多实际应用中，收集大的有标签数据集太昂贵或者不可行，但是有大量的无标签数据可用。对于这种情况，半监督学习是一个完美的方案。SSL技术可以利用带标签的数据，也可以从未带标签的数据派生结构，从而更好地解决总体任务。

典型的监督学习算法在标记数据集较小的情况下，容易出现过拟合问题。SSL通过在训练过程中理解未标记数据的结构来缓解这个问题。

此外，这种学习技术减轻了构建大量标记数据集来学习任务的负担。SSL方法更接近我们人类的学习方式。

让我们举个例子来直观地看看半监督学习的效果。在下面的图中，当只对标记数据(大的黑点和白点)进行训练(即对标记数据进行监督学习)时，决策边界(虚线)并不遵循数据“流形”的轮廓，这可以由额外的未标记数据(小灰点)来表示。

因此，SSL的目标是利用未标记数据来生成决策边界，从而更好地反映数据的底层结构。

由不同的半监督学习方法生成的决策边界

半监督学习的任务举例

CIFAR-10— 它是由10个类的32×32像素的RGB图像组成的数据集，任务是图像分类。通常使用Tiny Images数据集中的随机图像来形成未标记数据集。

SVHN— 街景门牌号数据集由真实门牌号的32×32像素的RGB图像组成，任务是分类最中间的数字。它附带一个“SVHN-extra”数据集，该数据集由531,131个额外的数字图像组成，可以用作未标记数据。

Text-Classification Tasks— 亚马逊评论数据库，Yelp评论数据集。

总结

半监督学习是一种有趣的方法，用于解决机器学习中缺乏标记数据的问题。SSL算法还利用未标记数据来提高监督学习算法的性能。SSL算法通常提供了一种从无标签示例中了解数据结构的方法，减轻了对标签的需求。

本系列的第2部分会介绍了一些具体的SSL技术，未完待续。

责任编辑：xj

原文标题：半监督学习入门基础（一）

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

SSL

SSL

+关注

关注
0

文章
119

浏览量
25475
半监督

半监督

+关注

关注
0

文章
5

浏览量
6302
机器学习

机器学习

+关注

关注
66

文章
8088

浏览量
130500
深度学习

深度学习

+关注

关注
73

文章
5217

浏览量
119849

原文标题：半监督学习入门基础（一）

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

使用自监督学习重建动态驾驶场景

无论是单调的高速行车，还是平日的短途出行，驾驶过程往往平淡无奇。因此，在现实世界中采集的用于开发自动驾驶汽车（AV）的大部分训练数据都明显偏向于简单场景。这给部署鲁棒的感知模型带来了挑战。自动驾驶汽车必须接受全面的训练、测试和验证，以便能够应对复杂的场景，而这需要大量涵盖此类场景的数据。在现实世界中，收集此类场景数据要耗费大量时间和成本。而现在，仿真提供了另一个可选方案。但要大规模生成复杂动态场景仍然

发表于 12-16 16:05 •260次阅读

基于transformer和自监督学习的路面异常检测方法分享

铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法，有助于定位异常区域。

发表于 12-06 14:57 •759次阅读

基于transformer和自<b class='flag-5'>监督学习</b>的路面异常检测方法分享

深度学习的由来深度学习的经典算法有哪些

深度学习作为机器学习的一个分支，其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的学习

发表于 10-09 10:23 •334次阅读

机器学习模型类型分类

机器学习按照模型类型分为监督学习模型、无监督学习模型两大类。 1. 有监督学习 有监督学习通常是利用带有专家标注的标签的训练数据，

发表于 09-05 11:45 •1286次阅读

适用于任意数据模态的自监督学习数据增强技术

本文提出了一种适用于任意数据模态的自监督学习数据增强技术。自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的，但是在具体操作上是基于特定的数据

发表于 09-04 10:07 •772次阅读

人工智能的关键技术包括哪些

机器学习是人工智能的一个重要分支，它通过计算的手段、学习经验（也可以说是利用经验）来改善系统的性能。它包括：有监督学习、无监督学习和强化学习

发表于 08-28 12:53 •1061次阅读

深度学习框架和深度学习算法教程

了基于神经网络的机器学习方法。深度学习算法可以分为两大类：监督学习和无监督学习。监督学习的基本任务是训练模型去

发表于 08-17 16:11 •693次阅读

人工智能技术包括哪些方面

机器学习通常分为监督学习和无监督学习。 监督学习通过在计算机上显示标记的数据集进行训练，使其可以预测未来的输入。无监督学习则是一种不需要标记

发表于 08-14 15:06 •1219次阅读

人工智能ai是什么

在人工智能的发展中，最重要的是机器学习（Machine Learning），这是一种人工智能的实现方式，通过对大量数据进行分析和学习，让系统自己找到规律和特征，从而达到自主智能化的目的。在机器学习中，主要有三种方式，分别是

发表于 08-14 14:20 •2635次阅读

人工智能有哪些算法

无监督学习算法主要用于聚类和关联规则挖掘。聚类问题是指将数据集合划分成相似的组，而关联规则挖掘问题是指发现数据集合中经常一起出现的数据项。常见的无监督学习算法包括K-means、谱聚类、Apriori等。

发表于 08-14 13:51 •3002次阅读

利用 Superb AI Suite 和 NVIDIA TAO Toolkit 创建高质量的计算机视觉应用

数据标记和模型训练一直被认为是团队在构建 AI 或机器学习基础设施时所面临的最大挑战。两者都是机器学习应用开发过程中的重要步骤，如果执行不当就会导致结果不准确和性能下降。数据标记对于所有形式的监督学习

发表于 06-30 17:30 •257次阅读

通过弱监督学习揭示医学影像中的秘密

群中具有普遍性的高质量AI模型。然而，要建立这样的AI模型，就离不开大量数据的支持，并且这些数据还需要经过精心标注，才能供机器来学习。

发表于 05-18 09:57 •587次阅读

最新3D表征自监督学习+对比学习：FAC

第二个是我们防止 3D 片段/对象之间的过度判别，并通过 Siamese 对应网络中的自适应特征学习鼓励片段级别的前景到背景的区别，该网络有效地自适应地学习点云视图内和点云视图之间的特征相关性。

发表于 05-17 09:28 •553次阅读

机器学习算法：监督学习和强化学习

垃圾邮件识别需使计算机“学会”识别某个邮件是否为垃圾邮件。为实现计算机识别垃圾邮件，开发人员需搜集较多的垃圾邮件和非垃圾邮件，并“告诉”计算机各个邮件分属于垃圾邮件或非垃圾邮件。

发表于 04-24 12:49 •685次阅读

机器学习算法的分类

根据有无标签，监督学习可分类为：传统的监督学习（Traditional Supervised Learning）、非监督学习（Unsupervised Learning）、半监督学习（

发表于 04-18 16:26 •658次阅读