0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

最基础的半监督学习

深度学习自然语言处理 来源:深度学习自然语言处理 作者:Neeraj varshney 2020-11-02 16:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

导读

最基础的半监督学习的概念,给大家一个感性的认识。

半监督学习(SSL)是一种机器学习技术,其中任务是从一个小的带标签的数据集和相对较大的未带标签的数据中学习得到的。SSL的目标是要比单独使用有标记数据训练的监督学习技术得到更好的结果。这是半监督学习系列文章的第1部分,对这个机器学习的重要子领域进行了简要的介绍。

区分半监督学习,监督学习和无监督学习

整个数据集中可用于训练的有标记数据的范围区分了机器学习的这三个相关领域。

监督学习是机器学习中最流行的模式,在这种模式中,可以通过标签的形式获得完整的监督。整个数据集都有标记,即一个标签与训练数据集中的每个样本相关联。机器学习模型使用这个标签数据集训练,并期望对新的样本预测一个标签。监督学习主要包括两类任务:分类和回归。分类问题要求算法预测一个离散值,而回归任务是需要从输入变量(X)逼近一个映射函数(f)到连续输出变量(y)。

手写数字识别使用(MNIST)数据集。每个样本都有一个图像和对应的数字作为标签。任务是学习从图像中预测标签(即数字)。

另一个例子是情感分类,使用IMDB数据集。每条记录都包含一个评论和一个相应的标签(正面的或负面的)。这里的任务是预测给定评论的情绪。

房价预测是一个回归任务,其中标签(房价)是一个连续变量。

在无监督学习中,没有标记数据可用。训练数据集包含样本,但没有特定的期望结果或标签。机器学习模型试图通过提取有用的特征并对其进行分析来自动地在数据中找到结构。像聚类、异常检测、关联等任务属于无监督学习。

聚类是将数据集划分为多个簇,使同一簇中的数据点与同一簇中的其他数据点更相似,与其他簇中的数据点不相似。例如,下图(左)中的数据点可以分成3个簇,如图(右)所示。注意,簇可以是任何形状。

半监督式学习(SSL),正如其名称所示,介于两个极端之间(监督式是指整个数据集被标记,而非监督式是指没有标记)。半监督学习任务具有一个标记和一个未标记的数据集。它使用未标记的数据来获得对数据结构的更多理解。通常,SSL使用小的带标签数据集和较大的未带标签数据集来进行学习。

我们的目标是学习一个预测器来预测未来的测试数据,这个预测器比单独从有标记的训练数据中学习的预测器更好。

监督学习,半监督学习,无监督学习在标记数据上的差别可视化

为什么要关注半监督学习

在许多实际应用中,收集大的有标签数据集太昂贵或者不可行,但是有大量的无标签数据可用。对于这种情况,半监督学习是一个完美的方案。SSL技术可以利用带标签的数据,也可以从未带标签的数据派生结构,从而更好地解决总体任务。

典型的监督学习算法在标记数据集较小的情况下,容易出现过拟合问题。SSL通过在训练过程中理解未标记数据的结构来缓解这个问题。

此外,这种学习技术减轻了构建大量标记数据集来学习任务的负担。SSL方法更接近我们人类的学习方式。

让我们举个例子来直观地看看半监督学习的效果。在下面的图中,当只对标记数据(大的黑点和白点)进行训练(即对标记数据进行监督学习)时,决策边界(虚线)并不遵循数据“流形”的轮廓,这可以由额外的未标记数据(小灰点)来表示。

因此,SSL的目标是利用未标记数据来生成决策边界,从而更好地反映数据的底层结构。

由不同的半监督学习方法生成的决策边界

半监督学习的任务举例

CIFAR-10— 它是由10个类的32×32像素的RGB图像组成的数据集,任务是图像分类。通常使用Tiny Images数据集中的随机图像来形成未标记数据集。

SVHN— 街景门牌号数据集由真实门牌号的32×32像素的RGB图像组成,任务是分类最中间的数字。它附带一个“SVHN-extra”数据集,该数据集由531,131个额外的数字图像组成,可以用作未标记数据。

Text-Classification Tasks— 亚马逊评论数据库,Yelp评论数据集。

总结

半监督学习是一种有趣的方法,用于解决机器学习中缺乏标记数据的问题。SSL算法还利用未标记数据来提高监督学习算法的性能。SSL算法通常提供了一种从无标签示例中了解数据结构的方法,减轻了对标签的需求。

本系列的第2部分会介绍了一些具体的SSL技术,未完待续。

责任编辑:xj

原文标题:半监督学习入门基础(一)

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SSL
    SSL
    +关注

    关注

    0

    文章

    132

    浏览量

    26829
  • 半监督
    +关注

    关注

    0

    文章

    5

    浏览量

    6463
  • 机器学习
    +关注

    关注

    67

    文章

    8567

    浏览量

    137244
  • 深度学习
    +关注

    关注

    73

    文章

    5610

    浏览量

    124651

原文标题:半监督学习入门基础(一)

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI 算法核心知识清单(深度实战版2)

    三、机器学习核心算法(入门到实战)​1.监督学习算法(已知标签的模型训练)​线性模型​线性回归(回归任务):​核心原理:假设y=w₀+w₁x₁+w₂x₂+...+wₙxₙ+ε(ε为误差项),通过
    的头像 发表于 04-24 11:58 209次阅读
    AI 算法核心知识清单(深度实战版2)

    算法工程师需要具备哪些技能?

    :自动化任务(如数据预处理、模型训练调度)。Git版本控制:团队协作开发(如分支管理、代码合并)。 机器学习监督学习:线性回归、逻辑回归、决策树、SVM等。无监督学习:聚类(K-Means)、降维
    发表于 02-27 10:53

    强化学习会让自动驾驶模型学习更快吗?

    是一种让机器通过“试错”学会决策的办法。与监督学习不同,监督学习是有人提供示范答案,让模型去模仿;而强化学习不会把每一步的“正确答案”都告诉你,而是把环境、动作和结果连起来,让机器自己探索哪个行为长期看起来更有利
    的头像 发表于 01-31 09:34 847次阅读
    强化<b class='flag-5'>学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    UCC27212 桥驱动器技术详解

    UCC27212 桥驱动器技术详解 在电子工程领域,功率转换和控制电路对于各种应用至关重要。而驱动器作为其中的关键组件,其性能直接影响着整个系统的效率和稳定性。今天,我们就来深入了解一款高性能的
    的头像 发表于 01-08 17:30 925次阅读

    FRDMGD3160DSBHB桥评估板:设计与应用指南

    FRDMGD3160DSBHB桥评估板:设计与应用指南 在电子工程领域,一款性能优良的评估板对于产品的开发和测试至关重要。今天,我们就来深入了解一下NXP的FRDMGD3160DSBHB桥评估板
    的头像 发表于 12-25 10:55 854次阅读

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    趋势: 无监督学习普及 当前工业场景中80%的缺陷检测项目面临\"OK样本充足而NG样本稀缺\"的困境,传统监督学习方案难以落地。课程第11系列(无监督缺陷检测篇)提供无需标注即可
    发表于 12-04 09:28

    自动驾驶数据标注是所有信息都要标注吗?

    本身只是像素和点云。标注的工作就是人为地给这些信号贴上语义标签,告诉模型这是一辆车、这是行人、这是车道线、这个区域不能通行之类的明确信息。没有这些标签,监督学习、验证和评估都无法进行,模型不知道哪些输入与哪些输出应该
    的头像 发表于 12-04 09:05 1198次阅读
    自动驾驶数据标注是所有信息都要标注吗?

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    趋势: 无监督学习普及 当前工业场景中80%的缺陷检测项目面临\"OK样本充足而NG样本稀缺\"的困境,传统监督学习方案难以落地。课程第11系列(无监督缺陷检测篇)提供无需标注即可
    发表于 12-03 13:50

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能体在环境里行动,它能观察到环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,强化学习没有一一对应的“正确答案”给它看,而是靠与环境交互、自我探索来发现
    的头像 发表于 10-23 09:00 908次阅读
    自动驾驶中常提的“强化<b class='flag-5'>学习</b>”是个啥?

    LLC 桥谐振电路的设计与应用

    电子发烧友网站提供《LLC 桥谐振电路的设计与应用.pdf》资料免费下载
    发表于 10-22 17:11 8次下载

    XM3桥电源模块系列CREE

    XM3桥电源模块系列是 Wolfspeed(原CREE)推出的高功率碳化硅(SiC)电源模块平台,专为电动汽车、工业电源和牵引驱动等高要求应用设计。XM3桥电源模块系列采用第三代 SiC
    发表于 09-11 09:48

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    的基本理论。了解监督学习、无监督学习和强化学习的基本原理。例如,在监督学习中,理解如何通过标注数据来训练模型进行分类或回归任务,像通过大量的猫和狗的图片标注数据来训练一个图像分类模型,
    发表于 07-08 17:44

    HT8 桥电磁炉MCU应用须知

    本文介绍了基于HT8的桥电磁炉设计方案
    发表于 07-07 10:26 7次下载

    机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统

    本文转自:DeepHubIMBA无监督异常检测作为机器学习领域的重要分支,专门用于在缺乏标记数据的环境中识别异常事件。本文深入探讨异常检测技术的理论基础与实践应用,通过IsolationForest
    的头像 发表于 06-24 11:40 1613次阅读
    机器<b class='flag-5'>学习</b>异常检测实战:用Isolation Forest快速构建无标签异常检测系统

    使用MATLAB进行无监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1627次阅读
    使用MATLAB进行无<b class='flag-5'>监督学习</b>