0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么半监督学习是机器学习的未来?

深度学习自然语言处理 来源:深度学习自然语言处理 作者:Andre Ye 2020-11-27 10:42 次阅读

为什么半监督学习是机器学习的未来。

监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精确度和预测能力。

然而,一个重大突破揭示了添加“无监督数据”可以提高模型泛化和性能。事实上,在非常多的场景中,带有标签的数据并不容易获得。半监督学习可以在标准的任务中实现SOTA的效果,只需要一小部分的有标记数据 —— 数百个训练样本。

在这个我们对半监督学习的探索中,我们会有:

半监督学习简介。什么是半监督学习,它与其他学习方法相比如何,半监督学习算法的框架/思维过程是什么?

算法:Semi-Supervised GANs。与传统GANs的比较,过程的解释,半监督GANs的性能。

用例和机器学习的未来。为什么半监督学习会有如此大的需求,哪里可以应用。

半监督学习介绍

半监督学习算法代表了监督和非监督算法的中间地带。虽然没有正式定义为机器学习的“第四个”元素(监督、无监督、强化),但它将前两个方面结合成一种自己的方法。

这些算法操作的数据有一些标签,但大部分是没有标签的。传统上,人们要么选择有监督学习的方式,只对带有标签的数据进行操作,这将极大地减小数据集的规模,要么,就会选择无监督学习的方式,丢弃标签保留数据集的其余部分,然后做比如聚类之类的工作。

这在现实世界中是很常见的。由于标注是很昂贵的,特别是大规模数据集,特别是企业用途的,可能只有几个标签。例如,考虑确定用户活动是否具有欺诈性。在100万用户中,该公司知道有1万用户是这样的,但其他9万用户可能是恶意的,也可能是良性的。半监督学习允许我们操作这些类型的数据集,而不必在选择监督学习或非监督学习时做出权衡。

一般来说,半监督学习算法在这个框架上运行:

半监督机器学习算法使用有限的标记样本数据集来训练自己,从而形成一个“部分训练”的模型。

部分训练的模型对未标记的数据进行标记。由于样本标记数据集有许多严重的限制(例如,在现实数据中的选择偏差),标记的结果被认为是“伪标签”数据。

结合标记和伪标签数据集,创建一个独特的算法,结合描述和预测方面的监督和非监督学习。

半监督学习利用分类过程来识别数据资产,利用聚类过程将其分成不同的部分。

算法:Semi-Supervised GAN

半监督的GAN,简称为SGAN,是[生成对抗网络](https://medium.com/analytics-vidhya/gans-for-one -an-直觉解释-革命概念-2f962c858b95)架构的一个变体,用于解决半监督学习问题。

在传统的GAN中,判别器被训练来预测由生成器模型生成的图像是真实的还是假的,允许它从图像中学习判别特征,即使没有标签。尽管大多数人通常在GANs中使用训练很好的生成器,可以生成和数据集中相似的图像,判别器还是可以通过以转移学习作为起点在相同的数据集上建立分类器,允许监督任务从无监督训练中受益。由于大部分的图像特征已经被学习,因此进行分类的训练时间和准确率会更好。

然而,在SGAN中,判别器同时接受两种模式的训练:无监督和监督。

在无监督模式中,需要区分真实图像和生成的图像,就像在传统的GAN中一样。

在监督模式中,需要将一幅图像分类为几个类,就像在标准的神经网络分类器中一样。

为了同时训练这两种模式,判别器必须输出1 + n个节点的值,其中1表示“真或假”节点,n是预测任务中的类数。

在半监督GAN中,对判别器模型进行更新,预测K+1个类,其中K为预测问题中的类数,并为一个新的“假”类添加额外的类标签。它涉及到同时训练无监督分类任务和有监督分类任务的判别器模型。整个数据集都可以通过SGAN进行传递 —— 当一个训练样本有标签时,判别器的权值将被调整,否则,分类任务将被忽略,判别器将调整权值以更好地区分真实的图像和生成的图像。

虽然允许SGAN进行无监督训练,允许模型从一个非常大的未标记数据集中学习非常有用的特征提取,但有监督学习允许模型利用提取的特征并将其用于分类任务。其结果是一个分类器可以在像MNIST这样的标准问题上取得令人难以置信的结果,即使是在非常非常少的标记样本(数十到数百个)上进行训练。

SGAN巧妙地结合了无监督和监督学习的方面,强强联合,以最小的标签量,产生难以置信的结果。

用例和机器学习的未来

在一个可用数据量呈指数级增长的时代,无监督数据根本不能停下来等待标注。无数真实世界的数据场景会像这样出现 —— 例如,YouTube视频或网站内容。从爬虫引擎和内容聚合系统到图像和语音识别,半监督学习被广泛应用。

半监督学习将监督学习和非监督学习的过拟合和“不拟合”倾向(分别)结合起来的能力,创建了一个模型,在给出最小数量的标记数据和大量的未标记数据的情况下,可以出色地执行分类任务。除了分类任务,半监督算法还有许多其他用途,如增强聚类和异常检测。尽管这一领域本身相对较新,但由于在当今的数字领域中发现了巨大的需求,算法一直在不断地被创造和完善。

半监督学习确实是机器学习的未来。

原文标题:比监督学习做的更好:半监督学习

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4562

    浏览量

    98643
  • 机器学习
    +关注

    关注

    66

    文章

    8094

    浏览量

    130513

原文标题:比监督学习做的更好:半监督学习

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器学习基础知识全攻略

    监督学习通常是利用带有专家标注的标签的训练数据,学习一个从输入变量X到输入变量Y的函数映射。Y = f (X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。
    发表于 02-25 13:53 86次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>基础知识全攻略

    基于transformer和自监督学习的路面异常检测方法分享

    铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法,有助于定位异常区域。
    的头像 发表于 12-06 14:57 769次阅读
    基于transformer和自<b class='flag-5'>监督学习</b>的路面异常检测方法分享

    全面总结机器学习中的优化算法

    几乎所有的机器学习算法最后都归结为求一个目标函数的极值,即最优化问题,例如对于有监督学习,我们要找到一个最佳的映射函数f (x),使得对训练样本的损失函数最小化(最小化经验风险或结构风险)。
    发表于 11-02 10:18 263次阅读
    全面总结<b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的优化算法

    什么是强化学习

    强化学习机器学习的方式之一,它与监督学习、无监督学习并列,是三种机器
    的头像 发表于 10-30 11:36 1506次阅读
    什么是强化<b class='flag-5'>学习</b>

    深度学习的由来 深度学习的经典算法有哪些

    深度学习作为机器学习的一个分支,其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的
    发表于 10-09 10:23 341次阅读
    深度<b class='flag-5'>学习</b>的由来 深度<b class='flag-5'>学习</b>的经典算法有哪些

    Sentry ND网络防御:实时无监督机器学习解决方案

    电子发烧友网站提供《Sentry ND网络防御:实时无监督机器学习解决方案.pdf》资料免费下载
    发表于 09-13 10:19 0次下载
    Sentry ND网络防御:实时无<b class='flag-5'>监督</b><b class='flag-5'>机器</b><b class='flag-5'>学习</b>解决方案

    机器学习模型类型分类

     机器学习按照模型类型分为监督学习模型、无监督学习模型两大类。 1. 有监督学习监督学习通常
    的头像 发表于 09-05 11:45 1296次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>模型类型分类

    适用于任意数据模态的自监督学习数据增强技术

    本文提出了一种适用于任意数据模态的自监督学习数据增强技术。   自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的,但是在具体操作上是基于特定的数据
    的头像 发表于 09-04 10:07 776次阅读
    适用于任意数据模态的自<b class='flag-5'>监督学习</b>数据增强技术

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?

    有许多不同的类型和应用。根据机器学习的任务类型,可以将其分为几种不同的算法类型。本文将介绍机器学习的算法类型以及分类算法和预测算法。 机器
    的头像 发表于 08-17 16:30 1368次阅读

    机器学习算法入门 机器学习算法介绍 机器学习算法对比

    ,讨论一些主要的机器学习算法,以及比较它们之间的优缺点,以便于您选择适合的算法。 一、机器学习算法的基本概念 机器
    的头像 发表于 08-17 16:27 608次阅读

    机器学习和深度学习的区别

    的区别。 1. 机器学习 机器学习是指通过数据使机器能够自动地学习和改进性能的算法。
    的头像 发表于 08-17 16:11 3261次阅读

    深度学习框架和深度学习算法教程

    了基于神经网络的机器学习方法。 深度学习算法可以分为两大类:监督学习和无监督学习监督学习的基本
    的头像 发表于 08-17 16:11 695次阅读

    人工智能技术包括哪些方面

    机器学习通常分为监督学习和无监督学习监督学习通过在计算机上显示标记的数据集进行训练,使其可以预测未来
    的头像 发表于 08-14 15:06 1224次阅读

    精通机器学习之MATLAB分步实施指南

    本电子书建立在使用 MATLAB 进行机器学习 的基础上,后者回顾了机 器学习基础知识,并介绍了监督和无监督学习的技术方法。 我们使用心
    发表于 05-29 09:14 0次下载

    机器学习步骤详解,一文了解全过程

    调整,使其生成正确的输出。在其他情况下,则实行无监督学习,由系统负责梳理数据来发现以前未知的模式。大多数机器学习模型都是遵循这两种范式(监督学习与无
    的头像 发表于 05-16 09:55 4033次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>步骤详解,一文了解全过程