0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

半监督学习:比监督学习做的更好

电子设计 来源:电子设计 作者:电子设计 2020-12-08 23:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

首发:AI公园公众号
作者:Andre Ye
编译:ronghuaiyang

导读

为什么半监督学习是机器学习的未来。


监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精确度和预测能力。
然而,一个重大突破揭示了添加“无监督数据”可以提高模型泛化和性能。事实上,在非常多的场景中,带有标签的数据并不容易获得。半监督学习可以在标准的任务中实现SOTA的效果,只需要一小部分的有标记数据 —— 数百个训练样本。
在这个我们对半监督学习的探索中,我们会有:

  1. _半监督学习简介_。什么是半监督学习,它与其他学习方法相比如何,半监督学习算法的框架/思维过程是什么?
  2. _算法:Semi-Supervised GANs_。与传统GANs的比较,过程的解释,半监督GANs的性能。
  3. _用例和机器学习的未来_。为什么半监督学习会有如此大的需求,哪里可以应用。

半监督学习介绍

半监督学习算法代表了监督和非监督算法的中间地带。虽然没有正式定义为机器学习的“第四个”元素(监督、无监督、强化),但它将前两个方面结合成一种自己的方法。
这些算法操作的数据有一些标签,但大部分是没有标签的。传统上,人们要么选择有监督学习的方式,只对带有标签的数据进行操作,这将极大地减小数据集的规模,要么,就会选择无监督学习的方式,丢弃标签保留数据集的其余部分,然后做比如聚类之类的工作。

这在现实世界中是很常见的。由于标注是很昂贵的,特别是大规模数据集,特别是企业用途的,可能只有几个标签。例如,考虑确定用户活动是否具有欺诈性。在100万用户中,该公司知道有1万用户是这样的,但其他9万用户可能是恶意的,也可能是良性的。半监督学习允许我们操作这些类型的数据集,而不必在选择监督学习或非监督学习时做出权衡。
一般来说,半监督学习算法在这个框架上运行:

  1. 半监督机器学习算法使用有限的标记样本数据集来训练自己,从而形成一个“部分训练”的模型。
  2. 部分训练的模型对未标记的数据进行标记。由于样本标记数据集有许多严重的限制(例如,在现实数据中的选择偏差),标记的结果被认为是“伪标签”数据。
  3. 结合标记和伪标签数据集,创建一个独特的算法,结合描述和预测方面的监督和非监督学习。

半监督学习利用分类过程来识别数据资产,利用聚类过程将其分成不同的部分。

算法:Semi-Supervised GAN

半监督的GAN,简称为SGAN,是[生成对抗网络](https://medium.com/analytics-... -an-直觉解释-革命概念-2f962c858b95)架构的一个变体,用于解决半监督学习问题。
在传统的GAN中,判别器被训练来预测由生成器模型生成的图像是真实的还是假的,允许它从图像中学习判别特征,即使没有标签。尽管大多数人通常在GANs中使用训练很好的生成器,可以生成和数据集中相似的图像,判别器还是可以通过以转移学习作为起点在相同的数据集上建立分类器,允许监督任务从无监督训练中受益。由于大部分的图像特征已经被学习,因此进行分类的训练时间和准确率会更好。
然而,在SGAN中,判别器同时接受两种模式的训练:无监督和监督。

  • 在无监督模式中,需要区分真实图像和生成的图像,就像在传统的GAN中一样。
  • 在监督模式中,需要将一幅图像分类为几个类,就像在标准的神经网络分类器中一样。

为了同时训练这两种模式,判别器必须输出1 + _n_个节点的值,其中1表示“真或假”节点,_n_是预测任务中的类数。
在半监督GAN中,对判别器模型进行更新,预测K+1个类,其中K为预测问题中的类数,并为一个新的“_假_”类添加额外的类标签。它涉及到同时训练无监督分类任务和有监督分类任务的判别器模型。整个数据集都可以通过SGAN进行传递 —— 当一个训练样本有标签时,判别器的权值将被调整,否则,分类任务将被忽略,判别器将调整权值以更好地区分真实的图像和生成的图像。

虽然允许SGAN进行无监督训练,允许模型从一个非常大的未标记数据集中学习非常有用的特征提取,但有监督学习允许模型利用提取的特征并将其用于分类任务。其结果是一个分类器可以在像MNIST这样的标准问题上取得令人难以置信的结果,即使是在非常非常少的标记样本(数十到数百个)上进行训练。
SGAN巧妙地结合了无监督和监督学习的方面,强强联合,以最小的标签量,产生难以置信的结果。

用例和机器学习的未来

在一个可用数据量呈指数级增长的时代,无监督数据根本不能停下来等待标注。无数真实世界的数据场景会像这样出现 —— 例如,YouTube视频或网站内容。从爬虫引擎和内容聚合系统到图像和语音识别,半监督学习被广泛应用。
半监督学习将监督学习和非监督学习的过拟合和“不拟合”倾向(分别)结合起来的能力,创建了一个模型,在给出最小数量的标记数据和大量的未标记数据的情况下,可以出色地执行分类任务。除了分类任务,半监督算法还有许多其他用途,如增强聚类和异常检测。尽管这一领域本身相对较新,但由于在当今的数字领域中发现了巨大的需求,算法一直在不断地被创造和完善。
半监督学习确实是机器学习的未来。

—END—

英文原文:https://towardsdatascience.co...

推荐阅读

关注图像处理,自然语言处理,机器学习等人工智能领域,请点击关注AI公园专栏
欢迎关注微信公众号

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261507
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    趋势: 无监督学习普及 当前工业场景中80%的缺陷检测项目面临\"OK样本充足而NG样本稀缺\"的困境,传统监督学习方案难以落地。课程第11系列(无监督缺陷检测篇)提供无需标注即可
    发表于 12-04 09:28

    自动驾驶数据标注是所有信息都要标注吗?

    本身只是像素和点云。标注的工作就是人为地给这些信号贴上语义标签,告诉模型这是一辆车、这是行人、这是车道线、这个区域不能通行之类的明确信息。没有这些标签,监督学习、验证和评估都无法进行,模型不知道哪些输入与哪些输出应该
    的头像 发表于 12-04 09:05 332次阅读
    自动驾驶数据标注是所有信息都要标注吗?

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    23.5%。本次团购旨在帮助工程师把握三大技术趋势: 无监督学习普及 当前工业场景中80%的缺陷检测项目面临\"OK样本充足而NG样本稀缺\"的困境,传统监督学习方案难以落地。课程
    发表于 12-03 13:50

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能体在环境里行动,它能观察到环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,强化学习没有一一对应的“正确答案”给它看,而是靠与环境交互、自我探索来发现
    的头像 发表于 10-23 09:00 326次阅读
    自动驾驶中常提的“强化<b class='flag-5'>学习</b>”是个啥?

    使用MATLAB的支持向量机解决方案

    支持向量机 (SVM) 是一种有监督机器学习算法,它能找到分离两个类的数据点的最佳超平面。
    的头像 发表于 10-21 15:00 305次阅读
    使用MATLAB的支持向量机解决方案

    EL非监督分割白皮书丨5张OK图、1分钟建模、半小时落地的异常检测工具!

    在工业4.0浪潮下,制造业对产品质量的要求愈发严苛。传统人工质检效率低、成本高,基于规则算法的视觉检测系统难以应对复杂场景,而依赖缺陷样本的有监督AI检测又面临样本不足、泛化能力弱的难题。在此背景下
    的头像 发表于 07-11 15:21 481次阅读
    EL非<b class='flag-5'>监督</b>分割白皮书丨5张OK图、1分钟建模、半小时落地的异常检测工具!

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    的基本理论。了解监督学习、无监督学习和强化学习的基本原理。例如,在监督学习中,理解如何通过标注数据来训练模型进行分类或回归任务,像通过大量的猫和狗的图片标注数据来训练一个图像分类模型,
    发表于 07-08 17:44

    机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统

    本文转自:DeepHubIMBA无监督异常检测作为机器学习领域的重要分支,专门用于在缺乏标记数据的环境中识别异常事件。本文深入探讨异常检测技术的理论基础与实践应用,通过IsolationForest
    的头像 发表于 06-24 11:40 1197次阅读
    机器<b class='flag-5'>学习</b>异常检测实战:用Isolation Forest快速构建无标签异常检测系统

    DeepSeeK学习资料

    104页DeepSeeK学习资料(清华)
    发表于 06-08 09:57 2次下载

    提高IT运维效率,深度解读京东云AIOps落地实践(异常检测篇)

    了一种无阈值方法:基于 LSTM 网络的基线(一个 LSTM 框架辅助几个优化步骤)和无监督检测(神经网络和多种机器学习算法的组合)协同综合分析时间序列。当时间序列显示出清晰的周期性形态的情况下基线表现良好,而无监督检测在效率
    的头像 发表于 05-22 16:38 804次阅读
    提高IT运维效率,深度解读京东云AIOps落地实践(异常检测篇)

    使用MATLAB进行无监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1178次阅读
    使用MATLAB进行无<b class='flag-5'>监督学习</b>

    掌握这六点,原来学习数电和模电这么简单!

    的认知理解,而先学习模电能够更好的对数电的内部结构原理得到了解,这样学习起数电来就更容易上手了,下面我们来开始今天的学习吧,如何学习模电,重
    的头像 发表于 03-19 19:33 3683次阅读
    掌握这六点,原来<b class='flag-5'>学习</b>数电和模电这么简单!

    如何优化BP神经网络的学习

    优化BP神经网络的学习率是提高模型训练效率和性能的关键步骤。以下是一些优化BP神经网络学习率的方法: 一、理解学习率的重要性 学习率决定了模型参数在每次迭代时更新的幅度。过大的
    的头像 发表于 02-12 15:51 1423次阅读

    如何快速学习硬件电路

    知识是理解电路运作原理的基础,可以通过网络上的教程、电子书籍等途径学习。 其次,新手需要掌握实验技能。在学习过程中,可以购买一些便携式的电路实验仪器,如万用表、示波器等,帮助自己更好地理解电路的运作过程。同时
    的头像 发表于 01-20 11:11 1949次阅读
    如何快速<b class='flag-5'>学习</b>硬件电路

    云南省产品质量监督检验研究院选购我司HS-DSC-101差示扫描量热仪

    近日,云南省产品质量监督检验研究院已正式选购我司生产的HS-DSC-101差示扫描量热仪。此次合作不仅标志着我司产品在技术性能和质量上得到了业内权威机构的认可,也进一步巩固了我们在分析仪器领域的市场
    的头像 发表于 12-16 09:42 747次阅读
    云南省产品质量<b class='flag-5'>监督</b>检验研究院选购我司HS-DSC-101差示扫描量热仪