0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

半监督学习代码库存在的问题与挑战

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-10-18 16:28 次阅读

当使用监督学习(Supervised Learning)对大量高质量的标记数据(Labeled Data)进行训练时,神经网络模型会产生有竞争力的结果。例如,根据Paperswithcode网站统计,在ImageNet这一百万量级的数据集上,传统的监督学习方法可以达到超过88%的准确率。然而,获取大量有标签的数据往往费时费力。

为了缓解对标注数据的依赖,「半监督学习」(Semi-supervised Learning/SSL)致力于在仅有「少量」的标注数据时利用「大量无标签」数据(Unlabeled Data)来提升模型的泛化性。半监督学习亦是机器学习的重要主题之一。深度学习之前,这一领域的研究者们提出了诸如半监督支持向量机、熵正则化、协同训练等经典算法

深度半监督学习

随着深度学习的兴起,「深度」半监督学习算法也取得了长足的进步。同时,包括Google、Meta和微软等在内的科技巨头也认识到了半监督学习在实际场景中的巨大潜力。例如,Google利用噪声学生训练(Noisy student training)这一半监督算法提高了其在搜索方面的性能[1]。当前最具代表性的半监督算法通常对标注数据使用交叉熵损失进行训练,对无标注数据使用「一致性正则」技术(Consistency Regularization)鼓励对输入扰动进行不变预测。例如,Google在NeurIPS 2020提出的FixMatch[2]算法利用增强锚定(Augmentation Anchoring)和固定阈值(Fixed Thresholding)技术来增强模型对不同强增强数据的泛化性和减少噪声伪标签(Noisy Pseudo Labels)的影响。在训练中,FixMatch过滤了低于用户指定(user-provided / pre-defined)阈值的无标签数据。

微软亚洲研究院与东京工业大学等在NeurIPS 2021合作提出的FlexMatch[3]则考虑到了「不同类」之间的学习难度不同,因此提出了「课程伪标签」(Curriculum Pseudo Labeling)技术对于不同类应该采用不同的阈值。具体来说,对于容易学习的类别,模型应该设置高阈值以降低噪声伪标签的影响;对于难学习的类,模型应该设置低阈值鼓励该类的拟合。每个类的学习难度评估取决于落入该类且高于固定值的未标记数据样本的数量。

同时,研究员和这些学校还合作提出了一个统一的基于Pytorch的半监督方法代码库「TorchSSL」[4],对该领域的深度方法、常用数据集、和基准结果进行了统一的支持。

3e74bd92-4ded-11ed-a3b6-dac502259ad0.png

当前「半监督学习代码库存在的问题与挑战」

尽管半监督学习的发展如火如荼,但是,研究员们注意到目前大部分半监督论文「只关注」计算机视觉 (CV) 分类任务,而「其他领域」(例如自然语言处理 (NLP)、音频处理 (Audio))研究者无法得知这些在CV任务上有效的算法是否依然有效。另外,大部分半监督论文都是由谷歌,微软等大型机构发表的,学术界的实验室往往由于计算资源的限制不能一起推动半监督领域的发展。总的来说,半监督学习基准目前存在以下两个问题:

(1)多样性不足。现有的半监督学习基准大多局限于计算机视觉 (CV) 分类任务(即 CIFAR-10/100,SVHN,STL-10 和 ImageNet 分类),「排除了对自然语言处理 (NLP)、音频处理 (Audio) 等分类任务的一致和多样化评估,而在NLP和Audio中缺乏足够的标记数据也是一个普遍问题。」

(2)耗时且对学术界不友好。现有的半监督学习基准(如TorchSSL)通常是耗时且不环保的,因为它需要通常从头开始训练深度神经网络模型。具体而言,使用 TorchSSL评估FixMatch[1]大约需要「300」GPU日。如此高的训练成本使得许多研究实验室(尤其是学术界的实验室或小研究团体)无法负担得起SSL的相关研究,从而阻碍了SSL的进展。

USB: 任务多样化和对研究者更友好的新基准库

微软亚洲研究院的研究员们联合西湖大学、东京工业大学、卡内基梅隆大学、马克斯-普朗克研究所等机构的研究人员们提出了「USB」:第一个将「视觉,语言,和音频」分类任务进行统一的半监督分类学习基准。相比于之前的半监督学习基准(如TorchSSL)只关注少量视觉任务,该论文不仅引入更多样化的应用领域,还「首次」利用视觉预训练模型(Pretrained Vision Transformer)大大缩减了半监督算法的验证时间(「从7000GPU时缩减至900GPU时」),使得半监督研究对研究者、特别是小研究团体更友好。USB的相关论文已被国际人工智能顶会NeurIPS 2022接收。

USB

「USB提供的解决方案」

那么,USB如何一次性解决当前半监督基准存在的问题呢?研究员们进行了如下的改进:

(1)为增强任务多样性,USB引入了5个CV 数据集,5个NLP数据集和5个音频数据集提供了一个多样化且具有挑战性的基准,从而能够对来自不同领域的多个任务进行一致的评估。下表提供了USB与TorchSSL的任务和训练时间等方面的详细对比。

(2)为提高训练效率,研究员们将预训练的Vision Transformer引入SSL,而不是从头训练ResNets。具体而言,研究员们发现在「不影响性能」的情况下使用预训练模型可以大大减少训练迭代次数(例如,将 CV 任务的训练迭代次数从100万步减少到「20」万步)。(3)为了对研究人员更加友好,研究员们开源实现了14种 SSL算法并开源了一个模块化代码库和相关的配置文件以供研究者轻松再现USB报告中的结果。为了快速上手,USB还提供详细的文档和教程。此外,USB还提供pip包」以供使用者直接调用SSL算法。研究员们承诺未来会在USB中不断加入新的算法(例如不平衡半监督算法等)和更多更具挑战性的数据集。

总结

半监督学习通过利用大量无标签数据来训练更精确、更鲁棒的模型,在未来有着重要的研究和应用价值。研究员们期待通过USB这一工作,能够予力学术界和工业界在半监督学习领域取得更大的进展。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 代码
    +关注

    关注

    30

    文章

    4556

    浏览量

    66784
  • 深度学习
    +关注

    关注

    73

    文章

    5239

    浏览量

    119912
  • 半监督学习
    +关注

    关注

    0

    文章

    20

    浏览量

    2479

原文标题:NIPS'22 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    深非监督学习-Hierarchical clustering 层次聚类python的实现

    【深度学习基础-17】非监督学习-Hierarchical clustering 层次聚类-python实现
    发表于 04-28 10:07

    如何用卷积神经网络方法去解决机器监督学习下面的分类问题?

    人工智能下面有哪些机器学习分支?如何用卷积神经网络(CNN)方法去解决机器学习监督学习下面的分类问题?
    发表于 06-16 08:09

    基于半监督学习的跌倒检测系统设计_李仲年

    基于半监督学习的跌倒检测系统设计_李仲年
    发表于 03-19 19:11 4次下载

    基于半监督学习框架的识别算法

    人体行为识别是计算机视觉研究的热点问题,现有的行为识别方法都是基于监督学习框架.为了取得较好的识别效果,通常需要大量的有标记样本来建模.然而,获取有标记样本是一个费时又费力的工作.为了解决这个
    发表于 01-21 10:41 1次下载

    你想要的机器学习课程笔记在这:主要讨论监督学习和无监督学习

    with experience E(一个程序从经验E中学习解决任务T进行某一任务量度P,通过P测量在T的表现而提高经验E(另一种定义:机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。) 不同类型的机器学习算法:主要
    发表于 12-03 17:12 421次阅读

    如何用Python进行无监督学习

    监督学习是一种用于在数据中查找模式的机器学习技术。无监督算法给出的数据不带标记,只给出输入变量(X),没有相应的输出变量。在无监督学习中,算法自己去发现数据中有趣的结构。
    的头像 发表于 01-21 17:23 3965次阅读

    聚焦 | 新技术“红”不过十年?半监督学习却成例外?

    就目前来看,半监督学习是一个很有潜力的方向。
    的头像 发表于 06-18 17:24 2286次阅读

    机器学习算法中有监督和无监督学习的区别

    监督学习的好处之一是,它不需要监督学习必须经历的费力的数据标记过程。但是,要权衡的是,评估其性能的有效性也非常困难。相反,通过将监督学习算法的输出与测试数据的实际标签进行比较,可以很容易地衡量
    的头像 发表于 07-07 10:18 5378次阅读

    最基础的半监督学习

    导读 最基础的半监督学习的概念,给大家一个感性的认识。 半监督学习(SSL)是一种机器学习技术,其中任务是从一个小的带标签的数据集和相对较大的未带标签的数据中学习得到的。SSL的目标是
    的头像 发表于 11-02 16:08 2385次阅读

    监督学习最基础的3个概念

    导读 今天给大家介绍半监督学习中的3个最基础的概念:一致性正则化,熵最小化和伪标签,并介绍了两个经典的半监督学习方法。 没看一的点这里哈:半监督学习入门基础(一) 半监督学习 (SSL
    的头像 发表于 11-02 16:14 2685次阅读
    半<b class='flag-5'>监督学习</b>最基础的3个概念

    为什么半监督学习是机器学习的未来?

    为什么半监督学习是机器学习的未来。 监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精确度和预测能力。 然而
    的头像 发表于 11-27 10:42 3651次阅读

    监督学习:比监督学习做的更好

    监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精...
    的头像 发表于 12-08 23:32 1141次阅读

    基于人工智能的自监督学习详解

    监督学习让 AI 系统能够从很少的数据中学习知识,这样才能识别和理解世界上更微妙、更不常见的表示形式。
    的头像 发表于 03-30 17:09 5646次阅读
    基于人工智能的自<b class='flag-5'>监督学习</b>详解

    机器学习中的无监督学习应用在哪些领域

    监督学习|机器学习| 集成学习|进化计算| 非监督学习| 半监督学习| 自监督学习| 无
    发表于 01-20 10:52 4600次阅读
    机器<b class='flag-5'>学习</b>中的无<b class='flag-5'>监督学习</b>应用在哪些领域

    监督学习的一些思考

    监督学习的流行是势在必然的。在各种主流有监督学习任务都做到很成熟之后,数据成了最重要的瓶颈。从无标注数据中学习有效信息一直是...
    发表于 01-26 18:50 1次下载
    自<b class='flag-5'>监督学习</b>的一些思考