0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

适用于任意数据模态的自监督学习数据增强技术

OpenCV学堂 来源:机器之心 2023-09-04 10:07 次阅读

本文提出了一种适用于任意数据模态的自监督学习数据增强技术。

自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的,但是在具体操作上是基于特定的数据模态的。这意味着需要为不同的数据模态开发不同的自监督学习算法。为此,本文提出了一种通用的数据增强技术,可以应用于任意数据模态。相较于已有的通用的自监督学习,该方法能够取得明显的性能提升,同时能够代替一系列为特定模态设计的复杂的数据增强方式并取得与之类似的性能。

简介 当前 Siamese 表征学习 / 对比学习需要利用数据增强技术来构建同一个数据的不同样本,并将其输入两个并行的网络结构,从而产生足够强的监督信号。然而这些数据增强技术往往非常依赖于模态特定的先验知识,通常需要手动设计或者搜索适用于当前模态的最佳组合。除了耗时耗力外,找到的最优数据增强方式也极难迁移到别的领域。例如,常见的针对于自然 RGB 图像的颜色抖动(color jittering)无法应用于除了自然图像以外的其他数据模态。 一般性地,输入数据可以被表征为由序列维度(sequential)和通道维度(channel)组成的二维向量。其中序列维度通常是模态相关的,例如图像上的空间维度、语音的时间维度以及语言的句法维度。而通道维度是模态无关的。在自监督学习中,masked modeling [1] 或者以 masking 作为数据增强 [2] 已经成为一种有效的学习方式。然而这些操作都作用于序列维度。为了能够广泛应用于不同数据模态,本文提出一种作用于通道维度的数据增强手段:随机量化(randomized quantization)。每个通道中的数据通过非均匀量化器进行动态量化,量化值是从随机划分的区间中随机采样的。通过这种方式,落在同一个区间内原始输入的信息差被删除,同时不同区间数据的相对大小被保留,从而达到 masking 的效果。

18f147e4-4a3f-11ee-97a6-92fbcf53809c.png

该方法在各种不同数据模态上超过了已有任意模态自监督学习方法,包括自然图像、3D 点云、语音、文本、传感器数据、医疗图像等。在多种预训练学习任务中,例如对比学习(例如 MoCo-v3)和自蒸馏自监督学习(例如 BYOL)都学到了比已有方法更优的特征。该方法还经过验证,适用于不同的骨干网络结构,例如 CNN 和 Transformer。 方法 量化(Quantization)指的是利用一组离散的数值表征连续数据,以便于数据的高效存储、运算以及传输。然而,一般的量化操作的目标是在不损失精确度的前提下压缩数据,因而该过程是确定性的,而且是设计为与原数据尽量接近的。这就限制了其作为增强手段的强度和输出的数据丰富程度。 本文提出一种随机量化操作(randomized quantization),将输入的每个 channel 数据独立划分为多个互不重叠的随机区间(1901cea2-4a3f-11ee-97a6-92fbcf53809c.png),并将落在各个区间内的原始输入映射到从该区间内随机采样的一个常数190b8244-4a3f-11ee-97a6-92fbcf53809c.png。  

19153942-4a3f-11ee-97a6-92fbcf53809c.png

随机量化作为自监督学习任务中 masking 通道维度数据的能力取决于以下三个方面的设计:1) 随机划分数值区间;2) 随机采样输出值以及 3)划分的数值区间个数。 具体而言,随机的过程带来了更加丰富的样本,同一个数据每次执行随机量化操作都可以生成不同的数据样本。同时,随机的过程也带来对原始数据更大的增强力度,例如随机划分出大的数据区间,或者当映射点偏离区间中值点时,都可以导致落在该区间的原始输入和输出之间的更大差异。 除此之外,也可以非常容易地通过适当减少划分区间的个数,提高增强力度。这样,当应用于 Siamese 表征学习的时候,两个网络分支就可以见到有足够信息差异的输入数据,从而构建足够强的学习信号,帮助到特征学习。 下图可视化了不同数据模态在使用了该数据增强方式之后的效果:

192515d8-4a3f-11ee-97a6-92fbcf53809c.png

实验结果模态 1:图像 本文在 ImageNet-1K 数据集上评估了 randomized quantization 应用于 MoCo-v3 和 BYOL 的效果,评测指标为 linear evaluation。当作为唯一的数据增强方式单独使用的时候,即将本文的 augmentation 应用于原始图像的 center crop,以及和常见的 random resized crop(RRC)配合使用的时候,该方法都取得了比已有通用自监督学习方法更好的效果。

19cc314c-4a3f-11ee-97a6-92fbcf53809c.png

相比于已有的针对图像数据开发的数据增强方式,例如 color jittering (CJ),本文的方法有着明显的性能优势。同时,该方法也可以取代 MoCo-v3/BYOL 中一系列复杂的数据增强方式(Full),包括颜色抖动(color jittering)、随机灰度化(gray scale)、随机高斯模糊(Gaussian blur)、随机曝光(solarization),并达到与复杂数据增强方式类似的效果。

1a0d2bd4-4a3f-11ee-97a6-92fbcf53809c.png

模态 2:3D 点云 本文还在 ModelNet40 数据集的分类任务和 ShapeNet Part 数据集的分割任务上验证了 randomized quantization 相对于已有自监督工作的优越性。尤其在下游训练集数据量较少的情况下,本文的方法显著超过已有点云自监督算法。

1a27a96e-4a3f-11ee-97a6-92fbcf53809c.png

模态 3:语音 在语音数据集上本文的方法也取得了比已有自监督学习方法更优的性能。本文在六个下游数据集上验证了该方法的优越性,其中在最难的数据集 VoxCeleb1 上(包含最多且远超其他数据集的类别个数),本文方法取得了显著的性能提升(5.6 个点)。

1a3fdfac-4a3f-11ee-97a6-92fbcf53809c.png

模态 4:DABS DABS 是一个模态通用自监督学习的基准,涵盖了多种模态数据,包括自然图像、文本、语音、传感器数据、医学图像、图文等。在 DABS 涵盖的多种不同模态数据上,我们的方法也优于已有的任意模态自监督学习方式。

1a68cf48-4a3f-11ee-97a6-92fbcf53809c.png

审核编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2526

    文章

    48106

    浏览量

    740102
  • 数据
    +关注

    关注

    8

    文章

    6512

    浏览量

    87601
  • 模态
    +关注

    关注

    0

    文章

    7

    浏览量

    6226
  • 计算机视觉
    +关注

    关注

    8

    文章

    1600

    浏览量

    45617

原文标题:ICCV 2023 | 通用数据增强技术,随机量化适用于任意数据模态

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于半监督学习的跌倒检测系统设计_李仲年

    基于半监督学习的跌倒检测系统设计_李仲年
    发表于 03-19 19:11 4次下载

    Python无监督学习的几种聚类算法包括K-Means聚类,分层聚类等详细概述

    监督学习是机器学习技术中的一类,用于发现数据中的模式。本文介绍用Python进行无监督学习的几
    的头像 发表于 05-27 09:59 3w次阅读
    Python无<b class='flag-5'>监督学习</b>的几种聚类算法包括K-Means聚类,分层聚类等详细概述

    你想要的机器学习课程笔记在这:主要讨论监督学习和无监督学习

    with experience E(一个程序从经验E中学习解决任务T进行某一任务量度P,通过P测量在T的表现而提高经验E(另一种定义:机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。) 不同类型的机器
    发表于 12-03 17:12 420次阅读

    如何用Python进行无监督学习

    监督学习是一种用于数据中查找模式的机器学习技术。无监督算法给出的
    的头像 发表于 01-21 17:23 3965次阅读

    Google AI最新研究用无监督数据增强推进半监督学习,取得令人瞩目的成果

    谷歌的结果促进了半监督学习的复兴,而且还发现3点有趣的现象:(1)SSL可以匹配甚至优于使用数量级更多标记数据的纯监督学习。(2)SSL在文本和视觉两个领域都能很好地工作。(3)SSL能够与迁移
    的头像 发表于 07-13 07:31 3362次阅读
    Google AI最新研究用无<b class='flag-5'>监督</b><b class='flag-5'>数据</b><b class='flag-5'>增强</b>推进半<b class='flag-5'>监督学习</b>,取得令人瞩目的成果

    机器学习算法中有监督和无监督学习的区别

    监督学习的好处之一是,它不需要监督学习必须经历的费力的数据标记过程。但是,要权衡的是,评估其性能的有效性也非常困难。相反,通过将监督学习算法的输出与测试
    的头像 发表于 07-07 10:18 5378次阅读

    最基础的半监督学习

    使用有标记数据训练的监督学习技术得到更好的结果。这是半监督学习系列文章的第1部分,对这个机器学习的重要子领域进行了简要的介绍。 区分半
    的头像 发表于 11-02 16:08 2385次阅读

    监督学习最基础的3个概念

    有趣的方法,用来解决机器学习中缺少标签数据的问题。SSL利用未标记的数据和标记的数据集来学习任务。SSL的目标是得到比单独使用标记
    的头像 发表于 11-02 16:14 2684次阅读
    半<b class='flag-5'>监督学习</b>最基础的3个概念

    为什么半监督学习是机器学习的未来?

    揭示了添加无监督数据可以提高模型泛化和性能。事实上,在非常多的场景中,带有标签的数据并不容易获得。半监督学习可以在标准的任务中实现SOTA的效果,只需要一小部分的有标记
    的头像 发表于 11-27 10:42 3651次阅读

    监督学习:比监督学习做的更好

    监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精...
    的头像 发表于 12-08 23:32 1141次阅读

    基于人工智能的自监督学习详解

    监督学习让 AI 系统能够从很少的数据学习知识,这样才能识别和理解世界上更微妙、更不常见的表示形式。
    的头像 发表于 03-30 17:09 5643次阅读
    基于人工智能的自<b class='flag-5'>监督学习</b>详解

    机器学习中的无监督学习应用在哪些领域

    监督学习|机器学习| 集成学习|进化计算| 非监督学习| 半监督学习| 自监督学习| 无
    发表于 01-20 10:52 4600次阅读
    机器<b class='flag-5'>学习</b>中的无<b class='flag-5'>监督学习</b>应用在哪些领域

    监督学习的一些思考

    监督学习的流行是势在必然的。在各种主流有监督学习任务都做到很成熟之后,数据成了最重要的瓶颈。从无标注数据学习有效信息一直是...
    发表于 01-26 18:50 1次下载
    自<b class='flag-5'>监督学习</b>的一些思考

    监督学习解锁医学影像洞察力

    数据,以及机器可以从中学习的复杂数据集标签。 今天,被称为弱监督学习的深度学习 (DL) 的一个分支正在帮助医生通过减少对完整、准确和准确
    的头像 发表于 09-30 18:04 1083次阅读
    弱<b class='flag-5'>监督学习</b>解锁医学影像洞察力

    监督学习代码库存在的问题与挑战

    当使用监督学习(Supervised Learning)对大量高质量的标记数据(Labeled Data)进行训练时,神经网络模型会产生有竞争力的结果。例如,根据Paperswithcode网站统计
    的头像 发表于 10-18 16:28 995次阅读