0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TextTopicNet模型:以自监督学习方式学习区别视觉特征

8g3K_AI_Thinker 来源:未知 作者:工程师郭婷 2018-07-31 17:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大规模带标注的数据集的出现是深度学习计算机视觉领域取得巨大成功的关键因素之一。然而,监督式学习存在一个主要问题:过于依赖大规模数据集,而数据集的收集和手动数据标注需要耗费大量的人力成本。

作为替代方案,自监督学习旨在通过设计辅助任务来学习可区别性的视觉特征,如此,目标标签就能够自由获取。这些标签能够直接从训练数据或图像中获得,并为计算机视觉模型的训练提供监督信息,这与监督式学习的原理是相同的。但是不同于监督式学习的是,自监督学习方法通过挖掘数据的性质,从中学习并生成视觉特征的语义标签信息。还有一类方法是弱监督学习,这种学习方式能够利用低水平的注释信息来解决更复杂的计算机视觉任务,如利用自然场景下每张图像的类别标签进行目标检测任务。

我们的目标是探索一种自监督的解决方案,利用图像和图像之间的相关性来替代完全监督式的 CNN训练。此外,我们还将探索非结构化语言语义信息的强弱,并将其作为文本监督信号来学习视觉特征。

我们扩展了之前提出的方法并展示了以自监督的方式进行插图文章的学习,这能够进一步扩展到更大的训练数据集(如整个英语维基百科)。

通过实验,我们验证了 TextTopicNet的表现优于其他基准评估中的自监督或自然监督的方法。此外,我们还在更具挑战性的 SUN397数据集上测试了我们的方法,结果表明 TextTopicNet能够减少自监督学习和监督学习之间的性能差距。

我们展示了将上下文的文本表征用于模型的训练,这能够有助于网络自动学习多模态的语义检索。在图像——文本的检索任务中,TextTopicNet的表现超过了无监督学习的方法,而与监督学习的方法相比,我们的方法能够在无需任何特定类别信息的情况下还能表现出有竞争力的性能。

在自监督学习设置下,我们对不同的文本嵌入方法进行了对比分析,如word2vec,GloVe,FastText,doc2vec等。

此外,我们还公开发布了我们所收集的数据集,该数据集采自整个英语维基百科,由 420 万个图像组成,每张图像都有对应的文字描述信息。

维基图像——文本数据集

我们以维基百科作为数据的来源,这是一个基于网络的多语言的百科全书项目,目前有 4000 多万篇文章,含 299 种不同语言。维基百科文章通常由文字及其他多媒体类型的对象(如图像,音频或视频文件)组成,因此可以将其视为多模态的文档数据。对于我们的实验,我们使用两个不同的维基百科文章集合:(a) ImageCLEF 2010维基百科数据集;(b)我们所收集的英语维基百科图像——文本数据集,包含 420 万图像文本对组成的数据,下图1展示了 11 种类别的文章分布情况。

TextTopicNet模型:以自监督学习方式学习区别视觉特征

图1英语维基百科种11种类别的文章分布情况

TextTopicNet

我们提出了一种 TextTopicNet的方法,通过挖掘大规模多模态网络文档的大规模语料库(如维基百科文章),以自监督的方式来学习视觉特征。在自监督学习设置下,TextTopicNet能够使用免费可用的非结构化、多模态的内容来学习可区别的视觉特征,并在给定图像的下,通过训练 CNN来预测可能插图的语义环境。我们的方法示意图如下图 2 所示,该方法采用一个文本嵌入算法来获取文本部分的向量表征,然后将该表征作为 CNN视觉特征学习的一种监督信号。我们进一步使用多种类别的文档以及词级(word-level)的文本嵌入方法,发现通过 LDA主题模型框架发现的隐藏语义结构,能够在主题层面最佳地展现文本信息。

TextTopicNet模型:以自监督学习方式学习区别视觉特征

图2 方法概览。维基百科文章包含一个主题的文本描述,这些文章同时也附有支持文本的插图。文本嵌入框架能够与文本信息相关的全局上下文表征。而整篇文章的这种文本表征向量被用于为 CNN的训练提供自监督信号

如图 3 所示,作为主题层面的语义描述器,需要大量可用的关于特定类别或细粒度类别的视觉数据。虽然在我们收集的数据中,这类数据非常有限,但是这很容易在更广泛的目标类别(如哺乳动物)中找到足够多的、有代表性的图像。因此,在给定的目标主题情况下,我们的方法能够学习到期望的视觉特征,这种特征是通用的,即同样适用于其他特定的计算机视觉任务。

图 3 描述特定实体的维基百科文章。如 (a) 中“羚羊”或 (b) 中的“马”,每个实体通常包含五张图像。对于一些特定实体,如 (c)中的“食草哺乳动物”,相关的图像很容易就达到数百或成千上万张。

我们还训练一个 CNN模型,它能够直接将图像投影到文本的语义空间,而 TextTopicNet不仅能够在无需任何标注信息的情况下从头开始学习数据的视觉特征,还可以以自然的方式进行多模态的检索,而无需额外的注释或学习成本。

实验

我们通过大量的实验来展示 TextTopicNet模型所学习到的视觉特征质量。衡量的标准是所习得的视觉特征具有足够好的可区别性和鲁棒性,并能进一步适用于那些未见过的类别数据。

首先,为了验证图像—文本对的自监督学习,我们比较了各种文本嵌入方法。其次,我们在 PASCAL VOC 2007 数据集的图像分类任务中对 TextTopicNet模型每层的特征进行基准分析,以找到了 LDA模型的最佳主题数量。然后,我们分别在 PASCAL、SUN397和 STL-10数据集的图像分类和检测任务中进一步与当前最佳的自监督方法和无监督方法进行了比较。最后,我们利用维基百科检索数据集对我们的方法进行了图像检索和文本查询实验。

自监督视觉特征学习的文本嵌入算法比较

在自监督视觉特征学习的设置下,我们对 word2vec,GloVe,FastText,doc2vec及 LDA算法进行了比较分析。对于每种文本嵌入方法,我们都将训练一个 CNN模型并利用网络不同层获得的特征信息去学习一个一对多的SVM (one-vs-all SVM)。下表1显示了在 PASCAL VOC2007数据集中,使用不同文本嵌入方法,模型所展现的分类性能。我们观察到在自监督的视觉特征学习任务中,基于嵌入的 LDA方法展现了最佳全局表现。

表1:使用不同文本嵌入方法的 TextTopicNet模型在 PASCAL VOC2007数据集图像分类任务上的性能表现(%mAP)

TextTopicNet模型:以自监督学习方式学习区别视觉特征

LDA模型的超参数设置

我们用 ImageCLEF Wikipedia数据集上 35582 篇文章训练了一个 LDA 模型,以确定 LDA模型的主题数量。下图4展示了实验结果,我们可以看到拥有 40 个主题数的 LDA模型能够获得最佳的 SVM验证准确性。

TextTopicNet模型:以自监督学习方式学习区别视觉特征

图4随着 LDA主题数量的变化,PASCAL VOC2007数据集上 One vs. Rest线性 SVM所取得的验证准确性(%mAP)

图像分类和图像检测

我们分别在 PASCAL、SUN397和 STL-10数据集进行图像分类和检测任务,比较并分析 TextTopicNet以及当前最佳的自监督和无监督模型的表现。下表 2、3和4 分别展示各模型在 PASCAL VOC 2007、SUN397和 STL-10数据集上的分类表现,表 5 展示了在 PASCAL VOC 2007数据集上模型的检测性能。

表 2 PASCAL VOC2007数据集上各模型的分类表现(%mAP)

TextTopicNet模型:以自监督学习方式学习区别视觉特征

表 3 SUN397数据集上各模型的分类表现(%mAP)

TextTopicNet模型:以自监督学习方式学习区别视觉特征

表 4 STL-10数据集上各模型的分类表现(%mAP)

TextTopicNet模型:以自监督学习方式学习区别视觉特征

表 5 PASCAL VOC 2007数据集上各模型的检测表现(%mAP)

TextTopicNet模型:以自监督学习方式学习区别视觉特征

图像检索和文本查询

我们还在多模态检索任务中评估所习得的自监督视觉特征:(1)图像查询与文本数据库; (2)文本查询与图像数据库。我们使用维基百科检索数据集,由2,866 个图像文档对组成,包含 2173 和 693 对训练和测试数据。每个图像--文本对数据都带有其语义标签。下表 6 展示了监督和无监督学习方法在多模态检索任务中的表现,其中监督学习的方法能够利用与类别相关的每个图像--文本对信息,而无监督学习方法则不能。

表 8维基数据集上各监督学习和无监督学习方法的表现(%mAP)

TextTopicNet模型:以自监督学习方式学习区别视觉特征

图 4 显示了与给定查询图像(最左侧)最接近的 4 张图像,其中每行使用的是 TextTopicNet模型不同层次获得的特征,从上到下:prob,fc7,fc6,pool5层。这些查询图像是从 PASCAL VOC 2007中随机选择的,且从未在训练时出现过。

图4与查询图像(最左侧)最相近的4张图像

图 5显示了在 TextTopicNet主题空间中,与给定查询文本最接近的 12 个查询内容。可以看到,对于第一条查询文本(“飞机”),所检索到的图像列表几乎是其相同的同义词,如“flight”,“airway”或“aircraft”。利用文本的语义信息,我们的方法能够学习多义词的图像表示。此外,TextTopicNet模型还能够处理语义文本查询,如检索(“飞机”+ “战斗机”或“飞行”+“天空”)等。

图 5与不同文本查询最接近的12个查询内容

结论

在本文中,我们提出了一种自监督学习方法,用于学习 LDA模型的文本主题空间。该方法 TextTopicNet能够在无监督设置下,利用多模态数据的优势,学习并训练计算机视觉算法。将文章插图中的文字视为噪声图像标注信息,我们的方法能够通过视觉特征的学习,训练 CNN模型并预测在特定的上下文语义中最可能出现的插图。

我们通过实验证明我们方法的有效性,并可以扩展到更大、更多样化的训练数据集。此外,TextTopicNet模型学到了视觉特征不仅适用于广泛的主题,而且还能将其应用到更具体、复杂的计算机视觉任务,如图像分类,物体检测和多模态检索。与现有的自监督或无监督方法相比,我们方法的表现更优。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7764

    浏览量

    92678
  • 视觉特征
    +关注

    关注

    0

    文章

    3

    浏览量

    5408

原文标题:CMU最新视觉特征自监督学习模型——TextTopicNet

文章出处:【微信号:AI_Thinker,微信公众号:人工智能头条】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    、GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督学习:无需缺陷样本即可训练高精度检测
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    学习模型DLL 硬件联动:支持工业相机硬触发、GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型
    发表于 12-03 13:50

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 48次阅读

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能体在环境里行动,它能观察到环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,强化学习没有一一对应的“正确答案”给它看,而是靠与环境交互、自我探索来发现
    的头像 发表于 10-23 09:00 324次阅读
    自动驾驶中常提的“强化<b class='flag-5'>学习</b>”是个啥?

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3916次阅读
    自动驾驶中Transformer大<b class='flag-5'>模型</b>会取代深度<b class='flag-5'>学习</b>吗?

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    的基本理论。了解监督学习、无监督学习和强化学习的基本原理。例如,在监督学习中,理解如何通过标注数据来训练模型进行分类或回归任务,像通过大量的
    发表于 07-08 17:44

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    教育等领域发挥着越来越重要的作用。​针对日前前来咨询的广大客户对面向大模型智能硬件的学习需求,我们根据CSK6大模型语音视觉开发板已有功能,整理了一份适合基于本开发板进行教学活动的
    发表于 07-04 11:10

    使用MATLAB进行无监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1174次阅读
    使用MATLAB进行无<b class='flag-5'>监督学习</b>

    ​VLM(视觉语言模型)​详细解析

    的详细解析: 1. 核心组成与工作原理 视觉编码器 :提取图像特征,常用CNN(如ResNet)或视觉Transformer(ViT)。 语言模型 :处理文本输入/输出,如GPT、BE
    的头像 发表于 03-17 15:32 7571次阅读
    ​VLM(<b class='flag-5'>视觉</b>语言<b class='flag-5'>模型</b>)​详细解析

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场的未来发展。
    的头像 发表于 02-13 09:39 619次阅读

    如何优化BP神经网络的学习

    优化BP神经网络的学习率是提高模型训练效率和性能的关键步骤。以下是一些优化BP神经网络学习率的方法: 一、理解学习率的重要性 学习率决定了
    的头像 发表于 02-12 15:51 1422次阅读

    多维精密测量:半导体微型器件的2D&amp;3D视觉方案

    精密视觉检测技术有效提升了半导体行业的生产效率和质量保障。友思特研推出基于深度学习平台和视觉扫描系统的2D和3D视觉检测方案,通过9种深度
    的头像 发表于 01-10 13:54 1240次阅读
    多维精密测量:半导体微型器件的2D&amp;3D<b class='flag-5'>视觉</b>方案

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    分配方式,并采用VFL+GloU替代CELoss+IoU作为损失函数,从而提高模型的训练效果。 激活函数和学习率策略: 将 H-Swish 替代 Relu 作为激活函数,采用 cosine
    发表于 12-19 14:33

    cmp在机器学习中的作用 如何使用cmp进行数据对比

    比较,我们可以确定哪个模型更适合特定的数据集和任务。 特征选择 :比较不同特征模型性能的影响,选择最有信息量的
    的头像 发表于 12-17 09:35 1322次阅读

    构建云原生机器学习平台流程

    构建云原生机器学习平台是一个复杂而系统的过程,涉及数据收集、处理、特征提取、模型训练、评估、部署和监控等多个环节。
    的头像 发表于 12-14 10:34 676次阅读