0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用视觉+语言数据增强视觉特征

CVer 来源:CVer 作者:CVer 2023-02-13 13:44 次阅读

研究动机

传统的多模态预训练方法通常需要"大数据"+"大模型"的组合来同时学习视觉+语言的联合特征。但是关注如何利用视觉+语言数据提升视觉任务(多模态->单模态)上性能的工作并不多。本文旨在针对上述问题提出一种简单高效的方法。

在这篇文章中,以医疗影像上的特征学习为例,我们提出对图像+文本同时进行掩码建模(即Masked Record Modeling,Record={Image,Text})可以更好地学习视觉特征。该方法具有以下优点:

简单。仅通过特征相加就可以实现多模态信息的融合。此处亦可进一步挖掘,比如引入更高效的融合策略或者扩展到其它领域。

高效。在近30w的数据集上,在4张NVIDIA 3080Ti上完成预训练仅需要1天半左右的时间。

性能强。在微调阶段,在特定数据集上,使用1%的标记数据可以接近100%标记数据的性能。

方法(一句话总结)

1318d8aa-ab48-11ed-bfe3-dac502259ad0.png

如上图所示,我们提出的训练策略是比较直观的,主要包含三步:

随机Mask一部分输入的图像和文本

使用加法融合过后的图像+文本的特征重建文本

使用图像的特征重建图像。

性能

1343eedc-ab48-11ed-bfe3-dac502259ad0.png

如上图所示,我们全面对比了现有的相关方法和模型在各类微调任务上的性能。

在CheXpert上,我们以1%的有标记数据接近使用100%有标记数据的性能。

RSNA Pneumonia和SIIM (分割)上,我们以较大幅度超过了之前最先进的方法。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 建模
    +关注

    关注

    1

    文章

    281

    浏览量

    60503
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24356
  • 大数据
    +关注

    关注

    64

    文章

    8652

    浏览量

    136600

原文标题:ICLR 2023 | 厦大&港大提出MRM:利用视觉+语言数据增强视觉特征

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器视觉、工业视觉和计算机视觉这三者的关系

    机器视觉、工业视觉和计算机视觉这三者的关系
    的头像 发表于 01-24 10:51 575次阅读
    机器<b class='flag-5'>视觉</b>、工业<b class='flag-5'>视觉</b>和计算机<b class='flag-5'>视觉</b>这三者的关系

    机器人基于开源的多模态语言视觉大模型

    ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 127次阅读
    机器人基于开源的多模态<b class='flag-5'>语言</b><b class='flag-5'>视觉</b>大模型

    一文了解3D视觉和2D视觉的区别

    一文了解3D视觉和2D视觉的区别 3D视觉和2D视觉是两种不同的视觉模式,其区别主要体现在立体感、深度感和逼真度上。本文将详细阐述这些区别,
    的头像 发表于 12-25 11:15 525次阅读

    机器视觉之图像增强和图像处理

    一、图像处理技术概述1.定义对原始获取图像进行一系列的运算处理,称为图像处理。图像处理是机器视觉技术的方法基础,包括图像增强、边缘提取、图像分割、形态学处理、图像投影、配准定位和图像特征提取等方法
    的头像 发表于 10-26 08:07 463次阅读
    机器<b class='flag-5'>视觉</b>之图像<b class='flag-5'>增强</b>和图像处理

    机器视觉之图像增强和图像处理

    对原始获取图像进行一系列的运算处理,称为图像处理。图像处理是机器视觉技术的方法基础,包括图像增强、边缘提取、图像分割、形态学处理、图像投影、配准定位和图像特征提取等方法。
    发表于 10-23 10:43 229次阅读
    机器<b class='flag-5'>视觉</b>之图像<b class='flag-5'>增强</b>和图像处理

    机器视觉:图像处理技术、图像增强技术

    对原始获取图像进行一系列的运算处理,称为图像处理。图像处理是机器视觉技术的方法基础,包括图像增强、边缘提取、图像分割、形态学处理、图像投影、配准定位和图像特征提取等方法。
    发表于 10-20 10:17 372次阅读
    机器<b class='flag-5'>视觉</b>:图像处理技术、图像<b class='flag-5'>增强</b>技术

    OpenVINO™ 赋能 BLIP 实现视觉语言 AI 边缘部署

    通过视觉语言感知世界。人工智能的一个长期目标是构建智能体,通过视觉语言输入来理解世界,并通过自然语言与人类交流。比如,在《几行代码加速S
    的头像 发表于 09-04 16:21 398次阅读
    OpenVINO™ 赋能 BLIP 实现<b class='flag-5'>视觉</b><b class='flag-5'>语言</b> AI 边缘部署

    OpenVIN赋能BLIP实现视觉语言AI边缘部署

    人类通过视觉语言感知世界。人工智能的一个长期目标是构建智能体,通过视觉语言输入来理解世界,并通过自然语言与人类交流。比如,在《几行代码加
    的头像 发表于 09-04 10:54 9989次阅读
    OpenVIN赋能BLIP实现<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>AI边缘部署

    OpenVINO赋能BLIP实现视觉语言AI边缘部署

    人类通过视觉语言感知世界。人工智能的一个长期目标是构建智能体,通过视觉语言输入来理解世界,并通过自然语言与人类交流。比如,在《几行代码加
    的头像 发表于 09-01 10:26 2188次阅读

    机器视觉与生物特征识别的关系

    机器视觉与生物特征识别的关系 机器视觉和生物特征识别是目前科技领域非常热门的方向。机器视觉是指利用
    的头像 发表于 08-09 17:43 497次阅读

    机器视觉属于人工智能吗?和人视觉相比,有什么优缺点?

    机器视觉是人工智能的一个重要领域之一,属于人工智能。人工智能(ArtificialIntelligence,AI)是指计算机系统模拟人的智能特征和行为的能力。机器视觉利用计算机
    的头像 发表于 08-09 08:09 2783次阅读
    机器<b class='flag-5'>视觉</b>属于人工智能吗?和人<b class='flag-5'>视觉</b>相比,有什么优缺点?

    什么叫机器视觉?机器视觉和嵌入式有什么关系?

    什么叫机器视觉机器视觉(MachineVision),也被称为计算机视觉(ComputerVision),是一种利用计算机技术和算法来模拟和实现人类
    的头像 发表于 08-07 08:09 669次阅读
    什么叫机器<b class='flag-5'>视觉</b>?机器<b class='flag-5'>视觉</b>和嵌入式有什么关系?

    什么是机器视觉?光电传感器与视觉传感器的比较

    视觉传感器是机器视觉系统的核心,是提取环境特征最多的信息源。它既要容纳进行轮廓测量的各种光学、机械、电子、敏感器等各方面的元器件,又要体积小、重量轻。
    发表于 07-12 12:26 950次阅读
    什么是机器<b class='flag-5'>视觉</b>?光电传感器与<b class='flag-5'>视觉</b>传感器的比较

    视觉视觉开源项目

    电子发烧友网站提供《视觉视觉开源项目.zip》资料免费下载
    发表于 06-20 15:18 1次下载
    <b class='flag-5'>视觉</b><b class='flag-5'>视觉</b>开源项目

    AI视觉检测在工业领域的应用

    的产品图像。 2.图像处理:系统将采集到的图像数据进行预处理、过滤、降噪等操作,以便更好地提取特征信息。 3.特征提取:系统采用深度学习等技术,对图像数据进行深度学习训练,提取出产品的
    发表于 06-15 16:21