0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于预训练模型和语言增强的零样本视觉学习

CVer 来源:CVer 2023-06-15 16:36 次阅读

在一些非自然图像中要比传统模型表现更好

ef117f4a-0b3a-11ee-962d-dac502259ad0.jpg

CoOp 增加一些 prompt 会让模型能力进一步提升

ef1f1b3c-0b3a-11ee-962d-dac502259ad0.jpg

怎么让能力更好?可以引入其他知识,即其他的预训练模型,包括大语言模型、多模态模型

也包括 Stable Diffusion 多模态预训练模型

ef419180-0b3a-11ee-962d-dac502259ad0.jpg

考虑多标签图像分类任务——每幅图像大于一个类别

如果已有图文对齐模型——能否用文本特征代替图像特征

ef490834-0b3a-11ee-962d-dac502259ad0.jpg

训练的时候使用文本组成的句子

对齐总会有 gap,选 loss 的时候使用 rank loss,对模态 gap 更稳定

ef54761a-0b3a-11ee-962d-dac502259ad0.jpg

拿到文本后有几种选择,比如 Coco 只要其中的 caption 不要图像,或是 Google 搜句子,抑或是语言模型生成

最后选择第一种,因为稳定性和效果更好,能够保证同样数据集(同分布?)

可以建一个同义词表

ef8c6a34-0b3a-11ee-962d-dac502259ad0.jpg

两种 prompt,global 关注句子里有没有猫,local 关心这个词是不是跟猫有关系

efb3859c-0b3a-11ee-962d-dac502259ad0.jpg

测试的时候就将句子变成图像,global 不变,local 变成了跟图像里的 token 做比较

effee6ea-0b3a-11ee-962d-dac502259ad0.jpg

如果再加上少量文本(大量句子和少量文本)性能会进一步提升

f00755b4-0b3a-11ee-962d-dac502259ad0.jpg

一些相关工作,提完文本特征加一些噪声提高鲁棒性,消解图文 gap

f00f4878-0b3a-11ee-962d-dac502259ad0.jpg

f0482878-0b3a-11ee-962d-dac502259ad0.jpg

3d 样本较难,因为点云-文本对较少,很难获取

f0769c80-0b3a-11ee-962d-dac502259ad0.jpg

投影后的 3d 点云可以被视作 2d 图像处理,使用图像 encoder

f0a43da2-0b3a-11ee-962d-dac502259ad0.jpg

但投影点云依然与图像存在 gap,于是采取另一种思路

投影的确与图像相关,但依然有调整空间,所以转换成某个方向的图像和该方向点云的投影图像做匹配

投影和图像对齐,图像和文本对齐,因此就可以实现零样本学习

f0aea9cc-0b3a-11ee-962d-dac502259ad0.jpg

如果有一些少量的有标签监督,相当于 few-shot,效果也相当好

全监督效果也很好

f0b7f07c-0b3a-11ee-962d-dac502259ad0.jpg

当时觉得图像可以做中介,那么红外、热成像等其他模态都可以

ImageBind 以图像为中介将六种模态对齐到一起,重新训练

但大家依然可以做自己领域相关的方向,以图像作为中介对比,还有很大的空间

f0ede088-0b3a-11ee-962d-dac502259ad0.jpg

用想象的方式开展学习

f1137334-0b3a-11ee-962d-dac502259ad0.jpg

假设有一些类别,使用语言模型生成一些句子,再根据句子使用生成模型生成图像

因此有了图像和类别匹配对(弱监督目标检测

希望即使使用合成图像,模型在真实图像上也可以比较好

因为类别本身和图像会比较简单,但如果使用语言模型,比如猫变成趴着的猫,这样图像多样性会很高

f13ccebe-0b3a-11ee-962d-dac502259ad0.jpg

f146f9f2-0b3a-11ee-962d-dac502259ad0.jpg

考虑 SAM 和 Stable diffusion 特定完成分割任务

通过 SAM 得到的 proposal 提取特征

f1534b76-0b3a-11ee-962d-dac502259ad0.jpg

f1744768-0b3a-11ee-962d-dac502259ad0.jpg

责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    435

    浏览量

    10047
  • 训练模型
    +关注

    关注

    1

    文章

    35

    浏览量

    3755

原文标题:VALSE 2023 | 左旺孟教授:预训练模型和语言增强的零样本视觉学习

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一文详解知识增强语言训练模型

    随着预训练语言模型(PLMs)的不断发展,各种NLP任务设置上都取得了不俗的性能。尽管PLMs可以从大量语料库中学习一定的知识,但仍旧存在很多问题,如知识量有限、受
    的头像 发表于 04-02 17:21 8918次阅读

    【书籍评测活动NO.30】大规模语言模型:从理论到实践

    TOP1的桂冠,可想大家对本书的认可和支持! 这本书为什么如此受欢迎?它究竟讲了什么?下面就给大家详细~~ 本书主要内容 本书围绕大语言模型构建的四个主要阶段——训练、有监督微调、
    发表于 03-11 15:16

    Pytorch模型训练实用PDF教程【中文】

    教程以实际应用、工程开发为目的,着重介绍模型训练过程中遇到的实际问题和方法。在机器学习模型开发中,主要涉及三大部分,分别是数据、
    发表于 12-21 09:18

    龙哥手把手教你学视觉-深度学习YOLOV5篇

    调用yolov4训练,调用模型,等labview视觉编程设计从基础开始的全过程。根据工业视觉外观检测的速度和准确性要求,龙哥
    发表于 09-03 09:39

    基于深度学习的自然语言处理对抗样本模型

    深度学习模型被证明存在脆弱性并容易遭到对抗样本的攻击,但目前对于对抗样本的研究主要集中在计算机视觉领域而忽略了自然
    发表于 04-20 14:36 39次下载
    基于深度<b class='flag-5'>学习</b>的自然<b class='flag-5'>语言</b>处理对抗<b class='flag-5'>样本</b><b class='flag-5'>模型</b>

    样本量极少可以训练机器学习模型吗?

    本文首先介绍了用小样本训练模型会导致的问题,再介绍了Few-Shot Learning的基本原理即三大思路下的方法。
    的头像 发表于 06-23 15:02 6327次阅读

    双塔模型扩量负样本的方法比较

    双塔模型训练时是对一个batch内样本训练。一个batch内每个样本 (user和item对)为正样本
    的头像 发表于 07-08 10:57 875次阅读

    训练语言模型的字典描述

    今天给大家带来一篇IJCAI2022浙大和阿里联合出品的采用对比学习的字典描述知识增强的预训练语言模型-DictBERT,全名为《Dicti
    的头像 发表于 08-11 10:37 920次阅读

    如何充分挖掘预训练视觉-语言基础大模型的更好零样本学习能力

    因此,合适的prompt对于模型的效果至关重要。大量研究表明,prompt的微小差别,可能会造成效果的巨大差异。研究者们就如何设计prompt做出了各种各样的努力——自然语言背景知识的融合、自动生成prompt的搜索、不再拘泥于语言
    的头像 发表于 10-19 14:39 1123次阅读

    利用视觉+语言数据增强视觉特征

    传统的多模态预训练方法通常需要"大数据"+"大模型"的组合来同时学习视觉+语言的联合特征。但是关注如何利用
    的头像 发表于 02-13 13:44 758次阅读

    多维度剖析视觉-语言训练的技术路线

    视觉-语言 (Vision-Language, VL) 是计算机视觉和自然语言处理这两个研究领域之间形成的交叉领域,旨在赋予 AI 系统从多模态数据中
    的头像 发表于 02-23 11:15 671次阅读

    卷积神经网络模型训练步骤

    卷积神经网络模型训练步骤  卷积神经网络(Convolutional Neural Network, CNN)是一种常用的深度学习算法,广泛应用于图像识别、语音识别、自然语言处理等诸多
    的头像 发表于 08-21 16:42 1064次阅读

    视觉深度学习迁移学习训练框架Torchvision介绍

    Torchvision是基于Pytorch的视觉深度学习迁移学习训练框架,当前支持的图像分类、对象检测、实例分割、语义分割、姿态评估模型的迁
    的头像 发表于 09-22 09:49 451次阅读
    <b class='flag-5'>视觉</b>深度<b class='flag-5'>学习</b>迁移<b class='flag-5'>学习</b><b class='flag-5'>训练</b>框架Torchvision介绍

    深度学习如何训练出好的模型

    算法工程、数据派THU深度学习在近年来得到了广泛的应用,从图像识别、语音识别到自然语言处理等领域都有了卓越的表现。但是,要训练出一个高效准确的深度学习
    的头像 发表于 12-07 12:38 660次阅读
    深度<b class='flag-5'>学习</b>如何<b class='flag-5'>训练</b>出好的<b class='flag-5'>模型</b>

    机器人基于开源的多模态语言视觉模型

    ByteDance Research 基于开源的多模态语言视觉模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以
    发表于 01-19 11:43 124次阅读
    机器人基于开源的多模态<b class='flag-5'>语言</b><b class='flag-5'>视觉</b>大<b class='flag-5'>模型</b>