首页
技术

可编程逻辑

MEMS/传感技术

嵌入式技术

模拟技术

控制/MCU

处理器/DSP

存储技术

EMC/EMI设计

电源/新能源

测量仪表

制造/封装

RF/无线

接口/总线/驱动

EDA/IC设计

光电显示

连接器

PCB设计

LEDs

汽车电子

医疗电子

人工智能

可穿戴设备

军用/航空电子

工业控制

触控感测

智能电网

音视频及家电

通信网络

机器人

vr|ar|虚拟现实

安全设备/系统

移动通信

便携设备

物联网

区块链

HarmonyOS

RISC-V MCU

光伏

ChatGPT

IGBT

充电桩

氮化镓

BLDC

逆变器

5G

电机控制
资源

技术文库

新品速递

电路图

元器件知识

电子百科

最新技术文章

元器件搜索引擎
下载

在线工具

常用软件

电子书

datasheet
专栏

电子说

专栏
社区

论坛

问答

小组

技术专栏

社区之星

试用中心

HarmonyOS技术社区

2023电子工程师大会
研究院
活动

设计大赛

硬创大赛

社区活动

线下会议

在线研讨会

小测验
学院

直播

课程
视频
企业号
工具

datasheet查询

免费评测试用

技术子站

搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

基于预训练模型和语言增强的零样本视觉学习

在一些非自然图像中要比传统模型表现更好

CoOp 增加一些 prompt 会让模型能力进一步提升

怎么让能力更好？可以引入其他知识，即其他的预训练模型，包括大语言模型、多模态模型

也包括 Stable Diffusion 多模态预训练模型

考虑多标签图像分类任务——每幅图像大于一个类别

如果已有图文对齐模型——能否用文本特征代替图像特征

训练的时候使用文本组成的句子

对齐总会有 gap，选 loss 的时候使用 rank loss，对模态 gap 更稳定

拿到文本后有几种选择，比如 Coco 只要其中的 caption 不要图像，或是 Google 搜句子，抑或是语言模型生成

最后选择第一种，因为稳定性和效果更好，能够保证同样数据集（同分布？）

可以建一个同义词表

两种 prompt，global 关注句子里有没有猫，local 关心这个词是不是跟猫有关系

测试的时候就将句子变成图像，global 不变，local 变成了跟图像里的 token 做比较

如果再加上少量文本（大量句子和少量文本）性能会进一步提升

一些相关工作，提完文本特征加一些噪声提高鲁棒性，消解图文 gap

3d 样本较难，因为点云-文本对较少，很难获取

投影后的 3d 点云可以被视作 2d 图像处理，使用图像 encoder

但投影点云依然与图像存在 gap，于是采取另一种思路

投影的确与图像相关，但依然有调整空间，所以转换成某个方向的图像和该方向点云的投影图像做匹配

投影和图像对齐，图像和文本对齐，因此就可以实现零样本学习

如果有一些少量的有标签监督，相当于 few-shot，效果也相当好

全监督效果也很好

当时觉得图像可以做中介，那么红外、热成像等其他模态都可以

ImageBind 以图像为中介将六种模态对齐到一起，重新训练

但大家依然可以做自己领域相关的方向，以图像作为中介对比，还有很大的空间

用想象的方式开展学习

假设有一些类别，使用语言模型生成一些句子，再根据句子使用生成模型生成图像

因此有了图像和类别匹配对（弱监督目标检测）

希望即使使用合成图像，模型在真实图像上也可以比较好

因为类别本身和图像会比较简单，但如果使用语言模型，比如猫变成趴着的猫，这样图像多样性会很高

考虑 SAM 和 Stable diffusion 特定完成分割任务

通过 SAM 得到的 proposal 提取特征

责任编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言模型

语言模型

+关注

关注
0

文章
575

浏览量
11373
训练模型

训练模型

+关注

关注
1

文章
37

浏览量
4090

原文标题：VALSE 2023 | 左旺孟教授：预训练模型和语言增强的零样本视觉学习

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

评论

CVer
专栏

0 文章 0 阅读 0 粉丝 0 点赞

关注个人主页

Hot DDFM：首个使用扩散模型进行多模态图像融合的方法
Hot DepGraph：任意架构的结构化剪枝，CNN、Transformer、GNN等都适用！

New SegVG视觉定位方法的各个组件
New 详解E2E-MFD多模态融合检测端到端算法

精选推荐
更多

文章

资料

帖子

ADI解决方案为AI应用破解大电流供电难题

analog_devices
27分钟前

70 阅读

精准到纳秒！探索原子钟的重要性与应用

赛思电子
1小时前

152 阅读

点亮星河AI+鸿蒙，一座艺术场馆的日神觉醒

脑极体
5小时前

735 阅读

快速上手，用Rust + MCU跑通自主导航机器人

电子发烧友论坛
8小时前

418 阅读

AI数据中心需求爆发!Marvell Q1营收大增28%，上调2027财年营收预期达115亿美元

章鹰观察
7小时前

2738 阅读

日本质管部门手册要点

李丽
135

5积分

45下载

模数转换器ADS1100及其在测量中的应用

刘满贵
224

5积分

30下载

云计算小指南

junyi201212
328 KB

免费

0下载

openharmony第三方组件适配移植之给文本设置阴影效果

姚小熊27
0.97 MB

免费

1下载

6W 无电感器立体声 (BTL) D类音频放大器TPA3144D2数据表

潘飘稚
1.95MB

免费

5下载

【飞凌嵌入式RV1126B-S开发板体验报告】从点亮到AI部署的实战之旅

jf_70961879
1天前

78 阅读

【米尔TI AM62L开发板试用+初识米尔TI AM62L开发板】

jf_67024233
6天前

1157 阅读

【飞凌嵌入式T153开发板试用】飞凌嵌入式T153开发板如何编译源码

jf_67024233
7天前

2404 阅读

【飞凌嵌入式T153开发板试用】初试开发环境搭建

jf_67024233
7天前

2527 阅读

【飞凌嵌入式T153开发板试用】初识飞凌嵌入式T153开发板

jf_67024233
8天前

2499 阅读

推荐专栏
更多

企业产品

资料

方案
更多

电子发烧友

My ElecFans

APP
网站地图

设计技术

可编程逻辑

电源/新能源

MEMS/传感技术

测量仪表

嵌入式技术

制造/封装

模拟技术

RF/无线

接口/总线/驱动

处理器/DSP

EDA/IC设计

存储技术

光电显示

EMC/EMI设计

连接器

行业应用

LEDs

汽车电子

音视频及家电

通信网络

医疗电子

人工智能

虚拟现实

可穿戴设备

机器人

安全设备/系统

军用/航空电子

移动通信

工业控制

便携设备

触控感测

物联网

智能电网

区块链

新科技

特色内容

专栏推荐

学院

设计资源

设计技术

电子百科

电子视频

元器件知识

工具箱

VIP会员

最新技术文章

产品地图

品牌地图

社区

小组

论坛

问答

评测试用

企业服务

产品

资料

文章

方案

企业

供应链服务

硬件开发

媒体服务

网站广告

在线研讨会

活动策划

新闻发布

新品发布

小测验

设计大赛

电子发烧友

关于我们

联系我们

举报投诉

社交网络

微博

移动端

发烧友APP

WAP

联系我们

广告合作

王婉珠：wangwanzhu@elecfans.com

内容合作

张迎辉：mikezhang@elecfans.com

关注我们的微信

下载发烧友APP

机器人发烧友

版权所有 © 长沙勒克斯教育咨询有限公司

湖南省长沙市开福区月湖街道匍园路20号聚恒科技园1栋2301-1房
电子发烧友 （电路图） 电信与信息服务业务经营许可证：湘B2-20260003 湘ICP备2023036445号-105-1