0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

更强!Alpha-CLIP:让CLIP关注你想要的任何地方!

CVer 来源:CVer 2023-12-10 10:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

简介

本文介绍了一个名为Alpha-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。通过替换原始CLIP的应用场景,Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。

9ac46fc6-96ac-11ee-8b88-92fbcf53809c.png

图1 Alpha-CLIP使用场景总览

CLIP作为目前最流行的视觉基座模型被广泛使用。它的应用场景包括但不限于1.与LLM大语言模型结合成为视觉多模态大模型。2.作为图像生成(Stable Diffusion)、点云生成(Point-E)的condition model, 实现image-to-3D。3.用于指导NeRF的优化方向从而实现text-to-3D。4.本身用于开放类别的识别和检测。

然而CLIP必须以整张图片作为输入并进行特征提取,无法关注到指定的任意区域。然而,自然的2D图片中往往包含不同的物体,part和thing。如果能由用户或检测模型指定需要关注的区域,在图像编码的过程就确定需要关注的对象,将会提升CLIP模型的可控制性和区域检测能力。

为此,上海人工智能实验室联合上海交通大学、复旦大学、香港中文大学、澳门大学的学者们提出了Alpha-CLIP模型,在原始CLIP模型的RGB三个通道的基础上额外引入了第四个alpha通道来决定需要关注的区域。通过构造千万量级的【RGBA四通道图片-文本对】对Alpha-CLIP进行训练,Alpha-CLIP不仅在ImageNet上保持了原始的全图检测能力,还能对用户指定的任意区域进行highlight关注。下面分别介绍Alpha-CLIP的应用场景。

9ae2f9be-96ac-11ee-8b88-92fbcf53809c.png

* 论文链接:https://arxiv.org/abs/2312.03818 * 项目主页:https://aleafy.github.io/alpha-clip * 代码链接:https://github.com/SunzeY/AlphaCLIP1. 图像分类

如图所示,对于ImagNet的一张图片,我们可以通过alpha-map控制CLIP去关注鱼或渔夫。

9afde3fa-96ac-11ee-8b88-92fbcf53809c.png

9b149d20-96ac-11ee-8b88-92fbcf53809c.png

以ImageNet的Zero-Shot Classification作为评价指标,我们验证了在对全图进行识别时,Alpha-CLIP可以保持原本CLIP的分类准确率。进一步地,在给出了需要关注区域的长方形box或者mask时,Alpha-CLIP可以进一步提升分类准确率。

2. 与LLM大语言模型的结合

将主流的LLaVA-1.5中的CLIP基座模型替换为Alpha-CLIP,用户可以通过简单地用画笔标记处需要关注的区域,从而进行指定区域的对话交互。

在定量实验方面,我们通过LLaVA测试了MLLM的region caption能力。通过在RefCOCO和VG上分别进行finetune,取得了SOTA的region caption分数。

9b25a822-96ac-11ee-8b88-92fbcf53809c.png

3. 与Stable Diffusion的结合

Stable-Diffusion是目前主流的2D图片生成模型,其Image Variation版本可以实现“图生图”,其中图片的编码器也是CLIP模型。通过将该模型替换为Alpha-CLIP,可以实现更复杂图片中指定物体的生成(同时较好地保留背景)。如上图所示,使用原始的CLIP会生成同时具有狮子和老虎特征的“狮虎兽”,而Alpha-CLIP能够很好地区分两个物体,从而指导Stable Diffusion模型生成更专一的图片。更多结果见下图

9b33657a-96ac-11ee-8b88-92fbcf53809c.png

4. 与Point-E的结合

Point-E是Open-AI开源的一个支持Image-to-3D和text-to-3D的点云diffusion模型,通过将它的Image编码器从原始的CLIP替换为Alpha-CLIP。可以支持用户对任意区域进行关注,从而恢复丢失的“表针”和“盾牌的十字架”。更多结果见下图

9b53d166-96ac-11ee-8b88-92fbcf53809c.png

5. Attention Map可视化

本工作对Alpha-CLIP的注意力进行可视化,以检查Alpha-CLIP是否更加关注用户定义alpha-map。通过检查视觉编码器中最后一个Transformer块中[CLS] token的注意力图。可视化采用了具有16个注意头的ViT-L/14模型。为了进行公正比较,使用第5和第16个注意头的注意力图进行可视化,因为我们发现在这16个头中,这两个特征图最为明显。结果如下图所示。这种可视化验证了Alpha-CLIP更加关注要聚焦的区域,更重要的是,它在保留原始CLIP特征位置的二维位置信息时没有造成损害。

9b755b6a-96ac-11ee-8b88-92fbcf53809c.png

结论

本文介绍的这项工作提出了Alpha-CLIP模型,该模型引入了一个额外的alpha通道,用于指定感兴趣的区域。通过对数百万个RGBA区域-文本对进行训练,Alpha-CLIP不仅表现出卓越的区域关注能力,而且确保其输出空间与原始的CLIP模型保持一致。这种一致性使得Alpha-CLIP在CLIP的各种下游应用中能够轻松替代,无缝衔接。我们证明了当提供特定关注的区域时,Alpha-CLIP展现出了更强大的Zero-Shot识别能力,并验证了它在许多下游任务中的有用性。CLIP的应用远远超出了本文的范围。我们希望在前景区域或mask较容易获得时,Alpha-CLIP将能够在更多场景中得到应用。

虽然Alpha-CLIP在需要关注区域的各种场景中表现出有效的性能,但目前的结构和训练过程限制了其专注于多个对象或建模不同对象之间关系的能力。此外,当前的训练方法限制了alpha通道在中间值之外的泛化(只能接受0,1两个值)。因此,用户无法指定注意力的幅度。另一个限制同时存在于我们的Alpha-CLIP和原始CLIP中,即纯Transformer结构的编码器分辨率较低,这阻碍了Alpha-CLIP识别小物体并进行关注。我们计划在未来的工作中解决这些限制并扩展CLIP的输入分辨率。我们相信这些未来的方向是增强Alpha-CLIP能力并在各种下游任务中扩展其实用性的途径。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49750

    浏览量

    261621
  • Clip
    +关注

    关注

    0

    文章

    34

    浏览量

    7206
  • 大模型
    +关注

    关注

    2

    文章

    3447

    浏览量

    4974

原文标题:更强!Alpha-CLIP:让CLIP关注你想要的任何地方!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    TE Connectivity CROWN CLIP Sr. 420A电源连接器技术解析与应用指南

    TE Connectivity (TE) CROWN CLIP Sr. 420A电源连接器采用紧凑、大电流、盲插设计,易于安装和使用。由于采用带角度的浮动式设计,该连接器的盲插能力可最大限度地减少
    的头像 发表于 11-07 11:24 265次阅读

    格灵深瞳多模态大模型Glint-ME图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的多模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本、图像、音频乃至视频,实现跨模态检索。
    的头像 发表于 11-02 15:56 1241次阅读
    格灵深瞳多模态大模型Glint-ME<b class='flag-5'>让</b>图文互搜更精准

    1688 多模态搜索从 0 到 1:逆向接口解析与 CLIP 特征匹配实践

    本文分享基于CLIP模型与逆向工程实现1688图片搜同款的实战方案。通过抓包分析破解接口签名,结合CLIP多模态特征提取与Faiss向量检索,提升搜索准确率至91%,单次响应低于80ms,日均选品效率提升4倍,全程合规可复现。
    的头像 发表于 10-17 10:00 200次阅读

    如何大模型生成你想要的测试用例?

    ,有角色定位,有业务背景,有个人偏好,有目标达成标准,有格式规范要求等,智能模板充当你的个人翻译官,充分发挥每一句设定提示词的作用和价值,生成属于你想要风格的测试
    的头像 发表于 09-26 10:01 587次阅读
    如何<b class='flag-5'>让</b>大模型生成<b class='flag-5'>你想要</b>的测试用例?

    格灵深瞳三项成果获得国际顶级学术会议认可

    以OpenAI CLIP为代表的多模态预训练模型,为安防、电商等应用场景提供了强大的跨模态理解基础,但也存在多种技术局限性。
    的头像 发表于 09-15 14:43 1183次阅读

    CYW920820M2EVB-01开发套件可以与蓝牙的免提配置文件一起使用吗?

    我有英飞凌 CYW920820M2EVB-01 开发套件,我想将它与蓝牙的免提配置文件一起使用。 是否可以。 该套件是否支持该配置文件? 我无法在任何地方找到该套件支持的配置文件。 如果是,那么我可以得到一些关于如何执行此操作的提示吗?
    发表于 06-30 06:15

    普莱信Clip Bond封装整线设备,获功率半导体国际巨头海外工厂订单

    据悉,在高端Clip封装设备领域长期由少数国际巨头把持的局面下,近期,中国半导体装备制造商普莱信实现了重大突破,普莱信Clip Bond封装整线设备(涵盖高精度固晶机、夹焊机及在线式真空炉)获功率
    的头像 发表于 06-16 09:00 903次阅读
    普莱信<b class='flag-5'>Clip</b> Bond封装整线设备,获功率半导体国际巨头海外工厂订单

    GPS时间服务器提供高精度的授时-唯尚

    该产品提供的高精度的网络同步时钟直接来自于GPS系统中各个卫星的原子钟(也可以根据用户的要求选择其他卫星授时系统作为时间的基准源)。产品内部集成了一个高品质的12通道GPS授时,可以在任何地方为网络提供高精度的授时及同步服务。
    的头像 发表于 04-23 14:05 519次阅读
    GPS时间服务器提供高精度的授时-唯尚

    IMXRT1170-EVK如何使用J-Trace探针启用指令跟踪?

    在 TRACE_CLK 引脚上(用示波器检查)。所以,我认为引脚配置正确。 我需要在 ETM 中配置一些东西吗?在 TPIU 中?还是 RT1176 中的其他任何地方任何帮助将不胜感激。
    发表于 04-07 06:21

    由 树莓派4 驱动的货运农场!

    由树莓派4驱动的垂直水培农场客户可以在任何地方种植和监控新鲜农产品FreightFarms需要强大的计算能力以及灵活的I/O和物联网功能来支持其高产出的集装箱农场。RaspberryPi4提供了高性能和无摩擦开发,价格也非常优惠,这正是他们产品所需的小外形尺寸
    的头像 发表于 03-25 09:48 538次阅读
    由 树莓派4 驱动的货运农场!

    芜湖,起飞!树莓派性能飙升的小秘诀~

    速度,还是优化系统性能,都能在这里找到答案。发现你的RaspberryPi并未发挥出全部性能?你并不孤单。RaspberryPi比以往任何时候都更强大,但如果你想要获得
    的头像 发表于 03-25 09:33 694次阅读
    芜湖,起飞!<b class='flag-5'>让</b>树莓派性能飙升的小秘诀~

    请问在哪里可以下载AN3942SW?

    的 DoOnStack 软件包吗? 我在任何地方都找不到下载链接。我看到的唯一参考资料是发布到此论坛的问题,要求提供该软件包。
    发表于 03-25 06:17

    揭秘Cu Clip封装:如何助力半导体芯片飞跃

    在半导体行业中,封装技术对于功率芯片的性能发挥起着至关重要的作用。随着电子技术的飞速发展,特别是在大功率场合下,传统的封装技术已经难以满足日益增长的性能需求。因此,Cu Clip封装技术作为一种新兴
    的头像 发表于 02-19 11:32 4385次阅读
    揭秘Cu <b class='flag-5'>Clip</b>封装:如何助力半导体芯片飞跃

    微源LP7820B充电仓芯片在漫步者花再Zero Clip耳机的应用

    在不入耳佩戴的开放式耳机市场,漫步者旗下花再品牌推出了一款全新产品——Zero Clip。外观上采用了耳夹式设计,佩戴舒适贴合,珠光工艺处理,时尚美观。漫步者花再Zero Clip开放式耳夹耳机
    的头像 发表于 01-15 11:34 1792次阅读
    微源LP7820B充电仓芯片在漫步者花再Zero <b class='flag-5'>Clip</b>耳机的应用

    漫步者花再Zero Clip开放式耳机拆解报告

    花再是漫步者联合冇心推出的独立品牌,致力于为年轻消费者提供美学与人体工学完美结合的科技产品。针对于不入耳佩戴的开放式耳机市场,花再近期推出了一款全新产品——Zero Clip,外观上采用了耳夹式
    的头像 发表于 01-07 10:14 6541次阅读
    漫步者花再Zero <b class='flag-5'>Clip</b>开放式耳机拆解报告