0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型时代下,普通科研人怎么办?

3D视觉工坊 来源:计算机视觉工坊 2023-05-24 16:00 次阅读

众所周知,随着ChatGPT的爆火,AI全面进入大模型时代,NLP、CV大有统一之势,回顾发布的各种大模型,Google BARD,openAI的GPT,Meta的SAM,百度的文心一言等等,这些基本都是有实力有技术的大公司引领着来研究的,但是作为一名普通的高校科研工作者,我们大多数基本上是没有这么多资源算力去开发这样的大模型的,但是大模型在各个方向效果精度几乎是碾压,导致很多领域方向就消失了,很多研究生也是很焦虑,可能在申的论文以及毕业答辩时肯定会comment你的性能差距大模型这么多,还有研究的必要吗?

所以,大模型时代下,作为一名普普通通,没有很多资源算力的科研人如何继续研究呢?

最近在arXiv上刷到一篇文章,也许能提供一些思路。

论文名称:

AV-SAM: Segment Anything Model Meets Audio-VisualLocalization and Segmentation

论文地址:

https://arxiv.org/abs/2305.01836

ae217f76-fa05-11ed-90ce-dac502259ad0.png

主要内容:

首先,Segment Anything Model(SAM)大模型是Meta提出的一种CV大模型,在1100万张图像中的10亿个masks上进行训练,并且在各种分割任务上具有很强的零样本性能,它在打破分割边界方面取得了重大进展,极大地促进了计算机视觉基础模型的发展,这个视觉基础模型由三个主要组件组成:图像编码器、提示编码器和掩码解码器。

ae271e36-fa05-11ed-90ce-dac502259ad0.png

ae2f286a-fa05-11ed-90ce-dac502259ad0.png

SAM的项目地址:https://github.com/facebookresearch/segment-anything

我们普通科研人如果想重新设计训练这样一个大模型显然不现实,那么这篇论文的作者另辟蹊径,虽然大模型的泛化性很好,在很多任务上做的不错,但是不可能面面俱到,往往是大而不精的,这篇论文就利用已经预训练好的SAM大模型去做更具体的下游任务——视听定位和分割。

视听定位和分割:

视听定位和分割是以热图或掩模的方式预测视频中单个声源的位置。

所以,这篇arXiv的论文提出了一个简单而有效的基于SAM大模型的视听定位和分割框架,即AV-SAM,它可以生成与音频相对应的发声对象掩码。具体而言,利用SAM中预先训练的图像编码器的视觉特征,把它和音频特征逐像素视听融合来聚合跨模态表示,然后将聚合的跨模态特征输入到提示编码器和掩码解码器以生成最终的视听分割掩码。

方向主要包括:3D视觉领域各细分方向,比如相机标定|三维点云|三维重建|视觉/激光SLAM|感知|控制规划|模型部署|3D目标检测|TOF|多传感器融合|AR|VR|编程基础等。

Methods

ae3ad5c0-fa05-11ed-90ce-dac502259ad0.png

给定图像和音频,目标是预测图像上声音对象的像素掩码。主要由两个模块组成,像素级视听融合和视听掩码解码器。

让表示听觉和视觉数据对,T、F分别表示音频频谱图的时间和频率维度。

首先使用双流编码器和投影头对音频和视觉输入进行编码,分别表示为,音频编码器计算全局音频特征,视觉编码器为每s阶段生成多尺度空间级特征。

为了解决视听分割问题,引入了逐像素视听融合模块来对多尺度空间级视觉特征和全局音频表示进行编码,以更新输入到SAM的掩码解码器。在跨模态融合之后,第s阶段的视听特征被更新为:

其中,表示全局音频表示ai的复制版本,该复制版本在第s阶段重复次。这里表示1×1×1的卷积。通过这种特殊的视听融合,推动学习到的视觉标记嵌入与全局音频特征有区别地对齐。

利用逐像素视听融合的优势,使用多尺度特征图的最后阶段更新SAM中预训练图像编码器的原始视觉特征。然后这些更新的多级特征图被传递到SAM中的掩码解码器和提示编码器,以生成最终的输出掩码,以像素级标注Y作为监督,将预测和标签之间的二进制交叉熵(BCE)作为损失:

实验:

在VGG-Sound中使用144k对的子集进行训练,并在Flickr SoundNet测试集上用250对声音对象的视听对测试模型。

使用在ImageNet上预训练的ResNet50通过特征图的双线性插值来生成伪掩码。

对于输入视觉帧,分辨率调整为1024×1024。对于输入音频,使用长度为3s的对数频谱图,采样率为22050Hz。

使用轻量级的ResNet18作为音频编码器,并使用SAM发布的权重初始化视觉模型。该模型使用128的batch size,学习率为1e−4的Adam优化器进行了100个epochs的训练。

ae4386ac-fa05-11ed-90ce-dac502259ad0.png

与SAM相比,在两个基准的所有指标方面都取得了最佳结果。

这表明了逐像素视听融合对聚合跨模态输入的重要性。

ae4b7808-fa05-11ed-90ce-dac502259ad0.png

同时进行了消融研究以证明SAM冻结和微调预训练重量的效果。

在表2中冻结/微调每个模块(掩码解码器、提示编码器、图像编码器)参数

ae5482f4-fa05-11ed-90ce-dac502259ad0.png

可以观察到,对掩码解码器进行微调会增加视听分割的结果,表明视听掩码解码器在从聚合的跨模态特征生成准确掩码方面的优势。同时微调提示编码器也提高了视觉声源在所有指标方面的分割性能。

总结:

本篇是一篇基于大模型来做研究的文章,针对大模型在视听定位和分割上不够鲁棒准确的问题,设计模块去聚合跨模态表示,显著提高了在这一具体任务上的性能。这也许可以给我们普通科研工作者一些启发,如果我们不能重新研究设计训练大模型情况下,我们可以在有限的资源算力下用大模型做一些具体的下游任务,扩展大模型的应用点,用他们已经预训练好的模型权重去做更具体的任务,原始的大模型不可能面面俱到,其中很多点还是可以去做的。思考大模型如何在自己的研究方向上发挥它的价值,如何融合进自己的研究。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1073

    浏览量

    40165
  • 编码器
    +关注

    关注

    41

    文章

    3364

    浏览量

    131561
  • 模型
    +关注

    关注

    1

    文章

    2707

    浏览量

    47704

原文标题:大模型时代下,普通科研人怎么办?

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    没有积分怎么办?登录了也看不到附件怎么办

    没有积分怎么办?登录了也看不到附件怎么办
    发表于 12-31 13:06

    proteus仿真时用到ne5534时没有仿真模型怎么办

    proteus仿真时用到ne5534时没有仿真模型怎么办PCB打样找华强 http://www.hqpcb.com/3 样板2天出货
    发表于 10-26 00:36

    Altium Designer找不到元件怎么办

    请问一各位,我在Altium Designer里面绘制电路图时找不到marvell公司的88e1111芯片的元件,不知道该怎么办?网上到处都是比较全的元件库,下下来也没见怎么个全法,所以请教一各位有没有关于Marvell 公
    发表于 07-19 11:34

    装了VISA驱动设备有接口没有Serial & Parallel怎么办

    装了VISA驱动设备有接口没有Serial& Parallel怎么办
    发表于 11-15 15:50

    遇到Proteus和Multisim库里没有的元件怎么办

    电路新手一枚。。想做 MCP73831 和 HN1B04F 两个元件的应用实例仿真,可是Proteus和Multisim库里都找不到啊,网上也没找到对应的spice模型,该怎么办啊,求大神帮助。。
    发表于 10-12 09:28

    我是新手,问一mathscript不识别函数怎么办

    我是新手,问一mathscript不识别函数怎么办
    发表于 01-26 11:44

    请问我偶然获得的一块STM32连上win7用不了该怎么办

    系统说无法驱动....怎么办,我用的系统是正版win7家庭普通版 64位的,求各位大神指点一迷津.....
    发表于 10-25 04:01

    请问multisim14中没有atmega8单片机这个元件怎么办

    请问multisim14中没有atmega8单片机这个元件怎么办?哪里下载spice模型,如何添加的?
    发表于 04-07 18:55

    MaskRom模式List Storage出错怎么办

    AndroidTool烧写工具有何作用?bootrom设备有哪几种运行模式呢?MaskRom模式List Storage出错怎么办呢?
    发表于 03-02 06:22

    浅谈一有铅锡膏焊接出现短路怎么办

    浅谈一有铅锡膏焊接出现短路怎么办
    发表于 02-17 16:05

    请问一锁相环无法锁定怎么办

    请问一锁相环无法锁定怎么办
    发表于 04-24 10:09

    请教一升压斩波电路出现电流断续怎么办呢?

    请教一升压斩波电路出现电流断续怎么办呢?
    发表于 05-11 16:42

    模型转换失败怎么办

    模型转换失败怎么办
    发表于 09-18 08:41

    STM8在休眠模式独立看门狗还老是复位怎么办

    STM8在休眠模式独立看门狗还老是复位怎么办
    发表于 10-15 06:42

    ADL5205官网上没有spice模型 ,不能仿真怎么办

    ADL5205官网上没有spice模型 ,不能仿真怎么办?有没有大神用这个做过单端输入的设计? 求教一
    发表于 11-17 08:32