0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

CVer 来源:量子位(QbitAI) 2023-06-28 14:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

比Meta的「分割一切模型」(SAM)更快的图像分割工具,来了!

最近中科院团队开源了FastSAM模型,能以50倍的速度达到与原始SAM相近的效果,并实现25FPS的实时推理。

该成果在Github已经获得2.4K+次星标,在Twitter、PaperswithCode等平台也受到了广泛关注。

da955e1a-1571-11ee-962d-dac502259ad0.png

相关论文预印本现已发表。

以下内容由投稿者提供

daa417ca-1571-11ee-962d-dac502259ad0.png

《Fast Segment Anything》

代码:https://github.com/CASIA-IVA-Lab/FastSAM

论文:https://arxiv.org/abs/2306.12156

视觉基础模型 SAM[1]在许多计算机视觉任务中产⽣了重⼤影响。它已经成为图像分割、图像描述和图像编辑等任务的基础。

然⽽,其巨⼤的计算成本阻碍了它在实际场景中的⼴泛应⽤。

最近,中科院⾃动化所提出并开源了⼀种加速替代⽅案 FastSAM。

通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务,⽤带实例分割分⽀的常规 CNN 检测器以⾼出50倍的运⾏速度实现了与SAM⽅法相当的性能,是⾸个实时分割⼀切的基础模型。

dab8fe6a-1571-11ee-962d-dac502259ad0.png

意义与动机

SAM 的出现带动了 “分割⼀切”(Segment Anything)任务的发展。这⼀任务由于其泛化性和可扩展性,有很⼤可能成为未来⼴泛视觉任务的基础。

FastSAM 为该任务提供了⼀套实时解决⽅案,进⼀步推动了分割⼀切模型的实际应⽤和发展。

本⽂将“分割⼀切”任务解耦为全实例分割和提⽰引导选择两阶段,通过引⼊⼈⼯先验结构,在提速 50 倍的情况下实现了与 SAM 相近的表现。

FastSAM 的优秀表现为视觉任务的架构选择提供了新的视角——对于特定任务,专用模型结构或许在计算效率和精确度上仍具有优势。

从模型压缩的⾓度看,FastSAM 也证明了基于大模型产生高质量数据,通过引⼊⼈⼯先验结构大幅降低计算复杂度的路径的可⾏性。

示例

Web DEMO

在 HuggingFace 的 Space 中,你可以快速体验 FastSAM 的分割效果。

你可以上传一张自定义的图片,选择模式并设置参数,点击分割按钮,就可以得到一个满意的分割结果。

现在支持一切模式和点模式的交互,其他模式将在未来尝试支持。在 Replicate 上已支持所有模式的在线体验。

dad56e74-1571-11ee-962d-dac502259ad0.jpg

dae83266-1571-11ee-962d-dac502259ad0.jpg

多种交互⽅式

FastSAM目前共支持三种交互方式。

dafa74bc-1571-11ee-962d-dac502259ad0.png

多点交互模式

FastSAM ⽀持多个带有前景/背景标签的点交互模式,可以很好地适应不同场景的应⽤需求。

以缺陷检测场景为例,只需对缺陷部位添加前景点,对正常药丸部分添加背景点,即可准确地检测出物体缺陷。

db2819e4-1571-11ee-962d-dac502259ad0.png

框交互模式

FastSAM 也⽀持框交互模式。也以缺陷检测为例,只需对缺陷⼤致位置进⾏框选,即可准确检测出物体缺陷。

db3f0136-1571-11ee-962d-dac502259ad0.png

⽂本交互模式

FastSAM 也⽀持并开源了⽂本交互模式。通过不同的⽂本提示,FastSAM可以准确分割出不同颜⾊的⼩狗。

db55dc62-1571-11ee-962d-dac502259ad0.png

工作原理

如下图所示,FastSAM 的网络架构可分为两个阶段:全实例分割和提示引导选择。

db6da3f6-1571-11ee-962d-dac502259ad0.png

在全实例分割阶段,FastSAM 使用卷积神经网络来对图像中的所有对象或区域进行划分。

在提示引导选择阶段,它采用包括点提示、框提示和文本提示的各种提示来选出关注对象。

与基于Transformer的方法不同,FastSAM融合了与视觉分割任务紧密相关的先验知识,例如局部连接和对象分配策略。这使得它以更低地参数量和计算量下更快地收敛。

定性与定量分析

测试结果表明,FastSAM各方面的表现完全不输于Meta的原始版本。

速度

从表中可以看出,FastSAM 取得了远超 SAM 的速度表现,在「分割⼀切」模式下,SAM的速度会受到均匀点提⽰数量的影响,⽽ FastSAM 由于结构的特点,运⾏时间不随点提⽰数量的增加⽽增加,这使得它成为「分割⼀切」模式的更好选择。

db7aa2cc-1571-11ee-962d-dac502259ad0.png

同时,由于 FastSAM 在结构设计中利⽤了⼈的先验知识,使得它在实时推理的同时也具备了与 SAM 相当的性能。

边缘检测

下图展⽰了具有代表性的边缘检测结果。经过定性观察可以看出,尽管FastSAM的参数明显较少(只有68M),但它也能产⽣很⾼质量的边缘检测结果。

db8b8a6a-1571-11ee-962d-dac502259ad0.png

从下表可以看出,FastSAM 取得了与 SAM 类似的性能。与 Ground Truth 相⽐,FastSAM和 SAM 都倾向于预测更多的边缘,这种偏差在表中得到了定量的反映。

db9c7e10-1571-11ee-962d-dac502259ad0.png

物体候选

从下表可以看出,FastSAM 在 bbox AR@1000 的表现上超过了计算量最⼤的 SAM 模型(SAM-H E64),仅次于在 LVIS 数据集上监督训练的 ViTDet-H[2]。

dbb0244c-1571-11ee-962d-dac502259ad0.png

可视化结果

SA-1B 分割结果:下图展⽰了 FastSAM 在 SA-1B 数据集上不同场景和掩码数量时的分割结果。

dbc02c2a-1571-11ee-962d-dac502259ad0.png

下游应⽤对⽐:下⾯三张图对⽐了 FastSAM 和 SAM 在异常检测、显著物体分割和建筑物提取三个下游任务的效果,FastSAM 在不同模式下均取得了和 SAM 相当的表现。

dbd40254-1571-11ee-962d-dac502259ad0.png

dbeaa428-1571-11ee-962d-dac502259ad0.png

dc072a26-1571-11ee-962d-dac502259ad0.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51712
  • SAM
    SAM
    +关注

    关注

    0

    文章

    116

    浏览量

    34317
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47452

原文标题:中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中科曙光推出科学大模型站式开发平台OneScience

    近日,在2025年中国计算机大会上,中科曙光发布了国内首个科学大模型站式开发平台OneScience。该平台遵循AI计算开放架构理念设计,并依托曙光AI超集群国产算力,深度复现并集成数十个AI
    的头像 发表于 10-28 17:29 721次阅读

    今日看点:中科院院士:未来人工智能助手将取代手机;合肥120亿高端光罩项目开工

    中科院院士:未来人工智能助手将取代手机 近期,图灵奖获得者、中国科学院院士、清华大学人工智能学院院长姚期智公开表示,“无论我们喜欢与否,大约在未来三到五年内,每个人都会拥有个人工智能助手,甚至更大
    发表于 10-27 10:44 1193次阅读

    中科院重庆研究在势垒可光调谐的新型肖特基红外探测器研究中获进展

    传统肖特基探测器和势垒可光调谐的肖特基红外探测器的对比 近日,中科院重庆绿色智能技术研究微纳制造与系统集成研究中心在《创新》(The Innovation)上发表了题为Schottky
    的头像 发表于 10-21 09:26 167次阅读
    <b class='flag-5'>中科院</b>重庆研究<b class='flag-5'>院</b>在势垒可光调谐的新型肖特基红外探测器研究中获进展

    中科院宁波材料所:双结构石墨烯/PDMS复合传感器,用于可穿戴设备应用

    在实际应用中,柔性传感器需要在宽广的测量范围内展现出足够高的灵敏度;然而,这种需求总是伴随着权衡取舍。本文通过对激光诱导石墨烯(LIG)导电路径的几何创新,解决了上述挑战。本文, 中科院宁波材料所赵
    的头像 发表于 08-26 18:02 5237次阅读
    <b class='flag-5'>中科院</b>宁波材料所:双结构石墨烯/PDMS复合传感器,用于可穿戴设备应用

    ‌Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 提速背后的黑科技

    Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 提速背后的黑科技‌ 最近,Moonshot AI 的千亿参数大模型 ‌Kimi K2‌ 在 ‌GroqCl
    的头像 发表于 08-07 10:01 651次阅读

    【正点原子STM32MP257开发板试用】基于 DeepLab 模型的图像分割

    是谷歌团队提出种用于语义分割的深度学习模型,属于 DeepLab 系列模型的第三代版本。它在图像语义
    发表于 06-21 21:11

    中科曙光助力中科院高能物理研究所打造溪悟大模型

    近年来,以大规模预训练模型为代表的人工智能技术迅猛发展,为科研创新提供了全新范式。中科院高能物理研究所依托正负电子对撞机等大科学装置,积累了海量高价值实验数据,如何高效利用数据、加速成果产出,成为研究所面临的核心课题。
    的头像 发表于 05-06 15:19 702次阅读

    中关村泛联行来访中科驭数

    中关村泛联移动通信技术创新应用研究(以下简称“中关村泛联”)专职副院长金毅敦行来访中科驭数,双方探讨了6G技术发展现状,以及DPU在6G场景的应用机会。
    的头像 发表于 04-14 10:26 1032次阅读

    中科昊芯DSP产品及公司信息

    中科昊芯是家致力于数字信号处理器(DSP)研发的高科技企业,源自中国科学院的科技成果转化,其创始团队拥有中科院自动化所的深厚背景,自2016年起便投身于RISC-V处理器的研究。依托RISC-V
    发表于 04-07 09:16

    安徽省水利科学研究携手中科曙光完成DeepSeek大模型部署

    近日,安徽省(水利部淮河水利委员会)水利科学研究携手中科曙光,成功完成国产大模型DeepSeek、BGE-M3嵌入模型及重排模型的本地化部
    的头像 发表于 03-25 11:36 868次阅读

    无法在OVMS上运行来自Meta的大型语言模型 (LLM),为什么?

    无法在 OVMS 上运行来自 Meta 的大型语言模型 (LLM),例如 LLaMa2。 从 OVMS GitHub* 存储库运行 llama_chat Python* Demo 时遇到错误。
    发表于 03-05 08:07

    红木棉电子携手中科院,国内首条干法全固态电池线诞生

    2025年2月,则振奋人心的消息从东莞市红木棉电子科技有限公司(以下简称“红木棉电子”)传出。该公司与中科院系统强强联合,由双方技术和科研骨干组成的团队,历经年多的不懈探索与试验,成功设计、开发
    的头像 发表于 02-17 15:31 893次阅读
    红木棉电子携手<b class='flag-5'>中科院</b>,国内首条干法全固态电池线诞生

    Meta组建四大专研小组,深入探索DeepSeek模型

    近日,据报道,脸书母公司Meta为了提升其大模型Llama的性能,专门成立了四个研究小组,深入探索量化巨头幻方量化旗下的国产大模型DeepSeek的工作原理。 据悉,Meta组建的这四
    的头像 发表于 02-05 14:02 705次阅读

    CES 2025 “AI+一切”成为关键趋势

    是中国的企业。尤其是AI技术在各个领域的全面应用,让我们大开眼界的同时,有机会透过这些现代科技看见更美好的未来。 作为 AI 芯片领域的领军者,英伟达 CEO 黄仁勋重磅发布了新代 GeForce RTX 50 系‍列显卡。还首次发布了世界
    的头像 发表于 01-15 10:32 899次阅读

    Meta发布新AI模型Meta Motivo,旨在提升元宇宙体验

    Meta公司近日宣布,将推出款名为Meta Motivo的全新人工智能模型。该模型具备控制类似人类的数字代理动作的能力,有望为元宇宙的用户
    的头像 发表于 12-16 10:34 1349次阅读