0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通用视觉GPT时刻来临?智源推出通用分割模型SegGPT

3D视觉工坊 来源:机器之心 2023-04-09 09:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ChatGPT 引发了语言大模型狂潮,AI 另一个重大领域 —— 视觉 —— 的 GPT 时刻何时到来?

前两天,机器之心介绍了Meta 最新研究成果Segment Anything Model (SAM)。该研究引起了AI社区广泛讨论。

而据我们所知,几乎同一时间,智源研究院视觉团队也推出通用分割模型 SegGPT(Segment Everything In Context)—— 利用视觉提示(prompt)完成任意分割任务的通用视觉模型。

a611a0e8-d63a-11ed-bfe3-dac502259ad0.png

论文地址:https://arxiv.org/abs/2304.03284

代码地址:https://github.com/baaivision/Painter

Demo:https://huggingface.co/spaces/BAAI/SegGPT

SegGPT 与 Meta AI 图像分割基础模型 SAM 同时发布,两者的差异在于 :

SegGPT “一通百通”:给出一个或几个示例图像和意图掩码,模型就能 get 用户意图,“有样学样” 地完成类似分割任务。用户在画面上标注识别一类物体,即可批量化识别分割同类物体,无论是在当前画面还是其他画面或视频环境中。

SAM “一触即通”:通过一个点或边界框,在待预测图片上给出交互提示,识别分割画面上的指定物体。

无论是 “一触即通” 还是 “一通百通”,都意味着视觉模型已经 “理解” 了图像结构。SAM 精细标注能力与 SegGPT 的通用分割标注能力相结合,能把任意图像从像素阵列解析为视觉结构单元,像生物视觉那样理解任意场景,通用视觉 GPT 曙光乍现。

SegGPT 是智源通用视觉模型 Painter(CVPR 2023)的衍生模型,针对分割一切物体的目标做出优化。SegGPT 训练完成后无需微调,只需提供示例即可自动推理并完成对应分割任务,包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸等等。

该模型具有以下优势能力:

1. 通用能力:SegGPT 具有上下文推理能力,模型能够根据提供的分割示例(prompt),对预测进行自适应的调整,实现对 “everything” 的分割,包括实例、类别、零部件、轮廓、文本、人脸、医学图像、遥感图像等。

2. 灵活推理能力:支持任意数量的 prompt;支持针对特定场景的 tuned prompt;可以用不同颜色的 mask 表示不同目标,实现并行分割推理。

3. 自动视频分割和追踪能力:以第一帧图像和对应的物体掩码作为上下文示例,SegGPT 能够自动对后续视频帧进行分割,并且可以用掩码的颜色作为物体的 ID,实现自动追踪。

案例展示

1. 作者在广泛的任务上对 SegGPT 进行了评估,包括少样本语义分割、视频对象分割、语义分割和全景分割。下图中具体展示了 SegGPT 在实例、类别、零部件、轮廓、文本和任意形状物体上的分割结果。

a633f49a-d63a-11ed-bfe3-dac502259ad0.png

a699ce8c-d63a-11ed-bfe3-dac502259ad0.png

2. 标注出一个画面中的彩虹(上图),可批量化分割其他画面中的彩虹(下图)

a6c4b84a-d63a-11ed-bfe3-dac502259ad0.gif

3. 用画笔大致圈出行星环带(上图),在预测图中准确输出目标图像中的行星环带(下图)。

a70d0168-d63a-11ed-bfe3-dac502259ad0.png

a74d39f4-d63a-11ed-bfe3-dac502259ad0.png

4. SegGPT 能够根据用户提供的宇航员头盔掩码这一上下文(左图),在新的图片中预测出对应的宇航员头盔区域(右图)。

a774d70c-d63a-11ed-bfe3-dac502259ad0.png

训练方法

SegGPT 将不同的分割任务统一到一个通用的上下文学习框架中,通过将各类分割数据转换为相同格式的图像来统一各式各样的数据形式。

具体来说,SegGPT 的训练被定义为一个上下文着色问题,对于每个数据样本都有随机的颜色映射。目标是根据上下文完成各种任务,而不是依赖于特定的颜色。训练后,SegGPT 可以通过上下文推理在图像或视频中执行任意分割任务,例如实例、类别、零部件、轮廓、文本等。

a7ad7cce-d63a-11ed-bfe3-dac502259ad0.png

Test-time techniques

如何通过 test-time techniques 解锁各种能力是通用模型的一大亮点。SegGPT 论文中提出了多个技术来解锁和增强各类分割能力,比如下图所示的不同的 context ensemble 方法。所提出的 Feature Ensemble 方法可以支持任意数量的 prompt 示例,实现丰俭由人的推理效果。

a7c3990a-d63a-11ed-bfe3-dac502259ad0.png

此外,SegGPT 还支持对特定场景优化专用 prompt 提示。对于针对性的使用场景,SegGPT 可以通过 prompt tuning 得到对应 prompt,无需更新模型参数来适用于特定场景。比如,针对某一数据集自动构建一个对应的 prompt,或者针对一个房间来构建专用 prompt。如下图所示:

a7e70282-d63a-11ed-bfe3-dac502259ad0.png

结果展示

模型只需少数 prompt 示例,在 COCO 和 PASCAL 数据集上取得最优性能。SegGPT 显示出强大的零样本场景迁移能力,比如在少样本语义分割测试集 FSS-1000 上,在无需训练的情况下取得 state-of-the-art 性能。

a813d762-d63a-11ed-bfe3-dac502259ad0.png

a82daffc-d63a-11ed-bfe3-dac502259ad0.png

无需视频训练数据,SegGPT 可直接进行视频物体分割,并取得和针对视频物体分割专门优化的模型相当的性能。

a8585856-d63a-11ed-bfe3-dac502259ad0.png

以下是基于 tuned prompt 在语义分割和实例分割任务上的效果展示:

a8836b54-d63a-11ed-bfe3-dac502259ad0.png

a8b520a4-d63a-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40982

    浏览量

    302533
  • GPT
    GPT
    +关注

    关注

    0

    文章

    371

    浏览量

    16959

原文标题:通用视觉GPT时刻来临?智源推出通用分割模型SegGPT

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5震撼发布:AI领域的重大飞跃

    跃升重新定义了人工智能的能力边界。OpenAI首席执行官山姆·奥特曼在发布会上直言:“这不仅是模型的升级,更是通往通用人工智能(AGI)的关键里程碑。”     GPT-5:集成模型
    的头像 发表于 08-09 07:44 1w次阅读
    <b class='flag-5'>GPT</b>-5震撼发布:AI领域的重大飞跃

    一种可跨不同领域的异常检测通用模型UniOD介绍

    本研究提出了一种可跨不同领域、适用于特征维度各异且特征空间异构的数据集的异常检测通用模型
    的头像 发表于 03-18 09:09 525次阅读
    一种可跨不同领域的异常检测<b class='flag-5'>通用</b><b class='flag-5'>模型</b>UniOD介绍

    NVIDIA Jetson模型赋能AI在边缘端落地

    和 Isaac GR00T 等模型以及千问大模型、Gemma、Mistral AI、GPT-OSS、PI 等社区模型通用平台。
    的头像 发表于 03-16 16:27 587次阅读
    NVIDIA Jetson<b class='flag-5'>模型</b>赋能AI在边缘端落地

    大晓机器人开源空间智能通用模型ACE-Brain-0

    近日,大晓机器人联合上海交通大学、南洋理工大学、香港中文大学、香港大学等研究机构共同推出以空间智能为底层框架、跨不同具身本体的通用基础模型“ACE-Brain-0”,正式面向全行业开源。
    的头像 发表于 03-11 13:45 339次阅读
    大晓机器人开源空间智能<b class='flag-5'>通用</b><b class='flag-5'>模型</b>ACE-Brain-0

    上海交大发布国产光学大模型Optics GPT

    电子发烧友网综合报道 1月25日,上海交通大学正式推出光学领域垂直大语言模型——Optics GPT(光学大模型),这是一款完全自主研发的国产模型
    的头像 发表于 01-26 09:59 2185次阅读
    上海交大发布国产光学大<b class='flag-5'>模型</b>Optics <b class='flag-5'>GPT</b>

    SAM(通用图像分割基础模型)丨基于BM1684X模型部署指南

    前言SAM是Meta提出的一个分割一切的提示型模型,其在1100万张图像上训练了超过10亿个掩码,实现了强大的零样本泛化,突破了分割界限。本例程对SAM官方开源仓库的模型和算法进行移植
    的头像 发表于 01-12 16:17 479次阅读
    SAM(<b class='flag-5'>通用</b>图像<b class='flag-5'>分割</b>基础<b class='flag-5'>模型</b>)丨基于BM1684X<b class='flag-5'>模型</b>部署指南

    GPT-5.1发布 OpenAI开始拼情商

    OpenAI正式上线了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有网友实测发现OpenAI新发布的GPT-5.1大
    的头像 发表于 11-13 15:49 803次阅读

    成都汇阳投资关于大模型白热化,应用加速分化

           大模型: 加速多模态研发 ,闭模型逐步逆袭开源 多模态技术路线尚未收敛 , 国内外大模型厂商持续刷新 SOAT。 图片领域 ,GPT
    的头像 发表于 09-09 09:30 1076次阅读

    【RA4M2-SENSOR】3、使用GPT定时器-PWM输出

    GPT介绍 通用 PWM 定时器(GPT,General PWM Timer)是 RA MCU 的其中一种 32/16 位的定时器外设。 在 GPT 当中,可分为
    发表于 09-01 15:20

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

      自 2016 年推出 NVIDIA DGX 以来,NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。此次 OpenAI gpt-oss-20b 和 gpt-oss-120b
    的头像 发表于 08-15 20:34 2478次阅读
    NVIDIA从云到边缘加速OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,实现150万TPS推理

    商汤科技多模态通用智能战略思考

    时间是最好的试金石,AI领域尤其如此。当行业热议大模型走向时,商汤早已锚定“多模态通用智能”——这是我们以深厚研究积累和实践反复验证的可行路径。
    的头像 发表于 08-14 09:33 1295次阅读

    晶振8m和24m通用

    晶振8MHz和24MHz一般情况下不通用,这是由它们在电路中的作用以及电路对频率的要求决定的
    的头像 发表于 07-22 15:57 1585次阅读
    无<b class='flag-5'>源</b>晶振8m和24m<b class='flag-5'>通用</b>吗

    图像信号分析处理卡设计原理图:536-基于FMC接口的XCZU7EV 通用PCIe卡 视觉处理卡 工业控制卡

    XCZU7EV 通用PCIe卡 , 图像信号分析处理卡 , 视觉处理卡 , 工业控制卡 , 存储扩展卡
    的头像 发表于 07-08 10:47 1387次阅读
    图像信号分析处理卡设计原理图:536-基于FMC接口的XCZU7EV <b class='flag-5'>通用</b>PCIe卡 <b class='flag-5'>视觉</b>处理卡 工业控制卡

    【正点原子STM32MP257开发板试用】基于 DeepLab 模型的图像分割

    【正点原子STM32MP257开发板试用】图像分割 本文介绍了正点原子 STM32MP257 开发板基于 DeepLab 模型实现图像分割的项目设计。 DeepLab 模型 DeepL
    发表于 06-21 21:11

    基于FMC接口的XCZU7EV 通用PCIe卡

    基于通用PCIe ,实现FMC的数据接口和主控计算,广泛应用于工业控制,检测,视觉处理。支持工业级温度工作。
    的头像 发表于 05-07 09:10 1035次阅读
    基于FMC接口的XCZU7EV <b class='flag-5'>通用</b>PCIe卡