0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于全景分割的全场景图生成任务

OpenCV学堂 来源:新智元 作者:新智元 2022-08-24 10:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】本文提出基于全景分割的全场景图生成(panoptic scene graph generation,即PSG)任务。相比于传统基于检测框的场景图生成,PSG任务要求全面地输出图像中的所有关系(包括物体与物体间关系,物体与背景间关系,背景与背景间关系),并用准确的分割块来定位物体。PSG任务旨在推动计算机视觉模型对场景最全面的理解和感知,用全面的识别结果更好地支撑场景描述、视觉推理等下游任务。同时PSG数据集提供的关系标注和全景分割也为解决当前图像生成领域对关系不敏感的问题创造了新的机遇。

现在已经2022年了,但是当下大多数的计算机视觉任务却仍然只关注于图像感知。比如说,图像分类任务只需要模型识别图像中的物体物体类别。

虽然目标检测,图像分割等任务进一步要求找到物体的位置,然而,此类任务仍然不足以说明模型获得了对场景全面深入的理解。

以下图1为例,如果计算机视觉模型只检测到图片中的人、大象、栅栏、树木等,我们通常不会认为模型已经理解了图片,而该模型也无法根据理解做出更高级的决策,例如发出「禁止投喂」的警告。

事实上,在智慧城市、自动驾驶、智能制造等许多现实世界的AI场景中,除了对场景中的目标进行定位外,我们通常还期待模型对图像中各个主体之间的关系进行推理和预测。

例如,在自动驾驶应用中,自动车需要分析路边的行人是在推车还是在骑自行车。根据不同的情况,相应的后续决策可能都会有所不同。而在智能工厂场景中,判断操作员是否操作安全正确也需要监控端的模型有理解主体之间关系的能力。

大多数现有的方法都是手动设置一些硬编码的规则。这使得模型缺乏泛化性,难以适应其他特定情况。

场景图生成任务(scene graph generation,或SGG)就旨在解决如上的问题。在对目标物体进行分类和定位的要求之上,SGG任务还需要模型预测对象之间的关系(见图 2)。

a77441c4-22e5-11ed-ba43-dac502259ad0.jpg

图2:场景图生成

传统场景图生成任务的数据集通常具有对象的边界框标注,并标注边界框之间的关系。但是,这种设置有几个固有的缺陷:

(1)边界框无法准确定位物体:如图2所示,边界框在标注人时不可避免地会包含人周围的物体;

(2)背景无法标注:如图2所示,大象身后的树木用bounding box标注,几乎覆盖了整个图像,所以涉及到背景的关系无法准确标注,这也使得场景图无法完全覆盖图像,无法达到全面的场景理解。

因此,作者提出全场景图生成(PSG)任务,携同一个精细标注的大规模PSG数据集。

a790abd4-22e5-11ed-ba43-dac502259ad0.png

图3:全场景图生成

如图 3 所示,该任务利用全景分割来全面准确地定位对象和背景,从而解决场景图生成任务的固有缺点,从而推动该领域朝着全面和深入的场景理解迈进。

论文信息

a7b9525a-22e5-11ed-ba43-dac502259ad0.png

Paper link: https://arxiv.org/abs/2207.11247

Project Page: https://psgdataset.org/

OpenPSG Codebase: https://github.com/Jingkang50/OpenPSG

Competition Link: https://www.cvmart.net/race/10349/base

ECCV’22 SenseHuman Workshop Link: https://sense-human.github.io/

HuggingFace Demo Link: https://huggingface.co/spaces/ECCV2022/PSG

作者提出的PSG数据集包含近五万张coco的图片,并基于coco已有的全景分割标注,标注了分割块之间的关系。

作者精细地定义了56种关系,包括了位置关系(over,in front of,等),常见的物体间关系(hanging from等),常见的生物动作(walking on,standing on,等),人类行为(cooking等),交通场景中的关系(driving,riding等),运动场景中的关系(kicking等),以及背景间关系(enclosing等)。

作者要求标注员能用更准确的动词表达就绝不用更模糊的表达,并且尽可能全地标注图中的关系。

a7c4f952-22e5-11ed-ba43-dac502259ad0.gif

PSG模型效果展示

任务优势

作者通过下图的例子再次理解全场景图生成(PSG)任务的优势:

a8536520-22e5-11ed-ba43-dac502259ad0.png

左图来自于SGG任务的传统数据集Visual Genome (VG-150)。可以看到基于检测框的标注通常不准确,而检测框覆盖的像素也不能准确定位物体,尤其是椅子,树木之类的背景。同时,基于检测框的关系标注通常会倾向于的标注一些无聊的关系,如「人有头」,「人穿着衣服」。

相比之下,右图中提出的 PSG 任务提供了更全面(包括前景和背景的互动)、更清晰(合适的物体粒度)和更准确(像素级准确)的场景图表示,以推动场景理解领域的发展。

两大类PSG模型

为了支撑提出的PSG任务,作者搭建了一个开源代码平台OpenPSG,其中实现了四个双阶段的方法和两个单阶段的方法,方便大家开发、使用、分析。

a877c10e-22e5-11ed-ba43-dac502259ad0.png

双阶段的方法利用Panoptic-FPN在第一阶段中对图像进行全景分割。

接下来作者提取全景分割得到的物体的特征以及每一对物体融合的关系特征,送至下一阶段的关系预测阶段。框架已集成复现了传统场景图生成的经典方法IMP,VCTree,Motifs,和GPSNet。

a890fe62-22e5-11ed-ba43-dac502259ad0.png

PSGFormer是基于双decoder DETR的单阶段方法。

模型首先在a)中通过卷积神经网络backbone提取图片特征并加以位置编码信息作为编码器的输入,同时初始化一组用以表示三元组的queries。

与DETR类似地, 在b)中模型将编码器的输出作为key和value与表示三元组的queries一同输入解码器进行cross-attention操作。

随后模型在c)中将解码完成的每个query分别输入主谓宾三元组对应的预测模块,最后得到对应的三元组预测结果。

a8a60924-22e5-11ed-ba43-dac502259ad0.png

PSGFormer基于双decode的DETR的单阶段方法。

模型在a) 通过CNN提取图片特征,加以位置编码信息输入编码器,同时初始化了两组queries分别代表物体和关系。

接着在b)步骤里,模型基于编码器编码的图片信息,分别在物体解码器和关系编码器中通过cross-attention解码学习物体query和关系query。

当两类query均学习完毕后,在c)中通过映射后匹配,得到成对的三元组query。

最后在d)中通过预测头分别完成关于物体query和关系query的预测,并根据c)中的匹配结果得到最终的三元组预测结果。

PSGTR与PSGFormer都是在DETR的基础上进行扩展和改进的模型,不同的地方在于PSGTR用一组query对于三元组直接建模而PSGFormer则通过两组query分别对物体和关系建模,两种方法各有利弊,具体可参考论文中实验结果。

结论分享

大部分在SGG任务上有效的方法在PSG任务上依旧有效。然而有一些利用较强的数据集统计先验,或主谓宾中谓语方向先验的方法可能没那么奏效。这可能是由于PSG数据集相较于传统VG数据集的bias没有那么严重,并且对谓语动词的定义更加清晰可学。因此,作者希望后续的方法关注视觉信息的提取和对图片本身的理解。统计先验可能在刷数据集上有效,但不本质。

相比于双阶段模型,单阶段模型目前能达到更好的效果。这可能得益于单阶段模型有关于关系的监督信号可以直接传递到feature map端,使得关系信号参与了更多的模型学习,有利于对关系的捕捉。但是由于本文只提出了若干基线模型,并没有针对单阶段或双阶段模型进行调优,因此目前还不能说单阶段模型一定强于双阶段模型。这还希望参赛选手继续探索。

相比于传统的SGG任务,PSG任务基于全景分割图进行关系配对,要求对于每个关系中主宾物体的id 进行确认。相比于双阶段直接预测全景分割图完成物体id 的划分,单阶段模型需要通过一系列后处理完成这一步骤。若基于现有单阶段模型进一步改进升级,如何在单阶段模型中更有效的完成物体id的确认,生成更好的全景分割图,仍是一个值得探索的话题。

最后,欢迎大家试用HuggingFace:

a8d5786c-22e5-11ed-ba43-dac502259ad0.gif

Demo:https://huggingface.co/spaces/ECCV2022/PSG

关于图像生成的展望

最近大火的基于文字输入的生成模型(如DALL-E2) 着实令人惊叹,但是也有研究表明,这些生成模型可能只是把文本中的几个实体粘合在一起,甚至都没有理解文本中表述的空间关系。

如下图,虽然输入的是「杯子在勺子上」,生成的图片仍然都是「勺子在杯子里」。

a92c6f14-22e5-11ed-ba43-dac502259ad0.png

正巧,PSG数据集标注了基于mask的scene graph关系。

作者可以利用scene graph和全景分割mask作为训练对,得到一个text2mask的模型,在基于mask生成更细致的图片。

因此,PSG数据集有可能也为注重关系的图像生成提供了潜在的解决方案。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1715

    浏览量

    47723
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261
  • 智能制造
    +关注

    关注

    48

    文章

    6293

    浏览量

    80158

原文标题:南洋理工提出全场景图生成PSG任务,像素级定位物体,还得预测56种关系

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广汽集团星源动力推动用户全场景出行体验跃升

    4月12日,以“科技向心”为主题的2026广汽科技日在广汽集团番禺总部正式举办,凝聚广汽二十年混动研发心血的全新动力技术品牌——星源动力重磅亮相。以星源增程、星源插混、星源超级双擎(HEV+)三大动力矩阵为核心,面向全场景出行需求,用实打实的技术推动用户全场景出行体验的跃
    的头像 发表于 04-21 14:16 146次阅读

    华益精点亮相CMEF 慢病管理全场景方案惊艳焕新

    华益精点亮相CMEF 慢病管理全场景方案惊艳焕新
    的头像 发表于 04-14 14:31 162次阅读
    华益精点亮相CMEF 慢病管理<b class='flag-5'>全场景</b>方案惊艳焕新

    寻迹智行:读懂我们的全场景搬运机器人产品矩阵

    寻迹智行多年来凭借深厚的技术积淀与落地经验,已构建了全场景智能移动机器人产品矩阵。
    的头像 发表于 01-19 13:57 366次阅读
    寻迹智行:读懂我们的<b class='flag-5'>全场景</b>搬运机器人产品矩阵

    云边云科技参与发布《生成式人工智能零售业全景探索白皮书》

    一、云边云科技入选生成式人工智能零售业全景探索白皮书生成式人工智能在生产力和效率优化、关键风险防控、产品和服务提升等方面可以发挥重要作用,本次发布的《生成式人工智能零售业
    的头像 发表于 12-15 09:58 665次阅读
    云边云科技参与发布《<b class='flag-5'>生成</b>式人工智能零售业<b class='flag-5'>全景</b>探索白皮书》

    如何选择适合的智驾仿真工具进行场景生成和测试?

    在自动驾驶技术日益发展的背景下,选择合适的智驾仿真工具进行场景生成和测试显得尤为重要。该工具不仅需要支持高精度的场景重建,还需满足多种环境条件和传感器模型的兼容性。本文将深入探讨如何评估不同智驾仿真
    的头像 发表于 11-25 10:32 488次阅读
    如何选择适合的智驾仿真工具进行<b class='flag-5'>场景</b><b class='flag-5'>生成</b>和测试?

    全场景语音交互,告别噪音与回音困扰

    NR2047语音处理芯片集成20-45dB深度降噪和全双工消回音技术,适用于车载、会议、安防等多场景。其核心优势包括:1)ENC环境降噪和AEC消回音技术,显著提升通话清晰度;2)全场景适配能力
    的头像 发表于 11-15 09:19 847次阅读
    让<b class='flag-5'>全场景</b>语音交互,告别噪音与回音困扰

    圆柱电池气动点焊机的全场景应用

    圆柱电池气动点焊机的全场景应用|深圳比斯特自动化
    的头像 发表于 09-29 11:32 591次阅读
    圆柱电池气动点焊机的<b class='flag-5'>全场景</b>应用

    华为携手产业界联合发起全场景构网倡议

    在国际数字能源展2025期间,中国能源研究会、全球太阳能理事会、华为数字能源联合主办了以“全场景构网技术,加速以风光为主的新能源成为主力电源”为主题的全球低碳产业论坛,来自全球的政府能源部门、电网
    的头像 发表于 09-20 09:53 1263次阅读

    12 路 1080P 满负载!米尔 RK3576 补全车载 360° 全景影像视野

    统的高性价比硬件方案。 RK3576开发板标注 一、12 路 1080P:重新定义车载全景影像的 “覆盖上限”传统车载 360° 全景影像多采用 4-6 路摄像头,仅能覆盖车身前后左右基础视角,面对
    发表于 09-11 17:16

    华为Mate XTs 非凡大师及全场景新品发布会召开,多款重磅产品正式亮相

    2025年9月4日,华为Mate XTs 非凡大师及全场景新品发布会在深圳隆重举行,正式推出全新三折叠华为Mate XTs 非凡大师,一同亮相的还有华为ULTIMATE DESIGN非凡大师全新徽标
    发表于 09-05 09:45 1468次阅读
    华为Mate XTs 非凡大师及<b class='flag-5'>全场景</b>新品发布会召开,多款重磅产品正式亮相

    生成式 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成式AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理AI驱动的4D
    的头像 发表于 08-06 11:20 5383次阅读
    <b class='flag-5'>生成</b>式 AI 重塑自动驾驶仿真:4D <b class='flag-5'>场景</b><b class='flag-5'>生成</b>技术的突破与实践

    中软国际全场景AI实践

    近日,中软国际与华为云“同舟共济”战略合作8周年庆典暨“云智能行业赋能,全场景AI正当时”高峰论坛隆重举行,会上中软国际副总裁、AI研究院院长万如意博士发表了题为《中软国际全场景AI实践》的主题演讲
    的头像 发表于 07-24 16:32 1191次阅读

    中软国际推出全场景AI-R1系列产品

    近日,中软国际与华为云“同舟共济”战略合作8周年庆典暨“云智能行业赋能,全场景AI正当时”高峰论坛隆重举行。会上,中软国际正式发布全场景AI-R1系列产品。R1品牌传承中软国际自2000年来依托自研平台迭代创新的理念和初心,面向AI原生应用展开全新范式探索。
    的头像 发表于 07-18 17:18 1655次阅读

    圆满收官!科士达全场景光储生态点燃全球追光者盛宴

    6月13日,SNECPV+2025圆满收官。科士达以600㎡双层全景展台、二十余款硬核产品及智慧能源解决方案,为全球“追光者”呈现了一场集技术高度、场景深度与互动热度的光储充盛宴。展会期间人潮
    的头像 发表于 06-18 09:56 1126次阅读
    圆满收官!科士达<b class='flag-5'>全场景</b>光储生态点燃全球追光者盛宴

    芯资讯|广州唯创电子语音识别芯片:全场景覆盖与长效品质

    在人工智能与物联网技术深度融合的今天,语音识别技术已成为智能设备交互的核心入口。作为国内语音芯片领域的佼佼者,广州唯创电子凭借其全场景覆盖的产品矩阵、超长生命周期保障及严苛的品质管理体系,在语音识别
    的头像 发表于 05-20 08:36 762次阅读
    芯资讯|广州唯创电子语音识别芯片:<b class='flag-5'>全场景</b>覆盖与长效品质