0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于统计频率的 baseline 方法

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-22 10:35 次阅读

1引言

场景图是一种结构表示,它将图片中的对象表示为节点,并将它们的关系表示为边。最近,场景图已成功应用于不同的视觉任务,例如图像检索[3]、目标检测、语义分割、图像合成[4]和高级视觉-语言任务(如图像字幕[1]或视觉问答[2]等)。它是一种具有丰富信息量的整体场景理解方法,可以连接视觉和自然语言领域之间巨大差距的桥梁。

虽然从单个图像生成场景图(静态场景图生成)取得了很大进展,但从视频生成场景图(动态场景图生成)的任务是新的且更具挑战性。最流行的静态场景图生成方法是建立在对象检测器之上的,然后推断它们的关系类型以及它们的对象类。然而,物体在视频序列的每一帧中不一定是一致的,任意两个物体之间的关系可能会因为它们的运动而变化,具有动态的特点。在这种情况下,时间依赖性发挥了作用,因此,静态场景图生成方法不能直接应用于动态场景图生成,这在[5]中进行了充分讨论。

65cbd49c-f7da-11ed-90ce-dac502259ad0.png

图1. 场景图分类

2 静态场景图

2.1 任务定义

静态场景图生成任务(Staticscene graph generation)目标是让计算机自动生成一种语义化的图结构(称为 scenegraph,场景图),作为图像的表示。图像中的目标对应 graph node,目标间的关系对应 graph edge(目标的各种属性,如颜色,有时会在图中表示)。 这种结构化表示方法相对于向量表示更加直观,可以看作是小型知识图谱,因此可以广泛应用于知识管理、推理、检索、推荐等。此外,该表示方法是模态无关的,自然语言、视频、语音等数据同样可以表示成类似结构,因此对于融合多模态信息很有潜力。

65ec1644-f7da-11ed-90ce-dac502259ad0.png

图2.静态场景图生成任务图例

2.2 数据集

Visual Genome(VG)[6]于2016年提出,是这个领域最常用的数据集,包含对超过 10W 张图片的目标、属性、关系、自然语言描述、视觉问答等的标注。与此任务相关的数据总结如下:

物体:表示为场景图中节点,使用bounding box标注物体的坐标信息,包含对应的类别信息。VG包含约17000种目标。

关系:表示为场景图中边,包含动作关系,空间关系,从属关系和动词等。VG中包含约13000种关系。

属性:可以是颜色,状态等。Visual Genome 包含约 155000 种属性。

2.3 方法分类

方法分类如下:

P(O,B,R | I) = P(O,B | I) * P(R| I,O,B),即先目标检测,再进行关系预测(有一个专门研究该子任务的领域,称为研究视觉关系识别,visual relationship detection)。最简单的方法是下文中基于统计频率的 baseline 方法,另外做视觉关系检测任务的大多数工作都可以应用到这里。

P(O,B,R | I) = P(B | I) * P(R,O| I,O,B),即先定位目标,然后将一张图片中所有的目标和关系看作一个未标记的图结构,再分别对节点和边进行类别预测。这种做法考虑到了一张图片中的各元素互为上下文,为彼此分类提供辅助信息。事实上,自此类方法提出之后[7],才正式有了 scenegraph generation 这个新任务名称(之前基本都称为visual relationship detection)。

2.4 评价指标

最常用的评价指标是 recall@topk, 即主谓宾关系三元组 在选取前 k 个最可信预测结果的召回率。三元组的confidence score一般采用 score(subject) * score(object) * score(predicate) 。如果在排序时,一对目标只选取最可信的那组关系来排序,则称之为 constrained scene graph generation;如果一对目标所有的关系三元组都参与排序,即一组目标可能预测多个关系,则称之为 unconstrained scene graph generation。这两种方式分别对应两种 recall 指标。

3 动态场景图

3.1 任务定义

动态场景图与静态场景图不同,动态场景图以视频作为输入,输出分为两种情况:输出每一帧对应的场景图(帧级别场景图);输出每一段视频对应的场景图(片段级别场景图)。这种结构化的表示可以表征实体之间随时间变化的动作及状态。

663a7640-f7da-11ed-90ce-dac502259ad0.png

图3.静态/动态场景图区别示例

3.2 帧级别

3.2.1数据集

Action Genome该数据集是Visual Genome表示的带时间版本,然而,Visual Genome的目的是详尽的捕捉图中每一个区域的物体和关系,而Action Genome的目标是将动作分解,专注于对那些动作发生的视频片段进行标注,并且只标注动作涉及的对象。Action Genome基于Charades进行标注,该数据集包含157类别动作,144个是人类-物体活动。在Charades中,有很多动作可以同时发生。共有234253个frame,476229个bounding box,35个对象类别,1715568个关系,25个关系类别。

3.2.2 方法

Spatial-temporalTransformer(STTran)[8]:一种由两个核心模块组成的神经网络:一个空间编码器,它采用输入帧来提取空间上下文并推断帧内的视觉关系,以及一个时间解码器它将空间编码器的输出作为输入,以捕获帧之间的时间依赖性并推断动态关系。此外,STTran 可以灵活地将不同长度的视频作为输入而无需剪辑,这对于长视频尤为重要。

665745d6-f7da-11ed-90ce-dac502259ad0.png

图4.STTrans模型结构

3.2.3 主实验结果

668744de-f7da-11ed-90ce-dac502259ad0.png

图5.STTrans模型实验结果

3.2.4 样例测试

66a8af0c-f7da-11ed-90ce-dac502259ad0.png

图6. 样例

3.3 片段级别

3.3.1 数据集

VidVRD提出了一个新颖的VidVRD任务,旨在探索视频中物体之间的各种关系,它提供了一个比ImgVRD更可行的VRD任务,通过目标轨迹建议、关系预测和贪婪关系关联来检测视频中的视觉关系,包含1000个带有手动标记的视觉关系的视频,被分解为30帧的片段,其中由15帧重叠,再进行谓词标记。30类+(人、球、沙发、滑板、飞盘)=35类(独立,没有对象之间的包含关系),14个及物动词、3个比较词、11个空间谓词,11个不及物动词,能够衍生160类谓词。

3.3.2 方法

VidSGG提出了一个新的框架,在此框架下,将视频场景图重新表述为时间二分图,其中实体和谓词是两类具有时隙的节点,边表示这些节点之间的不同语义角色。

66c7eaa2-f7da-11ed-90ce-dac502259ad0.png

图7.VidVRD任务示例

66fdec92-f7da-11ed-90ce-dac502259ad0.png

图8.BIG-C模型结构

3.3.3 主实验结果

6716a82c-f7da-11ed-90ce-dac502259ad0.png

图9.BIG-C模型实验结果

3.3.4 样例测试

672a226c-f7da-11ed-90ce-dac502259ad0.png

图10.对话情绪识别示例

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    812

    浏览量

    47317
  • Baseline
    +关注

    关注

    0

    文章

    3

    浏览量

    6820
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24390

原文标题:哈工大SCIR | 场景图生成简述

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    看门狗唤醒导致baseline降低的原因?

    如图所示,休眠前baseline是2716,看门狗唤醒后baseline的值变成了2299,导致信号触发。请帮忙分析有哪些可能导致baseline降低,谢谢。
    发表于 02-04 06:59

    6678功耗计算工具中baseline功耗问题

    如题,我在评估板相关文档中看到了一个计算芯片功耗的工具。在使用时发现一个比较令我疑惑的地方:无论如何调整各个部件的参数,最终计算芯片总功耗的时候总会加上一个相对较大的(大约8W)baseline功耗。我想请问,这一部分功耗来自哪里,有没有可能进行削减?
    发表于 06-21 03:24

    8168编码的问题,如何编出baseline profile 3.1的H264码流

    目前对于720p的数据 编译出来baseline 4.1格式  能否编出baseline 3.1格式的720p的H264码流
    发表于 06-21 04:25

    统计学习方法数据挖掘

    统计学习方法C1概论
    发表于 10-29 09:12

    用STM32测量频率和占空比的几种方法

    由于我们当时的题目除了测量频率之外,更麻烦的是测量占空比。而这两个的测量方法联系比较紧密,所以也一并把测量占空比的方法写出来。使用平台:官方STM32F429DISCOVERY开发板,180MHz
    发表于 05-30 07:00

    统计的学习方法

    统计学习方法感知机
    发表于 07-15 10:33

    基于统计理论的多传感器信息融合方法

    多传感器信息融合技术引起了工业测量系统的改变,是智能仪表的发展方向。针对工业中干扰的特点,提出一种基于统计理论的信息融合方法,它采用高等数学的方法求解具有多变量约
    发表于 06-22 10:11 9次下载

    数字频率表设计方法

    数字频率表设计方法 设计要求1.设计一个能测量方波信号频率频率计,测量结果用十进制数显示。2.测量的频率范围是1
    发表于 04-29 16:15 2355次阅读
    数字<b class='flag-5'>频率</b>表设计<b class='flag-5'>方法</b>

    支持Baseline和Extended Sequential

    支持Baseline和Extended Sequential的JPEG编码IP核 CAST公司宣布提供独有的同时支持Baseline(8位)和Extended Sequential(12位)
    发表于 05-18 09:22 605次阅读

    基于相关度统计的同步扰码盲识别方法

    基于相关度统计的同步扰码盲识别方法_吕全通
    发表于 01-07 16:24 0次下载

    基于特高频谱图统计参量的局部放电定位方法研究_彭超

    基于特高频谱图统计参量的局部放电定位方法研究_彭超
    发表于 01-08 13:49 0次下载

    基于统计和理解的自动摘要方法

    针对微博内容驳杂、信息稀疏的问题,深入研究传统自动摘要技术,结合微博数据特点,在微博事件提取的基础上提出一种基于统计和理解的混合摘要方法。首先根据词频、句子位置等文本特征得到基于统计的初始摘要;然后
    发表于 11-29 14:51 0次下载
    基于<b class='flag-5'>统计</b>和理解的自动摘要<b class='flag-5'>方法</b>

    基于步数步幅统计的测距方法

    结构构建是室内地图构建的基础,而室内测距是结构构建中的核心问题。为克服现有测距方法中成本高或精度低的不足,在融合了多种智能手机传感器数据的基础上,重新设计了基于步数步幅统计的测距方法。在步数
    发表于 11-30 17:33 1次下载
    基于步数步幅<b class='flag-5'>统计</b>的测距<b class='flag-5'>方法</b>

    python统计词频的三种方法

    python统计词频的三种方法方法
    发表于 05-25 14:33 2次下载

    人工智能baseline是什么意思?

    人工智能baseline是什么意思? 人工智能(AI)是当今技术领域中最受关注的领域之一。AI的应用范围非常广泛,从自动驾驶汽车到语音识别等方面。对于AI的研究,没有一个明确的终极目标,而是一步一步
    的头像 发表于 08-22 15:59 3715次阅读