0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

将高级语义信息隐式地嵌入到检测和描述过程中来提取全局可靠的特征

3D视觉工坊 来源:3D视觉工坊 2023-06-30 10:49 次阅读

介绍

以往的特征检测和匹配算法侧重于提取大量冗余的局部可靠特征,这样会导致效率和准确性有限,特别是在大规模环境中挑战性的场景,比如天气变化、季节变化、光照变化等等。

本文将高级语义信息隐式地嵌入到检测和描述过程中来提取全局可靠的特征,即他们设计了一个语义感知检测器,能够从可靠的区域(如建筑物、交通车道)检测关键点,并隐式地抑制不可靠的区域(如天空、汽车),而不是依赖于显式的语义标签。通过减少对外观变化敏感的特征数量,并避免加入额外的语义分割网络,提高了关键点匹配的准确性。此外,生成的描述符嵌入了语义信息后具有更强的鉴别能力,提供了更多的inliers

论文实验是在Aachen DayNight和RobotCar-Seasons数据集上进行的长时大规模视觉定位测试。

出发点

目前最先进效果最好的特征检测和描述算法都是基于学习的方法,由于有大量的训练数据,这些方法能够通过聚焦于有判别性的特征,即从更可靠的区域(如建筑物、交通车道)中提取关键点,但是训练中缺少语义信息,他们选择全局可靠的关键点的能力有限,如下图所示,他们更喜欢从物体中提取局部可靠的特征,包括那些对长时定位没有帮助的特征(如天空、树、汽车),这导致精度有限。

14df48c8-16d1-11ee-962d-dac502259ad0.png虽然也有方法融入过语义这些高层次信息,但它们需要额外的分割网络在测试时提供语义标签,并且很容易出现分割错误,本文则隐式地融入语义信息到检测和描述中去,以此提高匹配的性能,进而提升下游视觉定位的性能。

主要贡献

1.提出了一种新的特征网络,在训练时隐式地将语义融入到检测和描述过程中,使模型能够在测试时产生端到端的语义感知特征。

2.采用语义感知和特征感知相结合的引导策略来使得模型更有效地嵌入语义信息。

3.在长时定位任务上优于以往的局部特征,具有与先进匹配算法相当的精度和较高的效率。

Pipeline

157d3e52-16d1-11ee-962d-dac502259ad0.png

如上图所示,模型由一个编码器和两个解码器组成。一个编码器负责从图像中提取High level的特征,一个解码器预测可靠性图, 一个解码器产生描述符。

语义引导的特征检测:

特征检测器预测的可靠性图为,之前方法预测的可靠性图是由纹理的丰富度主导的。如下图所示,以往的方法只揭示了像素在局部层面的可靠性,缺乏全局层面的稳定性,本文通过考虑局部可靠性和全局稳定性来重新定义特征的可靠性。

159cf152-16d1-11ee-962d-dac502259ad0.png

其中局部可靠性这里用super-point预测的可靠性图,全局稳定性是根据像素所属的语义标签来确定其全局稳定性。具体来说,将ADE20k数据集中的120个语义标签按照它们随时间变化的方式分为四类,分别表示为Volatile、Dynamic、Short-term和Long-term。

165e996a-16d1-11ee-962d-dac502259ad0.png

Volatile(如天空、水)是不断变化的,对于定位来说是多余的。

Dynamic(如汽车、行人)每天都在移动,可能会因为引入错误的匹配而导致定位错误。

Short-term(如树)可以用于短期定位任务(如VO/SLAM),但它们对光照(低反照率)和季节条件的变化很敏感。

Long-term(如建筑、交通灯)不受上述变化的影响,是长时定位的理想对象。

而且他们没有直接过滤不稳定的特征,而是根据期望的抑制程度,根据经验分配的稳定性值对特征重新排序。其中,Long-term对象对于短期和长期定位都是鲁棒的,因此将其稳定性值设置为1.0,Short-term对于短期定位很有用,将其稳定性设置为0.5。Volatile和Dynamic类别的稳定性值被设置为0.1,因为它们对于短期/长期定位都没有用处。重新排序策略鼓励模型优先使用稳定的特征,当发现不稳定的关键点时,使用来自其他对象的关键点作为补偿,增加了模型对各种任务的鲁棒性(如特征匹配、短期定位)。

然后将局部可靠性图与全局稳定性图相乘得到全局可靠性图。

语义引导的特征描述:

通过在描述符中嵌入语义来增强它们的区分能力。与之前的描述符仅根据局部patch信息区分关键点不同的是,本文的描述符加强了同一类特征的相似性,同时保留了类内匹配的不相似性。但在训练过程中,这两种力量相互冲突,因为类间判别能力需要挤压同一类中描述符的空间,而类内判别能力需要增加空间。

为了解决这个问题,本文基于两种不同的度量设计里类间损失和类内损失。

类间损失:先通过最大化不同标签描述符之间的欧几里德距离来增强特征的语义一致性。这使得特征可以从具有相同标签的候选对象中找到对应,减少了搜索空间,从而提高了匹配的准确性。定义了基于三态损失的类间损失,该损失具有硬边距,用于将一批不同标签的所有可能的正负关键点分离开来。

16973c2a-16d1-11ee-962d-dac502259ad0.png

类内损失:为了确保类内损失不会与类间损失冲突,放宽了具有相同标签的描述符之间距离的限制。采用了软排序损失,而不是使用硬边的三重损失,通过优化正样本和负样本的排序而不是它们的距离。通过对所有样本的排序进行优化,而不是像带硬边缘的三态损失那样在正负对之间强制设置硬边界,软排序损失也保持了同一类对象上特征的多样性。

16a7c5cc-16d1-11ee-962d-dac502259ad0.png16c1206c-16d1-11ee-962d-dac502259ad0.png

最终的损失为:

172181b4-16d1-11ee-962d-dac502259ad0.png

实验

在Aachen (v1.0和v1.1)和RobotCar-Seasons数据集上测试了各种光照、季节和天气条件下的方法。

Aachen v1.0包含了在亚琛城市周围捕获的4328张参考图片和922张(824天,98夜)查询图片。

Aachen v1.1对v1.0进行了扩展,添加了2369张参考图片和93张夜间查询图片。

RobotCar-Seasons有26121个参考图像和11934个查询图像,由于郊区白天(雨、雪、黄昏、冬季)查询图像的条件多样,夜间查询图像的光照条件较差,因此具有一定的挑战性。

采用错误阈值(2◦,0.25m),(5◦,0.5m),(10◦,5m)的成功率作为度量。

baseline:

基线包括经典的方法(C),如AS v1.1、CSL和CPF以及使用语义的方法(S),如LLN、SMC、SSM、DASGIL、ToDayGAN和LBR。

还与学习的特征和稀疏/密集匹配器(M)进行了比较,例如,Superglue (SPG) , SGMNet , ClusterGNN和ASpanFormer , LoFTER , Patch2Pix , Dual-RCNet。

173707a0-16d1-11ee-962d-dac502259ad0.png176a3d3c-16d1-11ee-962d-dac502259ad0.png17a6bce4-16d1-11ee-962d-dac502259ad0.png

可以看出其方法在定位下游任务和最先进的方法表现持平或超过。

匹配定性结果:

17dd0c54-16d1-11ee-962d-dac502259ad0.png

运行时间比较:

18243598-16d1-11ee-962d-dac502259ad0.png

其方法可以说是又快又准了!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    41

    文章

    3364

    浏览量

    131576
  • 检测器
    +关注

    关注

    1

    文章

    811

    浏览量

    47295
  • 数据
    +关注

    关注

    8

    文章

    6514

    浏览量

    87610

原文标题:CVPR 2023 | 融入语义的特征检测和描述,更快更准!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于OWL属性特征语义检索研究

    【来源】:《电子设计工程》2010年02期【摘要】:在文献检索,概念的语义相似度计算直接影响查准率和查全率指标。本体描述语言OWL(Web Ontology Language)的属
    发表于 04-24 09:48

    嵌入式 Linux 学习过程中的各种连接

    本帖最后由 eehome 于 2013-1-5 10:01 编辑 嵌入式 Linux 学习过程中的各种连接是困扰初学者的一大难题。众多的软件,各种各样的连接方法,让“菜鸟”们头痛不已。 “明明
    发表于 06-05 21:33

    模拟电路故障诊断特征提取方法

    实验确定,因此小波母函数、小波系数、小波网络结构及学习算法的优选问题都是亟待解决的问题。  基于故障信息量的特征提取  基于故障信息量的特征提取
    发表于 12-09 18:15

    浅析嵌入式系统软件的可靠性测试难点

    的异常、错误信息和正常响应信息等测试结果都需要返回到主机上进行显示和输出。在嵌入式软件测试环境的搭建过程中,需要测试嵌入式系统与已建设备是否
    发表于 08-02 10:05

    NLPIR在文本信息提取方面的优势介绍

    构建知识图谱需要满足三项要素要求,分别是实体,关系和属性。文本信息提取,则是在文本中提出三元信息,包括实体和关系的信息,实体和属性的信息,然后
    发表于 09-12 15:33

    文本信息抽取的分阶段详细介绍

    文本信息是有具体的单元结构组成,包括句子,段落,篇章。文本信息抽取是指对现有文本数据进行信息抽取的过程,抽取单位也有具体单位组成。比如抽取文本数据
    发表于 09-16 15:03

    如何成为高级嵌入式工程师

    怎么学习怎么积累成为高级嵌入式系统硬件工程师?还要具备的技能;‘在学习单片机的过程中积累必要的学习经验和知识是非常有必要的,如何在这一过程中逐渐成为
    发表于 03-05 07:35

    在分布嵌入式系统的过程中利用Jini技术有什么优势?

    在构建分布嵌入式系统的过程中利用Jini技术,不但可以降低系统的开发难度、实现嵌入式环境基于服务级的互操作,而且可使系统具有很好的灵活性
    发表于 04-28 06:46

    嵌入式特征选择的知识点,绝对实用

    嵌入式特征选择是特征选择过程与学习器训练过程融为一体,两者在同一个优化
    发表于 10-28 06:58

    van-自然和医学图像的深度语义分割:网络结构

    提高获取全局信息的能力。输入图像后,使用预训练的带空洞卷积ResNet提取特征图。最终的特征映射大小是输入图像的1/8;在
    发表于 12-28 11:03

    van-自然和医学图像的深度语义分割:网络结构

    提高获取全局信息的能力。输入图像后,使用预训练的带空洞卷积ResNet提取特征图。最终的特征映射大小是输入图像的1/8;在
    发表于 12-28 11:06

    基于TICA和GMM的视频语义概念检测算法

    ,通过TICA算法进行视频片段的特征提取,该特征提取算法能够学习到视频片段复杂不变性特征;其次利用CMM方法对视频视觉特征进行建模,描述视频
    发表于 12-22 15:24 0次下载
    基于TICA和GMM的视频<b class='flag-5'>语义</b>概念<b class='flag-5'>检测</b>算法

    散乱点云数据特征信息提取算法

    随着三维扫描和数字信息化的快速发展,基于点模型的三维信息逆向建模技术已成为当前研究的热点。该技术在模具设计、3D打印、虚拟现实、城市勘测以及文物修复等领域得到广泛应用。在模型重建的过程中,点模型
    发表于 01-30 16:35 0次下载
    散乱点云数据<b class='flag-5'>特征</b><b class='flag-5'>信息提取</b>算法

    结合双目图像的深度信息跨层次特征语义分割模型

    为改善单目图像语义分割网络对图像深度变化区域的分割效果,提出一种结合双目图像的深度信息和跨层次特征进行互补应用的语义分割模型。在不改变已有单目孪生网络结构的前提下,利用该模型分别
    发表于 03-19 14:35 20次下载
    结合双目图像的深度<b class='flag-5'>信息</b>跨层次<b class='flag-5'>特征</b>的<b class='flag-5'>语义</b>分割模型

    基于全局特征金字塔网络的信息融合方法

    全局语义信息特征网络,并采用反向过程对原始特征层进行重新标度,从而使得每个
    发表于 03-24 14:51 13次下载
    基于<b class='flag-5'>全局</b><b class='flag-5'>特征</b>金字塔网络的<b class='flag-5'>信息</b>融合方法