0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TransGeo:第一种用于交叉视图图像地理定位的纯Transformer方法

3D视觉工坊 来源:3D视觉工坊 2023-01-16 11:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

主要内容:

提出了第一种用于交叉视图图像地理定位的纯Transformer方法,在对齐和未对齐的数据集上都实现了最先进的结果,与基于CNN的方法相比,计算成本更低,所提出的方法不依赖于极坐标变换和数据增强,具有通用性和灵活性。

论文出发点:

基于CNN的交叉视图图像地理定位主要依赖于极坐标变换,无法对全局相关性进行建模,为了解决这些限制,论文提出的算法利用Transformer在全局信息建模和显式位置信息编码方面的优势,还进一步利用Transformer输入的灵活性,提出了一种注意力引导的非均匀裁剪方法去除无信息的图像块,性能下降可以忽略不计,从而降低了计算成本,节省下来的计算可以重新分配来提高信息patch的分辨率,从而在不增加额外计算成本的情况下提高性能。

这种“关注并放大”策略与观察图像时的人类行为高度相似。

图像地理定位(名词解释):

基于图像的地理定位旨在通过检索GPS标记的参考数据库中最相似的图像来确定查询图像的位置,其应用在大城市环境中改善具有大的噪声GPS和导航,在Transformer出现之前,通常使用度量学习损失来训练双通道CNN框架,但是这样交叉视图检索系统在街道视图和鸟瞰视图之间存在很大的领域差距,因为CNN不能明确编码每个视图的位置信息,之后为了改善域间隙,算法在鸟瞰图像上应用预定义的极坐标变换,变换后的航空图像具有与街景查询图像相似的几何布局,然而极坐标变换依赖于与两个视图相对应的几何体的先验知识,并且当街道查询在空间上未在航空图像的中心对齐时,极坐标转换可能会失败。

Contribution:

提出了第一种基于Transformer的方法用于交叉视图图像地理定位,无需依赖极坐标变换或数据增强。

提出了一种注意力引导的非均匀裁剪策略,去除参考航空图像中的大量非信息补丁以减少计算量,性能下降可忽略不计,通过将省下来的计算资源重新分配到信息patch的更高图像分辨率进一步提高了性能。

与基于CNN的方法相比,在数据集上的最先进性能具有更低的计算成本、GPU内存消耗和推理时间。

网络架构:

251123c0-952a-11ed-bfe3-dac502259ad0.png

25375ea0-952a-11ed-bfe3-dac502259ad0.png

Patch Embedding:

256d4ab0-952a-11ed-bfe3-dac502259ad0.png

Class Token:

最后一层输出的类token被送到一个MLP头以生成最终的分类向量,使用最终输出向量作为嵌入特征,并使用上面说的损失对其进行训练。

可学习的位置嵌入:

位置嵌入被添加到每个token以保持位置信息,采用了可学习的位置嵌入,这是包括class token在内的所有(N+1)token的可学习矩阵,可学习的位置嵌入使双通道Transformer能够学习每个视图的最佳位置编码,而无需任何关于几何对应的先验知识,因此比基于CNN的方法更通用和灵活。

多头注意力:

Transformer编码器内部架构是L个级联的基本Transformer,关键组成部分是多头注意力块,它首先使用三个可学习的线性投影将输入转换为查询、键和值,表示为Q、K、V,维度为D,然后将注意力输出计算为

258decca-952a-11ed-bfe3-dac502259ad0.png

,一个k-head注意力块用k个不同的head对Q、k、V进行线性投影,然后对所有k个head并行执行attention,输出被连接并投影回模型维度D,多头注意力可以模拟从第一层开始的任意两个标记之间的强全局相关性,这在CNN中是不可能学习的,因为卷积的接受域有限。

Attention引导的非均匀裁剪:

当寻找图像匹配的线索时,人类通常会第一眼找到最重要的区域,然后只关注重要的区域并放大以找到高分辨率的更多细节,把“关注并放大”的思想用在交叉图像地理定位中可能更有益,因为两个视图只共享少量可见区域,一个视图中的大量区域,例如鸟瞰图中的高楼屋顶,在另一个视图可能看不见,这些区域对最终相似性的贡献微不足道,可以去除这些区域以减少计算和存储成本,然而重要的区域通常分散在图像上,因此CNN中的均匀裁剪不能去除分散的区域,因此提出了注意力引导的非均匀裁剪

25af1c06-952a-11ed-bfe3-dac502259ad0.png

在鸟瞰分支的最后一个transformer编码器中使用注意力图,它代表了每个token对最终输出的贡献,由于只有class token对应的输出与MLP head连接,因此选择class token与所有其他patch token之间的相关性作为注意力图,并将其重塑为原始图像形状。

模型优化:

为了在没有数据增强的情况下训练Transformer模型,采用了正则化/泛化技术ASAM。在优化损失时使用ASAM来最小化损失landscape的自适应锐度使得该模型以平滑的损失曲率收敛以实现强大的泛化能力。

25e54cd6-952a-11ed-bfe3-dac502259ad0.png

通过同时最小化的损失和自适应锐度,能够在不使用任何数据增强的情况下克服过拟合问题

实验:

在两个城市规模的数据集上进行了实验,即CVUSA和VIGOR,分别代表了空间对齐和非对齐设置

评估度量:在top-k召回准确率,表示为“R@k”,基于每个查询的余弦相似度检索嵌入空间中的k个最近参考邻居,如果地面真实参考图像出现在前k个检索图像中,则认为其正确。

预测GPS位置和地面真实GPS位置之间的真实世界距离作为VIGOR数据集上的米级别的评估。

命中率,即覆盖查询图像(包括地面真相)的前1个检索参考图像的百分比

2600fff8-952a-11ed-bfe3-dac502259ad0.png

26217bf2-952a-11ed-bfe3-dac502259ad0.png

264e90e2-952a-11ed-bfe3-dac502259ad0.png

和之前SOTA方法SAFA在计算代价上的比较

26602d3e-952a-11ed-bfe3-dac502259ad0.png

总结:

提出了第一种用于交叉视图图像地理定位的纯Transformer方法,在对齐和未对齐的数据集上都实现了最先进的结果,与基于CNN的方法相比,计算成本更低。

缺点是使用两个管道,且patch选择简单地使用不可通过参数学习的注意力图。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1095

    浏览量

    42155
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046
  • cnn
    cnn
    +关注

    关注

    3

    文章

    355

    浏览量

    23247

原文标题:CVPR 2022 | TransGeo:第一种用于交叉视图图像地理定位的纯Transformer方法

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Linux 下交叉编译实战:跑起来你的第一个 STM32 程序

    很多开发者第一次接触STM32,总会被“交叉编译”、“烧录程序”等概念绕晕。其实方法很简单:在Linux下配置交叉编译环境,编写简单程序,然后烧录到STM32,就可以看到成果了。本文带
    的头像 发表于 11-24 19:04 236次阅读
    Linux 下<b class='flag-5'>交叉</b>编译实战:跑起来你的<b class='flag-5'>第一</b>个 STM32 程序

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    Transformer 模型的后继者 二、用创新方法实现深度学习AI芯片 1、基于开源RISC-V的AI加速器 RISC-V是一种开源、模块化的指令集架构(ISA)。优势如下: ①模块化特性②标准接口③开源
    发表于 09-12 17:30

    基于 SSID 的 Wi-Fi 定位:与其他定位服务的性能比较

    一种著名的无线网络技术,用于设备的局域网和互联网接入。Wi-Fi 通过 Wi-Fi 网络为家庭、办公室和学校等环境提供便捷的无线互联网接入服务。 Wi-Fi 定位一种地理定位功能
    发表于 08-31 21:01

    一种新的无刷直流电机反电动势检测方法

    无位置传感器无刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用无刷直流电机的数学模型,根据反电动势检测原理,提出了一种新的线反电动势检测方法
    发表于 08-07 14:29

    一种新的无刷直流电机反电动势检测方法

    无位置传感器无刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用无刷直流电机的数学模型,根据反电动势检测原理,提出了一种新的线反电动势检测方法
    发表于 08-04 14:59

    一种基于PWM的电压输出DAC电路设计

    误差的方法,论文给出了两从PWM到0~5V电压输出的电路实现方法,第2电路具有很高的转换精度。 分享帖,点击下方附件免费获取完整资
    发表于 08-04 14:58

    一种带通滤波器在无位置传感器转子检测中的应用

    摘 要:论文研究了一种直流无刷电机的无位置传感器的转子位置的硬件电路检测方法。结合传统“反电动势\"方法,分析并设计了一种新的带通滤波器延时检测电路。该电路不仅可以抑制高频分量和消除直
    发表于 08-04 14:56

    电源效率测量方法

    本课程讲义用于将向大家介绍测量开关电源 转换效率的两不同方法第一种方法使用个瓦特表和两个万用表; 第二
    发表于 05-12 16:13

    Wi-Fi 定位服务

    Wi-Fi 是一种著名的无线网络技术,用于设备的局域网和互联网接入。Wi-Fi 通过 Wi-Fi 网络为家庭、办公室和学校等环境提供便捷的无线互联网接入服务。 Wi-Fi 定位一种地理定位
    发表于 04-17 15:01

    AI驱动的板载地理定位-由瑞苏盈科FPGA SoM加速!

    在当今数字化与智能化深度融合的时代,地理定位技术作为连接虚拟数字世界与现实物理空间的关键纽带,其重要性与日俱增。从人们日常使用的出行导航APP,到关乎国家安全的军事国防应用,从商业领域精准的市场营销
    的头像 发表于 04-11 09:04 569次阅读
    AI驱动的板载<b class='flag-5'>地理定位</b>-由瑞苏盈科FPGA SoM加速!

    一种永磁电机用转子组件制作方法

    。 本文着重阐述了这种电机转子使用胶粘剂对磁钢和芯轴直接粘接的制造方法,不需要进行同轴度机加工,并为这种制造方法提供了一种自动调心定位机构;并研究了磁钢零件的同轴度与产品最终装配后组件
    发表于 03-25 15:20

    transformer专用ASIC芯片Sohu说明

    2022年,我们打赌说transformer会统治世界。 我们花了两年时间打造Sohu,这是世界上第一用于transformer(ChatGPT中的“T”)的专用芯片。 将
    的头像 发表于 01-06 09:13 1675次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明

    Mamba入局图像复原,达成新SOTA

    图像复原又来新突破了!还记得性能超越SwinIR(基于Transformer)的MambaIR吗?一种基于Mamba的图像复原基准模型,登上ECCV 2024。最近原作者又开发了新版本
    的头像 发表于 12-30 18:09 1616次阅读
    Mamba入局<b class='flag-5'>图像</b>复原,达成新SOTA

    全球地理定位技术的发展历程

    根据 Google 提供的数据,目前有 5,465 颗卫星在环绕地球轨道运行,其中有 154 颗卫星主要用于导航。
    的头像 发表于 12-16 11:37 1561次阅读

    如何使用图像采集卡

    图像进行处理和存储。本文旨在详细探讨图像采集卡的定义、功能、安装和使用方法,以帮助读者更好地理解和利用这设备。
    的头像 发表于 12-13 15:03 1737次阅读
    如何使用<b class='flag-5'>图像</b>采集卡